Google heeft onlangs een grote stap gezet in de wereld van kunstmatige intelligentie (AI) met de lancering van het Gemini 2.5 Computer Use model. Dit speciale model stelt AI in staat om zelfstandig door websites en applicaties te navigeren door te klikken, typen en scrollen, vergelijkbaar met hoe mensen dat doen. Deze ontwikkeling kan leiden tot meer zelfstandige AI-systemen die digitale taken kunnen uitvoeren zonder dat er menselijke hulp nodig is.
8 oktober om 16:10 • Door onze nieuwsredactie • Leestijd: 1 min.
Nieuwe mogelijkheden in digitale interactie
Tot nu toe konden AI-systemen meestal alleen communiceren met software via zogenaamde API’s, een soort digitale bruggen die ze toegang geven tot bepaalde functies. Veel taken op het internet en in software vereisen echter rechtstreeks contact met grafische gebruikersinterfaces, zoals het klikken op knoppen of het invullen van formulieren. Deze menselijke manier van interactie, zoals het scrollen door een pagina of het aanklikken van een dropdownmenu, was voor AI moeilijk om na te bootsen. Met Gemini 2.5 is dat verleden tijd.
Hoe werkt het precies?
Het systeem gebruikt een tool genaamd `computer_use` binnen de Gemini API. Simpel gezegd, het begint met de gegevens van de gebruiker, bijvoorbeeld het verzoek om een bepaalde taak uit te voeren. Het kijkt naar een afbeelding van de huidige computerscherm en houdt bij wat het eerder heeft gedaan. Op basis hiervan beslist het model wat de volgende actie moet zijn, zoals klikken op een specifieke knop.
Dit is vergelijkbaar met hoe mensen leren door te observeren en te reageren op wat ze zien. Als het model niet zeker is over een actie, kan het de gebruiker om een bevestiging vragen, vooral bij belangrijke handelingen zoals aankopen. Na elke stap stuurt het systeem nieuwe informatie terug om de omgeving te blijven volgen en de taak voort te zetten totdat deze voltooid is.
Geoptimaliseerd voor web en mobiel
Het Gemini 2.5 Computer Use model is ontworpen om het beste te werken met webpagina’s, maar het presteert ook goed op mobiele interfaces. Momenteel is het niet specifiek afgestemd op desktopsystemen, wat erop wijst dat Google hier in de toekomst mogelijk een aparte oplossing voor zal ontwikkelen.
In demonstraties toonde Google aan hoe het model zelfstandig tussen websites kan navigeren om informatie te verzamelen. Bijvoorbeeld, het kon gegevens van dieren met een specifieke locatie verzamelen en deze verwerken in een klantbeheersysteem. Ook kon het een digitale notitie netjes ordenen door plaknotities op een virtueel bord in de juiste categorieën te slepen.
Onderdeel van de grotere Gemini-familie
Het Computer Use model is slechts een onderdeel van de bredere uitrol van het Gemini 2.5-model. Deze serie van AI-modellen, die door Google worden omschreven als de meest intelligente tot nu toe, kan “nadenken” voordat het antwoorden geeft, wat leidt tot meer nauwkeurige en betrouwbare resultaten.
De eerste versie, Gemini 2.5 Pro, bereikte al snel de top van een aantal prestatietesten en laat andere modellen ver achter zich. Het focust op het verbeteren van basisvaardigheden en specifieke toepassingen, zoals het creëren van aantrekkelijk ogende webapplicaties en het nauwkeurig transformeren en bewerken van code.
Een verbeterde gebruikerservaring
Google heeft ook andere delen van het Gemini 2.5-model verbeterd, zoals de “Flash” variant, die nu antwoorden beter organiseert en informatie visueel aantrekkelijker weergeeft met kopjes en tabellen. Dit zorgt ervoor dat zelfs complexe informatie toegankelijk blijft voor gebruikers.
Daarnaast biedt Google voor hun premium gebruikers, die de Google AI Ultra-abonnementen hebben, de nieuwe “Deep Think” modus. Deze modus helpt bij lastige problemen door meerdere oplossingen parallel te bedenken, net zoals mensen dat doen bij ingewikkelde vraagstukken.
Toekomstige impact en beschikbaarheid
Ontwikkelaars kunnen nu al met deze nieuwe functies aan de slag in Google AI Studio. Het Computer Use model is binnenkort ook beschikbaar in Vertex AI. Deze vooruitgang zorgt ervoor dat er meer AI-systemen komen die volledig digitale handelingen kunnen uitvoeren.
De volgende stappen zijn om feedback van ontwikkelaars te verzamelen en het systeem verder te verbeteren. Hoewel de technologie nog niet perfect is, kunnen we verwachten dat deze snel zal evolueren, wat waarschijnlijk grote invloed zal hebben op hoe bedrijven hun processen automatiseren en hoe we technologie in ons dagelijks leven integreren.
Dit artikel is tot stand gekomen met behulp van AI en gecontroleerd door onze redactie.
Referentie: https://www.ictmagazine.nl







