De open source computergebruikagenten van OpenCUA concurreren met gepatenteerde modellen van OpenAI en Anthropic

Wilt u slimmere inzichten in uw inbox? Meld u aan voor onze wekelijkse nieuwsbrieven en ontvang alleen wat relevant is voor leiders op het gebied van AI, data en beveiliging voor ondernemingen. Abonneer u nu.
Een nieuw framework van onderzoekers van de Universiteit van Hongkong (HKU) en samenwerkende instellingen biedt een open-sourcebasis voor het ontwikkelen van robuuste AI-agenten die computers kunnen bedienen. Het framework, genaamd OpenCUA , bevat de tools, data en recepten voor het opschalen van de ontwikkeling van computergebruikagenten (CUA's).
Modellen die met dit framework zijn getraind, presteren uitstekend op CUA-benchmarks. Ze overtreffen bestaande open source-modellen en concurreren sterk met gesloten agents van toonaangevende AI-labs zoals OpenAI en Anthropic.
Computergebruikagenten zijn ontworpen om autonoom taken op een computer uit te voeren, van het navigeren op websites tot het bedienen van complexe software. Ze kunnen ook helpen bij het automatiseren van workflows binnen de onderneming. De meest capabele CUA-systemen zijn echter bedrijfseigen, waarbij cruciale details over hun trainingsgegevens, architectuur en ontwikkelingsprocessen privé blijven.
"Omdat het gebrek aan transparantie de technische vooruitgang beperkt en zorgen over de veiligheid oproept, heeft de onderzoeksgemeenschap echt open CUA-kaders nodig om hun mogelijkheden, beperkingen en risico's te bestuderen", stellen de onderzoekers in hun paper .
AI-schaalbaarheid bereikt zijn grenzen
Power caps, stijgende tokenkosten en vertragingen bij inferentie veranderen de AI van bedrijven. Kom naar onze exclusieve salon en ontdek hoe topteams:
- Energie omzetten in een strategisch voordeel
- Het ontwerpen van efficiënte inferentie voor echte doorvoerwinst
- Concurrerende ROI ontsluiten met duurzame AI-systemen
Zorg dat je plek veilig is om voorop te blijven lopen : https://bit.ly/4mwGngO
Tegelijkertijd stuiten open source-initiatieven op hun eigen uitdagingen. Er was geen schaalbare infrastructuur voor het verzamelen van de diverse, grootschalige data die nodig is om deze agents te trainen. Bestaande open source-datasets voor grafische gebruikersinterfaces (GUI's) bevatten beperkte data en veel onderzoeksprojecten bieden onvoldoende details over hun methoden, waardoor het voor anderen moeilijk is om hun werk te repliceren.
Volgens het artikel ‘hinderen deze beperkingen collectief de vooruitgang in algemene CUA’s en beperken ze een zinvolle verkenning van hun schaalbaarheid, generaliseerbaarheid en potentiële leerbenaderingen.’

OpenCUA is een open-sourceframework dat is ontworpen om deze uitdagingen aan te pakken door zowel de dataverzameling als de modellen zelf te schalen. De kern ervan is de AgentNet Tool voor het opnemen van menselijke demonstraties van computertaken op verschillende besturingssystemen.
De tool stroomlijnt de dataverzameling door op de achtergrond te draaien op de pc van een annotator. Hij legt schermvideo's, muis- en toetsenbordinvoer en de onderliggende toegankelijkheidsboom vast, die gestructureerde informatie biedt over elementen op het scherm. Deze ruwe data wordt vervolgens verwerkt tot 'status-actietrajecten', waarbij een screenshot van de computer (de status) wordt gekoppeld aan de bijbehorende actie van de gebruiker (een klik, toetsaanslag, enz.). Annotators kunnen deze demonstraties vervolgens bekijken, bewerken en indienen.

Met behulp van deze tool verzamelden de onderzoekers de AgentNet-dataset, die meer dan 22.600 taakdemonstraties bevat voor Windows, macOS en Ubuntu, verspreid over meer dan 200 applicaties en websites. "Deze dataset legt op authentieke wijze de complexiteit van menselijk gedrag en omgevingsdynamiek vast vanuit de persoonlijke computeromgevingen van gebruikers", aldus het artikel.
De onderzoekers erkenden dat schermopnametools aanzienlijke zorgen over gegevensprivacy met zich meebrengen voor bedrijven, en ontwierpen daarom de AgentNet Tool met beveiliging in gedachten. Xinyuan Wang, co-auteur van het artikel en promovendus aan de HKU, legde uit dat ze een meerlaags privacybeschermingsframework hebben geïmplementeerd. "Ten eerste kunnen annotators zelf de data die ze genereren volledig observeren... voordat ze beslissen of ze deze willen indienen", vertelde hij aan VentureBeat. De data wordt vervolgens handmatig geverifieerd op privacyproblemen en automatisch gescand door een groot model om eventuele resterende gevoelige content te detecteren voordat ze worden vrijgegeven. "Dit gelaagde proces garandeert robuustheid op ondernemingsniveau voor omgevingen die gevoelige klant- of financiële gegevens verwerken", voegde Wang eraan toe.
Om de evaluatie te versnellen, heeft het team ook AgentNetBench samengesteld, een offline benchmark die meerdere juiste acties voor elke stap biedt. Dit biedt een efficiëntere manier om de prestaties van een agent te meten.
Het OpenCUA-framework introduceert een nieuwe pijplijn voor dataverwerking en het trainen van computergebruikagenten. De eerste stap zet de ruwe menselijke demonstraties om in zuivere toestand-actieparen die geschikt zijn voor het trainen van vision-language models (VLM's). De onderzoekers ontdekten echter dat het simpelweg trainen van modellen op deze paren slechts beperkte prestatieverbeteringen oplevert, zelfs met grote hoeveelheden data.

Het belangrijkste inzicht was om deze trajecten te versterken met een keten van gedachte (CoT) redenering. Dit proces genereert een gedetailleerde 'innerlijke monoloog' voor elke actie, die planning, geheugen en reflectie omvat. Deze gestructureerde redenering is onderverdeeld in drie niveaus: een algemene observatie van het scherm, reflectieve gedachten die de situatie analyseren en de volgende stappen plannen, en tot slot de beknopte, uitvoerbare actie. Deze aanpak helpt de agent een dieper begrip van de taken te ontwikkelen.
"Wij vinden dat redeneren in natuurlijke taal cruciaal is voor generaliseerbare basismodellen voor computergebruik, en dat het CUA's helpt cognitieve vaardigheden te internaliseren", schrijven de onderzoekers.
Deze datasynthesepijplijn is een algemeen raamwerk dat door bedrijven kan worden aangepast om agenten te trainen in hun eigen unieke interne tools. Volgens Wang kan een bedrijf demonstraties van zijn eigen workflows opnemen en dezelfde 'reflector'- en 'generator'-pijplijn gebruiken om de benodigde trainingsdata te creëren. "Dit stelt hen in staat om een goed presterende agent te bootstrappen die is afgestemd op hun interne tools, zonder dat ze handmatig redeneertrajecten hoeven te maken", legde hij uit.
De onderzoekers gebruikten het OpenCUA-framework om een reeks open source VLM's te trainen, waaronder varianten van Qwen en Kimi-VL, met parametergroottes van 3 miljard tot 32 miljard. De modellen werden geëvalueerd met behulp van een reeks online en offline benchmarks die hun vermogen om taken uit te voeren en GUI's te begrijpen, testten.
Het model met 32 miljard parameters, OpenCUA-32B, behaalde een nieuw state-of-the-art succespercentage onder open-sourcemodellen in de OSWorld-Verified benchmark. Het overtrof ook OpenAI's GPT-4o-gebaseerde CUA en dichtte de prestatiekloof met de toonaangevende, gepatenteerde modellen van Anthropic aanzienlijk.

Voor zakelijke ontwikkelaars en productleiders biedt het onderzoek verschillende belangrijke bevindingen. De OpenCUA-methode is breed toepasbaar en verbetert de prestaties op modellen met verschillende architecturen (zowel dicht als met een mix van experts ) en groottes. De getrainde agents vertonen ook een sterke generalisatie en presteren goed op een breed scala aan taken en besturingssystemen.
Volgens Wang is het framework bijzonder geschikt voor het automatiseren van repetitieve, arbeidsintensieve workflows binnen bedrijven. "In de AgentNet-dataset hebben we bijvoorbeeld al een paar demonstraties van het starten van EC2-instances op Amazon AWS en het configureren van annotatieparameters op MTurk", vertelde hij aan VentureBeat. "Deze taken omvatten veel opeenvolgende stappen, maar volgen herhaalbare patronen."
Wang merkte echter op dat het overbruggen van de kloof naar een daadwerkelijke implementatie vereist dat belangrijke uitdagingen op het gebied van veiligheid en betrouwbaarheid worden aangepakt. "De grootste uitdaging bij een daadwerkelijke implementatie is veiligheid en betrouwbaarheid: de agent moet fouten vermijden die onbedoeld de systeeminstellingen kunnen wijzigen of schadelijke bijwerkingen kunnen veroorzaken die verder gaan dan de beoogde taak", aldus Wang.
De onderzoekers hebben de code , dataset en gewichten voor hun modellen vrijgegeven.
Naarmate open source-agents die gebouwd zijn op frameworks zoals OpenCUA capabeler worden, zouden ze de relatie tussen kenniswerkers en hun computers fundamenteel kunnen veranderen. Wang voorziet een toekomst waarin vaardigheid in complexe software minder belangrijk wordt dan het vermogen om doelen duidelijk te formuleren voor een AI-agent.
Hij beschreef twee primaire werkmodi: 'offline automatisering, waarbij de agent zijn of haar bredere softwarekennis inzet om een taak van begin tot eind uit te voeren', en 'online samenwerking, waarbij de agent in realtime reageert en zij aan zij met de mens werkt, net als een collega'. In principe zullen de mensen het strategische 'wat' verzorgen, terwijl steeds geavanceerdere AI-agenten het operationele 'hoe' afhandelen.
Wil je indruk maken op je baas? VB Daily is de aangewezen plek. We geven je insiderinformatie over wat bedrijven doen met generatieve AI, van wetswijzigingen tot praktische implementaties, zodat je inzichten kunt delen voor een maximale ROI.
Lees ons privacybeleid
Bedankt voor uw aanmelding. Bekijk hier meer VB-nieuwsbrieven .
Er is een fout opgetreden.

venturebeat