Gli agenti informatici open source di OpenCUA rivaleggiano con i modelli proprietari di OpenAI e Anthropic

Vuoi ricevere informazioni più intelligenti nella tua casella di posta? Iscriviti alle nostre newsletter settimanali per ricevere solo ciò che conta per i leader aziendali in materia di intelligenza artificiale, dati e sicurezza. Iscriviti ora
Un nuovo framework sviluppato dai ricercatori dell'Università di Hong Kong (HKU) e dalle istituzioni che collaborano fornisce una base open source per la creazione di agenti di intelligenza artificiale robusti in grado di gestire computer. Il framework, denominato OpenCUA , include strumenti, dati e ricette per scalare lo sviluppo di agenti di intelligenza artificiale (CUA).
I modelli addestrati utilizzando questo framework hanno ottime prestazioni nei benchmark CUA, superando i modelli open source esistenti e competendo a stretto contatto con gli agenti chiusi dei principali laboratori di intelligenza artificiale come OpenAI e Anthropic.
Gli agenti basati su computer sono progettati per completare autonomamente attività su un computer, dalla navigazione di siti web all'utilizzo di software complessi. Possono anche contribuire all'automazione dei flussi di lavoro aziendali. Tuttavia, i sistemi CUA più efficienti sono proprietari, e i dettagli critici sui loro dati di training, sulle architetture e sui processi di sviluppo rimangono privati.
"Dato che la mancanza di trasparenza limita i progressi tecnici e solleva preoccupazioni in materia di sicurezza, la comunità di ricerca ha bisogno di framework CUA realmente aperti per studiarne le capacità, i limiti e i rischi", affermano i ricercatori nel loro articolo .
La scalabilità dell'intelligenza artificiale raggiunge i suoi limiti
Limiti di potenza, aumento dei costi dei token e ritardi nelle inferenze stanno rimodellando l'intelligenza artificiale aziendale. Partecipa al nostro esclusivo salone per scoprire come i migliori team stanno:
- Trasformare l'energia in un vantaggio strategico
- Progettazione di inferenze efficienti per reali guadagni di produttività
- Sbloccare il ROI competitivo con sistemi di intelligenza artificiale sostenibili
Assicurati il tuo posto per rimanere in vantaggio : https://bit.ly/4mwGngO
Allo stesso tempo, gli sforzi open source si scontrano con una serie di ostacoli. Non esiste un'infrastruttura scalabile per la raccolta dei dati eterogenei e su larga scala necessari per addestrare questi agenti. Gli attuali set di dati open source per le interfacce grafiche utente (GUI) dispongono di dati limitati e molti progetti di ricerca forniscono dettagli insufficienti sui loro metodi, rendendo difficile per altri replicare il loro lavoro.
Secondo il documento, "Queste limitazioni ostacolano collettivamente i progressi nelle CUA di uso generale e limitano un'esplorazione significativa della loro scalabilità, generalizzabilità e potenziali approcci di apprendimento".

OpenCUA è un framework open source progettato per affrontare queste sfide, scalando sia la raccolta dati che i modelli stessi. Il suo cuore è lo strumento AgentNet per la registrazione di dimostrazioni umane di attività informatiche su diversi sistemi operativi.
Lo strumento semplifica la raccolta dati eseguendo in background sul computer personale di un annotatore, acquisendo video dello schermo, input da mouse e tastiera e l'albero di accessibilità sottostante, che fornisce informazioni strutturate sugli elementi sullo schermo. Questi dati grezzi vengono quindi elaborati in "traiettorie stato-azione", associando uno screenshot del computer (lo stato) all'azione corrispondente dell'utente (un clic, la pressione di un tasto, ecc.). Gli annotatori possono quindi rivedere, modificare e inviare queste dimostrazioni.

Utilizzando questo strumento, i ricercatori hanno raccolto il dataset AgentNet, che contiene oltre 22.600 dimostrazioni di attività su Windows, macOS e Ubuntu, che coprono più di 200 applicazioni e siti web. "Questo dataset cattura in modo autentico la complessità dei comportamenti umani e delle dinamiche ambientali degli ambienti informatici personali degli utenti", si legge nel documento.
Riconoscendo che gli strumenti di registrazione dello schermo sollevano notevoli preoccupazioni in termini di privacy dei dati per le aziende, i ricercatori hanno progettato AgentNet Tool tenendo conto della sicurezza. Xinyuan Wang, coautore dell'articolo e dottorando presso la HKU, ha spiegato di aver implementato un framework di protezione della privacy multilivello. "Innanzitutto, gli annotatori stessi possono osservare a fondo i dati che generano... prima di decidere se inviarli", ha dichiarato a VentureBeat. I dati vengono quindi sottoposti a verifica manuale per eventuali problemi di privacy e a scansione automatica da parte di un modello di grandi dimensioni per rilevare eventuali contenuti sensibili rimanenti prima del rilascio. "Questo processo a più livelli garantisce una robustezza di livello aziendale per gli ambienti che gestiscono dati sensibili dei clienti o finanziari", ha aggiunto Wang.
Per accelerare la valutazione, il team ha anche curato AgentNetBench, un benchmark offline che fornisce più azioni corrette per ogni passaggio, offrendo un modo più efficiente per misurare le prestazioni di un agente.
Il framework OpenCUA introduce una nuova pipeline per l'elaborazione dei dati e l'addestramento di agenti informatici. Il primo passaggio converte le dimostrazioni umane grezze in coppie stato-azione pulite, adatte all'addestramento di modelli visione-linguaggio (VLM). Tuttavia, i ricercatori hanno scoperto che il semplice addestramento dei modelli su queste coppie produce miglioramenti limitati delle prestazioni, anche con grandi quantità di dati.

L'intuizione chiave è stata quella di integrare queste traiettorie con il ragionamento basato sulla catena di pensiero (CoT). Questo processo genera un "monologo interiore" dettagliato per ogni azione, che include pianificazione, memoria e riflessione. Questo ragionamento strutturato è organizzato su tre livelli: un'osservazione approfondita dello schermo, pensieri riflessivi che analizzano la situazione e pianificano i passaggi successivi e, infine, l'azione concisa ed eseguibile. Questo approccio aiuta l'agente a sviluppare una comprensione più approfondita dei compiti.
"Riteniamo che il ragionamento in linguaggio naturale sia fondamentale per i modelli generalizzabili di base dell'uso del computer, aiutando le CUA a interiorizzare le capacità cognitive", scrivono i ricercatori.
Questa pipeline di sintesi dei dati è un framework generale che può essere adattato dalle aziende per addestrare gli agenti sui propri strumenti interni. Secondo Wang, un'azienda può registrare dimostrazioni dei propri flussi di lavoro proprietari e utilizzare la stessa pipeline "riflettore" e "generatore" per creare i dati di addestramento necessari. "Questo consente loro di avviare un agente ad alte prestazioni, su misura per i propri strumenti interni, senza dover creare manualmente le tracce di ragionamento", ha spiegato.
I ricercatori hanno applicato il framework OpenCUA per addestrare una gamma di VLM open source, tra cui varianti di Qwen e Kimi-VL, con dimensioni dei parametri da 3 a 32 miliardi. I modelli sono stati valutati tramite una serie di benchmark online e offline che ne testano la capacità di eseguire attività e comprendere le interfacce grafiche.
Il modello da 32 miliardi di parametri, OpenCUA-32B, ha stabilito un nuovo tasso di successo all'avanguardia tra i modelli open source nel benchmark OSWorld-Verified. Ha inoltre superato il CUA basato su GPT-4o di OpenAI e ha colmato significativamente il divario prestazionale con i principali modelli proprietari di Anthropic.

Per gli sviluppatori aziendali e i responsabili di prodotto, la ricerca offre diversi risultati chiave. Il metodo OpenCUA è ampiamente applicabile, migliorando le prestazioni su modelli con architetture diverse (sia dense che con un mix di esperti ) e dimensioni. Gli agenti addestrati mostrano anche una forte generalizzazione, con prestazioni ottimali in una vasta gamma di attività e sistemi operativi.
Secondo Wang, il framework è particolarmente adatto all'automazione di flussi di lavoro aziendali ripetitivi e ad alta intensità di lavoro. "Ad esempio, nel dataset AgentNet, abbiamo già acquisito alcune dimostrazioni di avvio di istanze EC2 su Amazon AWS e di configurazione dei parametri di annotazione su MTurk", ha dichiarato a VentureBeat. "Queste attività comportano molti passaggi sequenziali, ma seguono schemi ripetibili".
Tuttavia, Wang ha osservato che colmare il divario con l'implementazione in tempo reale richiede di affrontare sfide chiave in termini di sicurezza e affidabilità. "La sfida più grande nell'implementazione reale è la sicurezza e l'affidabilità: l'agente deve evitare errori che potrebbero alterare inavvertitamente le impostazioni del sistema o innescare effetti collaterali dannosi che vanno oltre il compito previsto", ha affermato.
I ricercatori hanno rilasciato il codice , il set di dati e i pesi per i loro modelli.
Man mano che gli agenti open source basati su framework come OpenCUA diventano più efficienti, potrebbero evolvere radicalmente il rapporto tra i knowledge worker e i loro computer. Wang immagina un futuro in cui la competenza in software complessi diventa meno importante della capacità di articolare chiaramente gli obiettivi a un agente di intelligenza artificiale.
Ha descritto due modalità di lavoro principali: "automazione offline, in cui l'agente sfrutta la sua più ampia conoscenza del software per portare a termine un compito end-to-end" e "collaborazione online, in cui l'agente risponde in tempo reale e lavora fianco a fianco con l'essere umano, proprio come un collega". In pratica, gli esseri umani forniranno il "cosa" strategico, mentre agenti di intelligenza artificiale sempre più sofisticati gestiranno il "come" operativo.
Se vuoi fare colpo sul tuo capo, VB Daily ha la soluzione che fa per te. Ti forniamo informazioni privilegiate su ciò che le aziende stanno facendo con l'intelligenza artificiale generativa, dai cambiamenti normativi alle implementazioni pratiche, così puoi condividere approfondimenti per massimizzare il ROI.
Leggi la nostra Informativa sulla privacy
Grazie per esserti iscritto. Scopri altre newsletter di VB qui .
Si è verificato un errore.

venturebeat