Die Open-Source-Computernutzungsagenten von OpenCUA konkurrieren mit proprietären Modellen von OpenAI und Anthrop

Möchten Sie intelligentere Einblicke in Ihren Posteingang erhalten? Melden Sie sich für unseren wöchentlichen Newsletter an, um nur das zu erhalten, was für Führungskräfte in den Bereichen KI, Daten und Sicherheit in Unternehmen wichtig ist. Jetzt abonnieren
Ein neues Framework von Forschern der Universität Hongkong (HKU) und kooperierenden Institutionen bietet eine Open-Source-Grundlage für die Entwicklung robuster KI-Agenten, die Computer steuern können. Das Framework namens OpenCUA enthält die Tools, Daten und Rezepte für die Skalierung der Entwicklung von Computer-Use-Agents (CUAs).
Mit diesem Framework trainierte Modelle schneiden bei CUA-Benchmarks hervorragend ab, übertreffen bestehende Open-Source-Modelle und konkurrieren eng mit geschlossenen Agenten führender KI-Labore wie OpenAI und Anthropic.
Computer-Use-Agenten sind darauf ausgelegt, Aufgaben auf einem Computer autonom zu erledigen, von der Navigation auf Websites bis zur Bedienung komplexer Software. Sie können auch zur Automatisierung von Arbeitsabläufen im Unternehmen beitragen. Die leistungsfähigsten CUA-Systeme sind jedoch proprietär, d. h. wichtige Details zu Trainingsdaten, Architekturen und Entwicklungsprozessen bleiben vertraulich.
„Da der Mangel an Transparenz den technischen Fortschritt einschränkt und Sicherheitsbedenken aufwirft, benötigt die Forschungsgemeinschaft wirklich offene CUA-Frameworks, um deren Fähigkeiten, Grenzen und Risiken zu untersuchen“, erklären die Forscher in ihrem Artikel .
Die Skalierung von KI stößt an ihre Grenzen
Leistungsbeschränkungen, steigende Token-Kosten und Verzögerungen bei der Inferenz verändern die Unternehmens-KI. Nehmen Sie an unserem exklusiven Salon teil und erfahren Sie, wie Top-Teams:
- Energie in einen strategischen Vorteil verwandeln
- Effiziente Inferenz für echte Durchsatzsteigerungen
- Erzielen Sie mit nachhaltigen KI-Systemen einen wettbewerbsfähigen ROI
Sichern Sie sich Ihren Platz, um die Nase vorn zu haben : https://bit.ly/4mwGngO
Gleichzeitig stehen Open-Source-Bemühungen vor eigenen Hürden. Es fehlte bislang an einer skalierbaren Infrastruktur für die Erfassung der vielfältigen, umfangreichen Daten, die für das Training dieser Agenten erforderlich sind. Bestehende Open-Source-Datensätze für grafische Benutzeroberflächen (GUIs) enthalten nur begrenzte Daten, und viele Forschungsprojekte liefern unzureichende Details zu ihren Methoden, was es für andere schwierig macht, ihre Arbeit zu replizieren.
Laut dem Artikel „behindern diese Einschränkungen insgesamt die Weiterentwicklung von CUAs für allgemeine Zwecke und schränken eine sinnvolle Erforschung ihrer Skalierbarkeit, Generalisierbarkeit und potenziellen Lernansätze ein.“

OpenCUA ist ein Open-Source-Framework, das diese Herausforderungen bewältigen soll, indem es sowohl die Datenerfassung als auch die Modelle selbst skaliert. Sein Kernstück ist das AgentNet-Tool zum Aufzeichnen menschlicher Demonstrationen von Computeraufgaben auf verschiedenen Betriebssystemen.
Das Tool optimiert die Datenerfassung, indem es im Hintergrund auf dem PC des Kommentators läuft und Bildschirmvideos, Maus- und Tastatureingaben sowie den zugrunde liegenden Barrierefreiheitsbaum erfasst, der strukturierte Informationen zu den Bildschirmelementen liefert. Diese Rohdaten werden dann zu „Zustands-Aktions-Verläufen“ verarbeitet, indem ein Screenshot des Computers (der Zustand) mit der entsprechenden Aktion des Benutzers (Klick, Tastendruck usw.) verknüpft wird. Kommentatoren können diese Demonstrationen anschließend überprüfen, bearbeiten und einreichen.

Mithilfe dieses Tools sammelten die Forscher den AgentNet-Datensatz, der über 22.600 Aufgabendemonstrationen für Windows, macOS und Ubuntu enthält und mehr als 200 Anwendungen und Websites umfasst. „Dieser Datensatz erfasst authentisch die Komplexität menschlichen Verhaltens und der Umweltdynamik aus den persönlichen Computerumgebungen der Benutzer“, heißt es in dem Dokument.
Da Bildschirmaufzeichnungstools erhebliche Datenschutzbedenken für Unternehmen aufwerfen, haben die Forscher das AgentNet-Tool mit Blick auf die Sicherheit entwickelt. Xinyuan Wang, Co-Autor des Artikels und Doktorand an der HKU, erklärte, dass sie ein mehrschichtiges Datenschutz-Framework implementiert hätten. „Zunächst können die Kommentatoren die von ihnen generierten Daten selbst vollständig einsehen … bevor sie entscheiden, ob sie sie übermitteln“, sagte er gegenüber VentureBeat. Anschließend werden die Daten manuell auf Datenschutzprobleme überprüft und von einem großen Modell automatisiert gescannt, um verbleibende sensible Inhalte vor der Veröffentlichung zu erkennen. „Dieser mehrschichtige Prozess gewährleistet Robustheit auf Unternehmensniveau für Umgebungen, in denen sensible Kunden- oder Finanzdaten verarbeitet werden“, fügte Wang hinzu.
Um die Auswertung zu beschleunigen, hat das Team außerdem AgentNetBench kuratiert, einen Offline-Benchmark, der für jeden Schritt mehrere richtige Aktionen bereitstellt und so eine effizientere Möglichkeit bietet, die Leistung eines Agenten zu messen.
Das OpenCUA-Framework führt eine neuartige Pipeline zur Datenverarbeitung und zum Training computergestützter Agenten ein. Im ersten Schritt werden die menschlichen Rohdemonstrationen in saubere Zustands-Aktions-Paare umgewandelt, die sich für das Training von Vision-Language-Modellen (VLMs) eignen. Die Forscher stellten jedoch fest, dass das bloße Training von Modellen auf diesen Paaren selbst bei großen Datenmengen nur begrenzte Leistungssteigerungen bringt.

Die wichtigste Erkenntnis bestand darin, diese Trajektorien durch Gedankenketten (CoT) zu ergänzen. Dieser Prozess generiert für jede Aktion einen detaillierten „inneren Monolog“, der Planung, Erinnerung und Reflexion umfasst. Dieses strukturierte Denken gliedert sich in drei Ebenen: eine detaillierte Bildschirmbeobachtung, reflektierende Gedanken zur Analyse der Situation und Planung der nächsten Schritte und schließlich die prägnante, ausführbare Aktion. Dieser Ansatz hilft dem Agenten, ein tieferes Verständnis der Aufgaben zu entwickeln.
„Wir sind der Ansicht, dass natürliche Sprachschlüsse für verallgemeinerbare Grundlagenmodelle der Computernutzung von entscheidender Bedeutung sind und CUAs dabei helfen, kognitive Fähigkeiten zu verinnerlichen“, schreiben die Forscher.
Diese Datensynthese-Pipeline ist ein allgemeines Framework, das Unternehmen anpassen können, um Agenten an ihren eigenen, einzigartigen internen Tools zu schulen. Laut Wang kann ein Unternehmen Demonstrationen seiner proprietären Workflows aufzeichnen und dieselbe „Reflektor“- und „Generator“-Pipeline verwenden, um die notwendigen Trainingsdaten zu erstellen. „So können sie einen leistungsstarken, auf ihre internen Tools zugeschnittenen Agenten entwickeln, ohne die Reasoning-Traces manuell erstellen zu müssen“, erklärte er.
Die Forscher nutzten das OpenCUA-Framework, um eine Reihe von Open-Source-VLMs zu trainieren, darunter Varianten von Qwen und Kimi-VL mit Parametergrößen von 3 bis 32 Milliarden. Die Modelle wurden anhand einer Reihe von Online- und Offline-Benchmarks evaluiert, die ihre Fähigkeit zur Aufgabenausführung und zum Verständnis von GUIs testen.
Das 32-Milliarden-Parameter-Modell OpenCUA-32B erreichte im OSWorld-Verified-Benchmark eine neue, hochmoderne Erfolgsquote unter den Open-Source-Modellen. Es übertraf zudem OpenAIs GPT-4o-basiertes CUA und schloss die Leistungslücke zu den führenden proprietären Modellen von Anthropic deutlich.

Für Unternehmensentwickler und Produktverantwortliche bietet die Studie wichtige Erkenntnisse. Die OpenCUA-Methode ist breit anwendbar und verbessert die Leistung von Modellen mit unterschiedlicher Architektur (sowohl dicht als auch mit Expertenmischung ) und Größe. Die trainierten Agenten zeigen zudem eine starke Generalisierung und funktionieren bei einer Vielzahl von Aufgaben und Betriebssystemen gut.
Laut Wang eignet sich das Framework besonders für die Automatisierung repetitiver, arbeitsintensiver Unternehmensabläufe. „Im AgentNet-Datensatz erfassen wir beispielsweise bereits einige Demonstrationen zum Starten von EC2-Instanzen auf Amazon AWS und zum Konfigurieren von Annotationsparametern auf MTurk“, erklärte er gegenüber VentureBeat. „Diese Aufgaben umfassen viele aufeinanderfolgende Schritte, folgen aber wiederholbaren Mustern.“
Wang merkte jedoch an, dass die Überbrückung der Lücke zur Live-Bereitstellung die Bewältigung wichtiger Herausforderungen in Bezug auf Sicherheit und Zuverlässigkeit erfordere. „Die größte Herausforderung bei der realen Bereitstellung sind Sicherheit und Zuverlässigkeit: Der Agent muss Fehler vermeiden, die unbeabsichtigt Systemeinstellungen verändern oder schädliche Nebenwirkungen auslösen könnten, die über die beabsichtigte Aufgabe hinausgehen“, sagte er.
Die Forscher haben den Code , den Datensatz und die Gewichte für ihre Modelle veröffentlicht.
Mit der zunehmenden Leistungsfähigkeit von Open-Source-Agenten, die auf Frameworks wie OpenCUA basieren, könnten sie die Beziehung zwischen Wissensarbeitern und ihren Computern grundlegend weiterentwickeln. Wang sieht eine Zukunft, in der die Beherrschung komplexer Software weniger wichtig wird als die Fähigkeit, einem KI-Agenten Ziele klar zu formulieren.
Er beschrieb zwei grundlegende Arbeitsweisen: „Offline-Automatisierung, bei der der Agent sein umfassenderes Softwarewissen nutzt, um eine Aufgabe von Anfang bis Ende zu bearbeiten“, und „Online-Zusammenarbeit, bei der der Agent in Echtzeit reagiert und Seite an Seite mit dem Menschen arbeitet, ähnlich wie ein Kollege.“ Im Grunde werden die Menschen das strategische „Was“ liefern, während sich immer ausgefeiltere KI-Agenten um das operative „Wie“ kümmern.
Wenn Sie Ihren Chef beeindrucken möchten, sind Sie bei VB Daily genau richtig. Wir geben Ihnen Insiderinformationen darüber, was Unternehmen mit generativer KI machen – von regulatorischen Veränderungen bis hin zu praktischen Implementierungen. So können Sie Ihre Erkenntnisse teilen und so den ROI maximieren.
Lesen Sie unsere Datenschutzrichtlinie
Vielen Dank für Ihr Abonnement. Weitere VB-Newsletter finden Sie hier .
Ein Fehler ist aufgetreten.

venturebeat