Otwarte oprogramowanie agentów komputerowych OpenCUA rywalizuje z zastrzeżonymi modelami OpenAI i Anthropic

Chcesz otrzymywać mądrzejsze informacje w swojej skrzynce odbiorczej? Zapisz się na nasz cotygodniowy newsletter, aby otrzymywać tylko to, co istotne dla liderów w dziedzinie sztucznej inteligencji, danych i bezpieczeństwa w przedsiębiorstwach. Subskrybuj teraz
Nowe ramy opracowane przez naukowców z Uniwersytetu Hongkongu (HKU) i współpracujących instytucji zapewniają otwarte podstawy do tworzenia solidnych agentów sztucznej inteligencji (AI) zdolnych do obsługi komputerów. Ramy te, o nazwie OpenCUA , zawierają narzędzia, dane i procedury skalowania rozwoju agentów wykorzystujących komputery (CUA).
Modele trenowane przy użyciu tego frameworka osiągają znakomite wyniki w testach CUA, przewyższając istniejące modele open source i rywalizując ściśle z zamkniętymi agentami wiodących laboratoriów sztucznej inteligencji, takich jak OpenAI i Anthropic.
Agenci komputerowi (CPU) są projektowani do autonomicznego wykonywania zadań na komputerze, od nawigacji po stronach internetowych po obsługę złożonego oprogramowania. Mogą również pomóc w automatyzacji przepływów pracy w przedsiębiorstwie. Jednak najbardziej wydajne systemy CUA są zastrzeżone, a kluczowe informacje o ich danych szkoleniowych, architekturach i procesach programistycznych pozostają poufne.
„Ponieważ brak przejrzystości ogranicza postęp techniczny i budzi obawy dotyczące bezpieczeństwa, społeczność naukowa potrzebuje prawdziwie otwartych ram CUA, aby móc badać ich możliwości, ograniczenia i zagrożenia” – stwierdzają badacze w swoim artykule .
Skalowanie sztucznej inteligencji osiąga swoje granice
Limity mocy, rosnące koszty tokenów i opóźnienia w wnioskowaniu zmieniają oblicze sztucznej inteligencji w przedsiębiorstwach. Dołącz do naszego ekskluzywnego salonu i odkryj, jak najlepsze zespoły:
- Przekształcenie energii w przewagę strategiczną
- Projektowanie efektywnego wnioskowania w celu rzeczywistego zwiększenia przepustowości
- Odblokowanie konkurencyjnego zwrotu z inwestycji (ROI) dzięki zrównoważonym systemom AI
Zarezerwuj sobie miejsce i bądź na bieżąco : https://bit.ly/4mwGngO
Jednocześnie, inicjatywy open source napotykają na własne przeszkody. Brakuje skalowalnej infrastruktury do gromadzenia zróżnicowanych, wielkoskalowych danych potrzebnych do szkolenia tych agentów. Istniejące zbiory danych open source dla graficznych interfejsów użytkownika (GUI) mają ograniczoną ilość danych, a wiele projektów badawczych nie dostarcza wystarczających informacji na temat stosowanych metod, co utrudnia innym powtórzenie ich prac.
Jak czytamy w artykule, „te ograniczenia łącznie utrudniają postęp w zakresie uniwersalnych aplikacji CUA i uniemożliwiają sensowną analizę ich skalowalności, możliwości uogólnienia i potencjalnych metod uczenia się”.

OpenCUA to platforma open source zaprojektowana w celu rozwiązania tych problemów poprzez skalowanie zarówno gromadzenia danych, jak i samych modeli. Jej sercem jest narzędzie AgentNet do rejestrowania demonstracji zadań komputerowych wykonywanych przez ludzi w różnych systemach operacyjnych.
Narzędzie usprawnia gromadzenie danych, działając w tle na komputerze osobistym adnotatora, przechwytując nagrania z ekranu, dane wprowadzane za pomocą myszy i klawiatury oraz bazowe drzewo dostępności, które dostarcza ustrukturyzowanych informacji o elementach na ekranie. Te surowe dane są następnie przetwarzane na „trajektorie stanu i akcji”, łącząc zrzut ekranu komputera (stan) z odpowiadającą mu czynnością użytkownika (kliknięciem, naciśnięciem klawisza itp.). Adnotatorzy mogą następnie przeglądać, edytować i przesyłać te demonstracje.

Za pomocą tego narzędzia badacze zebrali zbiór danych AgentNet, który zawiera ponad 22 600 demonstracji zadań w systemach Windows, macOS i Ubuntu, obejmujących ponad 200 aplikacji i stron internetowych. „Ten zbiór danych autentycznie oddaje złożoność ludzkich zachowań i dynamikę środowiska w osobistych środowiskach komputerowych użytkowników” – czytamy w artykule.
Uznając, że narzędzia do nagrywania ekranu budzą poważne obawy przedsiębiorstw w zakresie prywatności danych, naukowcy zaprojektowali narzędzie AgentNet Tool z myślą o bezpieczeństwie. Xinyuan Wang, współautor artykułu i doktorant na Uniwersytecie Hongkongu, wyjaśnił, że wdrożyli wielowarstwowy system ochrony prywatności. „Po pierwsze, sami adnotatorzy mogą w pełni obserwować generowane dane… zanim zdecydują się je przesłać” – powiedział w wywiadzie dla VentureBeat. Następnie dane przechodzą ręczną weryfikację pod kątem prywatności oraz automatyczne skanowanie przez duży model w celu wykrycia wszelkich pozostałych wrażliwych treści przed ich udostępnieniem. „Ten wielowarstwowy proces zapewnia odporność na poziomie korporacyjnym w środowiskach przetwarzających wrażliwe dane klientów lub dane finansowe” – dodał Wang.
Aby przyspieszyć ocenę, zespół opracował również AgentNetBench, narzędzie testujące offline, które podaje wiele poprawnych działań dla każdego kroku, oferując skuteczniejszy sposób pomiaru wydajności agenta.
Framework OpenCUA wprowadza nowatorski proces przetwarzania danych i trenowania agentów korzystających z komputera. Pierwszy krok polega na przekształceniu surowych demonstracji ludzkich w czyste pary stan-akcja, odpowiednie do trenowania modeli wizyjno-językowych (VLM). Naukowcy odkryli jednak, że samo trenowanie modeli na tych parach przynosi ograniczony wzrost wydajności, nawet przy dużych ilościach danych.

Kluczowym wnioskiem było uzupełnienie tych trajektorii rozumowaniem opartym na łańcuchu myśli (CoT). Proces ten generuje szczegółowy „monolog wewnętrzny” dla każdego działania, obejmujący planowanie, zapamiętywanie i refleksję. To ustrukturyzowane rozumowanie jest zorganizowane na trzech poziomach: dogłębnej obserwacji ekranu, refleksyjnych przemyśleń analizujących sytuację i planujących kolejne kroki oraz zwięzłego, wykonalnego działania. Takie podejście pomaga agentowi rozwinąć głębsze zrozumienie zadań.
„Odkryliśmy, że rozumowanie za pomocą języka naturalnego ma kluczowe znaczenie dla uogólnialnych modeli podstawowych dotyczących korzystania z komputera, pomagając CUA przyswoić sobie zdolności poznawcze” – piszą badacze.
Ten proces syntezy danych to ogólna struktura, którą firmy mogą dostosować do szkolenia agentów w oparciu o własne, unikalne narzędzia wewnętrzne. Według Wanga, przedsiębiorstwo może nagrywać demonstracje swoich zastrzeżonych przepływów pracy i wykorzystywać ten sam proces „reflektora” i „generatora” do generowania niezbędnych danych szkoleniowych. „Pozwala im to na stworzenie wydajnego agenta dostosowanego do ich wewnętrznych narzędzi bez konieczności ręcznego tworzenia śladów wnioskowania” – wyjaśnił.
Naukowcy zastosowali framework OpenCUA do trenowania szeregu modeli VLM o otwartym kodzie źródłowym, w tym wariantów Qwen i Kimi-VL, o rozmiarach parametrów od 3 do 32 miliardów. Modele zostały ocenione w zestawie testów online i offline, które testowały ich zdolność do wykonywania zadań i rozumienia interfejsów graficznych.
Model OpenCUA-32B, zawierający 32 miliardy parametrów, ustanowił nowy, najnowocześniejszy wskaźnik sukcesu wśród modeli open source w teście OSWorld-Verified. Przewyższył również oparty na GPT-4o model CUA firmy OpenAI i znacząco zniwelował lukę wydajnościową w stosunku do wiodących zastrzeżonych modeli firmy Anthropic.

Dla programistów korporacyjnych i liderów produktów, badanie oferuje kilka kluczowych wniosków. Metoda OpenCUA ma szerokie zastosowanie, poprawiając wydajność modeli o różnej architekturze (zarówno gęstej, jak i mieszanej ) i rozmiarach. Wyszkoleni agenci wykazują również silną generalizację, dobrze radząc sobie w zróżnicowanym zakresie zadań i systemów operacyjnych.
Według Wanga, framework ten jest szczególnie odpowiedni do automatyzacji powtarzalnych, pracochłonnych przepływów pracy w przedsiębiorstwach. „Na przykład w zbiorze danych AgentNet zarejestrowaliśmy już kilka demonstracji uruchamiania instancji EC2 w Amazon AWS i konfigurowania parametrów adnotacji w MTurk” – powiedział VentureBeat. „Zadania te obejmują wiele kolejnych kroków, ale podążają za powtarzalnymi schematami”.
Wang zauważył jednak, że przejście od wdrożenia do wdrożenia produkcyjnego wymaga sprostania kluczowym wyzwaniom związanym z bezpieczeństwem i niezawodnością. „Największym wyzwaniem w rzeczywistym wdrożeniu jest bezpieczeństwo i niezawodność: agent musi unikać błędów, które mogłyby nieumyślnie zmienić ustawienia systemu lub wywołać szkodliwe skutki uboczne wykraczające poza zamierzone zadanie” – powiedział.
Naukowcy udostępnili kod , zestaw danych i wagi dla swoich modeli.
W miarę jak agenci open source zbudowani w oparciu o frameworki takie jak OpenCUA stają się coraz bardziej wydajni, mogą fundamentalnie ewoluować relacje między pracownikami umysłowymi a ich komputerami. Wang przewiduje przyszłość, w której biegłość w obsłudze złożonego oprogramowania stanie się mniej ważna niż umiejętność jasnego formułowania celów agentowi AI.
Opisał dwa główne tryby pracy: „automatyzację offline, w której agent wykorzystuje swoją szerszą wiedzę o oprogramowaniu do kompleksowej realizacji zadania” oraz „współpracę online, w której agent odpowiada w czasie rzeczywistym i pracuje ramię w ramię z człowiekiem, niczym kolega z pracy”. Zasadniczo ludzie będą odpowiadać za strategiczne „co”, podczas gdy coraz bardziej zaawansowani agenci AI będą zajmować się operacyjnym „jak”.
Jeśli chcesz zaimponować swojemu szefowi, VB Daily ma dla Ciebie rozwiązanie. Przedstawiamy Ci informacje z pierwszej ręki na temat tego, co firmy robią z generatywną sztuczną inteligencją, od zmian regulacyjnych po praktyczne wdrożenia, dzięki czemu możesz podzielić się swoimi spostrzeżeniami, aby zmaksymalizować zwrot z inwestycji (ROI).
Przeczytaj naszą Politykę prywatności
Dziękujemy za subskrypcję. Więcej newsletterów VB znajdziesz tutaj .
Wystąpił błąd.

venturebeat