Агенты ИИ — ужасные фрилансеры

Выберите язык

Russian

Down Icon

Выберите страну

Russia

Down Icon

Агенты ИИ — ужасные фрилансеры

Агенты ИИ — ужасные фрилансеры
Новый бенчмарк измеряет, насколько хорошо ИИ-агенты способны автоматизировать экономически значимые задачи. До достижения уровня человеческого ИИ ещё далеко.
бизнесмен с маской хаотичных мыслей
Фотоиллюстрация: сотрудники WIRED; Getty Images

Даже лучшие агенты искусственного интеллекта совершенно бесполезны в онлайн-фрилансе, согласно результатам эксперимента, который ставит под сомнение идею массовой замены офисных работников искусственным интеллектом.

Индекс удаленной работы — новый показатель, разработанный исследователями из компании по аннотации данных Scale AI и некоммерческой организацией Center for AI Safety (CAIS), измеряет способность современных моделей ИИ автоматизировать экономически значимую работу.

Исследователи предложили нескольким ведущим ИИ-агентам ряд имитированных фриланс-заданий и обнаружили, что даже лучшие из них могли выполнить менее 3% работы, заработав 1810 долларов из возможных 143 991. Исследователи рассмотрели несколько инструментов и пришли к выводу, что наиболее эффективным оказался Manus от одноименного китайского стартапа, за которым следуют Grok от xAI, Claude от Anthropic, ChatGPT от OpenAI и Gemini от Google.

«Надеюсь, это даст гораздо более точное представление о том, что происходит с возможностями ИИ», — говорит Дэн Хендрикс, директор CAIS. Он добавляет, что, хотя некоторые агенты значительно улучшили свои показатели за последний год, это не значит, что темпы роста останутся прежними.

Впечатляющие достижения в области искусственного интеллекта породили предположения о том, что искусственный интеллект вскоре превзойдёт человеческий интеллект и заменит огромное количество рабочих. В марте Дарио Амодеи, генеральный директор Anthropic, предположил, что 90% работы по программированию будут автоматизированы в течение нескольких месяцев.

Предыдущие волны ИИ породили необоснованные прогнозы о сокращении рабочих мест, например, относительно неминуемой замены рентгенологов алгоритмами ИИ.

Исследователи сгенерировали ряд фриланс-заданий с помощью проверенных сотрудников Upwork. Задания охватывают широкий спектр работ, включая графический дизайн, видеомонтаж, разработку игр и административную работу, например, сбор данных. Они объединили описание каждой работы с каталогом файлов, необходимых для выполнения работы, и примером готового проекта, созданного человеком.

Хендрикс говорит, что, хотя в последние годы модели ИИ стали лучше справляться с программированием , математикой и логическими рассуждениями , им всё ещё сложно использовать различные инструменты и выполнять сложные задачи, требующие множества шагов. «У них нет долговременной памяти, и они не могут постоянно учиться на собственном опыте. Они не могут приобретать навыки в процессе работы, как люди», — говорит он.

Анализ представляет собой альтернативу предложенному OpenAI в сентябре эталонному показателю экономической работы GDPval , который призван измерять экономически значимую работу. Согласно GDPval, передовые модели ИИ, такие как GPT-5, приближаются к человеческим возможностям по 220 задачам в различных офисных сферах. OpenAI не предоставила комментариев.

«Мы годами спорили об ИИ и рабочих местах, но большая часть этих споров была гипотетическими или теоретическими», — добавляет Бин Лю, директор по исследованиям в Scale AI.

Лю и Хендрикс признают, что новый бенчмарк не является идеальным мерилом экономического влияния ИИ. Многие профессии включают задачи, не охватываемые этим показателем. В реальности многие фрилансеры, вероятно, также используют ИИ как инструмент для повышения своей производительности.

Однако идея о том, что ИИ уже отнимает рабочие места, набирает обороты. На этой неделе Amazon объявила о сокращении 14 000 рабочих мест, что, по её словам, отчасти связано с быстрым развитием генеративного искусственного интеллекта. «Нынешнее поколение ИИ — самая преобразующая технология со времён Интернета», — написала Бет Галетти, старший вице-президент Amazon по взаимодействию с персоналом и технологиям, в опубликованной служебной записке. «Он позволяет компаниям внедрять инновации гораздо быстрее, чем когда-либо прежде (как в существующих сегментах рынка, так и в совершенно новых)».

Однако, если судить по индексу удаленной работы, то маловероятно, что ИИ займет какую-либо из этих освободившихся ролей.

Беспокоитесь, что ИИ отнимет у вас работу? Сообщите мне об этом, отправив письмо на адрес [email protected] .

Это выпуск информационного бюллетеня Лаборатории искусственного интеллекта Уилла Найта . Предыдущие выпуски можно прочитать здесь.

wired

wired

Похожие новости

Все новости
Animated ArrowAnimated ArrowAnimated Arrow