Дежурный агент ChatGPT: не просто спрашивайте, а делайте

Началась новая эра: ChatGPT не просто говорит, он работает на вас. Новый агент ChatGPT, ChatGPT Agent, объединяет в единой системе технологии Operator для интеллектуального взаимодействия с веб-сайтами, возможности поиска информации в интернете в режиме реального времени и расширенные навыки ведения диалога. Это позволяет пользователям не только задавать вопросы, но и делегировать сложные задачи ИИ от начала до конца.

Например, пользователи могут делать запросы типа «Просмотреть мой календарь и держать меня в курсе предстоящих встреч с клиентами» или «Проанализировать трёх конкурентов и представить их в виде презентации». Промежуточная система обращается к соответствующим сайтам, выбирает даты, заполняет формы, выполняет анализ и представляет пользователю полученные данные в виде структурированного слайда или электронной таблицы.

В ходе всех этих процессов безопасность и контроль остаются за пользователем. ChatGPT всегда запрашивает согласие перед выполнением любого значимого действия. Пользователь может остановить процесс, вмешаться в работу браузера или взять полный контроль над ним в любой момент.

OpenAI заявляет, что эта система — лишь первый шаг, и что возможности агента будут постоянно расширяться в ближайшие годы. Цель — охватить всё большее число пользователей этой промежуточной платформы и эффективно снизить ежедневную нагрузку.

ChatGPT Agent был создан путем объединения двух мощных технологий, представленных ранее в этом году: Operator, взаимодействующего с веб-браузером, и Deep Search, эффективного инструмента для синтеза информации. Operator отлично справлялся с такими задачами, как клики, набор текста и заполнение веб-форм, в то время как Deep Search был эффективен при анализе данных и создании подробных сводок. Однако каждая из этих технологий по отдельности имела ограничения.

Объединив преимущества этих двух систем, OpenAI представила искусственный интеллект (ИИ), способный интеллектуально взаимодействовать с веб-сайтами и получать эффективные результаты. Пользователи могут естественным образом запрашивать задачи в рамках одного диалога, а ИИ преобразует эти запросы в реальные действия.

Новая система предоставляет ChatGPT три отдельных веб-инструмента:

Взаимодействие с визуальным браузером,

Простой браузер для текстовых запросов,

ChatGPT выбирает наиболее подходящий инструмент для каждой задачи. Например, API используются для финансовых данных, а визуальное взаимодействие предпочтительнее для сайтов, ориентированных на пользователя. Контекст сохраняется на протяжении всей задачи, и система динамически оптимизирует процесс, ориентируясь на скорость, точность и эффективность.

Новая агентская система разработана для итеративного и совместного рабочего процесса. Пользователи могут вмешиваться, давать указания или уточнять цели в любой момент выполнения задачи. Система также может запрашивать у пользователя дополнительную информацию при необходимости.

Например, для задач, требующих входа пользователя в систему, система-посредник передаёт браузер пользователю и обеспечивает безопасный доступ. Это позволяет проводить исследования и операции более комплексно и эффективно.

ChatGPT Agent набрал рекордные 43,1 балла на экзамене Humanity's Last Exam, охватывающем вопросы, требующие профессиональных знаний на человеческом уровне. Он превзошёл людей и предыдущие модели в тесте DSBench, охватывающем задачи науки о данных. Его навыки редактирования электронных таблиц в два раза превзошли GPT‑4o в тесте SpreadsheetBench.

Он также добился значительных успехов в задачах финансового моделирования на уровне инвестиционного банкинга и веб-задачах, основанных на реальных сценариях, таких как WebArena. Кроме того, он получил новый SOTA (лучший результат) за «поиск труднодоступной информации» в тесте BrowseComp.

Новая система позволяет пользователям автоматизировать повторяющиеся задачи как в профессиональной, так и в личной жизни. Такие задачи, как создание слайд-презентаций, планирование поездок, организация встреч и обновление данных, теперь можно легко решить с помощью ChatGPT.

Функцию агента можно активировать во время любого разговора. После того, как пользователи определили задачи, они могут отслеживать ход их выполнения в ChatGPT. Также можно создавать автоматические расписания повторения для выполненных задач.

ChatGPT запрашивает явное согласие пользователя перед любым действием в сети. Во время конфиденциальных транзакций активируется «режим мониторинга», требующий одобрения пользователя на каждом этапе. Для задач с высоким уровнем риска, таких как финансовые и юридические транзакции, система настроена на запрет действия.

Дополнительные меры безопасности включают:

Защита от враждебных атак (инъекция запроса),

Фильтры политики борьбы со злоупотреблениями,

Данные пользователей не хранятся на серверах ChatGPT,

Включает в себя возможность удаления данных браузера и выхода из системы.

Новый ChatGPT Agent уже доступен для пользователей Pro, Plus и Team. Для пользователей Enterprise и Education он станет доступен в июле. Пользователи Pro могут выполнять неограниченное количество задач, в то время как другие платные подписчики могут выполнять 50 задач в месяц и могут увеличить этот лимит с помощью гибких вариантов кредитования.

Пользователи также могут создавать собственные коннекторы к агенту ChatGPT для просмотра входящих сообщений, планирования встреч и предоставления доступа к определённым приложениям. Предварительная версия сайта оператора будет доступна в течение 30 дней.

Некоторые функции, пока находящиеся в стадии бета-тестирования, в частности, создание слайд-презентаций, предлагают базовое форматирование. Однако OpenAI заявляет, что эти возможности будут совершенствоваться, и в ближайшее время появятся системы, способные создавать гораздо более качественные результаты.