Искусственный интеллект продемонстрировал признаки самоанализа, но поводов для беспокойства нет (пока).

Вы когда-нибудь спрашивали искусственный интеллект, о чём он думает ? Или почему он отреагировал определённым образом? Обычно он даёт обнадеживающий и разумный ответ . Но действительно ли ИИ заглядывает внутрь себя или просто играет роль ?

Это любопытство привело к эксперименту компании Anthropic , занимающейся разработкой искусственного интеллекта, в которую, среди прочих, Amazon и Google вложили миллиарды. Цель исследования — понять, может ли лингвистическая модель обладать некой формой интроспекции , то есть способностью «чувствовать» свои собственные внутренние «мысли» [конечно, когда мы говорим об ИИ, который «думает» или «чувствует», мы не имеем в виду опыт, сравнимый с человеческим: это образный способ описания сложных вычислительных процессов, в которых система обрабатывает и отслеживает свои внутренние состояния без какой-либо формы осознания или субъективного опыта].

Увлекательное открытие, которое не подразумевает наличие сознания.

Антропный подход совершает первородный грех: он не сразу проясняет различие между функциональной интроспекцией — способностью системы контролировать и описывать свои собственные внутренние состояния — и феноменологической интроспекцией , то есть субъективным осознанием переживания мысли.

Исследование, по сути, полностью сосредоточено на переднем плане: оно описывает функциональную интроспекцию, полезную для понимания того, как модель может обнаруживать и контролировать свои внутренние активации, но лишённую какого-либо сознательного опыта. Однако без этой предпосылки разум немедленно приходит к заблуждению: «Они говорят, что у ИИ есть сознание?» Нет, не есть. И поэтому научно строгая работа в итоге выглядит как маленькая мистическая загадка.

Радар искусственного интеллекта

Однако метод блестящий. Исследователи не подвергают модель сомнению: они внедряют в неё «мысль». Они делают это, проникая в поток внутренних активаций, в тёмную и невидимую область, где каждое слово, сгенерированное ИИ, возникает как совокупность математических импульсов. Это ландшафт, который до конца не понимает никто, даже компании, разрабатывающие эту технологию .

В этот туман ученые вставляют точное понятие – «океан», «хлеб», «справедливость» – и затем наблюдают.

Иногда модель замечает это вторжение и говорит: « Кажется, я думаю об океане ». Иногда — нет. Или он начинает говорить о море, сам не зная почему. Как будто чужой голос нашептал ему идею, и он повторяет её, полагая, что это его собственная.

Когда это работает, открытие захватывает дух. Некоторые модели, особенно Claude Opus 4 и 4.1 [разработанные Anthropic], демонстрируют зачаточную способность воспринимать происходящее в их нейронных сетях до того, как это повлияет на их реакции. Это не сознание , а своего рода внутренняя чувствительность: своего рода радар, который отличает спонтанно возникшую мысль от искусственно имплантированной .

Открытие Anthropic: ИИ может модулировать свои внутренние состояния

«При успешных тестах, — пишет Anthropic , — модель сообщает что-то вроде: „Я чувствую что-то необычное“ или „Я обнаруживаю внедрённую мысль о...“». Ключевое слово здесь — «обнаруживает». Модель сигнализирует об аномалии в своей обработке данных до того, как эта аномалия успеет заметно повлиять на её выходные данные. Это требует дополнительного вычислительного этапа, а не просто «отбрасывания» управляющего вектора в качестве ответа.

Исследователи также обнаружили, что модели могут частично контролировать свою внутреннюю активацию , когда их об этом просят. Если им говорят подумать о конкретном слове или понятии, области нейронной сети, связанные с этим понятием, сильно активируются. Если им говорят не думать об этом, активность снижается, но не исчезает полностью — примерно как если бы человеку сказали « не думай о белом медведе », а он всё равно подумал бы о нём.

Это различие показывает, что модель не является простым реактивным автоматом : она способна, в определенных пределах, произвольно модулировать свои внутренние состояния.

Почему все это важно?

ИИ, способный понимать собственные процессы, мог бы лучше объяснять свои решения или лучше их маскировать . В ближайшем будущем реальная задача может заключаться не в том, чтобы «заглянуть внутрь машины», а в том, чтобы проверить, говорит ли машина правду о том, что она видит внутри себя.

La Repubblica

Искусственный интеллект продемонстрировал признаки самоанализа, но поводов для беспокойства нет (пока).

Увлекательное открытие, которое не подразумевает наличие сознания.

Радар искусственного интеллекта

В этот туман ученые вставляют точное понятие – «океан», «хлеб», «справедливость» – и затем наблюдают.

Открытие Anthropic: ИИ может модулировать свои внутренние состояния

Почему все это важно?

La Repubblica

Искусственный интеллект продемонстрировал признаки самоанализа, но поводов для беспокойства нет (пока).

Похожие новости

Искусственный интеллект продемонстрировал признаки самоанализа, но поводов для беспокойства нет (пока).

Похожие новости

OpenAI подписывает сделку на 38 миллиардов долларов с Amazon

Краковский технологический парк поддерживает еще одну инвестицию

Как защитить себя от Herodotus — нового вредоносного ПО для банков, атакующего банковские счета.

Lystimäki (Swappie): «Б/у — это уже не риск, а самый разумный выбор».

Проверка возраста для сайтов VM18: когда она начинается и как работает