Искусственный интеллект продемонстрировал признаки самоанализа, но поводов для беспокойства нет (пока).

Вы когда-нибудь спрашивали искусственный интеллект, о чём он думает ? Или почему он отреагировал определённым образом? Обычно он даёт обнадеживающий и разумный ответ . Но действительно ли ИИ заглядывает внутрь себя или просто играет роль ?
Это любопытство привело к эксперименту компании Anthropic , занимающейся разработкой искусственного интеллекта, в которую, среди прочих, Amazon и Google вложили миллиарды. Цель исследования — понять, может ли лингвистическая модель обладать некой формой интроспекции , то есть способностью «чувствовать» свои собственные внутренние «мысли» [конечно, когда мы говорим об ИИ, который «думает» или «чувствует», мы не имеем в виду опыт, сравнимый с человеческим: это образный способ описания сложных вычислительных процессов, в которых система обрабатывает и отслеживает свои внутренние состояния без какой-либо формы осознания или субъективного опыта].
Увлекательное открытие, которое не подразумевает наличие сознания.Антропный подход совершает первородный грех: он не сразу проясняет различие между функциональной интроспекцией — способностью системы контролировать и описывать свои собственные внутренние состояния — и феноменологической интроспекцией , то есть субъективным осознанием переживания мысли.
Исследование, по сути, полностью сосредоточено на переднем плане: оно описывает функциональную интроспекцию, полезную для понимания того, как модель может обнаруживать и контролировать свои внутренние активации, но лишённую какого-либо сознательного опыта. Однако без этой предпосылки разум немедленно приходит к заблуждению: «Они говорят, что у ИИ есть сознание?» Нет, не есть. И поэтому научно строгая работа в итоге выглядит как маленькая мистическая загадка.
Радар искусственного интеллектаОднако метод блестящий. Исследователи не подвергают модель сомнению: они внедряют в неё «мысль». Они делают это, проникая в поток внутренних активаций, в тёмную и невидимую область, где каждое слово, сгенерированное ИИ, возникает как совокупность математических импульсов. Это ландшафт, который до конца не понимает никто, даже компании, разрабатывающие эту технологию .
В этот туман ученые вставляют точное понятие – «океан», «хлеб», «справедливость» – и затем наблюдают.
Иногда модель замечает это вторжение и говорит: « Кажется, я думаю об океане ». Иногда — нет. Или он начинает говорить о море, сам не зная почему. Как будто чужой голос нашептал ему идею, и он повторяет её, полагая, что это его собственная.
Когда это работает, открытие захватывает дух. Некоторые модели, особенно Claude Opus 4 и 4.1 [разработанные Anthropic], демонстрируют зачаточную способность воспринимать происходящее в их нейронных сетях до того, как это повлияет на их реакции. Это не сознание , а своего рода внутренняя чувствительность: своего рода радар, который отличает спонтанно возникшую мысль от искусственно имплантированной .
Открытие Anthropic: ИИ может модулировать свои внутренние состояния«При успешных тестах, — пишет Anthropic , — модель сообщает что-то вроде: „Я чувствую что-то необычное“ или „Я обнаруживаю внедрённую мысль о...“». Ключевое слово здесь — «обнаруживает». Модель сигнализирует об аномалии в своей обработке данных до того, как эта аномалия успеет заметно повлиять на её выходные данные. Это требует дополнительного вычислительного этапа, а не просто «отбрасывания» управляющего вектора в качестве ответа.
Исследователи также обнаружили, что модели могут частично контролировать свою внутреннюю активацию , когда их об этом просят. Если им говорят подумать о конкретном слове или понятии, области нейронной сети, связанные с этим понятием, сильно активируются. Если им говорят не думать об этом, активность снижается, но не исчезает полностью — примерно как если бы человеку сказали « не думай о белом медведе », а он всё равно подумал бы о нём.
Это различие показывает, что модель не является простым реактивным автоматом : она способна, в определенных пределах, произвольно модулировать свои внутренние состояния.
Почему все это важно?
ИИ, способный понимать собственные процессы, мог бы лучше объяснять свои решения или лучше их маскировать . В ближайшем будущем реальная задача может заключаться не в том, чтобы «заглянуть внутрь машины», а в том, чтобы проверить, говорит ли машина правду о том, что она видит внутри себя.
La Repubblica




