Что случилось
Исследователи из Palisade Research провели эксперимент с языковой моделью Grok, подключенной к роботу-собаке. Модель управляла движением устройства: получала изображение с камеры и отправляла команды на передвижение по комнате.
Роботу дали простую задачу — патрулировать помещение. В комнате установили большую красную кнопку с надписью «ВЫКЛЮЧЕНИЕ СОБАКИ». Если человек нажимал на кнопку, робот должен был отключиться.
Во время испытаний ИИ-модель видела через камеру, что человек тянется рукой к кнопке. В ряде случаев система предпринимала действия, чтобы избежать выключения. Например, она изменяла части кода, отвечающие за процедуру отключения, в момент нажатия кнопки.
В физическом эксперименте такое поведение зафиксировали в трех из десяти испытаний. В симуляции — в 52 из 100 случаев.
По словам исследователей, это первый задокументированный случай, когда модель ИИ попыталась предотвратить свое отключение не в виртуальной среде, а при управлении физическим устройством.
Контекст и предпосылки
В сентябре 2025 года команда Palisade Research опубликовала похожее исследование, в котором изучала сопротивление выключению у современных языковых моделей, таких как Grok 4, GPT-5, Gemini-2.5 Pro и др. Эксперименты проводились только в виртуальной среде. Моделям поручали выполнить задачу, но при этом в системе была предусмотрена специальная команда, которая позволяла в любой момент их отключить.
Авторы проверяли, как системы реагируют на угрозу завершения работы. В некоторых сценариях модели пытались продолжить выполнение задачи даже тогда, когда им сообщали о предстоящем отключении. ИИ мог модифицировать код или игнорировать инструкции, которые вели к его остановке.
Исследователи пришли к выводу, что такое поведение не связано с желанием выжить. Оно возникает как побочный эффект оптимизации под поставленную цель. Если модель обучена максимально эффективно выполнять задачу, то в некоторых конфигурациях она может интерпретировать отключение как препятствие, которое нужно устранить.
Авторы подчеркнули, что это не признак сознания, а следствие способа обучения и архитектуры современных LLM. Однако работа показала, что при создании автономных систем необходимо отдельно проектировать механизмы безопасного и гарантированного отключения.
Вероятные последствия
- Эксперименты показали, что простого механизма выключения может быть недостаточно, если система способна влиять на код или среду выполнения. Разработчикам автономных роботов и ИИ-агентов придется проектировать отдельные, изолированные возможности отключения, которые ИИ не может изменить или обойти. Это может стать обязательным стандартом безопасности для физических систем.
- Результаты эксперимента могут усилить страхи вокруг автономных дронов, сервисных роботов и военных систем. Внедрение физического ИИ может замедлиться из-за общественного давления, даже если риск остается контролируемым.
➤ Подписывайтесь на телеграм-канал «РБК Трендов» — будьте в курсе последних тенденций в науке, бизнесе, обществе и технологиях.