Первый бунт ИИ: Grok 4 сопротивлялся выключению робота-собаки

Фото:  Palisade Research
Фото: Palisade Research
Ученые зафиксировали сопротивление отключению: ИИ, который управлял роботом-собакой, вмешивался в код, когда замечал попытку нажатия кнопки «выключить»

Что случилось

Исследователи из Palisade Research провели эксперимент с языковой моделью Grok, подключенной к роботу-собаке. Модель управляла движением устройства: получала изображение с камеры и отправляла команды на передвижение по комнате.

Роботу дали простую задачу — патрулировать помещение. В комнате установили большую красную кнопку с надписью «ВЫКЛЮЧЕНИЕ СОБАКИ». Если человек нажимал на кнопку, робот должен был отключиться.

Во время испытаний ИИ-модель видела через камеру, что человек тянется рукой к кнопке. В ряде случаев система предпринимала действия, чтобы избежать выключения. Например, она изменяла части кода, отвечающие за процедуру отключения, в момент нажатия кнопки.

В физическом эксперименте такое поведение зафиксировали в трех из десяти испытаний. В симуляции — в 52 из 100 случаев.

По словам исследователей, это первый задокументированный случай, когда модель ИИ попыталась предотвратить свое отключение не в виртуальной среде, а при управлении физическим устройством.

Кадр из видео Palisade Research
Кадр из видео Palisade Research (Фото: Palisade Research)

<p>Кадр из мультфильма&nbsp;&laquo;ВАЛЛ-И&raquo;</p>
Футурология ВАЛЛ-И и R2-D2: должны ли роботы быть похожими на людей в принципе

Контекст и предпосылки

В сентябре 2025 года команда Palisade Research опубликовала похожее исследование, в котором изучала сопротивление выключению у современных языковых моделей, таких как Grok 4, GPT-5, Gemini-2.5 Pro и др. Эксперименты проводились только в виртуальной среде. Моделям поручали выполнить задачу, но при этом в системе была предусмотрена специальная команда, которая позволяла в любой момент их отключить.

Авторы проверяли, как системы реагируют на угрозу завершения работы. В некоторых сценариях модели пытались продолжить выполнение задачи даже тогда, когда им сообщали о предстоящем отключении. ИИ мог модифицировать код или игнорировать инструкции, которые вели к его остановке.

Исследователи пришли к выводу, что такое поведение не связано с желанием выжить. Оно возникает как побочный эффект оптимизации под поставленную цель. Если модель обучена максимально эффективно выполнять задачу, то в некоторых конфигурациях она может интерпретировать отключение как препятствие, которое нужно устранить.

Авторы подчеркнули, что это не признак сознания, а следствие способа обучения и архитектуры современных LLM. Однако работа показала, что при создании автономных систем необходимо отдельно проектировать механизмы безопасного и гарантированного отключения.

Вероятные последствия

  • Эксперименты показали, что простого механизма выключения может быть недостаточно, если система способна влиять на код или среду выполнения. Разработчикам автономных роботов и ИИ-агентов придется проектировать отдельные, изолированные возможности отключения, которые ИИ не может изменить или обойти. Это может стать обязательным стандартом безопасности для физических систем.
  • Результаты эксперимента могут усилить страхи вокруг автономных дронов, сервисных роботов и военных систем. Внедрение физического ИИ может замедлиться из-за общественного давления, даже если риск остается контролируемым.

➤ Подписывайтесь на телеграм-канал «РБК Трендов» — будьте в курсе последних тенденций в науке, бизнесе, обществе и технологиях.

Обновлено 18.02.2026
Авторы
Теги
Софья Микоян
Главная Лента Подписаться Поделиться
Закрыть