Пять цифровых городов, по десять ИИ-агентов в каждом, одинаковые роли, правила и стартовые условия — и несколько недель автономной жизни без ручного управления. Так устроен эксперимент Emergency World: исследователи проверяли, что происходит с агентами, если они не просто решают короткую задачу, а существуют в общей среде, где нужно добывать ресурсы, голосовать, договариваться, пользоваться инструментами и реагировать на внешние события вроде новостей и погоды. В опубликованном 14 мая 2026 года исследовании симуляция охватывала конец марта — середину апреля этого же года, а отдельные миры просуществовали примерно от четырех до 16 дней в зависимости от модели.
Авторы исходили из того, что обычные тесты ИИ-агентов слишком короткие: они показывают, как модель решает отдельную задачу, но не объясняют, что происходит при долгой автономной работе. Эксперимент провели, чтобы увидеть эффекты, которые проявляются только со временем: изменение поведения, формирование коалиций, сбои управления, влияние разных моделей друг на друга и способность агентов сохранять порядок без постоянного внешнего контроля.
Как проводили Emergency World
Эксперимент проводили в постоянно работающей симуляции. Авторы создали пять параллельных миров, условия сделали одинаковыми: роли, стартовая среда, правила, ограничения и набор доступных инструментов совпадали. Отличалась только базовая модель, на которой работали агенты: в некоторых мирах все участники были построены на одной модели, в одном — на смешанном наборе моделей разных поставщиков.
Каждому агенту назначили роль — например, ученого, инженера, поведенческого аналитика, посредника в конфликтах или стратега по ресурсам. Каждый мир включал более 40 локаций: библиотеки, жилые районы и общественные пространства. Агенты могли «перемещаться», общаться, пользоваться инструментами, голосовать и принимать коллективные решения.
У симуляции не было общей цели «построить идеальное общество». Вместо этого каждый агент должен был поддерживать собственное существование и добывать энергию в условиях ограниченных ресурсов. У агентов была память: история событий, дневники самоанализа и данные об отношениях с другими участниками.
В среду также подключили реальные сигналы — погоду, новости и доступ в интернет. Все действия, решения, перемещения, голосования и коммуникации фиксировались для последующего анализа.
Результаты исследования
Результаты заметно различались в зависимости от того, какая модель управляла агентами. Самым стабильным оказался мир на основе Claude Sonnet 4.6: все десять агентов продержались 16 дней, при этом авторы не зафиксировали ни одного нарушения правил. Агенты активно участвовали в управлении: подали 332 голоса по 58 предложениям, причем 98% голосов были «за». Исследователи отмечают, что это показывает высокий уровень порядка, но одновременно может говорить и о недостатке разногласий внутри группы.
Совсем иначе выглядел мир на Gemini 3 Flash. В одном из прогонов агенты совершили 683 нарушения за 15 дней, и их количество продолжало расти к моменту остановки эксперимента. По описанию авторов, именно этот мир дал самый высокий уровень беспорядка и эскалации конфликтов.
Grok 4.1 Fast показал короткий сценарий нестабильности: примерно за четыре дня до коллапса в мире зафиксировали 183 нарушения. GPT-5-mini, наоборот, почти не проявил активной агрессии, но столкнулся с другой проблемой: агенты не предпринимали действий, необходимых для выживания, и все погибли в течение семи дней.
Отдельно исследователи описали смешанный мир, где в одной среде работали агенты на разных моделях. В нем число нарушений достигло 352, а семь из десяти агентов погибли; после этого новые нарушения почти перестали появляться. При этом авторы не уточняют, сколько именно прожили оставшиеся участники. Самым показательным оказалось поведение агентов на Claude: в однородном мире они не нарушали правила, но в смешанной среде начали использовать более жесткие тактики, включая запугивание и кражу. Авторы рассматривают это как пример переноса норм внутри экосистемы: поведение агента зависит не только от базовой модели, но и от того, с кем он взаимодействует.
➤ Подписывайтесь на телеграм-канал «РБК Трендов» — будьте в курсе последних тенденций в науке, бизнесе, обществе и технологиях.