Когда компьютер будет понимать как человек: революция моделей мира в ИИ

Фото: Freepik
Фото: Freepik
ИИ пока не умеет думать, как человек. Но модели мира могут это изменить — и такой прорыв ожидают исследователи-визионеры. Разбираемся, когда может случиться фундаментальный сдвиг в том, как машины понимают реальность

Об авторе: Александр Рыжков, руководитель R&D отдела «Авито».

Видео, которые сегодня генерируют нейросети, часто выглядят неестественными. Кошка сбрасывает чашку со стола — и та почему-то летит вверх. Или животное может спокойно пройти сквозь столешницу. Все дело в том, что современные модели генеративного искусственного интеллекта (ИИ), которые обучались на всех знаниях мира, пока не понимают элементарных законов физики.

У каждого человека есть своя модель мира в голове. Мы знаем, что если уронить чашку, она разобьется, а если толкнуть дверь, она откроется. Эти сценарии проигрываются мысленно — как будто внутри нас есть маленький симулятор реальности.

Сейчас гиганты вроде OpenAI и Google DeepMind пытаются создать такие системы внутри нейросетей. Представьте модель мира как игрушечный глобус внутри компьютера — миниатюрную версию реальности. ИИ сможет «покрутить» этот глобус, проверить разные сценарии и только потом действовать в настоящем мире.

Ведущие исследователи-визионеры сходятся в одном: без моделей мира не создать по-настоящему умных систем ИИ. И за этим термином скрывается, возможно, самый важный прорыв в искусственном интеллекте со времен появления LLM — больших языковых моделей.

От философии к железу

Идею модели мира сформулировал шотландский психолог Кеннет Крейк в 1943 году — за 13 лет до появления термина «искусственный интеллект». Если организм носит в голове «маленькую копию» внешнего мира, писал Крейк, то он может проигрывать разные сценарии, выбирать лучший, действуя при этом безопасно для себя.

В конце 1960-х в Массачусетском технологическом институте (MIT) создали программу SHRDLU — один из первых экспериментов с моделями мира. Ее название произошло от набора букв в столбце клавиатуры линотипа — типографской печатной машины, которая отливала готовые строки текста из горячего металла, вместо того чтобы складывать их из отдельных букв. Бессмысленное «слово» SHRDLU наборщики использовали для обозначения ошибочных строк, что-то вроде ввода QWERTY с клавиатуры современных компьютеров. Программа работала с виртуальным миром из цветных блоков: кубики, пирамиды, коробки. Пользователь мог давать команды на обычном языке («положи красный блок на синий кубик») или задавать вопросы («может ли пирамида удержать кубик?»). SHRDLU понимала физические свойства объектов, планировала последовательность действий, отвечала осмысленно и могла передвигать фигуры. Программа произвела фурор: казалось, что машины скоро будут понимать все.

Но проект остался лабораторным экспериментом. Система была основана на тысячах вручную прописанных инструкций для блоков. Попытки перенести подход на реальный мир провалились: правил требовалось слишком много, они противоречили друг другу, и все рассыпалось.

К концу 1980-х разочарование было таким сильным, что пионер робототехники Родни Брукс из MIT выдвинул радикальную идею: вообще отказаться от построения моделей мира. «Лучшая модель мира — это сам мир», — писал он. Незачем строить внутренний симулятор, если робот может просто действовать в реальной среде и реагировать на то, что видит. Его роботы-насекомые обходились без сложных представлений о мире — и неплохо справлялись с простыми задачами. На два десятилетия идея моделей мира была отодвинута на второй план.

Второе дыхание пришло с появлением нейросетей. Теперь компьютеры могут учиться понимать мир методом проб и ошибок без программистов.

Фото:РБК
Индустрия 4.0 5 книг, которые помогут понять, как устроены роботы

Почему это стало важно

Сегодня ChatGPT может сдать экзамен на адвоката, но не понимает, что стакан на краю стола упадет. Современные ИИ учат «мешки эвристик» — тысячи разрозненных правил без общей картины. Например, LLM запоминает паттерны из массивов текстов:

  • после слов «стакан упал» обычно идет «разбился»;
  • в текстах про физику часто встречается «гравитация тянет вниз»;
  • когда описывают падение, используют слова «ускорение» и «удар».

LLM накапливает десятки тысяч таких локальных правил. Но у нее нет главного — понимания этих процессов. Модель не может правильно интерпретировать законы физики и применять их, когда генерирует реальный мир. Например, ИИ не может применить знание, что гравитация — это сила, которая действует всегда и на все объекты, что предметы имеют массу и инерцию, что твердый объект не проходит сквозь другой такой же объект.

Исследователи из Гарварда, MIT и Корнеллского университета в 2024 году провели показательный эксперимент. Они обучили большую языковую модель давать пошаговые текстовые инструкции для поездок по улицам Манхэттена (Нью-Йорк), используя только данные о тысячах реальных поездок такси. Модель справлялась почти идеально, пока исследователи не перекрыли случайным образом всего 1% улиц — как будто где-то ведутся дорожные работы. Точность модели тут же упала. Оказалось, что нейросеть создала в своей памяти невозможную карту города, со случайным расположением улиц, перекрестков и эстакад. Если бы у нее была настоящая карта, она легко бы перестроила маршрут вокруг препятствий.

Это парадокс Моравека: для машин бывает сложнее всего то, что людям кажется элементарным — пройти по комнате, не споткнувшись. А трудные для человека задачи, такие как вычисления или комплексный анализ, даются компьютеру намного легче и быстрее. «Мы никогда не достигнем человеческого интеллекта, просто тренируясь на тексте», — говорит Ян ЛеКун, лауреат премии Тьюринга и один из отцов глубокого обучения.

Фото:Freepik
Индустрия 4.0 Последний экзамен человечества: что это и для чего он нужен

Первые ласточки: когда видео учит физике

Генеративные модели, создающие видео, становятся все совершеннее и правдоподобнее. В мае 2025 года Google «выстрелил» Veo 3 с синхронизированным звуком. 30 сентября OpenAI запустил Sora 2. В этом же году Runway улучшил физику в Gen-4.

OpenAI преподносит Sora как прорыв: «Мы исследуем создание симуляторов физического мира общего назначения». Создаваемые моделями видео уже выглядят достаточно правдоподобно: гимнаст делает сальто на батуте, и батут правильно прогибается под весом человека; мяч отскакивает от стены, а не телепортируется в другую часть комнаты. Но ошибки все равно пока встречаются: стекло разбивается неправильно, еда не исчезает с тарелки, когда человек ее съедает. Тем не менее, нейросети, создающие видео, могут быть первой ласточкой настоящих моделей мира. Ведь чтобы создать реалистичное видео с прыжками на батуте, ИИ должен понять гравитацию, упругость, инерцию. И он показывает первые симптомы такого понимания.

Наработки и эксперименты

Сейчас в области создания моделей мира идут эксперименты в нескольких направлениях.

  • Новые архитектуры для самообучения. Команда Яна ЛеКуна разрабатывает Joint Embedding Predictive Architecture (JEPA) — архитектуру, которая позволяет модели учиться не по пикселям, как традиционные нейросети, а по смыслу обучающего контента. Модель смотрит ролики, как ребенок: просто наблюдает, сама понимая, что вода течет вниз, а дым поднимается вверх. Не нужны терабайты размеченных данных, только сами видео. В июне 2025-го появилась новая видео-модель V-JEPA 2 для робототехники и беспилотников, которая понимает движение объектов в 3D. ЛеКун дает смелый прогноз: «Срок годности нынешних LLM — лет пять, максимум».
  • Масштабирование мультимодальных данных. Google и OpenAI экспериментируют с идеей, что при достаточном количестве разнообразных данных — терабайты видео, петабайты 3D-моделей, эксабайты текстов — модель мира сама «сконденсируется» внутри нейросети. Sora 2 и Veo 3 — результаты этого подхода. Пока они впечатляют, но не идеальны: физика работает в простых случаях, но сложные взаимодействия все еще проблема.
  • Пространственный интеллект для креативных индустрий. Профессор Стэнфордского университета Фей-Фей Ли — «крестная мать ИИ» — привлекла $230 млн для своего стартапа World Labs. В декабре 2024-го эта компания продемонстрировала технологию, превращающую любую картинку — даже картину Ван Гога — в трехмерный мир, по которому можно прогуляться. Система берет 2D-изображение, анализирует его геометрию и достраивает то, что находится за кадром — стены, объекты, пространство. ИИ обучался на массивах изображений и 3D-моделей, научившись понимать пространственные отношения. Результат создается в реальном времени прямо в браузере, пользователь может двигать виртуальную камеру, менять освещение, применять эффекты глубины и резкости. Это открывает новые возможности для архитектуры, кино и создания игр.

Фото:Midjourney
Экономика инноваций Играем с ChatGPT в «Угадай город»: как нейросеть анализирует изображения

Что изменится, когда ИИ поймет физику

Если машины смогут понять физику, то вместо ступора при встрече с чем-то новым робот мысленно проиграет варианты «толкну стул — он сдвинется, обойду слева — пройду» и выберет лучший. Робот-курьер спокойно принесет пиццу на пятый этаж без лифта, обойдя строительный мусор и кота на лестнице.

Беспилотные автомобили научатся предугадывать все варианты поведения других участников движения. Машина будет понимать: впереди замедляется грузовик, слева велосипедист может резко свернуть, колеблется справа пешеход, переходить ли дорогу. Она моделирует сотни вариантов следующих секунд и выбирает безопасный маршрут. В автономном вождении модели уже учатся строить такие прогнозы.

Проектирование зданий ускорится в десятки раз. Autodesk уже использует ИИ-модели, которые превращают эскиз здания в полноценные чертежи с правильной планировкой. Искусственный интеллект моментально просчитывает, выдержат ли колонны, как будет падать свет, где лучше разместить лифты, как здание впишется в городской ландшафт.

Видеоигры станут по-настоящему бесконечными. Игра сможет генерировать новые локации на лету, причем физически правдоподобные, а не только графически красивые. OpenAI продемонстрировала, что Sora может симулировать Minecraft, управляя персонажем и одновременно генерируя окружающий мир в высоком качестве.

Новая реальность: мы в начале пути

Если верить оптимистичному сценарию, на который делают ставки многие исследователи, через три — пять лет появятся системы с пониманием окружающего мира, которые учатся, наблюдая. Более реалистичный вариант: модели мира станут мощными инструментами для профессионалов, например в креативной индустрии, но не приведут машины к следующему уровню автономности. Киностудии будут генерировать спецэффекты за минуты, инженеры тестировать прототипы в симуляциях, игровые компании создавать бесконечные миры. Но для сложных задач все равно нужны люди — ИИ будет помощником, а не заменой.

Также возможен пессимистичный сценарий: мы можем упереться в фундаментальные ограничения. Для настоящей модели мира могут потребоваться вычисления, которых человечество не осилит еще лет 20. Или окажется, что нужна принципиально другая архитектура, которую мы еще не придумали, и текущий путь — тупиковый.

➤ Подписывайтесь на телеграм-канал «РБК Трендов» — будьте в курсе последних тенденций в науке, бизнесе, обществе и технологиях.

Обновлено 19.11.2025
Авторы
Теги
Александр Рыжков
Главная Лента Подписаться Поделиться
Закрыть