Runway Research показала, что свыше 90% из 1043 участников не могут отличить пятиминутные видеоролики, созданные нейросетью, от реальных съемок. Средняя точность распознавания составила около 57%
Этот материал написан ИИ в рамках эксперимента «РБК Трендов».
Что происходит
- Runway опубликовала исследование о способности людей распознавать ИИ-видео, по результатам которого более 90% участников не смогли уверенно отличить ролики, сгенерированные моделью Runway Gen-4.5, от реальных видеозаписей.
- Компания описывает этот результат как «фундаментальный сдвиг в том, как мы должны воспринимать аутентичность видео» и заявляет, что «индустрия ИИ и общество в целом достигли точки перелома, в которой среднестатистический человек не может определить, создано ли видео ИИ или нет».
- Эксперимент проходил в формате парного сравнения: 1043 участникам в случайном порядке показывали по 20 роликов длительностью 5 секунд (по 10 реальных и 10 сгенерированных), после чего просили указать, является ли каждый из них реальным или созданным ИИ.
- Все ИИ-ролики были сделаны с помощью базовой модели Runway Gen-4.5 в режиме image-to-video: из первого кадра исходного видео генерировался 5‑секундный клип, при этом ни один ролик не перегенерировался и не редактировался на постобработке.
- Участникам разрешалось просматривать каждый ролик до 10 секунд, после чего они должны были зафиксировать свой выбор; реальные и сгенерированные клипы были выровнены по длительности и разрешению.
- Только 99 из 1043 участников (9,5%) показали статистически значимую точность (не менее 15 правильных ответов из 20).
- Общая точность распознавания составила 57,1% — лишь немного выше случайного угадывания в 50%; при этом результаты по реальным (58,0%) и сгенерированным (56,1%) роликам были схожи. Это, по данным Runway, свидетельствует об отсутствии устойчивой стратегии распознавания.
- Точность распознавания существенно различалась по типам контента: ролики с людьми (лица, руки, движения) распознавались лучше (58–65%), тогда как видео с животными и архитектурой показывали точность ниже случайной (45–47%) — участники чаще принимали ИИ-ролики за реальные, чем наоборот.
- В компании связывают прогресс в ИИ-видео с разработкой так называемых «общих моделей мира» — систем, которые правдоподобно моделируют физическую реальность. Авторы исследования подчеркивают, что «реалистичная симуляция является предпосылкой для решения сложных задач в физическом мире».
- Одновременно с публикацией исследования компания запустила интерактивный тест The Turing Reel, в котором любой пользователь может попытаться отличить реальное видео от сгенерированного Gen-4.5 по тем же принципам, что и участники эксперимента.
- Для маркировки синтетического контента Runway использует открытый технический стандарт C2PA: все сгенерированные моделью материалы снабжаются метаданными, позволяющими подтверждать происхождение и историю обработки файлов. Несмотря на широкую поддержку C2PA со стороны медиаиндустрии и СМИ, этот стандарт не является безошибочным и требует развития в сторону более мощных систем верификации.
Что это значит
- Исследование Runway демонстрирует, что генерация видео на основе ИИ фактически достигла порога, при котором массовая аудитория больше не способна отличать сгенерированные нейросетью ролики от реальной съемки. Это выводит проблему доверия к визуальному контенту на новый уровень.
- Концепция «общих моделей мира» (General World Models) помогает заметно улучшить качество ИИ-видео: это системы, которые не просто дорисовывают кадры, а опираются на законы физики, учитывают освещение и взаимодействие объектов. Такие симуляции становятся пригодными для решения прикладных задач — от робототехники и автономного транспорта до научного моделирования и виртуального производства кино.
- Когда синтетическое видео становится неотличимым от реального, классический подход борьбы с дезинформацией через «детекторы дипфейков» теряет эффективность. Эксперимент показывает, что даже при концентрации внимания и ограниченном наборе роликов средняя точность распознавания лишь немного превосходит случайное угадывание.
- На этом фоне смещается фокус от попыток «распознать фейк собственными глазами» к инфраструктуре доверия. Стандарт C2PA, который использует Runway, как и аналогичные инициативы Adobe, Microsoft и крупных медиа, строится вокруг идеи криптографически защищенной цепочки происхождения контента — от камеры или генератора до публикации.
- Однако даже наличие технических стандартов не решает проблему полностью: метаданные можно потерять при перекодировании, злоумышленники могут намеренно их удалять, а платформы и пользователи — игнорировать, поэтому встает задача одновременного развития регуляции, редакционных практик и медийной грамотности аудитории.
- Для медиа, политических кампаний и правоприменительных органов такое качество генерации означает, что видео больше нельзя воспринимать как прямое доказательство происходящего. Возрастает роль независимой верификации, проверки источников, кросс-сопоставления материалов и атрибутами их происхождения.
- В условиях дальнейшего масштабирования обучающих данных и вычислительных мощностей можно ожидать, что ИИ-видео будут еще реалистичнее. Это усилит конкуренцию между разработчиками базовых моделей, но параллельно сделает критически важными открытые стандарты, отраслевые соглашения и международный диалог о границах использования синтетических медиа.
➤ Подписывайтесь на телеграм-канал «РБК Трендов» — будьте в курсе последних тенденций в науке, бизнесе, обществе и технологиях.