OpenAI представила нейросеть Sora для генерации видео

OpenAI представила нейросеть Sora для создания видео по текстовому запросу

Фото: OpenAI

OpenAI, создавшая ChatGPT и Dall-e, представила новую нейросеть Sora. Она способна генерировать реалистичные видеоролики по текстовому запросу пользователя. Это может изменить подход к созданию визуального контента

Sora позволяет создавать видеозаписи продолжительностью до 60 секунд, при этом поддерживая высокое качество изображения и точно следуя указаниям пользователя. Основная задача проекта заключается в обучении искусственного интеллекта пониманию и имитации физического мира в движении.

Видео: OpenAI

Текстовый запрос в Sora для создания ролика выше

A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

Стильная женщина идет по токийской улице, залитой теплым светящимся неоном и анимированными городскими вывесками. На ней черная кожаная куртка, длинное красное платье, черные сапоги и черная сумочка. На ней солнцезащитные очки и красная помада. Она идет уверенно и непринужденно. Улица влажная и отражающая, что создает зеркальный эффект разноцветных огней. Многие пешеходы прогуливаются.

Экономика инноваций Как рисует Dalle-3 — новый алгоритм OpenAI, создающий картинки из текста

Другие примеры запросов, по которым Sora уже способна генерировать видео, включают как реалистичные сцены с людьми и животными, так и очевидно фантастические, например, с бродящими по снежному полю мамонтами или китами, плывущими по воздуху среди зданий.

На данный момент доступ к модели предоставлен экспертам по информационной безопасности для оценки потенциальных угроз и рисков, а также художникам и дизайнерам для получения обратной связи и дальнейшего совершенствования модели.

OpenAI акцентирует внимание на вопросах безопасности и этики использования Sora и разрабатывает инструменты для выявления фейкового контента, в том числе классификатор для определения видео, созданных с помощью ИИ. В случае интеграции модели в продукты OpenAI, планируется использование метаданных C2PA для улучшения прозрачности происхождения контента.

Индустрия 4.0 Как изменилось творчество нейросетей с первых версий к концу 2023 года

В техническом отношении модель Sora представляет собой сочетание GPT и диффузионной модели, генерирующей видео. Последняя начинает со случайного шума и постепенно убирает его в ходе множества шагов. Такой подход позволяет модели сохранять последовательность изображения объектов, даже если они временно выходят из поля зрения «камеры».

OpenAI, в рамках проекта Sora, стремится продемонстрировать потенциал развития искусственного интеллекта и возможности, которые появятся на горизонте в ближайшем будущем. Технический доклад по Sora будет опубликован позднее.