Создавать видео и шутить: чему искусственный интеллект научился за год

Фото: Dalle-3

В 2023 году появились первые модели мультимодального ИИ. Всего за год разработчики добились прогресса в их работе, а инструментами с искусственным интеллектом стали пользоваться обычные люди

Число пользователей инструментов с искусственным интеллектом постоянно растет, и ожидается, что в 2024 году оно превысит 300 млн человек. Исследователи Массачусетского технологического института считают, что уже в этом году начнут набирать популярность персональные помощники с ИИ, которые пригодятся не только в работе, но и в решении бытовых задач. «РБК Тренды» разбирались, какие навыки появились у ИИ за последний год.

Мультизадачность

В марте 2023 года OpenAI выпустила первую мультимодальную модель GPT-4. Она способна обрабатывать запросы не только в виде текста, но и картинок, видео, кода и так далее, чтобы выдавать ответы. Кроме того, модель работает с документами, которые содержат данные разного формата, например текст с диаграммами. При этом GPT-4 не только обобщает содержимое документов и отвечает на вопросы, но и решает прикладные задачи. Например, ИИ может объяснить, что смешного в картинке, проанализировав ее детали.

GPT-4 объясняет, почему подключение большого устаревшего разъема VGA к маленькому современному порту для зарядки смартфона — это смешно (Фото: openai.com)

В конце 2023 года Google представила конкурента GPT-4 — семейство моделей Gemini. Модели могут генерировать и обрабатывать текст, изображения, видео и код, а также графики и карты. Кроме того, как заявил глава компании Сундар Пичаи, они способны на продвинутые рассуждения. Самая мощная модель — Ultra — впервые превзошла людей в многозадачном тесте MMLU, который охватывает 57 предметов, включая математику, физику, право, медицину и этику. В феврале Google переименовала чат-бота Bard в Gemini и открыла доступ к модели Ultra по подписке Advanced. Gemini Advanced лучше справляется с логическими рассуждениями, следованием сложным инструкциям и творчеством, а также может поддерживать длительные и подробные беседы.

Презентация Gemini Advanced

(Видео: YouTube)

В сентябре 2023 года российский «Сбер» сделал общедоступной мультимодальную нейросеть GigaChat. Она умеет отвечать на вопросы, поддерживает диалог, создает тексты и картинки на основе описаний. В том же месяце «Яндекс» представил генеративную языковую модель YandexGPT 2. Нейросеть помогает создавать тексты, объясняет непонятные термины, генерирует идеи и советы.

Индустрия 4.0 Нейросеть Яндекса пишет письма и сочиняет сказки: главное о YandexGPT

Выдача актуальной информации

Модель GPT-4 от OpenAI с марта 2023-го начала поддерживать плагины, которые дают ее пользователям доступ в интернет. В июне OpenAI добавила опцию поиска в официальное мобильное приложение на базе поисковика Microsoft Bing, но только для подписчиков ChatGPT Plus. В сентябре функция поиска стала доступной и в самом ChatGPT, а чат-бот начал выдавать информацию с прямыми ссылками на источники. Однако знания ИИ ограничены апрелем 2023 года.

ChatGPT собирает последние отзывы о велосипедах (Фото: OpenAI / X)

В ноябре платформа поиска на основе искусственного интеллекта Perplexity выпустила семейство моделей PPLX Online. Это нейросети, которые используют данные из интернета, чтобы выдавать актуальные ответы на вопросы. Пока доступ к этим нейросетям платный.

Работа с большим объемом данных

В ноябре 2023 года OpenAI представил более продвинутую модель GPT-4 Turbo, которая может принимать запросы в виде промптов длиной до 128 тыс. токено, или 300 страниц. Обычная GPT-4 могла принимать на ввод не более 75 страниц текста. В том же месяце компания Anthropic выпустила модель Claude 2.1, которая принимает в качестве запроса более 200 тыс. токенов, или 500 страниц текста.

В феврале 2024 года Google представила поколение моделей Gemini 1.5. Так, Gemini 1.5 Pro может обрабатывать уже до 1 млн токенов. Это позволит ИИ работать с большими текстами, например, анализировать 402-страничные стенограммы миссии «Аполлона-11» на Луну, находить детали в 44-минутном немом фильме Бастера Китона или объяснять код из более чем 100 тыс. строк.

Gemini 1.5 работает с большими объемами данных

(Видео: YouTube)

Индустрия 4.0 ИИ-модель Gemini: что это и как ей пользоваться

Генерация качественных видео

В марте 2023 года Nvidia вместе с Корнеллским университетом представила модель VideoLDM, которая впервые смогла генерировать ролики в разрешении до 2048×1280 пикселей. Однако их длительность не превышала 5 секунд. В ноябре компания Stability.ai выпустила версию Stable Video Diffusion для создания коротких реалистичных видео. Стартап Runway также разработал модель для генерации коротких роликов в высоком качестве.

Однако прорыв в генерации видео совершила OpenAI, которая в феврале 2024 года представила нейросеть Sora. Модель способна создавать ролики высокого качества длительностью до минуты по текстовому описанию. Sora способна генерировать как простую анимацию, так и сложные сцены со множеством деталей, персонажей и разными типами движения, реалистично воспроизводя движения камеры. Пока она доступна только ограниченному кругу экспертов.

Примеры работы Sora

(Видео: YouTube)

Экономика инноваций OpenAI представила нейросеть Sora для генерации видео

Персональная помощь

OpenAI в ноябре 2023 года представила конструктор чат-ботов GPTs, с помощью которого пользователи могут создать свою версию ChatGPT со специфическими знаниями и навыками. Тогда же компания выпустила первых помощников — бота для стирки, тренера по креативному письму и генератор стикеров. В OpenAI объяснили, что для настройки бота достаточно один раз объяснить ему обязанности, а затем проинструктировать и передать дополнительные знания. Общение и настройка происходят в формате чата, и пользователю не нужно уметь программировать. В январе 2024 года OpenAI запустила магазин кастомных чат-ботов на базе ChatGPT. К нему получили доступ пользователи тарифов ChatGPT Plus, Team и Enterprise.

Магазин персональных чат-ботов (Фото: openai.com)

Microsoft также выпустила инструмент Copilot Studio для создания собственных чат-ботов. Теперь ИИ-инструменты можно подключать к корпоративным системам, чтобы они помогали отвечать на вопросы, формировать аналитику и выполнять иные задачи. Сама компания активно встраивает ИИ-помощника в свои продукты, в том числе и офисные. Так, в феврале Microsoft выпустила инструмент Copilot for Finance для бизнес-подписчиков Microsoft 365. Он будет анализировать данные из ERP и финансовых систем компаний, чтобы помогать аналитикам с отчетами и автоматизировать повторяющиеся финансовые задачи.

Как работает Copilot for Finance

(Видео: YouTube)

Способность «слышать» и «говорить»

В сентябре 2023 года OpenAI добавила в ChatGPT функции, которые позволяют ему «слышать», а в марте 2024 года — «говорить». Теперь пользователи могут устно общаться с чат-ботом. Например, можно сфотографировать достопримечательность и расспросить ChatGPT о ее истории. Для распознавания голоса используется фирменная система Whisper, которая обучалась на 680 тыс. часов речевых данных. Она понимает произношение с акцентом, термины и жаргон, а также отсеивает фоновые шумы. Пользователь может выбрать голос ChatGPT — мужской или женский — и задать его тон.

ChatGPT зачитывает ответ

(Видео: YouTube)

А исследователи Meta (признана экстремистской, ее деятельность запрещена в России) в 2023 году начали развивать проект Massively Multilingual Speech, который будет объединять данные 5 тыс. языков. В перспективе это позволит ИИ-помощникам распознавать и говорить даже на редких языках.

Индустрия 4.0 Искусственный интеллект 2023–2024: борьба за данные и открытая разработка

Чувство юмора

В ноябре 2023 года стартап Илона Маска xAI представил чат-бота Grok, который может понимать юмор и шутить. Тогда разработчики заявили, что ИИ склонен проявлять «бунтарские наклонности» и его можно разговорить на запретные темы. Grok обучали на данных из социальной сети X (Twitter). Языковая модель Grok-1, которая лежит в основе чат-бота, пока обладает знаниями до третьего квартала 2023 года, а также информацией от экспертов по искусственному интеллекту. Доступ к Grok уже открыли для платных подписчиков Х с тарифом Premium+.