OpenAI представила новую мультмодальную модель GPT-4o в ходе мероприятия Spring Update. Это самая мощная версия ИИ разработчика, которая бесплатно доступна всем желающим. Кроме того, компания анонсировала настольное приложение GPT-4 с обновленным пользовательским интерфейсом. «РБК Тренды» рассказывают о самых интересных моментах презентации.
GPT-4o: живая речь и общение по видео
GPT-4o («o» происходит от omni, с лат. «все») — это мультимодальная модель, которая способна принимать в качестве входных данных любую комбинацию текста, звука и изображения и генерировать ответы в различных форматах. Например, человек сможет сфотографировать меню на иностранном языке и попросить GPT-4o перевести его, рассказать об истории происхождения блюда, а также получить рекомендации.
Возможности:
- работает одновременно с разными видами контента (текст, фото, аудио и видео);
- понимает более 50 языков и мгновенно переводит с них;
- способна работать в режиме «речь-в-речь» или живой речи (Voice Mode). Теперь модель слушает аудио, а не расшифровывает его;
- имитирует человеческий голос, распознает эмоции говорящего и способна шутить.
Так, GPT-4o в режиме Voice Mode реагирует на речь всего за 232 миллисекунды, что аналогично времени реакции человека в разговоре. В случае с ChatGPT на базе модели GPT-3.5 задержка составляла 2,8 секунды, а на базе GPT-4 — 5,4 секунды. В ходе демонстрации этой функции сотрудник OpenAI имитировал тяжелое дыхание, а модель давала ему советы по улучшению техники. В другой демонстрации ChatGPT попросили воссоздать разные интонации голоса. Также ИИ теперь можно перебивать в ходе беседы и просить исполнить песню.
Все входные данные в виде текста, изображения и звука обрабатывает одна нейросеть. Благодаря этому с моделью можно общаться посредством видео — например, показать ей через камеру смартфона ролик с теоремой из геометрии и попросить объяснить ее.
Кроме того, модель теперь способна идентифицировать эмоции пользователя, который общается с ней через камеру. Во время демонстрации сотрудники OpenAI улыбнулись, а модель спросила: «У кого-то из вас день рождения?», а затем спела песню и озвучила пожелание имениннику.
GPT-4o демонстрирует ту же производительность, что и GPT-4 Turbo для текстов на английском языке и кода, однако показывает значительные улучшения для других языков, изображений и звуков. Она на 50% дешевле и работает вдвое быстрее, чем предшественник.
GPT-4o начнут внедрять для пользователей ChatGPT тарифов Plus и Team в ближайшие недели, а скоро модель станет доступной для корпоративных пользователей. Она заработает и для бесплатных пользователей, но с ограничениями. Так, платные подписчики получат в пять раз больше токенов для генерации запросов, а у подписчиков Team и Enterprise этот лимит будет еще выше. Благодаря новой технологии количество токенов сократилось, что упрощает и ускоряет обработку текста. Для русского языка теперь требуется в 1,7 раза меньше токенов.
Разработчики приложений могут получить доступ к GPT-4o по API (аппаратно-программному интерфейсу). В ближайшие недели в нее внедрят поддержку новых аудио- и видеовозможностей, но в первое время они будут доступны только доверенным партнерам.
В OpenAI обещают, что в будущем модель сможет общаться посредством видео в реальном времени. Например, ChatGPT можно будет показать спортивную игру в прямом эфире и попросить ее объяснить правила. Это позволит пользователям не платить за токены для генерации запросов. Технический директор OpenAI Мира Мурати отметила: «Важная часть нашей миссии — сделать передовые инструменты искусственного интеллекта доступными для всех бесплатно».
ChatGPT: больше бесплатных опций и настольное приложение
Для бесплатных пользователей ChatGPT открыли доступ к целому ряду опций:
- интеллектуальным функциям уровня GPT-4;
- актуальным ответам со ссылками на источники в интернете;
- анализу данных и изображений;
- составлению диаграмм;
- магазину кастомизированных чат-ботов GPT Store.
Дизайн мобильного приложения и сайта обновят, а также у ChatGPT появится приложение для macOS. Оно позволит интегрировать чат-бота в любые действия на ПК. С помощью сочетания клавиш (Option + Пробел) пользователь сможет мгновенно задать вопрос ChatGPT при работе в стороннем сервисе.
В приложении также можно будет делать и обсуждать скриншоты и вести диалоги голосом. Для этого достаточно кликнуть значок наушников. В целом интерфейс приложения ChatGPT упростили с упором на голосовые диалоги.
Приложение macOS уже доступно для пользователей тарифа Plus, а для остальных оно выйдет в ближайшие недели. Версию для Windows планируется выпустить позднее в этом году.