GPT-4o от OpenAI: новая модель, что она может и как ей управлять

Фото: Unsplash
Фото: Unsplash
«РБК Тренды» рассказывают про новую модель ИИ от OpenAI, которая понимает человеческую речь, реагирует на эмоции и мгновенно переводит текст на разные языки

OpenAI представила новую мультмодальную модель GPT-4o в ходе мероприятия Spring Update. Это самая мощная версия ИИ разработчика, которая бесплатно доступна всем желающим. Кроме того, компания анонсировала настольное приложение GPT-4 с обновленным пользовательским интерфейсом. «РБК Тренды» рассказывают о самых интересных моментах презентации.

Фото:Freepik
Экономика инноваций OpenAI: история компании-разработчика нейросети ChatGPT

GPT-4o: живая речь и общение по видео

GPT-4o («o» происходит от omni, с лат. «все») — это мультимодальная модель, которая способна принимать в качестве входных данных любую комбинацию текста, звука и изображения и генерировать ответы в различных форматах. Например, человек сможет сфотографировать меню на иностранном языке и попросить GPT-4o перевести его, рассказать об истории происхождения блюда, а также получить рекомендации.

GPT-4o принимает на ввод сюжет и выдает картинки
GPT-4o принимает на ввод сюжет и выдает картинки (Фото: openai.com)

Возможности:

  • работает одновременно с разными видами контента (текст, фото, аудио и видео);
  • понимает более 50 языков и мгновенно переводит с них;

Мгновенный перевод с ChatGPT
(Видео: YouTube)

  • способна работать в режиме «речь-в-речь» или живой речи (Voice Mode). Теперь модель слушает аудио, а не расшифровывает его;
  • имитирует человеческий голос, распознает эмоции говорящего и способна шутить.

ChatGPT шутит
(Видео: YouTube)

Так, GPT-4o в режиме Voice Mode реагирует на речь всего за 232 миллисекунды, что аналогично времени реакции человека в разговоре. В случае с ChatGPT на базе модели GPT-3.5 задержка составляла 2,8 секунды, а на базе GPT-4 — 5,4 секунды. В ходе демонстрации этой функции сотрудник OpenAI имитировал тяжелое дыхание, а модель давала ему советы по улучшению техники. В другой демонстрации ChatGPT попросили воссоздать разные интонации голоса. Также ИИ теперь можно перебивать в ходе беседы и просить исполнить песню.

ChatGPT имитирует интонации и поет песню
(Видео: YouTube)

Все входные данные в виде текста, изображения и звука обрабатывает одна нейросеть. Благодаря этому с моделью можно общаться посредством видео — например, показать ей через камеру смартфона ролик с теоремой из геометрии и попросить объяснить ее.

ChatGPT объясняет геометрию
(Видео: YouTube)

Кроме того, модель теперь способна идентифицировать эмоции пользователя, который общается с ней через камеру. Во время демонстрации сотрудники OpenAI улыбнулись, а модель спросила: «У кого-то из вас день рождения?», а затем спела песню и озвучила пожелание имениннику.

GPT-4o демонстрирует ту же производительность, что и GPT-4 Turbo для текстов на английском языке и кода, однако показывает значительные улучшения для других языков, изображений и звуков. Она на 50% дешевле и работает вдвое быстрее, чем предшественник.

Результаты GPT-4o в тесте MMLU
Результаты GPT-4o в тесте MMLU (Фото: openai.com)

GPT-4o начнут внедрять для пользователей ChatGPT тарифов Plus и Team в ближайшие недели, а скоро модель станет доступной для корпоративных пользователей. Она заработает и для бесплатных пользователей, но с ограничениями. Так, платные подписчики получат в пять раз больше токенов для генерации запросов, а у подписчиков Team и Enterprise этот лимит будет еще выше. Благодаря новой технологии количество токенов сократилось, что упрощает и ускоряет обработку текста. Для русского языка теперь требуется в 1,7 раза меньше токенов.

Разработчики приложений могут получить доступ к GPT-4o по API (аппаратно-программному интерфейсу). В ближайшие недели в нее внедрят поддержку новых аудио- и видеовозможностей, но в первое время они будут доступны только доверенным партнерам.

В OpenAI обещают, что в будущем модель сможет общаться посредством видео в реальном времени. Например, ChatGPT можно будет показать спортивную игру в прямом эфире и попросить ее объяснить правила. Это позволит пользователям не платить за токены для генерации запросов. Технический директор OpenAI Мира Мурати отметила: «Важная часть нашей миссии — сделать передовые инструменты искусственного интеллекта доступными для всех бесплатно».

Фото:Иван Звягин
Индустрия 4.0 Что такое ChatGPT и на что он способен: от кода до стихов и диалогов

ChatGPT: больше бесплатных опций и настольное приложение

Для бесплатных пользователей ChatGPT открыли доступ к целому ряду опций:

  • интеллектуальным функциям уровня GPT-4;
  • актуальным ответам со ссылками на источники в интернете;
  • анализу данных и изображений;
  • составлению диаграмм;
  • магазину кастомизированных чат-ботов GPT Store.

Дизайн мобильного приложения и сайта обновят, а также у ChatGPT появится приложение для macOS. Оно позволит интегрировать чат-бота в любые действия на ПК. С помощью сочетания клавиш (Option + Пробел) пользователь сможет мгновенно задать вопрос ChatGPT при работе в стороннем сервисе.

ChatGPT обобщает текст в Google Docs
ChatGPT обобщает текст в Google Docs (Фото: openai.com)

В приложении также можно будет делать и обсуждать скриншоты и вести диалоги голосом. Для этого достаточно кликнуть значок наушников. В целом интерфейс приложения ChatGPT упростили с упором на голосовые диалоги.

Интерфейс настольного приложения ChatGPT
Интерфейс настольного приложения ChatGPT (Фото: openai.com)

Приложение macOS уже доступно для пользователей тарифа Plus, а для остальных оно выйдет в ближайшие недели. Версию для Windows планируется выпустить позднее в этом году.

Обновлено 14.05.2024
Главная Лента Подписаться Поделиться
Закрыть