ИИ-модель Gemini: что это и как ей пользоваться

Фото: Shutterstock
Фото: Shutterstock
В начале декабря 2023 года Google представила модель искусственного интеллекта Gemini, а в феврале 2024 обновленную версию — Gemini 1.5. По словам разработчиков, Gemini лучше, чем самая продвинутая модель ИИ GPT-4

Содержание:

Что такое Gemini

Gemini — это модель искусственного интеллекта, разработанная компанией Google DeepMind. Она доступна в трех версиях:

  • Gemini Nano — на смартфонах Google Pixel 8 Pro;
  • Gemini Pro — на ее основе теперь работает чат-бот Gemini (ранее известный как Google Bard). Позволяет генерировать тексты и изображения, задавать вопросы и искать информацию. Контекстное окно составляет 32 тыс. токенов. Это значит, что пользователь может отправить нейросети запрос объемом 32 тыс. единицы информации. Единицей информации могут буквы, символы, слова, части слова, предложения и т.д.;
  • Gemini Ultra — ИИ-модель, где реализовано наибольшее количество функций, конкурент GPT-4.

Фото:Midjourney
Экономика инноваций Что умеет чат-бот Google Bard и как им воспользоваться

Возможности Gemini

Gemini Nano делает краткое содержание записей с диктофона, предлагает варианты ответов в переписках в мессенджерах WhatsApp, Line и KakaoTalk и лучше защищает персональные данные от утечек.

Демонстрационный ролик смартфона Google Pixel 8 Pro со встроенной моделью ИИ Gemini Nano.
(Видео: YouTube)

Gemini Pro умеет генерировать тексты — от ответа на вопрос «Как дела?» до компьютерного кода на разных языках программирования, распознавать, описывать содержание изображений, генерировать картинки, делать краткий пересказ текста.

Модель ИИ Gemini Ultra умеет распознавать и анализировать тексты, изображения, аудио и даже видео (этого GPT-4 еще не умеет), а также генерировать текст и изображения. Примеры возможностей Gemini Ultra:

  • распознает рукописный текст на изображениях;
  • проверяет наличие ошибок в тексте (как в письменном, так и на изображении) и объясняет, что нужно исправить и почему;
  • создает отдельный интерфейс для каждой задачи, например, пошаговую инструкцию с иллюстрациями, как приготовить блюдо;
  • генерирует компьютерный код, таблицы, различные виды текстов и изображений;
  • ведет с пользователем «осознанный» диалог.

Согласно заявлениям Google, Gemini Ultra превзошел GPT-4 по 30 из 32 тестов. Gemini лучше отвечает на вопросы, понимает запросы пользователей, пишет код на Python, решает сложные математические задачи, расшифровывает аудио.

Одно из главных преимуществ модели от Google — взаимодействие с видео. В демонстрационном ролике было показано, как Gemini распознает и озвучивает действия, происходящие на видео, предсказывает, что будет дальше, и предлагает варианты развития событий. Также модель предложила пользователю сыграть в игру, сравнивала предметы по разным характеристикам, предложила и проиллюстрировала, что можно сделать с двумя клубками пряжи, распознала гитару и включила мелодию на гитаре.

Взаимодействие Gemini Ultra с видео.
(Видео: YouTube)

Как пользоваться Gemini в России

Воспользоваться Gemini Nano можно только на смартфонах Pixel 8 Pro.

Gemini Ultra доступна в веб-версии на сайте Gemini Advanced и в одноименных приложениях на Android и iOS. Однако его использование платное — $19,99 в месяц. Есть бесплатный двухмесячный пробный период. В России Gemini Advanced недоступен без VPN.

Gemini Pro можно воспользоваться бесплатно в чат-боте Gemini. Для этого нужно войти в аккаунт Google. В России инструмент недоступен без VPN.

Интерфейс чат-бота Gemini
Интерфейс чат-бота Gemini

Примеры использования Gemini

В Gemini Advanced на базе Gemini Ultra пока нет возможности взаимодействовать с видео. По словам компании, Gemini Ultra в Gemini Advanced лучше, чем Gemini Pro в чат-боте Gemini понимает запросы и ведет диалог с пользователем. Постепенно разработчики будут добавлять и другие функции, в том числе работу с видео.

Демонстрационный ролик Gemini Advanced.
(Видео: YouTube)

Пользователь может создавать контент в чат-боте Gemini, в который встроен Gemini Pro. Для этого в диалоговом окне нужно написать запрос. «РБК Тренды» попробовали сгенерировать стихотворение, компьютерный код и описать изображение.

Чат-бот Gemini на основе нейросети Gemini Pro сгенерировал стихотворение о весне
Чат-бот Gemini на основе нейросети Gemini Pro сгенерировал стихотворение о весне

Чат-бот Gemini на основе нейросети Gemini Pro распознал и описал изображение
Чат-бот Gemini на основе нейросети Gemini Pro распознал и описал изображение

Чат-бот Gemini на основе нейросети Gemini Pro решил задачу на Python
Чат-бот Gemini на основе нейросети Gemini Pro решил задачу на Python

В феврале 2024-го появились сообщения о том, что чат-бот Gemini неточно генерирует изображения по историческим запросам. Нейросеть по запросам «солдаты нацистской Германии» или «отцы-основатели Америки» могла выдать изображения людей разных рас. По словам генерального директора Google Сундара Пичаи, разработчики уже решают эту проблему. Сейчас функция генерации изображений в чат-боте Gemini временно отключена.

Фото:Midjourney
Футурология Прогноз GPT-4 на 2024 год: развитие ИИ и замедление роста экономики

Gemini 1.5 Pro

В феврале 2024 года Google DeepMind представила Gemini 1.5 Pro — обновленную версию модели Gemini Pro. А уже в марте открыла к ней доступ для всех желающих. Разработчики расширили контекстное окно до 1 млн токенов. Это количество токенов сопоставимо с 1ч видео, 11ч аудио, 30 тыс. строками кода, 700 тыс. словами.

Gemini 1.5 Pro умеет:

  • Анализировать, классифицировать и обобщать большие объемы контента в рамках запроса пользователя. Например, на основе стенограммы полета «Аполлона-11» на Луну, которая занимает 402 страницы, нейросеть может «рассуждать» о разговорах, событиях и деталях, упоминающихся в документе.
  • Понимать и «рассуждать» на основе видеоконтента. Например, нейросеть может проанализировать сюжетные повороты, события и детали 44-минутного немого фильма Бастера Китона.
  • Лучше понимает отправленный пользователем компьютерный код, предлагает для него более полезные варианты модификации, лучше объясняет, как работают разные части кода.

Результаты тестирования Gemini 1.5 Pro превзошли первую версию Gemini Pro в 87% тестов. Сейчас новая версия нейросети доступна для ограниченного круга разработчиков и корпоративных клиентов. Когда Gemini 1.5 Pro станет доступен для широкого круга пользователей, пока неизвестно.

Обновлено 22.03.2024
Главная Лента Подписаться Поделиться
Закрыть