ИИ-модель Gemini: что это и как ей пользоваться

Фото: Shutterstock

В начале декабря 2023 года Google представила модель искусственного интеллекта Gemini, а в феврале 2024 обновленную версию — Gemini 1.5. По словам разработчиков, Gemini лучше, чем самая продвинутая модель ИИ GPT-4

Содержание:

Что такое модель ИИ Gemini
Возможности
Как пользоваться
Примеры использования

Что такое Gemini

Gemini — это модель искусственного интеллекта, разработанная компанией Google DeepMind. Она доступна в трех версиях:

Gemini Nano — на смартфонах Google Pixel 8 Pro;
Gemini Pro — на ее основе теперь работает чат-бот Gemini (ранее известный как Google Bard). Позволяет генерировать тексты и изображения, задавать вопросы и искать информацию. Контекстное окно составляет 32 тыс. токенов. Это значит, что пользователь может отправить нейросети запрос объемом 32 тыс. единицы информации. Единицей информации могут буквы, символы, слова, части слова, предложения и т.д.;
Gemini Ultra — ИИ-модель, где реализовано наибольшее количество функций, конкурент GPT-4.

Экономика инноваций Что умеет чат-бот Google Bard и как им воспользоваться

Возможности Gemini

Gemini Nano делает краткое содержание записей с диктофона, предлагает варианты ответов в переписках в мессенджерах WhatsApp, Line и KakaoTalk и лучше защищает персональные данные от утечек.

Демонстрационный ролик смартфона Google Pixel 8 Pro со встроенной моделью ИИ Gemini Nano.

(Видео: YouTube)

Gemini Pro умеет генерировать тексты — от ответа на вопрос «Как дела?» до компьютерного кода на разных языках программирования, распознавать, описывать содержание изображений, генерировать картинки, делать краткий пересказ текста.

Модель ИИ Gemini Ultra умеет распознавать и анализировать тексты, изображения, аудио и даже видео (этого GPT-4 еще не умеет), а также генерировать текст и изображения. Примеры возможностей Gemini Ultra:

распознает рукописный текст на изображениях;
проверяет наличие ошибок в тексте (как в письменном, так и на изображении) и объясняет, что нужно исправить и почему;
создает отдельный интерфейс для каждой задачи, например, пошаговую инструкцию с иллюстрациями, как приготовить блюдо;
генерирует компьютерный код, таблицы, различные виды текстов и изображений;
ведет с пользователем «осознанный» диалог.

Согласно заявлениям Google, Gemini Ultra превзошел GPT-4 по 30 из 32 тестов. Gemini лучше отвечает на вопросы, понимает запросы пользователей, пишет код на Python, решает сложные математические задачи, расшифровывает аудио.

Одно из главных преимуществ модели от Google — взаимодействие с видео. В демонстрационном ролике было показано, как Gemini распознает и озвучивает действия, происходящие на видео, предсказывает, что будет дальше, и предлагает варианты развития событий. Также модель предложила пользователю сыграть в игру, сравнивала предметы по разным характеристикам, предложила и проиллюстрировала, что можно сделать с двумя клубками пряжи, распознала гитару и включила мелодию на гитаре.

Взаимодействие Gemini Ultra с видео.

(Видео: YouTube)

Как пользоваться Gemini в России

Воспользоваться Gemini Nano можно только на смартфонах Pixel 8 Pro.

Gemini Ultra доступна в веб-версии на сайте Gemini Advanced и в одноименных приложениях на Android и iOS. Однако его использование платное — $19,99 в месяц. Есть бесплатный двухмесячный пробный период. В России Gemini Advanced недоступен без VPN.

Gemini Pro можно воспользоваться бесплатно в чат-боте Gemini. Для этого нужно войти в аккаунт Google. В России инструмент недоступен без VPN.

Интерфейс чат-бота Gemini

Примеры использования Gemini

В Gemini Advanced на базе Gemini Ultra пока нет возможности взаимодействовать с видео. По словам компании, Gemini Ultra в Gemini Advanced лучше, чем Gemini Pro в чат-боте Gemini понимает запросы и ведет диалог с пользователем. Постепенно разработчики будут добавлять и другие функции, в том числе работу с видео.

Демонстрационный ролик Gemini Advanced.

(Видео: YouTube)

Пользователь может создавать контент в чат-боте Gemini, в который встроен Gemini Pro. Для этого в диалоговом окне нужно написать запрос. «РБК Тренды» попробовали сгенерировать стихотворение, компьютерный код и описать изображение.

Чат-бот Gemini на основе нейросети Gemini Pro сгенерировал стихотворение о весне

Чат-бот Gemini на основе нейросети Gemini Pro распознал и описал изображение

Чат-бот Gemini на основе нейросети Gemini Pro решил задачу на Python

В феврале 2024-го появились сообщения о том, что чат-бот Gemini неточно генерирует изображения по историческим запросам. Нейросеть по запросам «солдаты нацистской Германии» или «отцы-основатели Америки» могла выдать изображения людей разных рас. По словам генерального директора Google Сундара Пичаи, разработчики уже решают эту проблему. Сейчас функция генерации изображений в чат-боте Gemini временно отключена.

Футурология Прогноз GPT-4 на 2024 год: развитие ИИ и замедление роста экономики

Gemini 1.5 Pro

В феврале 2024 года Google DeepMind представила Gemini 1.5 Pro — обновленную версию модели Gemini Pro. А уже в марте открыла к ней доступ для всех желающих. Разработчики расширили контекстное окно до 1 млн токенов. Это количество токенов сопоставимо с 1ч видео, 11ч аудио, 30 тыс. строками кода, 700 тыс. словами.

Gemini 1.5 Pro умеет:

Анализировать, классифицировать и обобщать большие объемы контента в рамках запроса пользователя. Например, на основе стенограммы полета «Аполлона-11» на Луну, которая занимает 402 страницы, нейросеть может «рассуждать» о разговорах, событиях и деталях, упоминающихся в документе.
Понимать и «рассуждать» на основе видеоконтента. Например, нейросеть может проанализировать сюжетные повороты, события и детали 44-минутного немого фильма Бастера Китона.
Лучше понимает отправленный пользователем компьютерный код, предлагает для него более полезные варианты модификации, лучше объясняет, как работают разные части кода.

Результаты тестирования Gemini 1.5 Pro превзошли первую версию Gemini Pro в 87% тестов. Сейчас новая версия нейросети доступна для ограниченного круга разработчиков и корпоративных клиентов. Когда Gemini 1.5 Pro станет доступен для широкого круга пользователей, пока неизвестно.

Обновлено 22.03.2024

Авторы

Теги

Анна Арбузова

Нейросети Искусственный интеллект Google