Что такое Gemini
Gemini — это модель искусственного интеллекта, разработанная компанией Google DeepMind. Она доступна в трех версиях:
- Gemini Nano — на смартфонах Google Pixel 8 Pro;
- Gemini Pro — на ее основе теперь работает чат-бот Gemini (ранее известный как Google Bard). Позволяет генерировать тексты и изображения, задавать вопросы и искать информацию. Контекстное окно составляет 32 тыс. токенов. Это значит, что пользователь может отправить нейросети запрос объемом 32 тыс. единицы информации. Единицей информации могут буквы, символы, слова, части слова, предложения и т.д.;
- Gemini Ultra — ИИ-модель, где реализовано наибольшее количество функций, конкурент GPT-4.
Возможности Gemini
Gemini Nano делает краткое содержание записей с диктофона, предлагает варианты ответов в переписках в мессенджерах WhatsApp, Line и KakaoTalk и лучше защищает персональные данные от утечек.
Gemini Pro умеет генерировать тексты — от ответа на вопрос «Как дела?» до компьютерного кода на разных языках программирования, распознавать, описывать содержание изображений, генерировать картинки, делать краткий пересказ текста.
Модель ИИ Gemini Ultra умеет распознавать и анализировать тексты, изображения, аудио и даже видео (этого GPT-4 еще не умеет), а также генерировать текст и изображения. Примеры возможностей Gemini Ultra:
- распознает рукописный текст на изображениях;
- проверяет наличие ошибок в тексте (как в письменном, так и на изображении) и объясняет, что нужно исправить и почему;
- создает отдельный интерфейс для каждой задачи, например, пошаговую инструкцию с иллюстрациями, как приготовить блюдо;
- генерирует компьютерный код, таблицы, различные виды текстов и изображений;
- ведет с пользователем «осознанный» диалог.
Согласно заявлениям Google, Gemini Ultra превзошел GPT-4 по 30 из 32 тестов. Gemini лучше отвечает на вопросы, понимает запросы пользователей, пишет код на Python, решает сложные математические задачи, расшифровывает аудио.
Одно из главных преимуществ модели от Google — взаимодействие с видео. В демонстрационном ролике было показано, как Gemini распознает и озвучивает действия, происходящие на видео, предсказывает, что будет дальше, и предлагает варианты развития событий. Также модель предложила пользователю сыграть в игру, сравнивала предметы по разным характеристикам, предложила и проиллюстрировала, что можно сделать с двумя клубками пряжи, распознала гитару и включила мелодию на гитаре.
Как пользоваться Gemini в России
Воспользоваться Gemini Nano можно только на смартфонах Pixel 8 Pro.
Gemini Ultra доступна в веб-версии на сайте Gemini Advanced и в одноименных приложениях на Android и iOS. Однако его использование платное — $19,99 в месяц. Есть бесплатный двухмесячный пробный период. В России Gemini Advanced недоступен без VPN.
Gemini Pro можно воспользоваться бесплатно в чат-боте Gemini. Для этого нужно войти в аккаунт Google. В России инструмент недоступен без VPN.
Примеры использования Gemini
В Gemini Advanced на базе Gemini Ultra пока нет возможности взаимодействовать с видео. По словам компании, Gemini Ultra в Gemini Advanced лучше, чем Gemini Pro в чат-боте Gemini понимает запросы и ведет диалог с пользователем. Постепенно разработчики будут добавлять и другие функции, в том числе работу с видео.
Пользователь может создавать контент в чат-боте Gemini, в который встроен Gemini Pro. Для этого в диалоговом окне нужно написать запрос. «РБК Тренды» попробовали сгенерировать стихотворение, компьютерный код и описать изображение.
В феврале 2024-го появились сообщения о том, что чат-бот Gemini неточно генерирует изображения по историческим запросам. Нейросеть по запросам «солдаты нацистской Германии» или «отцы-основатели Америки» могла выдать изображения людей разных рас. По словам генерального директора Google Сундара Пичаи, разработчики уже решают эту проблему. Сейчас функция генерации изображений в чат-боте Gemini временно отключена.
Gemini 1.5 Pro
В феврале 2024 года Google DeepMind представила Gemini 1.5 Pro — обновленную версию модели Gemini Pro. А уже в марте открыла к ней доступ для всех желающих. Разработчики расширили контекстное окно до 1 млн токенов. Это количество токенов сопоставимо с 1ч видео, 11ч аудио, 30 тыс. строками кода, 700 тыс. словами.
Gemini 1.5 Pro умеет:
- Анализировать, классифицировать и обобщать большие объемы контента в рамках запроса пользователя. Например, на основе стенограммы полета «Аполлона-11» на Луну, которая занимает 402 страницы, нейросеть может «рассуждать» о разговорах, событиях и деталях, упоминающихся в документе.
- Понимать и «рассуждать» на основе видеоконтента. Например, нейросеть может проанализировать сюжетные повороты, события и детали 44-минутного немого фильма Бастера Китона.
- Лучше понимает отправленный пользователем компьютерный код, предлагает для него более полезные варианты модификации, лучше объясняет, как работают разные части кода.
Результаты тестирования Gemini 1.5 Pro превзошли первую версию Gemini Pro в 87% тестов. Сейчас новая версия нейросети доступна для ограниченного круга разработчиков и корпоративных клиентов. Когда Gemini 1.5 Pro станет доступен для широкого круга пользователей, пока неизвестно.