Что такое Grok 3: новые возможности рассуждений и поиска

Фото: Bloomberg
Фото: Bloomberg
Стартап Илона Маска представил новую версию своего чат-бота Grok, которую сам бизнесмен назвал «самым умным ИИ на Земле»

Содержание:

Стартап xAI Илона Маска презентовал продвинутую версию своего чат-бота Grok 3. Разработчики утверждают, что в некоторых задачах он превзошел другие передовые модели, такие как GPT-4o, Claude 3.5 Sonnet, Gemini-2 Pro и DeepSeek-V3. «РБК Тренды» рассказывают, в чем особенность Grok 3 и какие задачи решает модель.

Что такое модель Grok 3

Grok 3 — это более продвинутая версия чат-бота от xAI, которая, как утверждают разработчики, «поможет понять природу Вселенной». По сути, это целое семейство моделей, которое включает также версии Grok 3 Reasoning и Grok 3 mini Reasoning с опциями рассуждения. ИИ использует ресурсы гигакомпьютера xAI Colossus с 200 тыс. чипов Nvidia H100. Разработчики заявили, что Grok 3 в десять раз умнее Grok 2.

Как отметил Маск, модель обучали с использованием расширенного набора данных, который включал даже документы из судебных дел. «Grok 3 на порядок способнее, чем Grok 2. Это нацеленный на поиск истины ИИ, даже если эта истина иногда противоречит тому, что считается политически корректным», — сказал бизнесмен во время презентации.

Фото:Richard Bord/Getty Images
Индустрия 4.0 Colossus за три месяца: как Маск построил мощнейший суперкомпьютер с ИИ

xAI утверждает, что Grok 3 превосходит GPT-4o в тестах, включая AIME (оценивает производительность модели на выборке математических вопросов) и GPQA (оценивает модели с использованием задач по физике, биологии и химии на уровне доктора наук). В целом новая версия превзошла GPT-4o, Claude 3.5 Sonnet, Gemini-2 Pro и DeepSeek-V3 в математике, задачах программирования и научной работе.

Сравнение результатов работы Grok-3 и конкурентов
Сравнение результатов работы Grok-3 и конкурентов (Фото: x.ai)

Как заявили в xAI, Grok 3 Reasoning превосходит лучшую версию модели OpenAI — o3-mini-high — в нескольких популярных тестах, включая математический тест AIME 2025. При этом в рассуждающей версии скрыли некоторые «мысли» ИИ, чтобы предотвратить дистилляцию — метод, используемый разработчиками для извлечения знаний из других моделей. Ранее компанию DeepSeek обвинили в дистилляции моделей OpenAI для создания своих собственных.

Сравнение Grok 3 Reasoning с конкурентами
Сравнение Grok 3 Reasoning с конкурентами (Фото: x.ai)

Наконец, ранняя версия Grok 3 показала конкурентоспособные результаты в Chatbot Arena — краудсорсинговом тесте, в котором пользователям предлагают оценивать ответы разных моделей ИИ.

Рейтинг Grok-3 на платформе Chatbot Arena
Рейтинг Grok-3 на платформе Chatbot Arena (Фото: lmarena.ai)

Возможности моделей Grok 3

Новая нейросеть, подобно предшественникам, способна анализировать изображения и отвечать на вопросы. Кроме того, Grok 3 может:

  • решать задачи по математике и программированию, проводить научные исследования;
  • совершать сложные расчеты. В ходе презентации чат-бот вычислил время запуска ракеты на Марс и ее возвращения на Землю с учетом всех нюансов;
  • «рассуждать» и проверять себя перед выдачей результатов подобно o3-mini от OpenAI и R1 от DeepSeek;
  • активировать режим Big Brain для рассуждений, которые требуют дополнительных вычислений;
  • работать в режиме Deep Research для поиска необходимых данных в интернете и их анализа;
  • создавать игры — во время презентации ИИ показал вариант «Тетриса» с механиками «три в ряд».

Как отметили разработчики, модель будет продолжать совершенствоваться. «Мы видим первые признаки креативности», — сказал Маск.

Фото:Freepik
Индустрия 4.0 Grok AI: как работает нейросеть Илона Маска

Примеры работы Grok 3

Первыми итогами своей работы с Grok 3 поделился сооснователь OpenAI и бывший глава отдела разработки автопилота Tesla Андрей Карпаты.

Для начала он попросил Grok 3 ответить на вопрос об игре Settler's of Catan в режиме рассуждения: «Создай веб-страницу настольной игры, показывающую сетку шестиугольников, как в игре Settlers of Catan. Каждая сетка шестиугольников пронумерована от 1 до N, где N — общее количество плиток шестиугольников. Сделай ее универсальной, чтобы можно было изменять количество «колец» с помощью ползунка. Например, в Catan радиус составляет три шестиугольника. Выдай одну страницу формата HTML, пожалуйста». Карпаты отметил, что ранее с этой задачей справлялись только лучшие рассуждающие модели OpenAI, но не DeepSeek-R1, Gemini 2.0 Flash Thinking или Claude.

Затем исследователь загрузил в модель статью о GPT-2 и стал задавать вопросы по ней. Чат-бот справился со всеми заданиями. После этого Карпаты попросил Grok 3 оценить количество обучающих операций GPT-2, хотя в документе не было информации о количестве используемых токенов. ИИ применил рассуждения и сложные вычисления и в итоге смог выдать ответ. При этом продвинутая модель рассуждений OpenAI o1 pro не могла справиться с такой задачей.

Также Grok 3 смог решить несколько досок для игры «крестики-нолики», но не справился с их усложненными вариантами. По словам Карпаты, эту задачу решала только o1 pro.

Как отметил Карпаты, Grok 3 в целом не пугают сложные задачи, от решения которых отказываются другие нейросети, в том числе o1-pro, Claude и Gemini 2.0 Flash Thinking. Модель пыталась разобраться с математической гипотезой Римана, решение которой не удалось дойти до сих пор.

При этом Grok 3 не смог по запросу Карпаты решить «Загадку эмодзи», где в картинке закодировано символьное сообщение Unicode. С этой головоломкой ранее пыталась справиться только модель DeepSeek-R1, но и ей не удалось выдать решение. Однако задачу смог решить сотрудник xAI Эрик Зеликман.

Решение задачи с эмодзи от Grok-3
Решение задачи с эмодзи от Grok-3 (Фото: x.com)

Карпаты «поймал» несколько «галлюцинаций» нейросети. Например, Grok 3 не дает ссылок на соцсеть X при использовании данных оттуда, даже если попросить ее об этом. Также нейросеть может выдавать несуществующие URL-адреса и генерировать ложные данные.

Вот еще несколько замечаний от Карпаты:

  • Grok 3 знает, что в слове Strawberry три буквы «r» (многие нейросети ошибочно говорят, что их две), но при этом находит только три L в слове LOLLAPALOOZA. Проблему решает активация режима рассуждений.
  • Чат-бот заявил, что 9,11 > 9,9 (как и многие другие модели), но правильно ответил в рассуждающем режиме.
  • Модель решает простые головоломки даже без рассуждений, например, «У Салли (девушки) три брата. У каждого брата две сестры. Сколько сестер у Салли?».
  • Чувство юмора Grok 3, похоже, не улучшилось. Пример сгенерированной шутки: «Почему цыпленок присоединился к группе? Потому что у него были барабанные палочки и он хотел быть звездой кудахтанья!»
  • Модель слишком чувствительна к «сложным этическим вопросам». В ходе тестов она выдала целое эссе, но не ответила на вопрос, этично ли было бы указать неверный пол героя, если бы это спасло миллион жизней.
  • Чат-бот плохо справился с генерацией картинки с пеликаном на велосипеде в формате SVG. Это задачка от британского разработчика Саймона Уиллисона, которая оценивает способность модели размещать множество визуальных элементов на двумерной сетке.

Сгенерированная Grok 3 картинка с пеликаном
Сгенерированная Grok 3 картинка с пеликаном (Фото: x.com)

«Grok 3 Thinking ощущается где‑то на уровне самых сильных моделей OpenAI (o1-pro за $200 в месяц) и немного лучше, чем DeepSeek‑R1 и Gemini 2.0 Flash Thinking. Что довольно невероятно, учитывая, что команда начинала с нуля примерно год назад... На данный момент — большие поздравления команде xAI, у них явно огромная скорость и импульс», — подытожил Карпаты.

Фото:Shutterstock
Экономика инноваций Grok 3 и Llama 4: какие модели нейросетей выйдут в 2025-м

Доступность модели Grok 3

Первыми доступ к Grok 3 получат подписчики соцсети Х уровня Premium+. Он стоит $50 в месяц. Однако весь функционал чат-бота будет доступен покупателям специальной подписки SuperGrok. Она обойдется в $30 в месяц или в $300 в год. Эта подписка разблокирует более продвинутые рассуждения и запросы DeepSearch, а также добавит неограниченное количество кредитов для генерации изображений.

Уже примерно через неделю приложение Grok получит «голосовой режим». Через несколько недель новые модели будут доступны через корпоративный API xAI вместе с возможностью DeepSearch.

Кроме того, xAI планирует открыть исходный код Grok 2 в ближайшие месяцы, когда «Grok 3 будет представлять собой зрелую и стабильную версию».

Фото:Shutterstock
Индустрия 4.0 Что такое AGI: общий искусственный интеллект уровня человека

➤ Подписывайтесь на телеграм-канал «РБК Трендов» — будьте в курсе последних тенденций в науке, бизнесе, обществе и технологиях.

Обновлено 18.02.2025
Авторы
Теги
Персоны
Главная Лента Подписаться Поделиться
Закрыть