
Содержание:
Стартап xAI Илона Маска презентовал продвинутую версию своего чат-бота Grok 3. Разработчики утверждают, что в некоторых задачах он превзошел другие передовые модели, такие как GPT-4o, Claude 3.5 Sonnet, Gemini-2 Pro и DeepSeek-V3. «РБК Тренды» рассказывают, в чем особенность Grok 3 и какие задачи решает модель.
Что такое модель Grok 3
Grok 3 — это более продвинутая версия чат-бота от xAI, которая, как утверждают разработчики, «поможет понять природу Вселенной». По сути, это целое семейство моделей, которое включает также версии Grok 3 Reasoning и Grok 3 mini Reasoning с опциями рассуждения. ИИ использует ресурсы гигакомпьютера xAI Colossus с 200 тыс. чипов Nvidia H100. Разработчики заявили, что Grok 3 в десять раз умнее Grok 2.
Как отметил Маск, модель обучали с использованием расширенного набора данных, который включал даже документы из судебных дел. «Grok 3 на порядок способнее, чем Grok 2. Это нацеленный на поиск истины ИИ, даже если эта истина иногда противоречит тому, что считается политически корректным», — сказал бизнесмен во время презентации.
xAI утверждает, что Grok 3 превосходит GPT-4o в тестах, включая AIME (оценивает производительность модели на выборке математических вопросов) и GPQA (оценивает модели с использованием задач по физике, биологии и химии на уровне доктора наук). В целом новая версия превзошла GPT-4o, Claude 3.5 Sonnet, Gemini-2 Pro и DeepSeek-V3 в математике, задачах программирования и научной работе.

Как заявили в xAI, Grok 3 Reasoning превосходит лучшую версию модели OpenAI — o3-mini-high — в нескольких популярных тестах, включая математический тест AIME 2025. При этом в рассуждающей версии скрыли некоторые «мысли» ИИ, чтобы предотвратить дистилляцию — метод, используемый разработчиками для извлечения знаний из других моделей. Ранее компанию DeepSeek обвинили в дистилляции моделей OpenAI для создания своих собственных.

Наконец, ранняя версия Grok 3 показала конкурентоспособные результаты в Chatbot Arena — краудсорсинговом тесте, в котором пользователям предлагают оценивать ответы разных моделей ИИ.

Возможности моделей Grok 3
Новая нейросеть, подобно предшественникам, способна анализировать изображения и отвечать на вопросы. Кроме того, Grok 3 может:
- решать задачи по математике и программированию, проводить научные исследования;
- совершать сложные расчеты. В ходе презентации чат-бот вычислил время запуска ракеты на Марс и ее возвращения на Землю с учетом всех нюансов;
- «рассуждать» и проверять себя перед выдачей результатов подобно o3-mini от OpenAI и R1 от DeepSeek;
- активировать режим Big Brain для рассуждений, которые требуют дополнительных вычислений;
- работать в режиме Deep Research для поиска необходимых данных в интернете и их анализа;
- создавать игры — во время презентации ИИ показал вариант «Тетриса» с механиками «три в ряд».
Как отметили разработчики, модель будет продолжать совершенствоваться. «Мы видим первые признаки креативности», — сказал Маск.
Примеры работы Grok 3
Первыми итогами своей работы с Grok 3 поделился сооснователь OpenAI и бывший глава отдела разработки автопилота Tesla Андрей Карпаты.
Для начала он попросил Grok 3 ответить на вопрос об игре Settler's of Catan в режиме рассуждения: «Создай веб-страницу настольной игры, показывающую сетку шестиугольников, как в игре Settlers of Catan. Каждая сетка шестиугольников пронумерована от 1 до N, где N — общее количество плиток шестиугольников. Сделай ее универсальной, чтобы можно было изменять количество «колец» с помощью ползунка. Например, в Catan радиус составляет три шестиугольника. Выдай одну страницу формата HTML, пожалуйста». Карпаты отметил, что ранее с этой задачей справлялись только лучшие рассуждающие модели OpenAI, но не DeepSeek-R1, Gemini 2.0 Flash Thinking или Claude.
Затем исследователь загрузил в модель статью о GPT-2 и стал задавать вопросы по ней. Чат-бот справился со всеми заданиями. После этого Карпаты попросил Grok 3 оценить количество обучающих операций GPT-2, хотя в документе не было информации о количестве используемых токенов. ИИ применил рассуждения и сложные вычисления и в итоге смог выдать ответ. При этом продвинутая модель рассуждений OpenAI o1 pro не могла справиться с такой задачей.
Также Grok 3 смог решить несколько досок для игры «крестики-нолики», но не справился с их усложненными вариантами. По словам Карпаты, эту задачу решала только o1 pro.
Как отметил Карпаты, Grok 3 в целом не пугают сложные задачи, от решения которых отказываются другие нейросети, в том числе o1-pro, Claude и Gemini 2.0 Flash Thinking. Модель пыталась разобраться с математической гипотезой Римана, решение которой не удалось дойти до сих пор.
При этом Grok 3 не смог по запросу Карпаты решить «Загадку эмодзи», где в картинке закодировано символьное сообщение Unicode. С этой головоломкой ранее пыталась справиться только модель DeepSeek-R1, но и ей не удалось выдать решение. Однако задачу смог решить сотрудник xAI Эрик Зеликман.

Карпаты «поймал» несколько «галлюцинаций» нейросети. Например, Grok 3 не дает ссылок на соцсеть X при использовании данных оттуда, даже если попросить ее об этом. Также нейросеть может выдавать несуществующие URL-адреса и генерировать ложные данные.
Вот еще несколько замечаний от Карпаты:
- Grok 3 знает, что в слове Strawberry три буквы «r» (многие нейросети ошибочно говорят, что их две), но при этом находит только три L в слове LOLLAPALOOZA. Проблему решает активация режима рассуждений.
- Чат-бот заявил, что 9,11 > 9,9 (как и многие другие модели), но правильно ответил в рассуждающем режиме.
- Модель решает простые головоломки даже без рассуждений, например, «У Салли (девушки) три брата. У каждого брата две сестры. Сколько сестер у Салли?».
- Чувство юмора Grok 3, похоже, не улучшилось. Пример сгенерированной шутки: «Почему цыпленок присоединился к группе? Потому что у него были барабанные палочки и он хотел быть звездой кудахтанья!»
- Модель слишком чувствительна к «сложным этическим вопросам». В ходе тестов она выдала целое эссе, но не ответила на вопрос, этично ли было бы указать неверный пол героя, если бы это спасло миллион жизней.
- Чат-бот плохо справился с генерацией картинки с пеликаном на велосипеде в формате SVG. Это задачка от британского разработчика Саймона Уиллисона, которая оценивает способность модели размещать множество визуальных элементов на двумерной сетке.

«Grok 3 Thinking ощущается где‑то на уровне самых сильных моделей OpenAI (o1-pro за $200 в месяц) и немного лучше, чем DeepSeek‑R1 и Gemini 2.0 Flash Thinking. Что довольно невероятно, учитывая, что команда начинала с нуля примерно год назад... На данный момент — большие поздравления команде xAI, у них явно огромная скорость и импульс», — подытожил Карпаты.
Доступность модели Grok 3
Первыми доступ к Grok 3 получат подписчики соцсети Х уровня Premium+. Он стоит $50 в месяц. Однако весь функционал чат-бота будет доступен покупателям специальной подписки SuperGrok. Она обойдется в $30 в месяц или в $300 в год. Эта подписка разблокирует более продвинутые рассуждения и запросы DeepSearch, а также добавит неограниченное количество кредитов для генерации изображений.
Уже примерно через неделю приложение Grok получит «голосовой режим». Через несколько недель новые модели будут доступны через корпоративный API xAI вместе с возможностью DeepSearch.
Кроме того, xAI планирует открыть исходный код Grok 2 в ближайшие месяцы, когда «Grok 3 будет представлять собой зрелую и стабильную версию».
➤ Подписывайтесь на телеграм-канал «РБК Трендов» — будьте в курсе последних тенденций в науке, бизнесе, обществе и технологиях.