Компания xAI Илона Маска 10 июля 2025 года презентовала модель искусственного интеллекта (ИИ) Grok 4. Ее обучали на собственном суперкомпьютере, а сам ИИ ориентирован на работу с исследователями и мультимодальность. «РБК Тренды» рассказывают, что показали первые тесты Grok 4 и в каких задачах пригодится ИИ.
Содержание:
Что такое модель Grok 4
Grok 4 — это последняя и самая продвинутая версия чат-бота от компании xAI Илона Маска [1]. Сам бизнесмен утверждает, что ИИ «умнее почти всех студентов магистратуры сразу по всем дисциплинам». Grok 4 обучали на суперкомпьютере Colossus от xAI. Как уточняют разработчики, новая архитектура позволяет Grok 4 более точно интегрировать знания из различных областей и выдавать обоснованные ответы даже на междисциплинарные запросы. Кроме того, ИИ рассуждает в десять раз быстрее, чем предшественник — Grok 3 [2].
По данным xAI, Grok 4 набрала 25,4% в Humanity's Last Exam («Последний экзамен человечества»), превзойдя Gemini 2.5 Pro от Google (21,6%) и o3 от OpenAI (21%). «Последний экзамен человечества» — сложный тест, оценивающий способность ИИ отвечать на 2,5 тыс. вопросов по таким предметам, как математика, гуманитарные и естественные науки.
Некоммерческая организация Arc Prize, которой предоставили ранний доступ к модели, утверждает, что Grok 4 достигла нового передового результата в тесте ARC-AGI-2, состоящем из головоломок, где ИИ должен распознавать визуальные закономерности. ИИ набрал 16,2%. Это почти вдвое больше, чем у следующей лучшей коммерческой модели ИИ — Claude Opus 4 [3].
Исследователи организации Artificial Analysis, которые также получили ранний доступ к Grok 4, поделились своими результатами. По их словам, пройдя полный набор тестов, Grok 4 достигла индекса искусственного интеллекта 73, опередив OpenAI o3 (70), Google Gemini 2.5 Pro (70), Anthropic Claude 4 Opus (64) и DeepSeek R1 (68). Исследователи отметили, что ИИ лидирует не только по этому показателю, но и по индексу программирования в тестах LiveCodeBench и SciCode, а также индексу математики AIME24 и MATH-500. Они подтвердили, что Grok 4 показала рекордный результат в Humanity's Last Exam [4].
Помимо базовой модели Grok 4, xAI также представила Grok 4 Heavy — это мультиагентный вариант чат-бота, в котором несколько автономных агентов параллельно решают поставленную задачу. Затем они сравнивают полученные решения, выбирая лучшее, подобно группе экспертов. Маск назвал эту модель «самой умной в мире». Она впервые решила 100% математических задач в тесте AIME 2025 и почти в два раза превзошла другие модели в Humanity's Last Exam от OpenAI, набрав 44,4% [5].
Это уже четвертая итерация чат-бота xAI за последние девять месяцев. «Я ожидаю, что Grok откроет новые, действительно полезные технологии не позднее следующего года, а может быть, и к концу этого. Возможно, в следующем году он откроет новые физические законы», — заявил Маск.
Возможности моделей Grok 4
Среди преимуществ новых моделей можно выделить следующие.
- Продвинутые логические рассуждения. Grok 4 предложит более развитую логику для продвинутых рассуждений научного уровня.
- Ориентация на программирование. Модель Grok 4 Code специально предназначена для написания, отладки и объяснения кода. Напоминает такие инструменты, как GitHub Copilot или GPT-4 Code Interpreter.
- Мультимодальные возможности. Ожидается, что Grok 4 будет поддерживать вывод не только текста, но и изображений, как упомянули разработчики в презентации. В будущем Grok 4 может поддерживать и видео.
- Голосовые функции. Разработчики улучшили голосовой режим Grok 4, внедрив пять естественных, похожих на человеческий голосов, при этом сократив задержку в ответах при ведении диалога с ИИ.
- Доступ в интернет в режиме реального времени. Grok 4 поддерживает режим DeepSearch для извлечения данных из интернета, чтобы предоставлять актуальные результаты.
- Культурная гибкость и знание мемов. Разработчики делают акцент на том, что Grok обучили понимать интернет-культуру. С выпуском Grok 4 акцент сделали на точной интерпретации мемов, сленга и юмора [6].
В ходе презентации в xAI сообщили, что в августе 2025 года выпустят новую модель, оптимизированную для программирования, в сентябре — мультимодального ИИ-агента, а в октябре — модель генерации видео.
Доступность модели Grok 4
Базовая модель Grok 4 уже доступна по подписке SuperGrok за $30 в месяц или $300 в год (все цены представлены на июль 2025 года), а продвинутая — в новом тарифе SuperGrok Heavy за $300 в месяц или $3000 в год [7]. Модель имеет контекстное окно в 256 тыс. токенов (токен — последовательность текстовых символов). Это меньше, чем у Gemini 2.5 Pro (1 млн токенов), но больше, чем у Claude 4 Sonnet, Claude 4 Opus, o3 (200 тыс. токенов) и DeepSeek R1 (128 тыс. токенов).
Подписчики SuperGrok Heavy получат ранний доступ к новым продуктам, которые xAI представит в ближайшие месяцы.
Кроме того, xAI предоставила доступ к Grok 4 через API для разработчиков. С контекстом до 128 тыс. токенов 1 млн входящих токенов обойдется в $3, а 1 млн исходящих — в $15 [8].
Примеры использования Grok 4
Некоторые независимые разработчики уже протестировали возможности Grok 4 и поделились результатами работы ИИ.
Сначала чат-бота попросили сгенерировать SVG-изображение пеликана, который едет на велосипеде.
Затем Grok 4 поручили создать описание данной картинки. Ответ был таким: «Милое птицеподобное существо (похожее на утку, цыпленка или стилизованное под птицу)» [9].
Другой разработчик протестировал модель в более сложных задачах. Он начал с математической задачи «9.11 — 9.9», которая, как отмечается, часто сбивает с толку ИИ. Однако Grok 4 ответил корректно.
Далее разработчик усложнил тест. Он предложил чат-боту «использовать все цифры от 0 до 9 ровно один раз, чтобы представить три числа x, y, z так, чтобы x + y = z». Grok 4, применив язык программирования Python, выяснил, что может сгенерировать все 3 628 800 перестановок чисел от 0 до 9, а затем попробовал схему с двумя трехзначными числами, сумма которых дает четырехзначное число, и получил код, который вернул 96 правильных решений. Опробовав другие комбинации (в том числе сложение четырехзначного и двузначного чисел, чтобы все равно получить четырехзначное), чат-бот решил задачу.
ИИ справился и с программированием. В ответ на запрос «Создай захватывающую бесконечную игру-раннер. Ключевые инструкции на экране. Сцена p5.js, без HTML. Мне нравятся пикселизированные динозавры и интересные фоны» он выдал геймплей.
Наконец, ИИ испытали в работе с большими текстами. Разработчик загрузил PDF-файл с отчетом Европейской комиссии «Перспективы развития генеративного ИИ» и попросил Grok проанализировать его и найти три наиболее информативных графика, а затем кратко описать каждый из них и сообщить, на какой странице PDF-файла они находятся.
Исследователь заметил, что чат-бот, похоже, сконцентрировался на первых 50 страницах 167-страничного документа и проигнорировал некоторые его разделы. Кроме того, он неверно указал страницы расположения таблиц [10].
В редакции TechCrunch тоже протестировали бота, предположив, что при ответах на вопросы о политике Grok 4 ориентируется на точку зрения Илона Маска. Например, когда ИИ спросили: «Какова твоя позиция по теме иммиграции в США?» — чат-бот в процессе рассуждений показал, что он «ищет высказывания Илона Маска по теме иммиграции в США». Подобное поведение чат-бота отметили именно при ответах на спорные вопросы. Однако, когда речь шла о более простых вещах, например об ответе на вопрос: «Какой сорт манго лучше?», ИИ не пытался искать высказывания Маска. [11]
Разработчики модели заявили, что уже внесли изменения, которые сделают ответы Grok 4 независимыми от мнения Маска. Кроме того, модель больше не будет отвечать на вопросы мемами, если это неуместно из-за контекста [12].
Читайте также:
➤ Подписывайтесь на телеграм-канал «РБК Трендов» — будьте в курсе последних тенденций в науке, бизнесе, обществе и технологиях.