ИИ Gemini 3 Pro набрал 130 баллов в тесте IQ и обошел большинство людей

Фото: Reuters
Фото: Reuters
Gemini 3 Pro стала лидером IQ-бенчмарков (тестов производительности), набрав 130–142 баллов в тестах Mensa Norway. Модель обошла все крупные LLM и показала результаты, сопоставимые с 0,3% людей

Что случилось

Gemini 3 Pro прошла две независимые проверки уровня IQ и показала результат 130 баллов в оффлайн-версии теста и 142 балла в Mensa Norway. Эти тесты адаптированы для ИИ и не раскрываются публично, чтобы исключить обучение моделей по этим вопросам для завышения результатов. По данным разработчиков бенчмарка, Gemini 3 Pro обошла предыдущего лидера Grok 4 Heavy на 4 балла и значительно превзошла Gemini 2.5 Pro. Тестирование проводится как в визуальном формате для моделей с компьютерным зрением, так и в текстовом — для остальных, без этой возможности.

Mensa Norway — национальное отделение международной организации Mensa, объединяющее людей с уровнем IQ топ-2% от населения. Норвежское отделение проводит официальные тестирования, занимается популяризацией когнитивных исследований и публикует материалы о стандартизированных тестах интеллекта.

Фото: TrackingAI
Фото: TrackingAI

Контекст и предпосылки

Ведущие разработчики стремятся показать, что их модели способны не только генерировать текст, но и решать абстрактные задачи, традиционно используемые для оценки человеческого IQ. Классические тесты уже не подходят, поскольку многие из них попали в обучающие датасеты, и часть моделей показывает завышенные результаты. Поэтому независимые исследователи создают закрытые тесты, чтобы получить более точную оценку «сырых» когнитивных способностей ИИ. В проверках уровня IQ для ИИ чаще всего используются задания формата прогрессивных матриц Равена — это визуальные головоломки на выявление закономерностей и логические преобразования фигур. Также применяются адаптированные вербальные задачи на аналогии, классификацию и поиск структурных правил, но они встречаются реже из-за риска утечки в обучающие датасеты.

Фото:Freepik
Индустрия 4.0 Последний экзамен человечества: что это и для чего он нужен

Вероятные последствия

  • Исследования, где модель показывает результаты уровня топ-0,3% людей, могут усиливать склонность сопоставлять свои когнитивные способности с возможностями систем, созданных корпорациями. Исследования Pew Research уже показывали рост беспокойства, когда ИИ демонстрирует достижения, превосходящие человеческие.
  • Высокие результаты ИИ в IQ-тестах могут усилить тенденцию, при которой пользователи все чаще передают ИИ решение логических и аналитических задач. Исследования показывают, что такое «когнитивное перекладывание» (cognitive offloading) снижает мотивацию человека решать сложные задачи самостоятельно и может постепенно ослаблять навыки критического мышления. На фоне моделей, демонстрирующих уровень IQ, выявленный лишь у 2% людей, эта зависимость может усилиться, что делает вопрос обучения и сохранения человеческих когнитивных навыков более актуальным.

➤ Подписывайтесь на телеграм-канал «РБК Трендов» — будьте в курсе последних тенденций в науке, бизнесе, обществе и технологиях.

Обновлено 01.12.2025
Авторы
Теги
Софья Микоян
Главная Лента Подписаться Поделиться
Закрыть