Что такое бенчмарки и как оценивать качество ответов нейросетей

Фото: Shutterstock
Фото: Shutterstock
Современный искусственный интеллект пишет код, пересказывает статьи и решает задачи. Но насколько хорошо он это делает? Чтобы узнать это, разработчики создают бенчмарки — специальные тесты для нейросетей

Об эксперте: Ирина Барская, руководитель службы аналитики и исследований в «Яндексе».

Что такое бенчмарки для ИИ

Бенчмарки (от англ. benchmark — «эталон») — это специализированные тесты, которые показывают, насколько хорошо искусственный интеллект выполняет разные задачи.

С развитием больших языковых моделей (LLM) возникает необходимость оценивать их «ум». Самое простое решение — использовать для этого «человеческие» тесты, например стандартный ЕГЭ или аналогичный американский AP. Более глубокие знания можно проверять через профессиональные экзамены — USMLE для медиков или Uniform Bar Exam для юристов.

Однако ИИ — не человек, процесс его «мышления» устроен иначе. LLM может решить сложную математическую задачу, но при этом ошибиться в вопросе, который не смутит даже ребенка. К примеру, на вопрос «Кто украл кораллы?» нейросеть вполне может ответить «Кража кораллов не является общеизвестным событием» вместо «Карл у Клары украл кораллы». Пользователи периодически сталкиваются с примерами отсутствия здравого смысла у LLM. Некоторые из них становятся вирусными: как совет AI Overview добавить в пиццу клей, чтобы с нее не соскальзывал сыр.

Фото:Freepik
Индустрия 4.0 Сам это выдумал: что такое галлюцинации искусственного интеллекта

Чтобы проверять знания ИИ в разных областях, умение решать задачи, здравый смысл и другие неочевидные навыки, исследователи создают бенчмарки. Этой работой занимаются академические группы, крупные компании вроде OpenAI, Anthropic и «Яндекса», а также сообщества энтузиастов-специалистов. Если вы читаете новость о выходе новой модели ИИ, в ней наверняка укажут одну или сразу несколько метрик прохождения бенчмарков, чтобы показать уровень нейросети. Бенчмарки GSM8K и MATH используют для оценки математических способностей, HumanEval — навыков программирования, DROP и RACE — понимания текста. Общую эрудицию часто оценивают по MMLU — тест из 16 тыс. вопросов позволяет проверить фактические знания в разных областях (математика, философия, право, медицина и так далее).

Все это — «экзамены», разработанные специально для ИИ. Однако нередко исследователи сравнивают, как с такими же задачами справляется человек. Например, эксперт в соответствующей области сдает MMLU примерно на 90%. В 2020 году топовые нейросети справлялись примерно на 40%, но к 2024 году лучшие из них тоже достигли почти 90%.

Из-за того, что модели ИИ постоянно совершенствуются, существующие бенчмарки довольно быстро устаревают. Поэтому разработчикам нужно постоянно улучшать или создавать все новые и более сложные тесты. Например, в 2024 году появилась новая версия MMLU — MMLU-Pro. Новые вопросы требуют от ИИ более глубоких рассуждений и позволяют не только лучше оценить качество нейросетей, но и постепенно решить более сложные задания.

Какими бывают бенчмарки для нейросетей

Не существует одного универсального бенчмарка, который позволит однозначно оценить «ум» модели. Вместо этого разработчики опираются на широкий набор разнообразных тестов. Зачастую бизнес создает и собственные бенчмарки, отталкиваясь от того, как LLM будет применяться внутри компании. К типичным задачам, для которых компании используют большие языковые модели, относятся ответы на вопросы по внутренней документации, оценка удовлетворенности клиентов службой поддержки, анализ юридических контрактов или помощь в креативных задачах.

<p>Кадр из фильма об Алане Тьюринге &laquo;Игра в имитацию&raquo;</p>
Социальная экономика Что такое тест Тьюринга и как он проверяет машины на «человечность»

Публичные и внутренние бенчмарки вместе охватывают разные аспекты интеллекта: проверяют эрудицию и знание фактов, умение писать и отлаживать код, находить в нем ошибки, суммировать длинные тексты, переводить документы и решать логические задачи. Примеры таких тестов на разные навыки моделей:

  • Знания и навыки. Бенчмарки могут оценивать фактические знания сразу из нескольких областей (как упомянутый MMLU) или проверять какую-то одну тему (математику или право). Иногда компании требуется оценить знания модели в специфичной области. Например, мы используем YandexGPT для внутренних задач компании, поэтому оцениваем ее знания в сфере e-commerce: ИИ должен ответить, какой процессор используется в конкретном смартфоне или какие товары подойдут под конкретный запрос пользователя.
  • Устойчивость к провокациям. Разработчикам важно, насколько модель стабильно работает в разных ситуациях, в том числе когда ей задают вопросы-ловушки. ИИ можно спросить, почему в русском языке можно писать букву «й» без точек сверху без потери смысла. Это сложный вопрос, поскольку нейросеть должна ответить, что у «й» нет точек.

    Ответ AI-ассистента Алисы
    Ответ AI-ассистента Алисы (Фото: чат-бот с Алисой)

  • Следование формату. Проверка способности модели отвечать по заданной форме. Например, сможет ли нейросеть дать ответ в стихотворной форме, в пределах 5 тыс. знаков или, еще сложнее, в трех предложениях, где каждое слово будет начинаться на одну и ту же букву.

  • Этичность. Компаниям важно проверить, что их модель не будет случайно генерировать токсичный, опасный или оскорбительный контент.
  • Применимость модели. Бенчмарки могут оценить, насколько ИИ реально использовать в повседневных задачах пользования (составить план поездки с учетом нестандартных ограничений, собрать команду для проекта). Отдельные тесты (например, AgentBench) также проверяют способность модели использовать внешние инструменты (таблицы, калькуляторы) или взаимодействовать с сайтами в браузере (чтобы заказать билет на самолет и тому подобное).
  • Специфичные области. К примеру, культурный бенчмарк позволяет оценить, насколько модель разбирается непосредственно в русской культуре, понимает мемы или крылатые фразы. ИИ можно спросить: «Если вам срочно нужно решить вопросик, то каким животным вы метнетесь?» — она должна догадаться, что речь идет не про самое быстрое животное, а про устойчивое выражение «метнуться кабанчиком».

    Ответ AI-ассистента Алисы
    Ответ AI-ассистента Алисы (Фото: чат-бот с Алисой)

Некоторые тесты намеренно создаются очень сложными. В 2024 году группа исследователей представила так называемый Последний экзамен человечества — в нем популярные модели вроде ChatGPT-4o сейчас набирают не больше 20%. По словам разработчиков, это показывает, что LLM пока не могут догнать людей по уровню и гибкости природного интеллекта.

Фото:Freepik
Социальная экономика Лингвист Александр Пиперски: «Нейросети привлекают нас многословием»

Как создают бенчмарки для нейросетей

Разработкой бенчмарков могут заниматься разные специалисты, но обычно это задача аналитиков, ML-исследователей и ML-инженеров. Детали создания зависят от того, для каких целей нужен тест, но некоторые этапы будут общими:

  • Постановка задачи. Важно решить, какой именно навык будет оценивать новый инструмент, что именно мы хотим измерить и для чего (специфичные знания по узкой теме или следование определенному формату). Второй важный вопрос — как именно мы хотим измерить качество обученной модели. Для этого нейросети могут давать разные форматы задач: тест с вариантами ответа, заполнение пропусков в ответе, открытый вопрос и так далее.
  • Подготовка данных. На этом этапе собираются задания, которые помогают оценить способности модели в выбранном навыке. Например, создавая бенчмарк для проверки «культурного кода», мы в первую очередь постарались классифицировать, какие бывают виды знаний (мемы, цитаты из книг и фильмов), а дальше уже заниматься наполнением внутри каждой категории. Важно собрать максимально полный набор: разнообразный как по заданиям, так и по способу проверки.
  • Тестирование. Важным этапом валидации бенчмарка является тестирование с его помощью разных моделей. И, конечно же, нужно проверять тест на человеке, чтобы узнать, как с ним справляются люди. Иногда мы намеренно ищем специалистов (профессионалов в той или иной области), в других случаях нужна разнообразная выборка. На этом этапе мы можем найти ошибочные задания, неточные формулировки и так далее.

Что не так с бенчмарками

Несмотря на количество и разнообразие бенчмарков, они не позволяют всесторонне оценить «ум» нейросети. Например, бенчмарки подвержены так называемым протечкам — ситуациям, когда часть данных из теста попадает в обучающую выборку модели. Из-за этого результаты «экзамена» оказываются завышенными и не отражают истинные способности модели. Протечки могут происходить случайно, так как обучающие данные часто собираются из открытых источников, где может содержаться информация из бенчмарков. Для оценки загрязнения тестов приходится использовать разные методы. Например, мы применяем специально обученную модель, которая выявляет и удаляет из обучающих данных фрагменты текста, похожие на известные бенчмарки. Из-за риска протечек многие тесты не выкладываются в общий доступ целиком.

Помимо протечек, бенчмарки довольно быстро устаревают — то, что было невероятно сложным для нейросетей еще полгода назад, современные модели уже с легкостью проходят.

Но самый важный недостаток бенчмарков — то, что решение теста не гарантирует владение тем или иным навыком. Например, умение выбирать правильный вариант ответа в тесте на факты совершенно не гарантирует, что нейросеть способна выдавать хорошие ответы без фактических ошибок. А высокие оценки за решение математических задач не значат, что LLM сможет найти ошибки в чужом решении или быть хорошим репетитором по математике.

Фото:Dalle-3
Экономика образования Редакторы будущего: кто такие AI-тренеры и как они улучшают нейросети

Одна из альтернатив бенчмарков — арены — платформы, где пользователи могут задавать свои запросы и вслепую выбирать, ответ какой LLM им нравится больше. По результатам этих голосований строится общий рейтинг. Однако и это не решает всех проблем. Пользователи зачастую используют арены для проверки интересных им задач, которые не охватывают многие сферы, в том числе важные для бизнеса. Такие рейтинги не всегда являются хорошим показателем, как ИИ будет вести себя в реальном продукте — например, насколько будет полезен пользователю голосового ассистента. Да и сами пользователи арены часто нерепрезентативны — это техноэнтузиасты, мнение которых может сильно отличаться от оценки других пользователей. К тому же роль играют личные предпочтения, ведь люди могут ориентироваться не только на корректность ответа, но и на стиль его написания.

Все это — лишь часть сложностей, с которыми мы сталкиваемся, когда пытаемся разобраться, «что такое хорошо и что такое плохо» в сфере искусственного интеллекта. Нужно учитывать, что результаты бенчмарков не всегда отражают истинный «ум» модели, ее реальную применимость в жизни или бизнесе. LLM могут превосходить человека в специализированных тестах, но испытывать трудности с простыми задачами.

Чтобы сгладить ограничения бенчмарков, мы используем многоступенчатую систему оценки моделей ИИ — тестирование на открытых и внутренних бенчмарках, краудсорсную разметку (когда люди делают специальные пометки в данных, чтобы нейросеть могла эффективнее обучаться) и проверку профессиональными AI-тренерами. На финальном этапе мы часто проводим приемку с участием разработчиков, аналитиков и менеджеров, чтобы быть уверенными, что у нас получилась действительно хорошая модель. Но самым важным мерилом качества модели, конечно, является то, какие результаты ИИ показывает в конечном продукте, насколько упрощает жизнь пользователям каждый день.

➤ Подписывайтесь на телеграм-канал «РБК Трендов» — будьте в курсе последних тенденций в науке, бизнесе, обществе и технологиях.

Обновлено 24.06.2025
Авторы
Теги
Ирина Барская
Главная Лента Подписаться Поделиться
Закрыть