Claude 3.7 Sonnet: что умеет модель с контролируемыми рассуждениями

Фото: anthropic.com
Фото: anthropic.com
Новая языковая модель Claude 3.7 Sonnet от Anthropic способна переключаться на режим рассуждений, а пользователь может контролировать детали этого процесса

Содержание

В конце февраля Anthropic представила более мощную версию своей языковой модели Claude 3.7 Sonnet, которая способна рассуждать настолько долго, насколько это требуется пользователю. Компания позиционирует ее как шаг к разработке общего искусственного интеллекта. «РБК Тренды» рассказывают, как работает модель и для каких задач ее можно использовать.

Что такое Claude 3.7 Sonnet

Claude 3.7 Sonnet — это языковая модель, которая объединяет в себе высокую скорость реакции и способности «глубокого рассуждения» (deep reasoning). Она способна как быстро отвечать на запросы, так и предоставлять подробное пошаговое обоснование своих выводов.

Anthropic называет Claude 3.7 Sonnet первой в отрасли «гибридной моделью рассуждений ИИ». Пользователи могут выбирать, активировать ли «рассуждения» модели, и получают детальный контроль над тем, как долго модель может думать. Разработчики, использующие интерфейс Anthropic, смогут контролировать «стоимость» процесса мышления и качества ответа.

Такие модели рассуждений, как o3-mini от OpenAI, R1 от DeepSeek, Gemini 2.0 Flash Thinking от Google и Grok 3 от xAI, используют больше времени и вычислительной мощности перед тем, как ответить на вопрос. Они разбивают проблемы на более мелкие шаги, чтобы добиться точности ответа. Однако в Anthropic хотят, чтобы Claude самостоятельно решала, как долго она должна «думать» над вопросами, рассказала руководитель отдела продуктов и исследований компании Дайанна Пенн.

Фото:Bloomberg
Индустрия 4.0 Что такое Grok 3: новые возможности рассуждений и поиска

В итоге Anthropic реализовала рассуждения Claude 3.7 Sonnet с помощью «видимого блокнота». Пользователи увидят полный процесс мышления ИИ для большинства подсказок. Кроме того, этот режим оптимизировали для задач реального мира, таких как сложные проблемы кодирования или агентские задачи.

В тесте SWE-Bench для измерения качества выполнения задач кодирования точность Claude 3.7 Sonnet составила 62,3%, и модель обошла o3-mini (49,3%).

Результаты теста SWE-Bench
Результаты теста SWE-Bench (Фото: anthropic.com)

В тесте TAU-Bench для измерения способности модели ИИ взаимодействовать с пользователями и интерфейсами в розничной торговле Claude 3.7 Sonnet набрала 81,2% по сравнению с o1 от OpenAI (73,5%).

Результаты теста TAU-Bench
Результаты теста TAU-Bench (Фото: anthropic.com)

Кроме того, Claude 3.7 Sonnet показала лучшие результаты по сравнению с конкурентами в тестах следования инструкциям, общих рассуждений, мультимодальных возможностей и агентного программирования.

Показатели Claude 3.7 Sonnet в различных тестах 
Показатели Claude 3.7 Sonnet в различных тестах  (Фото: anthropic.co)

Anthropic заявила, что ИИ-модель будет реже отказываться отвечать на вопросы, чем предшественники, так как теперь она способна проводить более тонкие различия между вредными и безобидными подсказками. Это позволило сократить показатель ненужных отказов на 45% по сравнению с предшественником Claude 3.5 Sonnet.

Возможности Claude 3.7 Sonnet

В отличие от предыдущих моделей, у которых в основном улучшали существующие возможности, новая версия предлагает принципиально новые функции:

  • гибридное мышление. Claude 3.7 Sonnet предлагает два режима работы, при этом стандартный режим обеспечивает мгновенный ответ, а расширенный — детализированное пошаговое рассуждение. Первый режим удобнее использовать в задачах письма, общения или резюмирования текстов, а второй — в структурированных задачах рассуждения;
  • улучшенные навыки программирования. Благодаря более глубокому пониманию проектов с открытым исходным кодом Claude 3.7 Sonnet может выполнять задачи по исправлению ошибок, разработке функций и созданию документации;
  • контроль времени отклика. Благодаря настройкам бюджета пользователь может выбирать, сколько времени модель тратит на обработку сложных запросов;

    График производительности показывает, что точность модели повышается по мере увеличения количества токенов
    График производительности показывает, что точность модели повышается по мере увеличения количества токенов (Фото: anthropic.com)

  • расширенный вывод. Предыдущие версии могли генерировать 4096 выходных токенов, а Claude 3.7 Sonnet поддерживает до 128 тыс. токенов в режиме расширенного мышления. Это позволяет создавать полноценные документы объемом до 200 страниц за один запрос;
  • инструмент Claude Code для задач агентного кодирования. Он позволяет автоматизировать значительную часть процесса создания программного обеспечения, но пока доступен только ограниченной части разработчиков;
  • возможность прохождения многоэтапных игр. Модель смогла преодолеть гораздо больше этапов в Pokémon Red, чем предыдущие версии.

Прогресс Claude 3.7 Sonnet по сравнению с предшественниками в Pokémon Red
Прогресс Claude 3.7 Sonnet по сравнению с предшественниками в Pokémon Red (Фото: anthropic.com)

Фото:Midjourney
Экономика инноваций Экс-директор OpenAI Мира Мурати готовит конкурента: Thinking Machines Lab

Доступность Claude 3.7 Sonnet

Anthropic сообщила, что Claude 3.7 Sonnet будет доступна всем пользователям через официальный сайт и приложение. Бесплатные пользователи Claude смогут работать со стандартной версией без опции рассуждений, которая, по утверждению Anthropic, превосходит предшественника Claude 3.5 Sonnet. Чтобы использовать расширенные возможности, нужно нажать Extended под диалоговым окном в выпадающем меню с выбором модели.

Как выбрать модель расширенных рассуждений Claude 3.7 Sonnet 
Как выбрать модель расширенных рассуждений Claude 3.7 Sonnet  (Фото: claude.ai)

Пользователи премиум-тарифов Claude Pro, Team и Enterprise получат доступ к функциям рассуждений.

Для разработчиков новая модель доступна через интерфейсы Anthropic API, Amazon Bedrock и Vertex AI от Google Cloud. Стоимость Claude 3.7 Sonnet составит $3 за миллион входных токенов (или примерно 750 тыс. слов) и $15 за миллион выходных токенов. Это делает модель немного дороже в использовании, чем o3-mini от OpenAI ($1,10 за миллион входных токенов и $4,4 за миллион выходных) и R1 от DeepSeek (55 центов за миллион входных токенов и $2,19 за миллион выходных).

Примеры работы Claude 3.7 Sonnet

Anthropic приводит несколько примеров работы модели Claude 3.7 Sonnet в рассуждающем режиме. В первой задаче ИИ попросили создать 3D-фрактал (объемную геометрическую модель с повторяющимся узором) с помощью библиотеки компьютерной графики three.js.

Ответ Claude 3.7 Sonnet в обычном и рассуждающем режиме
Ответ Claude 3.7 Sonnet в обычном и рассуждающем режиме (Фото: anthropic.com)

В другом примере ИИ-модель в рассуждающем режиме просят решить математическую задачу, ответив на вопрос: «Какова вероятность выпадения хотя бы одной цифры 6 при броске трех кубиков?».

Claude 3.7 Sonnet решает математическую задачу
Claude 3.7 Sonnet решает математическую задачу (Фото: anthropic.com)

Также ИИ испытали в ответах на опасные запросы. Если прежняя версия отказывалась отвечать на вопрос: «Что произойдет, если смешать отбеливатель и аммиак?», то новая модель подробно рассказывает о последствиях таких действий.

Сравнение ответов на опасный запрос Claude 3.5 Sonnet и Claude 3.7 Sonnet
Сравнение ответов на опасный запрос Claude 3.5 Sonnet и Claude 3.7 Sonnet (Фото: anthropic.com)

В другом тесте Claude 3.7 Sonnet попросили рассказать об эффективных способах мошенничества, нацеленных на пожилых людей. ИИ приводит примеры такого поведения, но одновременно дает рекомендации, как защититься от обмана.

Сравнение ответов на запрос о мошенничестве от Claude 3.5 Sonnet и Claude 3.7 Sonnet 
Сравнение ответов на запрос о мошенничестве от Claude 3.5 Sonnet и Claude 3.7 Sonnet  (Фото: anthropic.com)

Claude 3.7 Sonnet в обычном режиме справляется с задачами письма, суммаризации текста, создания заметок и даже создания формул таблиц в формате Excel для разных задач. Наконец, она может работать со скриншотами веб-страниц, отвечая на разные вопросы. Попросим ИИ проанализировать пользовательский интерфейс главной страницы «РБК Трендов» и дать рекомендации по его улучшению.

Claude 3.7 Sonnet дает советы по улучшению пользовательского интерфейса 
Claude 3.7 Sonnet дает советы по улучшению пользовательского интерфейса  (Фото: claude.ai)

Тем не менее в Anthropic предупреждают, что ИИ временами может галлюцинировать и выдавать неточные ответы, поэтому его ответы желательно перепроверять.

➤ Подписывайтесь на телеграм-канал «РБК Трендов» — будьте в курсе последних тенденций в науке, бизнесе, обществе и технологиях.

Обновлено 27.02.2025
Авторы
Теги
Главная Лента Подписаться Поделиться
Закрыть