Как устроены малые языковые модели: эффект масштаба

Фото: Dalle-3
Фото: Dalle-3
Microsoft объявил SLM — малые языковые модели — одним из главных ИИ-трендов 2024 года. Изучаем, в чем их отличие от LLM, как они работают и где могут использоваться

Об авторе: Сергей Лукашкин, директор научно-образовательного центра «Цифровые технологии в образовании» ВШМ СПбГУ.

Что такое SLM

Малые языковые модели (Small Language Models или SLM), в отличие от больших языковых моделей (LLM), обученных на огромных массивах данных, используют небольшие объемы, но лучшего качества, поэтому работают точнее.

Четкого разделения между LLM и SLM пока что нет. Одни относят к большим языковым моделям те, что работают со 100 млн и более параметров, а к малым — от 1 до 10 млн. Другие называют цифры в 100+ млрд и 10 млрд соответственно. Но речь идет не только о числе параметров, но и объеме данных, физических размерах и нейронной архитектуре. Если упростить, то малая языковая модель — это та, что требует в разы меньше ресурсов при обучении и анализе данных, чем большая.

Фото:Shutterstock
Экономика инноваций Тихая революция: как большие языковые модели изменят бизнес

Как они работают

В отличие от универсальных LLM, малые модели предназначены для решения узкоспециализированных задач, с которыми справляются заметно лучше. Чтобы извлечь максимум из меньшего набора данных, в SLM используют разные методы:

  • Дистилляция: когда данные от предварительно обученной LLM передаются к малой модели.
  • Обрезка и квантование: когда сокращают объемы представления параметров с 32 до 8 или даже 2 бит, уменьшая размеры и требования к ресурсам, а также количество ошибок.
  • Более эффективные архитектуры: исследователи постоянно разрабатывают новые нейронные архитектуры, предназначенные специально для SLM, чтобы оптимизировать их работу.

Чтобы научить малую модель «думать» так же хорошо, как большая, разработчики настраивают малые модели специальным образом. В итоге SLM не слепо копируют поведение LLM, а выбирают другие стратегии решения задач. Например, отвечая на объемный вопрос, они сначала разбивают его на части и решают пошагово, а не целиком. Это помогает экономить ресурсы и получать такие же точные результаты.

Фото:Unsplash
Индустрия 4.0 GPT-4: что умеет самая продвинутая языковая модель

В чем главные плюсы

Исследования показывают, что у SLM перед LLM по крайней мере несколько важных преимуществ:

  1. Экономичность. Обучение LLM требует колоссальных затрат: на одну модель уходит в среднем от $9 млн до 23 млн, а модели вроде GPT-3 расходуют до 1,3 тыс. МВт/ч — это как если бы вы смотрели Netflix 1,6 млн часов. В основе больших моделей — архитектура Transformer, которая по мере увеличения данных требует все больше памяти и вычислительных мощностей.

    SLM потребляют гораздо меньше памяти и других ресурсов, что делает их более доступными. К примеру, чтобы обучить PaLM от Google, потребовалось больше 6 тыс. супермощных чипов TPU v4, тогда как для обучения малой модели OPT от Meta AI (принадлежит корпорации Meta — признана в России экстремистской и запрещена) понадобилось всего 992 графических процессора Nvidia A100 по 80 Гб каждый. Для малых моделей достаточно оперативной памяти в 16 Гб или меньше, если речь идет о мобильных версиях.

  2. Точность. Меньшие объемы данных и параметров у SLM не приводят к потере качества. Этому способствует тщательный отбор данных: среди них нет источников, которые ввели бы нейросеть в заблуждение. Например, недавно выпущенная модель Stable LM 2 c 1,6 млрд параметров обошла по эффективности в MT Bench алгоритм Falcon-40B, который в 25 раз больше.

  3. Безопасность. За счет меньшего объема данных в SLM «мишеней» для хакерских атак тоже меньше, поэтому риски взлома и утечки данных тоже гораздо ниже. Данные максимально фильтруют от нерелевантного и некачественного контента, добиваясь меньшего объема. В результате снижаются риски неэтичного или вредоносного использования.

  4. Доступность данных. Если вы не Google или Microsoft, собрать огромные массивы данных будет сложно и очень дорого. Особенно если учесть, что многие данные из Сети содержат чувствительную информацию или защищены авторским правом — например, научные исследования или книги. А значит, возникают еще и юридические тонкости. В случае с SLM на очистку прав требуется гораздо меньше ресурсов, а риски нарушений сводятся к нулю.

    В LLM массивы данных огромны, но распределены неравномерно: например, огромную долю составляют материалы на английском. В SLM за счет более качественного отбора можно получить данные на разных языках, чтобы результаты были точнее и объективнее.

  5. Простота и удобство. С малыми моделями проще работать как техническим специалистам, так и обычным пользователям. В отличие от LLM, их можно разворачивать даже на обычных ПК или смартфонах, моментально настраивая и изменяя для конкретных задач.

  6. Скорость. Благодаря небольшим объемам SLM выдают результат гораздо быстрее, что особенно важно там, где нужны аналитика и прогнозы в режиме онлайн.

  7. Прозрачность. Более простая архитектура и меньший объем данных позволяют лучше понимать, как работает конкретная модель, и предсказывать результаты.

Как устроены малые языковые модели: эффект масштаба

Какие SLM есть на рынке

Основные разработки принадлежат тем же компаниям, которые уже выпустили LLM:

  • GPT-Neo и GPT-J — это уменьшенные версии моделей GPT от OpenAI со 125 млн и 6 млрд параметров соответственно, которые достаточно универсальны и при этом работают с ограниченными вычислительными ресурсами.
  • DistilBERT, BERT Mini, Small, Medium и Tiny — мини-версии большой модели BERT для обработки естественного языка (NLP) с разным количеством параметров: от 4,4 до 41 млн (у большой модели их от 110 до 340 млн). Есть также MobileBERT, разработанная для мобильных устройств.
  • Orca 2 — малая модель от Microsoft, которая базируется на большой Orca с 13 млрд параметров, но с оптимизированными и улучшенными данными, а также тонкой настройкой Llama 2.
  • Phi 3 — еще одна разработка Microsoft с 3,8 млрд параметров, которая легко адаптируется для развертывания как в облаке, так и на локальных ресурсах. По словам разработчиков, ее сильные стороны — точное понимание языка и контекста, логичность рассуждений и математические методы анализа.
  • T5-Small — модель на базе Text-to-Text Transfer Transformer (T5) от Google.
  • RecurrentGemma — еще одна SLM от Google с 2,2 млрд параметров, которая генерирует текст в режиме онлайн на устройствах с ограниченными ресурсами, включая смартфоны, ПК и IoT.

Фото:Freepik
Социальная экономика Как языковое разнообразие связано с будущим искусственного интеллекта

Каковы перспективы малых моделей

Хотя пока малые модели отстают от больших в технической части, за счет экономичности и безопасности они будут пользоваться спросом, а значит, активно развиваться.

В отличие от LLM, у SLM больше шансов стать массовыми и найти применение, в том числе, в системах интернета вещей: в рамках «умного» дома, транспорта или цифровых двойников предприятий. Для последних решающий фактор — большая прозрачность и безопасность, так как на крупных производствах и внутри корпораций действуют жесткие требования конфиденциальности и защиты данных.

В ближайшей перспективе SLM станут доступны на большинстве смартфонов. В числе первых — Gemini Nano от Google, первая малая модель для смартфонов на базе Android, которая уже есть в Pixel 8 Pro. Apple, в свою очередь, выпустила OpenELM, состоящую из 8 малых моделей от 270 млн до 3 млрд параметров, которые предназначены для смартфонов на iOS. В компании также заявили о планах внедрить модели на базе генеративного ИИ в новые версии iOS в качестве базовых инструментов.

Если говорить про конкретные задачи, то SLM могут идеально справляться там, где нужно «схватывать на лету»: додумывать задачу по первым словам, дописывать текст, переводить и исправлять ошибки прямо в процессе написания. Например, для синхронного перевода или генерации субтитров на смартфоне.

Как и с LLM, одна из самых перспективных — работа SLM с RAG (Advanced Retrieval-Augmented Generation). Это метод обучения, при котором к ответу нейросети добавляют дополнительные данные из внешних источников, чтобы она ответила более полно и точно. Например, когда пользователь спрашивает про курс доллара, а нейросеть воспринимает это абстрактно. Тогда в ее ответ можно добавить курс доллара на данный момент.

Еще одна перспективная сфера для малых моделей — персональные ИИ-ассистенты. Они уже появляются в виде мобильных устройств без привычных нам интерфейсов (а иногда даже без экрана) и умеют делать почти все: от заказа столика в ресторане до управления «умным» домом. Для бизнеса они могут составлять письма и сообщения, следить за качеством обслуживания клиентов и эффективностью сотрудников.

Обновлено 03.07.2024
Главная Лента Подписаться Поделиться
Закрыть