LLM: как работают языковые модели для чат-ботов и умных поисковиков

Фото:  Midjourney
Фото: Midjourney
В основе популярных чат-ботов, таких как ChatGPT, лежат большие языковые модели (LLM). Они не только обрабатывают массивы данных, но и удерживают в памяти контекст

Содержание:

Большие языковые модели применяются для разработки чат-ботов, поисковиков с функциями искусственного интеллекта и множества других инструментов. По оценкам Grand View Research, объем этого рынка превысил $4,35 млрд и будет расти на 35,9% ежегодно в период с 2024 по 2030 год. Рассказываем, как обучаются и работают LLM, а также — какие у них перспективы.

Что такое LLM

Большая языковая модель (LLM, Large language model) — это тип программы искусственного интеллекта, которая может распознавать и генерировать текст. LLM обучают на огромных наборах данных — отсюда и название «большая». LLM построены на машинном обучении: в частности, на базе нейронной сети, называемой моделью-трансформером. Примеры LLM: ChatGPT от OpenAI, Bard от Google, Llama от Meta (признана экстремистской, ее деятельность запрещена в Рор), Bing от Microsoft, YandexGPT от «Яндекса», GigaChat от «Сбера».

Большие языковые модели чаще всего применяют в качестве генеративного ИИ. В этом случае модели задают вопрос, а она генерирует текст в ответ. Для обучения модели можно использовать и сложный набор данных, включая языки программирования, чтобы впоследствии она помогала программистам писать код. LLM используют разными способами, в том числе:

  • в чат-ботах;
  • в онлайн-поиске;
  • для анализа настроений покупателей или пользователей по тональности комментариев;
  • для сортировки электронной почты;
  • для модерации контента;
  • для переводов;
  • для помощи в исследованиях;
  • для задач программирования и т.д.

ChatGPT отвечает на вопрос о своих возможностях
ChatGPT отвечает на вопрос о своих возможностях (Фото: rogozinushka.github.io)

Особенность больших языковых моделей заключается в их способности решать множество задач, основываясь на доступном контексте. Кроме того, эти модели обладают рядом ценных характеристик:

  • расширяемость и адаптивность. Дополнительное обучение базовой LLM поможет создать точно настроенную модель для конкретных потребностей;
  • гибкость. Одну LLM можно использовать для множества различных задач и пользователей;
  • производительность. Современные LLM способны генерировать быстрые ответы с задержкой менее секунды;
  • точность. По мере увеличения количества параметров и объема данных для обучения модель-трансформер выдает все более релевантные ответы;
  • простота обучения. Многие LLM обучаются на массивах данных, которые заранее не маркируют поясняющими метками, что помогает ускорить процесс;
  • эффективность. LLM могут экономить время сотрудников, автоматизируя рутинные задачи.

Фото:Shutterstock
Индустрия 4.0 Два года ChatGPT: цифры и факты о чат-боте

Чем LLM отличаются от простых языковых моделей

Между большими и простыми (традиционными) языковыми моделями, таким как RNNLM, Word2vec, GloVe и fastText, есть несколько важных отличий.

Применение

Простые модели используют разные методы обработки человеческого языка. Они могут предсказывать последовательность слов в тексте или частоту их применения. Это позволяет модели находить и предлагать именно ту информацию, которая включает нужные слова или сочетания, подобно тому, как это делают поисковики.

«Яндекс» предлагает пользователю закончить фразу
«Яндекс» предлагает пользователю закончить фразу (Фото: «Яндекс»)

Кроме того, традиционные модели могут анализировать, в каком контексте упоминаются конкретные понятия. А большие языковые модели обучаются предсказывать следующее слово на основе анализа контекста. Они способны обобщать входящие данные, чтобы, например, пересказать длинный текст. Например, исследователи IBM Watson применяют традиционные модели для извлечения нужной информации из медицинских данных, а затем внедряют LLM для того, чтобы объяснять эти массивы информации с учетом контекста. Полученные сведения используются в целях диагностики заболеваний и рекомендаций по их лечению.

Методы

Простые модели используют разные методы машинного обучения в зависимости от задачи, которую они будут выполнять. LLM же в основном используют глубокое обучение для изучения закономерностей в текстах и прогнозирования последовательностей слов. При обучении таких моделей используют механизмы оценки важности различных слов в предложении. Это позволяет LLM лучше понимать контекст и генерировать релевантный текст.

Производительность в языковых задачах

LLM смогли превзойти другие типы моделей в задачах генерации текстов, похожих на человеческие. Они способны создавать релевантный креативный контент. Это позволяет применять LLM в таких приложениях, как чат-боты, виртуальные помощники, создание контента и языковой перевод.

Однако большие языковые модели могут галлюцинировать, генерировать неточный контент, поскольку обучаются на основе общедоступных данных, который создавали в том числе предвзятые люди. А простые модели, напротив, обучают на специально созданных датасетах. В некоторых случаях они могут решать проблемы генерации текста более точно и с меньшими вычислительными ресурсами, чем LLM.

Пример галлюцинаций ChatGPT — нейросеть переходит на другой язык
Пример галлюцинаций ChatGPT — нейросеть переходит на другой язык (Фото: reddit.com)

Фото:Freepik
Социальная экономика Лингвист Александр Пиперски: «Нейросети привлекают нас многословием»

Требования к ресурсам

LLM нуждаются в значительном объеме данных и вычислительных ресурсах для эффективной работы, поскольку они предназначены для выведения сложных логических заключений. Кроме того, они имеют очень большое количество параметров, которое исчисляется в миллиардах или даже сотнях миллиардов.

Параметры — это переменные, которые в машинном обучении используются для настройки модели. Таким образом, 1 млрд параметров — это не корпус из 1 млрд слов или текстов, на которых обучали модель, а показатель, который условно отражает, сколько переменных использовала LLM для настройки при обучении.

Параметры в машинном обучении — это своего рода «ручки настройки» на старом телевизоре. Чтобы сделать картинку четкой или звук приятным, вы крутите их, пока не добьетесь идеального результата. Так вот, у LLM таких «ручек» миллиарды, и каждая отвечает за свою маленькую часть понимания текста или логики.

Простые же модели способны обучаться на относительно небольших наборах данных, соответствующих конкретной области применения. Они требуют гораздо меньше вычислительных ресурсов, поэтому намного дешевле и проще в обучении.

Рост параметров больших языковых моделей
Рост параметров больших языковых моделей (Фото: researchgate.net)

Адаптивность

LLM разработаны для изучения закономерностей, поэтому они могут понимать разные тексты и обучаться на новых датасетах. Традиционные модели менее гибкие и могут испытывать трудности при решени нетиповых задач.

Виды LLM

Существует несколько типов больших языковых моделей. Самые распространенные из них:

  • модель с нулевым выстрелом (Zero-shot model), которая обучается без примеров. Такие модели знакомят с большими датасетами с общей информацией, а затем они самостоятельно учатся выполнять новые задачи, используя полученные данные. Пример такой модели — GPT-3;
  • тонко настроенные или предметно-ориентированные модели. Это дополнительно обученные модели с нулевым выстрелом, например, Codex от OpenAI для программирования на основе GPT-3. Их не нужно дообучать — достаточно применить дополнительные настройки;
  • модель представления языка. Они используют метод глубокого обучения для обработки естественной речи. Одним из примеров считаются модели BERT от Google. Это предварительно обученные модели, которые путем дополнительной настройки можно адаптировать под разные задачи, например, для ответов на вопросы или перевода текстов;
  • мультимодальные модели. Они изначально обучаются на разных типах данных, что позволяет им обрабатывать как текст, так и изображения. Пример — GPT-4. Такие модели можно дообучать на собственных данных, чтобы они могли успешнее выполнять задачи.

Типы LLM
Типы LLM (Фото: researchgate.net)

Архитектура LLM

Архитектура большой языковой модели определяется рядом факторов, такими как цель разработки, доступные вычислительные ресурсы и вид задач обработки языка.

Выделяют несколько основных типов архитектур:

  • трансформер (Transformer) — это базовая архитектура для многих современных моделей обработки естественного языка, которая создает цифровое представление каждого элемента последовательности;
  • BERT (Bidirectional Encoder Representations from Transformers) — модель, разработанная в Google, которая рассматривает текст в обоих направлениях для лучшего понимания контекста;
  • GPT (Generative Pre-trained Transformer) — это языковая модель от OpenAI, обученная на архитектуре трансформера и способная предсказывать следующий элемент в последовательности (тексте) с учетом контекста;
  • T5 (Text-to-Text Transfer Transformer) — это модель, также созданная в Google, которая рассматривает все задачи обработки естественного языка как преобразование текста в текст. Она способна передавать краткие содержания текстов, делать переводы, генерировать новый контент или общаться как чат-бот.

Представьте, что трансформер — это очень умный фильтр, который разбирает текст как гигантский пазл, и помогает понять, как кусочки (слова) связаны друг с другом. Этот фильтр — основа, на которой построены все остальные модели.

BERT работает как человек, который читает текст дважды: сначала с начала до конца, а потом с конца до начала, улавливая скрытые смыслы и понимая, как слова зависят друг от друга.

GPT похож на гадалку, которая продолжает мысли. Вы говорите: «Сегодня я был на…», а модель достраивает: »...на прогулке, где встретил старого друга». Идеально подходит для создания текстов.

T5 — это «швейцарский нож», который умеет все: пересказать историю, перевести текст, придумать продолжение или ответить на вопросы. Все задачи для него — это просто разные виды текста, которые он преобразует.

Если очень просто, то трансформер — это мозг, а BERT, GPT и T5 — разные режимы этого мозга, настроенные под конкретные задачи.

Архитектура трансформера
Архитектура трансформера (Фото: arxiv.org)

Как работают LLM

Существует несколько ключевых компонентов больших языковых моделей, которые организуют запросы и генерируют ответы на промпт. Вот как они работают при получении запроса от пользователя:

  • слой внедрения. Он сопоставляет входные данные и фиксирует семантические связи между ними, чтобы помочь модели понять контекст. За единицу входных данных берется так называемый токен;

Токен — это маленький кусочек текста, который модель использует как минимальную единицу работы. Токеном может быть слово «кот». Но токенами могут быть также и буквы или их сочетания: «к», «о», «т», или «ко», «т». В некоторых случаях токеном может быть даже пробел или знак препинания. Модели необходимы эти токены-«кубики», из которых она строит и анализирует предложения, так как она не понимает текст как человек. На самом деле все слова она преващает в числа или так называемые векторы.

  • слой прямой связи. Он обрабатывает токены из слоя внедрения для фиксации базовых закономерностей и связей в данных. Это повышает способность LLM учиться на входных данных и интерпретировать их;
  • рекуррентный слой. Он фиксирует зависимости, чтобы модель могла учитывать предыдущие токены в последовательности. Особенно важную роль он играет для моделирования последовательных данных и выполнения задач, где важны контекст и порядок (например, понимание языка). Впрочем, современные трансформеры, такие как GPT, заменили рекуррентные слои механизмом внимания, который эффективнее работает с последовательностями;
  • механизм внимания. Он помогает LLM сосредоточиться на наиболее важных частях входных данных, улучшает ее способность понимать отношения или связи между отдельными элементами (вне зависимости от того, рядом они находятся или нет) и лучше улавливать контекст, особенно, если он длинный;
  • слои нейронной сети. Он включает входные, скрытые и выходные слои модели, что обеспечивает обработку информации и ее вывод.

В ходе обучения LLM знакомят с доступными текстовыми данными (книги, статьи, веб-страницы), чтобы они могли изучить общую структуру и правила языка (грамматику, синтаксис и семантику). Затем огромные наборы данных отправляются в модель, называемую трансформером — это тип алгоритма глубокого обучения.

Фото:Freepik
Экономика инноваций 7 нейросетей для написания текстов: от поста до сценария

В общем случае нейросеть моделей трансформера состоит из двух слоев:

  • кодировщик (encoder), который извлекает соответствующие фрагменты информации из входящей последовательности данных;
  • декодер (decoder), который использует полученные данные для генерации компонентов выходной последовательности.

Современные LLM, впрочем, могут использовать только одну из этих частей: BERT использует только кодировщик, потому что он предназначен для понимания текста. А GPT использует только декодер, потому что он сосредоточен на генерации текста.

Как работает трансформер
Как работает трансформер (Фото: jalammar.github.io)

Кодировщик получает набор токенов в качестве входных данных. Это может быть одно слово, знак препинания или последовательность символов. Затем он извлекает значение входных данных и сохраняет его как вектор. Декодер получает этот вектор и генерирует свою интерпретацию входного текста.

Модель трансформатора позволяет обрабатывать весь входной текст одновременно, а не последовательно. Она не игнорирует начало текста, а использует полученные ранее знания, чтобы выстроить лучшие связи между словами и осмыслить контекст.

Обучение LLM

LLM требуют сложного процесса обучения и тонкой настройки. Этот процесс включает несколько основных шагов:

  • определение цели — конкретного варианта использования LLM. От этого будет зависеть выбор источников данных для обучения;
  • предварительное обучение. Для этого требуется собрать и очистить обучающие данные от ошибок, дубликатов, нерелевантной информации, а затем отформатировать для обработки);
  • токенизация. Тексты в наборе данных нужно разбить на более мелкие фрагменты, чтобы LLM могла понимать отдельные слова и учитывать контекст;
  • выбор инфраструктуры. Для обучения LLM требуются огромные вычислительные ресурсы, такие как GPU или TPU, часто в облачных средах. На этом этапе выбирается платформа и настраиваются параметры обучения;
  • обучение. Модель проходит базовое обучение на больших объемах данных, чтобы научиться общим закономерностям языка, грамматике и контексту. Этот процесс часто занимает недели или месяцы;
  • тонкая настройка. На этом этапе специалист представляет данные модели, оценивает ее вывод, а затем корректирует параметры для улучшения результатов.

На базовом уровне LLM необходимо обучить на большом объеме или корпусе данных. Изначально используется подход неконтролируемого обучения, когда в модель загружают неструктурированные и немаркированные данные. Преимущество метода заключается в том, что он позволяет модели научиться самостоятельно выводить связи между различными словами и концепциями.

Следующим шагом становится является обучение и тонкая настройка с помощью самоконтролируемого обучения. Здесь внедряется маркировка данных, которая служит для повышения точности модели.

Затем LLM проходит глубокое обучение с помощью трансформера. Это позволяет ей понимать и распознавать связи и отношения между словами и концепциями, используя механизм самовнимания. Он способен назначать вес каждому токену, который будет отражать важность этого элемента при обработке данных и выдаче ответа.

Как работает механизм самовнимания
Как работает механизм самовнимания (Фото: jalammar.github.io)

Какие задачи LLM могут решать в будущем

Один из основателей OpenAI Андрей Карпаты предсказывает, что через несколько лет большие языковые модели смогут:

  • получить больше знаний по всем предметам, чем любой человек;
  • эффективно работать в Интернете, конкурируя с традиционными поисковиками;
  • задействовать в работе сторонние программы и компьютерную периферию, в том числе калькулятор, мышь и клавиатуру;
  • думать в течение длительного времени, используя логику;
  • самообучаться в тех областях, где есть понятные критерии;
  • общаться с другими LLM.

Фото:Didem Mente/Anadolu via Getty Images
Индустрия 4.0 Над чем будет работать OpenAI в 2025 году: AGI, ИИ-агенты

Такие ИИ-поисковики, как Perplexity, уже демонстрируют успешный поиск в Интернете, хотя круг их задач пока ограничен. А в 2023 году группа исследователей показала, как GPT-4 самостоятельно научилась играть в Minecraft. Нейросеть решала разные задачи, добавляя скиллы в свою библиотеку.

Исследователи полагают, что следующее поколение LLM, скорее всего, не будет общим или разумным искусственным интеллектом, но оно будут постоянно совершенствоваться и становиться «умнее».

Применение LLM также расширится с точки зрения бизнес-приложений, с которыми они могут работать. Их способность переводить контент в разных контекстах будет расти и дальше, что, вероятно, сделает их более полезными для пользователями с разным уровнем технических знаний.

LLM будут продолжать обучаться на все больших наборах данных, и это позволит повысить точность их работы и снизить предвзятость, отчасти за счет добавления возможностей проверки фактов. Также вероятно, что LLM научатся лучше объяснять полученный результат.

Предметно-ориентированные LLM, разработанные для отдельных отраслей или функций, станут все более распространенными. Будет развиваться класс LLM, основанный на концепции генерации и поиска нехватающих данных в базах или в Интернете.Такой подход уже предлагает Google, которая представила Realm (Retrieval-Augmented Language Model).

Также ведется работа по оптимизации общего размера обучающих данных и времени обучения LLM. Так, Llama 3 от Meta (признана экстремистской и запрещена в России), выпущенная в апреле 2024 года, использовала обновленные подходы, позволяющие добиться большей эффективности. Несмотря на меньший объем параметров по сравнению с GPT-4, модель демонстрирует схожую производительность и более высокую адаптивность. Расширенные возможности Llama 3 включают поддержку контекста до 128 тысяч токенов и улучшенную работу с несколькими языками, что делает ее универсальным инструментом для различных задач, от обработки текста до генерации кода.

Читайте также:

➤ Подписывайтесь на телеграм-канал «РБК Трендов» — будьте в курсе последних тенденций в науке, бизнесе, обществе и технологиях.

Обновлено 15.01.2025
Главная Лента Подписаться Поделиться
Закрыть