
Большие языковые модели выступают одним из ключевых направлений в области развития искусственного интеллекта, кардинально изменив подходы к обработке текстовой информации, взаимодействию человека и компьютера, а также к автоматизации разных задач. Такие модели применяются в различных сферах, в том числе в образовании, медиа, юриспруденции и здравоохранения. По мере их внедрения перед разработчиками и обществом встают вопросы, связанные с развитием ИИ. Предвзятость и безопасность — две ключевые проблемы, решением которых занимаются разработчики.
Что такое предвзятость в языковых моделях
Предвзятость в языковых моделях — это искаженное представление информации в контексте определенной точки зрения. В результате система искусственного интеллекта может транслировать стереотипы, основанные на гендерной, расовой, культурной или идеологической предвзятости.
Проблема предвзятости, как правило, кроется в качестве обучающих данных и архитектуре модели. Большинство больших языковых моделей обучают на текстах и медиаданных из интернета, не отсеивая низкокачественную информацию. Модель учится искать закономерности в этих данных, а затем формирует паттерны ответов. Если в обучающем наборе существует предвзятость или некая закономерность, искусственный интеллект усвоит ее как паттерн. Кроме того, на предвзятость влияет так называемое алгоритмическое смещение, когда сама модель может непреднамеренно выделять определенные шаблоны в данных. Иногда сами разработчики не понимают, как это работает. Эту проблему еще называют «черным ящиком» нейросетей.
Примеров предвзятости довольно много. Например, Amazon в 2018 году пришлось свернуть проект модели для автоматизации подбора кандидатов на работу. От новой системы отказались из-за дискриминации соискателей-женщин. Команда объяснила это тем, что алгоритм обучался на базе резюме всех сотрудников Amazon за последние десять лет. Мужчин в этой выборке оказалось больше, чем женщин. А один из самых популярных чат-ботов ChatGPT от OpenAI в 2024 году уличили в том, что он при сортировке резюме отдает предпочтение именам, более характерным для конкретных демографических групп. В итоге резюме с именами, присущими темнокожему населению США, оказывались в конце списка в 29% случаев. Для азиатов, белых и испаноязычных американцев этот показатель составил 22, 24 и 25% соответственно.
Последствия предвзятости
Подобное поведение больших языковых моделей может иметь негативные последствия. Вот лишь некоторые примеры:
- На рынке труда инструменты найма на основе ИИ, использующие предвзятые модели, могут демонстрировать несправедливое отношение к кандидатам из недостаточно представленных групп. Это может привести к сохранению существующего неравенства и снижению разнообразия рабочей силы.
- В банковской сфере предвзятые модели могут неверно оценивать кредитоспособность заемщиков из определенных групп, например представителей национальных меньшинств или лиц с более низким социально-экономическим статусом. В итоге им будут отказывать в кредитах или предлагать невыгодные условия на основе таких факторов, как раса, пол или социально-экономический статус.
- В сфере медиа и соцсетей предвзятые системы модерации контента на основе ИИ могут непропорционально цензурировать высказывания определенных групп, позволять распространяться вредоносному контенту или дезинформации из других источников. Подобные модели могут также испытывать трудности с пониманием нюансов языка, контекста и культурных различий, чрезмерно или недостаточно модерировать определенные типы контента. В исследовании «Ключевые вызовы в развитии больших языковых моделей», проведенном Институтом искусственного интеллекта МГУ совместно с банком ВТБ (есть в распоряжении «РБК Трендов»), более половины экспертов в области социогуманитарных наук назвали проблему дезинформации ключевой при развитии моделей.
- В сфере здравоохранения предвзятые модели ИИ могут выдавать неверные результаты по итогам диагностики для определенных групп населения, если их данные были недостаточно представлены в обучающей выборке. Это может привести к неправильной постановке диагноза, неадекватному лечению или даже неравному доступу к медицинской помощи.
Проблемы безопасности языковых моделей
Помимо предвзятости внедрение языковых моделей несет и другие риски:
- уязвимость к атакам с использованием данных. Злоумышленники могут внедрять вредоносные данные в тренировочные наборы для ИИ, создавая скрытые уязвимости, которые влияют на выдачу информации. Это могут быть «триггерные фразы», чтобы заставить модель генерировать предвзятые или неправильные результаты либо активировать вредоносное поведение ИИ;
- манипуляция запросами. Это атаки, при которых злоумышленники формируют запросы таким образом, чтобы модель игнорировала исходные инструкции и генерировала нежелательные ответы. Подобное поведение может привести к утечке данных или созданию вредоносного контента;
- генерация небезопасного кода. Языковые модели способны создавать код с уязвимостями, что представляет угрозу для кибербезопасности целых отраслей;
- массовое распространение дезинформации. Языковые модели могут использоваться для генерации предвзятого контента или фейковых новостей;
- угроза конфиденциальности. Модели могут случайно раскрывать конфиденциальную информацию из тренировочных данных или генерировать ответы, содержащие личные данные пользователей.
Как минимизировать предвзятость
В исследовании МГУ и банка ВТБ большинство экспертов заявили, что полное устранение предвзятости невозможно, так как это связано с предвзятостью данных, на которых обучались модели. Однако, по мнению экспертов, эти показатели можно регулировать и минимизировать проблему.
Борьба с предвзятостью в языковых моделях требует комплексного подхода, в том числе использования методов работы с данными обучения, самой моделью и постобработкой ее вывода. Эти стратегии включают:
- ресемплинг и аугментацию данных. Первый метод позволяет получить новые выборки на основе исходной, а также вычислять разные статистики по каждой из них. Второй же представляет собой процесс искусственного генерирования новых данных на основе существующих. Эти методы помогают сбалансировать тренировочные наборы, уменьшая влияние предвзятого контента;
- фильтрацию данных или удаление явно предвзятых или ненадежных источников из тренировочных наборов, а также дополнение данных с привлечением сообществ, чтобы повысить разнообразие выборки;
- изменение целей обучения. В процесс обучения можно включить ограничения, чтобы минимизировать разницу в результатах выдачи для разных выборок;
- модификацию архитектуры модели. В нее можно включать специальные модули для обработки предвзятых данных;
- корректирующие алгоритмы. В качестве них могут выступать методы обучения с подкреплением для коррекции предвзятых ответов, например метод обучения с обратной связью от человека (RLHF):
- вовлечение людей в процесс разработки и модерации, работу с экспертами по получению обратной связи;
- модерацию в реальном времени и возможности настройки параметров вывода модели пользователями.
Исследователи отмечают, что предвзятость языковых моделей лежит в самой природе больших языковых моделей.
Еще в 2023 году ученые лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института решили проверить, могут ли языковые модели с опцией логики избегать вредных стереотипов. Они обучили языковую модель предсказывать связь между двумя предложениями на основе контекста и семантического значения, используя набор данных с метками для текстовых фрагментов, подробно описывающих, насколько связаны между собой первое и второе предложения: влечет ли одно за собой другое, противоречат ли они друг другу или же полностью нейтральны. Выяснилось, что обученные таким образом модели были значительно менее предвзятыми.
Соучредитель OpenAI и бывший главный научный сотрудник Илья Суцкевер предсказывает, что будущие модели станут рассуждающими и агентными, а также смогут решать шаг за шагом проблемы способом, который больше сопоставим с мышлением. По его словам, чем больше система рассуждает, тем непредсказуемее становится. В настоящее время компании уже предлагают первые языковые модели с опциями рассуждения, такие как ChatGPT 4.5 или o1 от OpenAI, продукты американской Perplexity и китайской DeepSeek либо модель Claude 3.7 Sonnet от Anthropic. Последняя, как заявляли разработчики, реже отказывается отвечать на вопросы, чем предшественники, так как более тонко различает вредные и безобидные подсказки. Это позволило сократить показатель ненужных отказов на 45% по сравнению с Claude 3.5 Sonnet.
Исследователи сходятся на том, что результатом усилий по борьбе с предвзятостью и другими минусами больших языковых моделей станет объяснимый ИИ (XAI), когда разработчики и пользователи поймут, почему модель генерирует определенные ответы.
Решения для повышения безопасности ИИ
Чтобы снизить риски безопасности больших языковых моделей, уже внедряются передовые практики.
Безопасное обучение модели и управление данными
Такие меры включают защиту архитектуры модели, конвейера обучения и репозиториев данных, а также внедрение шифрования и контроля доступа для снижения риска несанкционированного доступа и утечек. Так, в Google разработали Secure AI Framework (SAIF) — принципы создания безопасных ИИ-систем. Они включают практики безопасности, такие как обзор, тестирование и контроль цепочки поставок, а также оценку рисков, характерных для систем ИИ.
Регулярные аудиты и тестирование на предвзятость и уязвимости
Чтобы обеспечить безопасность и непредвзятость языковых моделей, нужны регулярные аудиты и тестирование. Уже доступны инструменты и методологии для оценки поведения модели, обнаружения предвзятых результатов и устранения проблем, и компании внедряют собственные практики. Например, в Anthropic разработали систему аудитов выравнивания (alignment audits) для обнаружения скрытых уязвимостях в языковых моделях, которые базируются на ошибках в моделях вознаграждения при обучении с обратной связью от человека (RLHF).
Внедрение строгого контроля доступа
Реализация контроля доступа на основе ролей, механизмов аутентификации и политик авторизации ограничивает риск несанкционированного использования API (аппаратно-программного интерфейса) языковой модели. Такой доступ минимизирует риски применения ИИ во вредоносных сценариях, а также опасности, связанные с утечкой данных. Например, Amazon предлагает целый пакет решений для разработчиков, в том числе Bedrock — меры безопасности для приложений генеративного искусственного интеллекта. Разработчик может создать несколько защитных ограждений, адаптированных к разным вариантам использования ИИ.
Непрерывный мониторинг и меры реагирования
Непрерывный мониторинг имеет решающее значение для обнаружения аномалий и потенциальных нарушений безопасности в больших языковых моделях. Компании уже разрабатывают инструменты автоматизирования отдельных аспектов мониторинга. Так, OpenAI предлагает бесплатный Moderation API (API модерации), который помогает разработчикам отфильтровывать нежелательные запросы пользователей перед отправкой в чат-бот. Инструмент также позволяет модераторам оценивать ответы самой модели перед выдачей пользователю.
Соответствие регуляторным политикам
Компании, которые собирают данные для обучения языковых моделей, должны убедиться, что их процессы соответствуют законам о конфиденциальности в каждой из юрисдикций, например Общему регламенту по защите данных (GDPR) в Европе или закону Калифорнии о защите потребительских правил (CCPA) в США. При использовании открытых репозиториев нужно проверить, соответствуют ли они правам интеллектуальной собственности. Кроме того, целый ряд стран уже принял правила в отношении разработки ИИ (например, AI Safety Governance Framework в Китае или AI Act в ЕС), которые требуют от компаний соблюдения законов в отношении конфиденциальности, прозрачности процессов, а также мер по созданию безопасных систем.
Опрошенные специалистами МГУ и ВТБ эксперты также отмечают, что для безопасного внедрения больших языковых моделей необходимо разработать этические стандарты и более четкое правовое регулирование, чтобы решить проблемы с защитой прав пользователей и предотвращением недобросовестного применения ИИ. По мнению экспертов, искусственный интеллект — это инструмент и нужно регулировать не сам инструмент, а последствия его применения.
Реклама: Банк ВТБ (ПАО). Erid: F7NfYUJCUneRHyjrYsuz
➤ Подписывайтесь на телеграм-канал «РБК Трендов» — будьте в курсе последних тенденций в науке, бизнесе, обществе и технологиях.