Что нейросети знают о нас: как ИИ-модели обучают на чувствительных данных

Фото: ChatGPT
Фото: ChatGPT
Компании используют данные о наших покупках, переписках и болезнях для тренировки нейросетей. Но это не значит, что ИИ-модели знают о нас все. Разбираемся, как обучают алгоритмы без ущерба для конфиденциальности

Об авторе: Евгений Мартынов, директор по информационным технологиям «Рег.облака».

Между инновациями и законом

Современный бизнес работает с огромными массивами данных. Например, ретейлеры анализируют корзины покупателей, а банки оценивают кредитные риски. Эта информация о людях становится основой обучения ИИ-моделей. Как результат: множество повседневных сервисов работают точнее и удобнее, банки быстрее блокируют мошеннические операции, врачи получают подсказки по диагнозам, страховые компании рассчитывают риски.

Но здесь возникает ключевое противоречие: чем точнее и полезнее модель, тем больше данных ей требуется. У рядовых пользователей это вызывает закономерное опасение: неужели ИИ знает о нас все?

Чтобы закрыть этот риск, работа с чувствительными данными строго регулируется государством на законодательном уровне. Прямая передача такой информации разработчикам или в облачные сервисы влечет за собой наказание от штрафов до реальных сроков. И не любые практики «обезличивания» помогут избежать проблем с законодательством.

Таким образом, компании действуют между двумя жесткими требованиями: с одной стороны — необходимость внедрять ИИ, чтобы не отставать от конкурентов, с другой — соблюдать закон о персональных данных 152-ФЗ, требования Федеральной службы по техническому и экспортному контролю (ФСТЭК) и ФСБ, а также отраслевые стандарты.

Что считается чувствительными данными

  • Персональные данные (ПДн). Регулируются 152-ФЗ. Ключевые требования: хранить и обрабатывать информацию, содержащую персональные данные российских пользователей, на территории России, иметь законные основания для обработки и хранения и корректно обезличивать информацию при передаче в сторонние сервисы (согласно рекомендациям Роскомнадзора).
  • Государственная тайна. Закон запрещает выгружать такие данные в открытые облачные сервисы или несертифицированные IT-системы. Требуется использовать специальные средства криптографической защиты (СКЗИ).
  • Банковская и финансовая информация. Центробанк следит за тем, где и как кредитные организации обрабатывают данные клиентов. Требования к облакам и аутсорсингу строгие.
  • Медицинская тайна. Федеральный закон № 323-ФЗ и подзаконные акты ограничивают использование электронных медкарт вне защищенных контролируемых сред.
  • Госинформсистемы и системы с ПДн. Приказы ФСТЭК № 17 и № 117 определяют классы защиты и конкретные технические меры для таких IT-систем.

Фото:Pexels
Экономика образования Юрист или айтишник: кто работает в LegalTech

Что ИИ действительно знает о нас

То, что часто называют «знанием» в контексте ИИ, на самом деле является статистическими закономерностями, извлеченными из тысяч или миллионов записей. Модель не хранит имена, адреса или истории болезней в явном виде, а запоминает паттерны. Например, по наличию у пациента некоторых симптомов и показателей анализов высчитывается вероятность конкретного диагноза.

Однако это не означает, что персональные данные гарантированно не попадают в модель. Все зависит от того, на каких данных проводилось обучение. Хранение информации внутри нейросети осуществляется в векторном представлении — то есть в виде цепочек чисел, которые кодируют смысл и связи между объектами. Но это само по себе не защищает от утечек. Если модель обучалась на «сырых» персональных данных без надлежащего обезличивания, риск того, что она «запомнит» отдельные записи, сохраняется. Более того, если к ИИ подключен RAG (Retrieval-Augmented Generation) — механизм, который позволяет модели при ответе обращаться к внешней базе документов, — то персональная информация может оказаться доступна уже на уровне инференса. Такой же риск есть в случаях, когда пользователь может искать по исходным данным.

Один из показательных примеров — исследование Google Research. В 2021 году специалисты компании показали, что языковые модели способны воспроизводить фрагменты обучающих данных практически дословно. При специально сформулированных запросах модель выдавала реальные строки из датасета — включая email-адреса и другие чувствительные сведения. Это означает, что векторное представление само по себе не гарантирует защиту: при обучении на «сырых» данных модель может запоминать отдельные записи и потенциально раскрывать их.

В корпоративной практике тот же риск проявляется на этапе использования. В 2023 году Samsung зафиксировала случаи, когда сотрудники передавали в ChatGPT внутренний код и документы для решения рабочих задач. Данные фактически покидали защищенный контур и оказывались во внешнем сервисе, что создавало риск их дальнейшего использования или утечки. После инцидента компания ограничила применение генеративного ИИ.

Оба кейса иллюстрируют ключевую проблему: риски возникают либо на этапе обучения (если используются незащищенные данные), либо на этапе взаимодействия с моделью (если данные передаются за пределы контролируемого контура). В обоих случаях избежать утечек можно только за счет архитектурных решений — четкого разграничения сред, использования обезличенных или синтетических данных и контроля точек, в которых информация выходит за пределы защищенной инфраструктуры.

Поэтому в строгом смысле ИИ не знает о конкретном человеке ничего только при условии, что оператор данных с самого начала выстроил безопасную архитектуру: использовал обезличенные или синтетические данные для обучения, не подключал к модели внешние базы с ПДн и ограничил возможность обратного поиска — то есть строго следовал букве закона и не допустил выход данных за пределы контура.

Три сценария хранения данных

На практике российский бизнес прибегает к трем основным сценариям работы с данными. Выбор зависит от типа информации и стадии проекта.

Сценарий 1. Вся инфраструктура в собственном периметре

Модель обучается внутри компании, в защищенном контуре. Наружу выводят только модель, оперирующую обобщенными показателями (например, средний чек по региону). Восстановить данные конкретного человека невозможно.

  • Для гостайны и критической инфраструктуры это единственный вариант.
  • Банки работают таким образом с системами оценки надежности клиентов и защиты от мошенничества, используя облака только для обезличенной аналитики.
  • В медицине ИИ-сервисы разворачивают внутри самой организации или в отраслевых дата-центрах.

Фото:Shutterstock
Индустрия 4.0 Бизнес начал доверять LLM юридические данные: что изменилось

Сценарий 2. Работа с подрядчиком

Если речь не идет о гостайне, данные можно передать провайдерам, которые работают в рамках 152-ФЗ. Среди них:

  • интеграторы — строят решение прямо в контуре заказчика;
  • операторы защищенных облаков — предоставляют уже аттестованную инфраструктуру;
  • провайдеры ИИ-платформ — получают только обезличенные данные. Главное условие — юридически зафиксировать, что исходные данные не покидают разрешенный контур.

Сценарий 3. Гибридный подход

Комплексный вариант в два этапа.

  1. Проверка гипотезы. Используют публичные облачные сервисы с оплатой за аренду мощностей. Это быстро и не требует вложений в оборудование.
  2. Перенос в защищенный контур. Когда эффективность доказана, решение переносят в собственную инфраструктуру или к сертифицированному провайдеру.

Такой подход позволяет соблюсти ключевые требования закона. В экспериментальном режиме можно работать гибко, а в продуктивной среде — регламентировано. Но важно отметить риск: даже на этапе проверки гипотезы разработчики могут использовать реальные данные, в том числе персональные. Это значит, что данные фактически покидают защищенный контур. Чтобы не допустить этого, для экспериментов следует использовать подменные, сгенерированные массивы — с первого дня, а не на этапе финального внедрения. Иначе гибридный подход из легального превращается в «серую» схему.

Фото:ChatGPT
Индустрия 4.0 Искусственный интеллект: главное за первый квартал 2026-го

Шесть рабочих архитектур обучения моделей в России

Большинство российских проектов сегодня используют относительно простые схемы — например, копирование боевой базы в среду разработки с маскированием нескольких полей. Более сложные методы пока остаются скорее исключением.

  • «Обучение внутри, эксплуатация снаружи». Данные и обучение остаются в защищенном контуре, наружу выходит только готовая модель. Одна из самых распространенных схем.
  • «Гибридное облако с защищенным сегментом». Чувствительные данные и ядро ИИ — в аттестованном сегменте провайдера, вспомогательные сервисы — в публичной зоне.
  • «Обезличенный обмен». Данные маскируют и только потом передают подрядчикам. На практике обезличивание часто оказывается поверхностным (пара полей), а не полноценным.
  • «Федеративное обучение». Модель рассылают на площадки, каждая обучается на своих данных, в центр возвращаются только обновления. Тяжелый в эксплуатации подход, в России встречается редко.
  • «Синтетическая песочница». На основе реальных данных создают искусственный набор без реальных записей. Модель от этого теряет в точности, но подход популярен в медицине и сферах с коммерческой тайной.
  • «Дифференциальная приватность». Добавление шума в параметры модели, чтобы она не «запоминала» отдельные записи. Снижает точность. В российской промышленности почти не применяется, чаще — в презентациях и научных пилотах.

Главное в любой архитектуре — четко зафиксировать границу, за которую чувствительные данные не выходят, и точки обезличивания. На практике компании чаще выбирают простые и понятные решения, балансируя между безопасностью, качеством и стоимостью.

➤ Подписывайтесь на телеграм-канал «РБК Трендов» — будьте в курсе последних тенденций в науке, бизнесе, обществе и технологиях.

Обновлено 27.04.2026
Авторы
Теги
Евгений Мартынов
Главная Лента Подписаться Поделиться
Закрыть