Авторы судятся с разработчиками нейросетей: как ИИ регулируется законом

Фото: Dalle-3
Фото: Dalle-3
ChatGPT пишет стихи, прогнозирует продажи и управляет производством. «РБК Тренды» рассказывают, почему технологический прорыв может оказаться вне закона и как нейросеть обидела несколько тысяч писателей

Как собирают информацию

Составить клиентскую базу для рассылки или сделать подборку скандинавских мифов на датском языке — все это сбор данных. Сперва информацию придется найти, затем проанализировать и рассортировать по уровню важности.

Сбор больших объемов данных с веб-ресурсов называется скрейпинг (от англ. to scrape — «соскребать, собирать»). Его можно делать вручную, но чаще процесс автоматизируется: информацию собирают боты и преобразуют в удобный для работы пользователя вид.

Технология помогает формировать базы данных какой-то конкретной информации. С их помощью компании отслеживают цены конкурентов, агрегаторы собирают новости и объявления, маркетологи проводят исследования.

Скрейпинг не считается взломом — все данные берутся из открытых источников. Однако его могут использовать в незаконных целях. Хакеры собирают и продают персональные данные банкам, мошенникам или сливают в даркнет конфиденциальные корпоративные данные.

Например, в 2017 году «ВКонтакте» подала заявление в суд против компании Double Data. Double Data собирала из социальной сети персональные данные, а затем продавала банкам информацию о кредитоспособности пользователей. (В 2022 году стороны заключили мировое соглашение.)

Еще один пример из США. Компания Clearview AI разработала ПО по автоматическому распознаванию лиц. Для этого она собрала в Сети более 20 млрд изображений людей. Разработкой пользовались не только правоохранительные органы — ПО купили более 200 частных организаций. Некоторые сотрудники компаний использовали сервис, чтобы следить за личной жизнью других людей. В мае 2022 года суд запретил Clearview AI продавать свое ПО частному бизнесу.

Фото:Midjourney
Индустрия 4.0 Преступление и творчество: может ли ИИ обладать правами

Как связаны скрейпинг и нейросети

Искусственный интеллект — это технологии, которые могут обучаться и выполнять сложные задачи, имитируя человеческое мышление. ИИ тренируют двумя способами обучения: машинным и глубоким. В первом случае используют большие объемы данных для поиска и структурирования закономерностей. Во втором — результаты, полученные на предыдущем этапе, обрабатывают нейросети.

От обычных программ нейросети отличаются тем, что могут учиться, адаптироваться к новым задачам и самостоятельно создавать алгоритмы для их решения. Для тренировок нужен датасет — набор структурированных данных, которые «читает» нейросеть. С их помощью она строит модель, на основе которой ИИ генерирует контент.

Датасет распределяет собранные данные по конкретным признакам
Датасет распределяет собранные данные по конкретным признакам (Фото: «Яндекс Практикум»)

Датасеты собирают двумя способами: вручную и автоматически. В первом случае люди сами отсматривают объекты и описывают их характеристики. Во втором — информацию ищут и обрабатывают системы сбора данных. Чем данных больше, тем точнее работает программа.

Если планируется, что нейросеть будет анализировать внутреннюю информацию — работу сотрудников, продажи или списки клиентов, то данные для датасета предоставит компания. Для других целей значительная часть информации берется из открытых источников, в том числе и с помощью скрейпинга. Например, чтобы нейросеть могла внятно общаться с пользователем, в систему загружают массивы текстов, написанных людьми. Такие материалы учат систему хорошо владеть языком, грамматикой и правильно отвечать на вопросы. Чтобы уменьшить количество некорректных ответов и неверной информации, с алгоритмами работают инструкторы — AI-тренеры.

Примеры «умных» языковых моделей с искусственным интеллектом — ChatGPT, разработанный компанией OpenAI, и LLaMA, выпущенная Meta (признана экстремистской организацией и запрещена в России). Эти мощные инструменты можно применять для самых разных сфер и задач — от игр и переводов на другие языки до производства и машиностроения.

Для ChatGPT и LLaMA системы автоматического сбора данных брали информацию из научных статей, субтитров к видео, «Википедии» и других открытых источников. А еще наборы данных собирали из тысяч литературных произведений. Без скрейпинга такие объемы пришлось бы формировать и систематизировать вручную очень и очень долго.

При обучении GPT-3 применялся датасет размером 570 Гб. Для сравнения 1 Гб — это примерно 1 тыс. книг на 200–300 страниц. Один из прототипов ChatGPT серии GPT-3,5 содержит более 720 Гб многоязычных текстовых данных.

Авторы против нейросетей

Для обучения ИИ, помимо прочих источников, часто применяют наборы данных Books1, Books2 и Books3. С помощью этих датасетов разработчики учат нейросети общаться с пользователем, писать тексты.

Список Books1 содержит около 70 тыс. книг с истекшими авторскими правами или лицензиями, допускающими некоммерческое распространение. Никто точно не знает, что находится внутри Books2 и Books3, — разработчики не раскрывают список. Некоторые подозревают, что они содержат коллекции пиратских библиотек, таких как Library Genesis, Z-Library и Bibliotik. Аналогичные ресурсы есть и в России. Например, «Флибуста» или «Рутрекер».

Независимый разработчик Books3 Шон Прессер подтвердил, что в датасет загружена копия Bibliotik. При этом он заявил, что хотел не навредить авторам, а предоставить независимым разработчикам данные для создания и обучения нейросетей уровня OpenAI. Цель — помочь избавиться от монополии технологических гигантов на генеративный ИИ, дающей корпорациям полный контроль над технологией, меняющей культуру и жизнь.

Экономика инноваций Не навреди: семь проблем правового регулирования робототехники

Журналисты и независимые эксперты исследовали список Books3. В нем оказалось более 2,5 тыс. книг, защищенных авторским правом, — это около 2% от всего объема набора данных. Сборник содержит художественную и документальную литературу. В него вошли минимум девять книг Харуки Мураками (например, «Охота на овец»), 33 книги Маргарет Этвуд (в частности, «Рассказ служанки») и произведения других писателей.

Это возмутило современное литературное сообщество. Результатом стало открытое письмо к ведущим компаниям-разработчикам с призывом уважать авторские права и интеллектуальную собственность. Обращение подписали более 8 тыс. писателей, а уже в сентябре 2023 года Гильдия авторов подала коллективный иск против OpenAI за обучение ChatGPT на их книгах. До того, как началась шумиха, компания не скрывала, что использует для ИИ списки Books2 и Books3. Сейчас упоминания об этом скрыты.

В числе истцов находятся популярные авторы Джордж Мартин («Песнь Льда и Огня») и Сьюзен Коллинз («Голодные игры»). 4 декабря иск изменили — в нем ответчиком стала компания Microsoft (компания сотрудничает с OpenAI в сфере развития технологий и инвестирует в нее). В середине февраля 2024 года суд отклонил большую часть претензий авторов из-за отсутствия прямых доказательств нарушения авторских прав.

Судов не избежала и компания Meta с обученной на Books3 языковой моделью LLaMA. Против компании выступают писатель Ричард Кадри, комик Сара Сильверман, сценарист Кристофер Голден и другие известные авторы.

А вот писатель Стивен Кинг разрешил пользоваться своими книгами для обучения. Вот что он говорит по поводу творчества нейросетей: «Стихи ИИ… во многом похожи на деньги в кино: хорошие на первый взгляд, но не очень хорошие при внимательном рассмотрении».

Еще одно судебное дело с нарушением авторских прав начало издание The New York Times. Иск открыт против OpenAI и Microsoft — компании обучали нейросети на миллионах статей без разрешения владельцев авторских прав. В результате чат-боты могут имитировать работу журналистов и отвечать на вопросы о важных событиях или рассказывать новости. Это отнимает у издания аудиторию и доход — пользователям достаточно полученных ответов, и они перестают посещать веб-ресурс.

Фото:Unsplash
Индустрия 4.0 Как авторы используют ИИ и кому принадлежит такое творчество

Как сейчас регулируются ИИ-технологии

Беспокойство по поводу того, что искусственный разум перехитрит людей и выйдет из-под контроля, усилилось с появлением нового поколения чат-ботов с генеративным ИИ. Глубокой законодательной базы для комфортного сосуществования людей и нейроразработок пока нет. Это заставило страны всего мира начать работать над правилами для стремительно развивающихся технологий.

Китай

Китай стал первой страной, начавшей регулировать развитие генеративного ИИ на законодательном уровне. С 2020 года там действует запрет на публикацию дипфейков и другой ложной информации, созданной с помощью сервисов ИИ. Нарушение приравнивается к уголовному преступлению.

А в июле 2023 года Китай утвердил меры по управлению генеративным ИИ. Правила распространяются на алгоритмы, доступные широкой публике, и не затрагивают разработки исследовательских институтов или предназначенные для использования за границей.

Ключевые положения правил:

  • разработки должны проходить проверки безопасности;
  • данные и базовые модели должны быть из легальных источников;
  • права интеллектуальной собственности не должны нарушаться;
  • на использование личной информации необходимо получить индивидуальное согласие;
  • материалы, созданные ИИ, не должны подрывать государственную власть.

За соблюдением правил будут следить семь национальных агентств, включая Министерство науки и технологий, Национальную комиссию по развитию и реформам и Министерство образования КНР.

Фото:youtube.com
Индустрия 4.0 Дипфейки: как трансформируется авторское право на контент

Россия

Правовое регулирование ИИ в России проходит на нескольких уровнях госуправления. Основные принципы развития и использования ИИ описаны в указе президента «О развитии искусственного интеллекта в Российской Федерации». Раздел III указа гласит: «Основными принципами развития и использования технологий искусственного интеллекта… являются: защита прав и свобод человека: обеспечение защиты гарантированных российским и международным законодательством прав и свобод человека». Здесь же обозначены критерии к наборам данных — они должны быть общедоступны, соответствовать нормам и законодательству.

Более четкое применение ИИ — в сферах торговли, здравоохранения, транспорта, образования и других регулируют федеральные законы. Например, ФЗ № 152 контролирует использование персональных данных информационными системами. А ФЗ № 408 регулирует разработку и применение технологий, в том числе сбор и обработку данных, находящихся в свободном доступе.

Также для инновационных технологий в России действует экспериментальный правовой режим — «регуляторные песочницы». Они помогают разработчикам тестировать свои продукты, не нарушая закон. Вкратце о принципе действия «песочниц»: для тестирования проекта выбирается контролируемая среда и определяются конкретные сроки — несколько месяцев или лет. На время испытаний нормативная база упрощается — это может быть отказ от каких-то согласований, стандартов или получения лицензий. После тестового периода инновации выходят на рынок или отправляются на доработку. Особые права получили нейроразработки, ИИ, big data и еще семь технологий. Цель «песочниц» — ускорить выпуск новых разработок.

Фото:Freepik
Индустрия 4.0 Как в России и мире пытаются регулировать искусственный интеллект

США

22 марта 2023 года Илон Маск и почти 1 тыс. крупнейших специалистов в сфере ИИ подписали открытое письмо, в котором потребовали приостановить обучение генеративных сервисов, пока процессы не станут регулироваться протоколами безопасности и независимыми экспертами. В противном случае мощные разработки могут стать крупномасштабной угрозой для человечества, говорилось в письме.

Для контроля за безопасным развитием и внедрением генеративных технологий в госсекторе в США появилось новое ведомство — Центр безопасности ИИ (AI Security Center). А в октябре 2023 года Белый дом опубликовал указ о безопасном, защищенном и заслуживающем доверия искусственном интеллекте. Документ основан на добровольных обязательствах ведущих разработчиков ИИ, подписавших мартовское открытое письмо. Он состоит из восьми основных частей, описывающих правила использования ИИ-систем. Они обязывают разработчиков делиться результатами тестирования алгоритмов, соблюдать гражданские права и сформировать правила использования нейросервисов. Также планируется маркировать контент, созданный ИИ, чтобы не вводить в заблуждение людей фейковой информацией.

Европейские страны

В сентябре 2023 года Европарламент согласовал предварительное соглашение закона об ИИ. Он фиксирует правила разработки и использования крупных моделей искусственного интеллекта и защищает людей от злоупотреблений технологиями со стороны государственных органов. Согласно документу системы ИИ общего назначения должны соответствовать требованиям прозрачности. К ним относятся разработка технической документации, соблюдение закона Евросоюза об авторском праве и распространение подробных обзоров содержания, используемого для обучения.

Окончательный закон вступит в силу не раньше 2025 года и грозит жесткими финансовыми штрафами за несоблюдение правил. Сумма зависит от вида нарушения и размера компании — от €7,5 млн, или 1,5% от глобального оборота компании, до €35 млн, или 7% выручки.

Фото:Shutterstock
Индустрия 4.0 Как в Великобритании планируют регулировать искусственный интеллект

Другие страны

1–2 ноября 2023 года в Великобритании состоялся первый международный саммит по безопасному использованию ИИ. Делегаты из 28 стран, включая США и Китай, договорились сообща контролировать развитие ИИ и сдерживать возможные риски. Участники подписали «Декларацию Блетчли» о безопасном использовании ИИ. Такое масштабное обсуждение необходимо для того, чтобы сбалансировать права человека с экономической и национальной безопасностью и технологическими запросами компаний на законодательном уровне.

Как зафиксировать авторство

Защитить контент от скрейпинга сложно: для этого нужно постоянно мониторить Сеть — не выложил ли кто-то в свободный доступ авторский материал. Ресурсов очень много, а еще больше пользователей, которые делятся чужими произведениями без мысли о том, что нарушают закон.

Авторские права — это интеллектуальная собственность, которая охраняется законом. Они могут быть личными и исключительными. Первые — бессрочные, и их нельзя передать. В них входит право автора публиковать и удалять произведение под своим именем или псевдонимом. Исключительные права автор может передать — бесплатно или за деньги. В этом случае их обладатель может использовать объект в соответствии с законом.

Тексты входят в объекты авторских прав (согласно ст. 1295 ГК России). В России они по умолчанию принадлежат автору, и официальная регистрация не обязательна. Но в качестве меры профилактики нарушения прав лучше зафиксировать авторство.

Вот как это сделать:

  • заверить авторство у нотариуса;
  • отправить на свой адрес заказное письмо с подлинником;
  • опубликовать произведение онлайн или офлайн;
  • задепонировать свой труд (зафиксировать в специальном реестре или передать копию на хранение).

Индустрия 4.0 Границы разумного: как регулировать искусственный интеллект

Как отследить использование произведения в ИИ

Пока никак, только если увидеть точное совпадение текста в ответе нейросети. И даже это могут не засчитать доказательством — в иске NYT против OpenAI и Microsoft говорится о почти дословном цитировании статей. Но компания-ответчик просто назвала такие случаи редкими ошибками, которые будут исправляться.

Авторы смогут защитить себя от незаконного использования интеллектуальной собственности, если информация о разработках будет открытой. Поэтому вопрос прозрачности инновационных технологий так актуален и обсуждается странами на глобальном уровне. Сейчас компании-разработчики не готовы добровольно предоставлять доступ к подобным данным — этого не сделали ни OpenAI, ответственная за ChatGPT, ни Meta, выпустившая LLaMA.

Мировое сообщество уже предпринимает действия, чтобы изменить ситуацию и вывести из тени нелегальные методы разработок. Адвокаты авторов, подавших иск против OpenAI, Джозеф Савери и Мэтью Баттерик считают, что ИИ в итоге будет напоминать то, что произошло с цифровой музыкой, телевидением и фильмами, и будет соответствовать закону об авторском праве. Нейросети будут обучаться на лицензированных данных с раскрытием источников, а разработчики будут обязаны платить авторам за использование интеллектуальной собственности.

Обновлено 05.06.2024
Главная Лента Подписаться Поделиться
Закрыть