Как собирают информацию
Составить клиентскую базу для рассылки или сделать подборку скандинавских мифов на датском языке — все это сбор данных. Сперва информацию придется найти, затем проанализировать и рассортировать по уровню важности.
Сбор больших объемов данных с веб-ресурсов называется скрейпинг (от англ. to scrape — «соскребать, собирать»). Его можно делать вручную, но чаще процесс автоматизируется: информацию собирают боты и преобразуют в удобный для работы пользователя вид.
Технология помогает формировать базы данных какой-то конкретной информации. С их помощью компании отслеживают цены конкурентов, агрегаторы собирают новости и объявления, маркетологи проводят исследования.
Скрейпинг не считается взломом — все данные берутся из открытых источников. Однако его могут использовать в незаконных целях. Хакеры собирают и продают персональные данные банкам, мошенникам или сливают в даркнет конфиденциальные корпоративные данные.
Например, в 2017 году «ВКонтакте» подала заявление в суд против компании Double Data. Double Data собирала из социальной сети персональные данные, а затем продавала банкам информацию о кредитоспособности пользователей. (В 2022 году стороны заключили мировое соглашение.)
Еще один пример из США. Компания Clearview AI разработала ПО по автоматическому распознаванию лиц. Для этого она собрала в Сети более 20 млрд изображений людей. Разработкой пользовались не только правоохранительные органы — ПО купили более 200 частных организаций. Некоторые сотрудники компаний использовали сервис, чтобы следить за личной жизнью других людей. В мае 2022 года суд запретил Clearview AI продавать свое ПО частному бизнесу.
Как связаны скрейпинг и нейросети
Искусственный интеллект — это технологии, которые могут обучаться и выполнять сложные задачи, имитируя человеческое мышление. ИИ тренируют двумя способами обучения: машинным и глубоким. В первом случае используют большие объемы данных для поиска и структурирования закономерностей. Во втором — результаты, полученные на предыдущем этапе, обрабатывают нейросети.
От обычных программ нейросети отличаются тем, что могут учиться, адаптироваться к новым задачам и самостоятельно создавать алгоритмы для их решения. Для тренировок нужен датасет — набор структурированных данных, которые «читает» нейросеть. С их помощью она строит модель, на основе которой ИИ генерирует контент.
Датасеты собирают двумя способами: вручную и автоматически. В первом случае люди сами отсматривают объекты и описывают их характеристики. Во втором — информацию ищут и обрабатывают системы сбора данных. Чем данных больше, тем точнее работает программа.
Если планируется, что нейросеть будет анализировать внутреннюю информацию — работу сотрудников, продажи или списки клиентов, то данные для датасета предоставит компания. Для других целей значительная часть информации берется из открытых источников, в том числе и с помощью скрейпинга. Например, чтобы нейросеть могла внятно общаться с пользователем, в систему загружают массивы текстов, написанных людьми. Такие материалы учат систему хорошо владеть языком, грамматикой и правильно отвечать на вопросы. Чтобы уменьшить количество некорректных ответов и неверной информации, с алгоритмами работают инструкторы — AI-тренеры.
Примеры «умных» языковых моделей с искусственным интеллектом — ChatGPT, разработанный компанией OpenAI, и LLaMA, выпущенная Meta (признана экстремистской организацией и запрещена в России). Эти мощные инструменты можно применять для самых разных сфер и задач — от игр и переводов на другие языки до производства и машиностроения.
Для ChatGPT и LLaMA системы автоматического сбора данных брали информацию из научных статей, субтитров к видео, «Википедии» и других открытых источников. А еще наборы данных собирали из тысяч литературных произведений. Без скрейпинга такие объемы пришлось бы формировать и систематизировать вручную очень и очень долго.
При обучении GPT-3 применялся датасет размером 570 Гб. Для сравнения 1 Гб — это примерно 1 тыс. книг на 200–300 страниц. Один из прототипов ChatGPT серии GPT-3,5 содержит более 720 Гб многоязычных текстовых данных.
Авторы против нейросетей
Для обучения ИИ, помимо прочих источников, часто применяют наборы данных Books1, Books2 и Books3. С помощью этих датасетов разработчики учат нейросети общаться с пользователем, писать тексты.
Список Books1 содержит около 70 тыс. книг с истекшими авторскими правами или лицензиями, допускающими некоммерческое распространение. Никто точно не знает, что находится внутри Books2 и Books3, — разработчики не раскрывают список. Некоторые подозревают, что они содержат коллекции пиратских библиотек, таких как Library Genesis, Z-Library и Bibliotik. Аналогичные ресурсы есть и в России. Например, «Флибуста» или «Рутрекер».
Независимый разработчик Books3 Шон Прессер подтвердил, что в датасет загружена копия Bibliotik. При этом он заявил, что хотел не навредить авторам, а предоставить независимым разработчикам данные для создания и обучения нейросетей уровня OpenAI. Цель — помочь избавиться от монополии технологических гигантов на генеративный ИИ, дающей корпорациям полный контроль над технологией, меняющей культуру и жизнь.
Журналисты и независимые эксперты исследовали список Books3. В нем оказалось более 2,5 тыс. книг, защищенных авторским правом, — это около 2% от всего объема набора данных. Сборник содержит художественную и документальную литературу. В него вошли минимум девять книг Харуки Мураками (например, «Охота на овец»), 33 книги Маргарет Этвуд (в частности, «Рассказ служанки») и произведения других писателей.
Это возмутило современное литературное сообщество. Результатом стало открытое письмо к ведущим компаниям-разработчикам с призывом уважать авторские права и интеллектуальную собственность. Обращение подписали более 8 тыс. писателей, а уже в сентябре 2023 года Гильдия авторов подала коллективный иск против OpenAI за обучение ChatGPT на их книгах. До того, как началась шумиха, компания не скрывала, что использует для ИИ списки Books2 и Books3. Сейчас упоминания об этом скрыты.
В числе истцов находятся популярные авторы Джордж Мартин («Песнь Льда и Огня») и Сьюзен Коллинз («Голодные игры»). 4 декабря иск изменили — в нем ответчиком стала компания Microsoft (компания сотрудничает с OpenAI в сфере развития технологий и инвестирует в нее). В середине февраля 2024 года суд отклонил большую часть претензий авторов из-за отсутствия прямых доказательств нарушения авторских прав.
Судов не избежала и компания Meta с обученной на Books3 языковой моделью LLaMA. Против компании выступают писатель Ричард Кадри, комик Сара Сильверман, сценарист Кристофер Голден и другие известные авторы.
А вот писатель Стивен Кинг разрешил пользоваться своими книгами для обучения. Вот что он говорит по поводу творчества нейросетей: «Стихи ИИ… во многом похожи на деньги в кино: хорошие на первый взгляд, но не очень хорошие при внимательном рассмотрении».
Еще одно судебное дело с нарушением авторских прав начало издание The New York Times. Иск открыт против OpenAI и Microsoft — компании обучали нейросети на миллионах статей без разрешения владельцев авторских прав. В результате чат-боты могут имитировать работу журналистов и отвечать на вопросы о важных событиях или рассказывать новости. Это отнимает у издания аудиторию и доход — пользователям достаточно полученных ответов, и они перестают посещать веб-ресурс.
Как сейчас регулируются ИИ-технологии
Беспокойство по поводу того, что искусственный разум перехитрит людей и выйдет из-под контроля, усилилось с появлением нового поколения чат-ботов с генеративным ИИ. Глубокой законодательной базы для комфортного сосуществования людей и нейроразработок пока нет. Это заставило страны всего мира начать работать над правилами для стремительно развивающихся технологий.
Китай
Китай стал первой страной, начавшей регулировать развитие генеративного ИИ на законодательном уровне. С 2020 года там действует запрет на публикацию дипфейков и другой ложной информации, созданной с помощью сервисов ИИ. Нарушение приравнивается к уголовному преступлению.
А в июле 2023 года Китай утвердил меры по управлению генеративным ИИ. Правила распространяются на алгоритмы, доступные широкой публике, и не затрагивают разработки исследовательских институтов или предназначенные для использования за границей.
Ключевые положения правил:
- разработки должны проходить проверки безопасности;
- данные и базовые модели должны быть из легальных источников;
- права интеллектуальной собственности не должны нарушаться;
- на использование личной информации необходимо получить индивидуальное согласие;
- материалы, созданные ИИ, не должны подрывать государственную власть.
За соблюдением правил будут следить семь национальных агентств, включая Министерство науки и технологий, Национальную комиссию по развитию и реформам и Министерство образования КНР.
Россия
Правовое регулирование ИИ в России проходит на нескольких уровнях госуправления. Основные принципы развития и использования ИИ описаны в указе президента «О развитии искусственного интеллекта в Российской Федерации». Раздел III указа гласит: «Основными принципами развития и использования технологий искусственного интеллекта… являются: защита прав и свобод человека: обеспечение защиты гарантированных российским и международным законодательством прав и свобод человека». Здесь же обозначены критерии к наборам данных — они должны быть общедоступны, соответствовать нормам и законодательству.
Более четкое применение ИИ — в сферах торговли, здравоохранения, транспорта, образования и других регулируют федеральные законы. Например, ФЗ № 152 контролирует использование персональных данных информационными системами. А ФЗ № 408 регулирует разработку и применение технологий, в том числе сбор и обработку данных, находящихся в свободном доступе.
Также для инновационных технологий в России действует экспериментальный правовой режим — «регуляторные песочницы». Они помогают разработчикам тестировать свои продукты, не нарушая закон. Вкратце о принципе действия «песочниц»: для тестирования проекта выбирается контролируемая среда и определяются конкретные сроки — несколько месяцев или лет. На время испытаний нормативная база упрощается — это может быть отказ от каких-то согласований, стандартов или получения лицензий. После тестового периода инновации выходят на рынок или отправляются на доработку. Особые права получили нейроразработки, ИИ, big data и еще семь технологий. Цель «песочниц» — ускорить выпуск новых разработок.
США
22 марта 2023 года Илон Маск и почти 1 тыс. крупнейших специалистов в сфере ИИ подписали открытое письмо, в котором потребовали приостановить обучение генеративных сервисов, пока процессы не станут регулироваться протоколами безопасности и независимыми экспертами. В противном случае мощные разработки могут стать крупномасштабной угрозой для человечества, говорилось в письме.
Для контроля за безопасным развитием и внедрением генеративных технологий в госсекторе в США появилось новое ведомство — Центр безопасности ИИ (AI Security Center). А в октябре 2023 года Белый дом опубликовал указ о безопасном, защищенном и заслуживающем доверия искусственном интеллекте. Документ основан на добровольных обязательствах ведущих разработчиков ИИ, подписавших мартовское открытое письмо. Он состоит из восьми основных частей, описывающих правила использования ИИ-систем. Они обязывают разработчиков делиться результатами тестирования алгоритмов, соблюдать гражданские права и сформировать правила использования нейросервисов. Также планируется маркировать контент, созданный ИИ, чтобы не вводить в заблуждение людей фейковой информацией.
Европейские страны
В сентябре 2023 года Европарламент согласовал предварительное соглашение закона об ИИ. Он фиксирует правила разработки и использования крупных моделей искусственного интеллекта и защищает людей от злоупотреблений технологиями со стороны государственных органов. Согласно документу системы ИИ общего назначения должны соответствовать требованиям прозрачности. К ним относятся разработка технической документации, соблюдение закона Евросоюза об авторском праве и распространение подробных обзоров содержания, используемого для обучения.
Окончательный закон вступит в силу не раньше 2025 года и грозит жесткими финансовыми штрафами за несоблюдение правил. Сумма зависит от вида нарушения и размера компании — от €7,5 млн, или 1,5% от глобального оборота компании, до €35 млн, или 7% выручки.
Другие страны
1–2 ноября 2023 года в Великобритании состоялся первый международный саммит по безопасному использованию ИИ. Делегаты из 28 стран, включая США и Китай, договорились сообща контролировать развитие ИИ и сдерживать возможные риски. Участники подписали «Декларацию Блетчли» о безопасном использовании ИИ. Такое масштабное обсуждение необходимо для того, чтобы сбалансировать права человека с экономической и национальной безопасностью и технологическими запросами компаний на законодательном уровне.
Как зафиксировать авторство
Защитить контент от скрейпинга сложно: для этого нужно постоянно мониторить Сеть — не выложил ли кто-то в свободный доступ авторский материал. Ресурсов очень много, а еще больше пользователей, которые делятся чужими произведениями без мысли о том, что нарушают закон.
Авторские права — это интеллектуальная собственность, которая охраняется законом. Они могут быть личными и исключительными. Первые — бессрочные, и их нельзя передать. В них входит право автора публиковать и удалять произведение под своим именем или псевдонимом. Исключительные права автор может передать — бесплатно или за деньги. В этом случае их обладатель может использовать объект в соответствии с законом.
Тексты входят в объекты авторских прав (согласно ст. 1295 ГК России). В России они по умолчанию принадлежат автору, и официальная регистрация не обязательна. Но в качестве меры профилактики нарушения прав лучше зафиксировать авторство.
Вот как это сделать:
- заверить авторство у нотариуса;
- отправить на свой адрес заказное письмо с подлинником;
- опубликовать произведение онлайн или офлайн;
- задепонировать свой труд (зафиксировать в специальном реестре или передать копию на хранение).
Как отследить использование произведения в ИИ
Пока никак, только если увидеть точное совпадение текста в ответе нейросети. И даже это могут не засчитать доказательством — в иске NYT против OpenAI и Microsoft говорится о почти дословном цитировании статей. Но компания-ответчик просто назвала такие случаи редкими ошибками, которые будут исправляться.
Авторы смогут защитить себя от незаконного использования интеллектуальной собственности, если информация о разработках будет открытой. Поэтому вопрос прозрачности инновационных технологий так актуален и обсуждается странами на глобальном уровне. Сейчас компании-разработчики не готовы добровольно предоставлять доступ к подобным данным — этого не сделали ни OpenAI, ответственная за ChatGPT, ни Meta, выпустившая LLaMA.
Мировое сообщество уже предпринимает действия, чтобы изменить ситуацию и вывести из тени нелегальные методы разработок. Адвокаты авторов, подавших иск против OpenAI, Джозеф Савери и Мэтью Баттерик считают, что ИИ в итоге будет напоминать то, что произошло с цифровой музыкой, телевидением и фильмами, и будет соответствовать закону об авторском праве. Нейросети будут обучаться на лицензированных данных с раскрытием источников, а разработчики будут обязаны платить авторам за использование интеллектуальной собственности.