Шаг 1: персональные рекомендации
В основе сегодняшней системы рекомендаций — собственные разработки и исследования Netflix в области ИИ и машинного обучения. Алгоритм совершенствуют годами, обучая его на растущей базе данных о подписчиках. Но уже к 2016 году 80% пользователей выбирали, что смотреть, на основе рекомендаций.
Уже годом позже глава Netflix Рид Хастингс заявил, что их главный конкурент — не другие потоковые сервисы, а сон.
Сбор больших данных — главная причина, по которой Netflix стремится удержать пользователей как можно дольше: чем больше данных, тем точнее работают алгоритмы. Причем данные собираются не только на основе истории просмотров и лайков. К примеру, при просмотре первого интерактивного фильма «Черное зеркало. Бандерснатч» пользователям нужно было выбирать, по какому пути пойдет сюжет дальше. Данные о том, кто и какие кнопки нажимал, тоже использовались для обучения нейросети.
Netflix составляет для вас персональные рекомендации и размещает их на главной странице. Для этого нейросети используют два пути:
- Анализируют ваши собственные предпочтения — по жанрам, актерам и другим параметрам.
- Анализируют, что смотрят люди со схожими профилями: из той же страны, с похожей историей просмотров.
Один из недавних скандалов, связанных с персональными рекомендациями Netflix, прогремел в США. Сервис обвинили в том, что он показывает подросткам фильмы и сериалы про самоубийства, и это приводит к печальным последствиям. Один из таких сериалов — «13 причин почему», из-за которого семья подростка, покончившего с собой, подала на Netflix в суд. Однако представители онлайн-сервиса настаивают на том, что любое ограничение алгоритмов рекомендаций сродни цензуре: это все равно что ограничивать новостную ленту. Также в Netflix подчеркнули, что не собирают персональные данные о пользователях, включая возраст.
Как это устроено на практике? Система бесконечно предлагает вам разные подборки и запоминает, что в итоге сработало: то есть, какие фильмы из рекомендованных вы начали смотреть или даже лайкнули, а какие бросили в первые же минуты. Потом использует эти данные, чтобы перестроить ленту рекомендаций, раз за разом угадывая все точнее. И так — до бесконечности.
Кроме того, система отмечает, в какое время суток вы обычно смотрите, в каком регионе и с каких устройств — а пол и возраст, при этом игнорирует. Все это обрабатывается с помощью специальных алгоритмов, и в итоге видите несколько ряда рекомендаций, например: «Смотрят сейчас», «В тренде», «Удостоенные наград комедии» и так далее. Чем выше ряд, тем больше, с точки зрения системы, вам подходят эти фильмы.
В апреле 2021-го к обычным рекомендациям добавилась функция «Случайное видео» (Play Something). Она позволяет проигрывать рандомные фильмы и сериалы, если вы не можете выбрать, что посмотреть. Эту подборку алгоритм также составляет на основе ваших предпочтений и предпочтений аналогичных пользователей. Так система стремится удержать вас на платформе как можно дольше.
Шаг 2: персональные постеры
Первое, что вы видите, когда листаете каталог с фильмами и сериалами — это постер, он же — обложка. Вы еще ничего не знаете о фильме, еще не смотрели трейлер и не успели прочитать описание, и у сервиса есть буквально пара секунд, чтобы вас зацепить. Как это сделать?
Чтобы подобрать лучшие обложки, Netflix использует AVA — Aesthetic Visual Analysis, «анализ визуальной эстетики». Каждому кадру присваивают различные атрибуты с удельным весом по значимости, например: контраст, яркость, количество лиц, оттенки кожи, наличие обнаженного тела, размытость движения, симметричность композиции.
Сопоставляя все эти признаки, алгоритм выбирает наиболее удачные кадры для постера и даже редактирует их.
Затем алгоритм анализирует, на какие картинки чаще всего кликаете вы или пользователи с похожими предпочтениями. Потом отбирает из тысячи кадров пары и показывает их вам поочередно — это так называемое А/В-тестирование. При этом тестируют еще и постеры, предложенные разными версиями алгоритма — старой и новой: так сервис выясняет, какой работает лучше.
На основе вашего предыдущего выбора сервис выстраивает всю ленту так, чтобы вы видели постеры определенного типа и кликали на них.
Например, если вы любите комедии, то в качестве постера к «Умнице Уиллу Хантингу» вам покажут кадр с улыбающимся Робином Уильямсом. А если предпочитаете романтические драмы, то увидите главного героя с его девушкой:
Нейросеть учитывает, в какой стране вы находитесь. Сравните два постера к «Восьмому чувству» для жителей Германии и США:
Вот так алгоритм понимает, что вы обращаете внимание на определенных актеров:
Шаг 3: персональные трейлеры
Как и с постерами, за трейлеры отвечают специальные алгоритмы непрерывного онлайн-обучения — «контекстные бандиты» (contextual bandit). Они применяют контекст — то есть все, что им известно о вас — на каждом этапе выбора.
По той же схеме, что и с постерами, ИИ на базе машинного обучения подбирает персональные трейлеры под разную аудиторию, учитывая предпочтения, пол, возраст, страну и даже время суток. И даже более того: Netflix планирует использовать нейросети, чтобы выбирать нужные кадры и монтировать из них тысячи трейлеров для разных пользователей.
К примеру, любителям романтических фильмов алгоритм предложит нарезку кадров или отдельную сцену с влюбленной парой — даже если это боевик, в котором романтические сцены занимают 0,5% от всего фильма. Если вы часто смотрите фильмы с одним и тем же актером, то вам покажут трейлер именно с ним.
Трейлеры — это только начало. В Голливуде используют нейросети, чтобы предсказать, какой фильм будет кассово успешным и вложить в него деньги. И даже снимают кино с помощью нейросети.
Какие алгоритмы использует «КиноПоиск»
Российская стриминговая платформа входит в состав «Яндекса» и использует его алгоритмы. Как и Netflix, «КиноПоиск» составляет для вас персональные рекомендации: с учетом вашей истории просмотров или опираясь на похожих пользователей, а также на данные о фильме: дату выхода, жанр, награды, оценки. При этом система учитывает также историю поиска данного пользователя на «Яндексе», чтобы точнее определить его интересы.
Но еще до появления онлайн-кинотеатра главной «фишкой» сервиса были рейтинги. Как и на IMDb, Rotten Tomatoes или Афише, пользователи ставят фильмам и сериалам оценки. Пользователи отмечали, что далеко не все голоса одинаково влияют на рейтинг.
Сервис неоднократно обвиняли в том, что он накручивает голоса для некоторых отечественных картин, которые провалились в прокате. К примеру, в 2016 году пользователи заподозрили накрутку рейтинга фильмов «Землетрясение» и «Мафия: игра на выживание», а позже — «Крыма». Во всех случаях рейтинг взлетал сразу после выхода и рос за считанные часы, что совсем не типично даже для суперпопулярных блокбастеров. «КиноПоиск» утверждал, что аккаунты, с которых ставили положительные оценки, были взломаны.
Случается и обратное: фильм «Крымский мост» сразу после выхода получал одни единицы, что со стороны тоже выглядело как атака подставных аккаунтов.
Сейчас, по словам разработчиков, сервис использует сложную систему для защиты от накруток. В частности, она распознает подозрительные оценки и не учитывает их в общем рейтинге фильма. Критерии отсева постоянно обновляются, вслед за новыми путями обхода алгоритма. Также на период кинопроката сервис публикует только рецензии от проверенных пользователей: это активные посетители «КиноПоиска», которых оценивают по целому ряду критериев в истории взаимодействия.
Шаг 4: упаковка видео для разных устройств
Netflix учитывает не только что вы смотрите, но и где. В зависимости от региона, плана подписки устройства или браузера вам покажут видео в определенном формате. Всего сервис поддерживает больше 2000 разных систем: телевизоры со Смарт ТВ, ТВ-приставки, смартфоны, планшеты, компьютеры и ноутбуки со всеми существующими ОС.
Но речь не только о качестве, формате и разрешении файла. Когда видео загружается на платформу, «умный» алгоритм Netflix проверяет его на битые пиксели и другие дефекты. Затем дробит на несколько разных файлов: с разными звуковыми дорожками и субтитрами, разрешением, форматом видео и звука, а также — оптимизированные под разную скорость интернета. К примеру, из исходников второго сезона «Очень странных дел» на выходе получилось 9 570 файлов: на это ушло 190 тыс. часов работы процессоров. И все это — чтобы вы получили лучшие впечатления от просмотра на любом устройстве, даже с плохим интернетом.
Шаг 5: запуск фильмов и сериалов в разных странах
Для продвижения новых проектов сервис тоже задействует искусственный интеллект. Алгоритмы Netflix используют данные об аудитории в каждой из стран, чтобы рассчитать, какой из фильмов или сериалов где и когда лучше выпускать, как их лучше преподнести и на какие другие фильмы лучше сослаться. Если система видит, к примеру, что какая-то драма будет иметь больший успех в Испании, это поможет маркетологам и продюсерам направить туда больше ресурсов и подготовить сначала испанские титры и дубляж, а потом остальные.