Кино по щелчку: как работают рекомендательные алгоритмы в стриминге

Фото:  Jonas Leupe / Unsplash
Фото: Jonas Leupe / Unsplash
Современные рекомендательные системы подбирают для каждого зрителя не только фильмы, но и наиболее привлекательные превью к ним. Рассказываем, как создаются и работают алгоритмы, отвечающие за рекомендации контента

Об эксперте: Станислав Журавлев, Chief Product Officer Медиа/KION

Что такое рекомендательный алгоритм

Система рекомендаций для онлайн-кинотеатров — это способ найти максимально вовлеченного и заинтересованного зрителя, а для пользователя — один из вариантов индивидуализации. Если проводить исторические параллели, систему рекомендаций можно сравнить с разделением труда: тот, кто лучше лепил горшки, стал гончаром, а тот, кто гнул подковы — кузнецом. Рекомендации в контенте — то же самое, но наоборот: они позволяют закреплять предпочтения и даже формировать вкусы.

Современные системы рекомендаций представляют собой технологический процесс, который работает на алгоритмах, определяющих предпочтения зрителя. Алгоритм анализирует большой объем информации о пользователе и сопоставляет ее с данными о фильме, сериале, программе, а также с данными о других зрителях, которые посмотрели и оценили этот контент.

Искусственный интеллект в идеале должен обеспечивать правильный подбор контента для каждого конкретного пользователя.

Какие данные использует алгоритм

Для алгоритма рекомендаций важны два типа данных: исторические и демографические. Данные первого типа дают информацию о просмотрах контента конкретным пользователем или людьми, максимально похожими на пользователя (кто, когда и где посмотрел, сколько времени ушло на просмотр, сколько было повторных просмотров, досматривали ли до конца). Данные второго типа представляют собой социально-демографическую информацию о пользователях: пол, возраст, сферу деятельности и место жительства.

Большую часть пользовательских данных в онлайн-кинотеатре KION предсказывают с помощью моделей машинного обучения на основе агрегированных обезличенных данных. Эти данные собираются в HDFS (Hadoop Distributed File System) — файловую систему, предназначенная для хранения файлов больших размеров.

Как работает рекомендательный алгоритм

Как правило, рекомендации включают три типа фильтрации:

  • коллаборативная (collaborative filtering, CF). На основе действий пользователя его классифицируют по определенной категории. Затем алгоритм идентифицирует действия других людей из той же категории/подобной категории и предлагает контент для просмотра;
  • на основе содержимого (контентная). Такие механизмы работают в соответствии с описанием элементов и предпочтениями пользователя. В рекомендациях отображаются ключевые понятия, которые потребитель ранее использовал при поиске контента. Например, если он смотрел комедийные шоу, то ему порекомендуют другие программы в этом жанре;
  • гибридная. Эта модель объединяет в себе методы двух предыдущих. Самый популярный гибридный подход представляет из себя двухуровневую модель. Сначала в ней работает коллаборативная фильтрация, которая отбирает небольшое число кандидатов, а затем их ранжирует гораздо более мощная контентная модель. Такой тип рекомендаций используют сервисы вроде Youtube или Netflix.

Сначала система рекомендаций типизирует каждую единицу контента по нескольким группам признаков: мета-информация контента (жанры, режиссер, год, страна, теги), коллаборативные признаки взаимодействия пользователей и контента (клики, просмотры и т. д.), признаки видеоряда (технология компьютерного зрения находит и определяет предметы по тегам). Затем эти признаки объединяют в векторы и сохраняют для дальнейших расчетов как шаблоны. Аналогичный процесс происходит в отношении пользователей: каждого человека можно представить в векторном пространстве через взаимодействия с контентом (что смотрел, куда кликал, что досматривал до конца) и в рамках вероятностной модели, определяющей пол, возраст, доход, регион.

Когда пользователь заходит на витрину KION, система сопоставляет его вектор и вектор контента. Тот контент, что «ближе» к пользователю, ранжируется выше. При этом у одного пользователя может быть сразу несколько векторов.

Каждая витрина пересматривается раз в сутки. В зависимости от триггеров витрина может меняться чаще. Например, таким триггером может стать приобретение подписки. Кроме того, витрины меняются в зависимости от устройства пользователя. При этом отсеивается нерелевантный контент, например, 4К-видео для смартфонов.

Главное — тренировка

Работу любого алгоритма обеспечивает прогнозная модель. Она позволяет заранее предсказать, как будет себя вести зритель, если задать определенные параметры. Чтобы натренировать модель, компании исследуют большое число зрителей и их поведение. При этом задачей становится получить максимальный объем данных о пользователях по разным параметрам.

Например, если из выборки любителей триллеров 90% являются поклонниками тяжелого рока, то высока вероятность, что любителю этого жанра музыки на платформе можно предложить триллер для просмотра, и он заинтересуется этой рекомендацией.

Однако одного выбранного параметра недостаточно для построения рекомендаций. Чтобы советы были релевантными, сервису важно набрать значительный массив обезличенных данных для тренировки своих моделей искусственного интеллекта.

Именно тренировка и обучение моделей занимают 90% рабочего времени при разработке технологии, тогда как написание кода для искусственного интеллекта это лишь 10% времени.

В KION работает система оценки качества, которая отвечает за соответствие рекомендаций бизнес-требованиям и правилам. Так, она проверяет, что не выдает клиентам дублирующийся контент или слишком маленькое число тайтлов. Также отслеживается доля детского контента или сериалов — при использовании некоторых моделей они могут неконтролируемо расти.

Другие метрики качества — разнообразие, точность, новизна. Наконец, платформа использует «аватары» — группу «типичных» и группу «нетипичных» юзеров, на которых проверяют работу системы: она должна хорошо работать на «типичных» пользователях, но при этом уметь учитывать интересы «нетипичных».

Могут ли алгоритмы успешно работать без человека

Искусственный интеллект логичен, но не креативен, поэтому он может эффективно решать задачи, но для их постановки все равно требуется человек. Редакторские подборки в онлайн-кинотеатрах не менее важны, чем автоматизированные системы рекомендаций, поскольку при их составлении редакторы так же, как и алгоритмы, анализируют накопленные данные, опыт и другие показатели, но вдобавок задействуют творческую интуицию, поэтому в их выборе больше эмоций и знания о человеке и его природе.

Чаще всего необходимость ручного управления возникает при формировании «событийных» подборок. К примеру, модель не умеет делать подборки в честь «Оскара», дня рождения актеров, фестивалей кино и т. д. — набор таких кейсов слишком разнообразен.

В таких случаях выверенная искусственным интеллектом модель подсказок в сочетании творческой интуицией редактора дает наилучшие результаты.

Обновлено 28.06.2022
Главная Лента Подписаться Поделиться
Закрыть