Об эксперте: Антон Мерзляков, директор по аналитике больших данных Tele2.
Как данные становятся большими
Крупные операторы данных — телеком- и интернет-компании, банки — могут многое рассказать о своих клиентах. Им известен пол и возраст пользователей, доход и траты, потребительские предпочтения, модели телефонов, продолжительность разговоров, ежедневные маршруты и многое другое.
Более того, компании обычно не ограничиваются собственными данными. Помимо информации, которую бизнес получает в процессе основной деятельности, он использует внешние источники.
Например, мы работаем с источниками данных о географических объектах, которые позволяют определить их тип — магазин, жилой дом, школа, вуз, стадион и так далее. Для этого применяются разные ресурсы — от визуального осмотра до спутниковых снимков. В качестве внешних источников мы используем в том числе картографические сервисы (такие как 2ГИС или Open Street Map), данные дистанционного зондирования (Роскосмос, «Терратех»), статистические материалы Росстата и Росреестра, специально организованные полевые исследования и опросы.
В общей сложности размер кластера с данными Tele2 составляет около 10 петабайт (10 млн гигабайт). Но сырые данные — это промежуточный этап. Чтобы превратить имеющийся массив в Big Data, информацию нужно обработать, наложить одни данные на другие. И в итоге — трансформировать их в аналитические и математические модели, позволяющие понимать и предсказывать события и тренды.
Точно ли данные обезличены
Какими бы глубокими и разносторонними ни были знания о потребителях, информация остается обезличенной. Например, в геоаналитике данные обычно собираются в формате сетки — карты города, поделенной на сегменты. К отдельным сегментам привязано определенное число абонентов с типовыми характеристиками.
Но идентифицировать отдельных лиц в таких обобщенных группах пользователей невозможно. Тем более, компании это и не нужно. Оператора не интересует конкретный 37-летний абонент Петр Иванов, который скачивает на смартфоне по 5 Гб в месяц и каждые выходные отправляется на свою подмосковную дачу.
Аналитикам нужно на основе моделей машинного обучения и цифровых двойников. Вывести закономерность и сделать обобщенные выводы. Например, о том, сколько всего абонентов ездит по выходным в Подмосковье или сколько пользователей в возрасте 35–40 лет скачивает по 5 Гб в месяц.
Наша главная задача здесь — построить профиль потребления. Понять, какие существуют тенденции и как мы можем их прогнозировать. Нет смысла заниматься слежкой или анализом отдельных индивидуумов: операторы не продают «сырые» данные о пользователях, а поставляют на рынок именно аналитику на основе обезличенных данных. Она помогает бизнесу оценивать динамику продаж и влиять на нее, изучать сценарии потребления, сегментировать аудиторию. Словом, лучше узнавать своего потребителя и формулировать для него оптимальное предложение.
Обычно это происходит следующим образом: у заказчика возникает определенный запрос на аналитику, и он идет к нам. Мы определяем, какие данные можем использовать, и готовим исследование. А если это типовая проблема отрасли клиента, то у нас может найтись универсальное решение. Заказы мы можем выполнять как для бизнеса, так и представителей муниципалитета.
Какие задачи решает Big Data
Привлечение покупателей и рост продаж
Пример 1: пиццерия со спецпредложением
Рассмотрим пиццерию, которая запускает спецпредложение при заказе через мобильное приложение. Об акции нужно проинформировать потенциальных клиентов, проживающих в зоне доставки.
С помощью аналитики таргетируем аудиторию — ищем пользователей смартфонов от 18 до 54 лет, которые живут в заданном районе, пользуются доставкой еды и ходят в рестораны. Настраиваем различные механизмы коммуникации под разные целевые сегменты: запускаем SMS-рассылку, интернет-рекламу и так далее. Результат — рост заказов в мобильном приложении.
Пример 2: новые хозяйственные магазины
Во время пандемии сеть магазинов хозяйственных товаров решила открыть новые точки продаж. Для этого требовалось понять, где эти магазины будут наиболее востребованы покупателями.
Здесь снова пригодились технологии Big Data. Во-первых, с их помощью можно определить, где во время самоизоляции находилось больше всего абонентов. Во-вторых, узнать о наличии в этих местах магазинов с аналогичными товарами и трафике в них. А затем смоделировать, насколько новые торговые точки будут востребованы в данных районах.
Используя аналитику Big Data, сеть открыла точки в местах максимального скопления потребителей из целевого сегмента. Все остались в выигрыше — и владельцы бизнеса, и люди на самоизоляции, у которых не было возможности ездить в гипермаркеты за предметами первой необходимости.
Пример 3: торговые центры
Покупательский трафик в ТЦ так и не восстановился после режима самоизоляции. По нашим данным, сейчас он находится на уровне около 75-80% от докризисного уровня. Поэтому Big Data для торговых центров становится еще важнее.
Нужно учесть, что ТЦ — это не только магазины. Это и кинотеатры, и развлекательные центры, и салоны красоты, и много чего еще. Чтобы помочь этим объектам снова стать точкой притяжения посетителей, нужна многоуровневая аналитика. Важно не только понять количество посетителей, определить их портрет и частоту посещений. Необходимо оценить трафик по дням недели и по часам, районы проживания и работы посетителей, зону охвата и объем той аудитории, которую пока не удалось привлечь.
Полученные данные помогают решать несколько задач. Прежде всего, привлекать новый трафик, грамотно выстраивать показ рекламы и организацию мероприятий для посетителей. Попутно можно спланировать загруженность торгового центра для более эффективного управления персоналом. Отдел кадров будет понимать, сколько людей нужно выводить в пиковые часы, как правильно формировать смены и когда проводить дополнительный набор сотрудников.
Планирование маршрутов и загрузки
Пример 1: горнолыжные курорты
По итогам горнолыжного сезона мы посчитали, что самым популярным среди наших клиентов стал курорт «Новинки» Нижегородской области. Помимо жителей Нижнего Новгорода, сюда часто также ездили абоненты из Москвы, Санкт-Петербурга и Чувашии. На втором месте по популярности — «Бобровый лог» в Красноярске, который посещали клиенты из Иркутска, Хакасии, Санкт-Петербурга и Москвы. Третьим оказался комплекс в Подмосковье «Снежком».
Согласно статистике Tele2, количество мужчин, посещающих горнолыжные курорты, чуть больше, чем женщин (53% против 47%). Средний возраст людей, отправляющихся в горы, составляет 42 года для мужчин и 44 — для женщин.
Какая практическая польза от такой информации? При желании ее можно детализировать и использовать для планирования туристических маршрутов, распределения обслуживающего персонала, прогнозирования загрузки отелей.
Пример 2: аэропорты и планирование рейсов
Большие данные также востребованы в авиаотрасли. Аэропорты просят операторов проанализировать стыковочные направления, авиакомпании — помочь определить домашние аэропорты для своих клиентов. Это также нужно для развития продаж.
Например, аэропорт Толмачево в Новосибирске — крупнейший авиаузел всей Сибири. Вокруг него в радиусе 400 км находится еще шесть аэропортов, тоже достаточно крупных.
Билет на рейс из новосибирского Толмачево в Москву стоит 9 тысяч рублей, а из Томска — 25 тысяч рублей. Расстояние от Томска до Новосибирска — около 200 километров. То есть житель Томска может проехать этот путь на автомобиле и сэкономить 16 тысяч на билете до Москвы. Поэтому для него домашним будет аэропорт Новосибирска, а не Томска. Авиакомпаниям нужно учитывать это при планировании рейсов.
Развитие городов
Среди наших партнеров много городских администраций, которым нужна помощь с планированием городской инфраструктуры. Часто именно благодаря большим данным удается обнаружить «больные» темы. Допустим, определить места, где приходится возвращаться с электрички по темным тропинкам или не хватает квалифицированной медицинской помощи, аптек, магазинов. По итогам проектов с городскими или региональными властями появляются фонари на неосвещенных улицах или открываются фельдшерские пункты, новые потребительские и инфраструктурные объекты.
Как именно технологии Big Data работают в городах, хорошо видно на примере Москвы. Столичный департамент транспорта использует геоаналитику на регулярной основе, в том числе для планирования и оценки работы новых станций метрополитена.
Еще на этапе проектирования с помощью больших данных чиновники просчитывали, нужно ли строить станцию «Тропарево» на юго-западе Москвы. Геоаналитика показала, что люди ее очень ждут. В итоге в первый же месяц эксплуатации станции пассажиропоток был очень высоким — около 70 тысяч человек в сутки.
То есть благодаря технологиям Big Data удалось оптимизировать повседневные маршруты и сделать жизнь горожан качественнее и комфортнее.