Роман Нестер — РБК: «Коммерческие данные — это кровь интернета»

Фото: из личного архива

Сооснователь платформы Segmento, профессор, куратор магистратуры ВШЭ Роман Нестер поделился с РБК мыслями об этике в цифровом сегменте, о пользовательском лицемерии и опасности данных в руках государства

Об эксперте:

Роман Нестер в 2012 году основал компанию Segmento, чья платформа позволяет таргетировать рекламу на основе офлайн- и онлайн-данных. В 2015 году Сбербанк приобрел контрольную долю компании, а в 2017 году в число акционеров вошел Sistema_VC — венчурный фонд АФК «Система». В 2018 году Нестер стал куратором магистратуры в ВШЭ «Коммуникации, основанные на данных». Ставит перед собой задачу выпускать каждый год по 25 готовых менеджеров, которые разбираются в продукте, аналитике и маркетинге. Инвестирует в сферу рекламных технологий и консультирует компании по вопросам монетизации больших данных.

Лишние люди

— Что сейчас представляет собой рынок больших данных?

— Компании заявили про большие данные на четыре года раньше, чем стали их рутинно использовать. К 2020 году бизнес наигрался в заявления «я собираю данные и их использую». Теперь все спрашивают, где эффект и результат. На рынке переизбыток дата-сайентистов, аналитиков и специалистов, умеющих применять технологии. При этом существует колоссальный кризис института бизнес-заказчиков. Рынку с огромным количеством технических специалистов не хватает людей, которые могут правильно поставить им задачу. Моя цель — сформировать такой класс.

Тот факт, что аналитик хорошо умеет работать с данными, вовсе не означает, что это приносит пользу компании. Польза для компании, запрос и оценка генерируются в бизнес-подразделениях. Менеджеры часто ставят фантазийные цели, взятые из головы. Если задача сформулирована неправильно, то получаются упреки: «Данные не те, аналитики плохие». Такой вот перенос ответственности. Но от аналитиков стали требовать, чтобы они понимали бизнес и приходили с готовыми решениями. Так не работает.

— Что значит переизбыток дата-сайентистов? Это же очень сложная специализация.

— Важный спойлер: уже не нужно столько дата-сайентистов, сколько ими пытаются стать. Мировые ИТ-гиганты уже практически превратили работу с данными в автоматизированное решение — нажал кнопку и все получил. Сейчас предрекают, что программисты уйдут в прошлое, а код будет писать себя сам. Но в обработке данных прогресс идет еще быстрее. Работа дата-сайентиста часто рутинное применение алгоритмов, перебор одного массива данных за другим в надежде, что выскочит нужный результат. Это можно автоматизировать.

Индустрия 4.0 Почему область Data Science в России развивается медленнее, чем на Западе

Неудобные запросы

— Пять лет назад гораздо чаще говорили про большие данные, чем в 2020-м. Да и каких-то интересных и эффективных публичных бизнес-кейсов мы в последнее время не видели. С чем вы это связываете?

— Думаю, с двумя причинами. Во-первых, эта тема вышла из моды. А во-вторых, стало страшно об этом говорить в силу вопросов этики. Пользователи нервничают, когда компании заявляют, что извлекают ценность из знаний о клиентах. Был период, когда бизнес не стеснялся этого. Затем возникли скандалы с утечками персональных данных, которые на самом деле к коммерческим данным отношения не имеют. В голове пользователей все смешалось, а компании предпочли тихо работать с большими данными и не делать громких заявлений.

Нужно понимать, что есть четыре вида компаний и, условно говоря, два вида данных. Проблема не в том, что бизнес стал больше обрабатывать информации или данные стали куда-то утекать. Есть персональные данные, которые содержат ваши Ф.И.О. Их больше всего внутри банков, телекоммуникационных корпораций и у государства. И есть поведенческие данные, которые фактически описывают характеристики браузера, а не конкретного человека. Этих данных гораздо больше — на них сделали бизнес «Яндекс», Google и Mail.ru Group.

Есть интернет-компании, ДНК которых — создание цифрового продукта. Они используют данные, чтобы продукт стал лучше. Второй тип — маленькие компании и рекламные агентства. Третий тип — банки, операторы и провайдеры, которые работают с персональными данными. И четвертый тип — госорганы и окологосударственные компании. Второй и четвертый — самые страшные сегменты, работающие с данными. На мой взгляд, безопаснее всего для пользователя — техногиганты.

— Почему?

— Им дорого обходятся ошибки в обработке данных. Если что-то случится, рынок быстро и больно накажет. В свою очередь, небольшие компании и госорганы ни перед кем ни за что не отвечают. Как данные защищены? Кого накажут, если что-то произойдет? Как исправят ошибку? Непонятно. Эта проблема гораздо существеннее, чем Google, который «подсматривает».

В конце октября «Яндекс» впервые назвал количество запросов госорганов о раскрытии пользовательских данных. С января по июнь 2020 года российский ИТ-гигант получил 15 376 таких обращений, причем 2 468 (16%) из них было отклонено. Для сравнения: Google, опубликовавший подобные сведения во втором полугодии 2019-го, отказал по 26% запросов (из 81 785 обращений госорганов со всего мира).

Наибольшее количество запросов (8 867) — по пользователям сервисов «Яндекс.Почта» и «Яндекс.Паспорт» (в последнем хранятся основные регистрационные данные клиентов). «Яндекс.Такси» получил 5 280 запросов, «Яндекс.Драйв» — 706, «Яндекс.Еда» — 300, прочие сервисы — 223 запроса.

— Опыт Китая, России или США показывает, что бизнес очень легко передает государству сведения о своих клиентах. Также у ИТ-гигантов есть доступ к реальным именам пользователей. Для людей сотрудничество корпораций с государством тоже риски в области свободы слова.

— Тут вопрос к законодателям, а не к компаниям. Но эта тема, как минимум, вышла в публичное поле, по ней снимают фильмы, мы с вами ее обсуждаем. Это хорошо и правильно.

Индустрия 4.0 Разделить интернет: как страны пытаются найти национальные границы Сети

— Вы говорите про ответственность корпораций. Но когда происходят утечки, ИТ-гиганты практически не страдают от них. Да, теряют капитализацию на какое-то время, но пользователи остаются, и финансовые показатели снова растут.

— Законодатели в ЕС и США не дремлют и стремятся взять оборот данных под контроль. Например, согласно закону штата Вермонт, компании, собирающие и продающие данные о жителях штата, должны быть зарегистрированы в специальной системе. Недавно вступил в силу Калифорнийский закон о конфиденциальности данных (CCPA), а в ЕС был принят GDPR (Общий регламент по защите данных. — РБК Тренды). Рынок придумал аудировать публичные компании — это устойчивая система, на которой держится фондовый рынок. Подобная система рождается и в сфере данных: появляются уполномоченные органы, которые задают вопросы компаниям и проверяют их.

Это здоровая ситуация, когда существует структура с понятными процедурами, позволяющими проверить, корректно ли используются данные. Я бы хотел, чтобы такой орган появился в России и чтобы он мог задавать вопросы не только корпорациям, но и государственным организациям.

Кроме того, ИТ-компании, например Google и Facebook, позволили узнать, какие данные они собирают. У пользователей есть возможность скачать эти данные, изучить их и удалить. Это дорого для компаний, но техногиганты могут себе позволить внедрить такую процедуру. А вот для небольших агентств это смерти подобно. И где я на «Госуслугах» или Mos.ru могу увидеть, что про меня собирают сервисы?

Индустрия 4.0 Скользкая четверка: главное из показаний CEO Big Tech конгрессу США

Пользовательское лицемерие

— Но есть же компании, которые, по сути, занимаются ethics washing в области данных, когда выдают свои алгоритмы за этичные?

— Повторю, что данные данным рознь. Поведенческие данные тоже неоднородны. Есть данные о том, какие сайты вы посещаете, что смотрите, на что кликаете, а есть суперчувствительные. Например, вы читаете про проблемы ЛГБТ-людей (ЛГБТ-движение признано экстремистской организацией и запрещено в РФ), потому что относитесь к ним, или про диабет, так как он у вас есть. Важно разделить два потока поведенческих данных и больше всего контролировать суперчувствительные в некоем браузере. Реклама на основе этой информации должна ограничиваться, но коммерческие данные — это кровь интернета. Невозможно от этого избавиться.

Когда идет дискуссия об ethics washing, я задаю вопрос: какой почтой вы пользуетесь? 80% отвечают, что Gmail. Сколько вы заплатили за супербыструю, доступную с любого устройства и очень надежную почту? Сколько вы готовы платить? Надежность, скорость и удобство дорого стоят. Но выясняется, что ни у кого в бюджете нет лишних $10–20 на почту. Платные варианты были еще семь лет назад, но ими ожидаемо никто не хотел пользоваться.

Всем нравится постоянно быть с друзьями в контакте и иметь возможность посмотреть их фото онлайн. Но вы же не просите знакомых приезжать с жестким диском — вы наблюдаете за их жизнью в интернете. Сколько вы за это заплатили? Есть поисковик Duck Duck Go, который ничего не сохраняет о пользователях и отвечает запросу на приватность. Он, правда, работает гораздо хуже Google, так как в отличие от техгиганта не повышает свою эффективность с помощью сбора и хранения данных. Но такая альтернатива не нравится пользователям. Люди говорят, что не любят, когда баннеры бегают за ними. Так у того же Google есть сервис Contributor — можно заплатить за подписку и не видеть рекламу. Вам не покажут баннеры, поисковик вас не запомнит, а сайт получит деньги от подписки. Но Contributor не пользуется популярностью.

— Это незнание вопроса и недостаточное распространение информации.

— Это пользовательское лицемерие. Сервисы существуют, они известны, и ими можно пользоваться.

— Если дискуссия вокруг данных пойдет дальше, а у пользователей появится больше осведомленности, то, на ваш взгляд, какая часть все-таки будет платить за сервисы, чтобы не отгружать сведения о себе ИТ-гигантам?

— Я думаю, в среднем полтора-два человека из десяти. Это те, кому реально важна приватность, кто осознанно подходит к этому вопросу. Но заявления вроде «ИТ-корпорации собирают ваши данные — это зло» представляют собой нечестный популистский аргумент, который всегда кто-то будет использовать.

— С данными понятно. А если говорить про ИИ, то к чему все идет, какие тут тренды?

— Все идет к всеобщей персонализации. Но обычно это не считают реальным искусственным интеллектом. Хорошую персонализацию никто не заметит, а про плохую скажут: «Ваши алгоритмы не работают». При этом одни из самых лучших инженеров в сфере ИИ делают так, чтобы люди больше кликали на баннеры. Это первое.

Второе — распознавание и генерация речи. Это приведет к мощнейшему развитию интерфейсов голосового управления. Я жду большого прорыва в ближайшие пять лет. И третье — применение машинных методов и больших данных в медицине и диагностике. Это та отрасль, где мы должны кричать: «Нужно больше данных, разрешайте все!» Здесь этика убивает. Чем больше этика сдерживает внедрение разного рода алгоритмов использования данных, тем больше людей умирают, не получив помощи.

Подписывайтесь также на Telegram-канал РБК Тренды и будьте в курсе актуальных тенденций и прогнозов о будущем технологий, эко-номики, образования и инноваций.

Обновлено 30.11.2023

Авторы

Теги

Мария Лацинская

Big Data IT Кибербезопасность