Big Data, 14 окт, 20:09

Клининг в Big Data: чем занимается утилизатор цифрового мусора

Читать в полной версии
Фото: DALL-E 3
Очистка файлов и поиск дублей — этим занимается утилизатор цифрового мусора. Объем данных с каждым годом растет, как и потребность в таких специалистах. Рассказываем, какие навыки нужны утилизаторам и как их получить

Кто такой утилизатор цифрового мусора

Утилизатор цифрового мусора в сфере Big Data — это специалист, который занимается сортировкой, систематизацией и уничтожением лишних данных как на физических носителях, так и на облачных серверах.

Ежегодно объем ненужной информации растет за счет развития сферы Big Data. В 2023 году в мире генерируется 120 зеттабайт данных, или 328,77 млн терабайт в день, а к 2025 году этот объем составит более 180 зеттабайт. Big Data могут перегружать системы, поэтому растет потребность в профессионалах, которые могут чистить носители от лишней информации, копий и битых данных, чтобы избежать их переполнения.

150 профессий будущего
Экономика образования 

Чем занимается утилизатор цифрового мусора

Специалист этой профессии будет анализировать данные в сети при помощи инструментов Big Data и разрабатывать специальные алгоритмы, которые автоматически удаляют лишнюю информацию. Отдельные специалисты также будут работать над новыми способами сжатия файлов для снижения их веса.

Утилизатор может работать не только с системами компаний, но и с данными, которые производит любой пользователь интернета, когда посещает сайты, отправляет письма или совершает другие действия в онлайне. Такой специалист способен выявлять дублирующую информацию, спам-рассылки, старые переписки и неработающие или вредоносные файлы, которые находятся в сети и переносятся с одного сервера на другой.

Основные навыки утилизатора цифрового мусора

Поскольку работа утилизатора цифрового мусора, по сути, связана с профессиями дата-инженера и отчасти дата-аналитика, такому сотруднику потребуются знания:

  • структур данных и математических алгоритмов. Это позволит понимать, как именно хранятся данные, чтобы правильно извлекать их и обрабатывать;
  • языков программирования. На языке Python пишутся алгоритмы для обработки данных, а на Java и Scala — инструменты для обработки данных;
  • SQL (Structured Query Language, структурированного языка запросов) и баз данных. Такие запросы позволяют извлекать данные из баз;
  • инструментов для работы с большими данными;
  • облачных технологий. Во многих компаниях работа с данными ведется в облаках;
  • основ машинного обучения. Навыки работы с ИИ помогут в моделировании данных и статистическом анализе, а внедрение новых инструментов позволит автоматизировать многие процессы.

Тренды профессии

По данным аналитиков ReportLinker, в ближайшие годы индустрию обработки Big Data ожидает значительный подъем благодаря спросу на аналитические данные в различных секторах. Прогнозируется, что мировой рынок науки о данных будет расти в среднем ежегодно на 15,6% с 2023 по 2027 год. Его подъем будет обусловлен несколькими ключевыми факторами, в том числе быстрым развитием искусственного интеллекта и машинного обучения, а также растущим объемом структурированных и неструктурированных данных, генерируемых предприятиями.

Ожидается, что глобальный рынок платформ для обработки данных вырастет с нынешних $189,5 млрд до $1,1 трлн к 2030 году, а среднегодовой темп роста составит 25%. Это объясняется несколькими трендами.

  • Рост больших данных. С развитием интернета вещей, социальных сетей и других источников данных компаниям требуется больше специалистов по обработке и фильтрации информации.
  • Фокус на принятии решений на основе данных. Чтобы анализировать массивы информации, ее нужно сначала отфильтровать и визуализировать.
  • Появление расширенной аналитики. Машинное обучение и другие передовые методы аналитики требуют расширенной поддержки, в том числе в управлении хранением и извлечением данных.
  • Спрос на обработку данных в реальном времени.

Поскольку вакансий утилизаторов цифрового мусора на российском рынке пока нет, то говорить о зарплатах тоже преждевременно. Однако можно примерно оценить их, если посмотреть, сколько получают специалисты смежных специальностей. Зарплаты дата-инженеров на HeadHunter начинаются от 200 тыс. руб. По данным портала «Работа.ру», средняя зарплата инженера по работе с данными составляет 230 тыс. руб.

Что такое Big Data и почему их называют «новой нефтью»
Экономика инноваций 

Откуда пришла профессия

Работу утилизатора можно назвать смежной с работой дата-инженера, который собирает данные, очищает их и структурирует, а также настраивает загрузку и движение данных между инструментами. Однако около 45% рабочего времени таких специалистов уходит именно на загрузку (19%) и очистку данных (26%). При растущем объеме информации эти обязанности начнут исполнять утилизаторы цифрового мусора.

Соцсеть LinkedIn включила инженера по обработке данных в отчет о новых вакансиях за 2020 год, который показал, что темпы роста найма профессионалов на эту должность увеличились почти на 35% с 2015 года. По подсчетам аналитиков компании Zippia, число вакансий дата-инженеров вырастет на 21% к 2028 году по сравнению с 2018 годом.

Как стать утилизатором цифрового мусора

В российских университетах и онлайн-школах пока нет обучающих программ по этому направлению. Чтобы подготовить себя к будущей работе утилизатором цифрового мусора, можно пройти обучение по профессии дата-инженера. Это позволит получить представление о том, как работать с большими данными и технологиями машинного обучения. Программных инженеров готовят такие вузы, как МГТУ им. Баумана, НИЯУ МИФИ, РТУ МИРЭА и НИУ ВШЭ.

Также можно пройти онлайн-обучение по специальности дата-инженера. Их предлагают Skillbox, SkillFactory, «Яндекс.Практикум», «Нетология» и другие образовательные платформы.

При наличии опыта работы в IT можно пройти и отдельные курсы, которые позволят получить важные для специальности базовые навыки, например бесплатный курс по основам программирования на Python или по SQL от Codecademy. Курсы по алгоритмам и инструментам работы с базами данных можно найти на ресурсе Stepik. Кроме того, существует множество подборок бесплатных ресурсов, книг и видеоуроков по профессии.

Big Data Профессии будущего
Главное