Клининг в Big Data: чем занимается утилизатор цифрового мусора
Кто такой утилизатор цифрового мусора
Утилизатор цифрового мусора в сфере Big Data — это специалист, который занимается сортировкой, систематизацией и уничтожением лишних данных как на физических носителях, так и на облачных серверах.
Ежегодно объем ненужной информации растет за счет развития сферы Big Data. В 2023 году в мире генерируется 120 зеттабайт данных, или 328,77 млн терабайт в день, а к 2025 году этот объем составит более 180 зеттабайт. Big Data могут перегружать системы, поэтому растет потребность в профессионалах, которые могут чистить носители от лишней информации, копий и битых данных, чтобы избежать их переполнения.
Чем занимается утилизатор цифрового мусора
Специалист этой профессии будет анализировать данные в сети при помощи инструментов Big Data и разрабатывать специальные алгоритмы, которые автоматически удаляют лишнюю информацию. Отдельные специалисты также будут работать над новыми способами сжатия файлов для снижения их веса.
Утилизатор может работать не только с системами компаний, но и с данными, которые производит любой пользователь интернета, когда посещает сайты, отправляет письма или совершает другие действия в онлайне. Такой специалист способен выявлять дублирующую информацию, спам-рассылки, старые переписки и неработающие или вредоносные файлы, которые находятся в сети и переносятся с одного сервера на другой.
Основные навыки утилизатора цифрового мусора
Поскольку работа утилизатора цифрового мусора, по сути, связана с профессиями дата-инженера и отчасти дата-аналитика, такому сотруднику потребуются знания:
- структур данных и математических алгоритмов. Это позволит понимать, как именно хранятся данные, чтобы правильно извлекать их и обрабатывать;
- языков программирования. На языке Python пишутся алгоритмы для обработки данных, а на Java и Scala — инструменты для обработки данных;
- SQL (Structured Query Language, структурированного языка запросов) и баз данных. Такие запросы позволяют извлекать данные из баз;
- инструментов для работы с большими данными;
- облачных технологий. Во многих компаниях работа с данными ведется в облаках;
- основ машинного обучения. Навыки работы с ИИ помогут в моделировании данных и статистическом анализе, а внедрение новых инструментов позволит автоматизировать многие процессы.
Тренды профессии
По данным аналитиков ReportLinker, в ближайшие годы индустрию обработки Big Data ожидает значительный подъем благодаря спросу на аналитические данные в различных секторах. Прогнозируется, что мировой рынок науки о данных будет расти в среднем ежегодно на 15,6% с 2023 по 2027 год. Его подъем будет обусловлен несколькими ключевыми факторами, в том числе быстрым развитием искусственного интеллекта и машинного обучения, а также растущим объемом структурированных и неструктурированных данных, генерируемых предприятиями.
Ожидается, что глобальный рынок платформ для обработки данных вырастет с нынешних $189,5 млрд до $1,1 трлн к 2030 году, а среднегодовой темп роста составит 25%. Это объясняется несколькими трендами.
- Рост больших данных. С развитием интернета вещей, социальных сетей и других источников данных компаниям требуется больше специалистов по обработке и фильтрации информации.
- Фокус на принятии решений на основе данных. Чтобы анализировать массивы информации, ее нужно сначала отфильтровать и визуализировать.
- Появление расширенной аналитики. Машинное обучение и другие передовые методы аналитики требуют расширенной поддержки, в том числе в управлении хранением и извлечением данных.
- Спрос на обработку данных в реальном времени.
Поскольку вакансий утилизаторов цифрового мусора на российском рынке пока нет, то говорить о зарплатах тоже преждевременно. Однако можно примерно оценить их, если посмотреть, сколько получают специалисты смежных специальностей. Зарплаты дата-инженеров на HeadHunter начинаются от 200 тыс. руб. По данным портала «Работа.ру», средняя зарплата инженера по работе с данными составляет 230 тыс. руб.
Откуда пришла профессия
Работу утилизатора можно назвать смежной с работой дата-инженера, который собирает данные, очищает их и структурирует, а также настраивает загрузку и движение данных между инструментами. Однако около 45% рабочего времени таких специалистов уходит именно на загрузку (19%) и очистку данных (26%). При растущем объеме информации эти обязанности начнут исполнять утилизаторы цифрового мусора.
Соцсеть LinkedIn включила инженера по обработке данных в отчет о новых вакансиях за 2020 год, который показал, что темпы роста найма профессионалов на эту должность увеличились почти на 35% с 2015 года. По подсчетам аналитиков компании Zippia, число вакансий дата-инженеров вырастет на 21% к 2028 году по сравнению с 2018 годом.
Как стать утилизатором цифрового мусора
В российских университетах и онлайн-школах пока нет обучающих программ по этому направлению. Чтобы подготовить себя к будущей работе утилизатором цифрового мусора, можно пройти обучение по профессии дата-инженера. Это позволит получить представление о том, как работать с большими данными и технологиями машинного обучения. Программных инженеров готовят такие вузы, как МГТУ им. Баумана, НИЯУ МИФИ, РТУ МИРЭА и НИУ ВШЭ.
Также можно пройти онлайн-обучение по специальности дата-инженера. Их предлагают Skillbox, SkillFactory, «Яндекс.Практикум», «Нетология» и другие образовательные платформы.
При наличии опыта работы в IT можно пройти и отдельные курсы, которые позволят получить важные для специальности базовые навыки, например бесплатный курс по основам программирования на Python или по SQL от Codecademy. Курсы по алгоритмам и инструментам работы с базами данных можно найти на ресурсе Stepik. Кроме того, существует множество подборок бесплатных ресурсов, книг и видеоуроков по профессии.