Задача
Организаторы соревнования поставили перед собой две основные задачи:
- найти новые решения для предсказания крупных ЧП и ЧС на российских автотрассах и реках;
- показать общественный запрос на технологичные цифровые решения в сфере безопасности и то, как ведомства отвечают на этот запрос.
Предпосылки и мотивация
Министерства и ведомства ежегодно собирают и анализируют огромное количество данных. На основе этой информации можно создавать точные модели машинного обучения, которые позволяют строить прогнозы, учитывать и предотвращать различные риски. Но, как правило, эта информация недоступна для внешнего анализа и используется только внутри государственных организаций.
При этом различные происшествия и ЧС причиняют серьезный вред экономике, жизни и здоровью людей. К примеру, ежегодно в России происходит от 40 до 60–70 крупных наводнений. Только наводнение в Иркутской области два года назад принесло ущерб на сумму более ₽35 млрд и привело к гибели 26 человек.
Ситуация на автомагистралях тоже остается напряженной. Так, на трассе М-8 «Холмогоры» (Москва — Ярославль — Вологда — Архангельск) за четыре месяца 2021 года произошло 14 серьезных ДТП. В результате погибли 9 человек и 20 пострадали, 24 машины были разбиты. А на трассе Р-21 «Кола» от Санкт-Петербурга до Кольского полуострова за это время зарегистрировано 17 ДТП — разбилось 36 машин, погибли 25 человек и 20 пострадали.
Решение
Для выработки ML-моделей, позволяющих прогнозировать наводнения и ДТП c использованием государственных данных, в МЧС России решили провести онлайн-хакатон Emergency DataHack. Организатором выступила платформа «Инфраструктура научно-исследовательских данных» (ИНИД).
Помимо организаторов, большой массив данных для соревнования предоставили организации-партнеры хакатона — Росгидромет, Росводресурсы, Росавтодор, ГИБДД, «Глонасс БДД», «Ростелеком» и Tele2.
Реализация
На участие в хакатоне зарегистрировались 390 человек из 55 городов России. Несколько заявок поступило из других стран — Казахстана, Украины и Франции.
Участвовать в хакатоне можно было в составе команд (от трех до пяти человек) после предварительного отбора. Его прошли 45 команд, которые поровну распределились между тремя разными треками. На каждом из треков участникам предлагалась различные задачи. Их требовалось решить в течение 48 часов, исследуя предоставленные партнерами датасеты.
Трек 1: расчет вероятности ледяных заторов
Команды строили предикативные модели, позволяющие прогнозировать заторы возле десяти населенных пунктов, расположенных вдоль течения реки Лены. Из-за ледяных заторов весной здесь повышается уровень воды в реках и могут возникать наводнения.
На вероятность скопления льдин влияют несколько факторов — например, прочность ледяного покрова зимой и интенсивность снеготаяния. Основная часть этих факторов зависит от типа атмосферной циркуляции в январе-феврале и отклонений мартовских температур от среднегодовых значений. Это позволяет заблаговременно оценить риски и построить долгосрочный прогноз — за 60 дней до события.
Создаваемые на хакатоне ML-модели оценивали вероятность заторов в каждый из дней с 15 апреля по 15 июня. Обучающая выборка включала в том числе метеорологические данные, информацию о переживших затопления населенных пунктах.
Трек 2: предсказание максимального уровня воды
Задачи для участников второго трека касались тех же участков реки Лена, что и в первом случае. Но на этот раз предикативные модели строили для прогнозирования уровней воды. Во время весеннего половодья эти уровни могут расти достаточно резко, что в итоге приводит к затоплению территорий.
Кроме того, горизонт предсказаний на втором треке был намного короче. С помощью ML-моделей команды пытались предсказать суточное увеличение максимального уровня воды на семь дней вперед.
Трек 3: прогноз вероятности ДТП
Команды, выбравшие третий трек, разрабатывали алгоритм для прогноза ДТП. Такой алгоритм должен оценивать вероятность наступления одного из возможных сценариев:
- аварии не будет;
- ДТП без пострадавших;
- ДТП с пострадавшими;
- режим ЧС (объявляется при наличии пяти погибших и/или 10 пострадавших).
Прогнозы строили для федеральных автотрасс М-8 «Холмогоры» и Р-21 «Кола». Для обучения алгоритма использовали информацию о дорожных происшествиях, данные об интенсивности движения, пассажиропотоке и метеоусловиях на участках дороги.
Все представленные на треках решения оценивали по схожим критериям — обоснованность методов и применимость итоговой модели в МЧС, оригинальность подхода, качество кода и презентации.
Результаты
На каждом из треков выбрали три лучших решения, которые МЧС может применить в своей работе.
- Предсказание ледяных заторов позволит службам МЧС заранее распределить ресурсы и спланировать противозаторные мероприятия, предупредить население об опасности и снизить возможный ущерб.
- Прогноз уровня воды в реке Лена поможет сформировать полную картину ситуации во время весеннего половодья, организовать предупреждения и минимизировать ущерб для экономики и населения. Причем пригодится как информация об уровнях воды, так и данные об их резком увеличении по сравнению с предыдущими днями: это один из признаков возможного ледового затора.
- Благодаря прогнозированию ДТП и категорий аварии МЧС сможет рассчитать необходимые силы и средства — как для мониторинга ситуации, так и для ликвидации последствий.
«Данные, которые накапливаются в государственных информационных системах министерств и ведомств, только начинают широко использоваться для машинного обучения, создания потребительских ИТ-сервисов и применяться в формировании государственной политики, основанной на результатах научных исследований и экспериментов. Такой способ принятия решений в мире называют «Доказательная политика», — объясняют в ИНИД.
По словам организаторов, удачные кейсы сотрудничества дата-аналитиков, дата-инженеров и органов исполнительной власти, подобные хакатону Emergency DataHack, помогают создать потенциал для развития этого направления.