Большие данные против коронавируса: 24 модели окончания пандемии

Фото: РБК Тренды
Фото: РБК Тренды
Правительства готовятся ко второй волне пандемии COVID-19 и тестируют абсолютно все, что может оказаться эффективным в борьбе с вирусом и сбалансировать кризис общественной медицинской системы

Иллюзия информированности

«Яндекс.Карты» публикуют «Индекс Самоизоляции», а Apple и Google анонсировали проект по отслеживанию передвижений в условиях пандемии коронавируса — уже сейчас на сайте Apple и Google доступен датасет по перемещениям по основным городам мира. Эти разработки призваны помочь в мониторинге изоляции, социального дистанцирования и отслеживания контактов с инфицированными. Data-журналисты из крупных СМИ — Reuters, New York Times, FT, The Guardian — публикуют большое количество инфографики с динамикой роста смертей и зараженных.

Насколько полезна эта информация? Выглядит она красиво и занимательно, но мало о чем говорит и не отражает реальной картины эпидемиологической ситуации ни в одной стране мира.

«Индекс Самоизоляции» «Яндекса» и передвижения Apple и Google исправно показывают, как часто люди идут в магазин и курьер объезжает клиентов. Но эти технологии ничего не говорят нам о том, надевают ли люди маску, соблюдают ли социальную дистанцию и есть ли у них легкие симптомы заболевания. Количество зараженных врачей, сотрудников полиции и магазинов говорит о том, что даже среди этих категорий повышенного риска меры и средства индивидуальной защиты применяются недостаточно.

Отслеживание геолокации с помощью персональных мобильных устройств слабо коррелирует с вероятностью заражения. Представим себе 20-этажный жилой дом в центре города, где на разных этажах находится более 50 человек с абсолютно одинаковой геолокацией. Вошли ли они в контакт с зараженным человеком, который остановился на пару минут под их окнами, чтобы ответить на телефонный звонок?

Фото: Jack Robinson / Unsplash
Фото: Jack Robinson / Unsplash

В 1919 году по следам «испанки», самой разрушительной пандемии 20-го века, в журнале Science Дж. Сопер отметил три фактора, препятствующих ее предотвращению:

  • общественное равнодушие, вызванное непониманием риска;
  • противоестественность заключения себя в жесткую изоляцию для защиты других;
  • неосознанное заражение других людьми без проявления симптомов.

Для анализа и прогнозирования пандемического процесса сегодня, как и 100 лет назад, необходимо понимание не только эпидемиологии, но и социальной психологии. Именно из-за разницы в социальных процессах мы наблюдаем часто диаметрально противоположные тенденции распространения эпидемии в разных обществах в мире. Эксперты в эпидемиологии и социальной психологии могут выработать эффективные гипотезы, которые смогут проверить data scientists с помощью аналитики на больших данных. Например, мы четко понимаем, что критически важно замерять уровень общественной паники и уровень соблюдения мер предосторожности.

Фото:РБК Тренды
Социальная экономика Тренд на новые фобии: какие страхи будут преследовать нас после COVID-19

«Если мы говорим именно о панике, то замерить ее через анализ социальных сетей и СМИ «в моменте» качественно нельзя. Это связано с тем, что гипотеза о том, имеем мы дело с паникой или всплеском какой-то краткосрочной реакции, проверяется на отрезке времени более чем сутки. Во-вторых, паника — это не только слова, картинки, или заявления комментаторов в СМИ определенной тональности. Это действия. Здесь требуется параллельная фиксация поведения или шагов (например, скупка продуктов питания или туалетной бумаги), что опять-таки требует работы с временными отрезками, а не «в моменте», — утверждает Петр Кирьян, директор по медиапроектам КРОС и автор исследования «Национальный индекс тревожностей».

Использование анализа больших массивов контента социальных сетей для выявления источников эпидемиологического риска не является новой идеей. Алгоритмы ИИ применяются в таких решениях для того, чтобы отфильтровать побочные инфошумы и выявить сигналы о фактических вспышках заболеваний. Параллельно с помощью спутниковых данных анализируют климатические условия. Например, канадская компания BlueDot сотрудничает с правительствами Канады, Сингапура, Калифорнии, Великобритании и Филиппин по выявлению и оценке эпидемиологических рисков с 2012 года. Она стала одной из первых компаний, предупредивших о возникновении нового вируса в Ухани.

Фото: angellodeco / Shutterstock
Фото: angellodeco / Shutterstock

Иллюзия достоверности

Большинство отчетов и графиков дают обобщенное суммирование данных — количество новых зараженных и умерших — и показывают ориентировочную динамику, основанную на недостоверных цифрах.

«Основные причины недостоверности данных: отсутствие массового тестирования во всех странах, многие инфицированные люди болели бессимптомно и никогда не узнают, что были больны. Эти неопределенности загрязняют многие метрики. Например, вы не можете точно рассчитать уровень смертности без показателя заболеваемости. Эпидемиологические модели недостоверны без этой информации, и это усложняет понимание серьезности распространения», — уверен Уилл Чейс, специалист по анализу данных и визуализации в Медицинском колледже Перельман, Университета Пенсильвании.

Большие данные против коронавируса: 24 модели окончания пандемии

На чем основаны решения

Для принятия решений применяют ряд метрик, например, время достижения пика эпидемического процесса. Пик может быть ярко выраженным, как мы наблюдали в Китае, с «плато» на вершине или одним или более кратером, где эпидемический процесс сначала затухает, а потом возобновляется, вновь проходя второй пик. Однако не все так просто.

«Пик обычно определяется по зарегистрированным случаям заболеваний и таким образом существенно отстает от реального пика новых заражений. Для понимания пика заражений необходимо учитывать, что от заражения до регистрации проходит инкубационный период — пять дней, время до обращения после проявления симптомов, время до получения результатов диагностики и регистрации случая. Это время, по данным COVID-19 Surveillance Group, на основе анализа 6801 случая для вспышки в Италии составляло 0-20 дней, а в среднем — четыре дня», — говорит Сергей Куликовский, генеральный директор и эксперт по аналитике больших данных компании «Полиматика».

Вторая важная метрика — пиковая нагрузка на лечебные организации. И здесь пик госпитализаций, наоборот, отстает от пика регистраций случаев заболеваний. По данным COVID-19 Surveillance Group, госпитализация отстает от регистрации на один день. Еще более важно учитывать нагрузку на реанимационную — наиболее дефицитную часть лечебных организаций. Этот пик еще больше отстает от пика регистраций и даже если пик регистрации уже пройден — поток пациентов в реанимационные отделения продолжает нарастать. Пик смертей отстает от пика регистрации примерно на десять дней.

«В большинстве стран, включая Россию, произошел экспоненциальный, взрывной рост количеств случаев в начале пандемии COVID-19. В России в отдельные периоды заболеваемость удваивалась каждые три дня. Экспоненциальный рост не интуитивен. Мало кто осознает, что могло произойти, если бы общество не предприняло никаких действий против развития пандемии. При сохранении динамики удвоения каждые три дня в России на 40-й день после 200-го случая у нас было бы примерно в 20 раз больше случаев. То есть примерно 1,26% населения оказалось бы зараженным. После этого не понадобилось бы и 20 дней для того, чтобы заражению подверглось практически все население страны, » — уверен Сергей Куликовский.

Существует простой математический прием, который позволяет решить проблему неинтуитивности экспоненциального роста при отображении данных, и которую использовали в качестве основы все страны — логарифмическая шкала представления количества случаев заражения. В таком виде удвоение каждые три, пять или одиннадцать дней представляют собой прямую, которую можно легко визуально продлить чтобы спрогнозировать, сколько случаев добавится в следующие несколько дней. На логарифмической шкале хорошо видна запоздалая на несколько дней реакция тренда заболеваемости на ужесточение или ослабление карантинных мер. При наличии достоверных данных можно сравнить страны или регионы — кто остановил распространение пандемии или потерял контроль. Но логарифмическая шкала не дает ответа на вопрос, что произойдет в среднесрочном будущем. Для прогнозирования используют специальные математические эпидемиологические модели.

Модели прогнозирования

Первая модель была разработана в 1927 году, но до сих пор у департаментов здравоохранения во всем мире нет единого подхода к их использованию. В России в сибирском отделении РАН для моделирования эпидемии коронавируса используют одну модель — SEIR-HCD. А вот на сайте Министерства здравоохранения РФ какая-либо информация по прогнозированию отсутствует. «Строить прогнозы — самое неблагодарное занятие. В мире за несколько столетий прошло множество вспышек особо опасных заболеваний. Человечество научилось бороться с инфекцией», — объясняет факт отсутствия прогнозов главный инфекционист Минздрава России доктор медицинских наук Елена Малинникова.

Большие данные против коронавируса: 24 модели окончания пандемии
Большие данные против коронавируса: 24 модели окончания пандемии

В отличие от российских коллег, Центры по контролю и профилактике заболеваний Министерства здравоохранения и социальных служб США рассматривают 24 модели прогнозирования и считают, что прогнозы смертности и вероятного тренда в ближайшие недели помогают информировать общественное здравоохранение для принятия решений.

Результаты большого пула моделей интегрируют в один график для понимания диапазона динамики развития ситуации.

Фото: Центры по контролю и профилактике заболеваний Министерства здравоохранения и социальных служб США
Фото: Центры по контролю и профилактике заболеваний Министерства здравоохранения и социальных служб США

Фото: Центры по контролю и профилактике заболеваний Министерства здравоохранения и социальных служб США
Фото: Центры по контролю и профилактике заболеваний Министерства здравоохранения и социальных служб США

Эти прогнозы показывают совокупное число зарегистрированных случаев COVID-19 с февраля и прогнозируемых случаев смерти в течение следующих четырех недель в Соединенных Штатах.

Большие данные против коронавируса: 24 модели окончания пандемии
Большие данные против коронавируса: 24 модели окончания пандемии


Подписывайтесь на Telegram-канал РБК Тренды и будьте в курсе актуальных тенденций и прогнозов о будущем технологий, эко-номики, образования и инноваций.

Обновлено 22.06.2020
Главная Лента Подписаться Поделиться
Закрыть