Как произошел сбой у Facebook и какие выводы из этого сделает ИТ-отрасль

Фото: Niall Carson / PA / ТАСС
Фото: Niall Carson / PA / ТАСС
Шестичасовой сбой в работе Facebook, WhatsApp и Instagram стал самым серьезным с 2008 года. РБК Тренды узнали у экспертов, какие ошибки могли к этому привести и чему другие компании могут научиться на этом опыте

Жалобы на неполадки в работе Facebook, WhatsApp и Instagram начали поступать примерно в 18:30 мск 4 октября 2021 года. Только в 1:00 5 октября Facebook сообщили, что постепенно восстанавливают часть функций.

По данным сервиса по отслеживанию работы интернет-ресурсов Downdetector, этот сбой стал крупнейшим за все время существования сервиса: о проблемах сообщили более 10,6 млн пользователей со всего мира. CNBC называет этот сбой самым серьезным с 2008 года.

Также о неполадках сообщали пользователи Twitter, Telegram и TikTok, причем в Telegram проблемы объяснили большим количеством новых пользователей, которые регистрируются в сервисе из-за сбоя WhatsApp.

Команда инженеров Facebook сообщила, что проблемы были связаны с изменениями конфигурации магистральных маршрутизаторов.

Почему произошел сбой?

«К настоящему момент озвучено несколько версий, в том числе официальная — сбой при изменении конфигураций роутеров, задействованных в обмене трафиком данных между дата-центрами. Также сообщалось о сбое на уровне DNS, который привел к падению сервисов, принадлежащих не только Facebook, но и не связанному с ним Amazon. Были и сообщения о том, что добраться до сервисов не представлялось возможным, даже зная их прямые IP-адреса, что говорит не только о затронутом DNS, — отмечает Тарас Чирков, руководитель центра обработки данных (ЦОД) Linxdatacenter в Санкт-Петербурге. — Amazon (а именно, его облачный сервис AWS) также является хостинг-провайдером, поэтому можно предположить, что проблема была в ЦОД».

Почему сервисы были недоступны так долго?

«Как и в случае со многими серьезными масштабными авариями, скорее всего, сошлось несколько факторов — ситуация так называемого «идеального шторма». То есть, произошла цепочка отказов на уровне ИТ- и сетевой инфраструктуры, а также на уровне физической доступности к оборудованию, что и привело к затяжному характеру сбоя», — считает Чирков.

Эксперт также отмечает, что проблема с физическим доступом сотрудников в машинные залы, из-за чего сбой не могли устранить так долго, может свидетельствовать или о серьезных организационных проблемах в компании, либо же о том, что эта информация фейковая.

Фото:Drew Angerer / Getty Images
Социальная экономика Семена недоверия: что скрывает Facebook о COVID-19

«Судя по всему, это отказ системы безопасности, что с точки зрения любых политик информационной безопасности является довольно грубым нарушением, ведь это показывает, что система контроля доступа завязана на внешнем интернете. По любым базовым стандартам она должна быть автономной и никоим образом не зависеть от внешних факторов и сторонних провайдеров. Кроме того, компании должны дублировать доступ (например, не только через систему биометрии, но и через смарт-карты) и иметь мастер-ключи к критически важным помещениям. И в любом случае помещения ЦОДа должны иметь возможность экстренной разблокировки по пожарной тревоге.

То есть, компания может преодолеть последствия любых сбоев, просто вручную открыв дверь в нужном машинном зале. Поэтому сообщения о том, что сотрудники Facebook не могли часами попасть в необходимые помещения, можно трактовать либо как преувеличение или прямой фейк, либо как сигнал об определенном уровне организационных проблем на уровне рабочих процессов компании.

Последнее вполне вероятно с учетом того, что компания пользуется своими ЦОДами, и внешний аудит привлекает минимально или не привлекает совсем», — говорит Чирков.

Как компаниям предотвращать такие масштабные проблемы?

«Казалось бы, имея многомиллиардные бюджеты, компании не должны допускать таких сбоев в принципе», — говорит генеральный директор системного интегратора CorpSoft24 Константин Рензяев. — «Все системы многократно зарезервированы, и, например, физическое уничтожение одного датацентра не должно нарушить их работу. Но Facebook просто отрезали себя от всего интернета, обновив везде настройки маршрутизации трафика. Необходимо более внимательно относится к настройкам маршрутизации между автономными системами».

«Авария 4 октября не станет последней: несмотря на многократную резервацию, ничего не может предотвратить программный сбой в прошивке или человеческий фактор. Например, в 2013 году из-за одной неверной строчки кода три дня не работали «Одноклассники», — отмечает Рензяев.

«Компаниям нужно тщательно продумывать свои политики информационной безопасности и иметь сценарии на случай подобных аварий, позволяющие минимизировать простои и оперативно возвращаться в нормальный рабочий режим. Говоря о том же физическом доступе к оборудованию: важно, чтобы ЦОД располагался рядом с конечным потребителем, — считает Тарас Чирков. — Глобальные облака — это хорошо, но в случае подобных сбоев приехать в дата-центр и ликвидировать причины аварии своими руками будет проблематично. ЦОДы-гиперскейлеры обычно располагаются на приличном удалении от клиента, и попасть в зал к своей стойке с серверами там не так просто».

Фото:Pixabay
Индустрия 4.0 Как избежать убытков от ИТ-сбоя: план по аварийному восстановлению

«А теперь представьте, что там происходит подобный инцидент, а система контроля удаленного доступа (СКУД) завязана на внешних факторах, которые также «вылетают». Все это необходимо продумывать на уровне ежедневных рабочих процессов площадки, и здесь ЦОДы, которые проводят аудиты с помощью внешних экспертов, находятся в более выигрышной позиции.

Усложнение процессов на уровне ИТ-систем и развития конечных сервисов вполне могло привести к пренебрежению основами безопасности — и когда наступил кризис, оказалось, что сценария быстрого решения просто нет, причем, скорее всего, на базовом уровне физической защиты инфраструктуры» — подытоживает Чирков.

Стали ли сервисы падать чаще — или мы просто обращаем на это больше внимания?

«Сервисы не стали падать чаще. По моим наблюдениям, раз в пять лет проблемы возникают у всех», — отмечает Рензяев. С ним согласен и Чирков: «Я бы сказал, что тренд развивается в противоположном направлении — на повышение надежности ИТ. В этом свете любой сбой сразу же становится новостью, а когда речь идет о глобальных сервисах — это уже социальная, и даже почти политическая проблема», — считает он.

Обновлено 05.10.2021
Главная Лента Подписаться Поделиться
Закрыть