Подробности
Время начала: 13.10.2021 07:20 UTC
Воздействие: с 07:20 UTC этим утром вся сеть OVH недоступна. У нас произошел сетевой инцидент, расположенный в США. Все технические группы работают над разрешением инцидента.
Комментарий: С 08:22 UTC все услуги постепенно возвращаются после изоляции сетевого оборудования в США.
—————————————————
В течение нескольких недель мы сталкиваемся с серьезными DDoS-атаками, которые смягчаются каждый день.
Чтобы улучшить наши механизмы защиты, мы постоянно улучшаем наши конфигурации, чтобы повышать уровень защиты, которую мы предоставляем нашим клиентам.
Изменение было подготовлено и подтверждено нашим Консультативным советом по изменениям (CAB) с использованием правильного метода процедур (MOP) и экспертной оценки (объявлено 2021-10-12 в 16:28 CET)
travaux.ovh.net/?do=details&id=53785
2021-10-13 09:05 CET — Запланированное изменение запускается, как и ожидалось, в окне (http://travaux.ovh.net/?do=details&id=53785)
2021-10-13 09:18 CET — Действия по изменению обрабатываются должным образом (изоляция BGP, изменения, обновления конфигурации)
2021-10-13 09:20 CET — Во время модификации карты маршрутов возникла проблема: маршрутизатор не принял последнюю цифру в записи. Карта маршрутов направлена на перераспределение BGPv4 в OSPF. Доступен весь трафик IPv6.
2021-10-13 09:21 CET — Команда обнаружила проблему в поведении маршрутизатора и немедленно обратилась к ней.
2021-10-13 09:25 CET — Начало процесса антикризисного управления в полном соответствии с нашими внедренными процедурами (отставание между кризисами связано с буфером, который мы берем для времени конвергенции)
2021-10-13 09:30 CET — Процедура отката не сработала, поэтому мы приняли решение физически отключить соответствующее устройство и запросили помощь на месте.
2021-10-13 09:45 CET — Команда DC присоединяется к телефонной компании, чтобы запустить план смягчения 2
2021-10-13 10:00 CET — Технический специалист DC приступает к работе в телефонной комнате (3:00 утра по местному времени)
2021-10-13 10:02 CET — Первым запросом было сначала отключить оптическое оборудование, чтобы изолировать подключение и получить резервную копию услуги.
2021-10-13 10:10 CET — Наконец мы приняли решение выключить неисправный роутер.
2021-10-13 10:18 CET- Неисправное устройство отключается (требуется 2мин для схождения)
2021-10-13 10:20 CET — Восстановлены первые услуги
2021-10-13 10:30 CET — Стабилизация связи для восстановления всех оставшихся услуг
2021-10-13 10:57 CET — Конец кризиса с технической точки зрения
2021-10-13 10:30 CET — Текущие действия для завершения и проверки работоспособности нашей сети и завершения для восстановления некоторых оставшихся неблокирующих сервисов (задачи Travaux будут отслеживать действия)
OVHcloud управляет глобальной магистралью, охватывающей все континенты. Чтобы обеспечить максимально возможную досягаемость для своих клиентов, магистральная сеть полностью объединена.
• По своей природе эта сетка означает, что все маршрутизаторы, участвующие в магистрали, прямо или косвенно связаны друг с другом и постоянно обмениваются маршрутной информацией.
Во время отключения полная таблица Интернет-маршрутизации объявлялась в OVHcloud IGP. Массовый приток маршрутной информации в IGP привел к тому, что некоторые маршрутизаторы перестали работать: таблица OSPF переполнилась, что привело к перегрузке ОЗУ и ЦП. Воздействие было связано только с маршрутизацией IPv4, и весь трафик IPv6 был доступен.
Наши новые маршрутизаторы начали использовать D2 VIN в качестве шлюза по умолчанию для всего интернет-трафика, что привело к тому, что трафик переместился в США. Это привело к невозможности должным образом обрабатывать трафик для IPv4 на всех наших сайтах.
Нам удалось очень быстро вернуть контроль над ситуацией, получив доступ к физически неисправному оборудованию и изолировать его от сети.
(После того, как D2 был переведен в автономный режим, сеть снова объединилась, опустошив таблицы OSPF на устройствах и направив трафик на номинальные шлюзы).
Наши немедленные действия — переоценить нашу процедуру проверки на таких типах устройств (которая применяет и фиксирует командную строку изначально) и, соответственно, усиливает процесс изменения.
Поскольку этот инцидент повлиял на наших клиентов, использующих протокол IPv4, наши команды по всему миру максимально внимательно следили за ситуацией, чтобы помочь им восстановиться и поддерживать их в актуальном состоянии.
Приносим искренние извинения за неудобства.
Время начала: 13.10.2021 07:20 UTC
Время окончания: 13.10.2021, 08:22 UTC
Воздействие. Между 07:20 UTC и 08:22 UTC вся сеть OVH была недоступна. Мы столкнулись с сетевым инцидентом в США. Сейчас доступно большинство услуг. Последним службам, пострадавшим от сбоев, будет отдельная задача.
Утром 13 октября в 9:12 (по центральноевропейскому времени / по парижскому времени) мы провели вмешательства на маршрутизаторе в нашем центре обработки данных
Vint Hill в США, что привело к сбоям во всей нашей сети. Эти вмешательства были направлены на усиление нашей защиты от DDoS-атак, атак, которые были особенно интенсивными в течение последних недель.
Команды OVHcloud быстро вмешались, чтобы изолировать оборудование в 10:15. После этого вмешательства службы были восстановлены.
В настоящее время мы проводим кампанию проверки с нашими клиентами, чтобы подтвердить, что все их услуги были восстановлены.
Мы искренне приносим извинения всем нашим клиентам, пострадавшим от этого инцидента, и обязуемся максимально прозрачно рассказывать о причинах и последствиях этого инцидента.
travaux.ovh.net/?do=details&id=53798