Подробно расскажем о том, что происходило в
период с 11 по 18 августа в дата-центрах Serverius (Нидерланды), как решали проблему и что будет сделано, чтобы не допустить этого в будущем (лонгрид).
1. Что случилось
11 августа, в воскресенье, оба дата-центра компании Serverius стали жертвой DDoS атаки нового типа – TCP-amplification (реплицированный SYN/ACK-флуд) одновременно на сотни IP адресов, которые принадлежали дата-центру и другим клиентам дата-центра, которые использовали их автономную систему. При каждой следующей атаке IP адреса и подсети менялись в случайном порядке. В пиках фиксировалось до 500.000.000 пакетов в секунду на сотни IP адресов, что в сумме составляло невероятную мощность и нагрузку. Кроме этого, атакующие регулярно меняли тактику и методы атаки, чтобы создать максимальные проблемы для сетевой инфраструктуры. Возможность использовать протокол TCP для масштабных атак типа Amplification впервые описали в исследованиях пять лет назад, но до сих пор это оставалось теорией.
2. Почему не сработала DDoS защита
Не сработала не только DDoS защита, не выдерживала и остальная сетевая инфраструктура, так как одновременное количество пакетов было слишком велико: падали интернет-каналы, вышестоящие провайдеры блокировали подсети, чтобы не допустить проблем и перегрузок у себя.
3. Как решали проблему
Сначала никак. Мы полностью рассчитывали на Serverius и их защиту, которая является лучшей в Нидерландах и одной из лучших в Европе. Атаки периодически прекращались и через некоторое время повторялись снова, иногда с еще большей силой. В моменты прекращения атак наша команда отвечала на сотни тикетов и активировала временные серверы для клиентов, которые могли самостоятельно переехать.
Через несколько часов мы уже понимали, что нужно действовать самостоятельно и уносить свои IP сети из Serverius-а во внешнюю защищенную сеть.
Мы написали некоторым зарубежным облачным анти-DDoS провайдерам, которые могли наверняка справиться с такими атаками. В течение нескольких часов никто не ответил.
Тогда мы обратились в российскую компанию StormWall. Ответ получили в течении 30 минут и еще через 15 минут уже обсуждали детали атаки и варианты защиты. Самым быстрым вариантом подключения оказался GRE туннель с точкой фильтрации во Франкфурте.
Через три часа удалось переключить наши подсети IP из Serverius DC1, еще через три часа переключили подсети IP из Serverius DC2 и приступили к корректировке настроек, чтобы добиться эффективной фильтрации мощнейших атак и при этом обеспечить приемлемую работу серверов и сайтов.
К полудню 12 августа мы убедились в стабильной работе наших сетей и принялись исправлять менее критичные проблемы, о которых сообщали клиенты. К этому часу уже больше суток работали без сна и отдыха в состоянии стресса и напряжения.
Чтобы оперативно обрабатывать тикеты, объявили полную мобилизацию и привлекли всех инженеров технической поддержки и менеджеров. Отдельно отметим команду сетевых инженеров и руководства Serverius и StormWall, которые также все время работали вместе с нами, чтобы наладить стабильную работу наших сервисов.
Работа через GRE туннель оказалась неидеальной. Проблемы должен был решить прямой L2 канал к точке фильтрации: связались с точкой обмена NL-IX, уточнили возможность аренды каналов, но получили ответ, что свободных портов нет. Не оставалось ничего другого, как продолжить использовать GRE туннель и бороться с недостатками.
Когда атаки прекращались на продолжительное время, мы отключали туннель и возвращали наши сети в Serverius, чтобы обеспечить комфортную работу серверов, а при возобновлении атак оперативно активировали туннели, чтобы избежать падений из-за атак на дата-центр. Каждое такое переключение сопровождалось сотнями тикетов с запросами на корректировку MTU.
19 августа мы окончательно отключили туннель в связи с прекращением атак: атакующие переключились на другие дата-центры. Нам также стало известно, что с такими же проблемами столкнулись Webzilla, Servers.com и другие провайдеры.
4. Что будет дальше
Атака стала отличным стресс-тестом для всей инфраструктуры Serverius и помогла определить слабые места. Наша команда получила невероятный опыт, который позволил пересмотреть подход к проектированию нашей архитектуры.
Теперь о том, почему мы больше не окажемся в подобной ситуации.
Мы заключили контракт и отладили настройки для быстрой активации внешней DDoS защиты. В настоящее время – через GRE туннель, но мы уже ведем диалог с провайдерами об аренде каналов для прямого подключения к точкам защиты. Это позволит избежать высоких задержек, низких скоростей, необходимости корректировки MTU и других неудобств GRE туннеля. Таким образом, наши площадки в Нидерландах получат двойную защиту, что станет дополнительным конкурентным преимуществом и дополнительной защитой на случай новых, до этого неизвестных атак.
Чтобы не наступать второй раз на те же грабли, мы сразу же настроили внешнюю DDoS защиту для нашей второй стратегически важной площадки в Москве – теперь, в случае подобных распределенных атак на наши сети или сети дата-центра, переключение на нее займет менее 30 минут.
Помимо этого, мы зарегистрировали собственную автономную систему и анонсируем наши сети через нее. В дополнение к каналам Serverius мы подключим еще не менее двух провайдеров, чтобы обеспечить стабильную работу наших серверов в случае проблем с сетью Serverius.
Это потребует больших инвестиций в оборудование, вырастут ежемесячные расходы на аренду защищенных каналов, но это никак не отразится на стоимости наших услуг.
Со стороны Serverius изменения предстоят куда более серьезные. Идет настройка нового сетевого оборудования, которое позволит увеличить производительность и пропускную способность в 100 раз. Переключение нашего оборудования к новой сети планируется уже в ближайшее время.
Инженеры Huawei проанализировали новый тип DDoS атаки и обновили прошивку, которая помогает определять и фильтровать такие типы атак. Проблемой остается лишь очень высокая мощность атак, что будет решаться за счет покупки дополнительного оборудования. Сумма дополнительных инвестиций в защиту составит 2.5 миллиона Евро.
Кроме этого, руководство дата-центра понимает, что завтра появятся и другие неизвестные типы атак, еще мощнее и сложнее, поэтому как дополнительную защиту для таких сценариев они рассматривают подключение внешних провайдеров облачной защиты с распределенной сетью точек присутствия по всему миру. Переговоры введутся с Cloudflare, Imperva и другими провайдерами.
5. Выводы
Дерьмо случается. То, что нас не убивает, делает нас сильнее. Мы понесли большие потери, но мы благодарны этому опыту.
Способы атак постоянно эволюционируют, мощность атак продолжает возрастать, и важно быть готовым к любым ситуациям. По этой причине вариант двойной защиты совершенно необходим.
Жертвой подобной атаки может стать любой дата-центр – это вопрос времени, и о дополнительной защите лучше позаботиться заранее.
Мы понимаем тех из вас, кто переехал в желании спасти свои проекты и сайты, но задайте себе вопрос: готов ли ваш новый хостинг провайдер и дата-центр к атакам такого рода?
Мы будем готовы.
6. Извинения и компенсации
Многие хостинг компании имеют SLA соглашения, на которые они ссылаются в случае аварий. Часто подобные SLA не покрывают внешние факторы, к которым относятся DDoS атаки, а если и покрывают, то в весьма скромном объеме: предлагаемая компенсация обычно равна времени фактической недоступности. Так, за 1 час недоступности предлагается кредит, равный стоимости 1 часа аренды сервера.
Мы не получим никакой компенсации от Serverius. Мы на нее и не претендуем. Они делали все, чтобы помочь как нам, так и другим своим клиентам. Даже если бы мы и получили компенсацию от Serverius, то ее сумма никак не покрыла бы наши потери.
Для нас имеет ценность не SLA и договоры, а наша репутация и отношение к вашим проблемам.
Мы считаем своим долгом предложить компенсацию клиентам в Нидерландах. Для этого создайте тикет в биллинг отдел. На компенсации могут рассчитывать и те, кто во время проблем был вынужден сменить хостинг. Будем рады вашему возвращению.
Команда Inferno Solutions ценит и благодарна за поддержку и понимание. Спасибо, что вы верили и продолжаете верить в нас.