Проблемы в ДЦ Германии (First-colo)



Обновлено: 1 ноября 2019 г. 14:42
На корневом корневом маршрутизаторе вышел из строя компонент управления. В связи с чем, нарушена сетевая доступность всех IP сетей дата-центра. Инженеры дата-центра занимаются восстановительными работами. Мы будем обновлять информацию в этой новости.

Обновлено: 1 ноября 2019 г. 15:23
К сожалению, замена сбойного компонента на корневом маршрутизаторе — не дала положительного результата. Инженерами дата-центра будет произведена срочная замена маршрутизатора. Работы займут не менее 30-40 минут. Как только у нас появится новая информация о сроках и решениях, мы обязательно дополним эту новость.

Обновлено: 1 ноября 2019 г. 16:44
К работе над данным инцидентом подключились специалисты Arista Networks (производители core-маршрутизаторов).

Обновлено: 1 ноября 2019 г. 17:48
Сетевые подключения в некоторых сегментах дата-центра — вновь доступны. Мы обновим новость когда все сегменты сети в дата-центре будут полноценно введены в работу.

Обновлено: 1 ноября 2019 г. 20:46
Дата-центр партнер, First-colo.net сообщил о том что по последним данным, испытывает DDoS атаку ёмкостью более чем 300 гигабит в секунду. Инженеры дата-центра продолжают заниматься устранением данного инцидента и отфильтровывать вредоносный трафик на свои сети.

Обновлено: 1 ноября 2019 г. 21:09
В данный момент, мы подготавливаем техническую платформу для миграции наших IP сетей в отдельный центр фильтрации трафика.

Обновлено: 2 ноября 2019 г. 0:34
Наши инженеры, совместно с инженерами дата-центра First-colo и центра фильтрации продолжаю заниматься решением проблемы в режиме 24/7. Мы прикладываем максимально усилия чтоб как можно скорее стабилизировать работу сети в нашем партнерском дата-центре в Германии.

Обновлено: 2 ноября 2019 г. 10:26
Примерно с 01:00 (МСК) все наши IP сети проходят через несколько центров фильтрации трафика. Наши инженеры продолжают внимательно следить за состоянием сети и оперативно настраивать отдельные её элементы чтоб сохранять доступность. Если у вас остались проблемы с доступом, пожалуйста, свяжитесь с нашей поддержкой через тикет-систему fornex.com/my/tickets/. Полный отчет об инциденте, условия компенсации и другая информация — будет в рассылке, которую вскоре мы сделаем.



Обновление | 2019-11-01 15:22:36 CET
Что касается нарушения работы сети, проблема может быть еще более ограниченной. Наши сетевые инженеры усердно работают над решением проблем.
Когда приблизительное время восстановления услуг станет известно, мы незамедлительно уведомим вас. Мы стараемся решить проблемы в краткосрочной перспективе и приносим извинения за возникшие проблемы с сетью.

Обновление | 2019-11-01 18:26:06 CET
С 12:00 мы до сих пор получаем мощные DDoS-атаки на более чем 1000 IP-адресов с пропускной способностью атаки более 300 Гбит / с. Наши сетевые инженеры в настоящее время пытаются смягчить атаки различными способами. Мы уже связались с нашими перевозчиками, чтобы уменьшить входящий трафик.

В настоящее время мы не можем дать точное заявление, когда проблема будет решена.

Мы приносим свои извинения за это долгое нарушение работы сети и надеемся на ваше понимание.

Решено | 2019-11-01 19:00:00 CET
Прежде всего, все наши системы в настоящее время стабильны и работают. Отключение сети было вызвано так называемыми DDOS-атаками «Ковровая бомба», которые продолжались с 12:00 до 19:00 CET с постоянной скоростью атаки более 350 Гбит / с. Атаки вызвали немедленные проблемы для нашей сети, как только они начались. Мы сразу начали отлаживать сеть для проблем и смогли определить причину проблем. Но из-за большого количества атакованных хостов нам потребовалось некоторое время, чтобы взять атаку под контроль.

Чтобы уменьшить поверхность атаки для дальнейших атак, трафик от атакованных клиентов был перенаправлен и теперь фильтруется дополнительными приложениями DDOS.

Мы приносим извинения за все неприятности, возникшие в результате этих атак, и надеемся на ваше понимание в этом вопросе.

DDoS атака

В результате DDoS атаки на сетевое оборудование, наш хостинг в течение последних ~1.5 часов был практически недоступен. Автоматические фильтры Ростелекома не сработали должным образом, в результате чего проблему пришлось решать в ручном режиме, совместно с их специалистами. В ближайшее время планируется тестовый запуск собственной антиддос защиты на базе оборудования Huawei. Если результат работы данного оборудования будет высоким, то в будущем удастся избежать подобных проблем. Приносим свои извинения.

// с SE
Хочу всем сказать спасибо за слова поддержки. Они действительно помогают, дают понимание, что мы не зря работаем.
Помогают двигаться вперед, не смотря ни на какие препятствия, которые возникают на нашем пути естественным образом или которые нам пытаются создать искусственным путем.
Чтобы не копировать сюда все посты которые нам задавали, отвечу так:

1. Сделать с нуля и сразу высокотехнологичный бизнес и чтобы ничего не ломалось и не падало, и чтобы все сразу было защищено. Не удалось пока никому.

2. Мы стараемся развиваться максимально быстрыми темпами, если кто помнит (или можно почитать старые ветки, вся история запротоколирована), то мы открыли здесь свое представительство в конце 2013 года, тогда у нас был всего один 100 мбитный канал от Акадо, с почти нулевой связанностью и 4 стойки с серверами в небольшой серверной.
Теперь у нас 80 Гбит внешних аплинков и новый современный ДЦ на 120 стоек (около 5000 серверов). В 14 и начале 15 года у нас было несколько даунтайов из-за проблем с электричеством, сейчас этот вопрос полностью закрыт 6 ИБП по 420 КВт, каждый и двумя дизелями на 1.2 МВт каждый. За почти год работы нашего нового ДЦ, было 2 пропадания электроэнергии из города. Первый раз, запланированные работы, второй раз незапланированное падение вводов. Оба раза автоматика сработала без сбоев и наша система автономного питания приняла на себя всю нагрузку (за это — огромное спасибо нашей круглосуточной инженерной службе дата-центра, которая следит за исправной работой всего оборудования), хотя мы и упоминали о пропадании электричества, но мало кто обратил на это внимание, т.к. все работало.

3. Был серьезный обрыв оптики на территории стройки Следственного Коммитета РФ (для нас осталось тайной, покарали ли они за это сами себя ). В то время мы еще не успели организовать резервный оптический канал до М9. Работы затянулись буквально на месяц, которого не хватило для ввода альтернативного маршрута по оптике. Сейчас он есть. Также в ближайшие пару месяцев мы планируем ввести в работу две новых магистрали с большим количеством оптических волокон. Наша задача по каналам связи в течение этого года расширить магистрали до ДЦ до 400-500 Гбит/с, а также, запустить альтернативную пиринговую точку отличную от М9.

4. Безусловно, после каждой подобной аварии, мы делаем выводы и принимаем меры для их предотвращения в будущем — мы не из тех, кто наступает на одни и те же грабли дважды.

5. Мы не можем предвидеть все возможные проблемы, которые могут встретится по той простой причине, что многое из того, что мы делаем, никто раньше не делал, как минимум в нашей стране. Конечно мы отстаем от западных аналогов как в техническом, так и материальном плане (но это общая проблема нашей страны, которую можно наблюдать практически во всех отраслях, особенно в IT). По этому мы и стремимся развиваться максимально быстро, чтобы в кратчайшие сроки наверстать этот разрыв. Наверное отчасти скоростью нашего развития можно объяснить несколько частое возникновение каких либо проблем. Тот путь, который другие проходят за годы, мы проходим за месяцы ).

6. Конечно, у стороннего наблюдателя может возникнуть ощущение, что Айхор все время лежит, но на самом деле это конечно не так. Просто у нас уже достаточно большая клиентская база (цифры подвале нашего сайта, являются абсолютно реальными показателями и обновляются раз в 5 минут, а не как это принято у некоторых — «давайте нарисуем от фонаря, главное чтобы цифры были по внушительней». Естественно, когда когда уже около 7500 клиентов пользуется нашими услугами, всегда найдутся те, кто будет оперативно реагировать на возникающие проблемы, и это говорит только о нашей популярности. Также мы всегда реагируем на любые замечания в Сети. Для Вашего и нашего удобства, мы ведем постоянные группы во всех популярных соцсетях — Твиттер, ВК, Фейсбук. Везде стараемся оперативно оповещать в случае возникновения глобальных проблем.

7. Да, у нас еще есть проблемные места, на которыми нам надо работать и мы работаем над ними. Из того, что здесь прозвучало, основных задач сейчас две:
  • Антиддос — планируем ввести в опытную эксплуатацию до конца мая, сейчас согласовываем все конфиги и проект стойки на М9. Хочу заметить, что счастья сразу не будет, нам еще предстоит постепенный тюнинг новой железки. Не очень просто настроить качественную защиту на разнородном трафике который уже переваливает за 10G с постоянным ростом. Но я уверен, что мы справимся и в течение июня поставим все наши сети под собственную защиту.
  • Тут была жалоба на работу ТП, так вот. На последнем совещании было принято решение часть моего времени и сил пустить на отлаживание работы нашей тех. поддержки. За это время уже накопилось достаточно статистики и понимания того, как улучшить ее работу с учетом нашего постоянного масштабирования. Как я уже писал ранее, не сложно организовать ТП, когда клиентская база не растет или растет медленно, гораздо сложнее это сделать при быстром росте. Но это задача тоже решаемая.