По итогам недоступности сервиса 02.12.2014

Любая внештатная ситуация должна анализироваться и служить источником изменений в лучшую сторону.
Таков наш подход к работе.

По итогам инцидента 02.12.2014, возникшего в ходе модернизации сети и повлекшего за собой существенные перебои в работе сервисов, нами был проведен детальный анализ и оформлены выводы.

Мы стремимся поддерживать максимально прозрачные взаимоотношения с нашими Клиентами, поэтому детально осветили всю хронологию инцидента:

Настоящим постом мы хотим проинформировать Вас о деталях существенного перебоя сервиса, имевшего место быть 2 декабря 2014 года.
Мы стремимся поддерживать максимально прозрачные взаимоотношения с нашими Клиентами, поэтому детально осветим всю хронологию инцидента:

Ночью 2 декабря 2014 года мы проводили масштабные сетевые работы, которые касались полной перестройки ядра сети в нашем санкт-петербургском дата-центре. К этим работам мы готовились несколько месяцев. Работы включали в себя замену десятков единиц сетевого оборудования, запуск в эксплутацию нового оборудования в ядре сети, переключение соединений с провайдерами на более мощные.
По результатам подготовительных работ мы прогнозировали трехчасовое окно на работы, о чем и уведомили Клиентов рассылкой.
Первая фаза работ завершилась строго по графику (около 01:00 MSK), после чего основная масса услуг стала доступна по сети Интернет.
Вторая фаза работ заняла на 30 минут больше времени, чем было отведено по плану, и завершилась в 03:30 MSK.
После это специалисты приступили к полномасштабной проверке работы услуг и оперативному устранению вскрытых проблем.
Пост-проверка продолжалась без перерыва до 09:00 MSK, в ходе этой проверки были исправлены ошибки, относящиеся к:
Управлению элементами Облака (операции с серверами через панель и API)
Полной доступности Linux хостинга
Корректному хождению почты Офис24

К 09:00 оставались открытыми следующие проблемы:

Несколько серверов старого Linux хостинга недостаточно быстро отдавали информацию, несколько серверов старого Linux хостинга были недоступны полностью. Эти проблемы были полностью и окончательно решены в 22.45 MSK 02.12.2014.

Часть инфраструктуры бизнес-решений в старой системе (Exchange, BlackBerry) имели эпизодические проблемы с доставкой почты. Проблема носила плавающий характер, несколько раз в течения дня мы ее решали, но она возвращалась. Окончательно проблема была решена в 23.55 MSK 02.12.2014.
В результате этой недоступности часть корреспонденции была утеряна.

Связность с сетями провайдера Ростелеком и пиринг с SPB-IX. Проблемы на уровне указанных провайдеров могли вызывать недоступность части наших ресурсов для части пользователей.
Данная проблема была решена совместно с провайдерами рано утром 03.12.2014.

Консоль для управления серверами Hyper-V на платформе Parallels.
Вопрос закрыт в 22.45 03.12.2014.

Около 14.00 MSK произошло падение BGP сессий с нашими провайдерами, что вызвало общую недоступность ресурсов, расположенных в Санкт-Петербурге, на период до 10 минут.
Около 15.00 MSK событие повторилось с аналогичными последствиями.
По итогам проведенного разбора инцидента мы вскрыли некорректную совместную работу сетевого оборудования Juniper и Cisco, проявляющуюся при определенных сценариях.

Коммуникации
Как только были обнаружены негативные проявления работ, все силы сотрудников были направлены на тестирование и устранение возникших ошибок

К 11.00 MSK была составлена картина событий и заведен глобальный тикет по оставшимся проблемам для централизованного информирования всех затронутых пользователей (к нему прикреплялись созданные и создаваемые клиентские обращения по проблемам).

За время устранения последствий модернизации сети мы обработали 425 тикетов и приняли 461 звонок. Эти цифры существенно превышают нашу стандартную нагрузку, в результате чего среднее время ответа на обращение, к сожалению, возросло.

По мере проявления и устранения проблемы с падением BGP, картина была скорректирована и
в 16.50 MSK во всех панелях, соцсетях и через глобальный тикет было произведено информирование об имеющих место проблемах.
По мере устранения проблем, новости обновлялись.
Мы исследуем возможность SMS-оповещений для наших Клиентов как проактивную меру, которая позволит эффективнее информировать пользователей о работах или технических неисправностях при необходимости.

Хронология событий (MSK)
  • 00:00 – 03:30 – плановые работы в 2 этапа по полной модернизации ядра сети
  • 03:30 – 09:00 – проверка сервисов, выявление и устранение проблем
  • 09:00 – 23.50 – устранение остаточных негативных явлений, нормализация работы части услуг
  • 14:00 – 14:10 – падение BGP сессий
  • 15:30 – 15:45 – падение BGP сессий
  • 22:45 – полная нормализация работы всех серверов Linux хостинга
  • 23:55 – полная нормализация работы Exchange и BlackBerry на старой платформе
  • 9:00 (3 декабря) – восстановление связности с каналами Ростелеком
Мы понимаем важность бизнес-коммуникаций и понимаем большую ответственность, которую мы несем как Ваш провайдер услуг.
Я хочу подчеркнуть, что события с самого начала трактовались нами как критически важные и исходя из этого отрабатывались. Все лучшие специалисты компании были сфокусированы на скорейшем решении проблем и оставались на рабочих местах до их полного устранения.
Мы долго и тщательно готовились к сетевой модернизации, стремясь сделать ее максимально прозрачной для всех пользователей всех наших услуг. При переключении мы работали по чеклистам с обозначенным таймингом на проведение каждой операции. К сожалению, в силу распределенности и масштабности нашей инфраструктуры, а также особенностей ее ранней планировки, мы не смогли предусмотреть и предвидеть все подводные камни, которые мы встретили. Немалое их количество мы «обезвредили», но, увы, часть их осталась незамеченной.
Здесь мы подвели Вас и хотим принести свои извинения за это.
После любого инцидента, связанного с прерыванием услуг или их деградацией, мы проводим анализ события и намечаем корректировочный план для того, чтобы постоянно совершенствовать и улучшать уровень предоставления услуг.
И именно в рамках прошлых корректировочных планов мы спланировали полную модернизацию нашей сети, что призвано поднять стабильность услуг на новый уровень.
Наши системы мониторинга показывают полученный прирост общего эффективного функционирования сети, значительно повысившуюся скорость отдачи данных и сильное снижение задержек (latency).
Ваша обратная связь всегда приветствуется и помогает Infobox становиться лучше. Будем рады увидеть Ваши отзывы на Feedback@infobox.ru. Этот список рассылки отслеживается всей командой менеджмента компании.
Спасибо за то, что являетесь нашим Клиентом.

С уважением,
Александр Рагель
Операционный директор Infobox

Еще раз хотим извиниться перед каждым, кого затронули описанные проблемы.

Спасибо за то, что являетесь нашим Клиентом.

0 комментариев

Оставить комментарий