Обновление: инцидент с хранилищем объектов Scaleway в сентябре и октябре 2024

Scaleway Хостинг
14 ноября 2024, 03:08

Обзор инцидента
В период с 24 сентября по 23 октября 2024 года Scaleway Object Storage столкнулся с периодом повышенной нестабильности в регионе FR-PAR после архитектурных обновлений, направленных на повышение производительности и масштабируемости. В это время некоторые клиенты столкнулись с повышенным уровнем ошибок и увеличенной задержкой загрузки.

Ссылки на статус инцидента:
status.scaleway.com/incidents/938lgd7wn1zg
status.scaleway.com/incidents/b4dw2zl83837
Регионы, на которые оказывается влияние: FR-PAR
Продолжительность: 7 дней до устранения последствий, 1 месяц для восстановления номинальной производительности
Основное воздействие: нестабильность и увеличение задержки при загрузке S3, что влияет на некоторых пользователей.

Краткое изложение событий
В сентябре 2024 года мы инициировали ряд улучшений инфраструктуры для Scaleway Object Storage, включая миграцию методов PUT в наш новый шлюз Object Storage и развертывание обновленной архитектуры балансировки нагрузки в регионе FR-PAR. Эти изменения были разработаны для сокращения задержек и улучшения масштабируемости, как это успешно наблюдалось в предыдущих развертываниях в других регионах (NL-AMS и PL-WAW).
Однако после масштабирования развертывания в регионе FR-PAR 23 сентября мы наблюдали неожиданное увеличение количества ошибок 503, что указывает на нестабильность. Первоначальный анализ показал, что более высокие условия нагрузки в регионе FR-PAR сделали его особенно уязвимым к непредвиденным проблемам, несмотря на тщательный мониторинг во время более ранних развертываний. Миграцию не удалось отменить из-за архитектурной сложности обновления, что привело к более длительной задержке смягчения, чем обычно.

Хронология инцидента

18 сентября 2024 г.: Завершен перенос методов PUT в новый шлюз хранения объектов в FR-PAR
23 сентября 2024 г.: в FR-PAR развернута новая архитектура балансировщика нагрузки для обработки возросших объемов запросов
25 сентября 2024 г.: Первоначальный инцидент был открыт после увеличения количества ошибок 503. Патч был развернут, но не полностью устранил проблему.
28 сентября 2024 г.: Второй инцидент открыт. Еще один патч развернут, но откатился из-за непреднамеренных побочных эффектов
30 сентября 2024 г.: развернуто последнее исправление, временно стабилизирующее работу сервиса, но вызывающее небольшое увеличение задержки.
4 октября 2024 г.: в FR-PAR реализовано частичное аппаратное смягчение, что привело к значительному повышению производительности.
7–8 октября 2024 г.: проведены дополнительные обновления новых серверов балансировщиков нагрузки (обновление оперативной памяти с 64 ГБ до 512 ГБ) для решения проблем, связанных с памятью.
23 октября 2024 г.: Полное развертывание долгосрочного исправления во всех затронутых регионах, восстановление производительности до оптимального уровня.

Анализ первопричин
Повышенная нагрузка на FR-PAR: уникальные условия в регионе FR-PAR, в частности, более высокие нагрузки запросов, выявили неожиданную чувствительность нашей инфраструктуры, которая не наблюдалась во время более ранних региональных развертываний.
Ограничения памяти: новые серверы балансировки нагрузки в FR-PAR изначально были оснащены 64 ГБ оперативной памяти, что оказалось недостаточным в условиях внезапно возросшего трафика, что привело к исчерпанию памяти и преждевременному завершению процессов.
Управление подключением: проблемы с настройками тайм-аута HTTP Keep-Alive между нашим новым шлюзом и балансировщиками нагрузки привели к неэффективной обработке некоторых клиентских запросов, что усугубило проблемы с задержками.
Проблемы исправления и отката: хотя несколько исправлений были быстро разработаны, ранние решения пришлось откатить из-за непреднамеренных побочных эффектов. Кроме того, откат был невозможен для начальных архитектурных обновлений, что удлиняло разрешение.

Влияние на клиентов
В течение этого периода клиенты в регионе FR-PAR могли наблюдать:

Повышенное количество ошибок 503 и периодические сбои в запросах, особенно в часы пик
Увеличенная задержка при загрузке объектов с временным снижением производительности.
Клиентам было рекомендовано реализовать повторные попытки при неудачных запросах, чтобы смягчить влияние, поскольку были реализованы дальнейшие оптимизации.

Разрешение и улучшения
В резолюции были предусмотрены:

Модернизация памяти: новые серверы балансировки нагрузки в FR-PAR были обновлены с 64 ГБ до 512 ГБ, что значительно повысило стабильность при высоких нагрузках.
Улучшенное управление соединениями: параметры HTTP Keep-Alive были точно настроены между шлюзом Object Storage и балансировщиками нагрузки, что улучшило время отклика и стабильность соединения.
Улучшенная отказоустойчивость: был разработан новый механизм загрузки, повышающий отказоустойчивость операций PUT, особенно при обработке периодических ошибок.

Эти улучшения привели к полному разрешению инцидента 23 октября 2024 года. Прирост производительности был подтвержден в FR-PAR по сравнению с тем, что было до архитектурных обновлений, которые вызвали инцидент. Отзывы клиентов быстро подтвердили удовлетворенность общей оптимизацией сервиса.

Поддержка клиентов и SLA
Несмотря на этот инцидент, мы сохранили общее соответствие SLA в сентябре (99,93% времени безотказной работы против 99,0% целевого показателя SLA для однозонной и 99,90% для многозонной конфигурации). Общее соответствие SLA за октябрь не было ухудшено инцидентом.

Следующие шаги и постоянное совершенствование
Этот инцидент выявил области, в которых мы можем улучшить как нашу инфраструктуру, так и наши процессы. В рамках нашей приверженности постоянному совершенствованию мы:

Усиление мониторинга и оповещения для обнаружения подобных проблем на более ранних этапах цикла развертывания
Внедрение более надежного процесса управления изменениями для улучшения возможностей отката для сложных архитектурных обновлений
Изучение передовых методов развертывания, включая сине-зеленые развертывания
Улучшение внешней коммуникации до того, как это повлияет на развертывание производства (периоды технического обслуживания).

Мы по-прежнему стремимся предоставлять надежные и производительные услуги объектного хранения всем нашим клиентам и благодарим вас за понимание, поскольку мы продолжаем вносить улучшения на основе уроков, извлеченных из этого инцидента.

Обновление: инцидент с хранилищем объектов Scaleway в сентябре и октябре 2024

0 комментариев

Оставить комментарий