Обзор инцидента
В период с 24 сентября по 23 октября 2024 года Scaleway Object Storage столкнулся с периодом повышенной нестабильности в регионе FR-PAR после архитектурных обновлений, направленных на повышение производительности и масштабируемости. В это время некоторые клиенты столкнулись с повышенным уровнем ошибок и увеличенной задержкой загрузки.
Ссылки на статус инцидента:
status.scaleway.com/incidents/938lgd7wn1zg
status.scaleway.com/incidents/b4dw2zl83837
Регионы, на которые оказывается влияние: FR-PAR
Продолжительность: 7 дней до устранения последствий, 1 месяц для восстановления номинальной производительности
Основное воздействие: нестабильность и увеличение задержки при загрузке S3, что влияет на некоторых пользователей.
Краткое изложение событий
В сентябре 2024 года мы инициировали ряд улучшений инфраструктуры для Scaleway Object Storage, включая миграцию методов PUT в наш новый шлюз Object Storage и развертывание обновленной архитектуры балансировки нагрузки в регионе FR-PAR. Эти изменения были разработаны для сокращения задержек и улучшения масштабируемости, как это успешно наблюдалось в предыдущих развертываниях в других регионах (NL-AMS и PL-WAW).
Однако после масштабирования развертывания в регионе FR-PAR 23 сентября мы наблюдали неожиданное увеличение количества ошибок 503, что указывает на нестабильность. Первоначальный анализ показал, что более высокие условия нагрузки в регионе FR-PAR сделали его особенно уязвимым к непредвиденным проблемам, несмотря на тщательный мониторинг во время более ранних развертываний. Миграцию не удалось отменить из-за архитектурной сложности обновления, что привело к более длительной задержке смягчения, чем обычно.
Хронология инцидента
- 18 сентября 2024 г.: Завершен перенос методов PUT в новый шлюз хранения объектов в FR-PAR
- 23 сентября 2024 г.: в FR-PAR развернута новая архитектура балансировщика нагрузки для обработки возросших объемов запросов
- 25 сентября 2024 г.: Первоначальный инцидент был открыт после увеличения количества ошибок 503. Патч был развернут, но не полностью устранил проблему.
- 28 сентября 2024 г.: Второй инцидент открыт. Еще один патч развернут, но откатился из-за непреднамеренных побочных эффектов
- 30 сентября 2024 г.: развернуто последнее исправление, временно стабилизирующее работу сервиса, но вызывающее небольшое увеличение задержки.
- 4 октября 2024 г.: в FR-PAR реализовано частичное аппаратное смягчение, что привело к значительному повышению производительности.
- 7–8 октября 2024 г.: проведены дополнительные обновления новых серверов балансировщиков нагрузки (обновление оперативной памяти с 64 ГБ до 512 ГБ) для решения проблем, связанных с памятью.
- 23 октября 2024 г.: Полное развертывание долгосрочного исправления во всех затронутых регионах, восстановление производительности до оптимального уровня.
Анализ первопричин
Повышенная нагрузка на FR-PAR: уникальные условия в регионе FR-PAR, в частности, более высокие нагрузки запросов, выявили неожиданную чувствительность нашей инфраструктуры, которая не наблюдалась во время более ранних региональных развертываний.
Ограничения памяти: новые серверы балансировки нагрузки в FR-PAR изначально были оснащены 64 ГБ оперативной памяти, что оказалось недостаточным в условиях внезапно возросшего трафика, что привело к исчерпанию памяти и преждевременному завершению процессов.
Управление подключением: проблемы с настройками тайм-аута HTTP Keep-Alive между нашим новым шлюзом и балансировщиками нагрузки привели к неэффективной обработке некоторых клиентских запросов, что усугубило проблемы с задержками.
Проблемы исправления и отката: хотя несколько исправлений были быстро разработаны, ранние решения пришлось откатить из-за непреднамеренных побочных эффектов. Кроме того, откат был невозможен для начальных архитектурных обновлений, что удлиняло разрешение.
Влияние на клиентов
В течение этого периода клиенты в регионе FR-PAR могли наблюдать:
- Повышенное количество ошибок 503 и периодические сбои в запросах, особенно в часы пик
- Увеличенная задержка при загрузке объектов с временным снижением производительности.
- Клиентам было рекомендовано реализовать повторные попытки при неудачных запросах, чтобы смягчить влияние, поскольку были реализованы дальнейшие оптимизации.
Разрешение и улучшения
В резолюции были предусмотрены:
- Модернизация памяти: новые серверы балансировки нагрузки в FR-PAR были обновлены с 64 ГБ до 512 ГБ, что значительно повысило стабильность при высоких нагрузках.
- Улучшенное управление соединениями: параметры HTTP Keep-Alive были точно настроены между шлюзом Object Storage и балансировщиками нагрузки, что улучшило время отклика и стабильность соединения.
- Улучшенная отказоустойчивость: был разработан новый механизм загрузки, повышающий отказоустойчивость операций PUT, особенно при обработке периодических ошибок.
Эти улучшения привели к полному разрешению инцидента 23 октября 2024 года. Прирост производительности был подтвержден в FR-PAR по сравнению с тем, что было до архитектурных обновлений, которые вызвали инцидент. Отзывы клиентов быстро подтвердили удовлетворенность общей оптимизацией сервиса.
Поддержка клиентов и SLA
Несмотря на этот инцидент, мы сохранили общее соответствие SLA в сентябре (99,93% времени безотказной работы против 99,0% целевого показателя SLA для однозонной и 99,90% для многозонной конфигурации). Общее соответствие SLA за октябрь не было ухудшено инцидентом.
Следующие шаги и постоянное совершенствование
Этот инцидент выявил области, в которых мы можем улучшить как нашу инфраструктуру, так и наши процессы. В рамках нашей приверженности постоянному совершенствованию мы:
- Усиление мониторинга и оповещения для обнаружения подобных проблем на более ранних этапах цикла развертывания
- Внедрение более надежного процесса управления изменениями для улучшения возможностей отката для сложных архитектурных обновлений
- Изучение передовых методов развертывания, включая сине-зеленые развертывания
- Улучшение внешней коммуникации до того, как это повлияет на развертывание производства (периоды технического обслуживания).
Мы по-прежнему стремимся предоставлять надежные и производительные услуги объектного хранения всем нашим клиентам и благодарим вас за понимание, поскольку мы продолжаем вносить улучшения на основе уроков, извлеченных из этого инцидента.