Как мы будем обрабатывать платежи в новогодние праздники



Как мы будем обрабатывать платежи в новогодние праздники
Из-за праздничных дней изменяются сроки зачисления платежей:
  • Обработка платежей по безналичному расчету завершится 29 декабря 2023 г. в 15:00 (UTC +3).
Если к 15:00(UTC +3) 29.12.2023 вы не получите уведомление о поступлении платежа — направьте нам платежные документы через тикет-систему до 20:00(UTC +3) 29.12.2023, и мы пополним баланс вашего аккаунта
  • Платежи по безналичному расчету, совершенные 29.12.2023, будут обработаны 09.01.2024
  • Платежи по безналичному расчету, совершенные в период с 30.12.2023 по 08.01.2024, будут обработаны 10.01.2024
Пополните баланс заранее для непрерывного функционирования услуг.

Техническая поддержка в период новогодних праздников работает круглосуточно.
Получить консультацию технического специалиста можно по запросу через тикет-систему.

Добавлен новый пункт в Пользовательское Соглашение



Добавлен новый пункт в Пользовательское Соглашение
В третий раздел Пользовательского Соглашения добавлен пункт 3.18 про необходимость подписания актов сверок взаиморасчетов по запросу любой из сторон в течение 15 рабочих дней. Соответствующие изменения вступят в силу 5 января 2024 года.

Данное уведомление носит информационный характер и не требует каких-либо дополнительных действий.

Актуальная обновленная версия документа доступна на сайте:
selectel.ru/about/documents/user-agreement/

1С-Битрикс и Битрикс24



Хорошие новости для пользователей 1С-Битрикс и Битрикс24:
  • Обновили линейку тарифов Хостинга 1С-Битрикс, где используются высокочастотные процессоры до 5 ГГц на ядро, NVME-диски, многократно увеличен объем оперативной памяти, что позволяет сайтам работать очень быстро и выдавать лучшие показатели загрузки.
  • Запустили специальную линейку VDS для 1С-Битрикс и Битрикс24, для которой используются современные платформы, процессоры с ядром до 3.7 ГГц, NVME-диски и специализированный рецепт для установки ОС.
  • Вы можете купить или продлить лицензию 1С-Битрикс, Битрикс24 в нашей компании и получить кешбек 20% для оплаты наших услуг.

Наши серверы расположены в Москве в дата-центре премиум-класса DataPRO Tier 3, имеют защиту от DDoS-атак от компании DDoS-Guard.

До конца года на новые тарифы действует акция при заказе или продлении — 15%
webhost1.ru/information/promo/2023-12-20-v-novyj-2024-god-s-novymi-tarifami---bitriks.html

Dedicated servers in USA - 10Gbps!



Новые возможности с PQ.Hosting — выделенные серверы теперь и в США!

Уважаемые клиенты, у нас для вас потрясающая новость! Мы расширяем горизонты и теперь, помимо Нидерландов, вы можете заказать выделенные серверы и в США!

Тарифные линейки представлены серверы на процессорах 2xE5-2697Av4 (32 физических ядра и 64 потока), DDR4 ECC RAM, SSD уровня Enterprise и интернет каналом 10Gbps!

Идеальные выделенные серверы PQ.Hosting расположены в популярном дата-центре Evoque на восточном побережье США, охватывающем более 4 тысяч квадратных метров. Этот современный ЦОД оборудован передовыми системами защиты и безопасности, соответствующими высшим американским стандартам.

Этот шаг — результат нашего стремления предоставить вам больше гибкости в выборе местоположения сервера для ваших онлайн-проектов. Ваш бизнес заслуживает лучшего, и теперь с PQ.Hosting вам доступны новые возможности!

New opportunities with PQ.Hosting — dedicated servers now in the USA!

Dear clients, we have amazing news for you! We are expanding our horizons and now, in addition to the Netherlands, you can order dedicated servers in the USA!

Tariff lines include servers with 2xE5-2697Av4 processors (32 physical cores and 64 threads), DDR4 ECC RAM, Enterprise-level SSD and 10Gbps Internet channel!

PQ.Hosting's ideal dedicated servers are located in the popular Evoque data center on the East Coast of the United States, spanning over 4 thousand square meters. This modern data center is equipped with advanced protection and security systems that meet the highest American standards.

This move is the result of our commitment to give you more flexibility in choosing the server location for your online projects. Your business deserves the best, and now with PQ.Hosting new opportunities are available to you!

https://pq.hosting

Получите максимум удовольствия от декабря с праздничной распродажей Contabo


Год подходит к концу, и мы рады поделиться нашими последними предложениями 2023 года, наполненными предложениями, которые помогут вам вступить в новый год с большей мощностью облачного хостинга!
contabo.com/en/vps/

В этом году среди наших особых подарков для вас будет больше места для хранения вашего ценного опыта и воспоминаний:
  • Скидка 50 % на расширение хранилища VPS для существующих экземпляров
  • 100% скидка на расширение хранилища VPS для новых инстансов
  • Предстоящие сюрпризы: следите за более интересными предложениями на VPS, VDS, выделенные серверы и внешние серверы, начиная с 27 декабря — вы не захотите их пропустить!
Наше предложение по расширению хранилища VPS специально разработано, чтобы предоставить вам больше места для ваших проектов, резервных копий и цифровых сокровищ. И помните, это только начало: впереди вас ждут еще более захватывающие предложения!

Получите максимум удовольствия от последних дней 2023 года вместе с Contabo. С праздником вас от нас!
Ваша команда Контабо

Изменения в разделе Профиль Личного кабинета



28 декабря в Личном кабинете появится возможность управлять пользователями и контролировать их доступы с помощью ролей.

Каждому пользователю можно будет назначить одну из ролей:
  • Владелец — роль с полным доступом к аккаунту.
  • Менеджер — роль с полным доступом к аккаунту, но без возможности управлять другими пользователями.
Когда изменения вступят в силу, всем текущим пользователям будет назначена роль Владельца аккаунта.

Отредактировать пользователей и их роли можно будет в Личном кабинете в разделе Профиль.

Всю дополнительную информацию вы можете найти в нашей Базе знаний www.servers.com/support/knowledge/accounts/user-management

Отчет о надежности интернет-сегмента за 2023 год



Национальное исследование надежности сегмента Интернета объясняет, как выход из строя одной автономной системы (AS) может повлиять на глобальную связь в пострадавшем регионе, особенно если в нем участвует доминирующий интернет-провайдер (ISP) в этой стране. Подключение к Интернету на сетевом уровне определяется взаимодействием между автономными системами. По мере увеличения количества альтернативных маршрутов между AS растет отказоустойчивость и стабильность Интернета в этой стране.

Глобальная связность любой автономной системы (АС), будь то международный гигант с миллионами потребителей услуг или небольшой региональный интернет-провайдер, зависит от количества и качества ее путей к провайдерам первого уровня. Уровень 1 относится к крупным транснациональным, часто трансконтинентальным операторам, которые обеспечивают глобальную связь между континентами и странами. Эти операторы находятся на вершине иерархии провайдеров и, следовательно, не платят друг другу за услуги IP-транзита. Однако внутри этого «элитного клуба» нет никаких обязательств поддерживать взаимные связи друг с другом. Только рынок может мотивировать такие компании к установлению взаимосвязей. Достаточно ли этого стимула? Мы рассмотрим этот вопрос ниже, в разделе, посвященном подключению IPv6.

Для многих интернет-провайдеров на всех «уровнях» потеря соединения даже с одним узлом уровня 1, скорее всего, сделает их недоступными из некоторых частей мира.

Методология измерения надежности Интернета
Рассматривая случай, когда AS испытывает деградацию сети, мы хотим ответить на следующий вопрос: «Сколько AS в одном регионе потеряют связь с операторами уровня 1 и вместе с этим свою глобальную доступность?»

На протяжении многих лет мы моделировали такую ситуацию, поскольку на заре проектирования BGP и междоменной маршрутизации его создатели предполагали, что каждая нетранзитная AS будет иметь как минимум двух вышестоящих провайдеров, чтобы гарантировать отказоустойчивость в случае выхода из строя одного из них.

Однако текущая реальность иная: более 41% интернет-провайдеров имеют соединения только с одним провайдером IPv4. С подключением IPv6 ситуация еще хуже – более 54%. Случались ли когда-нибудь сбои у транзитных интернет-провайдеров? Ответ – да, и это происходит все чаще. Более уместным будет вопрос: «При каких условиях у конкретного интернет-провайдера может возникнуть серьезное ухудшение качества обслуживания, которое мы бы назвали сбоем?» Если такие проблемы кажутся маловероятными, возможно, стоит рассмотреть закон Мерфи: «Все, что может пойти не так, пойдет не так».



Для моделирования такого сценария мы применяем одну и ту же модель восьмой год подряд. Для оценки надежности AS были предприняты следующие шаги:
  • Для каждой AS в мире мы проверяем все альтернативные пути к операторам уровня 1 с помощью модели отношений AS, ядра Qrator.Radar;
  • Используя базу данных Maxmind GeoIP, мы сопоставили страны с каждым IP-адресом каждой AS;
  • Каждой AS и каждой стране присутствия мы присваиваем вес, равный доле адресного пространства этой AS, рекламируемой в этой стране;
  • Каждой стране мы присваиваем вес, равный сумме весов стран всех AS, присутствующих в ней;
  • После этого мы анализируем потенциальное влияние сбоя на другие AS, а также на соответствующие страны;
  • В конце концов, для каждой страны мы определяем АС с наибольшим/наибольшим влиянием на другие АС в своем регионе.

Надежность IPv4
Общая тенденция стабильности IPv4

Год за годом мы наблюдаем положительную глобальную тенденцию к повышению надежности и общей доступности. Нынешний 2023 год не является исключением.

Для иллюстрации этого тезиса мы подсчитали средние и медианные значения стабильности IPv4 для всех стран за всю историю отчетности (последние 8 лет).

Мы показываем как средние, так и медианные значения, чтобы сгладить ситуации резкого снижения стабильности в странах с небольшим количеством локальных АС, что усиливает зависимость наших метрик от каждой из них. Такое представление надежности также необходимо для компенсации случаев, когда 100% монополия АС внутри страны существенно влияет на оценку общей средней стабильности во всем мире.

Можно заметить, что в мире продолжает демонстрироваться тенденция повышения отказоустойчивости: средний показатель надежности улучшился с 26,7% в 2022 году до 25,7% в 2023 году.


Рейтинг IPv4
Ниже приведен список Топ-20 стран по надежности с учетом выхода из строя одной автономной системы. На практике это означает, что в стране хорошее подключение к Интернету, а процент отражает долю автономных систем, которые потеряют глобальное подключение в случае отказа наиболее значимого интернет-провайдера.

Таблица 1. Рейтинг надежности IPv4


Основные моменты:
  • Сингапур опустился на 11 позиций, опустившись с 4-го на 15-е место с заменой критической AS со StarHub (AS4657) на SingNet (AS3758).
  • Тайвань вернулся в Топ-20 Рейтинга надежности IPv4 на 17 месте (в 2021 году занимал 20 место).
  • После 7-летнего отсутствия Филиппины вновь вошли в Рейтинг на 20-й позиции, находясь на 24-м месте в 2022 году.
  • США вновь вошли в рейтинг, переместившись с 28-го на 18-е место.
  • Люксембург покинул рейтинг, опустившись с 16-го на 39-е место, а его критический AS изменился с AS174 на AS6661.
  • Индонезия потеряла четыре позиции с 17-го места и покинула рейтинг.
Рейтинг надежности Интернета последовательно демонстрирует устойчивую тенденцию систематического улучшения качества связи. Бразилия, Германия и Нидерланды прочно удерживают тройку лидеров два года подряд. Это свидетельствует о том, что количество соединений между их Автономными Системами настолько велико, что выход из строя критической AS не приведет к недоступности этих регионов.

Примечательным наблюдением 2023 года является резкое снижение рейтинга Люксембурга, который не только покинул топ-20, но и опустился на 39-е место. Критическая AS изменилась с международного оператора первого уровня Cogent (AS174) на местную Post Group Luxembourg (AS6661), которая, в свою очередь, имеет значительное количество местных клиентов. В 2023 году несколько клиентов Post Group Luxembourg отказались от всех других провайдеров, сделав эту AS единственным провайдером и, таким образом, став полностью зависимыми от ее политики маршрутизации. Следовательно, критичность отключения Post Group Luxembourg для страны существенно возросла, а из-за небольших размеров государства это событие привело к колоссальному снижению его отказоустойчивости в Интернете.

В Сингапуре, потерявшем в 2023 году 11 позиций, также произошла смена Автономной системы (АС) со StarHub (AS4657) на SingNet (AS3758), имеющую более высокий уровень критичности. Чем выше уровень критичности, тем больше автономных систем (и в целом конечных пользователей, имеющих доступ к Интернету) останутся без подключения в случае выхода из строя данного интернет-провайдера, и тем ниже будет позиция его страны в общем рейтинге.

Скорее всего, повышенная критичность SingNet связана с тем, что несколько Автономных Систем покинули StarHub и сделали SingNet единственным провайдером, а его выход из строя грозит им полной потерей связи.

С другой стороны, глядя на крупнейших провайдеров Сингапура, следует отметить общенациональный сбой в работе австралийской дочерней компании SingTel (AS7473) — Optus (AS7474) — в ноябре 2023 года. По нашим данным, Optus является четвертой AS в стране по количеству локальных клиентов, и пользователи AS этих клиентов испытывали проблемы с интернет-сервисами почти 14 часов. Кроме того, с точки зрения BGP, у Optus нет поставщиков резервного копирования, а есть только один вышестоящий интернет-провайдер — SingTel.

Среди новичков 2023 года выделяются Филиппины, стабильно улучшающие свои позиции на протяжении последних 4 лет и теперь, наконец, вошедшие в Топ-20 Рейтинга.


Надежность IPv6
принятие IPv6

Общеизвестно, что, несмотря на схожие названия протоколов IPv4 и IPv6, их реализация существенно различается. Относительная новизна и существенные различия в работе этих двух протоколов, безусловно, замедляют темпы внедрения маршрутизации IPv6 в Интернете. Это подтверждает статистика использования IPv6 от Google, которая показывает, что распространение этого протокола во всем мире растёт, но не экспоненциально, как это характерно для многих интернет-технологий, а линейно (на графике показан процент всех сессий, использующих IPv6 для подключения к Google). серверы). Однако за 8 лет публикации нашего отчета этот показатель вырос с 10 до 44,87% в 2023 году.


Частичное подключение в IPv6
Одним из интересных явлений в IPv6 является частичное подключение к интернет-провайдеру. Попробуем объяснить, что представляет собой эта метрика. Для этого рассмотрим связи между основными операторами Tier-1, изобразив Ядро Интернета в виде графа:


Подключение IPv4 Tier-1 (слева) и подключение IPv6 Tier-1 (справа)

Пунктирная линия на графике IPv6 отражает отсутствие связей между основными провайдерами первого уровня.

В то время как в IPv4 все операторы уровня 1 имеют одноранговые отношения друг с другом, в IPv6 отсутствует связь между несколькими основными операторами, такими как:
  • между Hurricane Electric (AS 6939) и Cogent (AS 174),
  • между 2828 (XO Communications, объединенная Verizon) и 3320 (DTAG),
  • между 2828 (XO Communications) и 1239 (Спринт),
  • между 2828 (XO Communications) и 6762 (Sparkle, он же Telecom Italia).
В предыдущих отчетах мы уже писали о «классическом» отсутствии связи между 174 (Cogent) и 6939 (HE), которые из-за продолжающейся пиринговой войны отказались устанавливать пиринговое соединение.

Однако в этом году связь ненадолго появилась, дав некоторую надежду на восстановление отношений между компаниями, конкурировавшими годами.


Также появились некоторые колебания подключений Verizon в 2023 году:
  • 2828 США — 3320 Германия — связь наблюдалась в 2019 году, но в том же году исчезла,
  • 2828 США — 1239 США — ссылка мерцала и пропадала в мае 2022 года,
  • 2828 США — 6762 Италия — ссылка периодически появляется.
Что означает отсутствие ссылки? Если рассматривать только вертикальные отношения (провайдер-клиент), то это означает, что трафик не может течь между множествами клиентов («клиентскими конусами») двух операторов верхнего уровня, поскольку они не обмениваются трафиком друг с другом.
Невозможно пройти через цепочку более двух операторов первого уровня или транзитного оператора нижнего уровня, поскольку в этом случае будет нарушен принцип маршрутизации Valley-Free и возникнут утечки маршрутов.

Принцип Valley-Free — это широко распространенное правило маршрутизации, согласно которому префиксы, полученные рассматриваемой AS от провайдера или пира, могут передаваться только клиентам.

Отсутствие маршрутов от AS в регионе хотя бы до одного из крупных операторов Tier-1 приводит к явлению частичной связности. Это может привести к недоступности любимых сервисов для конечных пользователей.


Мы добавили информацию о частичной связности всех AS в каждой стране в рейтинг надежности IPv6, представленный ниже.

Таблица 2. Оценка стабильности IPv6


Основные моменты:
  • Топ-2 остается неизменным второй год подряд: Бразилия и Германия сохраняют лидирующие позиции.
  • Нидерланды поднялись на 5 позиций, обеспечив себе третье место и подтолкнув Англию на 4-е место.
  • Япония, отсутствующая в топ-20 с 2021 года, вошла в рейтинг на 5-й позиции.
  • Китай занял 12-е место после двухлетнего отсутствия в топ-20.
  • Индонезия потеряла 13 позиций, резко опустившись с 4-го на 17-е место.
Возвращение Японии в рейтинг после двухлетнего отсутствия можно объяснить снижением уровня критичности ее самого значимого телекоммуникационного оператора — Национального института информатики (AS2907) — с 20,27% до 4,33%. Количество клиентов этой АС не уменьшилось, что свидетельствует о том, что они начали подключать резервные каналы связи (другие провайдеры). В случае выхода из строя критических AS их доступность не будет потеряна, а значит больше стабильности и более высоких позиций в рейтинге.

Китай вновь появился в рейтинге после попадания в топ-20 в 2021 году. В стране наблюдается парадокс: с одной стороны, процент отказов при отключении China Telecom (AS4134) очень низкий (5,85%), но с другой С другой стороны, наблюдается поразительная частичная недоступность (почти 90%).

Высокая частичная недоступность в Китае обусловлена большим количеством автономных систем, анонсировавших префиксы, принадлежащие Китайской образовательной и исследовательской сети CERNET (AS4538). Эти объявления были сделаны из обычно неиспользуемых, но выделенных APNIC автономных систем, что привело к большому количеству перехватов BGP, как упоминалось в отчете за третий квартал 2023 года в разделе инцидентов BGP.
Что касается наших показателей глобального подключения, стоит отметить, что распространение этих объявлений в сторону операторов первого уровня заканчивается в двух ключевых AS: Hurricane Electric (AS6939) и Hong Kong Internet Exchange (AS4635).

В случае с Hong Kong IX это подразумевает региональную связность ввиду особенностей распределения трафика через IX и не влияет на глобальную связность. В случае Hurricane Electric (AS6939) глобальное подключение не будет достигнуто, поскольку, как упоминалось выше, между AS6939 и AS174 нет пирингового канала. Это означает, что, согласно нашему показателю, большое количество AS, анонсировавших китайские префиксы CERNET, имели частичную доступность. Более того, при кратковременном соединении AS6939 и AS174 появилась глобальная связь, и многие частично доступные AS стали глобально доступными через AS6939, что сделало AS6939 критически важным для страны (с критичностью 88%).

Важно отметить, что появление большого количества редко используемых AS может внести шум в значения наших показателей для Китая, но это не отражает реальной ситуации. Мы лишь отражаем факт отсутствия глобальной связности для этих редко используемых AS. Это явление вряд ли затронет обычных пользователей.

Резкое падение рейтинга Индонезии можно объяснить тем, что ее автономная система Cyberindo Aditama (AS38158) в 2023 году начала активно отбивать клиентов, в том числе местных, что сделало ее более важной для региона автономной системой, сместив прошлогоднего лидера. PT Mora Telematika Индонезия (AS23947).

Практически ежегодная смена лидеров свидетельствует о динамичности развития IPv6. В отличие от IPv4, средняя стабильность и частичная связь для IPv6 не улучшаются. Однако рейтинг Топ-20 свидетельствует об улучшении среднего показателя простоев — с 7,06% в 2022 году до 5,34% в 2023 году.

Интернет-провайдеры только с одним восходящим потоком (штуковые сети) и их надежность
Уже несколько лет подряд мы наблюдаем тот факт, что значительная часть критичных AS из нашего рейтинга состоит из Автономных Систем с большим количеством Stub AS (Stub Autonomous Systems), которые по сути представляют собой сети только с одним вышестоящим провайдером и не являются транзитными. провайдеры для кого угодно.

Ниже приведены таблицы, в которых критические AS из стран нашего рейтинга одновременно выступают в качестве основных «хабов» для тупиковых сетей.


Этими характеристиками обладают 75% нашего рейтинга адресного пространства IPv4, тогда как для IPv6 их меньше половины.

Обновления сайта Qrator.Radar
Ежегодно на сайте Qrator.Radar добавляется новый функционал. В этом году мы добились значительного улучшения, предоставив национальные рейтинги стабильности с ежемесячными обновлениями, чтобы вы могли в любое удобное время получить доступ к последним данным на нашем веб-сайте.


Ключевые результаты
  • Надежность IPv4 продолжает улучшаться из года в год, демонстрируя рост с 26,7% в 2022 году до 25,72% в 2023 году.
  • Глобальное внедрение IPv6 продолжает линейно расти; однако частичное подключение в IPv6 остается постоянным и не демонстрирует устойчивого роста.
  • Филиппины демонстрируют последовательное повышение общей стабильности IPv4.
  • Практически ежегодная смена лидеров IPv6 свидетельствует о динамичном развитии IPv6.
  • Высокий уровень частичного подключения IPv6 в Китае связан с локальным объявлением префиксов CERNET от имени недостаточно используемых азиатских AS.
Актуальная информация о национальной стабильности всегда доступна radar.qrator.net/as-rating/reliability/national-stability
Если у вас возникнут какие-либо вопросы, пишите нам на radar@qrator.net

НОВИНКА: вы можете просмотреть историю записей DNS



Правильная работа ваших адресов электронной почты, веб-сайтов и вызовов API зависит от правильных DNS-серверов. Поэтому любые изменения в полях являются рискованными, поскольку могут привести к простою службы.

Хорошие новости! Благодаря истории зоны DNS управлять DNS стало проще.

Теперь доступны следующие функции:
  • просматривать полную историю ваших DNS-зон;
  • загрузить конфигурацию зоны DNS, чтобы реплицировать ее на новое доменное имя (полезно, если вы переносите доменные имена в другую учетную запись);
  • восстановить зону DNS;
  • сравните две предыдущие версии зоны DNS.
Больше не нужно ничего делать вручную или беспокоиться о простое DNS! Используйте эти настройки по максимуму, без стресса!

Хотите узнать больше? Посмотрите наше руководство
help.ovhcloud.com/csm/en-ie-dns-zone-history

Инцидент с блочным хранилищем на AMS-1



8 декабря в 09:45 компания Scaleway столкнулась с инцидентом в зоне доступности NL-AMS-1, который повлиял на клиентов, использующих продукты в этой зоне доступности. Проблема была решена к 14:10 того же дня. Вот важная информация о том, что произошло.

Продукт Block Storage столкнулся с проблемой, и в результате другие продукты на его основе (например, Instances, Kapsule, Load Balancer, Managed Databases и т. д.) столкнулись либо с высокой задержкой, либо с недоступностью.

Глобальная недоступность: 2 часа 40 минут.
Влияние на платформу (задержка, недоступность и т. д.): 5 часов 20 минут.

Контекст
Наш продукт блочного хранилища основан на программно определяемом хранилище Ceph, смешанном с нашими собственными API для управления всеми запросами продуктов.

Эти API выполняют две основные роли: управление нашей собственной инфраструктурой и повышение ее безопасности.

Мы выполняли критическое обновление безопасности нашего кластера блочного хранилища NL-AMS-1, чтобы укрепить его перед периодом «заморозки».

Эти обновления уже были выполнены на нескольких наших кластерах Ceph (а также на предварительном и рабочем) без какого-либо воздействия, что побудило нас выполнить это обновление в кластере NL-AMS-1. Это обновление оказалось корнем проблемы.

Хронология инцидента
Мы запланировали вмешательство в нашу платформу блочного хранилища в NL-AMS-1 в четверг, 7 декабря, в 15:00. Это вмешательство было предназначено для обновления нашей версии Ceph с использованием более свежих обновлений безопасности.

Мы начали с обновления первого сервера, который контролировали в течение 2 часов и не обнаружили ошибок. Затем мы начали обновлять все остальные серверы, на что у нас ушла целая ночь. Мы продолжали следить за ним рано утром, без каких-либо проблем.

В пятницу, 8 декабря, в 9:40 утра мы начали наблюдать увеличение нагрузки на кластер с незначительным влиянием на время отклика, с нашей точки зрения. Ситуация была стабильной, и, с нашей точки зрения, воздействие становилось меньше.

В 11 утра мы были предупреждены о высоких задержках в нашем блочном хранилище и немедленно создали серьезный инцидент. Публичный статус был создан в 11:36 из-за некоторой задержки внутренней связи.
С тех пор мы столкнулись с несколькими сбоями на наших серверах. У всех них заканчивалась память, хотя глобальная нагрузка на платформу была такой же, как и в последние несколько дней.

Наши специалисты выявили проблему в 11:45. В нашем кластере были установлены параметры настройки, отличные от настроек по умолчанию.

Применение исправлений требовало времени и требовало постепенного их применения на всех серверах.

В 13:40 блочное хранилище было восстановлено и работало стабильно. Произошло незначительное влияние на производительность из-за балансировки нагрузки из-за применения обновленных настроек.

После этого все наши команды (Instance, DB, K8S и т. д.) работали над тем, чтобы вернуть свои услуги.

Они также до конца дня продолжали следить за нашей инфраструктурой, выполняя действия, обеспечивающие ее правильное функционирование.

В течение всех выходных мы внимательно следили за нашей инфраструктурой блочного хранилища, чтобы убедиться в отсутствии дальнейших проблем.

Основная причина и решение проблемы
В ходе расследования мы быстро пришли к выводу, что проблема не связана с обновлением. Процедура уже применялась на нашем промежуточном кластере и других производствах АЗ без каких-либо побочных эффектов.

Мы обнаружили, что в нашем кластере Ceph была неверная конфигурация, которая не применялась ни в одной другой зоне доступности.

Команды, ответственные за эту операцию, также не знали об этих изменениях (это нужно сделать с помощью нашего инструмента автоматической настройки). Эта тема все еще находится в стадии изучения и приведет к многочисленным улучшениям наших процессов управления.

Кроме того, во время проблем с этим поколением блочного хранилища возникли некоторые проблемы, связанные с аппаратным обеспечением, которые замедлили время разрешения.

Наши новые предложения с низкой задержкой, основанные на оборудовании нового поколения, не пострадали во время этого инцидента и не показали простоев.

Заключение
Блочное хранилище является ключевым продуктом нашей экосистемы и должно быть устойчивым. Мы все работаем над повышением его отказоустойчивости и будем продолжать это делать (процессы автоматизации управления нашими платформами, поддержание нашей инфраструктуры в актуальном состоянии), а также наши процессы связи в случае инцидента. Этот инцидент поможет нам улучшить это.

Также обратите внимание, что у нас есть новые предложения (с низкой задержкой), разработанные с использованием нового оборудования и еще более высокой отказоустойчивости. В настоящее время они находятся в публичной бета-версии.

Эти предложения с низкой задержкой обеспечивают два уровня производительности (IOPS 5K и 15K) и улучшенное время отклика.

Они доступны через наш новый API/путешествие пользователя/инструменты разработки и уже совместимы с Instance, Kapsule (только в новых кластерах, с определенной версией CSI — ссылка на документ?) и DBaaS (предложения с оптимизированной стоимостью). Доступные AZ на данный момент ограничены, но в ближайшие месяцы появятся новые: FR-PAR-1, FR-PAR-2, NL-AMS-1, NL-AMS-3, PL-WAW-3.

Вы уже можете попробовать их и воспользоваться скидкой 50% во время публичного бета-тестирования (уже действует до 1 февраля).