Подробная информация об инциденте с балансировщиком нагрузки FR-PAR-1 07/04/2021



7 апреля в 16:35 по всемирному координированному времени компания Scaleway столкнулась с серьезным инцидентом в зоне доступности FR-PAR-1, который повлиял на наш продукт Load Balancer. Часть инфраструктуры балансировщика нагрузки была недоступна во время инцидента. В результате также пострадали продукты Database, Kubernetes Kapsule и IoT Hub, которые полагаются на Load Balancer как часть своей инфраструктуры.

Проблема была обнаружена и устранена к 17:18 по всемирному координированному времени специалистами по сетевым продуктам и пользователям и API.

Был запущен процесс Scaleway Incident, побудивший всех участников собраться вместе и скоординировать задачи, необходимые для восстановления затронутых служб, и обеспечить бесперебойную связь. Работая удаленно более года, мы собирались не в физической комнате, а в виртуальной, с несколькими каналами связи, которые оставались открытыми в течение ночи, чтобы обеспечить эффективный и доступный поток информации в эти критические моменты.

Сразу началось восстановление сервисов. Большинство сервисов Load Balancer были восстановлены к 20:34 по всемирному координированному времени, а несколько критических случаев заставили нашу команду по надежности сайта и инженеров по продуктам работать до 0:04 по всемирному координированному времени 8 апреля. Продолжительность основного отключения составила почти 4 часа, а общий инцидент длился 7 часов 29 минут.

Приносим извинения за неудобства, вызванные отключением, и благодарим вас за терпение в этот период недоступности. Ваши данные были в безопасности и всегда были защищены, и данные не были потеряны.

Это сообщение в блоге призвано объяснить подробности воздействия, основную причину инцидента, шаги, которые мы предприняли для его устранения, а также меры, принятые для предотвращения возникновения подобной проблемы в будущем.

Анализ воздействия
Инцидент затронул несколько продуктов Scaleway.

Что касается Load Balancer, только 1574 экземпляра Load Balancer, принадлежащих 775 организациям-клиентам, были отключены до того, как мы исправили проблему и начали процедуру восстановления. Эти балансировщики нагрузки и их серверы были недоступны во время инцидента. После инцидента все ресурсы Load Balancer были восстановлены до нормального состояния.

Для базы данных было задействовано до 50 балансировщиков нагрузки, и был потерян доступ к соответствующим базам данных (до 500). Во время инцидента данные были в полной безопасности, но недоступны. В период восстановления создание базы данных и обновление «Разрешенных IP-адресов» было невозможно. Резервные копии оставались доступными и экспортируемыми в любое время.

Kubernetes Kapsule затронул 229 кластеров, принадлежащих 207 организациям-клиентам. Kapsule использует балансировщики нагрузки как часть своей инфраструктуры между узлами кластера и плоскостью управления. Во время инцидента клиенты, отключившие функцию автоматического восстановления, не смогли связаться со своими плоскостями управления, но их экземпляры и службы, запущенные на узлах кластера, были по-прежнему доступны. Клиенты, использующие функцию автоматического восстановления, потеряли свои услуги, поскольку плоскость управления начала создавать новые узлы, но не могла связаться с ними из-за недоступности балансировщиков нагрузки.

Что касается Интернета вещей, это затронуло 33 клиента. Поскольку Центр Интернета вещей использует балансировщик нагрузки, базу данных и Kubernetes Kapsule, служба была недоступна во время инцидента. После инцидента все клиентские ресурсы Центра Интернета вещей были восстановлены в нормальном режиме.

Основная причина и решение проблемы
Инцидент был вызван ручным вызовом API-интерфейса Load Balancer Trust and Safety (T&S) с запросом на удаление ресурсов злонамеренного пользователя. Этот конкретный вызов не был частью обычного рабочего процесса; он состоял в созданном запросе, который должен был выдать ошибку. К сожалению, ошибка в API, представленная ранее реализацией функции «Проекты», вызвала обход проверок безопасности и спровоцировала лавинную недействительность экземпляров Load Balancer.

Хронологию инцидента можно найти здесь, на странице статуса Scaleway.

Звонок был сделан 7 апреля в 16:35 по всемирному координированному времени, а сигналы тревоги были включены в наш внутренний канал мониторинга в 16:45 по всемирному координированному времени.

Команда немедленно начала процедуру содержания и восстановления.
  • 7 апреля 2021 г., 16:53 по всемирному координированному времени. API балансировщика нагрузки был переведен в режим только для чтения, чтобы избежать дальнейших операций со стороны клиентов.
  • 7 апреля 2021 г., 17:20 по всемирному координированному времени. Конфигурации балансировщика нагрузки были восстановлены из нашей внутренней резервной копии базы данных, сделанной часом ранее. Данные не были потеряны, так как балансировщики нагрузки не имеют состояния.
  • 7 апреля 2021 г., 17:54 UTC. Запущен процесс восстановления экземпляра Load Balancer.
  • 7 апреля 2021 г., 20:10 по всемирному координированному времени 1400 экземпляров были успешно вылечены, 110 по-прежнему не работали и требовали ручного лечения.
  • 7 апреля 2021 г., 20:35 по всемирному координированному времени. Все экземпляры Load Balancer были успешно восстановлены. Некоторые критические дела еще предстояло расследовать.
  • 7 апреля 2021 г., 22:12 по всемирному координированному времени. Службы базы данных и IoT Hub вернулись в нормальное состояние. Некоторые крайние случаи с парой балансировщиков нагрузки и Kubernetes Kapsule все еще решались.
  • — Пользовательские сертификаты TLS были недоступны, и их приходилось восстанавливать из безопасного хранилища сертификатов.
  • — Обнаружение живучести серверной части не удалось из-за фильтрации IP-адресов на внутренних серверах и того факта, что IP-адреса балансировщика нагрузки изменились.
  • 8 апреля 2021 г., 00:04 UTC. Все экземпляры Load Balancer были восстановлены и исправлены. Все услуги вернулись в нормальное состояние.

Как мы предотвратим повторение этого
После анализа происшествия сразу были приняты следующие меры:
  • Ошибка Load Balancer T&S API была исправлена, и в тестовые наборы были немедленно добавлены дополнительные тесты.
  • Процедура тестирования T&S API была обновлена с дополнительными межгрупповыми проверками и обзорами.
  • Kubernetes Kapsule теперь проверяет состояние балансировщика нагрузки перед запуском автоматического восстановления.
И в ближайшее время будут реализованы:
  • Улучшение рекомендаций по реализации T&S API.
  • Улучшите тестовое покрытие Load Balancer T&S API и используйте инструменты анализа покрытия.
  • Развертывайте и разрабатывайте инструменты для улучшения и ускорения общей процедуры восстановления Load Balancer.
  • Продукт Database в рамках постоянного улучшения производительности в настоящее время модернизирует свою инфраструктуру Load Balancer, чтобы сделать ее менее подверженной сбоям.

Заключение
При написании этого сообщения в блоге мы хотели предоставить нашим пользователям подробное представление об инциденте и о том, как мы его обнаружили, сдержали и разрешили.

Проблема была вызвана ошибкой в наших API, которую мы быстро обнаружили и исправили. Помимо устранения самой проблемы, в процессе мы определили несколько направлений улучшения. Мы уже внедрили меры роботизации и продолжим их улучшать и расширять в ближайшем будущем.

Данные клиентов были в безопасности и всегда были защищены, и потери данных не происходили. Производительность и надежность наших продуктов имеют для нас первостепенное значение, и мы постоянно работаем над улучшением наших услуг.

Новый POP в Испании!



Команда разработчиков ClouDNS неустанно работает над обновлением наших услуг. Теперь мы представляем самые свежие новости от нас!

Наша 31-я точка присутствия уже доступна! Он находится в Испании, в Мадриде! POP находится в дата-центре Interxion Madrid. Он имеет прямое соединение с DE-CIX Madrid и DE-CIX Lisbon, а также с Telefonica и другими крупными интернет-провайдерами в стране. Учить больше!

Здесь вы можете найти список всех дата-центров ClouDNS Anycast и некоторую информацию о них!

www.cloudns.net/premium/

Миграция SBG-1 (61E / 62E) -> SBG-3



После завершения работы SBG-1 мы переводим некоторые серверы SBG-1 в центр обработки данных SBG-3.
Серверы SBG-1, расположенные в стойках 61E* и 62E*, будут перемещены в SBG-3 в стойках S350A* и S351A*.



Необходимо перенести 1066 серверов.

Обновление 15 апреля, 9:00:
  • Перенесено серверов: 253 (24%)

RU msk E2288G all cpu



  • [2021] E2288G [8vCore] (3.7 Ghz) / 16 ddr4 / 50 SSD — 3000р/мес
  • [2021] E2288G [8vCore] (3.7 Ghz) / 32 ddr4 / 100 SSD — 6000р/мес
  • [2021] E2288G [8vCore] (3.7 Ghz) / 48 ddr4 / 150 SSD — 9000р/мес
  • [2021] E2288G [8vCore] (3.7 Ghz) / 64 ddr4 / 200 SSD — 12000р/мес

Заказать можно через биллинг
asuka.onl
Панель VMmanager-6 KVM
хроника узлов vm.center/blog/create-node/ (может публиковать любой хостер кстати так же описание делать, правила, узел, IP, цена)

Так же постоянно пополняем новые узлы

Мониторинг инфраструктуры. Как быстро обнаружить сбой в работе сервиса


Здравствуйте!
В работе с нагруженной инфраструктурой есть риск вовремя не заметить сбой. Особенно, если количество данных и число пользователей постоянно растет.
Например, интернет‑магазин может потерять значительную часть прибыли из‑за сбоя в «черную пятницу». А недоступность сайта‑визитки может привести к потере посетителей, которые больше не вернутся.
Чтобы быстро реагировать на проблемы в работе своего или клиентского сервиса, нужны регулярные проверки и мгновенные уведомления. А для предотвращения подобных проблем в будущем — анализ собранных данных по всем проверкам.



Вы можете подключить разные типы проверок: PING, состояние TCP- и UDP‑портов, почтовых сервисов, баз данных и других служб.
Первые 3 метрики подключаются бесплатно, каждая дополнительная — всего за 30 ₽/мес.
В случае выполнения или невыполнения заданного условия вы получаете уведомления. А после каждой проверки формируется детализированный отчет.
Каждый понедельник вам на почту будет приходить отчет с подробной информацией о проверках, проведенных за последние 7 дней.

Апрельские скидки начались



Проведём этот месяц вместе с суперскидками! Закажи VPS сервер со скидкой -50% и регистрируй домены со скидкой до -30%

Апрельская распродажа от RX-NAME.UA и SERVER.UA начинается прямо сейчас и продолжается до 28.04.2021


VPS сервер со скидкой -50% по промокоду:
  • VPS-50APRIL
Не забудьте ввести промокод при оформлении заказа.
server.ua/ru/vps


Поротопитесь, вас так же ждут хорошие скидки на домены!
  • Домен в зоне .COM.UA
  • регистрируй всего за 195 грн
  • Домен в зоне .COM
  • регистрируй всего за 290 грн
  • Домен в зоне .UA
  • регистрируй всего за 970 грн
rx-name.ua/ru/domains

Запуск ВПС в Эстонии



Свершилось, господа и дамы. Запускаем VPS в Эстонии, свои мощности разместили в Infonet DC – единственном эстонском дата-центре класса Tier 3. Уровень отказоустойчивости составляет 99,982%, но самое главное – сервера не прекращают свою работу даже во время ремонта и профилактических работ. В общем, стабильность в потолок и никакого стресса, с холодной уверенностью шагаем в будущее.

Но давайте немного пройдемся по фактам. Для начала, здесь предусмотрены резервные мощности питания и прецизионная система охлаждения с технологией Free Cooling и аккумуляторами холода, что обеспечивает эффективное и стабильное охлаждение всей системы. Температура в серверных помещениях поддерживается согласно рекомендациям ASHRAE 2011 класса A1.

Дата-центр Infonet DC спроектирован с учетом высочайших требований к IT-безопасности данных клиентов, и все это обслуживается матерыми инженерами и системными администраторами, способными в кратчайшие сроки устранить любую неполадку.

Аренда VPS в Эстонии может подойти именно вам по ряду причин:
  • Удобное географическое расположение и отличная связность с соседними странами: Латвией, Россией, Финляндией, Швецией, Беларусью, Польшей, Германией, Украиной и рядом других государств Восточной и Центральной Европы. Если ваш бизнес ориентирован на восточно-европейский рынок, более надежный ЦОД для размещения виртуального сервера за те же деньги подыскать будет сложно.
  • Высочайший уровень эксплуатационной надежности и IT-безопасности.
  • Минимизация расходов на аренду благодаря низким тарифам на электроэнергию в Эстонии.
  • Гарантия конфиденциальности личных и корпоративных данных.
Компания HostZealot приглашает к сотрудничеству всех заинтересованных. Со своей стороны мы предлагаем гибкие тарифы с возможностью масштабирования мощностей, всестороннюю техподдержку и скидки для клиентов, арендующих VPS в Эстонии на длительный срок.

Специалисты нашей технической службы поддержки 24/7 готовы решить возникшую проблему
Будут вопросы – не стесняйтесь. Всё расскажем, покажем и поможем подобрать оптимальный тариф для ваших задач. До связи!

hostzealot.ru

У нас есть VDS/VPS с большими SSD-дискам



У нас есть VDS/VPS с большими SSD-дисками для больших проектов, которые хотят захватить мир ????

Доступные тарифы: VDS/VPS «MEDIUM» и VDS/VPS «GRAND», где есть возможность выбора процессора, оперативной памяти и размера диска.

Выбрать, посмотреть, поклацать и заказать можно тут: zomro.com/big_vds.html

Ничто не подходит для EPYC: новые выделенные серверы vCPU с процессорами AMD



НОВЫЕ ВЫДЕЛЕННЫЕ СЕРВЕРЫ vCPU С ПРОЦЕССОРОМ AMD EPYC СЕРИИ 7003
Недавно мы представили шесть новых моделей выделенных облачных серверов vCPU, которые оснащены новейшими процессорами AMD EPYC. Процессоры AMD EPYC серии 7003 обеспечивают невероятную производительность и продолжают поднимать планку для современных центров обработки данных.

В ответ на потребности наших клиентов в высокой вычислительной мощности мы обновили и расширили ассортимент выделенных моделей виртуальных ЦП процессорами AMD EPYC серии 7003.

С этими новыми моделями мы можем удовлетворить растущие потребности наших клиентов. Новый мощный CCX62 включает 48 виртуальных ЦП.

На начальном уровне это новый CCX12 с двумя выделенными виртуальными ЦП по доступной цене всего 19,90 евро в месяц.
www.hetzner.com/cloud/amd-epyc

ПОДДЕРЖКА ENCRYPT ДЛЯ БАЛАНСИРОВАТЕЛЕЙ НАГРУЗКИ
Больше удобства, меньше потраченного времени — это то, что дает вам автоматическое создание сертификатов Let's Encrypt и управление ими. Вы можете настроить их прямо в Cloud Console, чтобы защитить свои данные.
Ручное администрирование и просроченные SSL-сертификаты больше не проблема, если вы используете наши балансировщики нагрузки. Система постоянно обновляет и повторно активирует сертификаты, как только вы назначаете их ресурсу.

НОВОЕ ИЗОБРАЖЕНИЕ: ДЕБИАН 10.9
Примечания к выпуску Debian 10.9
Недавно мы сделали еще один образ доступным для установки на ваш выделенный корневой сервер или облачный сервер: Debian 10.9.
Debian 10.9 в основном состоит из исправлений безопасности и исправлений нескольких серьезных проблем.
Прочтите примечания к выпуску, чтобы узнать больше.
www.debian.org/News/2021/20210327.en.html

ОБЩАЯ ВНЕШНЯЯ ПОЛОСА УВЕЛИЧЕНА ДО 13,14 ТБ/с
Мы постоянно увеличиваем для вас общую внешнюю пропускную способность.
Следующие апстримы увеличились или начали работать:
Транзит:
  • Люмен 400 ГБит / с (FSN)
  • 300 Гбит / с Telia (FRA)
Точки пиринга:
  • 400 Гбит / с AMS-IX (AMS)
  • 200 Гбит / с LINX (LON)
  • 200 Гбит / с ECIX (FRA)

Частные пиринги:
  • 200 Гбит / с Vodafone (FRA)
  • 100 ГБит / с Dataline (FRA)
  • 100 Гбит / с Clouvider (FRA)
  • 100 Гбит / с Reliance Jio Infocomm Ltd (FRA)
  • 100 ГБит / с Stackpath (AMS)
  • 20 ГБит / с GlobalCloudXchange (FRA)
  • 10 Гбит / с Acorus / Volterra (FRA)
  • 10 Гбит / с АО «Молдтелеком» (FRA)
www.hetzner.com/unternehmen/rechenzentrum/

НОВОЕ РУКОВОДСТВО: УСТАНОВКА ROCKET.CHAT
Вам нужен чат-сервер для вашего растущего бизнеса, школы или другой крупной организации? Тогда Rocket.Chat может быть для вас. Rocket.Chat — это бесплатное решение с открытым исходным кодом с большим сообществом пользователей, популярное среди разработчиков. Вы можете создавать частные и общедоступные чаты, обмениваться файлами и совершать видеозвонки с помощью интеграции Jitsi.Meet.
Это руководство проведет вас через шаги по установке и настройке Rocket.Chat в Ubuntu 20.04, включая быструю настройку SSL-сертификата Let's Encrypt.
community.hetzner.com/tutorials/how-to-install-rocketchat-on-ubuntu-20-04
­ ­ ­
­
­
­

Продуктовый дайджест: готовые серверы на Mac mini и грант от Selectel


Серверы c Mac mini на базе M1
Готовый сервер для разработки приложений под MacOS или iOS в наших дата‑центрах.
— 16 ГБ RAM
— SSD‑диск на 256 ГБ
— 6 990 руб./мес.
selectel.ru/services/dedicated/config/


Универсальный балансировщик нагрузки
Новый универсальный балансировщик нагрузки
Готовое решение для распределения трафика между серверами и построения отказоустойчивой инфраструктуры.
Читать про универсальный балансировщик
Тестировать месяц бесплатно


Intel Xeon Scalable 3‑го поколения
Новейшие процессоры Intel Xeon Scalable 3‑го поколения
Станьте первыми в России, кто оценит производительность новых CPU. Подготовим сервер в течение 1‑5 рабочих дней.
promo.selectel.ru/3rd-gen-intel-xeon-scalable


Гибкая настройка кластеров Managed Kubernetes
  • контролируйте запросы к Kubernetes API
  • настройте компоненты кластеров с помощью Feature Gates
Делаем кластеры Managed Kubernetes более гибкими для управления. Добавили две новые возможности для пользователей: Admission controllers (контроллеры доступа) и Feature gates (дополнения).

Контроллеры доступа позволяют контролировать запросы к Kubernetes API. Для их активации необходимо указать названия необходимых контроллеров при создании или обновлении кластера. Подробнее о подключении Admission controllers — в базе знаний.

Реализовали возможность настраивать компоненты кластеров через API с помощью функционала Feature gates. Мы поддерживаем все функции, описанные в официальной документации Kubernetes. Работа с дополнениями для Managed Kubernetes подробно описана в базе знаний.

Как помогает Managed Kubernetes нашим клиентам, написали в новой истории успеха сервиса видеоинтервью VCV. selectel.ru/success-story/vcv/

Медиаплатформа для видеотрансляций без задержек
Благодаря CDN‑серверам Selectel неважно, в какой части света находится зритель, на каком устройстве он смотрит трансляцию и в каком качестве.
selectel.ru/services/additional/cdn/streaming

Software development kit для «Облачных функций»
Как взаимодействовать с API функций, если вы хотите интегрировать их в свое приложение.
github.com/selectel/serverless-nodejs

Новый производительный кластер в «Облаке на базе VMware»
Добавили в московский регион «Облака на базе VMware» новый тип кластера Platinum, основанный на базе процессоров Intel Xeon Gold 6254 с базовой частотой 3.1 ГГц. Кластер обладает самым быстрым хранилищем из представленных комплектаций (до 40 000 IOPS на виртуальный диск) и подходит для приложений, требовательных к частоте процессора и скорости дисковой подсистемы. Больше нет поводов раздумывать, подойдет ли «Облако на базе VMware» для вашей 1С.

Добавили TimescaleDB в список поддерживаемых баз данных.
Добавили в стек наших баз данных TimescaleDB. Накопили опыт работы с экосистемой PostgreSQL и предлагаем вам решение для хранения и управления time series-данными — данными, которые изменяются во времени. Статистика обращения к серверу или нагрузки на процессор, котировки валют, показатели IoT-устройств и так далее — все это данные, которые требуют специфических темпоральных БД. «Облачные базы данных» для TimescaleDB исключат необходимость внедрять сторонние решения и избавят от недостатков темпоральных хранилищ. Доступно для заказа в панели управления.




Fortinet FG‑500E для высоконагруженных сетей
Маст‑хэв для тех, кто использует 10‑гигабитные Ethernet‑каналы.
selectel.ru/services/additional/firewall/

Выписка из модели угроз безопасности для клиентов А‑ЦОД
Соответствуйте требованиям ФСТЭК вместе с нами.
В феврале ФСТЭК утвердил «Методику оценки угроз безопасности информации» — суть документа мы описали в карточках. Согласно ему, всем, кто хранит персональные данные в дата-центре, важно, чтобы провайдер предоставил результаты оценки угроз для своей инфраструктуры. Мы с готовностью предоставим вам необходимую выписку из модели угроз безопасности в течение нескольких рабочих дней — просто оставьте заявку в тикете. Документ особо актуален для клиентов Аттестованного ЦОД.
Если хотите больше узнать о том, как выполнять требования 152-ФЗ в облаке, присоединяйтесь к вебинару.


Selectel Start
500 000 рублей, 30 дней на разворачивание инфраструктуры в Selectel и тестирование продуктов.
  • Выделенные серверы
  • «Облако на базе VMware»
  • «Облачная платформа Selectel»


Присоединяйтесь к трансляции
15 апреля, 16:00. Выполнение требований 152‑ФЗ в облаке: преимущества, особенности, мифы.
promo.selectel.ru/webinar/152fz/150421

Вебинары, которые вы могли пропустить
10 причин выбрать VDI. Рассказали, как виртуальные рабочие столы помогают в организации удаленки.
www.youtube.com/watch?v=dVsDtg9ETeI

Selectel Dev Talks. Наши разработчики поделились нестандартными кейсами в разработке.
www.youtube.com/watch?v=yIkty7EaU6k