Недоступность сервисов Яндекс.Облака 17 июня 2019 года



17 июня с 7:35 до 12:05 пользователи Яндекс.Облака испытывали сложности с доступом к сервисам Яндекс.Облака через консоль и API. Хотим рассказать подробнее о случившемся.

Что произошло?
В 7:35 в рамках регулярных работ по диагностике сети был перезагружен коммутатор в одной из стоек зоны доступности ru-central1-a. В 7:43 наши дежурные зафиксировали на внутренних мониторингах отсутствие доступа к сервисам через консоль или API. При этом data plane сервиса виртуальных машин Yandex Compute Cloud, сервисов управляемых баз данных и остальных сервисов работал в штатном режиме.

Дежурные инженеры определили, что причина недоступности в одном из вспомогательных компонентов внутри системы хранения метаданных Яндекс.Облака. Ошибка была локализована в 10:18, и в 11:37 сборка с исправленной ошибкой была выкачена.

В 12:05 все сервисы Яндекс.Облака вернулись в рабочее состояние.

Причины
Сервисы Яндекс.Облака хранят метаданные в высокодоступном сервисе с кодовым названием Yandex Database (YDB), который состоит из полностью независимых баз данных (по одной на каждый сервис), каждая из которых распределена между тремя зонами доступности и переживает выход любой из них из строя без потерь. Единственный компонент внутри YDB, общий для всех баз данных, — это база для хранения метаданных самой YDB и компиляции запросов к другим базам.

Несмотря на то, что этот компонент способен выдерживать большую нагрузку, в обычном режиме он обслуживает небольшое количество запросов, так как схемы баз данных сервисов меняются нечасто. В тестовых целях на базу метаданных длительное время создавалась дополнительная нагрузка в виде создания и удаления объектов схем, не приводившая к каким-либо проблемам.

При вышеупомянутых диагностических работах с сетью база метаданных кратковременно потеряла связность. Из-за программной ошибки, которая была обнаружена еще до этого, но не была еще устранена на продуктовом кластере Облака, база выслала все накопленные за время своей работы (uptime) команды на удаление объектов. Из-за существенного uptime очередь команд на удаление выросла до значительных размеров, и при фиксации на диске полученных ответов об удаленных объектах было превышено допустимое ограничение по памяти, что привело в свою очередь к рестарту базы метаданных.

База метаданных спроектирована таким образом, что после сбоя штатным образом поднимается заново на любой доступной ноде и восстанавливает свое состояние с дисков из лога изменений. Обычно рестарт базы занимает незначительное время (<1c), а time-to-live (TTL) пре-компилированных запросов был установлен в несколько минут. Но из-за программной ошибки, которая бы не проявилась без вышеописанного стечения обстоятельств, база не смогла корректно восстановить свое состояние в сроки установленного TTL.

Меры для предотвращения повторения подобной ситуации в будущем:
  • Как мы уже упомянули, программная ошибка в базе метаданных была исправлена во время устранения инцидента.
  • Мы уже увеличили TTL пре-компилированных запросов до 6 часов во всех сервисах Яндекс.Облака.
  • Мы увеличиваем долговременную тестовую нагрузку на базу метаданных. В pre-production кластерах Яндекс.Облака база метаданных будет работать с принудительными сбоями.
  • Мы реализуем шардирование базы метаданных между другими базами данных.
Мы приносим свои извинения всем пользователям, кого затронул данный инцидент. Компенсации пользователям будут начислены не позднее 28 июня 2019 года согласно соглашению об уровнях обслуживания соответствующих сервисов Яндекс.Облака при обращении в поддержку.

DNS Management gets a facelift



Коксовые бутылки сложены на полу, запах мускусный сгущается воздух, маленький свет, который входит в нашу комнату, кажется, отступать от отвращения. Мы были скрываясь в тени в течение двух месяцев, но уборщики были призваны и мы, наконец, выпустили наше самое захватывающее обновление в течение года… наш новый интерфейс управления DNS!
Хорошо, это может быть не так интересно для всех, но нашей помощи свежа и наша гордость чиста. Мы считаем, что мы построили что-то особенное!

Давайте посмотрим правде в глаза, в то время как наш Free DNS является лучшим, что было трудно смотреть на него. С редизайн нашего интерфейса управления DNS, мы решили добавить некоторые новые функции, чтобы сделать управление DNS простым:
  • Способность планировать изменения, как ределегирование и зоны записи изменений. Если у Вас есть высокое изменение воздействия, чтобы сделать, вы можете запланировать его на рекордно низком уровне воздействия без необходимости установки будильника!
  • Ваша зона и делегирование история теперь будет видна вам, с временными метками. Так что если вы сделаете ошибку, то легко откатить.
  • Мы собрали все под одной странице.
  • Вы можете добавлять или редактировать записи, используя выпадающий, не более прокрутки страницы вниз!
  • Это выглядит намного лучше!

Мы надеемся, что вам понравится :) Отправить нам чириканье @InternetBs если вы делаете.
Мы приветствуем ваши отзывы о последнем запуске или каких-либо предложений, которые могут помочь упростить для вас.
internetbs.net/en/domain-name-registrations/login.html

Предпосылки и результаты замены коммутатора на 7 кластере



В мае мы успешно произвели работы по замене коммутатора на 7 кластере. Многие из вас проявили интерес к опубликованным фотографиям и описанию проводимых работ, поэтому мы решили подробнее рассказать о предпосылках, а также результатах, которые были достигнуты благодаря их реализации.

Всё началось с того, что мы обратили внимание на ряд факторов, которые указывали на необходимость оптимизацию программного коммутатора и замену аппаратного. Среди них можно выделить следующие обстоятельства:
  • Было выявлено появление жалоб на «квакание» от клиентов, которые использовали «Teamspeak», «Asterisk» и другие приложения, в основе которых лежит передача голосового трафика. Наличие данной проблемы свидетельствовало о потере полезных пакетов на сети. Появление эффекта можно объяснить тем, что IP-телефония для передачи данных использует протокол UDP. В данном протоколе отсутствует сценарий, по которому происходит повтор передачи потерянного пакета заново, в следствии этого, голосовое сообщение доходит до получателя в искажённом виде.
  • Было зафиксировано, что обращения, которые касались работы VDS и не были связаны с потерей пакетов трафика, по статистике протокола TCP, выделялись высокими значениями счётчика Retransmit. Его показатели свидетельствуют о необходимости передачи потерянных пакетов.
  • В показателях статистики compute-нод были зафиксированы высокие показатели счётчиков rxfifo_error, которые также свидетельствуют о дропах пакетов по различным причинам.
  • Большие показатели счётчиков discard.

В рамках оптимизации стека было осуществлено вертикальное расширение. В ходе его реализации мы произвели следующие улучшения:
  • Осуществили переход на jumbo-frame, что увеличило показатель MTU до 9000. Это позволило увеличить миграцию и процесс создания новых VDS, а также утилизировать полную пропускную способность интерфейса.
  • Провели оптимизацию программного коммутатора на compute-нодах (bridge).
  • Провели оптимизацию настроек сетевых карт compute-нод. Начало работы над оптимизацией сетевого стека указало на необходимость замены коммутатора.

Расскажем, почему же понадобилась его замена:
  • Каждый коммутатор обладает буфером передачи данных, который почти всегда используется при переходе между интерфейсами с разными скоростями. Замена позволит увеличить буфер передачи до 1 Gb.
  • Новый, более мощный коммутатор необходим для возможности горизонтального расширения сетевого кластера. Нами был выбран коммутатор HР 5830.
  • Миграции, DDoS атаки, осуществляемые мелкими пакетами, а также повышенное потребление трафика может приводить к исчерпанию лимита буфера передачи данных, что влечёт замедление передачи данных на всех нодах. В качестве основного сигнала можно выделить появление множества уведомлений, свидетельствующих о наличии проблемы с исчерпанием лимита.

После успешного проведения оптимизации сетевого стека нами были проведены работы по замене коммутатора на 7 кластере. В ходе их реализации было сделано следующее:
  • Извлечение коммутатора IPMI;
  • Перенос основного коммутатора;
  • Установка нового коммутатора;
  • Переключение внешних портов на новый коммутатор;
  • Организация двух воздуховодов для нового коммутатора;
  • Упорядоченное переключение серверов;
  • Осуществление процедур по наведению порядка и проверке корректности работы коммутатора. Замена коммутатора позволила увеличить скорость передачи данных на всех нодах.

Пакет услуг для запуска сайта «Бизнес-Старт» за 159 рублей!



Пакет «Бизнес-Старт» — готовое решение для запуска бизнеса в Сети. Мы собрали в одном пакете всё, что нужно для старта современного онлайн-проекта:
  • Домен .ru — флагманский домен Рунета и один из самых узнаваемых среди всех национальных доменов мира.
  • Виртуальный хостинг — хостинг по тарифу «200» с простой панелью управления, поддержкой всех популярных CMS-систем, почтой и антивирусом.
  • SSL-сертификат Symantec Starter — базовый сертификат, активирующий https-соединение для безопасной передачи данных и улучшения позиций сайта в поисковой выдаче.
Протестируйте свою бизнес-идею и сэкономьте на старте — до 10 июля пакет услуг «Бизнес-Старт» всего за 159 руб. по промокоду STARTGIFT20.
www.nic.ru/solution/25-ru

Домен .amazon снова заморожен

Месяц назад мы сообщали о волевом решении ICANN разрешить регистрацию домена .amazon, после того как Амазонский пакт в очередной раз сорвал переговоры. Казалось, это решение было окончательным.

Но, похоже, политические игры вокруг многострадального домена не закончатся ещё долго. Вчера правительство Колумбии направило в ICANN официальный запрос о пересмотре решения в срочном порядке. Поводом для этого послужило то, что ICANN и Amazon не рассмотрели предложения представителя Колумбии в GAC (Комиссии представителей государств при ICANN).

Среди прочего в них предлагалось странам Амазонского региона и Амазонскому пакту дать право на частичное управление доменной зоной .amazon в предназначенных для них доменах второго уровня. То есть страны получат в своё распоряжение зоны co.amazon, br.amazon и т.д. Правительство Колумбии сослалось на пример зоны .SAS, где две компании, владеющие идентичным товарным знаком SAS, договорились распределить между собой управление доменной зоной.

В результате статус зоны .amazon снова был изменен на «в ожидании» (on hold), и, возможно, надолго. Ведь даже рассмотрение срочных запросов, согласно правилам ICANN, организация может вести до 90 дней, т.е. до октября этого года.

www.webnames.ru

Summer Deals 2019 starts today


Мы рады сообщить наше лето продажи: Летние предложения доступны с сегодняшнего дня! 7 различных конфигураций серверов доступны от € 15,99 в месяц и до -60% на срок до 6 месяцев. Обратите внимание, что количество ограничено, поэтому первым пришел, первым обслужен!
www.online.net/en/dedicated-server


Попробуйте Scaleway бесплатно
Начиная с июля 1 — го, Scaleway новички получат € 500 кредит на знак до тестирования наших услуг. Этот кредит не действует на все виды продукции до августа 1 — го, 00:00 UTC. Не стесняйтесь, чтобы пригласить друзей, чтобы попробовать наши продукты!
console.scaleway.com/

ScaleDay: Спасибо Вам все

Мы были рады видеть, что многие из присутствующих на нашем первом Scaleday издании, и мы хотим поблагодарить Вас за участие. Мы надеемся, что различные меры вмешательства, лейтмотивы, конференция, семинары и многими другими, превысили ваши ожидания, и мы сдержали обещание «Время, чтобы изменить коды».
Мы были очень рады, чтобы иметь возможность отпраздновать 20-летие Интернет, демонстрируя 20 лет работы, сотрудничества, достижений и преобразований. Мы в настоящее время создает лучшие моменты веб-страницу, собирая ScaleDay, а также предварительный просмотр предстоящих событий. Мы свяжемся с Вами, как только это и работает.

Читать дальше →

Насколько сложно сорвать службу в настоящее время?


Насколько сложно сорвать службу в настоящее время?
Сегодня мы часто говорим о ОАС и избыточности. И повышение роли облаков в общей инфраструктуре Интернета в. Кто-то говорит, что они будут играть решающую роль в доле трафика в ближайшем будущем. Тем не менее, есть и другие огромные интернет-провайдеров — Tier-1, он же крупнейшие операторы транзита, которые имеют транснациональные кабели и действительно являются частью исторической магистрали Интернета. Они часто играют роль последней инстанции в процессе фильтрации плохих маршрутов. Потому что у них есть сотни клиентов. Кроме того, почти все из этих клиентов верят в то, что они получили от интернет-провайдеров провайдера. Это главная причина, почему современные интернет-проекты полагаются на Tier-1s как флаг носителей и надеемся, что они будут применять новый механизм безопасности среди всех остальных.
Всегда ли это реальный сценарий?
radar.qrator.net/blog/how-difficult-is-to-disrupt-a-service-nowadays

Один месяц — в подарок



Приведите друга и мы подарим Вам бесплатный месяц виртуального хостинга по Вашему тарифному плану!

Для участия в акции, посоветуйте наш хостинг своим друзьям, коллегам. После того, как Ваш знакомый произведет регистрацию и оплату услуг — напишите нам в отдел по работе с клиентами и сообщите его логин.
zomro.com

Новые, мощные серверы Intel Xeon E-2146G 6x3.50 GHz теперь и в Москве!



Друзья, мы рады анонсировать, что новые, мощные серверы на базе новейшего процессора Intel Xeon E-2146G 6x3.50 GHz (до 4.50 GHz Turbo Boost)
теперь доступны и на нашей площадке в Москве. Эти серверы стали настоящим бестселлером в Нидерландах и это неудивительно.

Помимо невероятной производительности процессора и поддержки до 128GB DDR4 памяти у вас есть возможность использовать доступные по цене и невероятные по скорости NVMe диски объемом до 16TB, до 4-х SSD дисков либо 2x HDD общим объемем до 24TB.

Что касается стоимости, то мы сделали ее точно такой же, как и в Нидерландах — 120$ в месяц, либо всего 100$/мес при оплате на срок от 3-х месяцев.

Традиционно, не оставляем вас без дополнительных бонусов. Так, первые 10 клиентов могут получить дополнительную скидку 30$ на первый платеж, используя промо код RU6PROMO.

Помимо новейшего оборудования, надежных датацентров и первоклассного обслуживания мы также предлагаем вам свой опыт, накопленный за 13 лет.
Вы всегда можете рассчитывать на наши консультации и помощь в проектировании сложных отказоустойчивых архитектур, производительных кластеров, оптимизации расходов на инфраструктуру.

Inferno Solutions. Все лучше!
http://inferno.name