Backblaze Hard Drive Stats for 2018



Мы опубликовали наш первый отчет «Статистика жесткого диска» чуть более 5 лет назад, 21 января 2014 года. Мы назвали этот отчет «Какой жесткий диск мне следует купить». Оглядываясь назад, это могло бы показаться немного чрезмерным, но мы были публиковать данные, которых в принципе не было.

Многим людям нравятся наши отчеты, некоторым нет, а некоторым — нет, и это нормально. С самого начала идея состояла в том, чтобы поделиться нашим опытом и использовать наши данные, чтобы пролить свет на непрозрачный мир жестких дисков. Мы надеемся, что вам понравилось читать наши отчеты, и мы с нетерпением ждем публикации их, пока люди находят их полезными.
Спасибо.

По состоянию на 31 декабря 2018 года у нас было 106 919 вращающихся жестких дисков. Из этого числа было 1 965 загрузочных дисков и 104 954 дисков с данными. В этом обзоре рассматривается частота отказов жесткого диска для моделей дисков данных, работающих в наших центрах обработки данных. Кроме того, мы рассмотрим новые модели жестких дисков, которые мы добавили в 2018 году, в том числе наши жесткие диски Toshiba емкостью 12 ТБ и 14 ТБ. По пути мы поделимся наблюдениями и знаниями по представленным данным, и мы с нетерпением ждем, чтобы вы сделали то же самое в комментариях.

Показатели отказов жестких дисков 2018 года: что говорят нам более 100 000 жестких дисков
В конце 2018 года компания Backblaze провела мониторинг 104 954 жестких дисков, используемых для хранения данных. Для нашей оценки мы исключаем из рассмотрения те диски, которые использовались в целях тестирования, и модели, для которых у нас не было как минимум 45 дисков (см. Почему ниже). Это оставляет нам с 104 778 жестких дисков. В таблице ниже показано, что произошло только в 2018 году.


Примечания и наблюдения
Если в модели накопителя частота отказов составляет 0%, это означает, что в течение 2018 г. не было отказов накопителей этой модели.

В 2018 году заявленный годовой процент отказов (AFR) обычно довольно солидный. Исключение составляют случаи, когда в данной модели накопителей имеется небольшое количество накопителей (менее 500) и / или небольшое количество дней накопителей (менее 50 000). В этих случаях APR может быть слишком шатким, чтобы его можно было надежно использовать для принятия решений о покупке или выходе на пенсию.

Было 176 дисков (104 954 минус 104 778), которые не были включены в список выше. Эти диски либо использовались для тестирования, либо у нас не было как минимум 45 дисков данной модели. Мы используем 45 накопителей той же модели, что и минимальное количество, при составлении квартальной, годовой и пожизненной статистики накопителей. Это историческое число, основанное на количестве дисков, необходимых для заполнения одного модуля хранения Backblaze (версия 5 или более ранняя).

Годовая частота отказов (AFR) для 2018 года для всех моделей приводов составила всего 1,25%, что значительно ниже показателей предыдущих лет, о чем мы поговорим позже в этом обзоре.

Что нового в 2018 году
В 2018 году основной тенденцией стала миграция жестких дисков: замена дисков с меньшей плотностью 2, 3 и 4 ТБ на 8, 10, 12 и в Q4, 14 ТБ. В 2018 году мы перенесли 13 720 жестких дисков и добавили еще 13 389 жестких дисков, увеличив общий объем хранилища с примерно 500 петабайт до более 750 петабайт. Таким образом, в 2018 году специалисты нашего центра обработки данных мигрировали или добавляли 75 дисков в день в среднем каждый день в году.

Вот краткий обзор того, что нового в 2018 году.
  • Приводов Western Digital емкостью 4 ТБ не более; последний из них был заменен в 4 квартале. Это оставляет нам только 383 накопителя Western Digital — все диски емкостью 6 ТБ. Это 0,37% нашего парка автомобилей. У нас есть много накопителей от HGST (принадлежащих WDC), но за эти годы мы так и не смогли получить необходимое количество накопителей Western Digital по разумной цене.
  • Говоря о дисках HGST, в четвертом квартале мы добавили 1200 дисков HGST объемом 12 ТБ (модель: HUH721212ALN604). Ранее мы тестировали эти диски в Q3 без сбоев, поэтому мы заполнили хранилище Backblaze 1200 дисками. Примерно через месяц у нас был только один сбой, так что они начали хорошо.
  • У накопителей HGST есть свои пути, так как в четвертом квартале мы также добавили 6 045 накопителей Seagate 12 ТБ (модель: ST12000NM0007), чтобы довести нас до 31 146 накопителей этой модели. Это 29,7% нашего парка автомобилей.
  • Наконец, в четвертом квартале мы добавили 1200 дисков Toshiba объемом 14 ТБ (модель: MG07ACA14TA). Это заполненные гелием приводы PMR (перпендикулярная магнитная запись). Начальная годовая частота отказов (AFR) составляет чуть более 3%, что аналогично другим новым моделям, и мы ожидаем, что AFR будет со временем падать по мере установки накопителей.

Сравнение частоты отказов жесткого диска с течением времени
Когда мы сравним статистику по жестким дискам за 2018 год с предыдущими годами, мы увидим две вещи. Во-первых, переход на более крупные диски, а во-вторых, улучшение общей годовой частоты отказов каждый год. В приведенной ниже таблице сравнивается каждый из последних трех лет. Данные за каждый год включают только этот год.

Примечания и наблюдения
  • В 2016 году средний объем используемых жестких дисков составил 4,5 ТБ. К 2018 году средний размер вырос до 7,7 ТБ.
  • Годовая частота отказов в 1,28% в 2018 году была самой низкой из всех зарегистрированных за год.
  • Ни один из 45 дисков Toshiba объемом 5 ТБ (модель MD04ABA500V) не вышел из строя со второго квартала 2016 года. Несмотря на то, что количество накопителей небольшое, это все еще довольно хороший пробег.
  • Диски Seagate 10 ТБ (модель: ST10000NM0086) продолжают впечатлять, поскольку их AFR на 2018 год составлял всего 0,33%. Это основано на 1220 дисках и почти 500 000 гоночных дней, что делает AFR довольно солидным.

Статистика срока службы жесткого диска
Хотя сравнение годовых показателей отказов жестких дисков в течение нескольких лет является отличным способом определения тенденций, мы также смотрим на показатели годичных отказов наших жестких дисков в течение всего срока службы. На приведенной ниже диаграмме представлены показатели годовой частоты отказов всех накопителей, которые в настоящее время находятся в производстве.


Жесткий диск Статистика вебинар
Мы представим вебинар « Backblaze Hard Drive Stats для 2018 года » в четверг, 24 января 2019 года, в 10:00 по тихоокеанскому времени. На вебинаре будут более подробно рассмотрены ежеквартальные, годовые и пожизненные характеристики накопителей на жестких дисках, а также годовая и пожизненная статистика по размеру накопителя и производителю. Для просмотра вебинара вам необходимо подписаться на канал Backblaze BrightTALK. Зарегистрируйтесь сегодня www.brighttalk.com/webcast/14807/346376

Статистика по жесткому диску
Полный набор данных, использованный для создания информации, использованной в этом обзоре, доступен на нашей странице с данными испытаний жесткого диска. Вы можете скачать и использовать эти данные бесплатно в своих целях. Все, что мы просим, ​​- это три вещи: 1) вы цитируете Backblaze в качестве источника, если вы используете данные, 2) вы соглашаетесь с тем, что несете полную ответственность за то, как вы используете данные, и 3) вы не продаете эти данные кому-либо; это свободно.

Если вы просто хотите, чтобы сводные данные использовались для создания таблиц и диаграмм в этом сообщении в блоге, вы можете загрузить ZIP-файл, содержащий CSV-файл.

DNS flag day



В связи с тем, что 1 февраля пройдёт событие под названием «DNS flag day», которое связано с началом постепенного перехода некоторых DNS-сервисов и производителей DNS-серверов на протокол EDNS, некоторые пользователи выражают неподдельный интерес к этой теме.

Команда Айхор Хостинг в курсе предстоящего события. Мы уже запланировали обновление ПО для решения возникшей ситуации. Обновление не затронет работу клиентских сервисов.

https://www.ihor.ru/

Самые быстрые KVM VDS в Москве и Европе

Здравствуйте.



Предоставляем самые быстрые KVM VDS в Москве и Европе hostiman.ru/ssd-vps-vds
RuVDS1: 3800 MHz / 1 Gb DDR4 / 20 Gb NVMe SSD — 350 руб/мес
RuVDS2: 2x3800 MHz / 3 Gb DDR4 / 40 Gb NVMe SSD — 750 руб/мес
RuVDS3: 3x3800 MHz / 5 Gb DDR4 / 60 Gb NVMe SSD — 1200 руб/мес
RuVDS4: 4x3800 MHz / 7 Gb DDR4 / 80 Gb NVMe SSD — 1600 руб/мес

Провели несколько тестов на RuVDS1 при помощи утилит fio и dd.
Random read/write:
read: io=3071.7MB, bw=343233KB/s, iops=85808, runt= 9164msec
write: io=1024.4MB, bw=114460KB/s, iops=28615, runt= 9164msec
Random read:
read: io=4096.0MB, bw=700218KB/s, iops=175054, runt= 5990msec
Random write:
write: io=4096.0MB, bw=299700KB/s, iops=74925, runt= 13995msec

hdparm
~# hdparm -Tt /dev/vda

/dev/vda:
Timing cached reads: 33096 MB in 1.99 seconds = 16615.28 MB/sec
Timing buffered disk reads: 4236 MB in 3.00 seconds = 1411.76 MB/sec

~# dd if=/dev/zero of=test bs=64k count=128k conv=fdatasync
131072+0 records in
131072+0 records out
8589934592 bytes (8.6 GB, 8.0 GiB) copied, 8.23027 s, 1.0 GB/s

А какие результаты у вашего старого VDS?
1 место по результатам TestVPS.ru — Выбирайте лучших!

Объединение проектов в разных дата-центрах



В этой статье мы рассмотрим, почему традиционный подход к объединению локальных сетей на уровне L2 неэффективен при существенном росте количества оборудования, а также расскажем, какие проблемы нам удалось решить в процессе объединения проектов, расположенных на разных площадках.

Обычная L2 схема
По мере роста IT-инфраструктуры в дата-центре у клиентов возникает необходимость объединять серверы, СХД, файерволы в единую сеть. Для этого Selectel изначально предлагает использовать локальную сеть.

Локальная сеть устроена как классическая «кампусная» сеть в пределах одного дата-центра, только вот коммутаторы доступа расположены непосредственно в стойках с серверами. Коммутаторы доступа далее объединены в один коммутатор уровня агрегации. Каждый клиент может заказать подключение к локальной сети для любого устройства, которое он арендует или размещает у нас в дата-центре.

Для организации локальной сети используются выделенные коммутаторы доступа и агрегации, так что проблемы в интернет-сети не затрагивают локальную сеть.


Неважно, в какой стойке стоит очередной сервер — Selectel объединяет серверы в единую локальную сеть, и не надо думать о коммутаторах или местоположении сервера. Вы можете заказать сервер тогда, когда он будет нужен, и он будет подключен к локальной сети.

L2 прекрасно работает, пока размер дата-центра невелик, когда заполнены не все стойки. Но по мере увеличения количества стоек, серверов в стойках, коммутаторов, клиентов — схема становится существенно сложнее в обслуживании.


Серверы одного клиента могут размещаться в нескольких дата-центрах для обеспечения катастрофоустойчивости или при невозможности разместить сервер в уже имеющемся дата-центре (например, заняты все стойки и все места). Между несколькими дата-центрами также необходима связность — между серверами по локальной сети.

По мере роста количества дата-центров, стоек, серверов схема все более усложняется. Сначала связность между серверами разных дата-центров осуществлялась просто на уровне коммутаторов агрегации с использованием технологии VLAN.


Но идентификационное пространство VLAN весьма ограничено (4095 VLAN ID). Так что для каждого дата-центра приходится использовать свой набор VLAN, что сокращает количество возможных идентификаторов, которые можно использовать между дата-центрами.

Проблемы L2
При использовании схемы на уровне L2 с использованием VLAN некорректная работа одного из серверов в дата-центре может привести к перебоям в предоставлении услуги по другим серверам. Из наиболее частых проблем можно отметить:
  • Проблемы с STP (Spanning-Tree Protocol)
  • Проблемы с широковещательными штормами (Broadcast Storm)
  • Проблемы с некорректной обработкой мультикаста
  • Человеческий фактор (перенос линков, перенос VLAN)
  • Проблемы с организацией резервирования по L2
  • Проблемы с unknown-unicast трафиком
  • Проблемы с количеством МАС-адресов
  • Проблемы с STP зачастую касаются в том числе и настроек клиентских серверов или клиентского оборудования. В отличие от популярных точек обмена трафиком, мы не можем полностью фильтровать STP на портах доступа и гасить порты при поступлении STP PDU. На STP у ряда производителей сетевого оборудования реализуется такой базовый функционал коммутаторов дата-центра, как обнаружение петель в сети.

При некорректной работе с STP со стороны клиентского оборудования может быть затронут весь STP-домен как минимум одного коммутатора доступа. Использование расширений протокола STP, таких как MSTP, также не является решением, поскольку количество портов, VLAN, коммутаторов зачастую превышает архитектурные возможности масштабирования протокола STP.

Broadcast
Сеть в дата-центре может быть построена на устройствах разных производителей. Порой достаточно даже отличий в версии ПО коммутаторов, чтобы коммутаторы по-разному обрабатывали STP. Так, например, в дата-центре «Дубровка 3» расположено 280 стоек, что превышает максимально возможное количество коммутаторов в одном STP-домене.

При широком использовании STP в такой сети время реакции на любые изменения, в частности, простое включение или выключение порта, будет превышать все пороги ожидания. Вы же не хотите, чтобы при включении порта одним из клиентов, у вас пропадала связность по сети на несколько минут?

Проблемы с broadcast-трафиком часто возникают как по причине неверных действий на сервере (например, создание одного bridge между несколькими портами сервера), так и из-за неправильной настройки ПО на серверах. Мы стараемся нивелировать возможные проблемы с количеством broadcast-трафика, попадающего к нам в сеть. Но мы это можем делать на одном порту подключения сервера, а если в один коммутатор включено 5 серверов, каждый из которых не превышает установленные пороги, то вместе они могут сгенерировать достаточно трафика, чтобы сработал уже контроль на коммутаторе агрегации. Из собственной практики, проблемы с широковещательным штормом со стороны сервера могут быть вызваны специфическим выходом из строя сетевой карты сервера.

Защищая сеть целиком, коммутатор агрегации «положит» порт, на котором произошла сетевая аномалия. К сожалению, это приведет к неработоспособности как пяти серверов, из-за которых произошел данный инцидент, так и к неработоспособности других серверов (вплоть до нескольких стоек в дата-центре).

Multicast
Проблемы с некорректной обработкой multicast-трафика — очень специфичные проблемы, возникающие в комплексе из-за некорректной работы ПО на сервере и ПО на коммутаторе. Например, между несколькими серверами настроен Corosync в multicast-режиме. Штатно обмен Hello-пакетами осуществляется небольшими объемами. Но в ряде случаев серверы с установленным Corosync могут пересылать достаточно много пакетов. Этот объем уже требует или специальной настройки коммутаторов, или использования корректных механизмов обработки (IGMP join и другие). При неправильном срабатывании механизмов или при срабатывании порогов могут быть перерывы сервиса, которые затронут других клиентов. Конечно, чем меньше клиентов на коммутаторе, тем меньше вероятность возникновения проблем от другого клиента.

Человеческий фактор — довольно непредвиденный вид проблем, который может возникнуть при работе с сетевым оборудованием. Когда сетевой администратор один, и он грамотно строит свою работу, документирует действия и обдумывает последствия своих действий, то вероятность возникновения ошибки довольно мала. Но когда растет количество оборудования, находящегося в эксплуатации дата-центра, когда сотрудников становится много, когда становится много задач — тогда требуется совершенно другой подход к организации работы.

Некоторые виды типовых действий во избежание человеческой ошибки автоматизированы, но многие виды действий на текущий момент нельзя автоматизировать, или цена автоматизации таких действий неоправданно высока. Например, физическое переключение патч-кордов на патч-панели, подключение новых линков, замена существующих линков. Все, что связано с физическим контактом с СКС. Да, есть патч-панели, позволяющие выполнять коммутацию удаленно, но они очень дорогие, требуют большого объема подготовительных работ и очень ограничены в своих возможностях.

Никакая автоматическая патч-панель не проложит новый кабель, если он потребуется. Ошибиться можно и при настройке коммутатора или маршрутизатора. Указать неправильный номер порта, номер VLAN, опечататься при вводе числового значения. При указании каких-то дополнительных настроек не учесть их влияние на существующую конфигурацию. При увеличении сложности схемы, усложнении схемы резервирования (например, по причине достижения текущей схемой предела масштабирования) вероятность человеческих ошибок возрастает. Человеческая ошибка может быть у любого, независимо от того, что за устройство находится в стадии конфигурирования, сервер, коммутатор, маршрутизатор или какое-то транзитное устройство.

Организация резервирования по L2, на первый взгляд, кажется простой задачей для небольших сетей. В курсе Cisco ICND проходят основы использования STP в качестве протокола, как раз изначально предназначенного для организации резервирования по L2. STP имеет массу ограничений, которые в этом протоколе, что называется, «by design». Надо не забывать, что любой STP-домен имеет очень ограниченную «ширину», то есть количество устройств в одном STP-домене, довольно мало по сравнению с количеством стоек в дата-центре. Протокол STP в своей изначальной версии разделяет линки на используемый и резервный, что не обеспечивает полной утилизации аплинков при нормальной эксплуатации.

Использование других протоколов резервирования по L2 налагает свои ограничения. Например, ERPS (Ethernet Ring Protection Switching) — на используемую физическую топологию, на количество колец на одном устройстве, на утилизацию всех линков. Использование других протоколов, как правило, сопряжено с проприетарными изменениями у разных производителей или ограничивает построение сети одной выбранной технологией (например, TRILL/SPBm-фабрика при использовании оборудования Avaya).

Unknown-unicast
Особо хочется выделить подтип проблем с unknown-unicast трафиком. Что это такое? Трафик, который по L3 предназначен на какой-то конкретный IP-адрес, но по L2 широковещается в сети, то есть, передается на все порты, принадлежащие данному VLAN. Данная ситуация может возникать по ряду причин, например, при получении DDoS на незанятый IP-адрес. Или если при опечатке в конфигурации сервера был указан несуществующий в сети адрес в качестве резервного, а на сервере исторически существует статическая ARP-запись по этому адресу. Unknown-unicast появляется в случаях наличия всех записей в ARP-таблицах, но при отсутствии МАС-адреса получателя в таблицах коммутации транзитных коммутаторов.

Например, порт, за которым расположен сетевой хост с данным адресом, очень часто переходит в выключенное состояние. Подобный вид трафика лимитируется транзитными коммутаторами и обслуживается зачастую так же, как и broadcast или multicast. Но в отличие от них, unknown-unicast трафик может быть инициирован «из интернета», а не только из сети клиента. Особенно велик риск возникновения unknown-unicast трафика в случаях, когда правила фильтрации на пограничных маршрутизаторах позволяют подмену IP-адресов снаружи.

Даже само количество МАС-адресов может иногда быть проблемой. Казалось бы, при размере дата-центра в 200 стоек, по 40 серверов в стойке, вряд ли количество МАС-адресов сильно превысит количество серверов в дата-центре. Но это уже не соответствующее действительности утверждение, так как на серверах может быть запущена одна из систем виртуализации, и каждая виртуальная машина может быть представлена своим МАС-адресом, а то и несколькими (при эмуляции нескольких сетевых карт на виртуальной машине, например). Итого мы можем получить с одной стойки в 40 серверов больше нескольких тысяч легитимных МАС-адресов.

Такое количество МАС-адресов может повлиять на заполненность таблицы коммутации на некоторых моделях коммутаторов. Кроме того, для определенных моделей коммутаторов при заполнении таблицы коммутации применяется хеширование, и какие-то МАС-адреса могут вызвать хеш-коллизии, ведущие к появлению unknown-unicast трафика. Случайный перебор МАС-адресов на арендованном сервере со скоростью, скажем, 4,000 адресов в секунду, может вызвать переполнение таблицы коммутации на коммутаторе доступа. Естественно, на коммутаторах применяются ограничения по количеству МАС-адресов, которые могут быть изучены на портах коммутатора, но в зависимости от конкретной реализации данного механизма, данные могут трактоваться по-разному.

Опять же, отправка трафика на МАС-адрес, зафильтрованный данным механизмом, ведет к появлению unknown-unicast трафика. Самое неприятное в данной ситуации, что коммутаторы редко тестируются у производителя на самовосстановление после случаев с переполнением таблицы коммутации. Разовое переполнение таблицы, вызванное, скажем, ошибкой одного клиента в параметрах hping или в написании скрипта, обеспечивающего мониторинг его инфраструктуры, может вести к перезагрузке коммутатора и перерыву связи для всех серверов, расположенных в стойке. Если же такое переполнение случается на коммутаторе уровня агрегации, то перезагрузка коммутатора может привести к 15-минутному простою всей локальной сети дата-центра.

Хочется донести, что использование L2 оправдано только для ограниченных случаев и накладывает много ограничений. Размер сегмента, количество L2 сегментов — это все параметры, которые необходимо оценивать каждый раз при добавлении нового VLAN с L2 связностью. И чем меньше L2 сегментов, тем проще и, как следствие, надежнее сеть в обслуживании.

Типовые случаи использования L2
Как уже упоминалось, при постепенном развитии инфраструктуры в одном дата-центре используется L2 локальная сеть. К сожалению, это использование подразумевается и при развитии проектов в другом дата-центре или в другой технологии (например, виртуальные машины в облаке).

Связь front и back-end, резервное копирование
Как правило, использование локальной сети начинается с разделения функционала front и back-end сервисов, выделения СУБД на отдельный сервер (для повышения производительности, для разделения типа ОС на сервере приложений и СУБД). Поначалу использование L2 для данных целей выглядит оправданным, в сегменте всего несколько серверов, часто они даже расположены в одной стойке.


Серверы включаются в один VLAN, в один или несколько коммутаторов. По мере увеличения количества оборудования, все новые и новые серверы включаются в коммутаторы новых стоек в дата-центре, от чего L2-домен начинает расти в ширину.


Появляются новые серверы, в том числе резервные серверы БД, серверы резервного копирования и тому подобные. Пока проект живет в одном дата-центре, проблем масштабирования, как правило, не возникает. Разработчики приложения просто привыкают, что на очередном сервере в локальной сети IP-адрес меняется только в последнем октете, а прописывать какие-то отдельные правила маршрутизации не требуется.

Аналогичную схему разработчики просят применять и при росте проекта, когда следующие серверы арендуются уже в другом дата-центре или когда какая-то часть проекта переезжает на виртуальные машины в облако. На картинке все выглядит очень просто и красиво:


Казалось бы, надо всего лишь соединить одним VLAN два коммутатора агрегации в ДЦ1 и ДЦ2. Но что стоит за этим простым действием?

Резервирование ресурсов
Во-первых, мы увеличиваем ширину L2 домена, таким образом все потенциальные проблемы локальной сети ДЦ1 могут возникнуть в ДЦ2. Кому понравится, что его серверы расположены в ДЦ2, а инцидент, связанный с недоступностью локальной сети, произойдет по причине некорректных действий внутри ДЦ1?

Во-вторых, надо позаботиться о резервировании этого VLAN. Коммутатор агрегации в каждом дата-центре — точка отказа. Кабель между дата-центрами — еще одна точка отказа. Каждую точку отказа следует зарезервировать. Два коммутатора агрегации, два кабеля от коммутаторов агрегации до коммутаторов доступа, два кабеля между дата-центрами… Каждый раз увеличивается количество компонентов, а схема усложняется.


Усложнение схемы вызвано необходимостью резервирования каждого элемента в системе. Для полноценного резервирования устройств и линков требуется продублировать почти каждый элемент. На такой большой сети уже невозможно использовать STP для организации резервирования. Можно было бы все элементы сети, в частности, коммутаторы доступа, представить как составляющие MPLS-облака, тогда бы резервирование получилось за счет функционала протокола MPLS.

Но MPLS-устройства, как правило, в два раза дороже, чем не-MPLS. И надо отметить то, что MPLS-коммутатор в 1U, обладающий хорошей степенью масштабируемости, реализацией полноценного функционала MPLS в Control-plane, на практике, не существовал до последнего времени. В итоге хочется избавиться или минимизировать влияние проблем L2 на существующую сеть, но при этом сохранить возможность резервирования ресурсов.

Переход на L3
Если каждый линк в сети представить как отдельный IP-сегмент, а каждое устройство — как отдельный маршрутизатор, то нам не требуется резервирование на уровне L2. Резервирование линков и маршрутизаторов обеспечивается за счет протоколов динамической маршрутизации и избыточности маршрутизации в сети.

Внутри дата-центра мы можем сохранить существующие схемы взаимодействия серверов друг с другом по L2, а выход к серверам в другом дата-центре будет осуществляться по L3.


Таким образом, дата-центры связаны между собой L3-связностью. То есть эмулируется, что между дата-центрами установлен маршрутизатор (на самом деле, несколько, для резервирования). Это позволяет разделить L2-домены между дата-центрами, использовать в каждом дата-центре свое собственное пространство VLAN, осуществлять между ними связь. Для каждого из клиентов можно использовать повторяющиеся диапазоны IP-адресов, сети полностью изолированы друг от друга, и из сети одного клиента не попасть в сеть другого клиента (кроме случаев, когда оба клиенты согласны на такое соединение).

Мы рекомендуем использовать для локальных сетей IP-сегменты из адресации 10.0.0.0/8. Для первого дата-центра сеть будет, например, 10.0.1.0/24, для второго — 10.0.2.0/24. Selectel на маршрутизаторе прописывает IP-адрес из этой подсети. Как правило, адреса .250-.254 резервируются для сетевых устройств Selectel, а адрес .254 служит шлюзом для попадания в другие локальные сети. На все устройства во всех дата-центрах прописывается маршрут:
route add 10.0.0.0 mask 255.0.0.0 gw 10.0.x.254

Где x — номер дата-центра. За счет этого маршрута серверы в дата-центрах «видят» друг друга по маршрутизации.


Наличие такого маршрута упрощает масштабирование схемы в случае, например, появления третьего дата-центра. Тогда для серверов в третьем дата-центре прописываются IP-адреса из следующего диапазона, 10.0.3.0/24, на маршрутизаторе — адрес 10.0.3.254.


Отличительной особенностью реализации такой схемы является то, что она не требует дополнительного резервирования на случай отказа дата-центра или внешних каналов связи. Так, например, при отказе дата-центра 1 целиком сохраняется связь между дата-центром 2 и дата-центром 3, а при реализации схемы с подачей L2 между дата-центрами через какой-то один из них, как на рисунке:


От работоспособности дата-центра 1 зависит связь дата-центра 2 и дата-центра 3. Или требуется организация дополнительных линков и использование сложных схем L2 резервирования. И при сохранении L2 схемы все равно вся сеть целиком очень чувствительна к некорректной коммутации, образованию петель коммутации, различным штормам трафика и иным неприятностям.

L3-сегменты внутри проектов
Помимо использования различных L3-сегментов в разных дата-центрах, имеет смысл выделять отдельную L3 сеть для серверов в разных проектах, зачастую сделанных по разным технологиям. Например, аппаратные серверы в дата-центре в одной IP-подсети, виртуальные серверы в этом же дата-центре, но в облаке VMware, — в другой IP-подсети, какие-то серверы, относящиеся к staging, — в третьей IP-подсети. Тогда случайные ошибки в одном из сегментов не приводят к полному отказу всех серверов, входящих в локальную сеть.


Резервирование маршрутизатора
Это все впечатляюще, но между проектами получается единая точка отказа — это маршрутизатор. Как быть в этом случае? На самом же деле, маршрутизатор не один. На каждый дата-центр выделяется два маршрутизатора, а для каждого заказчика они формируют Virtual IP .254 с использованием протокола VRRP.

Использование VRRP между двумя рядом стоящими устройствами, имеющими общий L2 сегмент, оправдано. Для дата-центров, разнесенных территориально, используются разные маршрутизаторы, а между ними организуется MPLS. Таким образом, каждый клиент, подключающийся к локальной сети по такой схеме, подключается в отдельный L3VPN, сделанный для него на этих MPLS-маршрутизаторах. И схема, в приближении к реальности, выглядит так:

Адрес шлюза для каждого сегмента .254 резервируется по VRRP между двумя маршрутизаторами.

Заключение
Обобщая все вышесказанное — изменение типа локальной сети с уровня L2 на уровень L3 позволило нам сохранить возможность масштабирования, увеличило уровень надежности и отказоустойчивости, а также позволило реализовать схемы дополнительного резервирования. Более того это позволило обойти существующие ограничения и «подводные камни» L2.

По мере роста проектов и дата-центров существующие типовые решения достигают своего предела масштабируемости. Это означает, что для эффективного решения задач они уже не подходят. Требования к надежности и устойчивости системы в целом постоянно повышаются, что в свою очередь влияет на процесс планирования. Важно учитывать тот факт, что следует рассматривать оптимистичные прогнозы роста, чтобы в дальнейшем не получить систему, которую будет невозможно масштабировать.

selectel.ru/services/dedicated-servers/

Новый сервис: WhoisInfo.ru



WhoisInfo.ru — возвращается на просторы Интернета с исправлеными багами, новыми зонами и приятным дизайном для всех. Был получен feedback, отзывы и приятные слова о «крутости» и необходимости такого проекта в Интернете, ибо реально клёвых сервисов очень мало.

Основные преимущества:
  • Поддерживаются национальные домены (.ru.рф .su и др.)
  • Поддерживаются международные домены (.com .net и др.)
  • Поддерживаются новые зоны (.coffee .codes .blog и др.)
  • Адаптивный дизайн для смартфонов и планшетов
  • Никакой лишней информации
Новые фичи:
  • Поддержка IPv6
  • Никакой отслежки или хранения cookie-файлов
  • Сервис не подключен к метрике (никакой)
  • При вводе домена с протоколом (http/s) — выводится информация о домене в любом случае
  • При вводе домена с протоколом и текстом в начале (blablahttp://example.ru) — выводится информация о домене

Исправления:
  • Убран баг с HTML-кодом (вставка кода в поле)
  • Убран баг с «обрывающейся страницей»
  • Сервис теперь НЕ open-source

Скоро:
  • Поддержка IDN-доменов (.рф.укр и другие)

Заметили баг, ошибку? Не работает сайт?
Пишите на почту: contact@whoisinfo.ru

Что мы сделали для вас в декабре




С прошедшими праздниками!

Хотя отсюда, из будущего, декабрь кажется бесконечно далеким, мы его вспоминаем добрым словом. И дело не в том, что мы открыли для вас два новых сервиса и записали подкаст. Вовсе не в этом. Просто хороший получился новый год. Тёплый и облачный.

Новые сервисы

Cloud Backup — автоматизированное управление резервными копиями виртуальных машин. Сервис избавляет вас от рутинных действий по созданию копий и управлению их жизненным циклом.
mcs.mail.ru/cloud-backup/


Cloud Disaster Recovery — сервис аварийного восстановления для защиты IT-инфраструктуры от простоев при сбоях. «Горячий бэкап» IT-инфраструктуры в облаке за считанные минуты автоматически принимает нагрузку на время восстановительных работ.
mcs.mail.ru/disaster-recovery/

Подкаст «Завтра облачно»
Говорим про Big Data: что это такое, почему это важно и как на этом делают деньги. Ведущий — Андрей Коняев, гости — руководитель платформы Mail.Ru Cloud Solutions Илья Летунов и CIO Mail.Ru Group Денис Аникин.
itunes.apple.com/ru/podcast/завтра-облачно/id1448989483
vk.com/mrgcloud
soundcloud.com/mcspodcast/bigdata

И ещё...

  • Закрыли уязвимость Kubernetes CVE-2018-1002105. Обновите кластеры до любой защищенной версии (1.10.11, 1.11.5, 1.12.3) через личный кабинет.
  • Балансировщик поддерживает https-трафик, просто загрузите в него SSL-сертификат.
  • Ускорение дисков. Мы всё оптимизировали, теперь диски виртуальных машин (hdd / ssd ceph) работают на 20% быстрее.
Вот и всё, ждите новостей в феврале!

Мы сделали обновления для тестовой версии нового сайта Айхор Хостинг

Мы сделали обновления для тестовой версии нового сайта Айхор Хостинг в которой исправили баги, найденные пользователями и сотрудниками. Среди внесенных изменений:

Переписанный конфигуратор VDS: new.ihor.ru/ru/vds

Обновленный раздел с информацией о компании для мобильной версии: new.ihor.ru/ru/company

Исправленная таблица из раздела PHP Хостинг для мобильной версии: new.ihor.ru/ru/php

Произведена оптимизация сайта для работы на устройствах с более ранними версиями браузеров: new.ihor.ru/ru

Опробовать внесенные изменения можно уже сейчас!

Решить 3 задачи 1 действием



Предлагаем рассмотреть 3 важные задачи, которые стоят перед владельцем сервера, а главное, как дата-центр поможет их решить.

Задача №1. Создать условия
Первое, что нужно — установить сервер и окружить его должными условиями для работы. Дата-центр решает вопрос организации среды для содержания сервера, минимизируя расходы на создание подходящих условий своими силами. Вы получаете размещение на специализированной площадке ЦОД, которая оборудована всеми необходимыми для содержания сервера системами. Дата-центр оснащен системами резервирования электропитания, а интернет-каналы имеют высокую скорость и дублируются.

Задача №2. Обеспечить надежную работу
Специалисты дата-центра круглосуточно контролируют работоспособность всех систем и самого оборудования, совершая все необходимые профилактические работы, а в случае возникновения каких-либо вопросов, оперативно на них реагируют. Вы можете положиться на инженеров ЦОД, которые обязательно придут на помощь в любое время дня или ночи.

Задача №3. Обеспечить безопасность
Держать сервер в защищенном дата-центре намного безопаснее, чем размещение в офисе. Пожалуй, это сравнимо с хранением денег в банке или дома. Существет множество потенциальных опасностей, начиная от форс-мажоров, заканчивая намеренной порчей данных или самого оборудования. Дата-центр оснащён многоуровневой системой доступа, круглосуточной охраной, видеонаблюдением, а доступ к оборудованию получают только технические специалисты и лица, для которых Вы лично запросили доступ.
rackstore.ru/colocation.html

Если Вы еще не завели себе сервер, но очень хотите это сделать — его можно арендовать. А можно не просто арендовать, но еще и выкупить!
Наши менеджеры будут рады проконсультировать Вас по любому северному вопросу.

Сейчас у нас проходит акция на выделенные серверы. Вы можете присмотреть и даже зарезервировать понравившийся сервер. Все тарифы «под ключ». Количество акционных серверов ограничено.
rackstore.ru/arenda-servera.html

Подарки и новости от партнеров


Дорогие друзья!
Рады представить вам очередные новости наших партнеров. Сегодня в письме:
  • как получить образование MINI-MBA
  • Ксения Пескова на блоге Netpeak Software о Google Search Console
Вам нравятся наши партнеры или кого-то очень не хватает в рассылке? Оставляйте свое мнение в нашей группе Вконтакте.


Твоя супервозможностью получить повышение
Хочешь удивить себя, своих близких, начальника и даже супергероев? Получи образование MINI-MBA по управлению персоналом, продажами или маркетингом и повысь себе зарплату.

Будь в своей сфере сильнее Халка, быстрее Флеша и невозмутимее Бэтмена. И попробуй сохранить невозмутимое лицо, когда мы скажем, что только для читателей этой рассылки мы приготовили скидку 43% на обучение. Получилось? -_-

mbamini.com/mini-mba-spec.html

Гайд: Google Search Console в работе SEO-специалиста
SEO-специалист Ксения Пескова на блоге Netpeak Software рассмотрела отчёты Google Search Console (как старой, так и новой версии) и рассказала, как они помогают в работе SEO-оптимизатора.
  • Первым делом, увидев резкую просадку в Google, необходимо обратиться к вкладке «Меры, принятые вручную».
  • Увидев просадку по одной странице, стоит анализировать запросы, по которым перестал поступать трафик.
  • Заметив в выдаче нецелевую страницу, нужно запустить «Проверку URL».

По промокоду WebHOST1-pb скидка 15%!
netpeaksoftware.com/ru/blog/gayd-google-search-console-v-rabote-seo-spetsialista