Рейтинг
0.00

Backblaze Хостинг

2 читателя, 84 топика

Статистика сети: запуск региона CA-East в Канаде

За последние несколько лет Backblaze расширила свое региональное присутствие, добавив мощности в регионе Запад США, увеличив свое присутствие в регионе Центральная часть ЕС, открыв новое присутствие в регионе Восток США и совсем недавно выйдя в Канаду с CA-East с первоначальной емкостью хранения чуть менее 60 ПБ.

Мы подошли к нашему последнему расширению в Канаду немного по-другому, и сегодня я хочу рассказать о некоторых новых процессах и мерах повышения эффективности, которые мы внедрили для этого проекта, а также о том, как мы позиционируем себя для обслуживания канадского рынка на основе наших сетевых связей.

Фотография, на которой изображена скульптура с кодом аэропорта Торонто — YYZ.
Команда по развертыванию Backblaze прибывает в Торонто.


Масштабирование инфраструктуры и вызов подкрепления
Развертывание региона данных CA-East было самым быстрым на сегодняшний день, сократив жизненный цикл развертывания («чернила подписаны» для работающей производственной системы) на 50%. В этом цикле развертывания мы работали со сторонним интегратором, который помог нам оптимизировать процесс, а также выровняли наши процедуры автоматизации для установки операционных систем и нашего стека программного обеспечения для хранения данных.

Традиционно мы доставляли все наше оборудование, такое как сетевое оборудование, серверы, жесткие диски, кабели и инструменты, на место назначения, чтобы наша команда по развертыванию провела инвентаризацию, распаковала и физически установила. Это весело. Это контролируемый хаос (если вам нравятся такие вещи) — но для этого цикла сборки мы хотели бы еще больше итерировать наш процесс, чтобы упростить и обеспечить будущий рост более предсказуемым и масштабируемым образом, работая со третьей стороной для оказания помощи с первоначальной физической сборкой стоечного оборудования.

С нашей стороны есть время на предварительное проектирование, документирующее, как организованы все оптоволоконные, медные и силовые кабели. У нас есть карта кабелей для каждого устройства, каждого кабеля и каждого местоположения, а также то, как они должны быть подключены. Это тяжело с точки зрения бумажной работы, но это время потрачено не зря. Это позволяет нам легко шаблонизировать и штамповать будущие шкафы. Когда нам нужно больше шкафов, ориентированных на хранение, чтобы развернуть дополнительное хранилище, это стандарт шкафа. Если нам нужно больше вычислений, это также шкаф, который можно легко построить из шаблона.

Рабочая нагрузка на стороне стороннего интегратора состоит из выполнения наших указаний и выполнения всех физических стоек и проводки. Выполнение всех этих задач требует времени. Вы не поверите, сколько картона и упаковочного материала вам нужно обработать! Распаковка более сотни серверов, тысяч жестких дисков и сотен оптоволоконных и медных кабелей — это немалый подвиг. (Оглядываясь назад, извиняюсь за то, что не предоставил вам марафонское видео распаковки.) Они получили всю нашу упаковку, затем разместили и подключили все в соответствии с нашими спецификациями. После осмотра и контроля качества все было надежно запечатано в ящики и отправлено в Канаду.

Первоначальная настройка и начальная загрузка кластера CA-East на сайте интегратора.


Почти готов к контролю качества и окончательной проверке перед отправкой в ​​центр обработки данных.


Автоматизируйте все дела
Выполнить процесс один раз? Конечно. Нужно сделать это больше двух раз? Автоматизируйте это!

Перед отправкой в ​​центр обработки данных мы отправили небольшую команду на площадку интегратора для проведения физической оценки качества сборки и настройки удаленного доступа, что позволило нам запустить платформу, поскольку у нас был доступ к электропитанию и подключению к Интернету.

Внутри у нас есть система, в которой записаны серийные номера машин и их роли (например, хранилище, API, база данных и т.д.). Когда новая машина впервые загружается в нашей сети, она получает простую операционную систему, установленную через наши службы PXE. Все это распараллеливается, что означает, что мы смогли получить системы для входа в течение нескольких часов для всего набора серверов.

Очень весело переключать кнопки питания одну за другой на более чем 90 серверах, при этом сетевое соединение PXE-сервера работает на горячем режиме, и весь парк серверов автоматически устанавливает операционную систему и готов к дальнейшему администрированию в течение нескольких минут. Совсем не похоже на те дни, когда я выполнял установку Windows 95 с дискет!

После окончательной проверки и прохождения программного обеспечения все было одобрено для отправки. Интеграторы надежно упаковали наши шкафы, и они отправились в Канаду.

Настройка CA-East
По прибытии на место назначения все было доставлено на пол центра обработки данных, закреплено, заземлено и подключено к источнику питания. В течение четырех часов у нас было сетевое соединение с нашими интернет-провайдерами и мы настроили защищенные соединения обратно в нашу производственную сеть, чтобы начать установку программного обеспечения Backblaze с нашими различными внутренними командами. В течение нескольких дней у нас было около 90 работающих серверов, готовых к тому, чтобы наша команда по обеспечению качества начала проводить тесты для имитации активности клиентов.

Мы сотрудничали с Cologix, ведущим поставщиком сетевых нейтральных взаимосвязей и гипермасштабных периферийных центров обработки данных в Северной Америке, в качестве нашего канадского оператора центра обработки данных для этого развертывания. Цифровой периферийный центр обработки данных Cologix — это объект Tier III площадью 20 000 квадратных футов с мощностью два мегаватта. Это высокозащищенный и эффективный центр размещения и взаимосвязи, который отличается ведущими в отрасли конструкциями охлаждения, надежной круглосуточной безопасностью с доступом с двойной биометрической аутентификацией и соответствием стандартам SOC 1, SOC 2, HIPAA и PCI-DSS, а также сертификацией ISO 27001 от Schellman.

Модули хранения данных с несколькими вычислительными серверами в верхней части каждого шкафа.


CA-East: Сетевые и вычислительные шкафы с возможностью расширения.


Связность
Наша стандартная позиция подключения заключается в подключении к трем глобальным операторам для максимально широкого охвата каждой возможной сети, а также в присоединении к локальной интернет-бирже (IX) для обмена трафиком между другими участниками IX локально в пределах одного центра обработки данных или метрополии для обеспечения эффективности с низкой задержкой. Кроме того, для этого сайта мы также подключены к крупному канадскому региональному оператору, что позволяет нам быть в непосредственной близости от трафика, поступающего из Канады.

Благодаря низкой задержке и разнообразным темным оптоволоконным соединениям между центрами обработки данных Cologix, включая крупнейший и важнейший в Канаде отель-отель, объект предлагает доступ к более чем 160 сетям, TORIX и более чем 50 провайдерам облачных услуг.

В целом наша карта связей Калифорния-Восток выглядит следующим образом.
Вариант 1: Глобальные операторы. Вариант 2: Региональный интернет-провайдер. Вариант 3: IX-трафик.


Присоединение к TorIX
Локальный интернет-обмен для этого сайта — Toronto Internet Exchange (TorIX), ведущая канадская точка обмена интернет-трафиком (IXP) и одна из крупнейших в мире. На момент написания этой статьи более 250 организаций обмениваются в среднем более 1,3 терабит в секунду (Тбит/с) трафика каждый день между собой локально.

Подключение к TorIX обеспечивает низкую задержку при передаче данных между нами и поставщиками интернет-услуг (ISP), другими облаками, партнерскими сетями доставки контента (CDN), другими корпоративными сетями и поставщиками хостинга, предоставляющими вычислительные услуги.

Выйди в эфир
Я работаю в Backblaze уже четыре года и смог поучаствовать в сборках для расширения наших регионов US-West, US-East, а теперь и CA-East. Включение метафорического «переключателя», чтобы сделать сайт живым, немного разочаровывает — с точки зрения сети, единственный трафик, который мы видим в начале нового региона, — это наш мониторинг, внутренние задания и некоторые тестовые или контрольные (PoC) аккаунты для мягкого запуска.

Ниже представлен пример сетевого трафика, полученного в тот момент, когда мы запустили пиринговое соединение с нашими операторами и выполнили программный запуск региона данных для наших внутренних команд по контролю качества.


Откуда исходит исходный сетевой трафик? Благодаря нашему мониторингу сетевой телеметрии мы можем видеть потоки трафика в нашу сеть и из нее. Эта информация о сетевом трафике обогащается данными, которые добавляют контекст, позволяя нам видеть, сколько трафика поступает к или от конкретного поставщика услуг верхнего уровня или географического региона.

Вот диаграмма Сэнки, которая показывает снимок текущего трафика из канадских провинций через разных поставщиков услуг в сеть Backblaze, где более крупные линии означают, что больше трафика из этой конкретной провинции или сети. Как и ожидалось, Онтарио и Британская Колумбия являются двумя крупнейшими источниками трафика.


Канада открыта для бизнеса
С течением месяцев и по мере того, как все больше клиентов будут создавать свои учетные записи в этом новом регионе данных и направлять свои рабочие нагрузки в это местоположение, мы увидим больше трафика. Мы будем рады узнать, какие интересные идеи мы сможем почерпнуть, и будем держать вас в курсе в нашей серии Network Stats.

Поскольку Backblaze продолжает расширять свою сеть, мы рады продолжить итерацию наших билдов, чтобы сделать их более эффективными. В конечном счете, это позволяет нам быстрее реагировать на потребности клиентов. Та же отличная сеть — просто больше местоположений.

Мы рады иметь присутствие в Канаде и приветствуем ваши потребности в хранении! Если вам интересно узнать больше о хранении ваших данных в Канаде, вы можете прочитать объявление о запуске здесь.

Статистика Backblaze Drive за 2024 год



По состоянию на 31 декабря 2024 года у нас было 305 180 дисков под управлением. Из этого числа было 4 060 загрузочных дисков и 301 120 дисков с данными. В этом отчете основное внимание будет уделено этим дискам с данными, поскольку мы рассмотрим годовые показатели отказов (AFR) за четвертый квартал 2024 года, показатели отказов за 2024 год и показатели отказов за весь срок службы для моделей дисков, находящихся в эксплуатации по состоянию на конец 2024 года. По ходу дела мы поделимся нашими наблюдениями и идеями по представленным данным, и, как всегда, мы с нетерпением ждем, когда вы сделаете то же самое в разделе комментариев в конце поста.

Показатели отказов жестких дисков в четвертом квартале 2024 г.
По состоянию на конец 2024 года Backblaze отслеживал 301 120 жестких дисков, используемых для хранения данных. Для нашей оценки мы исключили из рассмотрения 487 дисков, поскольку они не соответствовали критериям включения. Мы обсудим критерии, которые мы использовали, в следующем разделе этого отчета. Удаление этих дисков оставляет нам 300 633 жестких диска для анализа. В таблице ниже показаны годовые показатели отказов за четвертый квартал 2024 года для этой коллекции дисков.


Заметки и наблюдения
  • Диски 24 ТБ уже здесь. Диски Seagate 24 ТБ (модель: ST24000NM002H) прибыли в начале декабря. 1200 дисков заполнили одно хранилище Backblaze без отказавших дисков до конца четвертого квартала. Диски Seagate 24 ТБ присоединяются к моделям дисков Toshiba 20 ТБ и WDC 22 ТБ в клубе 20-более-емкостных устройств, поскольку мы продолжаем значительно увеличивать емкость хранилища, оптимизируя существующее пространство сервера хранения.
  • Ноль отказов за квартал. Пять моделей дисков показали ноль отказов за квартал, начиная с модели диска Seagate на 24 ТБ, указанной выше. Остальные — это HGST на 4 ТБ (модель: HMS5C4040ALE640), Seagate на 8 ТБ (модель: ST8000NM000A), Seagate на 14 ТБ (модель: ST14000NM000J) и Seagate на 16 ТБ (модель: ST16000NM002J). Все нули сопровождаются оговоркой относительно небольшого количества дисков и дней работы дисков, но ноль отказов за квартал — это всегда хорошо.
  • Диски емкостью 4 ТБ почти вымерли. Количество дисков емкостью 4 ТБ сократилось еще на 1774 диска в четвертом квартале. (Я подробно рассказал, как мы их переносим, ​​если хотите разобраться.) Оставшиеся ~4000 дисков должны исчезнуть к концу первого квартала 2025 года. Их заменят новые диски емкостью 20 ТБ, 22 ТБ и 24 ТБ. Следует отметить, что из всех дисков емкостью 4 ТБ, которые работали в четвертом квартале, отказал только один, так что этим дискам емкостью более 20 ТБ есть что показать с точки зрения отказов.
  • Квартальный уровень отказов снизился. AFR за Q4 снизился с 1,89% в Q3 до 1,35% в Q4. Хотя все размеры дисков показали некоторое улучшение от Q3 к Q4, одним из основных драйверов стало добавление более 14 000 новых дисков емкостью более 20 ТБ. В целом эти диски показали AFR в размере 0,77% за квартал.

Критерии модели привода
Ранее мы отметили, что исключили 487 накопителей из рассмотрения при составлении приведенной выше таблицы, охватывающей четвертый квартал 2024 года. Существует две основные причины, по которым мы не рассматривали эти модели накопителей.
  • Тестирование. Это диски определенной модели, которые мы отслеживаем и собираем данные Drive Stats, но в настоящее время они не считаются производственными дисками. Например, диски, проходящие сертификационные испытания для определения их достаточной производительности для нашей среды, не включаются в наши расчеты Drive Stats.
  • Недостаточно точек данных. Когда мы вычисляем годовую частоту отказов для модели привода за определенный период времени (ежеквартально, ежегодно или за весь срок службы), мы хотим убедиться, что у нас достаточно данных, чтобы сделать это надежно. Поэтому мы определили критерии для модели привода, которая будет включена в таблицы и диаграммы за указанный период времени. Модели, которые не соответствуют этим критериям, не включаются в таблицы и диаграммы за рассматриваемый период.


Как и в случае с квартальными результатами четвертого квартала, мы применим эти критерии к годовым и общим графикам, представленным в настоящем отчете.

Ежегодные показатели отказов жестких дисков в 2024 году
По состоянию на конец 2024 года Backblaze отслеживал 301 120 жестких дисков, используемых для хранения данных. Мы исключили из рассмотрения девять моделей дисков, состоящих из 2012 дисков, поскольку они не соответствовали определенным нами годовым критериям. Это оставляет нам 298 954 диска, разделенных на 27 различных моделей дисков. В таблице ниже показаны AFR на 2024 год для этой коллекции дисков.


Заметки и наблюдения
  • Никаких нулей за год. В 2024 году не было ни одной модели накопителя, соответствующей требованиям, с нулевым количеством отказов. При этом накопитель Seagate емкостью 16 ТБ (модель: ST16000NM002J) приблизился к этому показателю, зафиксировав всего один отказ накопителя в третьем квартале, что дало накопителю показатель AFR в 0,22% на 2024 год.
  • Занятые техники ЦОД. В 2024 году наши техники ЦОД установили 53 337 дисков. Если предположить, что в году 2080 рабочих часов (52 недели по 40 часов), то математика будет 53,337/2,080, и это значит, что наши бесстрашные техники ЦОД устанавливали 26 дисков в час. Заняты, заняты, заняты!
  • Диски Seagate на 24 ТБ? Хотя в 2024 году было добавлено 1200 новых дисков Seagate на 24 ТБ, они были установлены в начале декабря и не накопили достаточно дней работы, чтобы попасть в годовые или пожизненные таблицы. Включая диск Seagate на 24 ТБ, три модели не были включены в годовые таблицы 2024 года, эти модели дисков перечислены ниже.


Сравнение статистики Drive за 2022, 2023 и 2024 годы
В таблице ниже сравниваются годовые показатели отказов по моделям приводов за каждый из последних трех лет. Таблица включает только те модели приводов, которые соответствовали годовым критериям по состоянию на конец 2024 года. Данные за каждый год включают только этот год для рабочих моделей приводов, присутствующих на конец каждого года. Таблица отсортирована по размеру привода, а затем по AFR.


Заметки и наблюдения
  • Годовой показатель AFR снизился. AFR 2024 года для всех перечисленных приводов составил 1,57%, что ниже 1,70% в 2023 году. Мы ожидаем, что общие показатели отказов продолжат снижаться в 2025 году, но мы будем следить за следующими показателями.
  • Частота отказов моделей дисков объемом 8 ТБ и 12 ТБ. Все модели превысят пятилетний срок службы. В целом частота отказов заметно увеличится по мере того, как срок службы дисков превысит пять лет. И хотя есть исключения, такие как текущие диски HGST объемом 4 ТБ, нельзя предполагать, что это произойдет.
  • Частота отказов моделей дисков 14 ТБ и 16 ТБ. Эти модели приближаются к среднему возрасту — от трех до пяти лет эксплуатации. Именно здесь, согласно кривой ванны, частота отказов может постепенно увеличиваться — но не так сильно, как когда они превышают пять лет.
  • Частота отказов для моделей дисков 20 ТБ, 22 ТБ и 24 ТБ. Эти диски войдут в плоскую часть кривой ванны, то есть там, где частота их отказов должна быть самой низкой.
  • Годовые показатели отказов в зависимости от размера диска
  • Теперь мы можем углубиться в цифры, чтобы увидеть, что еще мы можем узнать. Мы начнем с рассмотрения квартального годового показателя отказов по размеру диска за последние три года.


Давайте рассмотрим различные размеры дисков и то, как они влияют на общую годовую интенсивность отказов с течением времени.

Минимальное влияние. Диски 4 ТБ (синяя линия) и 10 ТБ (золотая линия) оказали незначительное влияние на общий уровень отказов за последний год, поскольку каждый из них закончил год с относительно небольшим количеством дисков. Тем не менее, дикая поездка, которую обеспечивают диски 10 ТБ, держит наших технических специалистов DC в напряжении.

Более старые диски. Диски емкостью 8 ТБ (серая линия) и 12 ТБ (фиолетовая линия) имеют возраст от пяти до восьми лет, и поэтому их общие показатели отказов должны со временем увеличиваться. Диски емкостью 12 ТБ следуют этой тенденции, увеличиваясь с примерно 1% AFR в 2021 году до всего лишь около 3% в 2024 году. Показатели отказов дисков емкостью 8 ТБ, хотя и нестабильны от квартала к кварталу, имеют почти ровную линию тренда за тот же период.

Диски Workhorse. Диски 14 ТБ (зеленая линия) и 16 ТБ (линия Azure*) составляют 57% от всех используемых дисков, и в среднем их возраст составляет от двух до четырех лет. Они находятся в расцвете сил. Таким образом, у них должны быть низкие и стабильные показатели отказов, и, как вы видите, они есть.

Возможно, лазурный цвет не совсем подходит, но цвет яйца малиновки показался мне немного претенциозным.

Новые диски на блок. Диски емкостью 22 ТБ (оранжевая линия) находятся на ранней стадии, поскольку мы продолжаем регулярно добавлять новые диски. Как только количество дисков стабилизируется, мы получим лучшее представление о направлении AFR. Тем не менее, первые результаты надежны: AFR за весь срок службы составляет 1,06%.

Годовые показатели отказов по сравнению с производителем
Один из наиболее популярных способов просмотра этих данных — по производителю накопителя, как мы сделали ниже.


Для полноты картины на диаграмме ниже использованы те же данные, но отображены только линейные линии тренда для каждого из производителей за тот же трехлетний период.


HGST. Хотя линия тренда HGST не очень красивая, она не рассказывает всю историю. Если посмотреть на первый график, то до четвертого квартала 2023 года приводы HGST были на уровне или ниже среднего значения для всех приводов, то есть всех производителей. В этот момент HGST превысил среднее значение, и даже больше. В таблице ниже приведены результаты только для приводов HGST за 2024 год. Мы отсортировали их по убыванию по AFR 2024 года.


Как вы можете видеть, есть две модели дисков емкостью 12 ТБ, которые обеспечивают высокий AFR для дисков HGST. Модель HUH721212ALN604 начала демонстрировать признаки увеличения квартального AFR в первом квартале 2023 года, а модель HUH721212ALE604 последовала ее примеру в третьем квартале 2024 года. Без этих моделей дисков AFR 2024 года для диска HGST составил бы 0,55%.

Seagate. Квартальная линия тренда AFR снизилась для дисков Seagate с 2022 по 2024 год. Хотя снижение было небольшим, с 2,25% до 2,0%, Seagate был единственным производителем, который сделал это. Снижение, по-видимому, по крайней мере частично, связано с изъятием дисков Seagate 4 ТБ в этот период.

Toshiba. В период с 2022 по 2024 год квартальный показатель AFR для моделей накопителей Toshiba варьировался в довольно узком диапазоне от 0,80% до 1,52%, при этом большинство кварталов колебалось в районе 1,2%. Самое главное, что ни одна из отдельных моделей накопителей не была исключением, поскольку самый высокий квартальный показатель AFR для любой модели накопителя Toshiba составил 1,58%. Нам нравится последовательность.

WDC. Хотя модели накопителей WDC показали такой же уровень стабильности, как и модели Toshiba, они сделали это с более низким AFR каждый квартал. С 2022 по 2024 год диапазон квартальных значений AFR для моделей WDC составлял от 0,0% до 0,85%. AFR в 0,0% был в первом квартале 2022 года, когда ни один из 12 207 работающих накопителей WDC не вышел из строя в течение этого квартала.

Статистика жесткого диска за весь срок службы
По состоянию на конец 2024 года Backblaze отслеживал 301 120 жестких дисков, используемых для хранения данных. Применив наши критерии дисков, указанные выше, для периода жизненного цикла, мы исключили 11 моделей дисков, состоящих из 2736 дисков, из рассмотрения, поскольку они не соответствовали определенным нами критериям жизненного цикла. Это оставляет нам 298 230 дисков, разделенных на 25 различных моделей дисков. В таблице ниже показаны AFR жизненного цикла для этой коллекции дисков.


Текущий показатель AFR за весь срок службы для всех дисков составляет 1,31%. Это ниже показателя 1,46% в 2023 году. Снижение в первую очередь обусловлено завершением миграции дисков Seagate емкостью 4 ТБ в 2024 году, в результате чего по состоянию на конец 2024 года в эксплуатации осталось только два таких диска. В результате 79 миллионов дней работы дисков и более 5600 отказов дисков, накопленных дисками Seagate емкостью 4 ТБ к концу 2023 года, не включены в данные, представленные в таблице срока службы за 2024 год выше.

В итоговой таблице ниже мы взяли таблицу срока службы и отсортировали модели накопителей, у которых срок службы составляет 1,50% или меньше, по размеру накопителя.

При рассмотрении таблицы следует сделать несколько оговорок.
  • Для каждой модели достаточно данных, чтобы сказать, что значения AFR надежны. Тем не менее, завтра все может измениться. В целом, частота отказов жесткого диска следует кривой ванны по мере старения дисков — если только это не так. Некоторые диски отказываются выходить из строя по мере старения, как диски HGST емкостью 4 ТБ. Другие диски великолепны, а затем «упираются в стену» и быстро изгибают кривую отказов вверх.
  • Модель накопителя с годовым показателем отказов 1% означает, что можно ожидать, что один накопитель из 100 выйдет из строя в течение года. Если вы являетесь пользователем персонального накопителя, этот накопитель может быть вашим. Если у вас ровно один накопитель, ваш годовой показатель отказов составляет 100%. Другими словами, всегда имейте резервную копию и не забывайте ее тестировать.

Время миграции
Я был автором различных отчетов Drive Stats в течение последних десяти лет, и этот будет моим последним. Я ухожу на пенсию, или, возможно, на жаргоне Drive Stats это будет «мигрировать». В любом случае, после 10 лет в ВВС США и 30+ лет в Silicon Valley Tech, пришло время. Drive Stats продолжит работу со Стефани Дойл и Дэвидом Джонсоном в качестве моделей приводов для замены, начиная с отчета за первый квартал 2025 года. Желаю им всего наилучшего.

Я хочу поблагодарить каждого из вас, кто уделил время изучению и взаимодействию с отчетами и данными Drive Stats за последние 10 лет. И спасибо вам также за комментарии, вопросы и обсуждения, которые бурлили и бушевали в различных сообществах, которым небезразлична такая обыденная и потрясающая вещь, как жесткий диск. Это была та еще поездка — еще раз спасибо.

Подводим итоги 2024 года и смотрим в 2025 год



Спасибо, что являетесь клиентом Backblaze. 2024 год был для нас полон волнений: мы помогали клиентам удовлетворять их потребности в облачном хранилище, связанные с резервным копированием и архивированием, киберустойчивостью и защитой от программ-вымогателей, ИИ и хранилищем приложений, рабочими процессами мультимедиа и многим другим.

Мы потратили сотни тысяч часов на создание нашей платформы и продуктов, поэтому я хочу поделиться некоторыми из этих важных моментов и дать вам возможность заглянуть в 2025 год.

Облачная платформа Backblaze
  • Поскольку клиенты все больше нуждаются в нас для высокопроизводительных вариантов использования, мы развернули множество обновлений и партнерств, включая Internet2, MANRS, IPv6, высокопроизводительные перекрестные соединения с различными партнерами и многое другое. Сочетание всего этого позволяет клиентам передавать данные все быстрее и проще, поддерживая нашу веру в то, что клиенты должны иметь свободный поток данных и быть доступными для использования по своему усмотрению.

Обновления продукта Backblaze
Поскольку нам пришлось оказывать поддержку более крупным компаниям и более высокопроизводительным вариантам использования, мы запустили:
  • Уведомления о событиях Backblaze, позволяющие автоматизировать рабочие процессы, — функция, получившая награду NAB Best of Show Award в номинации «Продукт года».
  • B2 Live Read — запатентованная технология, обеспечивающая уникальные рабочие процессы с мультимедиа в ваших любимых инструментах.
  • На базе Backblaze, позволяющей поставщикам управляемых услуг, независимым поставщикам программного обеспечения и другим лицам встраивать облачное хранилище непосредственно в свои платформы, продукты и сервисы.
  • Пользовательские метки времени загрузки для упрощения управления данными в Backblaze B2.
  • Масштабируемые ключи приложений для поддержки создания нескольких ключей приложений одновременно, что значительно повышает эффективность.
  • Enterprise Control for Computer Backup предназначен для поддержки крупных компаний, предоставляя администраторам более точный контроль над резервными копиями, которыми они управляют.

Мы провели весь прошлый год, работая над основной платформой, чтобы сделать ее быстрее, больше и эффективнее. Результатом всей этой работы стала платформа, которая бесперебойно поддерживает более 500 000 клиентов в 175 странах, храня более 3 000 000 гигабайт по цене в пять раз ниже, чем у традиционных поставщиков облачных услуг.

Недавно нашим клиентом стала популярная компания, занимающаяся ИИ, и ее основатель и генеральный директор заявили: «Backblaze — это потрясающее решение для данных для обучения ИИ. Мы рассмотрели несколько вариантов, и Backblaze — действительно лучший».

Именно к этому мы стремимся — не только предлагать лучшие решения для данных обучения ИИ, но и быть лучшим решением для облачного хранения данных, удовлетворяющим всем потребностям наших клиентов.

С нетерпением ждем 2025 года
В следующем году я с нетерпением жду наших продуктовых и партнерских дорожных карт, над которыми мы активно работаем, которые предоставят новые возможности тем, кто использует нашу платформу облачного хранения. Хотя я не могу поделиться слишком многим, мы начинаем уверенно, открывая наш четвертый регион данных, и с нетерпением ждем дальнейших инноваций для поддержки киберустойчивости, ИИ и высокопроизводительных вариантов использования.

От себя лично и от имени всех нас здесь, в Backblaze, благодарю вас за то, что вы являетесь нашим клиентом и доверяете нам свои данные и связанные с ними потребности.

Как всегда, мы хотим услышать от вас, особенно если вам нужна помощь или у вас есть отзывы о продукте. Мы также будем признательны за ваши отзывы о G2 для B2 Cloud Storage и Computer Backup.

Желаю вам и вашим семьям прекрасного 2025 года.

Глеб Будман
Соучредитель и генеральный директор Backblaze

Backblaze добавляет канадский регион, расширяя выбор местоположений и возможности обеспечения суверенитета данных



Backblaze добавляет канадский регион, расширяя выбор местоположений и возможности обеспечения суверенитета данных

Клиенты, для которых управление данными, соответствие требованиям и производительность являются приоритетными, имеют больше возможностей для достижения всех трех с открытием нашего нового региона данных, известного как Canada East (или CA East). Регион теперь доступен для текущих и будущих клиентов Backblaze.

Этот новый регион продолжает нашу миссию по предоставлению высокопроизводительных, соответствующих требованиям и экономически эффективных решений в области облачного хранения данных для предприятий по всему миру и еще больше расширяет наше присутствие на североамериканском рынке.

Удовлетворение потребностей канадского бизнеса
Наш новый регион CA East расположен в Торонто, Онтарио, и был разработан для удовлетворения особых потребностей канадских предприятий и организаций, многие из которых подчиняются законам и правилам, требующим хранения данных в пределах страны. Благодаря этому расширению клиенты могут обеспечить соблюдение местных правил, одновременно используя надежное облачное решение, которое ставит во главу угла суверенитет данных.

Локальный регион также обеспечивает преимущества производительности для канадских клиентов. Сокращая расстояние, которое необходимо для передачи данных, Backblaze может предложить канадским клиентам меньшую задержку и улучшенную скорость, что делает его идеальным для приложений реального времени и крупномасштабной передачи данных.

Укрепление нашего партнерства с Opti9
В сотрудничестве с Opti9, международным лидером в области гибридных облачных решений и поставщиком облачных хранилищ Veeam (VCSP), это расширение знаменует для нас значительную возможность предоставлять надежные управляемые услуги канадским предприятиям. Opti9, как эксклюзивный канадский партнер по каналу Backblaze B2 Reserve и программы Powered by Backblaze, занимает уникальную позицию для вывода этого улучшенного предложения на рынок.

Opti9 и Backblaze разделяют единое видение предоставления канадским предприятиям и организациям передовых облачных решений, которые являются как доступными, так и высокопроизводительными. Облачное хранение данных быстро развивается, чтобы соответствовать меняющимся потребностям клиентов. Мы рады запустить этот канадский регион хранения в сотрудничестве с Backblaze, который расширяет наше общее присутствие в облачном хранилище в Канаде. Это партнерство снабжает наших канадских партнеров и организации конечных пользователей инструментами, необходимыми для процветания в сегодняшнем быстро меняющемся цифровом ландшафте.
Кори Мак Донелл, вице-президент по продажам и развитию бизнеса, Opti9

Политика ограничения скорости Backblaze B2 Cloud Storage для стабильной производительности



На шоссе есть полосы не просто так. Полосы помогают гарантировать, что большие объемы трафика смогут быстро и безопасно добраться до места назначения. И они поддерживают порядок и предсказуемость в системах, где некоторые люди хотят (или должны) ехать на скорости NASCAR, а другие, такие как я, немного медленнее.

Теперь Backblaze применяет такие фундаментальные инженерные решения к платформе B2 Cloud Storage, внедряя политику ограничения скорости, разработанную для эффективной поддержки различных типов клиентов и потребностей в использовании, чтобы каждый мог продолжать пользоваться необходимым ему высокопроизводительным хранилищем, одновременно лучше защищая всех от риска того, что какой-либо один клиент или группа клиентов создаст затор трафика для всех остальных.

На практике новая политика Backblaze предотвращает неожиданные скачки использования API, ограничивая скорость вызовов и байтов клиентов определенными пороговыми значениями за определенный период времени; если скорость превышена, клиент временно получит код статуса 503 при использовании нашего API, совместимого с S3, или код статуса 429 при использовании нашего собственного API Backblaze B2. Это похоже на политики и коды статуса, которые вы видели у других глобальных поставщиков облачных объектных хранилищ, включая Amazon Web Services S3 и Microsoft Azure.

На основе нашего анализа моделей использования клиентами мы уверены, что подавляющее большинство из вас не достигнет пороговых значений ограничения скорости — просто спокойное плавание или открытая дорога, если придерживаться аналогии с шоссе/полосами.

Backblaze также может помочь клиентам, которым необходимо увеличить лимит для тестирования производительности и подтверждения концепции (PoC), восстановления и/или ожидаемых повседневных потребностей.

Нажмите ниже, чтобы узнать подробности:
  • Эта политика ограничена использованием Backblaze B2 Cloud Storage. Использование Backblaze Computer Backup не входит в сферу действия этой политики.
  • Клиенты, хранящие 10 ТБ или меньше, изначально будут иметь возможность загружать до 3000 запросов в минуту и ​​800 мегабит в секунду, а также загружать до 1200 запросов в минуту и ​​200 мегабит в секунду, все на аккаунт. Другие операции API также могут быть ограничены для поддержания потока трафика, но, опять же, это не будет заметно большинству клиентов.
  • Клиенты, хранящие более 10 ТБ данных, включая всех клиентов, которым мы оказывали поддержку в ходе внедрения и/или продления, на данный момент не почувствуют никаких изменений.
  • Анализ трафика и проектирование — это динамическая деятельность, поэтому мы, вероятно, будем со временем пересматривать ограничения в ответ на меняющиеся модели использования, внедряемые нами улучшения и, конечно же, отзывы клиентов. Мы будем объявлять о существенных изменениях здесь, в блоге.
Вы можете посетить нашу документацию API для получения дополнительной информации. Пожалуйста, не стесняйтесь обращаться в нашу службу поддержки с любыми вопросами и/или для активного обсуждения правильных лимитов скорости для удовлетворения ваших уникальных потребностей.
www.backblaze.com/apidocs

Статистика Backblaze Drive за третий квартал 2024

По состоянию на конец третьего квартала 2024 года Backblaze отслеживал 292 647 жестких дисков (HDD) и твердотельных накопителей (SSD) на наших облачных серверах хранения данных, расположенных в наших центрах обработки данных по всему миру. Мы исключили из этого анализа 4100 загрузочных дисков, состоящих из 3344 SSD и 756 HDD. Это оставляет нам 288 547 жестких дисков под управлением для обзора в этом отчете. Мы рассмотрим годовые показатели отказов (AFR) за третий квартал 2024 года и AFR за весь срок службы соответствующих моделей дисков. По ходу дела мы поделимся нашими наблюдениями и идеями по представленным данным и, как всегда, мы с нетерпением ждем, когда вы сделаете то же самое в разделе комментариев в конце поста.

Показатели отказов жестких дисков за Q3 2024
Для нашего квартального анализа за Q3 2024 мы исключаем из рассмотрения следующее: модели дисков, которые не имели по крайней мере 100 дисков в эксплуатации на конец квартала, модели дисков, которые не накопили 10 000 или более дней работы дисков в течение квартала, и отдельные диски, которые превысили температурные характеристики производителя в течение своего срока службы. Удаленный пул составил в общей сложности 471 диск, в результате чего у нас осталось 288 076 дисков, сгруппированных в 29 моделей дисков для нашего анализа за Q3 2024.

В таблице ниже перечислены AFR и связанные данные для этих моделей дисков. Таблица отсортирована по возрастанию размера диска, а затем по возрастанию AFR в пределах размера диска.


Заметки и наблюдения по статистике накопителей за Q3 2024 г.
  • Повышение AFR. Поквартальный AFR продолжает медленно расти, увеличившись с 1,71% во втором квартале 2024 г. до 1,89% в третьем квартале 2024 г. Рост нельзя объяснить устареванием накопителей на 4 ТБ, поскольку наша система миграции накопителей CVT продолжает заменять эти накопители. Как следствие, AFR для оставшихся накопителей на 4 ТБ составил 0,26% в третьем квартале. Основной причиной является сбор накопителей на 8 ТБ, которым сейчас в среднем более семи лет. В целом AFR для накопителей на 8 ТБ вырос до 3,04% в третьем квартале 2024 г. по сравнению с 2,31% во втором квартале. Команда CVT готовится начать миграцию накопителей на 8 ТБ в течение следующих нескольких месяцев.
  • Еще один золотой старичок ушел. Вы могли заметить, что в таблице отсутствуют диски Seagate емкостью 4 ТБ (модель: ST4000DM000). Все хранилища Backblaze, содержащие эти диски, были перенесены, и, как следствие, осталось только два таких диска, что недостаточно для квартального графика. Подробнее об их исчезновении можно прочитать в нашем недавнем посте, посвященном Хэллоуину.
  • Новый диск в городе. В третьем квартале поступили диски Toshiba емкостью 20 ТБ (модель: MG10ACA20TE), заполнив три полных хранилища Backblaze по 1200 дисков каждое. За последние несколько месяцев наша команда по квалификации дисков протестировала модель диска емкостью 20 ТБ, и, пройдя тест, теперь они включены в список моделей дисков, которые мы можем развернуть.
  • Один ноль. Второй квартал подряд модель диска Seagate емкостью 14 ТБ (модель: ST16000NM002J) не имела ни одного отказа. При наличии всего 185 дисков в эксплуатации существует много потенциальных изменений в будущем, но на данный момент они обустраиваются довольно хорошо.
  • Клуб девятилетних. Нет дисков с данными, которые прослужили 10 или более лет, но есть 39 дисков, которым девять лет или больше. Все они — диски HGST емкостью 4 ТБ (модель: HMS5C4040ALE640), распределенные по 31 различным модулям хранения, в пяти различных хранилищах Backblaze и двух различных центрах обработки данных. Доживет ли какой-либо из этих дисков до 10 лет? Вероятно, нет, учитывая, что четыре из пяти хранилищ начали миграцию CVT и будут удалены к концу года. И хотя миграция пятого хранилища пока не запланирована, это всего лишь вопрос времени, когда все используемые нами диски емкостью 4 ТБ исчезнут.

Реактивные и проактивные отказы дисков
В схеме набора данных Drive Stats есть поле с именем failure, которое отображает либо 1 для отказа, либо 0 для отсутствия отказа. На протяжении многих лет в различных сообщениях мы заявляли, что для наших целей отказ диска является либо реактивным, либо проактивным. Кроме того, мы предположили, что неисправные диски в основном равномерно попадают в эти две категории. Мы хотели бы привести некоторые данные для этого числа 50/50, но сначала давайте начнем с определения наших двух категорий отказа дисков, реактивных и проактивных.
  • Реактивный: Реактивный отказ происходит, когда происходит любое из следующих условий: диск выходит из строя и отказывается загружаться или раскручиваться, диск не отвечает на системные команды или диск не остается работоспособным.
  • Проактивный: Проактивный отказ, как правило, это все, что не является реактивным отказом, и обычно происходит, когда один или несколько индикаторов, таких как статистика SMART, проверки FSCK (файловой системы) и т. д., сигнализируют о том, что диск испытывает трудности и отказ диска весьма вероятен. Обычно в дисках, заявленных как проактивные отказы, присутствует множество индикаторов.
Диск, который удаляется и заменяется как проактивный или реактивный отказ, считается отказом диска в Drive Stats, если мы не узнаем иного. Например, диск испытывает ошибки связи и тайм-ауты команд и запланирован на проактивную замену диска. В процессе замены технический специалист центра обработки данных понимает, что диск, по-видимому, не полностью установлен. После аккуратного закрепления диска дальнейшее тестирование не выявляет никаких проблем, и диск больше не считается неисправным. В этот момент набор данных Drive Stats обновляется соответствующим образом.

Как было отмечено выше, набор данных Drive Stats включает статус отказа (0 или 1), но не тип отказа (проактивный или реактивный). Это проект будущего. Чтобы получить разбивку различных типов отказов дисков, нам нужно опросить систему тикетов на обслуживание центра обработки данных, используемую каждым центром обработки данных для регистрации любых действий по обслуживанию Storage Pod и связанного с ними оборудования. Исторически данные об отказах дисков были недоступны, но недавнее обновление программного обеспечения теперь впервые позволяет нам получить доступ к этим данным. Поэтому в духе Drive Stats мы хотели бы поделиться с вами типами отказов дисков.

Статистика по типу отказа дисков
3-й квартал 2024 года станет отправной точкой для любой статистики по типу отказа дисков, которую мы опубликуем в будущем. Для согласованности мы будем использовать те же модели дисков, которые указаны в квартальном отчете Drive Stats, в данном случае — 3-й квартал 2024 года. За этот период было зафиксировано 1361 отказ дисков по 29 моделям дисков.

На самом деле мы используем данные по обслуживанию центров обработки данных уже несколько лет, поскольку каждый квартал мы проверяем отказавшие диски, сообщаемые системой Drive Stats, с помощью записей о техническом обслуживании. Только проверенные отказные диски используются для отчетов Drive Stats, которые мы публикуем ежеквартально, и в данных, которые мы публикуем на нашей веб-странице Drive Stats.

Недавние обновления системы тикетов по обслуживанию центров обработки данных не только упростили процесс проверки отказов дисков, но и теперь мы можем легко объединить два источника. Это дает нам возможность просматривать данные об отказах дисков по нескольким различным атрибутам, как показано в таблицах ниже. Мы начнем с количества отказавших дисков в каждой категории и пойдем оттуда. Это сформирует наши исходные данные.



Очевидно, что здесь можно проанализировать множество вещей, но на данный момент мы просто хотим установить базовый уровень. Далее мы соберем дополнительные данные, чтобы увидеть, насколько последовательны и надежны наши данные с течением времени. Мы сообщим вам, что мы найдем.

Узнать больше о проактивных сбоях
Один из интересных для нас моментов — это различные причины, по которым диск обозначается как проактивный сбой. Сегодня мы регистрируем причины проактивного обозначения в момент, когда диск помечается как требующий замены, но в настоящее время для данного диска допускается несколько причин. Это затрудняет определение основной причины. Конечно, может не быть такого понятия, как основная причина, поскольку часто это комбинация факторов, вызывающих проблему. Этот анализ также может быть интересен. Независимо от точной причины, такие диски находятся в плохом состоянии, и замена деградировавших дисков для защиты хранящихся на них данных является нашим главным приоритетом.

Показатели отказов жестких дисков за весь срок службы
По состоянию на конец третьего квартала 2024 года мы отслеживали 288 547 работающих жестких дисков. Чтобы быть рассмотренным для обзора жизненного цикла, модель привода должна была иметь 500 или более приводов по состоянию на конец третьего квартала 2024 года и иметь более 100 000 накопленных дней привода в течение своего жизненного цикла. Когда мы удалили те модели приводов, которые не соответствовали критериям жизненного цикла, у нас осталось 286 892 привода, сгруппированных в 25 моделей, оставшихся для анализа, как показано в таблице ниже.



Снижение AFR за весь срок службы
Во втором квартале 2024 года AFR за весь срок службы для перечисленных накопителей составил 1,47%. В третьем квартале AFR за весь срок службы снизился до 1,31%, что является значительным снижением от одного квартала к другому для AFR за весь срок службы. Это снижение также противоречит увеличению квартального роста AFR за тот же период. На первый взгляд, это не имеет особого смысла, поскольку увеличение AFR от квартала к кварталу должно увеличивать AFR за весь срок службы. Есть два связанных фактора, которые объясняют эти, казалось бы, противоречивые данные. Давайте посмотрим.

Начнем с таблицы ниже, в которой суммированы различия между статистикой срока службы за второй и третий кварталы.


Для создания набора данных для таблиц AFR срока службы применяются два критерия: во-первых, в конце заданного квартала количество дисков определенной модели должно быть больше 500, а во-вторых, количество дней работы должно быть больше 100 000. Первый критерий гарантирует, что модели дисков соответствуют представленным данным; то есть у нас есть значительное количество каждой из включенных моделей дисков. Второй стандарт гарантирует, что модели дисков, указанные в таблице AFR срока службы, имеют достаточное количество точек данных; то есть у них достаточно дней работы, чтобы быть значимыми.

Как мы видим в таблице выше, в то время как количество дисков увеличилось со второго по третий квартал, количество дней работы дисков и количество отказов дисков значительно снизились. Это объясняется путем сравнения моделей дисков, указанных в таблице срока службы второго квартала, с таблицей срока службы третьего квартала. Подведем итоги.
  • Добавлено: в третьем квартале мы добавили модель диска Toshiba емкостью 20 ТБ (MG10ACA20TE). Во втором квартале в эксплуатации находилось только два таких диска.
  • Удалено: в третьем квартале мы удалили модель диска Seagate объемом 4 ТБ (ST4000DM000), поскольку на конец третьего квартала оставалось всего два диска, что значительно ниже критерия в 500 дисков.
Когда мы удалили диски Seagate объемом 4 ТБ, мы также удалили 80 400 065 дней работы дисков и 5 789 отказов дисков за весь срок службы из расчетов годового показателя… Если бы мы поступили таким образом, список моделей приводов, используемых для вычисления AFR за весь срок службы, теперь включал бы модели приводов, которые мы перестали использовать много лет назад, и включал бы около 100 различных моделей приводов. В результате большинство моделей приводов, используемых для вычисления AFR за весь срок службы, были бы устаревшими, а таблица AFR за весь срок службы содержала бы строки по сути бесполезных данных, не имеющих текущей или будущей ценности. Короче говоря, наличие количества приводов в качестве одного из критериев при вычислении AFR за весь срок службы делает таблицу релевантной и доступной.

Цитата из Drive Stats, Nevermore: Элегия для наших дисков Seagate 4 ТБ



Однажды в унылую полночь, когда я печатал очередной запрос,
Ищу множество странных и любопытных фактов из скрытой истории Drive Stats —
Пока я ждал, время шло, и вдруг статистика начала танцевать.
Строки пустых наборов данных; в базе данных больше ничего не было
«Правда?» — пробормотал я. «В базе данных больше ничего не было…
Поэтому мне нужно изучить эти приводы».
Ах, я отчетливо помню, это было как раз в сентябре.
Я запросил показатели отказов дисков Seagate емкостью четыре терабайта
Я с нетерпением набрал запрос, хотя мои глаза были затуманены.
Количество дисков Seagate по четыре было жутким, жутким; больше ничего.
Печальный и уверенный граф кричал так, как никогда прежде;
Никаких дисков Seagate емкостью четыре терабайта.
Я тут же проверил таблицы, данные, должно быть, полны небылиц;
Я уверен, что есть пропущенные строки и файлы, ожидающие изучения.
Реальность, которую я продолжал игнорировать, — данные Seagate, должно быть, отсутствуют.
После нескольких часов, потраченных на сбор данных, факты потрясли меня до глубины души;
Для наших дисков Seagate емкостью четыре терабайта срок службы подошел к концу.
Этих дисков Seagate больше никогда не будет.
(Приношу свои извинения Эдгару Аллану По)

Вскоре мы опубликуем отчет Backblaze Drive Stats за третий квартал 2024 года, и в таблицах будет отсутствовать старый верный накопитель Seagate ST4000DM000 емкостью 4 ТБ. Эта модель накопителя украшала наши диаграммы и таблицы Drive Stats с самого первого отчета Drive Stats, и было бы ужасной ошибкой, если бы мы позволили этому накопителю незаметно уйти в загробную жизнь. Поэтому в этот канун Дня всех святых мы просто обязаны сказать этим накопителям Seagate «никогда больше».

Первые 45 из этих дисков Seagate 4 ТБ были установлены в 45-дисковый Backblaze Storage Pod в мае 2013 года. Это было до 60-дисковых Storage Pod, Backblaze Vaults и даже Backblaze B2. В течение следующих двух лет каждый квартал добавлялись тысячи новых дисков Seagate 4 ТБ, и к третьему кварталу 2016 года в эксплуатации находилось 34 744 вращающихся душ. Это составляло более 50% всех дисков в эксплуатации на тот момент — вопиющий успех, который не удалось повторить ни одной другой модели дисков.

Увы, это не продлилось долго, так как первая волна 8-терабайтных дисков прибыла в середине 2016 года, и с этим не было закуплено дополнительных 4-терабайтных дисков Seagate. Со временем, когда 4-терабайтные диски Seagate встретили своего производителя, количество уменьшилось, и когда Storage Pods, содержащие эти диски, начали постепенно выводить из эксплуатации в 2018 году, количество сократилось еще больше. Последний гвоздь в крышку гроба был забит, когда в 2023 году наша система миграции дисков CVT зациклилась на замене всех оставшихся 4-терабайтных дисков Seagate, и вот мы здесь.

Что касается тех бесстрашных 45 оригинальных дисков, установленных в мае 2013 года, то в конце их уже не было. Их бесцеремонно заменили в обновлении Storage Pod еще в 2017 году. Несколько из них были воскрешены в качестве замены дисков, но сегодня они существуют только в духовном мире, умерев или были заменены к 2020 году. Тем не менее, многие другие диски Seagate емкостью 4 ТБ прожили долгую счастливую жизнь, и почти 100 из них прослужили более 100 месяцев (8,4 года), прежде чем были отправлены в свое последнее пристанище жнецом CVT.

Итак, пришло время; мы соберемся в круг, скрестим руки, возьмемся за них и проскандируем: «Наши диски Seagate… с четырьмя терабайтами… больше никогда!»

Статистика Backblaze Drive за второй квартал 2024

По состоянию на конец второго квартала 2024 года Backblaze отслеживал 288 665 жестких дисков (HDD) и твердотельных накопителей (SSD) на наших серверах облачного хранения, расположенных в наших центрах обработки данных по всему миру. Мы исключили из этого анализа 3789 загрузочных дисков, состоящих из 2923 твердотельных накопителей и 866 жестких дисков. Это оставляет нам 284 876 жестких дисков под управлением для обзора в этом отчете. Мы рассмотрим годовые показатели отказов (AFR) за второй квартал 2024 года и AFR за весь срок службы соответствующих моделей дисков, а также проверим возраст дисков в зависимости от показателей отказов с течением времени. По ходу дела мы поделимся нашими наблюдениями и идеями по представленным данным и, как всегда, ждем, что вы сделаете то же самое в разделе комментариев в конце поста.

Показатели отказов жестких дисков во втором квартале 2024 г.
Для нашего квартального анализа Q2 2024 мы исключаем из рассмотрения: модели приводов, которые имели не менее 100 приводов в эксплуатации на конец квартала, модели приводов, которые не накопили 10 000 или более дней привода в течение квартала, и отдельные приводы, которые превысили температурные характеристики производителя в течение своего срока службы. Удаленный пул составил в общей сложности 490 приводов, оставив нам 284 386 приводов, сгруппированных в 29 моделей приводов для нашего анализа Q2 2024.

В таблице ниже перечислены AFR и соответствующие данные для этих моделей приводов. Таблица отсортирована от большего к меньшему по размеру привода, а затем по AFR в пределах размера привода.


Заметки и наблюдения по статистике движения за второй квартал 2024 г.
Рост AFR: AFR для Q2 2024 года составил 1,71%. Это выше, чем в Q1 2024 года на 1,41%, но ниже, чем год назад (Q2 2023) на 2,28%. Хотя квартальный рост был немного неожиданным, ожидаются квартальные колебания AFR. Шестнадцать моделей приводов имели AFR 1,71% или ниже, а 13 моделей приводов имели AFR выше.

Два хороших нуля: во втором квартале 2024 года две модели дисков не имели ни одного отказа, Seagate на 14 ТБ (модель: ST14000NM000J) и Seagate на 16 ТБ (модель: ST16000NM002J). У обеих моделей относительно небольшое количество дисков и дней работы за квартал, поэтому их успех несколько сдержан, но у модели диска Seagate на 16 ТБ очень приличный показатель отказов за весь срок службы — 0,57%.

Еще один GOAT ушел: в первом квартале мы перенесли последний из наших 4-терабайтных дисков Toshiba. Во втором квартале мы перенесли последний из наших 6-терабайтных дисков, включая все 6-терабайтные диски Seagate, средний возраст которых составил девять лет (108 месяцев). Эта модель диска Seagate завершила свою карьеру в Backblaze с впечатляющим показателем AFR в 0,86%.

В настоящее время 4-терабайтный Seagate (модель: ST4000DM000) является нашей старейшей моделью дисков для хранения данных, средний возраст которой составляет 99,5 месяцев. Данные с этих дисков планируется перенести в течение следующего квартала или двух с помощью CVT, нашей внутренней системы миграции дисков. Они никогда не прослужат девять лет.

Клуб 10-летних: с переносом 6-терабайтных дисков Seagate, которым исполнилось 10 лет, мы задались вопросом: какой диск с данными является самым старым в эксплуатации? Ответ: диск HGST емкостью 4 ТБ (модель: HMS5C4040ALE640) со сроком службы 9 лет, 11 месяцев и 23 дня по состоянию на конец второго квартала. Увы, хранилище Backblaze, в котором находится этот диск, теперь переносится, как и многие другие диски со сроком службы более девяти лет. Посмотрим в следующем квартале, успеют ли они попасть в Клуб 10-летних до того, как будут выведены из эксплуатации.

Хотя нет ни одного диска с данными со сроком службы 10 лет, есть 11 загрузочных жестких дисков, которые превышают эту отметку. Фактически, один из них, диск WD емкостью 500 ГБ (модель: WD5000BPKT), прослужил более 11 лет. (Псс, не говорите об этом команде CVT.)

Сюрприз от HGST: на протяжении многих лет модели дисков HGST, которые мы использовали, работали очень хорошо. Поэтому, когда диск HGST емкостью 12 ТБ (модель: HUH721212ALN604) появился с AFR 7,17% во втором квартале, это стало новостью. Такие нехарактерные квартальные показатели отказов для этой модели на самом деле появились около года назад, хотя AFR 7,17% является самым большим квартальным значением на сегодняшний день. В результате AFR за весь срок службы вырос с 0,99% до 1,57% за последний год. Хотя AFR за весь срок службы не вызывает тревоги, мы обращаем внимание на эту тенденцию.

Показатели отказов жестких дисков за весь срок службы
По состоянию на конец второго квартала 2024 года мы отслеживали 284 876 работающих жестких дисков. Чтобы быть рассмотренной для обзора жизненного цикла, модель накопителя должна была иметь 500 или более дисков по состоянию на конец второго квартала 2024 года и иметь более 100 000 накопленных дней использования в течение срока службы. Когда мы удалили те модели накопителей, которые не соответствовали критериям жизненного цикла, у нас осталось 283 065 ​​накопителей, сгруппированных в 25 моделей для анализа, как показано в таблице ниже.


Возраст, AFR и змеи
Одной из истин в нашем бизнесе является то, что разные модели дисков выходят из строя с разной скоростью. Наша цель — разработать профиль отказов для данной модели диска с течением времени. Такой профиль может помочь оптимизировать наши стратегии замены и миграции дисков и в конечном итоге сохранить долговечность нашего сервиса облачного хранения.

Для нашей группы дисков с данными мы рассмотрим изменения в годовом показателе годового ресурса (AFR) с течением времени для моделей дисков с не менее чем миллионом дней использования по состоянию на конец второго квартала 2024 года. Это дает нам 23 модели дисков для обзора. Мы разделим модели дисков на две группы: те, средний возраст которых составляет пять лет (60 месяцев) или меньше, и те, средний возраст которых превышает 60 месяцев. Почему именно этот предел? Это типичный гарантийный срок для жестких дисков корпоративного класса.

Начнем с построения графика текущего срока службы AFR для 14 моделей приводов, средний возраст которых составляет 60 месяцев или меньше, как показано на диаграмме ниже.


Давайте рассмотрим модели приводов, охарактеризовав четыре квадранта следующим образом:
  • Квадрант I: Модели приводов в этом квадранте работают хорошо и имеют приемлемый показатель AFR менее 1,5%. Модели приводов справа в этом квадранте могут потребовать немного больше внимания в ближайшие месяцы, чем те, что слева.
  • Квадрант II: Эти модели приводов имеют частоту отказов выше 1,5%, но все еще разумны при AFR около 2% за весь срок службы. Важно то, что AFR не увеличивается значительно со временем.
  • Квадрант III: В этом квадранте сейчас нет приводов, но если бы они были, это не было бы причиной для беспокойства. Почему? Некоторые модели приводов испытывают более высокие показатели отказов на ранней стадии, а затем, следуя кривой ванны, их AFR падает по мере старения.
  • Квадрант IV: Эти модели приводов только начинают развиваться и только начинают формировать свой профиль отказов, что на данный момент является положительным фактором.
На первый взгляд, диаграмма говорит нам, что все выглядит хорошо. Диски в квадранте I работают хорошо, два диска в квадранте II могли бы быть лучше, но все еще приемлемы, и никаких сюрпризов в новых моделях дисков на данный момент нет. Давайте посмотрим, как обстоят дела с моделями дисков, средний возраст которых составляет более 60 месяцев, как в диаграмме ниже.


Есть девять моделей дисков, которые соответствуют критериям среднего возраста, включая диск Seagate 6 ТБ (желтый), диски которого были выведены из эксплуатации во втором квартале. Как вы можете видеть, модели дисков распределены по всем четырем квадрантам. Как и прежде, квадрант I содержит хорошие диски, квадранты II и III — диски, о которых нам нужно беспокоиться, а модели квадранта IV пока выглядят хорошо.

Если бы мы остановились здесь, мы могли бы решить, например, что диски Seagate емкостью 4 ТБ являются первыми в очереди на процесс миграции CVT, но не так быстро. Все эти модели дисков существуют уже не менее пяти лет, и у нас есть их показатели отказов с течением времени. Поэтому вместо того, чтобы полагаться только на момент времени, давайте посмотрим на изменение их показателей отказов с течением времени в приведенной ниже таблице.


Диаграмма-змея, как мы ее называем, показывает частоту отказов в течение срока службы каждой модели привода с течением времени. Мы начали с 24 месяцев, чтобы сделать диаграмму менее запутанной. Независимо от этого, модели приводов сортируются либо в квадрант I, либо в квадрант II, как только их средний возраст превышает 60 месяцев. Давайте рассмотрим приводы в каждом из этих квадрантов.

Квадрант I: Пять из девяти моделей дисков находятся в квадранте I по состоянию на второй квартал 2024 года. Два диска HGST емкостью 4 ТБ (коричневая и фиолетовая линии), а также диск Seagate емкостью 6 ТБ (красная линия) имеют почти вертикальные линии, указывающие на то, что их показатели отказов были постоянны с течением времени, особенно после 60 месяцев эксплуатации. Такая продемонстрированная последовательность с течением времени — это профиль отказов, который нам нравится видеть.

Профиль отказов 8 ТБ Seagate (синяя линия) и 8 ТБ HGST (серая линия) менее постоянны, и каждый из них увеличивает свои показатели отказов по мере старения. В случае диска HGST срок службы AFR вырос примерно с 0,5% до 1,0% за 18-месячный период, начиная с 48 месяцев, прежде чем выровняться. Диску Seagate потребовалось около двух лет, начиная с 60 месяцев, чтобы вырасти с 1,0% до почти 1,5% до выровняться.
Квадрант II: Оставшиеся 4 модели дисков оказались в этом квадранте. Три из моделей, Seagate 8 ТБ (желтая линия), Seagate 10 ТБ (зеленая линия) и HGST 12 ТБ (бирюзовая линия), имеют схожие профили отказов. Все три достигли определенного момента в своем сроке службы, и их кривая начала изгибаться вправо. Другими словами, их показатели отказов со временем ускорились. Хотя Seagate 8 ТБ (желтый) показывает некоторые признаки выравнивания, все три модели будут внимательно следить и заменяться, если эта тенденция сохранится.

Также в квадранте II находится диск Seagate 4 ТБ (черная линия). Эта модель диска активно переносится и заменяется дисками емкостью 16 ТБ и более с помощью процесса CVT. Таким образом, трудно сказать, является ли почти вертикальный профиль отказов функцией процесса замены или выравнивания интенсивности отказов модели диска с течением времени. В любом случае ожидается, что миграция этой модели диска будет завершена в следующем квартале или двух.

Нормальный профиль отказа
Если бы нам пришлось выбрать одну из моделей дисков для представления нормального профиля отказов, это был бы Seagate емкостью 8 ТБ (синяя линия, модель: ST800DM002). Почему? Частота отказов в течение первых 60 месяцев постоянно составляла около 1,0%, прогнозируемого Seagate AFR. Через 60 месяцев AFR увеличился по мере старения диска, как и ожидалось. Вы могли бы подумать, что мы выберем профиль отказов одной из двух моделей дисков HGST емкостью 4 ТБ (коричневая и фиолетовая линии). «Проблема» в том, что их частота отказов значительно ниже любого опубликованного AFR любого производителя дисков. Хотя это здорово для нас, их годовые частоты отказов с течением времени, к сожалению, не являются нормальными.

Может ли ИИ помочь?
Идея использования методов AI/ML для прогнозирования сбоя накопителя существует уже несколько лет, но в качестве первого шага давайте посмотрим, является ли прогнозирование сбоя накопителя проблемой, достойной применения ИИ. Недавно мы провели вебинар « Использование данных облачного хранилища в приложениях и службах AL/ML », в котором мы изложили общие критерии, которые следует использовать при оценке необходимости использования AI/ML для решения определенной проблемы, в данном случае прогнозирования сбоя накопителя. Наиболее существенным критерием, который здесь применяется, является то, что ИИ лучше всего использовать для решения проблемы, для которой вы не можете последовательно применять набор правил для ее решения.

Модель обучается путем взятия исходных данных и применения алгоритма для итеративного объединения и взвешивания нескольких факторов. Выходными данными является модель, которая может быть использована для ответа на вопросы о предмете модели, в данном случае отказе диска. Например, мы обучаем модель, используя данные Drive Stats для данной модели диска за последний год. Затем мы задаем модели вопрос, используя ежедневную статистику SMART диска Z и связанную с ней информацию. Мы используем эти данные в качестве входных данных для модели, и хотя точного соответствия нет, модель будет использовать вывод для разработки ответа вероятности отказа диска Z с течением времени. Таким образом, кажется, что прогнозирование отказа диска было бы хорошим кандидатом для использования ИИ.

Неясно, можно ли применить то, что изучено для одной модели диска, к другой модели диска. Один взгляд на змеиную диаграмму выше наглядно демонстрирует проблему, поскольку профиль отказов для каждой модели диска отличается, иногда радикально отличается. Например, как вы думаете, можно ли обучить модель на дисках Seagate емкостью 4 ТБ (черная линия) и использовать ее для прогнозирования отказов дисков для любой из моделей дисков HGST емкостью 4 ТБ (фиолетовая и коричневая линии)? Ответ может быть «да», но это определенно не кажется вероятным.

При всем при этом, за эти годы было опубликовано несколько исследовательских работ и исследований, в которых пытались определить, можно ли использовать AI/ML для прогнозирования отказов дисков. Мы сделаем обзор этих публикаций в ближайшие пару месяцев и, надеемся, прольем свет на возможность использования AI для точного и своевременного прогнозирования отказов дисков.

Статистика Backblaze Drive за первый квартал 2024

По состоянию на конец первого квартала 2024 года Backblaze отслеживала 283 851 жесткий диск и твердотельный накопитель на наших серверах облачного хранения, расположенных в наших центрах обработки данных по всему миру. Мы исключили из этого анализа 4279 загрузочных дисков, включая 3307 твердотельных накопителей и 972 жестких диска. Таким образом, под нашим управлением остается 279 572 жестких диска, которые необходимо изучить для данного отчета. Мы рассмотрим их годовую частоту отказов (AFR) по состоянию на первый квартал 2024 года, а также углубимся в средний возраст отказов дисков по моделям, размерам дисков и т. д. Попутно мы поделимся своими наблюдениями и мнениями по поводу представленных данных и, как всегда, с нетерпением ждем, когда вы сделаете то же самое в разделе комментариев в конце публикации.

Частота отказов жестких дисков за первый квартал 2024 г.
Мы проанализировали данные статистики 279 572 жестких дисков. В этой группе мы выявили 275 отдельных приводов, температура эксплуатации которых в какой-то момент срока службы превысила спецификации производителя. Таким образом, эти приводы были исключены из наших расчетов AFR.

Остальные 279 297 накопителей были разделены на две группы. Первичную группу составляют модели приводов, у которых на конец квартала работало не менее 100 приводов и которые наработали более 10 000 дней эксплуатации в течение того же квартала. Эта группа состоит из 278 656 накопителей, сгруппированных по 29 моделям накопителей. Вторичная группа содержит оставшийся 641 диск, не отвечающий указанным критериям. Вторичную группу мы рассмотрим позже в этом посте, а сейчас давайте сосредоточимся на первичной группе.

За первый квартал 2024 года мы проанализировали 278 656 жестких дисков, сгруппированных по 29 моделям дисков. В таблице ниже перечислены AFR этих моделей приводов. Таблица отсортирована по размеру диска, затем по AFR и сгруппирована по размеру диска.


Примечания и наблюдения по статистике движения за первый квартал 2024 года
Нисходящий AFR: AFR за первый квартал 2024 года составил 1,41%. Это меньше, чем в четвертом квартале 2023 года (1,53%), а также ниже, чем год назад (первый квартал 2023 года) на 1,54%. Продолжающийся процесс замены старых накопителей емкостью 4 ТБ является основной причиной этого снижения, поскольку AFR в первом квартале 2024 года (1,36%) для когорты накопителей емкостью 4 ТБ снизился с максимума в 2,33% во втором квартале 2023 года.
Несколько хороших нулей: в первом квартале 2024 года у трех моделей накопителей не было сбоев:
Seagate 16 ТБ (модель: ST16000NM002J)
  • 1 квартал 2024 г.: 42 133 дня вождения.
  • Общий стаж вождения: 216 019 дней.
  • Пожизненный AFR: 0,68%
  • Доверительный интервал за весь срок службы: 1,4%
Seagate 8 ТБ (модель: ST8000NM000A)
  • 1 квартал 2024 г.: 19 684 дней вождения.
  • Общий стаж вождения: 106 759 дней.
  • Пожизненная AFR: 0,00%
  • Доверительный интервал за весь срок службы: 1,9%
Seagate 6 ТБ (модель: ST6000DX000)
  • 1 квартал 2024 г.: 80 262 дней вождения.
  • За все время вождения: 4 268 373 дня.
  • Пожизненный AFR: 0,86%
  • Доверительный интервал за весь срок службы: 0,3%
У всех трех накопителей AFR за срок службы составляет менее 1 %, но в случае моделей накопителей емкостью 8 ТБ и 16 ТБ доверительный интервал (95 %) все еще слишком высок. Хотя возможно, что обе модели приводов продолжат работать хорошо, нам бы хотелось, чтобы доверительный интервал был ниже 1%, а лучше — ниже 0,5%, прежде чем мы сможем доверять сроку службы AFR.

С доверительным интервалом 0,3% накопители Seagate емкостью 6 ТБ обеспечили еще четверть нулевых сбоев. В среднем возрасте девяти лет эти влечения продолжают бросать вызов своему возрасту. Они были приобретены и установлены одновременно еще в 2015 году и являются членами единственного хранилища Backblaze Vault емкостью 6 ТБ, которое все еще работает.

Конец очереди: Toshiba емкостью 4 ТБ (модель: MD04ABA400V) не включена в таблицы статистики накопителей за первый квартал 2024 года. Это не было упущением. Последний из этих дисков стал объектом миграции в начале первого квартала, и их данные были безопасно перенесены на нетронутые диски Toshiba емкостью 16 ТБ. Они конкурировали с дисками Seagate емкостью 6 ТБ по возрасту и AFR, но их число росло, и пришло время уходить.
Вторичная группа
Как отмечалось ранее, мы разделили модели поездок на две группы: первичные и вторичные, при этом количество поездок (>100) и количество дней в пути (>10 000) являются показателями, используемыми для разделения групп. Вторичная группа насчитывает в общей сложности 641 накопитель, распределенный по 27 моделям накопителей. Ниже представлена таблица этих моделей приводов.


Вторичную группу в основном составляют модели накопителей, которые являются дисками на замену или кандидатами на миграцию. Несмотря на это, отсутствие наблюдений (дней езды) за период наблюдения слишком мало, чтобы иметь какую-либо уверенность в расчете AFR.

Время от времени второстепенная модель привода будет перемещаться в основную группу. Например, Seagate емкостью 14 ТБ (модель: ST14000NM000J), скорее всего, будет иметь более 100 дисков и 10 000 дней работы во втором квартале. Обратное также возможно, особенно если учесть, что мы продолжаем мигрировать наши модели накопителей емкостью 4 ТБ.

Зачем нужна дополнительная группа?
На практике у нас всегда было две группы; мы просто не назвали их. Раньше мы исключали из квартальных, годовых диаграмм и диаграмм AFR за весь срок службы модели накопителей, у которых не было хотя бы 45 накопителей, а затем увеличили это число до 60 накопителей. Это было нормально, но мы поняли, что нам необходимо также установить минимальное количество дней в пути за период анализа, чтобы повысить уверенность в рассчитанных нами AFR. С этой целью мы установили следующие пороговые значения для моделей приводов, входящих в основную группу.


Мы будем оценивать эти показатели по мере продвижения и при необходимости изменять их. Цель состоит в том, чтобы продолжать предоставлять AFR, которые, как мы уверены, точно отражают приводы в нашей среде.

Средний возраст отказа диска Redux
В отчете «Статистика дисков» за первый квартал 2023 года мы рассмотрели средний возраст, в течение которого диск выходит из строя. Этот обзор был вдохновлен людьми из Secure Data Recovery, которые подсчитали, что на основе анализа 2007 вышедших из строя дисков средний возраст их выхода из строя составил 1051 день или примерно 2 года и 10 месяцев.

Мы применили тот же подход к нашим 17 155 вышедшим из строя дискам и были удивлены, когда средний срок их отказа составил всего 2 года и 6 месяцев. Затем мы поняли, что многие из моделей накопителей, которые все еще использовались, были старше (намного старше), чем в среднем, и, конечно, когда какое-то количество из них выйдет из строя, это повлияет на средний срок отказа для данной модели накопителя.

Чтобы учесть это, мы рассматривали только те модели приводов, которые больше не используются в нашей производственной среде. Мы называем эту коллекцию устаревшими моделями накопителей, поскольку это накопители, которые больше не устаревают и не выходят из строя. Когда мы рассмотрели средний возраст этой вышедшей из эксплуатации группы дисков, средний возраст отказа составил 2 года и 7 месяцев. Да, неожиданно, но мы решили, что нам нужно больше данных, прежде чем делать какие-либо выводы.

Итак, год спустя мы можем увидеть, изменился ли средний возраст выхода из строя дисков, который мы рассчитали в первом квартале 2023 года. Давайте покопаемся.

Как и прежде, мы записали дату, серийный_номер, модель, емкость_диска, отказ и необработанное значение SMART 9 для всех вышедших из строя дисков, имеющихся в наборе данных Drive Stats за апрель 2013 года. Необработанное значение SMART 9 дает нам количество часов, в течение которых привод был в рабочем состоянии. Затем мы удалили загрузочные диски и диски с неполными данными, то есть некоторые значения отсутствовали или были крайне неточны. В результате по состоянию на первый квартал 2023 года у нас осталось 17 155 вышедших из строя дисков.

За прошедший год, со второго квартала 2023 года по первый квартал 2024 года, мы зарегистрировали еще 4406 вышедших из строя дисков. Было 173 диска, которые были либо загрузочными дисками, либо имели неполные данные, в результате чего нам осталось добавить 4233 диска к предыдущим 17 155 вышедшим из строя дискам, всего 21 388 вышедших из строя дисков для оценки.

Когда мы сравниваем первый квартал 2023 года с первым кварталом 2024 года, мы получаем таблицу ниже.


Средний срок отказа для всех моделей дисков Backblaze (2 года и 10 месяцев) соответствует базовому уровню безопасного восстановления данных. Вопрос в том, подтверждает ли это их количество? Мы говорим: пока нет. Почему? Две основные причины.

Во-первых, у нас есть только две точки данных, поэтому у нас нет особой тенденции, то есть мы не знаем, является ли выравнивание реальным или просто временным. Во-вторых, средний возраст отказов активных моделей накопителей (то есть находящихся в производстве) сейчас уже выше (2 года и 11 месяцев), чем базовый уровень Secure Data. Если эта тенденция сохранится, то, когда активные модели накопителей выйдут из эксплуатации, вероятно, увеличится средний срок выхода из строя моделей накопителей, которые не производятся.

Тем не менее, мы можем сравнить цифры по размеру диска и модели диска за период с 1 квартала 2023 года по 1 квартал 2024 года, чтобы посмотреть, сможем ли мы получить какую-либо дополнительную информацию. Начнем со среднего возраста по размеру диска, указанного в таблице ниже.


Наиболее важным наблюдением является то, что для каждого размера диска, на котором были активные модели дисков (зеленые), средний возраст отказов увеличился с 1 квартала 2023 года до 1 квартала 2024 года. Учитывая, что общий средний возраст отказов увеличился за последний год, разумно Ожидается, что некоторые из когорт размера активных дисков увеличатся. Имея это в виду, давайте посмотрим на изменения по моделям приводов за тот же период.

Начиная с моделей накопителей, выведенных из эксплуатации, было три модели накопителей, в общей сложности 196 накопителей, которые перешли из режима активного в режим вывода из эксплуатации с 1 квартала 2023 года по 1 квартал 2024 года. Тем не менее, средний возраст выхода из строя для когорты снятых с эксплуатации накопителей остался на уровне 2 лет 7 месяцев, поэтому мы Я избавлю вас от просмотра диаграммы с 39 моделями накопителей, где более 90% данных не изменились с первого квартала 2023 года по первый квартал 2024 года.

С другой стороны, модели с активным приводом немного интереснее, как мы видим ниже.


Во всех моделях приводов, кроме двух (выделены), средний возраст отказов для каждой модели накопителей увеличился. Другими словами, модели активных приводов на момент выхода из строя в среднем старше, чем год назад. Помните, что мы проверяем средний возраст сбоев дисков, а не средний возраст самого диска.

На этом этапе давайте рассмотрим. Специалисты по безопасному восстановлению данных проверили 2007 вышедших из строя дисков и определили, что средний срок их отказа составил 2 года и 10 месяцев. Мы проверяем это утверждение. На данный момент средний возраст отказа вышедших из эксплуатации моделей накопителей (которые больше не используются в наших условиях) составляет 2 года и 7 месяцев. Это все равно меньше, чем число Secure Data. Но модели приводов, которые все еще находятся в эксплуатации, в настоящее время достигают в среднем 2 лет и 10 месяцев, что позволяет предположить, что как только эти модели приводов будут выведены из эксплуатации, средний возраст отказов вышедших из эксплуатации моделей приводов увеличится.

Исходя из всего этого, мы считаем, что средний срок отказа наших вышедших из эксплуатации моделей приводов в конечном итоге превысит 2 года и 10 месяцев. Кроме того, мы прогнозируем, что средний срок отказа для моделей накопителей, вышедших из эксплуатации, приблизится к 4 годам, как только наши модели накопителей емкостью 4 ТБ будут выведены из эксплуатации.

Годовые показатели отказов производителей
Как мы отмечали в начале отчета, квартальный AFR за первый квартал 2024 года составил 1,41%. Каждый из четырех производителей, которых мы отслеживаем, внес свой вклад в общий показатель AFR, как показано на диаграмме ниже.


Как видите, общий показатель AFR для всех накопителей достиг пика в третьем квартале 2023 года и продолжает снижаться. В основном это связано с выводом из эксплуатации старых накопителей емкостью 4 ТБ, которые находятся дальше по кривой сбоя дисков. Интересно, что все остальные используемые сегодня накопители емкостью 4 ТБ — это модели Seagate или HGST. Поэтому мы ожидаем, что квартальный AFR, скорее всего, продолжит снижаться для этих двух производителей, поскольку в следующем году их модели накопителей емкостью 4 ТБ будут заменены.

Частота отказов жесткого диска в течение всего срока службы
По состоянию на конец первого квартала 2024 года мы отслеживали 279 572 работающих жестких диска. Как отмечалось ранее, мы определили минимальные критерии приемлемости модели привода, которая будет включена в наш анализ для ежеквартальных, годовых и пожизненных обзоров. Чтобы участвовать в проверке срока службы, модель накопителя должна была иметь 500 или более накопителей по состоянию на конец первого квартала 2024 года и иметь более 100 000 накопительных дней эксплуатации за весь срок службы. Когда мы удалили те модели накопителей, которые не соответствовали критериям срока службы, у нас осталось 277 910 накопителей, сгруппированных в 26 моделей, оставшихся для анализа, как показано в таблице ниже.


За тремя исключениями, доверительный интервал для каждой модели привода составляет 0,5 % или менее при достоверности 95 %. Для трех исключений: моделей Seagate емкостью 10 ТБ, Seagate 14 ТБ и Toshiba 14 ТБ частота отказов дисков от квартала к кварталу была слишком различной в течение срока их службы. Эта волатильность оказывает негативное влияние на доверительный интервал.

Сочетание малого срока службы AFR и небольшого доверительного интервала помогает определить модели приводов, которые хорошо работают в наших условиях. В наши дни нас интересуют в основном диски большего размера в качестве замены, целей миграции или новых установок. Используя приведенную выше таблицу, давайте посмотрим, сможем ли мы определить наших лучших производителей емкостью 12, 14 и 16 ТБ. Мы не будем рассматривать накопители емкостью 22 ТБ, поскольку у нас есть только одна модель.


Модели дисков сгруппированы по размеру диска, а затем отсортированы по сроку службы AFR. Давайте рассмотрим каждую из этих групп.
  • Модели накопителей емкостью 12 ТБ. Три модели HGST емкостью 12 ТБ отличаются высокой производительностью, но их трудно найти новые. Кроме того, компания Western Digital, которая некоторое время назад приобрела бизнес по производству приводов HGST, начала использовать собственные номера моделей этих накопителей, так что это может сбить с толку. Если вы нашли оригинальный HGST, убедитесь, что он новый, поскольку с нашей точки зрения покупка отремонтированного диска — это не то же самое, что покупка нового.
  • Модели накопителей емкостью 14 ТБ: первые три модели выглядят надежными — WDC (WUH721414ALE6L4), Toshiba (MG07ACA14TA) и Seagate (ST14000NM001G). Остальные две модели накопителей имеют посредственный срок службы AFR и нежелательные доверительные интервалы.
  • Модели накопителей емкостью 16 ТБ: здесь большой выбор: все шесть моделей накопителей на данный момент работают хорошо, хотя модели WDC на сегодняшний день являются лучшими из лучших.

Backblaze Drive Stats for 2023

По состоянию на 31 декабря 2023 г. под нашим управлением находилось 274 622 накопителя. Из этого числа было 4400 загрузочных дисков и 270 222 диска с данными. Этот отчет будет посвящен нашим дискам с данными. Мы рассмотрим частоту отказов жестких дисков в 2023 году, сравним эти показатели с предыдущими годами и представим статистику отказов за весь срок службы для всех моделей жестких дисков, действующих в нашем центре обработки данных по состоянию на конец 2023 года. Попутно мы делимся своими наблюдениями и понимание представленных данных, и, как всегда, мы с нетерпением ждем, когда вы сделаете то же самое в разделе комментариев в конце публикации.

Частота отказов жестких дисков в 2023 году
По состоянию на конец 2023 года Backblaze отслеживала 270 222 жестких диска, используемых для хранения данных. Для нашей оценки мы исключили из рассмотрения 466 дисков, о которых поговорим позже. Таким образом, для анализа в этом отчете нам осталось 269 756 жестких дисков, охватывающих 35 моделей дисков. В таблице ниже показаны годовые показатели отказов (AFR) на 2023 год для этой коллекции накопителей.



Примечания и наблюдения
Один ноль за год: в 2023 году только у одной модели накопителей не было сбоев — Seagate емкостью 8 ТБ (модель: ST8000NM000A). Фактически, эта модель накопителя не имела ни одного сбоя в нашей среде с тех пор, как мы начали ее развертывание в третьем квартале 2022 года. Этот «ноль» сопровождается некоторыми оговорками: у нас в эксплуатации находится только 204 накопителя, а количество дней эксплуатации накопителя ограничено ( 52 876), но отсутствие сбоев за 18 месяцев — хорошее начало.

Сбои за год: в 2023 году вышло из строя 4189 дисков. Проделав небольшие математические расчеты, выяснилось, что в среднем за последний год мы заменяли неисправный диск каждые два часа и пять минут. Если мы ограничим количество рабочих часов до 40 в неделю, то неисправный диск будет заменяться каждые 30 минут.

Больше моделей приводов. В 2023 году мы добавили в список шесть моделей приводов, исключив из обращения ни одну, в результате чего мы отслеживаем в общей сложности 35 различных моделей.

Две модели уже какое-то время находятся в нашей среде, но к концу 2023 года их производство, наконец, достигнет 60 накопителей.
  • Toshiba 8 ТБ, модель HDWF180: 60 дисков.
  • Seagate 18 ТБ, модель ST18000NM000J: 60 дисков.
Четыре модели были новыми для нашей производственной среды, и к концу 2023 года в их производстве будет 60 или более приводов.
  • Seagate 12 ТБ, модель ST12000NM000J: 195 дисков.
  • Seagate 14 ТБ, модель ST14000NM000J: 77 дисков.
  • Seagate 14 ТБ, модель ST14000NM0018: 66 дисков.
  • WDC 22 ТБ, модель WUH722222ALE6L4: 2442 диска.
Диски трех моделей Seagate используются для замены вышедших из строя дисков емкостью 12 ТБ и 14 ТБ. Диски WDC емкостью 22 ТБ — это новая модель, добавленная в основном как два новых хранилища Backblaze Vault по 1200 дисков в каждом.

Смешивание и подбор моделей приводов
Было время, когда мы покупали дополнительные диски определенной модели, чтобы иметь под рукой замену вышедшего из строя диска диском той же модели. Например, если бы нам нужно было 1200 дисков для Backblaze Vault, мы бы купили 1300, чтобы получить 100 запасных. Со временем мы протестировали комбинации различных моделей накопителей, чтобы убедиться в отсутствии влияния на пропускную способность и производительность. Это позволило нам приобретать диски по мере необходимости, например, диски Seagate, упомянутые ранее. Это сэкономило нам средства на покупке дисков, которые простоял месяцами или годами в ожидании выхода из строя той же модели диска.

Диски, не включенные в этот обзор
Ранее мы отмечали, что из рассмотрения в этом обзоре было исключено 466 накопителей. Эти диски делятся на три категории.
  • Тестирование. Это диски определенной модели, которые мы отслеживаем и собираем данные о статистике дисков, но которые находятся в процессе квалификации как производственные диски. Например, в четвертом квартале оценивались четыре накопителя Toshiba емкостью 20 ТБ.
  • Горячие диски: это диски, которые во время работы подвергались воздействию высоких температур. Мы удалили их из этого обзора, но рассмотрим их отдельно, чтобы узнать больше о том, насколько хорошо диски выдерживают нагрев. Мы подробно рассмотрели эту тему в нашем отчете о статистике поездок за третий квартал 2023 года.
  • Менее 60 дисков: это пережиток того времени, когда мы использовали один сервер хранения из 60 дисков для хранения большого количества отправленных нам данных. Сегодня мы разделяем один и тот же объект на 20 серверов, то есть в Backblaze Vault, что значительно повышает надежность данных. В 2024 году мы собираемся пересмотреть 60 критериев вождения и, скорее всего, заменим этот стандарт минимальным количеством дней вождения за определенный период времени, чтобы стать частью пересмотра.
Тем не менее, в данных Drive Stats за четвертый квартал 2023 года вы найдете эти 466 накопителей, а также данные по 269 756 накопителям, использованным в обзоре.

Сравнение статистики поездок за 2021, 2022 и 2023 годы
В таблице ниже сравниваются AFR за каждый из последних трех лет. В таблицу включены только те модели приводов, которые в 2023 году проработали более 200 000 дней. Данные за каждый год включают в себя этот год только для действующих моделей приводов, представленных на конец каждого года. Таблица отсортирована по размеру диска, а затем по AFR.


Примечания и наблюдения
Чего не хватает? Как уже отмечалось, в 2023 году для попадания в список модели привода потребовалось бы 200 000 или более дней вождения. Такие накопители, как модель WDC емкостью 22 ТБ с 126 956 днями работы и Seagate емкостью 8 ТБ с нулевым сбоем, но только 52 876 дней работы не соответствовали требованиям. Почему 200 тысяч? Каждый квартал мы используем 50 000 дней вождения в качестве минимального числа, которое можно считать статистически значимым. Это не идеальный показатель, но он минимизирует волатильность, иногда связанную с моделями приводов с меньшим количеством дней в пути.

AFR 2023 года вырос: AFR для всех перечисленных моделей приводов составил 1,70% в 2023 году. Для сравнения: 1,37% в 2022 году и 1,01% в 2021 году. На протяжении 2023 года мы наблюдали рост AFR, поскольку средний возраст парка приводов увеличился.. В настоящее время существует девять моделей приводов со средним возрастом шесть лет и более. На эти девять моделей приходится почти 20% производимых приводов. Начиная со второго квартала, мы ускорили переход от старых моделей дисков (обычно емкостью 4 ТБ) к новым моделям дисков (обычно 16 ТБ). Эта программа будет продолжаться в течение 2024 года и далее.

Годовая частота отказов в зависимости от размера диска
Теперь давайте углубимся в цифры и посмотрим, чему еще мы можем научиться. Мы начнем с рассмотрения квартальных AFR по размеру накопителей за последние три года.



Начнем с того, что AFR для накопителей емкостью 10 ТБ (золотая линия) очевидно увеличивается, равно как и накопителей емкостью 8 ТБ (серая линия) и накопителей емкостью 12 ТБ (фиолетовая линия). Каждая из этих групп закончила с AFR 2% или выше в четвертом квартале 2023 года, а во втором квартале 2021 года стартовала с AFR около 1%. С другой стороны, AFR для накопителей емкостью 4 ТБ (синяя линия) первоначально выросла, достигнув пика в 2022 году. и с тех пор снизился. Остальные три размера дисков — 6 ТБ, 14 ТБ и 16 ТБ — колебались в пределах 1% AFR за весь период.

Уменьшив масштаб, мы можем посмотреть на изменение AFR в зависимости от размера накопителя на ежегодной основе. Если сравнить годовые результаты АФР за 2022 и 2023 годы, то получим таблицу ниже. Результаты за каждый год основаны только на данных за этот год.



На первый взгляд может показаться странным, что AFR для накопителей емкостью 4 ТБ снижается. Особенно если учесть, что средний возраст каждой из моделей накопителей емкостью 4 ТБ превышает шесть лет и продолжает стареть. Причина, вероятно, связана с тем, что в 2023 году мы сосредоточимся на переходе с дисков емкостью 4 ТБ на диски емкостью 16 ТБ. Обычно мы сначала переносим самые старые диски, то есть те, которые с большей вероятностью выйдут из строя в ближайшем будущем. Этот процесс удаления самых старых дисков, по-видимому, смягчает ожидаемый рост количества отказов по мере старения диска.

Но не все модели приводов подходят друг другу. Накопителям Seagate емкостью 6 ТБ в среднем более 8,6 лет, и к 2023 году они будут иметь самый низкий AFR для любой группы размеров дисков, что потенциально может стать насмешкой над теорией «возраст связан с отказом», по крайней мере, за последний год. Давайте посмотрим, справедливо ли это для частоты отказов наших накопителей за весь срок службы.

Статистика жесткого диска за весь срок службы
Для нашего обзора AFR за весь срок службы мы оценили 269 756 накопителей 35 моделей. В таблице ниже приведены статистические данные о сроке службы накопителей с апреля 2013 г. по конец четвертого квартала 2023 г.


Текущий срок службы AFR для всех накопителей составляет 1,46%. Это больше, чем в конце прошлого года (четвертый квартал 2022 года), который составлял 1,39%. Это имеет смысл, учитывая квартальный рост AFR в 2023 году, как было зафиксировано ранее. Это также самый высокий показатель AFR за весь срок службы с первого квартала 2021 года (1,49%).

В таблице выше указаны все модели приводов, действующие по состоянию на 31 декабря 2023 г. Чтобы разгрузить список, мы можем удалить те модели, по которым недостаточно данных, чтобы быть статистически значимыми. Это не означает, что AFR, показанный выше, неверен, это просто означает, что нам нужно больше данных, чтобы быть уверенными в частоте отказов, которую мы перечисляем. С этой целью в приведенную ниже таблицу включены только те модели накопителей, срок службы которых составляет два миллиона дней или более. Это дает нам управляемый список из 23 моделей накопителей для рассмотрения.



Используя приведенную выше таблицу, мы можем сравнить частоту отказов дисков в течение всего срока службы различных моделей дисков. На диаграммах ниже мы сгруппировали модели приводов по производителям, а затем построили график модели привода AFR в зависимости от среднего возраста в месяцах каждой модели привода. Относительный размер каждого круга представляет количество поездок в каждой когорте. Горизонтальный и вертикальный масштабы для диаграмм каждого производителя одинаковы.



Примечания и наблюдения
Миграция дисков. При выборе моделей дисков для миграции мы могли бы сначала заменить самые старые модели дисков. В данном случае диски Seagate емкостью 6 ТБ. Учитывая, что дисков всего 882 — это меньше, чем один Backblaze Vault, — влияние на частоту сбоев будет минимальным. Помимо этого, диаграмма ясно показывает, что нам следует продолжать миграцию наших дисков емкостью 4 ТБ, как мы обсуждали в нашей недавней публикации о том, какие диски находятся на каких серверах хранения. Как отмечается в этом сообщении, существуют и другие факторы, такие как возраст сервера, размер сервера (45 против 60 дисков) и частота отказов сервера, которые помогают нам принимать решения.

HGST: На графике слева ниже показана линия тренда AFR (полином второго порядка) для всех наших моделей HGST. Не похоже, что отказ диска постоянно увеличивается с возрастом. На диаграмме справа показаны те же данные с удаленными моделями дисков HGST емкостью 4 ТБ. Результаты больше соответствуют нашим ожиданиям: количество отказов дисков со временем увеличивается. Хотя диски емкостью 4 ТБ работают отлично, они, похоже, не являются эталоном AFR для новых/больших дисков.


Еще один потенциальный фактор, не рассмотренный здесь, заключается в том, что, начиная с моделей накопителей емкостью 8 ТБ, внутри накопителей использовался гелий, и диски были герметизированы. До этого они охлаждались воздухом и не были герметизированы. Так повлиял ли переход на гелий внутри накопителя на профиль отказов накопителей HGST? Интересный вопрос, но с учетом имеющихся у нас данных я не уверен, что мы сможем на него ответить – или что это имеет большое значение, поскольку гелий никуда не денется.

Seagate: На диаграмме слева ниже показана линия тренда AFR (полином второго порядка) для наших моделей Seagate. Как и в случае с моделями HGST, похоже, что количество отказов дисков с возрастом не увеличивается. Из диаграммы справа мы удалили модели накопителей старше семи лет (средний возраст).


Интересно, что линия тренда на двух графиках практически одинакова вплоть до шестилетней точки. Если мы попытаемся заглянуть в прошлое для накопителей емкостью 8 ТБ и 12 ТБ, то не получим четкого направления. Еще больше запутывает ситуацию тот факт, что все три модели, которые мы удалили, поскольку они старше семи лет, являются потребительскими моделями накопителей, а все остальные модели накопителей являются моделями накопителей корпоративного уровня. Повлияет ли это на частоту отказов корпоративных моделей накопителей, когда они прослужат семь, восемь или даже девять лет? Следите за обновлениями.

Toshiba и WDC: Что касается моделей накопителей Toshia и WDC, то имеются данные за чуть более трех лет, и никаких заметных закономерностей обнаружено не было. На сегодняшний день все накопители каждого из этих производителей работают хорошо.

Сбой диска и миграция диска
Выше мы видели одну вещь: прогнозы отказа диска обычно зависят от модели диска. Но мы не переносим модели дисков как группу, вместо этого мы переносим все диски на сервере хранения или в Backblaze Vault. Диски на данном сервере или в хранилище могут быть разных моделей. О том, как мы выбираем серверы и хранилища для миграции, будет рассказано в следующем посте, а пока мы просто скажем, что сбой диска — это еще не все.

Данные статистики жесткого диска
Полный набор данных, использованный для создания таблиц и диаграмм в этом отчете, доступен на нашей странице «Данные тестирования жесткого диска». Вы можете бесплатно скачать и использовать эти данные в своих целях. Все, что мы просим, это три вещи: 1) вы ссылаетесь на Backblaze в качестве источника, если вы используете данные, 2) вы признаете, что несете единоличную ответственность за то, как вы используете данные, и 3) вы не продаете сами эти данные кому-либо; это бесплатно.

Удачи, и дайте нам знать, если найдете что-нибудь интересное.