Статистика Backblaze Drive за третий квартал 2024

По состоянию на конец третьего квартала 2024 года Backblaze отслеживал 292 647 жестких дисков (HDD) и твердотельных накопителей (SSD) на наших облачных серверах хранения данных, расположенных в наших центрах обработки данных по всему миру. Мы исключили из этого анализа 4100 загрузочных дисков, состоящих из 3344 SSD и 756 HDD. Это оставляет нам 288 547 жестких дисков под управлением для обзора в этом отчете. Мы рассмотрим годовые показатели отказов (AFR) за третий квартал 2024 года и AFR за весь срок службы соответствующих моделей дисков. По ходу дела мы поделимся нашими наблюдениями и идеями по представленным данным и, как всегда, мы с нетерпением ждем, когда вы сделаете то же самое в разделе комментариев в конце поста.

Показатели отказов жестких дисков за Q3 2024
Для нашего квартального анализа за Q3 2024 мы исключаем из рассмотрения следующее: модели дисков, которые не имели по крайней мере 100 дисков в эксплуатации на конец квартала, модели дисков, которые не накопили 10 000 или более дней работы дисков в течение квартала, и отдельные диски, которые превысили температурные характеристики производителя в течение своего срока службы. Удаленный пул составил в общей сложности 471 диск, в результате чего у нас осталось 288 076 дисков, сгруппированных в 29 моделей дисков для нашего анализа за Q3 2024.

В таблице ниже перечислены AFR и связанные данные для этих моделей дисков. Таблица отсортирована по возрастанию размера диска, а затем по возрастанию AFR в пределах размера диска.


Заметки и наблюдения по статистике накопителей за Q3 2024 г.
  • Повышение AFR. Поквартальный AFR продолжает медленно расти, увеличившись с 1,71% во втором квартале 2024 г. до 1,89% в третьем квартале 2024 г. Рост нельзя объяснить устареванием накопителей на 4 ТБ, поскольку наша система миграции накопителей CVT продолжает заменять эти накопители. Как следствие, AFR для оставшихся накопителей на 4 ТБ составил 0,26% в третьем квартале. Основной причиной является сбор накопителей на 8 ТБ, которым сейчас в среднем более семи лет. В целом AFR для накопителей на 8 ТБ вырос до 3,04% в третьем квартале 2024 г. по сравнению с 2,31% во втором квартале. Команда CVT готовится начать миграцию накопителей на 8 ТБ в течение следующих нескольких месяцев.
  • Еще один золотой старичок ушел. Вы могли заметить, что в таблице отсутствуют диски Seagate емкостью 4 ТБ (модель: ST4000DM000). Все хранилища Backblaze, содержащие эти диски, были перенесены, и, как следствие, осталось только два таких диска, что недостаточно для квартального графика. Подробнее об их исчезновении можно прочитать в нашем недавнем посте, посвященном Хэллоуину.
  • Новый диск в городе. В третьем квартале поступили диски Toshiba емкостью 20 ТБ (модель: MG10ACA20TE), заполнив три полных хранилища Backblaze по 1200 дисков каждое. За последние несколько месяцев наша команда по квалификации дисков протестировала модель диска емкостью 20 ТБ, и, пройдя тест, теперь они включены в список моделей дисков, которые мы можем развернуть.
  • Один ноль. Второй квартал подряд модель диска Seagate емкостью 14 ТБ (модель: ST16000NM002J) не имела ни одного отказа. При наличии всего 185 дисков в эксплуатации существует много потенциальных изменений в будущем, но на данный момент они обустраиваются довольно хорошо.
  • Клуб девятилетних. Нет дисков с данными, которые прослужили 10 или более лет, но есть 39 дисков, которым девять лет или больше. Все они — диски HGST емкостью 4 ТБ (модель: HMS5C4040ALE640), распределенные по 31 различным модулям хранения, в пяти различных хранилищах Backblaze и двух различных центрах обработки данных. Доживет ли какой-либо из этих дисков до 10 лет? Вероятно, нет, учитывая, что четыре из пяти хранилищ начали миграцию CVT и будут удалены к концу года. И хотя миграция пятого хранилища пока не запланирована, это всего лишь вопрос времени, когда все используемые нами диски емкостью 4 ТБ исчезнут.

Реактивные и проактивные отказы дисков
В схеме набора данных Drive Stats есть поле с именем failure, которое отображает либо 1 для отказа, либо 0 для отсутствия отказа. На протяжении многих лет в различных сообщениях мы заявляли, что для наших целей отказ диска является либо реактивным, либо проактивным. Кроме того, мы предположили, что неисправные диски в основном равномерно попадают в эти две категории. Мы хотели бы привести некоторые данные для этого числа 50/50, но сначала давайте начнем с определения наших двух категорий отказа дисков, реактивных и проактивных.
  • Реактивный: Реактивный отказ происходит, когда происходит любое из следующих условий: диск выходит из строя и отказывается загружаться или раскручиваться, диск не отвечает на системные команды или диск не остается работоспособным.
  • Проактивный: Проактивный отказ, как правило, это все, что не является реактивным отказом, и обычно происходит, когда один или несколько индикаторов, таких как статистика SMART, проверки FSCK (файловой системы) и т. д., сигнализируют о том, что диск испытывает трудности и отказ диска весьма вероятен. Обычно в дисках, заявленных как проактивные отказы, присутствует множество индикаторов.
Диск, который удаляется и заменяется как проактивный или реактивный отказ, считается отказом диска в Drive Stats, если мы не узнаем иного. Например, диск испытывает ошибки связи и тайм-ауты команд и запланирован на проактивную замену диска. В процессе замены технический специалист центра обработки данных понимает, что диск, по-видимому, не полностью установлен. После аккуратного закрепления диска дальнейшее тестирование не выявляет никаких проблем, и диск больше не считается неисправным. В этот момент набор данных Drive Stats обновляется соответствующим образом.

Как было отмечено выше, набор данных Drive Stats включает статус отказа (0 или 1), но не тип отказа (проактивный или реактивный). Это проект будущего. Чтобы получить разбивку различных типов отказов дисков, нам нужно опросить систему тикетов на обслуживание центра обработки данных, используемую каждым центром обработки данных для регистрации любых действий по обслуживанию Storage Pod и связанного с ними оборудования. Исторически данные об отказах дисков были недоступны, но недавнее обновление программного обеспечения теперь впервые позволяет нам получить доступ к этим данным. Поэтому в духе Drive Stats мы хотели бы поделиться с вами типами отказов дисков.

Статистика по типу отказа дисков
3-й квартал 2024 года станет отправной точкой для любой статистики по типу отказа дисков, которую мы опубликуем в будущем. Для согласованности мы будем использовать те же модели дисков, которые указаны в квартальном отчете Drive Stats, в данном случае — 3-й квартал 2024 года. За этот период было зафиксировано 1361 отказ дисков по 29 моделям дисков.

На самом деле мы используем данные по обслуживанию центров обработки данных уже несколько лет, поскольку каждый квартал мы проверяем отказавшие диски, сообщаемые системой Drive Stats, с помощью записей о техническом обслуживании. Только проверенные отказные диски используются для отчетов Drive Stats, которые мы публикуем ежеквартально, и в данных, которые мы публикуем на нашей веб-странице Drive Stats.

Недавние обновления системы тикетов по обслуживанию центров обработки данных не только упростили процесс проверки отказов дисков, но и теперь мы можем легко объединить два источника. Это дает нам возможность просматривать данные об отказах дисков по нескольким различным атрибутам, как показано в таблицах ниже. Мы начнем с количества отказавших дисков в каждой категории и пойдем оттуда. Это сформирует наши исходные данные.



Очевидно, что здесь можно проанализировать множество вещей, но на данный момент мы просто хотим установить базовый уровень. Далее мы соберем дополнительные данные, чтобы увидеть, насколько последовательны и надежны наши данные с течением времени. Мы сообщим вам, что мы найдем.

Узнать больше о проактивных сбоях
Один из интересных для нас моментов — это различные причины, по которым диск обозначается как проактивный сбой. Сегодня мы регистрируем причины проактивного обозначения в момент, когда диск помечается как требующий замены, но в настоящее время для данного диска допускается несколько причин. Это затрудняет определение основной причины. Конечно, может не быть такого понятия, как основная причина, поскольку часто это комбинация факторов, вызывающих проблему. Этот анализ также может быть интересен. Независимо от точной причины, такие диски находятся в плохом состоянии, и замена деградировавших дисков для защиты хранящихся на них данных является нашим главным приоритетом.

Показатели отказов жестких дисков за весь срок службы
По состоянию на конец третьего квартала 2024 года мы отслеживали 288 547 работающих жестких дисков. Чтобы быть рассмотренным для обзора жизненного цикла, модель привода должна была иметь 500 или более приводов по состоянию на конец третьего квартала 2024 года и иметь более 100 000 накопленных дней привода в течение своего жизненного цикла. Когда мы удалили те модели приводов, которые не соответствовали критериям жизненного цикла, у нас осталось 286 892 привода, сгруппированных в 25 моделей, оставшихся для анализа, как показано в таблице ниже.



Снижение AFR за весь срок службы
Во втором квартале 2024 года AFR за весь срок службы для перечисленных накопителей составил 1,47%. В третьем квартале AFR за весь срок службы снизился до 1,31%, что является значительным снижением от одного квартала к другому для AFR за весь срок службы. Это снижение также противоречит увеличению квартального роста AFR за тот же период. На первый взгляд, это не имеет особого смысла, поскольку увеличение AFR от квартала к кварталу должно увеличивать AFR за весь срок службы. Есть два связанных фактора, которые объясняют эти, казалось бы, противоречивые данные. Давайте посмотрим.

Начнем с таблицы ниже, в которой суммированы различия между статистикой срока службы за второй и третий кварталы.


Для создания набора данных для таблиц AFR срока службы применяются два критерия: во-первых, в конце заданного квартала количество дисков определенной модели должно быть больше 500, а во-вторых, количество дней работы должно быть больше 100 000. Первый критерий гарантирует, что модели дисков соответствуют представленным данным; то есть у нас есть значительное количество каждой из включенных моделей дисков. Второй стандарт гарантирует, что модели дисков, указанные в таблице AFR срока службы, имеют достаточное количество точек данных; то есть у них достаточно дней работы, чтобы быть значимыми.

Как мы видим в таблице выше, в то время как количество дисков увеличилось со второго по третий квартал, количество дней работы дисков и количество отказов дисков значительно снизились. Это объясняется путем сравнения моделей дисков, указанных в таблице срока службы второго квартала, с таблицей срока службы третьего квартала. Подведем итоги.
  • Добавлено: в третьем квартале мы добавили модель диска Toshiba емкостью 20 ТБ (MG10ACA20TE). Во втором квартале в эксплуатации находилось только два таких диска.
  • Удалено: в третьем квартале мы удалили модель диска Seagate объемом 4 ТБ (ST4000DM000), поскольку на конец третьего квартала оставалось всего два диска, что значительно ниже критерия в 500 дисков.
Когда мы удалили диски Seagate объемом 4 ТБ, мы также удалили 80 400 065 дней работы дисков и 5 789 отказов дисков за весь срок службы из расчетов годового показателя… Если бы мы поступили таким образом, список моделей приводов, используемых для вычисления AFR за весь срок службы, теперь включал бы модели приводов, которые мы перестали использовать много лет назад, и включал бы около 100 различных моделей приводов. В результате большинство моделей приводов, используемых для вычисления AFR за весь срок службы, были бы устаревшими, а таблица AFR за весь срок службы содержала бы строки по сути бесполезных данных, не имеющих текущей или будущей ценности. Короче говоря, наличие количества приводов в качестве одного из критериев при вычислении AFR за весь срок службы делает таблицу релевантной и доступной.
Выделенные серверы OVH
Выделенные серверы Hetzner

0 комментариев

Оставить комментарий