Статистика Backblaze Drive за второй квартал 2022 года



На конец второго квартала 2022 года Backblaze отслеживала 219 444 жестких диска и твердотельных накопителя в наших центрах обработки данных по всему миру. Из этого числа 4020 — загрузочные диски, 2558 — твердотельные накопители и 1462 — жесткие диски. Позднее в этом квартале мы пересмотрим нашу коллекцию твердотельных накопителей. Сегодня мы сосредоточимся на 215 424 дисках с данными, находящихся под управлением, и проанализируем их ежеквартальную и пожизненную частоту отказов по состоянию на конец второго квартала 2022 года., мы надеемся, что вы сделаете то же самое в разделе комментариев в конце поста.

Частота отказов жестких дисков за весь срок службы
В этом отчете мы немного изменим ситуацию и начнем с частоты отказов за весь срок службы. Мы рассмотрим данные за второй квартал позже в этом посте. По состоянию на 30 июня 2022 года Backblaze отслеживала 215 424 жестких диска, используемых для хранения данных. Для нашей оценки мы исключили из рассмотрения 413 накопителей, поскольку они использовались для целей тестирования или моделей накопителей, в которых не было по крайней мере 60 дисков. Таким образом, у нас остается 215 011 жестких дисков, сгруппированных по 27 различным моделям, для анализа отчета о сроке службы.



Примечания и наблюдения о статистике жизни
Годовая частота отказов за весь срок службы для всех перечисленных выше дисков составляет 1,39%. Это то же самое, что и в прошлом квартале, и меньше, чем 1,45% год назад (30.06.2021).

Беглый взгляд вниз по столбцу годовой частоты отказов (AFR) позволяет определить три диска с самой высокой частотой отказов:
  • HGST 8 ТБ (модель: HUH728080ALE604) — 6,26%.
  • Seagate 14 ТБ (модель: ST14000NM0138) — 4,86%.
  • Toshiba 16 ТБ (модель: MG08ACA16TA на 3,57%).
Что общего между этими тремя моделями? Размер выборки, в нашем случае количество дней вождения, слишком мал, и в этих трех случаях это приводит к широкому диапазону между низкими и высокими значениями доверительного интервала. Чем шире разрыв, тем меньше мы уверены в AFR.

В таблице выше мы перечисляем все модели для полноты, но это делает диаграмму более сложной. Нам нравится упрощать, поэтому давайте удалим те модели накопителей, которые имеют широкие доверительные интервалы, и включим только общедоступные модели накопителей. Мы установим следующие параметры: разрыв 95% доверительного интервала 0,5% или меньше, минимальное значение дней вождения равное одному миллиону, чтобы обеспечить достаточно большой размер выборки, и модели дисков размером 8 ТБ или более. Упрощенная схема приведена ниже.


Подводя итог, можно сказать, что в нашей среде мы на 95 % уверены, что значение AFR, указанное для каждой модели привода, находится между значениями нижнего и верхнего доверительного интервала.

Вычисление годовой частоты отказов
Мы используем термин годовая частота отказов, или AFR, в наших отчетах Drive Stats. Давайте потратим минуту, чтобы объяснить, как мы рассчитываем значение AFR и почему мы делаем это именно так. Формула для данной когорты драйвов:
AFR = (диск_ошибок/(драйв_дней/365)) * 100
Определим используемые термины:
  • Когорта дисков: выбранный набор дисков (обычно по моделям) за определенный период времени (квартал, год, срок службы).
  • AFR: годовая частота отказов, которая применяется к выбранной группе дисков.
  • drive_failures: количество отказавших дисков для выбранной когорты дисков.
  • drive_days: количество дней, в течение которых все диски в выбранной когорте работают в течение определенного периода времени когорты (т. е. квартал, год, срок службы).
Например, для диска Seagate емкостью 16 ТБ в приведенной выше таблице мы подсчитали, что за время жизни этой конкретной когорты дисков произошло 117 отказов дисков и 4 117 553 дня работы. AFR рассчитывается следующим образом:
AFR = (117 / (4 117 553 / 365)) * 100 = 1,04%
Почему мы не используем счетчик дисков?
Наша среда очень динамична, когда речь идет о входе и выходе дисков из системы; диск HGST на 12 ТБ выходит из строя и заменяется Seagate на 12 ТБ, добавляется новое хранилище Backblaze Vault и добавляются 1200 новых дисков Toshiba на 14 ТБ, хранилище дисков Backblaze Vault на 4 ТБ выводится из эксплуатации и т. д. Использование подсчета приводов проблематично, поскольку предполагает стабильное количество приводов в когорте в течение периода наблюдения. Да, мы признаем, что с достаточным количеством математики вы можете сделать эту работу, но вместо того, чтобы возвращаться к колледжу, мы делаем это проще и используем дни поездок, поскольку они учитывают потенциальное изменение количества поездок в течение периода наблюдения и распределяют каждый вклад привода соответственно.

Для полноты картины давайте рассчитаем AFR для диска Seagate емкостью 16 ТБ, используя формулу, основанную на подсчете дисков, учитывая, что было 16 860 дисков и 117 отказов.
Количество дисков AFR = (117 / 16 860) * 100 = 0,69%
Хотя количество дисков AFR намного ниже, предположение о том, что все 16 860 дисков присутствовали в течение всего периода наблюдения (срок службы), неверно. За последний квартал мы добавили 3 601 новый диск, а за последний год добавили 12 003 новых диска. Тем не менее, все они были засчитаны, как если бы они были установлены в первый день. Другими словами, использование AFR для подсчета дисков в нашем случае искажает частоту отказов дисков в нашей среде.

Как мы определяем неисправность диска
Сегодня мы разделяем отказы дисков на две категории: реактивные и упреждающие. Реактивные сбои — это когда диск вышел из строя и не может или не может взаимодействовать с нашей системой. Упреждающие сбои — это когда сбой неизбежен на основании ошибок, о которых сообщает диск, которые подтверждаются проверкой статистики SMART диска. В этом случае диск извлекается до того, как он полностью выйдет из строя.

За последние несколько лет исследователи данных использовали собранные нами статистические данные SMART, чтобы выяснить, могут ли они предсказать отказ диска с использованием различных статистических методологий, а в последнее время — методов искусственного интеллекта и машинного обучения. Способность точно предсказать отказ диска с минимальным количеством ложных срабатываний оптимизирует наши операционные возможности по мере масштабирования нашей платформы хранения.

СМАРТ-статистика
SMART означает технологию самоконтроля, анализа и отчетности и представляет собой систему мониторинга, включенную в жесткие диски, которая сообщает о различных атрибутах состояния данного диска. Каждый день Backblaze записывает и сохраняет статистику SMART с жестких дисков в наших центрах обработки данных. Прочтите этот пост, чтобы узнать больше о статистике SMART и о том, как мы ее используем.

Частота отказов жестких дисков за второй квартал 2022 г.
Для ежеквартального отчета за второй квартал 2022 года мы отследили 215 011 жестких дисков с разбивкой по моделям дисков на 27 различных групп, используя только данные за второй квартал. В таблице ниже перечислены данные для каждой из этих моделей дисков.



Примечания и наблюдения по статистике за второй квартал 2022 года
Срочные новости, OG спотыкается: диски Seagate емкостью 6 ТБ (модель: ST6000DX000) наконец-то потерпели неудачу в этом квартале — на самом деле, две поломки. Учитывая, что это самая старая модель привода в нашем автопарке со средним возрастом 86,7 месяца эксплуатации, ожидается одна-две поломки. Тем не менее, это был первый сбой этой модели накопителя с третьего квартала прошлого года. Мы можем ожидать, что в какой-то момент в будущем эти накопители будут выведены из эксплуатации, но их показатель AFR за весь срок службы составляет всего 0,87%, поэтому они не являются первыми в очереди.

Еще один ноль для следующей OG: следующая старейшая когорта дисков в нашей коллекции, диски Toshiba емкостью 4 ТБ (модель: MD04ABA400V) за 85,3 месяца, не имела ни одного сбоя во втором квартале. Последний сбой был зарегистрирован год назад, во втором квартале 2021 года. Их AFR за время жизни составляет всего 0,79%, хотя разрыв их доверительного интервала за время жизни составляет 1,3%, что, как мы видели, означает, что нам не хватает данных, чтобы быть по-настоящему уверенными в числе AFR.. Тем не менее, при одном сбое в год они могли бы прослужить еще 97 лет — скорее всего, нет.

Больше нулей во втором квартале: в этом квартале три других накопителя не имели сбоев: HGST 8 ТБ (модель: HUH728080ALE604), Toshiba 14 ТБ (модель: MG07ACA14TEY) и Toshiba 16 ТБ (модель: MG08ACA16TA). Как и в случае с Toshiba емкостью 4 ТБ, упомянутой выше, эти диски имеют очень большие разрывы доверительного интервала, обусловленные ограниченным количеством точек данных. Например, у Toshiba емкостью 16 ТБ было больше всех дней работы — 32 064 — среди всех этих моделей накопителей. Нам потребуется не менее 500 000 дней вождения в квартале, чтобы получить доверительный интервал 95%. Тем не менее, вполне возможно, что какой-либо из этих дисков или все они продолжат показывать отличные результаты в ближайшие кварталы, просто мы пока не уверены на 95%.

Работает на выхлопе: диски Seagate емкостью 4 ТБ (модель: ST4000DM000) начинают показывать свой возраст, в среднем 80,3 месяца. Их ежеквартальная частота отказов увеличивалась в каждом из последних четырех кварталов до 3,42% в этом квартале. Мы развернули нашу программу клонирования для этих дисков в рамках нашей программы обеспечения надежности данных, и в течение следующих нескольких месяцев эти диски будут выведены из эксплуатации. Они хорошо послужили нам, но, похоже, они устали после почти семи лет постоянного вращения.

AFR снова увеличивается: во втором квартале AFR увеличился до 1,46% для всех моделей дисков вместе взятых. Это на 1,22% больше, чем в первом квартале 2022 года, и на 1,01% год назад, во втором квартале 2021 года. Стареющие диски Seagate емкостью 4 ТБ являются частью увеличения, но частота отказов дисков Toshiba и HGST также увеличилась за последнее время. год. По-видимому, это связано со старением всего парка приводов, и мы ожидаем, что это число уменьшится по мере вывода из эксплуатации старых приводов в течение следующего года.

Четыре тысячи серверов хранения
В первом абзаце мы отметили наличие 4020 загрузочных дисков. Что может быть неочевидным, так это то, что это соответствует 4020 серверам хранения. Это серверы 4U с 45 или 60 дисками в каждом с дисками размером от 4 ТБ до 16 ТБ. Наименьший размер составляет 180 ТБ (45 дисков по 4 ТБ), а самый большой — 960 ТБ (60 дисков по 16 ТБ). Эти серверы представляют собой сочетание модулей хранения Backblaze и сторонних серверов хранения. Прошло много времени с момента нашего последнего обновления Storage Pod, так что ищите что-нибудь в конце третьего или начале четвертого квартала.

Статистика привода на DEFCON
Если вы будете на DEFCON 30 в Лас-Вегасе, я буду выступать в прямом эфире в Data Duplication Village (DDV) в 13:00. в пятницу, 12 августа. Полностью волонтерский DDV расположен на нижнем уровне административного конференц-центра отеля Flamingo. Мы будем говорить о статистике дисков, твердотельных накопителях, ожидаемом сроке службы дисков, статистике SMART и многом другом. Я надеюсь увидеть вас там.

Данные статистики жесткого диска
Полный набор данных, использованных для создания информации, используемой в этом обзоре, доступен на нашей странице данных тестирования жесткого диска. Вы можете скачать и использовать эти данные бесплатно в своих целях. Все, что мы просим, это три вещи: 1) вы указываете Backblaze в качестве источника, если вы используете данные, 2) вы соглашаетесь с тем, что вы несете единоличную ответственность за то, как вы используете данные, и 3) вы никому не продаете эти данные; это свободно.

Если вам нужны таблицы и диаграммы, используемые в этом отчете, вы можете загрузить файл .zip из облачного хранилища Backblaze B2, который содержит файлы .jpg и/или .xlsx, если применимо.
Удачи и дайте нам знать, если вы найдете что-нибудь интересное.
Выделенные серверы OVH
Выделенные серверы Hetzner

0 комментариев

Оставить комментарий