Статистика Backblaze Drive за 3 квартал 2022

По состоянию на конец третьего квартала 2022 года Backblaze отслеживала 230 897 жестких дисков и твердотельных накопителей в наших центрах обработки данных по всему миру. Из этого числа 4200 являются загрузочными дисками, из них 2778 твердотельных накопителей и 1422 жестких диска. Ранее твердотельные накопители были рассмотрены в нашем недавно опубликованном полугодовом отчете о твердотельных накопителях. Сегодня мы сосредоточимся на 226 697 дисках с данными, находящихся под управлением, и проанализируем их ежеквартальную и пожизненную частоту отказов по состоянию на конец третьего квартала 2022 года.

Мы также рассмотрим взаимосвязь между частотой отказов жестких дисков и стоимостью жестких дисков. Попутно мы будем делиться нашими наблюдениями и выводами о представленных данных, и, как всегда, мы надеемся, что вы сделаете то же самое в разделе комментариев в конце поста.

Показатели отказов жестких дисков в третьем квартале 2022 г.
Начнем с обзора наших данных за третий квартал 2022 года. В этом квартале мы отследили 226 697 жестких дисков, используемых для хранения данных. Для нашей оценки мы исключили из рассмотрения 388 дисков, поскольку они использовались для целей тестирования или модели дисков, в которых не было по крайней мере 60 дисков. Это оставляет нам 226 309 жестких дисков, сгруппированных по 29 различным моделям для анализа.



Примечания и наблюдения по статистике за второй квартал 2022 года
Ноль сбоев в третьем квартале. В этом квартале не было сбоев у трех дисков: HGST 8 ТБ (модель: HUH728080ALE604), Seagate 8 ТБ (модель: ST8000NM000A) и WDC 16 ТБ (модель: WUH721816ALE6L0). Для HGST на 8 ТБ это был второй квартал подряд без сбоев. Из трех только модель WDC имеет достаточно данных за весь срок службы (дней в пути), чтобы ее можно было использовать с расчетной годовой интенсивностью отказов (AFR). Как мы увидим позже в этом обзоре, эта модель WDC на 14 ТБ имеет AFR за весь срок службы 0,11% с диапазоном доверительного интервала всего 0,30 при доверительном уровне 95%.

Новые диски в городе. В данных этого квартала есть две новые модели: Seagate емкостью 8 ТБ (модель: ST8000NM000A) и Seagate емкостью 16 ТБ (модель: ST16000NM002J). Ни у того, ни у другого пока нет достаточно данных, чтобы быть интересными, но, как отмечалось выше, у Seagate емкостью 8 ТБ не было ни одного сбоя в первом квартале эксплуатации. Эти дополнения дают нам 29 различных моделей, которые мы отслеживаем, по сравнению с 27 в предыдущем квартале.

29 моделей разбиты по производителям следующим образом:
  • HGST: 7 моделей
  • Seagate: 13 моделей
  • Тошиба: 6 моделей
  • ВДК: 3 модели
На приведенной ниже диаграмме показано изменение нашего парка приводов за последние шесть лет в разбивке по производителям.


Старая гвардия чувствует себя старой: все три самых старых диска, которые мы используем в настоящее время, демонстрируют признаки своего возраста, поскольку каждый из них испытал увеличение AFR со второго по третий квартал 2022 года, как показано ниже.



Обратите внимание, что у Toshiba емкостью 4 ТБ в третьем квартале 2022 года было только два сбоя. Высокий показатель AFR (8,25%) связан с ограниченным количеством дней работы в квартале (8 849) всего с 95 дисками. Кажется, что у всех трех шпиндели, приводы и носители начинают изнашиваться примерно после семи лет постоянного вращения.

Квартальный AFR продолжает расти: AFR за третий квартал 2022 года составил 1,64%, увеличившись с 1,46% во втором квартале 2022 года и с 1,10% год назад. Как отмечалось ранее, это связано со старением всего парка приводов, и мы ожидаем, что это число уменьшится по мере того, как старые приводы будут выведены из эксплуатации и заменены в течение следующего года. Возможным предвестником того, что грядет, являются модели емкостью 16 ТБ, у которых в третьем квартале 2022 года показатель AFR составил 0,80 %. Поскольку эти диски используются для замены устаревших дисков емкостью 4 ТБ, квартальный показатель AFR должен снизиться.

Отказ жесткого диска по сравнению со стоимостью жесткого диска
Один из вопросов, который возникает, заключается в том, почему мы будем продолжать покупать модель накопителя, которая имеет более высокую годовую частоту отказов по сравнению с моделью сопоставимого размера, но более дорогой. Две основные причины: во-первых, мы можем это сделать, поскольку архитектура нашего облачного хранилища Backblaze Vault рассчитана на сбой диска. Во-вторых, изучая данные, такие как статистика дисков и тому подобное, мы усердно работаем, чтобы понять нашу среду изнутри. Понимание взаимосвязи между стоимостью и отказом диска является одним из таких уроков. Ниже приведен простой пример с использованием трех вымышленных моделей дисков емкостью 14 ТБ: Модель 1, Модель 2 и Модель 3.


Давайте посмотрим на разные разделы (т.е. синие строки) этой таблицы.

Стоимость диска: у каждой модели своя цена: низкая (225 долларов), средняя (250 долларов) и высокая (275 долларов). Мы бы купили одинаковое количество дисков (5000) каждой модели и получили бы стоимость каждой модели.

Годовой отказ привода: это показатель AFR для каждой модели привода. В этом примере мы присвоили модель с самой низкой ценой самой высокой частоте отказов, модель с самой высокой ценой — самой низкой частоте отказов и так далее. На практике мы будем использовать наши собственные номера AFR для данной модели, которую мы рассматриваем для покупки. Несмотря на это, мы получаем годовое количество отказавших дисков для каждой модели.

Ежегодные затраты на замену: затраты на рабочую силу покрывают человеческие затраты, связанные с выявлением неисправности, возвратом и заменой диска. Стоимость диска здесь равна нулю, поскольку предполагается, что все диски возвращаются для кредита или замены производителю или его агенту. Нулевое значение здесь может быть не всегда; отсюда и позиция. В любом случае вычисляются ежегодные затраты на замену отказавших дисков для каждой модели.

Стоимость замены в течение всего срока службы. Умножьте количество лет, в течение которых вы ожидаете, что модель диска будет служить, на ежегодные затраты на замену отказавших дисков. Все это дает нам общую стоимость каждой модели привода — персикового раздела. В нашем примере самая дорогая модель (модель 3) является самым дорогим приводом в течение пятилетнего ожидаемого срока службы, а самая дешевая модель привода (модель 1) является наименее дорогой за тот же период, даже при более высокой частоте отказов в годовом исчислении..

Но мы еще не закончили. Следующий вопрос: какой должна быть годовая частота отказов для наименее дорогостоящего варианта, модели 1, чтобы общая стоимость через пять лет была такой же, как у модели 2, а затем у модели 3? Другими словами, сколько неудач мы можем терпеть, прежде чем наше первоначальное решение о покупке окажется неверным? Когда мы подсчитываем цифры, мы получаем следующее:
  • Модель 1 и Модель 2 имеют одинаковую общую стоимость привода (1 325 000 долл. США), если годовая частота отказов для Модели 1 составляет 2,67%.
  • Модель 1 и Модель 3 имеют одинаковую общую стоимость привода (1 412 500 долл. США), если годовая частота отказов для Модели 1 составляет 3,83%.
Представленная модель представляет собой упрощенную версию того, как мы думаем о решениях о покупке дисков, используя годовую частоту отказов дисков как часть уравнения. Вы можете сделать эту модель более точной и сложной, добавив изменения частоты отказов дисков с течением времени (кривая ванны) и пропорционально распределив стоимость возврата неисправных дисков с годами. Нужно ли это, решать вам.

Необходимость такой модели важна в нашем бизнесе, если вы заинтересованы в оптимизации эффективности вашей платформы облачного хранения. В противном случае, просто роботизированная покупка самых дорогих или наименее дорогих дисков означает закрытие глаз на расходную часть бухгалтерской книги.

На уровне индивидуального или небольшого офиса/домашнего офиса ваше решение о покупке диска требует гораздо меньше математики и часто сводится к тому, какой диск вы можете себе позволить. Тем не менее, вы все равно должны попытаться провести некоторые исследования. Наша статистика дисков может помочь, но в любом случае у вас должен быть надежный план резервного копирования, поскольку ни один диск, который вы можете купить, не является надежным.

Частота отказов жестких дисков за весь срок службы
По состоянию на 30 сентября 2022 года Backblaze отслеживала 226 697 жестких дисков, используемых для хранения данных. Для нашей оценки мы исключили из рассмотрения 388 дисков, поскольку они использовались для целей тестирования или модели дисков, в которых не было по крайней мере 60 дисков. Таким образом, у нас остается 226 309 жестких дисков, сгруппированных по 29 различным моделям, для анализа отчета о сроке службы.


Примечания и наблюдения о статистике жизни
Годовая частота отказов за весь срок службы для всех перечисленных выше дисков составляет 1,41%. Это небольшое увеличение по сравнению с предыдущим кварталом на 1,39%, но ниже, чем год назад (3 квартал 2021 г.), который составлял 1,45%.

Обычную осторожность следует применять к тем моделям дисков, которые имеют широкие доверительные интервалы, один процент или больше. Такой разрыв указывает на то, что данных недостаточно или что данные, которые у нас есть, трудно предсказать.

Тем не менее, у нас есть множество моделей накопителей, по которым у нас есть достоверные данные. Ниже мы извлекли модели 12 ТБ, 14 ТБ и 16 ТБ из приведенной выше таблицы срока службы, у которых показатель AFR за весь срок службы составляет менее 1 %, а доверительный интервал — 0,5 % или менее. Это жесткие диски, которые до этого момента демонстрировали стабильную надежность в нашей среде.


Данные статистики жесткого диска
Полный набор данных, использованных для создания информации в этом обзоре, доступен на нашей странице данных тестирования жесткого диска. Вы можете скачать и использовать эти данные бесплатно в своих целях. Все, что мы просим, это три вещи: 1) вы указываете Backblaze в качестве источника, если вы используете данные, 2) вы соглашаетесь с тем, что вы несете единоличную ответственность за то, как вы используете данные, и 3) вы никому не продаете эти данные; это свободно.

Если вам нужны таблицы и диаграммы, используемые в этом отчете, вы можете загрузить файл .zip из облачного хранилища Backblaze B2, который содержит файлы .jpg и/или .xlsx, если применимо.

Отчет о статистике накопителей SSD за 2022 за середину года



Добро пожаловать в полугодовой выпуск SSD отчета Backblaze Drive Stats. Этот отчет основан на опубликованном ранее отчете SSD за 2021 год и основан на данных о SSD, которые мы используем в качестве загрузочных дисков сервера хранения на нашей платформе Backblaze Cloud Storage. Мы рассмотрим показатели отказов этих дисков за квартал и за весь срок службы, а позже в этом отчете мы также сравним производительность этих твердотельных накопителей с жесткими дисками, которые мы также используем в качестве загрузочных. Попутно мы будем предлагать наблюдения и выводы по представленным данным и, как всегда, ждем ваших вопросов и комментариев.

Обзор
Загрузочные диски в нашей среде не только загружают серверы хранения: они также хранят файлы журналов и временные файлы, созданные сервером хранения. Каждый день загрузочный диск будет читать, записывать и удалять файлы в зависимости от активности самого сервера хранения. В наших ранних серверах хранения мы использовали жесткие диски исключительно в качестве загрузочных дисков. Мы начали использовать твердотельные накопители в этом качестве в четвертом квартале 2018 года. С тех пор твердотельные накопители были установлены на всех новых серверах хранения, а также на всех серверах с неисправными загрузочными жесткими дисками.

Полугодовые результаты SSD по кварталам
По состоянию на 30 июня 2022 г. в наших серверах хранения было 2558 твердотельных накопителей. Это сопоставимо с 2200 твердотельными накопителями, о которых мы сообщили в нашем отчете о твердотельных накопителях за 2021 год. Мы начнем с представления и обсуждения квартальных данных за каждый из последних двух кварталов (1-й квартал 2022 года и 2-й квартал 2022 года).


Примечания и наблюдения
Форм-фактор: все перечисленные выше диски имеют стандартный форм-фактор 2,5 дюйма, за исключением моделей Dell (DELLVOSS VD) и Micron (MTFDDAV240TCB), каждая из которых имеет форм-фактор M.2.

Больше всего добавленных дисков: со времени нашего последнего отчета о SSD, закончившегося в четвертом квартале 2021 года, Crucial (модель: CT250MX500SSD1) лидирует с добавлением 192 новых дисков, за ним следует 101 новый диск DELL (модель: DELLBOSS VD) и 42 диска WDC (модель: WDS250G2B0A).

Новые модели дисков: во втором квартале 2022 года мы добавили две новые модели твердотельных накопителей, обе от Seagate: модель на 500 ГБ: ZA500CM10003 (3 диска) и модель на 250 ГБ: ZA250NM1000 (18 дисков). Ни у одного из них нет достаточного количества дисков или дней, чтобы сделать какие-либо выводы, хотя у каждого из них не было сбоев, так что хорошее начало.

Crucial не критичен: в нашем предыдущем отчете о SSD некоторые читатели выразили несогласие с высокой частотой отказов, о которой мы сообщили для Crucial SSD (модель: CT250MX500SSD1), хотя мы заметили, что это было с очень ограниченным объемом данных. Теперь, когда наши диски Crucial отлажены, у нас не было сбоев ни в первом, ни во втором квартале. Пожалуйста, отзовите собак.

Один удар, и вы выбыли: у трех дисков был только один отказ в данном квартале, но опубликованный ими AFR был заметным: модель WDC WDS250G2B0A — 10,93%, Micron — модель MTFDDAV240TCB — 4,52% и модель Seagate: SSD — 3,81 %. Конечно, если бы у любой из этих моделей было на 1 отказ меньше, их AFR был бы нулевым, зип, бупкус, нада — вы понимаете.

Это все хорошо: для любой данной модели диска в этой когорте твердотельных накопителей мы хотели бы видеть как минимум 100 дисков и 10 000 дисково-дней в данном квартале как минимум, прежде чем мы начнем считать расчетный AFR «разумным». Тем не менее, квартальные данные могут быть нестабильными, поэтому давайте теперь рассмотрим данные для каждого из этих дисков за время их существования.

Ежегодная частота отказов твердотельных накопителей за весь срок их службы
По состоянию на конец второго квартала 2022 года в наших серверах хранения было 2558 твердотельных накопителей. Приведенная ниже таблица основана на данных о сроке службы моделей накопителей, которые были активны на конец второго квартала 2022 года.


Примечания и наблюдения
Годовая частота отказов за весь срок службы (AFR): данные за весь срок службы являются кумулятивными за указанный период, в данном случае с четвертого квартала 2018 года по второй квартал 2022 года. По мере старения твердотельных накопителей можно использовать частоту отказов за весь срок службы, чтобы увидеть тенденции с течением времени. Мы увидим, как это работает, в следующем разделе, когда мы сравним годовую частоту отказов твердотельных накопителей и жестких дисков с течением времени.

Падение частоты отказов?: AFR за весь срок службы для всех твердотельных накопителей во втором квартале 2022 г. составил 0,92%. Это меньше, чем 1,04% в конце 2021 года, но точно такое же, как AFR во втором квартале 2021 года, составляющий 0,92%.

Доверительные интервалы. Как правило, чем больше у вас данных и чем более они последовательны, тем более вы уверены в своих прогнозах, основанных на этих данных. Для твердотельных накопителей нам нравится видеть доверительный интервал 1,0% или менее между низким и высоким значениями, прежде чем мы будем довольны расчетным AFR. Это не означает, что модели дисков с доверительным интервалом более 1,0% неверны, это просто означает, что мы хотели бы получить больше данных, чтобы быть уверенными.

Говоря о доверительных интервалах: из приведенной выше таблицы вы можете заметить, что три диска с самой высокой годовой частотой отказов за весь срок службы также имеют значительные доверительные интервалы.

И наоборот, есть три диска с доверительным интервалом 1% или меньше, как показано ниже:


Из этих трех дисковод Dell кажется лучшим. Это накопитель серверного класса в форм-факторе M.2, но для многих из нас он может быть вне диапазона цен, поскольку в настоящее время он продается у Dell за 468,65 долларов. Два оставшихся диска явно ориентированы на потребителя и имеют традиционный форм-фактор SSD. Модель Seagate ZA250CM10003 больше не продается как новая, только отремонтированная, а модель Seagate ZA250CM10002 в настоящее время доступна на Amazon за 45 долларов США.

Годовая частота отказов твердотельных накопителей в сравнении с жесткими дисками
В прошлом году мы сравнили частоту отказов твердотельных и жестких дисков, когда задались вопросом: действительно ли твердотельные накопители более надежны, чем жесткие диски? В то время ответ был «может быть». Теперь у нас есть данные за год, чтобы помочь ответить на этот вопрос, но сначала немного предыстории, чтобы наверстать упущенное.

Все твердотельные и жесткие диски, о которых мы сообщаем, являются загрузочными дисками. Они выполняют те же функции: загружают серверы хранения, записывают лог-файлы, служат временным хранилищем статистики SMART и так далее. Другими словами, они выполняют одни и те же задачи. Как отмечалось ранее, до конца 2018 года мы использовали жесткие диски, а затем перешли на твердотельные накопители. Это создает ситуацию, когда две когорты находятся на разных позициях соответствующих кривых ожидаемой продолжительности жизни.

Чтобы объективно сравнить твердотельные и жесткие диски, мы контролировали средний возраст двух когорт, так что твердотельные накопители, возраст которых в среднем составлял один год, сравнивались с жесткими дисками, возраст которых в среднем составлял один год, и так далее. На приведенной ниже диаграмме показаны результаты за второй квартал 2021 года, поскольку мы учитывали средний возраст двух когорт.


Во втором квартале 2021 года (4-й год на графике для твердотельных накопителей) твердотельные накопители следовали за частотой отказов жестких дисков с течением времени, хотя и с немного более низким показателем AFR. Но было неясно, будет ли частота отказов когорты твердотельных накопителей по-прежнему соответствовать частоте отказов жестких дисков, сгладится или окажется где-то посередине.

Теперь, когда у нас есть данные еще за один год, ответ кажется очевидным, как показано на приведенной ниже диаграмме, которая основана на данных за второй квартал 2022 года и дает нам данные SSD за 5-й год.


И победителем становится…
На данный момент мы можем обоснованно утверждать, что твердотельные накопители более надежны, чем жесткие диски, по крайней мере, при использовании в качестве загрузочных дисков в нашей среде. Это подтверждает анекдотические истории и обоснованные предположения, сделанные нашими читателями за последний год или около того. Отличная работа.

Мы будем продолжать собирать и представлять данные SSD на регулярной основе, чтобы подтвердить эти выводы и посмотреть, что будет дальше. Совершенно очевидно, что частота отказов твердотельных накопителей в конечном итоге начнет расти. Также возможно, что в какой-то момент твердотельные накопители могут удариться о стену, возможно, когда они начнут достигать своих пределов износа носителя. К этому моменту в ближайшие месяцы мы рассмотрим статистику SMART для наших твердотельных накопителей и посмотрим, как они связаны с отказом диска. У нас также есть некоторая собственная неподтвержденная информация, которую мы попытаемся подтвердить о том, насколько далеко за пределами износа носителя вы можете продвигать SSD. Следите за обновлениями.

Данные статистики SSD
Данные, собранные и проанализированные для этого обзора, доступны на нашей странице данных тестирования жесткого диска. Вы найдете данные SSD и HDD в одних и тех же файлах, и вам придется использовать номер модели, чтобы найти нужные диски, поскольку нет поля для обозначения диска как SSD или HDD. Вы можете скачать и использовать эти данные бесплатно в своих целях. Все, что мы просим, ​​это три вещи: 1) вы указываете Backblaze в качестве источника, если вы используете данные, 2) вы соглашаетесь с тем, что несете единоличную ответственность за то, как вы используете данные, и 3) вы никому не продаете эти данные — они бесплатно.

Вы также можете загрузить данные Backblaze Drive Stats через репозиторий SNIA IOTTA Trace Repository, если это необходимо. Те же данные; вам просто нужно соблюдать перечисленные условия лицензии. Спасибо Джеффу Куеннингу и Манджари Сентилкумару за то, что они добровольно потратили свое время и умственные способности, чтобы это произошло. Потрясающая работа.

Удачи и дайте нам знать, если вы найдете что-нибудь интересное.

Статистика Backblaze Drive за второй квартал 2022 года



На конец второго квартала 2022 года Backblaze отслеживала 219 444 жестких диска и твердотельных накопителя в наших центрах обработки данных по всему миру. Из этого числа 4020 — загрузочные диски, 2558 — твердотельные накопители и 1462 — жесткие диски. Позднее в этом квартале мы пересмотрим нашу коллекцию твердотельных накопителей. Сегодня мы сосредоточимся на 215 424 дисках с данными, находящихся под управлением, и проанализируем их ежеквартальную и пожизненную частоту отказов по состоянию на конец второго квартала 2022 года., мы надеемся, что вы сделаете то же самое в разделе комментариев в конце поста.

Частота отказов жестких дисков за весь срок службы
В этом отчете мы немного изменим ситуацию и начнем с частоты отказов за весь срок службы. Мы рассмотрим данные за второй квартал позже в этом посте. По состоянию на 30 июня 2022 года Backblaze отслеживала 215 424 жестких диска, используемых для хранения данных. Для нашей оценки мы исключили из рассмотрения 413 накопителей, поскольку они использовались для целей тестирования или моделей накопителей, в которых не было по крайней мере 60 дисков. Таким образом, у нас остается 215 011 жестких дисков, сгруппированных по 27 различным моделям, для анализа отчета о сроке службы.



Примечания и наблюдения о статистике жизни
Годовая частота отказов за весь срок службы для всех перечисленных выше дисков составляет 1,39%. Это то же самое, что и в прошлом квартале, и меньше, чем 1,45% год назад (30.06.2021).

Беглый взгляд вниз по столбцу годовой частоты отказов (AFR) позволяет определить три диска с самой высокой частотой отказов:
  • HGST 8 ТБ (модель: HUH728080ALE604) — 6,26%.
  • Seagate 14 ТБ (модель: ST14000NM0138) — 4,86%.
  • Toshiba 16 ТБ (модель: MG08ACA16TA на 3,57%).
Что общего между этими тремя моделями? Размер выборки, в нашем случае количество дней вождения, слишком мал, и в этих трех случаях это приводит к широкому диапазону между низкими и высокими значениями доверительного интервала. Чем шире разрыв, тем меньше мы уверены в AFR.

В таблице выше мы перечисляем все модели для полноты, но это делает диаграмму более сложной. Нам нравится упрощать, поэтому давайте удалим те модели накопителей, которые имеют широкие доверительные интервалы, и включим только общедоступные модели накопителей. Мы установим следующие параметры: разрыв 95% доверительного интервала 0,5% или меньше, минимальное значение дней вождения равное одному миллиону, чтобы обеспечить достаточно большой размер выборки, и модели дисков размером 8 ТБ или более. Упрощенная схема приведена ниже.


Подводя итог, можно сказать, что в нашей среде мы на 95 % уверены, что значение AFR, указанное для каждой модели привода, находится между значениями нижнего и верхнего доверительного интервала.

Вычисление годовой частоты отказов
Мы используем термин годовая частота отказов, или AFR, в наших отчетах Drive Stats. Давайте потратим минуту, чтобы объяснить, как мы рассчитываем значение AFR и почему мы делаем это именно так. Формула для данной когорты драйвов:
AFR = (диск_ошибок/(драйв_дней/365)) * 100
Определим используемые термины:
  • Когорта дисков: выбранный набор дисков (обычно по моделям) за определенный период времени (квартал, год, срок службы).
  • AFR: годовая частота отказов, которая применяется к выбранной группе дисков.
  • drive_failures: количество отказавших дисков для выбранной когорты дисков.
  • drive_days: количество дней, в течение которых все диски в выбранной когорте работают в течение определенного периода времени когорты (т. е. квартал, год, срок службы).
Например, для диска Seagate емкостью 16 ТБ в приведенной выше таблице мы подсчитали, что за время жизни этой конкретной когорты дисков произошло 117 отказов дисков и 4 117 553 дня работы. AFR рассчитывается следующим образом:
AFR = (117 / (4 117 553 / 365)) * 100 = 1,04%
Почему мы не используем счетчик дисков?
Наша среда очень динамична, когда речь идет о входе и выходе дисков из системы; диск HGST на 12 ТБ выходит из строя и заменяется Seagate на 12 ТБ, добавляется новое хранилище Backblaze Vault и добавляются 1200 новых дисков Toshiba на 14 ТБ, хранилище дисков Backblaze Vault на 4 ТБ выводится из эксплуатации и т. д. Использование подсчета приводов проблематично, поскольку предполагает стабильное количество приводов в когорте в течение периода наблюдения. Да, мы признаем, что с достаточным количеством математики вы можете сделать эту работу, но вместо того, чтобы возвращаться к колледжу, мы делаем это проще и используем дни поездок, поскольку они учитывают потенциальное изменение количества поездок в течение периода наблюдения и распределяют каждый вклад привода соответственно.

Для полноты картины давайте рассчитаем AFR для диска Seagate емкостью 16 ТБ, используя формулу, основанную на подсчете дисков, учитывая, что было 16 860 дисков и 117 отказов.
Количество дисков AFR = (117 / 16 860) * 100 = 0,69%
Хотя количество дисков AFR намного ниже, предположение о том, что все 16 860 дисков присутствовали в течение всего периода наблюдения (срок службы), неверно. За последний квартал мы добавили 3 601 новый диск, а за последний год добавили 12 003 новых диска. Тем не менее, все они были засчитаны, как если бы они были установлены в первый день. Другими словами, использование AFR для подсчета дисков в нашем случае искажает частоту отказов дисков в нашей среде.

Как мы определяем неисправность диска
Сегодня мы разделяем отказы дисков на две категории: реактивные и упреждающие. Реактивные сбои — это когда диск вышел из строя и не может или не может взаимодействовать с нашей системой. Упреждающие сбои — это когда сбой неизбежен на основании ошибок, о которых сообщает диск, которые подтверждаются проверкой статистики SMART диска. В этом случае диск извлекается до того, как он полностью выйдет из строя.

За последние несколько лет исследователи данных использовали собранные нами статистические данные SMART, чтобы выяснить, могут ли они предсказать отказ диска с использованием различных статистических методологий, а в последнее время — методов искусственного интеллекта и машинного обучения. Способность точно предсказать отказ диска с минимальным количеством ложных срабатываний оптимизирует наши операционные возможности по мере масштабирования нашей платформы хранения.

СМАРТ-статистика
SMART означает технологию самоконтроля, анализа и отчетности и представляет собой систему мониторинга, включенную в жесткие диски, которая сообщает о различных атрибутах состояния данного диска. Каждый день Backblaze записывает и сохраняет статистику SMART с жестких дисков в наших центрах обработки данных. Прочтите этот пост, чтобы узнать больше о статистике SMART и о том, как мы ее используем.

Частота отказов жестких дисков за второй квартал 2022 г.
Для ежеквартального отчета за второй квартал 2022 года мы отследили 215 011 жестких дисков с разбивкой по моделям дисков на 27 различных групп, используя только данные за второй квартал. В таблице ниже перечислены данные для каждой из этих моделей дисков.



Примечания и наблюдения по статистике за второй квартал 2022 года
Срочные новости, OG спотыкается: диски Seagate емкостью 6 ТБ (модель: ST6000DX000) наконец-то потерпели неудачу в этом квартале — на самом деле, две поломки. Учитывая, что это самая старая модель привода в нашем автопарке со средним возрастом 86,7 месяца эксплуатации, ожидается одна-две поломки. Тем не менее, это был первый сбой этой модели накопителя с третьего квартала прошлого года. Мы можем ожидать, что в какой-то момент в будущем эти накопители будут выведены из эксплуатации, но их показатель AFR за весь срок службы составляет всего 0,87%, поэтому они не являются первыми в очереди.

Еще один ноль для следующей OG: следующая старейшая когорта дисков в нашей коллекции, диски Toshiba емкостью 4 ТБ (модель: MD04ABA400V) за 85,3 месяца, не имела ни одного сбоя во втором квартале. Последний сбой был зарегистрирован год назад, во втором квартале 2021 года. Их AFR за время жизни составляет всего 0,79%, хотя разрыв их доверительного интервала за время жизни составляет 1,3%, что, как мы видели, означает, что нам не хватает данных, чтобы быть по-настоящему уверенными в числе AFR.. Тем не менее, при одном сбое в год они могли бы прослужить еще 97 лет — скорее всего, нет.

Больше нулей во втором квартале: в этом квартале три других накопителя не имели сбоев: HGST 8 ТБ (модель: HUH728080ALE604), Toshiba 14 ТБ (модель: MG07ACA14TEY) и Toshiba 16 ТБ (модель: MG08ACA16TA). Как и в случае с Toshiba емкостью 4 ТБ, упомянутой выше, эти диски имеют очень большие разрывы доверительного интервала, обусловленные ограниченным количеством точек данных. Например, у Toshiba емкостью 16 ТБ было больше всех дней работы — 32 064 — среди всех этих моделей накопителей. Нам потребуется не менее 500 000 дней вождения в квартале, чтобы получить доверительный интервал 95%. Тем не менее, вполне возможно, что какой-либо из этих дисков или все они продолжат показывать отличные результаты в ближайшие кварталы, просто мы пока не уверены на 95%.

Работает на выхлопе: диски Seagate емкостью 4 ТБ (модель: ST4000DM000) начинают показывать свой возраст, в среднем 80,3 месяца. Их ежеквартальная частота отказов увеличивалась в каждом из последних четырех кварталов до 3,42% в этом квартале. Мы развернули нашу программу клонирования для этих дисков в рамках нашей программы обеспечения надежности данных, и в течение следующих нескольких месяцев эти диски будут выведены из эксплуатации. Они хорошо послужили нам, но, похоже, они устали после почти семи лет постоянного вращения.

AFR снова увеличивается: во втором квартале AFR увеличился до 1,46% для всех моделей дисков вместе взятых. Это на 1,22% больше, чем в первом квартале 2022 года, и на 1,01% год назад, во втором квартале 2021 года. Стареющие диски Seagate емкостью 4 ТБ являются частью увеличения, но частота отказов дисков Toshiba и HGST также увеличилась за последнее время. год. По-видимому, это связано со старением всего парка приводов, и мы ожидаем, что это число уменьшится по мере вывода из эксплуатации старых приводов в течение следующего года.

Четыре тысячи серверов хранения
В первом абзаце мы отметили наличие 4020 загрузочных дисков. Что может быть неочевидным, так это то, что это соответствует 4020 серверам хранения. Это серверы 4U с 45 или 60 дисками в каждом с дисками размером от 4 ТБ до 16 ТБ. Наименьший размер составляет 180 ТБ (45 дисков по 4 ТБ), а самый большой — 960 ТБ (60 дисков по 16 ТБ). Эти серверы представляют собой сочетание модулей хранения Backblaze и сторонних серверов хранения. Прошло много времени с момента нашего последнего обновления Storage Pod, так что ищите что-нибудь в конце третьего или начале четвертого квартала.

Статистика привода на DEFCON
Если вы будете на DEFCON 30 в Лас-Вегасе, я буду выступать в прямом эфире в Data Duplication Village (DDV) в 13:00. в пятницу, 12 августа. Полностью волонтерский DDV расположен на нижнем уровне административного конференц-центра отеля Flamingo. Мы будем говорить о статистике дисков, твердотельных накопителях, ожидаемом сроке службы дисков, статистике SMART и многом другом. Я надеюсь увидеть вас там.

Данные статистики жесткого диска
Полный набор данных, использованных для создания информации, используемой в этом обзоре, доступен на нашей странице данных тестирования жесткого диска. Вы можете скачать и использовать эти данные бесплатно в своих целях. Все, что мы просим, это три вещи: 1) вы указываете Backblaze в качестве источника, если вы используете данные, 2) вы соглашаетесь с тем, что вы несете единоличную ответственность за то, как вы используете данные, и 3) вы никому не продаете эти данные; это свободно.

Если вам нужны таблицы и диаграммы, используемые в этом отчете, вы можете загрузить файл .zip из облачного хранилища Backblaze B2, который содержит файлы .jpg и/или .xlsx, если применимо.
Удачи и дайте нам знать, если вы найдете что-нибудь интересное.

Статистика Backblaze Drive за первый квартал 2022 года

Давным-давно в далекой-далекой галактике Backblaze начала собирать и хранить статистику о жестких дисках, которые она использует для хранения данных о клиентах. По состоянию на конец первого квартала 2022 года Backblaze отслеживала 211 732 жестких диска и твердотельных накопителя в наших центрах обработки данных по всему миру. Из этого числа было 3860 загрузочных дисков, в результате чего под управлением осталось 207 872 диска с данными. В этом отчете основное внимание будет уделено этим дискам данных. Мы рассмотрим частоту отказов жестких дисков для тех моделей дисков, которые были активны на конец первого квартала 2022 года, а также рассмотрим статистику их отказов за весь срок службы. В промежутках мы углубимся в частоту отказов моделей активных дисков с течением времени. Попутно мы будем делиться своими наблюдениями и выводами о представленных данных и, как всегда, надеемся, что вы сделаете то же самое в разделе комментариев в конце отчета.

«Величайший учитель — это неудача»
По состоянию на конец первого квартала 2022 года Backblaze отслеживала 207 872 жестких диска, используемых для хранения данных. Для нашей оценки мы исключили из рассмотрения 394 накопителя, так как они либо использовались в целях тестирования, либо были моделями накопителей, в которых не было по крайней мере 60 активных дисков. Это оставляет нам 207 478 жестких дисков для анализа для этого отчета. На приведенной ниже диаграмме представлены результаты нашего анализа за первый квартал 2022 года.



«Всегда передавайте то, чему вы научились».
При рассмотрении приведенной выше таблицы за первый квартал 2022 года и данных, которые находятся под ней, мы предлагаем несколько наблюдений и предостережений:
  • «С этой моделью Сила сильна». Компьютер Seagate емкостью 6 ТБ (модель: ST6000DX000) продолжает бросать вызов времени и не дал ни одного сбоя в первом квартале 2022 года, несмотря на то, что его средний возраст составляет почти семь лет (83,7 месяца). 98% дисков (859) были установлены в течение того же двухнедельного периода в первом квартале 2015 года. Самому младшему диску емкостью 6 ТБ во всей когорте чуть больше четырех лет. Toshiba емкостью 4 ТБ (модель: MD04ABA400V) также не имела сбоев в первом квартале 2022 года, а средний возраст (82,3 месяца) почти такой же, как и у дисков Seagate, но группа Toshiba насчитывает всего 97 дисков. Тем не менее, в течение всего срока службы Backblaze у них в среднем происходит только один отказ диска в год.
  • «Отлично, малыш, не будь самоуверенным». В первом квартале 2022 года было несколько накопителей падаван (в среднем возрасте), у которых также не было сбоев. движения со средним возрастом 5,9 и 1,5 месяца соответственно. Между двумя моделями имеется 3899 рабочих дисков и только один вышел из строя с тех пор, как они были установлены шесть месяцев назад. Хорошее начало, но, конечно, еще не территория джедаев.
  • «Меня беспокоит ваше недоверие». Возможно, вы заметили, что AFR за первый квартал 2022 г. составил 24,31% для дисков HGST емкостью 8 ТБ (модель: HUH728080ALE604). Диски молодые, средний возраст составляет два месяца, и всего 76 дисков с общим пробегом 4504 дня. Если вы находите AFR надоедливым, я на самом деле нахожу ваше недоверие тревожным, учитывая историю звездной производительности в других приводах HGST, которые мы используем. Посмотрим, где мы находимся через пару кварталов.
  • «Стараюсь не. Делать или не делать. Нет никакой попытки».6 Эпоха продолжается с дисками Seagate емкостью 14 ТБ (модель: ST14000NM0138). Когда мы в последний раз видели этот диск, альянс Seagate/Dell/Backblaze продолжал усердно работать над тем, чтобы понять, почему частота отказов остается неизменно высокой. Это необычно для этой модели, и за последние несколько месяцев команда использовала несколько настроек прошивки с разной степенью успеха. Терпение.
  • «Мне нравятся первые. Хорошие они или плохие, они всегда запоминаются».
Мы предоставляем ежеквартальные и годовые отчеты Drive Stats с первого квартала 2015 года. Попутно мы представили несколько различных представлений данных, чтобы помочь получить представление о нашей операционной среде и жестких дисках в этой среде. Сегодня мы хотели бы предложить другой способ визуализации сравнения среднего возраста многих различных моделей, которые мы в настоящее время используем, с годовой частотой отказов каждой из этих моделей накопителей: Квадрат отказов статистики привода:


«…многие истины, за которые мы цепляемся, зависят от нашей точки зрения».
Каждая точка на квадрате отказов статистики накопителя представляет модель жесткого диска, работающую в нашей среде по состоянию на 31 марта 2022 г., и находится на пересечении среднего возраста этой модели и годовой частоты отказов этой модели. Мы включили только модели накопителей с общим сроком службы в один миллион дней работы или с доверительным интервалом для всех включенных моделей накопителей, равным 0,6 или меньше.

Полученная диаграмма разделена на четыре равных квадранта, которые мы классифицируем следующим образом:
  • Квадрант I: пенсионеры. Диски в этом квадранте показали себя хорошо, но, учитывая их нынешний высокий уровень AFR, они первыми в очереди на замену.
  • Квадрант II: Победители. Приводы в этом квадранте зарекомендовали себя как надежные с течением времени. Учитывая их возраст, нам нужно начать планировать их замену, но не нужно паниковать.
  • Квадрант III: Претенденты. Приводы в этом квадранте стартовали с правильной ноги и не представляют никаких текущих проблем с заменой. Мы продолжим следить за этими моделями дисков, чтобы убедиться, что они остаются на пути к квадранту победителей, а не соскальзывают в квадрант IV.
  • Квадрант IV: Растяпы. Диски в этом квадранте должны быть заменены, если это возможно, но они могут продолжать работать, если интенсивность их отказов остается на текущем уровне. Избыточность и надежность, встроенные в платформу Backblaze, защищают данные от более высокой частоты отказов дисков в этом квадранте. Тем не менее, эти диски истощают центр обработки данных и операционные ресурсы.

«Трудно увидеть; будущее всегда в движении».
Очевидно, что квадрант победителей является желаемым результатом для всех моделей побуждений, которые мы используем. Но каждое стремление в основном начинается либо в квадранте III, либо в квадранте IV и перемещается оттуда с течением времени. На приведенной ниже диаграмме показано, как туда попали модели приводов из квадранта II (победители).


«Ваше внимание определяет вашу реальность».
Каждая модель привода представлена ​​змеевидной линией (Змеи на самолете!?), которая показывает AFR модели привода по мере того, как средний возраст парка увеличивается с течением времени. Интересно, что у каждой из шести моделей, находящихся в настоящее время в квадранте II, своя предыстория. Например, кто мог предсказать, что накопитель Seagate емкостью 6 ТБ (модель: ST6000DX000) окажется в квадранте победителей, учитывая его менее чем благоприятный старт в 2015 году. И этот накопитель не был единственным; диски Seagate емкостью 8 ТБ (модели: ST8000NM0055 и ST8000DM002) показали такое же поведение.

Эта диаграмма также может дать нам визуальное представление о направлении годовой частоты отказов с течением времени для данной модели привода. Например, накопитель Seagate емкостью 10 ТБ кажется более заинтересованным в переходе в квадрант пенсионеров в течение следующего квартала или около того, и поэтому приоритет его замены может быть увеличен.

«По моему опыту, удачи не бывает».
В квартальной таблице Drive Stats в начале этого отчета присутствует элемент случайности, который может повлиять на результаты. Например, сообщается ли о сбое диска 31 марта в 23:59. или в 00:01 1 апреля может незначительно повлиять на результаты. Тем не менее, ежеквартальные результаты полезны для выявления непредвиденных закономерностей частоты отказов, но наиболее точная информация о конкретной модели накопителя содержится в годовых показателях отказов за весь срок службы.

На приведенной ниже диаграмме показана годовая частота отказов за весь срок службы всех моделей накопителей, находящихся в производстве по состоянию на 31 марта 2022 года.


«Ты подвел меня в последний раз…»
Годовая частота отказов за весь срок службы для всех перечисленных выше дисков составляет 1,39%. Это меньше, чем 1,40% в конце 2021 года. Год назад (31.03.2021) AFR за весь срок службы составлял 1,49%.

При рассмотрении вышеприведенной таблицы отказов за весь срок службы любые модели накопителей с пробегом менее 500 000 дней или доверительным интервалом более 1,0 % не содержат достаточно данных, чтобы их можно было считать точным отображением их производительности в нашей среде. Хорошими примерами таких дисков являются диски HGST емкостью 8 ТБ (модель: HUH728080ALE604) и диски Toshiba емкостью 16 ТБ (модель: MG08ACA16TA). Мы перечисляем эти диски для полноты, поскольку они также перечислены в квартальной таблице в начале этого обзора.

С учетом приведенных выше критериев, касающихся дней вождения и доверительных интервалов, лучшим приводом в нашей среде для каждого производителя является:
  • HGST: 12 ТБ, модель: HUH721212ALE600. АФР: 0,33%
  • Seagate: модель на 12 ТБ: ST12000NM001G. АФР 0,63%
  • WDC: модель 14 ТБ: WUH721414ALE6L4. АФР: 0,33%
  • Toshiba: модель на 16 ТБ: MG08ACA16TEY. АФР 0,70%
«Я никогда не задаю этот вопрос, пока не сделаю это!»
Для тех из вас, кто интересуется тем, как мы готовим этот отчет, данные, которые мы использовали, доступны на нашей веб-странице данных тестирования жесткого диска. Вы можете скачать и использовать эти данные бесплатно в своих целях. Все, что мы просим, ​​это три вещи: 1) вы указываете Backblaze в качестве источника, если вы используете данные, 2) вы соглашаетесь с тем, что несете единоличную ответственность за то, как вы используете данные, и 3) вы никому не продаете сами данные; это свободно.

Удачи и дайте нам знать, если вы найдете что-нибудь интересное. И нет, это не ловушка.

Цитаты, на которые ссылаются
  • «Величайший учитель — это неудача», — Йода, «Последние джедаи».
  • «Всегда передавайте то, что вы узнали», — Йода, «Возвращение джедая».
  • «С этим сильна Сила», — Дарт Вейдер, «Новая надежда».
  • «Отлично, малыш, не будь самоуверенным», — Хан Соло, «Новая надежда».
  • «Меня беспокоит ваше отсутствие веры» — Дарт Вейдер, «Новая надежда».
  • »Стараюсь не. Делать или не делать. Нет никакой попытки», — Йода, «Империя наносит ответный удар».
  • «Мне нравятся первые. Хорошие они или плохие, они всегда запоминаются», — Асока Тано, «Мандалорец».
  • «…многие истины, за которые мы цепляемся, зависят от нашей точки зрения», — Оби-Ван Кеноби, «Возвращение джедая».
  • «Трудно увидеть; будущее всегда в движении», — Йода, «Империя наносит ответный удар».
  • «Ваше внимание определяет вашу реальность», — Куай-Гон Джинн, «Скрытая угроза».
  • «По моему опыту, удачи не бывает», — Оби-Ван Кеноби, «Новая надежда».
  • «Ты подвел меня в последний раз…» — Дарт Вейдер, «Империя наносит ответный удар»
  • «Я никогда не задаю этот вопрос, пока не сделаю это!» — Хан Соло, «Пробуждение силы».

Версия SSD: обзор статистики накопителей за 2021



Добро пожаловать в первую версию отчета Backblaze Drive Stats о твердотельных накопителях. Этот выпуск будет посвящен исключительно нашим твердотельным накопителям, в отличие от наших ежеквартальных и годовых отчетов Drive Stats, которые до прошлого года были сосредоточены исключительно на жестких дисках. Первоначально мы планируем публиковать издание SSD два раза в год, хотя это может измениться в зависимости от его ценности для наших читателей. Мы продолжим ежеквартально публиковать отчеты о статистике жестких дисков.

Задний план
Все твердотельные накопители в этом отчете являются загрузочными дисками на наших серверах хранения. В наших ранних серверах хранения мы использовали жесткие диски исключительно в качестве загрузочных дисков. Мы начали использовать твердотельные накопители в этом качестве в четвертом квартале 2018 года. С тех пор твердотельные накопители были установлены на всех новых серверах хранения и на всех серверах с неисправными загрузочными жесткими дисками. Загрузочные диски в нашей среде не только загружают серверы хранения, но и хранят файлы журналов и временные файлы, созданные сервером хранения. Каждый день загрузочный диск будет читать, записывать и удалять файлы в зависимости от активности самого сервера хранения.

Обзор
По состоянию на 31 декабря 2021 г. мы использовали 2200 твердотельных накопителей. Поскольку ниже мы делимся различными таблицами и диаграммами, некоторые цифры, особенно годовая частота отказов (AFR), будут очень неожиданными для информированных читателей. Например, ваше внимание может привлечь AFR 43,22%. Мы объясним эти выбросы по ходу дела. Большинство из них связано с новизной диска, но мы сообщим вам об этом.

Как и в случае с отчетами о жестких дисках, мы опубликовали данные, которые использовали для разработки нашего отчета о твердотельных накопителях. Фактически, мы всегда публиковали эти данные, поскольку они находятся в тех же файлах, что и данные жесткого диска. Теперь о плохих новостях: данные в настоящее время не включают тип накопителя, SDD или HDD, поэтому вам придется провести исследование по номеру модели. Извиняюсь. Вы найдете ссылки для загрузки файлов данных на нашей веб-странице данных тестов Drive Stats. Если вы просто ищете данные SSD, начните с Q4 2018 и продолжайте.

Если вы не знакомы с нашими отчетами Drive Stats, вы можете задаться вопросом, почему мы собираем и передаем эту информацию. Это начинается с того факта, что у нас есть много доступного хранилища данных, более двух эксабайт на сегодняшний день, для клиентов, использующих Backblaze B2 Cloud Storage и Backblaze Computer Backup. При этом нам необходимо иметь глубокое понимание нашей среды, одним из аспектов которой является то, как часто диски, как жесткие, так и твердотельные, выходят из строя. Примерно семь лет назад мы решили поделиться тем, что узнали, и пролить свет на ранее непрозрачный мир частоты отказов жестких дисков. Вполне естественно, что мы будем столь же прозрачны с SSD. Читать дальше.

Годовая частота отказов твердотельных накопителей за 2019, 2020 и 2021 годы
В конце 2021 года в наших серверах хранения было 2200 твердотельных накопителей, что выросло с нуля в третьем квартале 2018 года. Мы начнем с анализа AFR за последние три года, затем углубимся в частоту отказов в 2021 году и, наконец, возьмем посмотрите на ежемесячные ставки AFR с 2019 года. Мы объясним каждый по ходу дела.

На приведенной ниже диаграмме показаны показатели отказов за 2019, 2020 и 2021 годы.


Наблюдения и комментарии
Данные за каждый год (2019, 2020 и 2021) включают деятельность, имевшую место в этом году.
В 2021 году частота отказов имеет тенденцию к увеличению. Мы видели это, когда сравнивали наши загрузочные диски HDD и SSD в предыдущем посте. Когда мы перейдем к квартальному графику позже в этом сообщении блога, эта тенденция как таковая будет намного яснее.
У двух дисков сногсшибательная частота отказов — модель Crucial: CT250MX500SSD1 и модель Seagate: ZA2000CM10002. В обоих случаях количество дней вождения и количество поездок (не показано) очень мало. Для Crucial установлено всего 20 дисков, которые были установлены в декабре 2021 года. Для Seagate было всего четыре диска, и один вышел из строя в начале 2021 года. В обоих случаях AFR основан на очень небольшом количестве данных, что приводит к очень широкий доверительный интервал, который мы увидим в следующем разделе. Мы включаем эти диски для полноты картины.
День вождения означает один привод в эксплуатации в течение одного дня. Следовательно, один привод в эксплуатации в 2021 году будет иметь 365 дней вождения. Если диск выйдет из строя через 200 дней, он будет иметь 200 дней работы и будет помечен как неисправный. Для данной когорты дисков за указанный период времени мы вычисляем AFR следующим образом:
AFR = (сбои диска / (дни привода / 365)) * 100
Это обеспечивает годовую частоту отказов (AFR) за любой период времени.
Ежегодная частота отказов твердотельных накопителей за 2021 г.
Давайте углубимся в 2021 год и добавим еще несколько деталей. Таблица ниже представляет собой расширенную версию годового раздела за 2021 год из предыдущей диаграммы.


Из таблицы должно быть ясно, что для дисков Crucial и Seagate с двузначным значением AFR требуется намного больше данных, прежде чем можно будет судить об их надежности в нашей среде. Об этом свидетельствует чрезвычайно широкий доверительный интервал для каждого диска. Приемлемый доверительный интервал составляет менее 1,0%, при этом оптимальным для нас является 0,6% или менее. Только модель Seagate: ZA250CM10002 соответствует критерию 1,0%, хотя модель Seagate: ZA250CM10003 очень близка.

Очевидно, что требуется время, чтобы собрать достаточно данных, чтобы быть уверенным, что рассматриваемый диск работает на ожидаемом уровне. В нашем случае мы ожидаем AFR от 1% до 2%. Все, что меньше, отлично, а все, что больше, заслуживает внимания. Один из способов, которым мы «наблюдаем», — отслеживание квартальных результатов, которые мы рассмотрим далее.

Ежеквартальные показатели отказов твердотельных накопителей с течением времени
Есть два разных способа взглянуть на квартальные данные: за дискретные периоды времени, например квартал или год; или кумулятивно за определенный период времени, например, все данные с 2018 года. Данные, охватывающие квартал за кварталом, могут быть неустойчивыми или резкими, но быстро реагируют на изменения. Совокупные данные показывают долгосрочные тенденции, но менее чувствительны к быстрым изменениям.

Ниже приведены графики как поквартальных, так и совокупных поквартальных данных для наших твердотельных накопителей, начиная с первого квартала 2019 года. Сначала мы сравним все твердотельные накопители, а затем рассмотрим несколько отдельных интересующих дисков.


Совокупная кривая плавно перетекает ниже порогового значения AFR в 2%, вызывающего озабоченность. Если бы мы просто следили за квартальным значением, мы могли бы счесть использование твердотельных накопителей в качестве загрузочных дисков проблематичным, поскольку в нескольких кварталах показатель AFR был на уровне 3% или около него. Тем не менее, чем больше данных, тем лучше, и по мере старения твердотельных накопителей мы хотим быть еще более бдительными, чтобы увидеть, как долго они прослужат. У нас есть много данных по этой теме для жестких дисков, но мы все еще изучаем SDD.

Имея это в виду, давайте взглянем на три старых твердотельных накопителя, чтобы увидеть, есть ли что-нибудь интересное на данный момент.


Наблюдения и комментарии
За весь 2021 год совокупный показатель AFR для всех трех дисков был ниже 1%.
Это сопоставимо с совокупным AFR для всех SSD-накопителей по состоянию на четвертый квартал 2021 года, который составил 1,07% (по сравнению с предыдущим графиком).
Продолжая сравнение, совокупный (срок службы) AFR для наших жестких дисков составил 1,40%, как указано в нашем отчете о статистике дисков за 2021 год. Но, как мы отметили в нашем сравнении жестких дисков и твердотельных накопителей, две группы (твердотельные и жесткие диски) находятся в разных точках своего жизненного цикла. Как и было обещано, мы продолжим изучать эту дихотомию в ближайшие месяцы.
Модель (ZA250CM10002), представленная красной линией, похоже, следует классической кривой отказов ванны, испытывая ранние отказы, прежде чем установится до значения AFR ниже 1%. С другой стороны, два других диска не показывали признаков преждевременного выхода из строя и начали выходить из строя совсем недавно. Этот тип отказов аналогичен тому, который демонстрируют наши жесткие диски, которые больше не соответствуют модели кривой ванны.

Эксперименты и тест-драйвы
Если вы решите загрузить данные и покопаться, вы увидите несколько аномалий, связанных с моделями SSD. Мы хотели бы пролить свет на эти выбросы, прежде чем вы начнете ковыряться. Мы уже рассмотрели диски Crucial и Seagate с более высокими, чем ожидалось, показателями AFR, но есть еще две модели твердотельных накопителей, которые не фигурируют в этом отчете, но фигурируют в данных. Это Samsung 850 EVO 1 ТБ и HP SSD S700 250 ГБ.

Почему они не отображаются в этом отчете? Как и в случае с нашим обзором статистики дисков для наших жестких дисков, мы удаляем те диски, которые мы используем для целей тестирования. Вот подробности:

Твердотельные накопители Samsung были первыми твердотельными накопителями, которые устанавливались в качестве загрузочных дисков. Было установлено 10 дисков, чтобы проверить, как SSD будут работать в качестве загрузочных дисков. Недурно! У нас были предварительные планы на эти 10 дисков на других серверах, и примерно через две недели диски Samsung были заменены другими твердотельными накопителями и развернуты по их первоначальному назначению. Их новаторская работа была отражена в данных Drive Stats для потомков.
Твердотельные накопители HP, которые были частью тестирования нашей внутренней платформы переноса данных, т. е. переноса данных с меньших дисков на большие. Эти диски фигурировали в данных за третий и четвертый кварталы 2021 года. Любые данные, относящиеся к этим дискам в третьем или четвертом квартале, не основаны на использовании этих дисков в нашей производственной среде.

Что дальше
Мы признаем, что 2200 твердотельных накопителей — это относительно небольшое количество дисков, на которых можно проводить наш анализ, и хотя это число приводит к более широким, чем хотелось бы, доверительным интервалам, нам нужно было с чего-то начинать. Разумеется, мы продолжим добавлять в исследуемую группу загрузочные SSD-накопители, что повысит достоверность представляемых данных. Кроме того, мы ожидаем, что наши читатели оценят представленные данные со своей обычной скептической точки зрения и помогут нам сделать этот отчет еще более информативным и полезным.

У нас есть твердотельные накопители на других типах серверов в нашей среде. Например, серверы восстановления, служебные серверы, серверы API и т. д. Мы рассматриваем возможность оснащения дисков на некоторых из этих серверов, чтобы они могли сообщать о своей статистике так же, как наши загрузочные диски. Есть несколько соображений, прежде чем мы это сделаем:

Мы не влияем на производительность других серверов.
Мы понимаем, что рабочая нагрузка дисков на каждом из других серверов, скорее всего, разная. Это означает, что мы можем получить несколько когорт SSD-накопителей с разными рабочими нагрузками, которые могут быть или не быть подходящими для нашего анализа.
Мы не хотим влиять на производительность наших технических специалистов в центрах обработки данных, добавляя дополнительные или конфликтующие шаги в процессы, которые они используют при обслуживании этих других серверов.

Данные статистики SSD
Полный набор данных, использованных для создания информации, используемой в этом обзоре, доступен на нашей странице данных тестирования жесткого диска. Как отмечалось ранее, вы найдете данные SSD и HDD в одних и тех же файлах, и вам придется использовать номер модели, чтобы отличить одну запись от другой. Вы можете скачать и использовать эти данные бесплатно в своих целях. Все, что мы просим, ​​это три вещи: 1) вы указываете Backblaze в качестве источника, если вы используете данные, 2) вы соглашаетесь с тем, что вы несете единоличную ответственность за то, как вы используете данные, и 3) вы никому не продаете эти данные; это бесплатно.

Статистика Backblaze Drive за 2021 год



В 2021 году Backblaze добавила 40 460 жестких дисков, и по состоянию на 31 декабря 2021 года у нас было 206 928 дисков под управлением. Из этого числа было 3760 загрузочных дисков и 203 168 дисков с данными. Этот отчет будет посвящен нашим дискам данных. Мы рассмотрим показатели отказов жестких дисков за 2021 год, сравним эти показатели с предыдущими годами и представим статистику отказов в течение всего срока службы для всех моделей жестких дисков, используемых в нашем центре обработки данных по состоянию на конец 2021 года. Попутно мы делимся своими наблюдениями. и понимание представленных данных, и, как всегда, мы надеемся, что вы сделаете то же самое в разделе комментариев в конце сообщения.

Показатели отказов жестких дисков в 2021 г.
В конце 2021 года Backblaze отслеживала 203 168 жестких дисков, используемых для хранения данных. Для нашей оценки мы исключили из рассмотрения 409 дисков, которые использовались либо для целей тестирования, либо для моделей дисков, для которых у нас не было по крайней мере 60 дисков. Это оставляет нам 202 759 жестких дисков для анализа для этого отчета.


Наблюдения и примечания
Правила старого парня: в 2021 году у Seagate емкостью 6 ТБ (модель: ST6000DX000) была самая низкая частота отказов среди всех моделей накопителей с годовой частотой отказов (AFR) 0,11%. Это еще более впечатляет, если учесть, что эта модель накопителя емкостью 6 ТБ является самой старой в парке со средним возрастом 80,4 месяца. Количество дисков, 886, и 2021 драйв-дней, 323 390, находятся на нижней стороне, но после почти семи лет эксплуатации эти диски показывают свой нос в конце кривой ванны.

Дети в порядке: две модели дисков являются новыми для 2021 года, и обе работают хорошо. Группа дисков WDC емкостью 16 ТБ (модель: WUH721816ALE6L0) имеет средний возраст 5,06 месяца и показатель AFR 0,14%. В то время как когорта накопителей Toshiba емкостью 16 ТБ (модель: MG08ACA16TE) имеет средний возраст 3,57 месяца и AFR 0,91%. В обоих случаях количество дней вождения меньше, но у этих двух моделей накопителей хорошее начало.

АФР, что это значит?
AFR означает годовую частоту отказов. Это отличается от годовой частоты отказов, при которой количество дисков одинаково для каждой модели (группы) в течение годового периода. В нашей среде диски добавляются и уходят в течение года. Например, новый диск, установленный в четвертом квартале, может отработать всего 43 дня, в то время как диск, который вышел из строя в июле, может отработать 186 дней, а диски, непрерывно работающие в течение года, могут отработать 365 дней каждый. Мы подсчитываем количество дней вождения, которое каждый водитель вносит в течение периода, и переводим общее количество в годовой исчисление по следующей формуле:
AFR = (сбои диска / (дни привода / 365)) * 100

Состояние пациента стабильное. В прошлом квартале мы сообщали о состоянии наших дисков Seagate емкостью 14 ТБ (модель: ST14000NM0138), установленных на серверах хранения данных Dell. Они терпели неудачу чаще, чем ожидалось, и все — Backblaze, Seagate и Dell — хотели знать, почему. Вышедшие из строя диски были проверены специалистами по анализу неисправностей, и в конце третьего квартала было принято решение в качестве первого шага обновить прошивку для той группы дисков, которые все еще находятся в эксплуатации. В результате ежеквартальный уровень отказов снизился с 6,29 % в третьем квартале до 4,66 % в четвертом квартале, стабилизировав быстрый рост отказов, который мы наблюдали во втором и третьем кварталах. 19 дисков, вышедших из строя в четвертом квартале, были отправлены для дальнейшего анализа. Мы продолжим следить за этим процессом в ближайшие кварталы.

AFR на 2021 год для всех моделей приводов составил 1,01%, что немного выше, чем 0,93%, о которых мы сообщали для 2020 года. В следующем разделе будут сравниваться данные за последние три года.

Сравнение статистики Drive за 2019, 2020 и 2021 годы
На приведенной ниже диаграмме сравниваются AFR за каждый из последних трех лет. Данные за каждый год включают только этот год и модели с активным приводом, представленные на конец каждого года.


Копнув немного глубже, мы можем объединить различные модели дисков по производителям, чтобы увидеть, как показатели отказов по производителям изменились за последние три года.


Обратите внимание, что для данных WDC пустое значение означает, что в этом квартале в нашем центре обработки данных не было счетных дисков WDC.

Тенденции на 2021 год
AFR оставался низким в 2021 году: в 2021 году AFR для всех дисков составлял 1,01%. Это было немного выше, чем в 2020 году и составило 0,93%, но это хороший признак того, что падение в 2020 году с 1,83% в 2019 году не было аномалией. Что стоит за 1,01% на 2021 год? Большие диски, как показано ниже:


AFR для более крупных дисков, определенных здесь как диски емкостью 12 ТБ, 14 ТБ и 16 ТБ, ниже AFR 2021 года, составляющего 1,01% для всех дисков. Диски большего размера составляют 69% от общего числа дисков, но, что более важно, они составляют 66% от общего количества дней работы с дисками, при этом они вызывают только 57% отказов дисков.

Диски большего размера также являются более новыми дисками, которые реже выходят из строя по сравнению со старыми дисками. На самом деле, самый старый большой диск имеет средний возраст 33 месяца, а самый молодой «маленький» (4 ТБ, 6 ТБ, 8 ТБ и 10 ТБ) — 44,9 месяца.

Таким образом, более низкий AFR для более крупных дисков имеет большое значение для поддержания низкого общего AFR на 2021 год.

Разнообразие моделей накопителей сохраняется: в 2021 году мы добавили в нашу ферму две новые модели накопителей, при этом ни одна модель не была выведена из эксплуатации. Сейчас у нас в эксплуатации 24 различных модели приводов. Это по сравнению с низкой точкой 14 в 2019 году и 22 в 2020 году. На приведенной ниже диаграмме «Процентное соотношение количества жестких дисков Backblaze по производителям» показано изменение состава нашей дисковой фермы по мере того, как мы смотрим на количество моделей от каждого производителя, которые мы использовали. последние шесть лет.


Когда мы только начинали, мы часто смешивали и подбирали модели приводов, в основном из-за финансовой необходимости — мы покупали то, что могли себе позволить. По мере нашего роста мы покупали и развертывали диски большими партиями, и их однородность устанавливалась. За последние несколько лет мы снова стали более комфортно смешивать и сопоставлять, что стало возможным благодаря нашей архитектуре Backblaze Vault. Хранилище состоит из шестидесяти томов, каждый из которых содержит 20 дисков. Мы делаем каждый том одной и той же моделью диска, но каждый из томов в хранилище может иметь разные модели дисков и даже разные размеры дисков. Это позволяет нам меньше зависеть от конкретной модели накопителя, поэтому чем больше моделей накопителей, тем лучше.

Разнообразие поставщиков жестких дисков также сохраняется: Глядя на приведенную выше диаграмму «Население жестких дисков Backblaze по количеству моделей по производителям с течением времени», вы можете предположить, что за последние пару лет мы увеличили процентную долю дисков Seagate. Посмотрим, правда ли это.


Похоже, верно и обратное: мы снизили процент дисков Seagate в наших центрах обработки данных, несмотря на то, что мы добавили дополнительные модели Seagate.

Почему важно диверсифицировать несколько производителей? Гибкость, как и увеличение количества моделей. Наличие отношений со всеми основными поставщиками жестких дисков дает нам возможность своевременно получать необходимые ресурсы. Тот факт, что мы можем использовать любую из нескольких различных моделей от этих поставщиков, добавляет этой гибкости.

Статистика жесткого диска за весь срок службы
На приведенной ниже диаграмме показана годовая частота отказов за весь срок службы всех моделей накопителей, находящихся в производстве по состоянию на 31 декабря 2021 года.


Наблюдения и предостережения
Срок службы AFR для всех перечисленных выше дисков составляет 1,4% и продолжает снижаться из года в год. В конце 2020 года AFR составлял 1,54%, а в конце 2019 года AFR составлял 1,62%.

Если посмотреть на приведенную выше диаграмму, некоторые приводы имеют довольно широкий доверительный интервал (> 0,5). В этих случаях у нас недостаточно информации о производительности диска, чтобы быть достаточно уверенными (> 95%) в указанном AFR. Обычно это происходит с меньшим количеством дисков или более новыми дисками.

Ищете номера SSD?
В ближайшие несколько недель мы расскажем о годовых показателях отказов наших SSD-накопителей в отдельном посте. Мы поняли, что объединение анализа наших дисков данных и наших загрузочных дисков в одном посте сбивает с толку. Быть в курсе.

Новые средства защиты Kubernetes, стратегии NAS и многое другое



Партнерство Backblaze и Kasten расширяет возможности защиты контейнеров Kubernetes
Используете ли вы контейнеры Kubernetes? Новое партнерство между Backblaze и Kasten by Veeam упрощает управление резервными копиями контейнеров в Kasten и их хранение в облачном хранилище Backblaze B2 для простого и доступного резервного копирования и восстановления, защиты от программ-вымогателей с помощью Object Lock и поддержки соответствия требованиям.
www.backblaze.com/blog/announcing-kubernetes-backup-and-ransomware-protection-via-kasten-and-backblaze/


Увеличьте прибыль от NAS с помощью стратегии гибридного облака
Переход на сетевое хранилище (NAS) упрощает совместную работу, ускоряет восстановление, обеспечивает круглосуточную доступность файлов и дополнительную избыточность. В сочетании с облачным хранилищем в гибридной облачной стратегии вы также получаете повышенную безопасность и возможность обмениваться файлами как локально, так и удаленно. Узнайте о преимуществах модели гибридного облака и о том, как настроить ее для вашего NAS.
www.backblaze.com/blog/nas-and-the-hybrid-cloud/


Всемирно известный фотограф защищает дело своей жизни
Известный благодаря «Афганской девушке» и другим фотографиям, украшавшим обложки National Geographic, Стив Маккарри искал решение для резервного копирования в облаке, чтобы защитить 265 ТБ фотографий. Он и его команда продублировали данные в Backblaze B2 с помощью четырех устройств Backblaze Fireball и управляли процессом с помощью программного обеспечения для архивации Archiware P5. Узнайте, какие шаги они предприняли, чтобы защитить свое хранилище мультимедиа в будущем.
www.backblaze.com/b2/case-studies/steve-mccurry-studios/

2021 год и последующий период: прогнозы Backblaze на наступающий год



2021 год был для индустрии облачных вычислений большим годом. Но в прошлом году также были отмечены серьезные проблемы — нехватка цепочки поставок, постоянные изменения в работе, продолжающиеся стихийные бедствия и разрушительные атаки программ-вымогателей, не говоря уже о продолжающейся глобальной пандемии.

Когда мы закрываем 2021 год и с нетерпением ждем нового года, мы попросили нашу команду взвесить их прогнозы относительно тенденций, которые мы увидим в 2022 году в отрасли облачных вычислений. Вот наши коллективные мысли.

Тенденции, которые принесет 2022 год
1. Безопасность никогда не будет легче оправдать

Угрозы программ-вымогателей резко возросли в 2021 году, и в течение года они были широко освещены в заголовках. Поскольку мы закончили год с обнаружением уязвимости Log4j во всем Интернете, аргумент в пользу инвестиций в безопасность данных никогда не был таким простым, и, вероятно, будет задействован весь C-Suite. Компании будут вкладывать больше средств в усиление защиты от программ-вымогателей, включая усиление методов резервного копирования и внедрение таких функций, как Object Lock, для защиты данных. Хотя в прошлом компании, возможно, полагались на киберстрахование для покрытия выкупа, а не инвестировали в проактивную защиту данных, мы думаем, что дополнительное давление со стороны государственных органов сделает этот вариант менее резким (а также поможет ИТ-руководителям обосновать более надежные меры).

2. Повышенная безопасность не может быть выбором
Правительство США уже начало сигнализировать, что ожидает, что компании будут делать больше для защиты своих данных от программ-вымогателей. Ожидайте, что в 2022 году он еще больше закрутит гайки за счет более строгого соблюдения требований Министерства финансов, TSA и других требований. Мы прогнозируем, что по крайней мере одна американская компания, совершающая крупные платежи за программы-вымогатели, окажется прямо под прицелом правительства США из-за того, что не сделала достаточно для своей защиты, а затем зашла слишком далеко против Управления по контролю за иностранными активами Казначейства в содействии платежам известным плохие актеры за пределами США

3. Использование одного облачного провайдера больше не поможет.
Компании, которые в настоящее время полагаются на одного диверсифицированного поставщика облачных услуг, будут все чаще обращаться к независимым поставщикам для обеспечения избыточности данных. После недавних отключений AWS, которые выявили единые точки отказа, это стало еще яснее. Резервное копирование данных, находящихся в облаке, станет более приоритетным. Переход к более диверсифицированному облачному развертыванию приведет к тому, что все больше организаций подумают о переходе на независимого облачного провайдера в качестве основного хранилища данных с одним из традиционных диверсифицированных провайдеров, выступающим в качестве места назначения резервного копирования. Конечно, развертывание в нескольких облаках не решит всех проблем и может создать дополнительную сложность, если ваше основное облако не будет подключено до начала гонки за добавлением второго.

4. Капли HAMR / MAMR
Все производители жестких дисков объявили об увеличении емкости в наступающем году, приближаясь к накопителям на 30 ТБ. На 5-й ежегодной конференции Virtual Wells Fargo TMT Summit генеральный директор Western Digital Дэвид Гекелер указал, что жесткие диски емкостью 30 ТБ находятся в пределах досягаемости с его технологиями ePMR и OptiNAND, а также жесткими дисками с 10 пластинами (по сравнению с существующим накопителем с девятью пластинами на 20 ТБ). Гекелер назвал разработку «той лестницей, которая приведет вас к 30 ТБ, а затем вы попадете на кривую HAMR [магнитной записи с подогревом]».

Аналогичным образом, SDK объявил о разработке в этом году технологии магнитной записи с использованием микроволн (MAMR) для поддержки разработки накопителя на 30 ТБ. Компания Seagate также продолжает развивать технологию HAMR, объявляя о разработке накопителя HAMR второго поколения, который может достигать 30 ТБ. Технология была на пике коммерциализации в течение нескольких лет — на самом деле, мы ошибочно предсказали, что начнем видеть диски HAMR / MAMR в 2019 году. Давайте попробуем еще раз — 2022 год станет годом, когда диски HAMR и / или MAMR станут популярными. мейнстримом, а также в наших центрах обработки данных. Мы действительно думаем, что накопители емкостью 30 ТБ, созданные на основе любой технологии, появятся как минимум через пару лет, но пришло время, чтобы HAMR и MAMR соответствовали требованиям к хранению данных в будущем.

5. Пробки в цепочке поставок продолжатся
Цепочки поставок во всех отраслях сталкиваются с серьезными ограничениями, в то время как спрос продолжает расти. Даже когда перегибы в шланге будут устранены, транспортная логистика по-прежнему будет ограничивать подачу в точках. Это усугубляется пандемией, но мы думаем, что это будет постоянной проблемой, поскольку все больше организаций полагаются на поставки для роста и непрерывности бизнеса.

В 2022 году компании ускорят переход от разумного своевременного управления цепочкой поставок, минимизирующего запасы, к интеллектуальному управлению цепочкой поставок на всякий случай, сводящему к минимуму сбои в обслуживании и продажах.

6. Микросервисы убьют плату за исходящий трафик
Более качественные решения с подключением к API позволят компаниям избежать привязки к поставщику и создавать гибкие приложения на основе микросервисов, одновременно удовлетворяя свои потребности, связанные с облаком (хранилище, вычисления, CDN и т. Д.). Компаниям потребуется более низкая комиссия за исходящий трафик, чтобы иметь возможность свободно перемещать свои данные, не нарушая банк. Поскольку независимые облачные провайдеры работают вместе, чтобы минимизировать или полностью исключить исходящие сборы, мы прогнозируем, что в 2022 году умные компании будут требовать лучшего от таких, как Amazon, Google и Microsoft, — меньшего исходящего трафика, вариантов мультиоблака и независимости от поставщиков. Представьте себе постепенные инновации, когда компаниям не нужно загружать и распространять свои собственные данные!

7. Стремление к интероперабельности
Неструктурированные данные продолжают неуклонно расти благодаря нашему все более взаимосвязанному миру. По некоторым оценкам, он составляет от 80% до 90% мировых данных, и сегодня он находится в нескольких местах — в нескольких облаках, локальных центрах обработки данных и на периферии. Компании, которые хотят извлечь максимальную выгоду из этих данных, не будут выступать за поставщиков облачных услуг, которые возводят стены вокруг своих экосистем. Данные должны легко перемещаться между средами, так что о том, где они живут, стало второстепенным. Опытные компании захотят взаимозаменяемо использовать поставщиков, исходя из того, что лучше всего подходит для их рабочих нагрузок, а те, у кого есть открытые экосистемы, будут предпочтительнее за их гибкость.

Желаю вам счастливого и обнадеживающего Нового года!

Как долго служат диски?



Примечание редактора. Этот пост был обновлен с момента его первоначальной публикации в 2013 году, и теперь в нем содержится самая свежая информация и статистические данные.
Как долго работают жесткие диски? Мы задали этот вопрос несколько лет назад, и тогда ответ был: мы еще не знали. Тем не менее, мы представили данные, которые у нас были к тому моменту, и сделали несколько прогнозов. С тех пор мы учились отказу от жестких дисков (HDD) и твердотельных накопителей (SSD). Посмотрим, что мы узнали.

Первоначальное исследование срока службы накопителей было проведено с использованием 25 000 накопителей и данных примерно за четыре года. Сегодняшнее исследование включает данные более чем 200 000 дисковых накопителей, многие из которых прослужили шесть и более лет. Это дает нам больше данных для анализа и позволяет нам расширить наши прогнозы. Например, в нашем первоначальном отчете мы сообщали, что 78% приобретенных нами дисков прожили более четырех лет. Сегодня около 90% имеющихся у нас приводов прослужили четыре года, а 65% — дольше шести лет. Итак, как долго длится поездка? Продолжай читать.

Как диски используются в Backblaze
В настоящее время Backblaze использует более 200 000 жестких дисков для хранения данных наших клиентов. Размер дисков варьируется от 4 ТБ до 18 ТБ. В сумме у нас под управлением получается более двух эксабайт на жестком диске. Большинство этих дисков монтируются на сервере хранения, который вмещает 60 дисков, а также загрузочный диск. Есть также несколько серверов хранения, в которых используется всего 45 жестких дисков. Серверы хранения состоят из Storage Pods (наши собственные серверы хранения данных) и серверов хранения от внешних производителей. Двадцать серверов хранения сгруппированы в Backblaze Vault, которое использует наш собственный алгоритм кодирования стирания Рида-Соломона для репликации и хранения данных клиентов на 20 серверах в Backblaze Vault.

Типы жестких дисков в анализе
Жесткие диски, которые мы используем для хранения данных о клиентах, представляют собой стандартные 3,5-дюймовые диски, которые вы можете купить в Интернете или в магазинах. Избыточность, обеспечиваемая программным обеспечением Backblave Vault, обеспечивает безопасность данных, позволяя нам использовать стандартные диски трех основных производителей дисков: Seagate, Western Digital и Toshiba. В следующей таблице показано текущее количество накопителей по производителям. Обратите внимание, что HGST теперь является частью Western Digital, но сами диски сообщаются как диски HGST, поэтому они указаны отдельно в таблице.



Каждый из серверов хранения также использует загрузочный диск. Помимо очевидной функции загрузки сервера, мы также используем эти диски для хранения файлов журналов, регистрирующих доступ к системе и действия, которые используются для целей аналитики и соответствия. Загрузочным диском может быть жесткий диск или твердотельный накопитель. Если вам интересно, мы сравнили надежность жестких дисков и твердотельных накопителей в отношении этих загрузочных дисков.

Количество жестких дисков
Как указывалось ранее, в настоящее время у нас есть более 200 000 дисков, которыми мы управляем и используем для хранения данных клиентов. Мы используем несколько дисков разных размеров, как показано в таблице ниже, причем более 60% этих дисков имеют размер 12 ТБ или 14 ТБ.


Частота отказов дисков
Прежде чем углубляться в данные о частоте отказов, стоит потратить немного времени на то, чтобы выяснить, что именно означает частота отказов. Сам по себе термин «частота отказов» не очень полезен, поскольку в нем отсутствует понятие времени. Например, если вы купили жесткий диск, какова частота отказов жесткого диска через неделю после его покупки? Как насчет года после покупки? Пять лет? У них не может быть одинакового количества отказов. Чего не хватает, так это времени. Когда мы составляем квартальные и годовые отчеты Drive Stats, мы рассчитываем и публикуем годовую частоту отказов (AFR). Используя AFR, все показатели отказов переводятся в годовые, так что независимо от временных рамок (например, один месяц, один год, три года) мы можем сравнивать разные когорты приводов. Наряду с отчетами мы включаем ссылки на данные о накопителях, которые мы используем для расчета заявленной частоты отказов.

Кривая ванны
Инженеры по надежности используют так называемую кривую ванны для описания ожидаемой интенсивности отказов. Идея состоит в том, что дефекты возникают из-за трех факторов: (1) заводские дефекты, приводящие к «детской смертности», (2) случайные отказы и (3) детали, которые изнашиваются, что приводит к отказам после длительного использования. На приведенной ниже диаграмме (из Wikimedia Commons) показано, как можно ожидать, что эти три фактора приведут к кривой интенсивности отказов в форме ванны.


Когда наше первоначальное исследование срока службы привода было завершено, опыт Backblaze совпал с теорией кривой ванны. Когда мы недавно пересмотрели кривую для ванны, мы обнаружили, что ванна протекает, поскольку левая часть кривой для ванны Backblaze (уменьшение интенсивности отказов) была намного ниже и более соответствовала постоянной частоте отказов. Это можно увидеть в приведенной ниже таблице, в которой приведены данные о сбоях дисковых накопителей за последние шесть лет.


Уровень отказов (красная линия) составляет менее 2% в течение первых трех с половиной лет, а затем быстро увеличивается в течение шестого года. Когда мы строим линию тренда данных (синяя пунктирная линия, полином второго порядка), появляется параболическая кривая, но она значительно ниже с левой стороны, не похожая на ванну, а больше на неглубокий ковш или, возможно, на хоккей. палка.

Расчет продолжительности жизни
Каков ожидаемый срок службы жесткого диска? Чтобы ответить на этот вопрос, нам сначала нужно решить, что мы подразумеваем под «продолжительностью жизни».

При измерении продолжительности жизни людей обычным показателем является среднее количество лет, оставшихся до определенного возраста. Например, по оценкам Всемирной организации здравоохранения, ожидаемая продолжительность жизни всех новорожденных в мире в настоящее время составляет 73 года. Это означает, что если мы подождем, пока все эти новые люди проживут свою жизнь через 120 или 130 лет, средняя продолжительность их жизни составит 73,0.

Что касается дисководов, может случиться так, что все они изнашиваются до того, как им исполнится 10 лет. А может быть, что некоторые из них длятся 20 или 30 лет. Если некоторые из них живут долго, долгое время, трудно вычислить среднее значение. Кроме того, несколько выбросов могут отбросить среднее значение и сделать его менее полезным.

Число, которое можно вычислить, — это средний срок службы нового диска. Это возраст, в котором выходит из строя половина дисков. Давайте посмотрим, насколько близко мы сможем подойти к прогнозированию средней продолжительности жизни нового диска, учитывая все данные, которые мы собрали за эти годы.

Показатели выживаемости дисковых накопителей
По сей день на удивление сложно получить ответ на вопрос «Как долго прослужит жесткий диск?» Как уже отмечалось, мы регулярно публикуем наши отчеты «Статистика дисков», в которых перечислены AFR для используемых нами моделей дисков. Хотя эти отчеты отвечают на вопрос о том, с какой скоростью дисковые накопители выходят из строя, они не говорят нам, как долго они прослужат. Интересно, что те же данные, которые мы собираем и используем для прогнозирования отказа дисков, можно использовать для определения ожидаемого срока службы моделей жестких дисков, которые мы используем. Все зависит от того, как вы смотрите на данные.

Когда мы применяем методы прогнозирования продолжительности жизни к собранным нами данным о накопителях, мы получаем следующую диаграмму:


Ожидаемая продолжительность жизни уменьшается довольно стабильно — от 2% до 2,5% в год в течение первых четырех лет, затем сокращение начинает ускоряться. Оглядываясь назад на приведенный выше квартальный график AFR, это имеет смысл, поскольку с четвертого года количество отказов увеличивается. По прошествии шести лет ожидаемая продолжительность жизни составляет 65%. Другими словами, если мы купили жесткий диск шесть лет назад, вероятность того, что он все еще жив, составляет 65%.

Как долго прослужат жесткие диски?
Что происходит с водителями, когда они старше шести лет? У нас есть диски старше шести лет, так почему мы остановились на этом? У нас не было достаточно данных, чтобы быть уверенными по истечении шести лет, поскольку количество дисков в этот момент сокращается и почти полностью состоит из одной или двух моделей дисков, а не из различных. Вместо этого мы использовали данные, которые у нас были за шесть лет, и экстраполировали их из линии ожидаемого срока службы, чтобы оценить момент, когда половина дисков выйдет из строя.


Как долго длится поездка? Казалось бы, разумная оценка средней продолжительности жизни составляет шесть лет и девять месяцев. Это соответствует минимальному количеству данных, которые мы собрали на сегодняшний день, но, как уже отмечалось, у нас недостаточно данных, чтобы быть уверенными. Тем не менее, мы знаем, что для всех используемых нами моделей приводов он превышает шесть лет. Мы продолжим сбор данных в ближайшие месяцы и годы и посмотрим, не изменится ли что-нибудь.

А пока, как долго вы предполагаете, что жесткий диск, который вы собираетесь купить, прослужит? Правильный ответ — всегда иметь хотя бы одну резервную копию, а лучше две, хранить их отдельно и часто проверять 一 стратегия резервного копирования 3-2-1. Каждый купленный вами жесткий диск в какой-то момент выйдет из строя — это может произойти через день или 10 лет — будьте готовы.

Обновление обслуживания системы: уязвимость Log4j

Как вы, возможно, знаете, недавно было публично объявлено об уязвимости, связанной с Log4j, общей библиотекой журналов, широко используемой компаниями по всему миру.

Нашей первоочередной задачей было обеспечение защиты данных наших клиентов и безопасности нашей среды. Итак, когда мы узнали об этой уязвимости, затрагивающей Apache Log4j, наши группы безопасности, технических операций и инженеров быстро собрались вместе, чтобы разработать протокол для выполнения нашей основной директивы.

Что такое уязвимость Log4j?
Как сообщает ArsTechnica, в библиотеке журналов Apache Log4j была обнаружена уязвимость нулевого дня, которая позволяет злоумышленникам получить контроль над уязвимыми серверами. Log4j широко используется всем, от Minecraft до iCloud и Управления национальной безопасности, а Агентство по кибербезопасности и безопасности инфраструктуры (CISA) призвало пользователей немедленно применять исправления для устранения уязвимостей.

Какие действия мы предприняли?
В пятницу, 10 декабря, примерно в 16:30 по тихоокеанскому времени, Backblaze отключил службы, чтобы защитить данные клиентов и развернуть исправления безопасности во всех наших системах для устранения уязвимости.

12/11/2021 1:05 Обновление PT: системы возвращаются в оперативный режим. Хотя наши команды усердно работают, чтобы все исправить, вы можете столкнуться с перебоями в обслуживании. Спасибо за терпеливость.

11.12.2021 02:58 Обновление PT: системы снова подключены к сети и работают нормально. Если у вас возникли проблемы, обратитесь в нашу службу поддержки: help.backblaze.com/hc/en-us/requests/new