По состоянию на 31 декабря 2023 г. под нашим управлением находилось 274 622 накопителя. Из этого числа было 4400 загрузочных дисков и 270 222 диска с данными. Этот отчет будет посвящен нашим дискам с данными. Мы рассмотрим частоту отказов жестких дисков в 2023 году, сравним эти показатели с предыдущими годами и представим статистику отказов за весь срок службы для всех моделей жестких дисков, действующих в нашем центре обработки данных по состоянию на конец 2023 года. Попутно мы делимся своими наблюдениями и понимание представленных данных, и, как всегда, мы с нетерпением ждем, когда вы сделаете то же самое в разделе комментариев в конце публикации.
Частота отказов жестких дисков в 2023 году
По состоянию на конец 2023 года Backblaze отслеживала 270 222 жестких диска, используемых для хранения данных. Для нашей оценки мы исключили из рассмотрения 466 дисков, о которых поговорим позже. Таким образом, для анализа в этом отчете нам осталось 269 756 жестких дисков, охватывающих 35 моделей дисков. В таблице ниже показаны годовые показатели отказов (AFR) на 2023 год для этой коллекции накопителей.
Примечания и наблюдения
Один ноль за год: в 2023 году только у одной модели накопителей не было сбоев — Seagate емкостью 8 ТБ (модель: ST8000NM000A). Фактически, эта модель накопителя не имела ни одного сбоя в нашей среде с тех пор, как мы начали ее развертывание в третьем квартале 2022 года. Этот «ноль» сопровождается некоторыми оговорками: у нас в эксплуатации находится только 204 накопителя, а количество дней эксплуатации накопителя ограничено ( 52 876), но отсутствие сбоев за 18 месяцев — хорошее начало.
Сбои за год: в 2023 году вышло из строя 4189 дисков. Проделав небольшие математические расчеты, выяснилось, что в среднем за последний год мы заменяли неисправный диск каждые два часа и пять минут. Если мы ограничим количество рабочих часов до 40 в неделю, то неисправный диск будет заменяться каждые 30 минут.
Больше моделей приводов. В 2023 году мы добавили в список шесть моделей приводов, исключив из обращения ни одну, в результате чего мы отслеживаем в общей сложности 35 различных моделей.
Две модели уже какое-то время находятся в нашей среде, но к концу 2023 года их производство, наконец, достигнет 60 накопителей.
- Toshiba 8 ТБ, модель HDWF180: 60 дисков.
- Seagate 18 ТБ, модель ST18000NM000J: 60 дисков.
Четыре модели были новыми для нашей производственной среды, и к концу 2023 года в их производстве будет 60 или более приводов.
- Seagate 12 ТБ, модель ST12000NM000J: 195 дисков.
- Seagate 14 ТБ, модель ST14000NM000J: 77 дисков.
- Seagate 14 ТБ, модель ST14000NM0018: 66 дисков.
- WDC 22 ТБ, модель WUH722222ALE6L4: 2442 диска.
Диски трех моделей Seagate используются для замены вышедших из строя дисков емкостью 12 ТБ и 14 ТБ. Диски WDC емкостью 22 ТБ — это новая модель, добавленная в основном как два новых хранилища Backblaze Vault по 1200 дисков в каждом.
Смешивание и подбор моделей приводов
Было время, когда мы покупали дополнительные диски определенной модели, чтобы иметь под рукой замену вышедшего из строя диска диском той же модели. Например, если бы нам нужно было 1200 дисков для Backblaze Vault, мы бы купили 1300, чтобы получить 100 запасных. Со временем мы протестировали комбинации различных моделей накопителей, чтобы убедиться в отсутствии влияния на пропускную способность и производительность. Это позволило нам приобретать диски по мере необходимости, например, диски Seagate, упомянутые ранее. Это сэкономило нам средства на покупке дисков, которые простоял месяцами или годами в ожидании выхода из строя той же модели диска.
Диски, не включенные в этот обзор
Ранее мы отмечали, что из рассмотрения в этом обзоре было исключено 466 накопителей. Эти диски делятся на три категории.
- Тестирование. Это диски определенной модели, которые мы отслеживаем и собираем данные о статистике дисков, но которые находятся в процессе квалификации как производственные диски. Например, в четвертом квартале оценивались четыре накопителя Toshiba емкостью 20 ТБ.
- Горячие диски: это диски, которые во время работы подвергались воздействию высоких температур. Мы удалили их из этого обзора, но рассмотрим их отдельно, чтобы узнать больше о том, насколько хорошо диски выдерживают нагрев. Мы подробно рассмотрели эту тему в нашем отчете о статистике поездок за третий квартал 2023 года.
- Менее 60 дисков: это пережиток того времени, когда мы использовали один сервер хранения из 60 дисков для хранения большого количества отправленных нам данных. Сегодня мы разделяем один и тот же объект на 20 серверов, то есть в Backblaze Vault, что значительно повышает надежность данных. В 2024 году мы собираемся пересмотреть 60 критериев вождения и, скорее всего, заменим этот стандарт минимальным количеством дней вождения за определенный период времени, чтобы стать частью пересмотра.
Тем не менее, в данных Drive Stats за четвертый квартал 2023 года вы найдете эти 466 накопителей, а также данные по 269 756 накопителям, использованным в обзоре.
Сравнение статистики поездок за 2021, 2022 и 2023 годы
В таблице ниже сравниваются AFR за каждый из последних трех лет. В таблицу включены только те модели приводов, которые в 2023 году проработали более 200 000 дней. Данные за каждый год включают в себя этот год только для действующих моделей приводов, представленных на конец каждого года. Таблица отсортирована по размеру диска, а затем по AFR.
Примечания и наблюдения
Чего не хватает? Как уже отмечалось, в 2023 году для попадания в список модели привода потребовалось бы 200 000 или более дней вождения. Такие накопители, как модель WDC емкостью 22 ТБ с 126 956 днями работы и Seagate емкостью 8 ТБ с нулевым сбоем, но только 52 876 дней работы не соответствовали требованиям. Почему 200 тысяч? Каждый квартал мы используем 50 000 дней вождения в качестве минимального числа, которое можно считать статистически значимым. Это не идеальный показатель, но он минимизирует волатильность, иногда связанную с моделями приводов с меньшим количеством дней в пути.
AFR 2023 года вырос: AFR для всех перечисленных моделей приводов составил 1,70% в 2023 году. Для сравнения: 1,37% в 2022 году и 1,01% в 2021 году. На протяжении 2023 года мы наблюдали рост AFR, поскольку средний возраст парка приводов увеличился.. В настоящее время существует девять моделей приводов со средним возрастом шесть лет и более. На эти девять моделей приходится почти 20% производимых приводов. Начиная со второго квартала, мы ускорили переход от старых моделей дисков (обычно емкостью 4 ТБ) к новым моделям дисков (обычно 16 ТБ). Эта программа будет продолжаться в течение 2024 года и далее.
Годовая частота отказов в зависимости от размера диска
Теперь давайте углубимся в цифры и посмотрим, чему еще мы можем научиться. Мы начнем с рассмотрения квартальных AFR по размеру накопителей за последние три года.
Начнем с того, что AFR для накопителей емкостью 10 ТБ (золотая линия) очевидно увеличивается, равно как и накопителей емкостью 8 ТБ (серая линия) и накопителей емкостью 12 ТБ (фиолетовая линия). Каждая из этих групп закончила с AFR 2% или выше в четвертом квартале 2023 года, а во втором квартале 2021 года стартовала с AFR около 1%. С другой стороны, AFR для накопителей емкостью 4 ТБ (синяя линия) первоначально выросла, достигнув пика в 2022 году. и с тех пор снизился. Остальные три размера дисков — 6 ТБ, 14 ТБ и 16 ТБ — колебались в пределах 1% AFR за весь период.
Уменьшив масштаб, мы можем посмотреть на изменение AFR в зависимости от размера накопителя на ежегодной основе. Если сравнить годовые результаты АФР за 2022 и 2023 годы, то получим таблицу ниже. Результаты за каждый год основаны только на данных за этот год.
На первый взгляд может показаться странным, что AFR для накопителей емкостью 4 ТБ снижается. Особенно если учесть, что средний возраст каждой из моделей накопителей емкостью 4 ТБ превышает шесть лет и продолжает стареть. Причина, вероятно, связана с тем, что в 2023 году мы сосредоточимся на переходе с дисков емкостью 4 ТБ на диски емкостью 16 ТБ. Обычно мы сначала переносим самые старые диски, то есть те, которые с большей вероятностью выйдут из строя в ближайшем будущем. Этот процесс удаления самых старых дисков, по-видимому, смягчает ожидаемый рост количества отказов по мере старения диска.
Но не все модели приводов подходят друг другу. Накопителям Seagate емкостью 6 ТБ в среднем более 8,6 лет, и к 2023 году они будут иметь самый низкий AFR для любой группы размеров дисков, что потенциально может стать насмешкой над теорией «возраст связан с отказом», по крайней мере, за последний год. Давайте посмотрим, справедливо ли это для частоты отказов наших накопителей за весь срок службы.
Статистика жесткого диска за весь срок службы
Для нашего обзора AFR за весь срок службы мы оценили 269 756 накопителей 35 моделей. В таблице ниже приведены статистические данные о сроке службы накопителей с апреля 2013 г. по конец четвертого квартала 2023 г.
Текущий срок службы AFR для всех накопителей составляет 1,46%. Это больше, чем в конце прошлого года (четвертый квартал 2022 года), который составлял 1,39%. Это имеет смысл, учитывая квартальный рост AFR в 2023 году, как было зафиксировано ранее. Это также самый высокий показатель AFR за весь срок службы с первого квартала 2021 года (1,49%).
В таблице выше указаны все модели приводов, действующие по состоянию на 31 декабря 2023 г. Чтобы разгрузить список, мы можем удалить те модели, по которым недостаточно данных, чтобы быть статистически значимыми. Это не означает, что AFR, показанный выше, неверен, это просто означает, что нам нужно больше данных, чтобы быть уверенными в частоте отказов, которую мы перечисляем. С этой целью в приведенную ниже таблицу включены только те модели накопителей, срок службы которых составляет два миллиона дней или более. Это дает нам управляемый список из 23 моделей накопителей для рассмотрения.
Используя приведенную выше таблицу, мы можем сравнить частоту отказов дисков в течение всего срока службы различных моделей дисков. На диаграммах ниже мы сгруппировали модели приводов по производителям, а затем построили график модели привода AFR в зависимости от среднего возраста в месяцах каждой модели привода. Относительный размер каждого круга представляет количество поездок в каждой когорте. Горизонтальный и вертикальный масштабы для диаграмм каждого производителя одинаковы.
Примечания и наблюдения
Миграция дисков. При выборе моделей дисков для миграции мы могли бы сначала заменить самые старые модели дисков. В данном случае диски Seagate емкостью 6 ТБ. Учитывая, что дисков всего 882 — это меньше, чем один Backblaze Vault, — влияние на частоту сбоев будет минимальным. Помимо этого, диаграмма ясно показывает, что нам следует продолжать миграцию наших дисков емкостью 4 ТБ, как мы обсуждали в нашей недавней публикации о том, какие диски находятся на каких серверах хранения. Как отмечается в этом сообщении, существуют и другие факторы, такие как возраст сервера, размер сервера (45 против 60 дисков) и частота отказов сервера, которые помогают нам принимать решения.
HGST: На графике слева ниже показана линия тренда AFR (полином второго порядка) для всех наших моделей HGST. Не похоже, что отказ диска постоянно увеличивается с возрастом. На диаграмме справа показаны те же данные с удаленными моделями дисков HGST емкостью 4 ТБ. Результаты больше соответствуют нашим ожиданиям: количество отказов дисков со временем увеличивается. Хотя диски емкостью 4 ТБ работают отлично, они, похоже, не являются эталоном AFR для новых/больших дисков.
Еще один потенциальный фактор, не рассмотренный здесь, заключается в том, что, начиная с моделей накопителей емкостью 8 ТБ, внутри накопителей использовался гелий, и диски были герметизированы. До этого они охлаждались воздухом и не были герметизированы. Так повлиял ли переход на гелий внутри накопителя на профиль отказов накопителей HGST? Интересный вопрос, но с учетом имеющихся у нас данных я не уверен, что мы сможем на него ответить – или что это имеет большое значение, поскольку гелий никуда не денется.
Seagate: На диаграмме слева ниже показана линия тренда AFR (полином второго порядка) для наших моделей Seagate. Как и в случае с моделями HGST, похоже, что количество отказов дисков с возрастом не увеличивается. Из диаграммы справа мы удалили модели накопителей старше семи лет (средний возраст).
Интересно, что линия тренда на двух графиках практически одинакова вплоть до шестилетней точки. Если мы попытаемся заглянуть в прошлое для накопителей емкостью 8 ТБ и 12 ТБ, то не получим четкого направления. Еще больше запутывает ситуацию тот факт, что все три модели, которые мы удалили, поскольку они старше семи лет, являются потребительскими моделями накопителей, а все остальные модели накопителей являются моделями накопителей корпоративного уровня. Повлияет ли это на частоту отказов корпоративных моделей накопителей, когда они прослужат семь, восемь или даже девять лет? Следите за обновлениями.
Toshiba и WDC: Что касается моделей накопителей Toshia и WDC, то имеются данные за чуть более трех лет, и никаких заметных закономерностей обнаружено не было. На сегодняшний день все накопители каждого из этих производителей работают хорошо.
Сбой диска и миграция диска
Выше мы видели одну вещь: прогнозы отказа диска обычно зависят от модели диска. Но мы не переносим модели дисков как группу, вместо этого мы переносим все диски на сервере хранения или в Backblaze Vault. Диски на данном сервере или в хранилище могут быть разных моделей. О том, как мы выбираем серверы и хранилища для миграции, будет рассказано в следующем посте, а пока мы просто скажем, что сбой диска — это еще не все.
Данные статистики жесткого диска
Полный набор данных, использованный для создания таблиц и диаграмм в этом отчете,
доступен на нашей странице «Данные тестирования жесткого диска». Вы можете бесплатно скачать и использовать эти данные в своих целях. Все, что мы просим, это три вещи: 1) вы ссылаетесь на Backblaze в качестве источника, если вы используете данные, 2) вы признаете, что несете единоличную ответственность за то, как вы используете данные, и 3) вы не продаете сами эти данные кому-либо; это бесплатно.
Удачи, и дайте нам знать, если найдете что-нибудь интересное.