Каждый квартал Drive Stats предоставляет нам цифры. В этом квартале мы столкнулись с кризисом смысла. Что на самом деле означает отказ жёсткого диска? Это происходит в момент, когда гаснет свет, или в момент, когда мы сами решаем, что он вышел из строя? Философы могли бы назвать это онтологической серой зоной. Мы просто называем это Q3.
По состоянию на 30 июня 2025 года у нас под управлением находилось 332 915 дисков. Из них 3970 были загрузочными, а 328 348 — дисками с данными. Давайте разберёмся в статистике, а затем поговорим о том, что такое сбой.
Статистика привода: дайджест-версия
Показатели отказов жестких дисков в третьем квартале 2025 года
В третьем квартале 2025 года мы отслеживали 328 348 накопителей. Вот цифры:
Показатели отказов жестких дисков Backblaze в третьем квартале 2025 года
Отчетный период с 1 июля 2025 г. по 30 сентября 2025 г. включительно.
Модели автомобилей с количеством поездок > 100 по состоянию на 1 июля 2025 г. и количеством дней поездок > 10 000 в третьем квартале 2025 г.
Заметки и наблюдения
Уровень отказов увеличился: Уровень отказов изменился, причём весьма существенно. Напомним, что в прошлом квартале среднегодовой процент отказов (AFR) составил 1,36% по сравнению с 1,55% в этом квартале. (Интересно, что годовой AFR за 2024 год составил 1,57%).
Новая энергия накопителя: встречайте Toshiba MG11ACA24TE ёмкостью 24 ТБ, присоединившийся к общему парку накопителей с 2400 накопителями и 24 148 днями автономной работы. Это означает, что мы достигли пороговых значений для квартальной статистики, но не для срока службы.
Клуб нулевых отказов: Для клуба нулевых отказов это был важный месяц, в который вошли четыре автомобиля:
- Seagate HMS5C4040BLE640 (4 ТБ)
- Seagate ST8000NM000A (8 ТБ)
- Toshiba MG09ACA16TE (16 ТБ)
- Toshiba MG11ACA24TE (24 ТБ) — и да, это новый диск.
Те из вас, кто внимательно следит за статистикой, наверняка заметят, что Seagate ST8000NM000A (8 ТБ) — частый гость в этом списке. Последний раз он сломался в третьем квартале 2024 года — и это был всего один сбой за весь квартал!
Самые высокие значения AFR были действительно высокими: верхний предел был настолько высоким, что в этом месяце это побудило нас провести анализ выбросов с использованием стандартного квартильного анализа (метод Тьюки). Исходя из этой информации, любой автомобиль с квартальным значением AFR выше 5,88% является выбросом, и таких выбросов три:
- Seagate ST10000NM0086 (10 ТБ): 7,97%
- Seagate ST14000NM0138 (14 ТБ): 6,86%
- Toshiba MG08ACA16TEY (16 ТБ): 16,95%
Что там происходит? Отличный вопрос, и мы поговорим об этом после того, как рассмотрим показатели отказов за весь срок службы.
Показатели отказов жесткого диска за весь срок службы
Для рассмотрения на предмет оценки жизненного цикла модели накопителя требовалось наличие 500 или более накопителей по состоянию на конец второго квартала 2025 года и более 100 000 дней эксплуатации за весь срок службы. После исключения моделей накопителей, не соответствующих критериям оценки жизненного цикла, для анализа остались 27 накопителей, как показано в таблице ниже.
Показатели отказов жестких дисков Backblaze во втором квартале 2025 года
Отчетный период заканчивается 30 сентября 2025 г.
Модели приводов > 500 приводов и > 100 000 дней эксплуатации приводов за весь срок службы
Заметки и наблюдения
- Этот показатель годовых процентных ставок (AFR) за весь срок службы довольно стабилен, не правда ли? Он составляет 1,31%. В прошлом квартале мы сообщали, что он составлял 1,30%, а в предыдущем квартале — 1,31%.
- Средний возраст накопителей объёмом 4 ТБ не изменился: как мы уже сообщали ранее, накопители объёмом 4 ТБ постепенно выводятся из эксплуатации. Сейчас их осталось совсем немного — всего 11 моделей ALE и 187 моделей BLE. Но, поскольку их жизненный цикл сравнительно велик, дополнительных дней эксплуатации накопителей недостаточно, чтобы изменить средний возраст в месяцах. Таким образом, никаких «призраков» в машине нет, и вывод из эксплуатации идёт по плану.
- Стабильный рост числа накопителей большей ёмкости: с прошлого квартала мы добавили 7936 накопителей ёмкостью 20 ТБ и более, соответствующих нашим параметрам по сроку службы. И не забывайте, что наш новый участник этой группы, Toshiba MG11ACA24TE (24 ТБ), пока не попал в эту таблицу — это добавляет ещё 2400 моделей накопителей. В общей сложности, ёмкостью 20 ТБ и более владеют 67 939 накопителями, что составляет около 21% от общего числа накопителей.
Определение отказа — с технической точки зрения
Вопрос, который мы несколько раз поднимали во время вебинаров или в комментариях, — как мы определяем отказ. Хотя это может показаться очевидным, на самом деле это довольно сложная головоломка, к которой мы не обращались с самого начала этой серии. Поиск ответа на этот вопрос затрагивает внутренние инструменты мониторинга парка накопителей (через статистику SMART), саму программу сбора статистики накопителей и наш уровень обработки данных. Я подробно рассмотрю каждый из этих вопросов, а затем мы рассмотрим выбросы за этот квартал.
Отчетность по статистике SMART
Мы используем Smartmontools для сбора SMART-атрибутов дисков и другой инструмент мониторинга, называемый Drive Sentinel, для маркировки ошибок чтения/записи, превышающих определенный порог, а также некоторых других аномалий.
Основным показателем, по которому мы определяем необходимость замены диска, является его реакция на чтение с неисправимыми ошибками носителя. Когда диск считывает данные с диска, но данные не проходят проверку целостности, он пытается восстановить данные, используя внутренние коды коррекции ошибок. Если восстановить данные не удаётся, он уведомляет хост, сообщая об этом как о неисправимой ошибке и помечая соответствующую часть диска как ожидающую перераспределения, что отображается в SMART с атрибутом Current_Pending_Sector.
В модулях хранения данных (Storage Pod), управляющих дисками через каналы SATA, функция Drive Sentinel подсчитывает количество неисправимых ошибок, обнаруженных диском, и, если оно превышает пороговое значение, доступ к диску будет закрыт. Это важно для классических модулей хранения данных Backblaze, где пять дисков совместно используют один канал SATA, и ошибки одного диска влияют на все диски в канале.
На модулях Dell и SMCI, использующих топологию SAS для подключения дисков, функция Drive Sentinel не закрывает доступ к дискам, поскольку сообщения об ошибках выдаются по-разному. Однако это не так критично, поскольку SAS сводит к минимуму влияние проблемного диска на другие.
Программа Drive Stats
Ранее мы уже рассказывали о специальной программе, которую мы используем для сбора статистики поездок, и вот краткий обзор:
Генератор podstats запускается на каждом модуле хранения (Storage Pod), то есть на любом хосте, где хранятся данные клиентов, каждые несколько минут. Это программа на C++, которая собирает статистику SMART и ряд других атрибутов, а затем преобразует их в XML-файл («podstats»). Затем данные отправляются на центральный хост в каждом центре обработки данных и объединяются в пакет. Покидая эти центральные хосты, данные попадают в область, которую мы будем называть Drive Stats.
Логика этой программы относительно проста: сбой в Drive Stats происходит, когда диск исчезает из отчётной совокупности. Он считается «неисправным» до тех пор, пока не появится снова. Диски отслеживаются по серийным номерам, и мы ежедневно отправляем журналы по каждому диску, так что, по сути, мы можем получить довольно подробную информацию.
Уровень инженерии данных
Итак, мы собрали статистику SMART и скомпилировали её с помощью программы podstats. Теперь у нас есть вся информация, и аналитике данных необходимо добавить контекст. Диск может отключиться примерно на день (не вернув ответа тем инструментам, которые ежедневно собирают логи статистики SMART), но это может быть что-то простое, например, отсоединение кабеля. Итак, если диск снова появляется через день или 30, в какой момент этого периода мы классифицируем его как официальный отказ?
Раньше мы вручную создавали перекрёстные ссылки на рабочие тикеты центров обработки данных, но теперь мы автоматизировали этот процесс. На бэкенде это SQL-запрос, но, выражаясь человеческим языком, это выглядит следующим образом:
- Если накопитель регистрирует данные в последний день выбранного периода (в данном случае квартала), то он не вышел из строя.
- Запрос ссылается на три таблицы, созданные пользователем. Если в одной из них есть серийный номер диска, это указывает на наличие неисправности (в зависимости от назначения таблицы).
- Если серийный номер диска является основным серийным номером в тикете Jira на замену диска, то замена не удалась. (Jira — это место, где мы отслеживаем рабочие тикеты нашего центра обработки данных.)
- Если серийный номер накопителя является целевым серийным номером в тикете клонирования Jira или в (временном) заменяющем тикете, то он не является сбоем.
- По сути, когда мы составляем отчеты по статистике накопителей в конце квартала, если накопитель появился в одном из наших различных рабочих трекеров или не был повторно введен в совокупность, то он считается невыполненным.
В редких случаях это может означать, что у нас случаются так называемые «косметические» сбои, когда мы работаем с моделью накопителя, которая служит дольше квартального срока службы. И, спойлер, один из таких случаев отразился в данных этого месяца — наш выдающийся диск Toshiba с показателем отказов 16,9%. Мы расскажем об этом буквально через минуту, но сначала немного контекста.
Связь отказа диска с общей картиной парка дисков
Как мы уже упоминали выше, у некоторых приводов в пуле наблюдались настолько сильные колебания показателя AFR, что нам пришлось провести анализ выбросов с использованием метода квартилей. (Стоит также отметить, что кластерный анализ потенциально может быть более точным, но мы оставим это на другой раз.) Согласно этому анализу, всё, что имеет показатель отказов выше 5,88%, является выбросом.
Основная мотивация была навеяна попыткой визуализировать взаимосвязь между возрастом поездки в месяцах и показателями AFR в этом квартале.

И да, мы прекрасно понимаем, что это… совершенно нечитаемая диаграмма рассеяния. Если убрать подписи, то выглядит она немного лучше:
Нас действительно интересует форма этой зависимости. Если предположить, что чем старше диски, тем выше частота их отказов, можно было бы ожидать большей концентрации в правом верхнем квадранте. Но наши данные следуют гораздо более интересной закономерности: большинство точек данных сосредоточено в нижних областях графика независимо от возраста — чего и следовало ожидать от набора данных, отражающего деятельность группы умных людей, активно работающих над достижением цели поддержания здорового парка дисков. И всё же, у нас есть некоторые данные, которые ломают стереотипы.
Как интуитивно понятно моим коллегам из отдела бизнес-аналитики, процесс выявления выбросов — это тоже практические данные. Как и любая пресса — это хорошая пресса; в нашем мире больше данных — значит лучше. Итак, давайте подробнее рассмотрим эти выбросы. Напоминаю, вот эти три модели мотивации:
- Seagate ST10000NM0086 (10 ТБ): 7,97%
- Seagate ST14000NM0138 (14 ТБ): 6,86%
- Toshiba MG08ACA16TEY (16 ТБ): 16,95%
Seagate ST10000NM0086 (10 ТБ)
Высокая частота отказов этого накопителя вполне объяснима. Ему уже более семи лет (92,35 месяца). Кроме того, поскольку в эксплуатации находится всего 1018 моделей накопителей, отдельные отказы имеют большое значение по сравнению со средним количеством накопителей каждой модели, которое составляет 10 952, если использовать среднее значение этих квартальных данных, и 6177, если использовать медианное значение.
И вы можете увидеть, что это подтверждается тенденцией за последний год:
Seagate ST14000NM0138 (14 ТБ)
Этому накопителю почти пять лет (56,57 месяцев), и, опять же, количество накопителей меньше — 1286. Что ещё важнее, эта модель накопителя исторически имела высокие показатели отказов. В дополнение к вышесказанному, вот квартальные показатели отказов за последний год:
Toshiba MG08ACA16TEY (16 ТБ)
Наконец, наша модель Toshiba — самая интересная из всех. Ей меньше четырёх лет (44,61 месяца), и в её пуле 5145 накопителей. И этот квартал явно отличается от её обычных, приличных показателей годовых отказов (AFR).
Когда мы видим подобные отклонения, это обычно признак того, что что-то происходит.
Не волнуйтесь, поклонники Drive Stats: этот показатель был известен ещё до того, как мы приступили к этому делу. В прошлом квартале, работая с Toshiba, мы внедрили несколько обновлений прошивки, предоставленных компанией для оптимизации производительности этих дисков. Поскольку в некоторых случаях для этого приходилось извлекать диски, в этой группе накопителей оказалось аномально большое количество «сбойных» дисков.
Для этого накопителя это означает, что он на самом деле неплохая модель; и, учитывая нашу совместную работу с Toshiba над решением проблемы, мы должны увидеть нормализацию показателей отказов в ближайшем будущем. И это также возвращает нас к нашему разговору об определении отказа: в данном случае, хотя диски и «вышли из строя», отказ не был механическим, а был связан с чем-то, что мы сможем исправить без замены дисков. Короче говоря, не переживайте из-за скачка производительности и обратите внимание на динамику производительности в этой группе. Мы ожидаем, что эти накопители будут исправно работать долгие годы (и с более высокой производительностью).