Рейтинг
0.00

Backblaze Хостинг

2 читателя, 80 топиков

Политика ограничения скорости Backblaze B2 Cloud Storage для стабильной производительности



На шоссе есть полосы не просто так. Полосы помогают гарантировать, что большие объемы трафика смогут быстро и безопасно добраться до места назначения. И они поддерживают порядок и предсказуемость в системах, где некоторые люди хотят (или должны) ехать на скорости NASCAR, а другие, такие как я, немного медленнее.

Теперь Backblaze применяет такие фундаментальные инженерные решения к платформе B2 Cloud Storage, внедряя политику ограничения скорости, разработанную для эффективной поддержки различных типов клиентов и потребностей в использовании, чтобы каждый мог продолжать пользоваться необходимым ему высокопроизводительным хранилищем, одновременно лучше защищая всех от риска того, что какой-либо один клиент или группа клиентов создаст затор трафика для всех остальных.

На практике новая политика Backblaze предотвращает неожиданные скачки использования API, ограничивая скорость вызовов и байтов клиентов определенными пороговыми значениями за определенный период времени; если скорость превышена, клиент временно получит код статуса 503 при использовании нашего API, совместимого с S3, или код статуса 429 при использовании нашего собственного API Backblaze B2. Это похоже на политики и коды статуса, которые вы видели у других глобальных поставщиков облачных объектных хранилищ, включая Amazon Web Services S3 и Microsoft Azure.

На основе нашего анализа моделей использования клиентами мы уверены, что подавляющее большинство из вас не достигнет пороговых значений ограничения скорости — просто спокойное плавание или открытая дорога, если придерживаться аналогии с шоссе/полосами.

Backblaze также может помочь клиентам, которым необходимо увеличить лимит для тестирования производительности и подтверждения концепции (PoC), восстановления и/или ожидаемых повседневных потребностей.

Нажмите ниже, чтобы узнать подробности:
  • Эта политика ограничена использованием Backblaze B2 Cloud Storage. Использование Backblaze Computer Backup не входит в сферу действия этой политики.
  • Клиенты, хранящие 10 ТБ или меньше, изначально будут иметь возможность загружать до 3000 запросов в минуту и ​​800 мегабит в секунду, а также загружать до 1200 запросов в минуту и ​​200 мегабит в секунду, все на аккаунт. Другие операции API также могут быть ограничены для поддержания потока трафика, но, опять же, это не будет заметно большинству клиентов.
  • Клиенты, хранящие более 10 ТБ данных, включая всех клиентов, которым мы оказывали поддержку в ходе внедрения и/или продления, на данный момент не почувствуют никаких изменений.
  • Анализ трафика и проектирование — это динамическая деятельность, поэтому мы, вероятно, будем со временем пересматривать ограничения в ответ на меняющиеся модели использования, внедряемые нами улучшения и, конечно же, отзывы клиентов. Мы будем объявлять о существенных изменениях здесь, в блоге.
Вы можете посетить нашу документацию API для получения дополнительной информации. Пожалуйста, не стесняйтесь обращаться в нашу службу поддержки с любыми вопросами и/или для активного обсуждения правильных лимитов скорости для удовлетворения ваших уникальных потребностей.
www.backblaze.com/apidocs

Статистика Backblaze Drive за третий квартал 2024

По состоянию на конец третьего квартала 2024 года Backblaze отслеживал 292 647 жестких дисков (HDD) и твердотельных накопителей (SSD) на наших облачных серверах хранения данных, расположенных в наших центрах обработки данных по всему миру. Мы исключили из этого анализа 4100 загрузочных дисков, состоящих из 3344 SSD и 756 HDD. Это оставляет нам 288 547 жестких дисков под управлением для обзора в этом отчете. Мы рассмотрим годовые показатели отказов (AFR) за третий квартал 2024 года и AFR за весь срок службы соответствующих моделей дисков. По ходу дела мы поделимся нашими наблюдениями и идеями по представленным данным и, как всегда, мы с нетерпением ждем, когда вы сделаете то же самое в разделе комментариев в конце поста.

Показатели отказов жестких дисков за Q3 2024
Для нашего квартального анализа за Q3 2024 мы исключаем из рассмотрения следующее: модели дисков, которые не имели по крайней мере 100 дисков в эксплуатации на конец квартала, модели дисков, которые не накопили 10 000 или более дней работы дисков в течение квартала, и отдельные диски, которые превысили температурные характеристики производителя в течение своего срока службы. Удаленный пул составил в общей сложности 471 диск, в результате чего у нас осталось 288 076 дисков, сгруппированных в 29 моделей дисков для нашего анализа за Q3 2024.

В таблице ниже перечислены AFR и связанные данные для этих моделей дисков. Таблица отсортирована по возрастанию размера диска, а затем по возрастанию AFR в пределах размера диска.


Заметки и наблюдения по статистике накопителей за Q3 2024 г.
  • Повышение AFR. Поквартальный AFR продолжает медленно расти, увеличившись с 1,71% во втором квартале 2024 г. до 1,89% в третьем квартале 2024 г. Рост нельзя объяснить устареванием накопителей на 4 ТБ, поскольку наша система миграции накопителей CVT продолжает заменять эти накопители. Как следствие, AFR для оставшихся накопителей на 4 ТБ составил 0,26% в третьем квартале. Основной причиной является сбор накопителей на 8 ТБ, которым сейчас в среднем более семи лет. В целом AFR для накопителей на 8 ТБ вырос до 3,04% в третьем квартале 2024 г. по сравнению с 2,31% во втором квартале. Команда CVT готовится начать миграцию накопителей на 8 ТБ в течение следующих нескольких месяцев.
  • Еще один золотой старичок ушел. Вы могли заметить, что в таблице отсутствуют диски Seagate емкостью 4 ТБ (модель: ST4000DM000). Все хранилища Backblaze, содержащие эти диски, были перенесены, и, как следствие, осталось только два таких диска, что недостаточно для квартального графика. Подробнее об их исчезновении можно прочитать в нашем недавнем посте, посвященном Хэллоуину.
  • Новый диск в городе. В третьем квартале поступили диски Toshiba емкостью 20 ТБ (модель: MG10ACA20TE), заполнив три полных хранилища Backblaze по 1200 дисков каждое. За последние несколько месяцев наша команда по квалификации дисков протестировала модель диска емкостью 20 ТБ, и, пройдя тест, теперь они включены в список моделей дисков, которые мы можем развернуть.
  • Один ноль. Второй квартал подряд модель диска Seagate емкостью 14 ТБ (модель: ST16000NM002J) не имела ни одного отказа. При наличии всего 185 дисков в эксплуатации существует много потенциальных изменений в будущем, но на данный момент они обустраиваются довольно хорошо.
  • Клуб девятилетних. Нет дисков с данными, которые прослужили 10 или более лет, но есть 39 дисков, которым девять лет или больше. Все они — диски HGST емкостью 4 ТБ (модель: HMS5C4040ALE640), распределенные по 31 различным модулям хранения, в пяти различных хранилищах Backblaze и двух различных центрах обработки данных. Доживет ли какой-либо из этих дисков до 10 лет? Вероятно, нет, учитывая, что четыре из пяти хранилищ начали миграцию CVT и будут удалены к концу года. И хотя миграция пятого хранилища пока не запланирована, это всего лишь вопрос времени, когда все используемые нами диски емкостью 4 ТБ исчезнут.

Реактивные и проактивные отказы дисков
В схеме набора данных Drive Stats есть поле с именем failure, которое отображает либо 1 для отказа, либо 0 для отсутствия отказа. На протяжении многих лет в различных сообщениях мы заявляли, что для наших целей отказ диска является либо реактивным, либо проактивным. Кроме того, мы предположили, что неисправные диски в основном равномерно попадают в эти две категории. Мы хотели бы привести некоторые данные для этого числа 50/50, но сначала давайте начнем с определения наших двух категорий отказа дисков, реактивных и проактивных.
  • Реактивный: Реактивный отказ происходит, когда происходит любое из следующих условий: диск выходит из строя и отказывается загружаться или раскручиваться, диск не отвечает на системные команды или диск не остается работоспособным.
  • Проактивный: Проактивный отказ, как правило, это все, что не является реактивным отказом, и обычно происходит, когда один или несколько индикаторов, таких как статистика SMART, проверки FSCK (файловой системы) и т. д., сигнализируют о том, что диск испытывает трудности и отказ диска весьма вероятен. Обычно в дисках, заявленных как проактивные отказы, присутствует множество индикаторов.
Диск, который удаляется и заменяется как проактивный или реактивный отказ, считается отказом диска в Drive Stats, если мы не узнаем иного. Например, диск испытывает ошибки связи и тайм-ауты команд и запланирован на проактивную замену диска. В процессе замены технический специалист центра обработки данных понимает, что диск, по-видимому, не полностью установлен. После аккуратного закрепления диска дальнейшее тестирование не выявляет никаких проблем, и диск больше не считается неисправным. В этот момент набор данных Drive Stats обновляется соответствующим образом.

Как было отмечено выше, набор данных Drive Stats включает статус отказа (0 или 1), но не тип отказа (проактивный или реактивный). Это проект будущего. Чтобы получить разбивку различных типов отказов дисков, нам нужно опросить систему тикетов на обслуживание центра обработки данных, используемую каждым центром обработки данных для регистрации любых действий по обслуживанию Storage Pod и связанного с ними оборудования. Исторически данные об отказах дисков были недоступны, но недавнее обновление программного обеспечения теперь впервые позволяет нам получить доступ к этим данным. Поэтому в духе Drive Stats мы хотели бы поделиться с вами типами отказов дисков.

Статистика по типу отказа дисков
3-й квартал 2024 года станет отправной точкой для любой статистики по типу отказа дисков, которую мы опубликуем в будущем. Для согласованности мы будем использовать те же модели дисков, которые указаны в квартальном отчете Drive Stats, в данном случае — 3-й квартал 2024 года. За этот период было зафиксировано 1361 отказ дисков по 29 моделям дисков.

На самом деле мы используем данные по обслуживанию центров обработки данных уже несколько лет, поскольку каждый квартал мы проверяем отказавшие диски, сообщаемые системой Drive Stats, с помощью записей о техническом обслуживании. Только проверенные отказные диски используются для отчетов Drive Stats, которые мы публикуем ежеквартально, и в данных, которые мы публикуем на нашей веб-странице Drive Stats.

Недавние обновления системы тикетов по обслуживанию центров обработки данных не только упростили процесс проверки отказов дисков, но и теперь мы можем легко объединить два источника. Это дает нам возможность просматривать данные об отказах дисков по нескольким различным атрибутам, как показано в таблицах ниже. Мы начнем с количества отказавших дисков в каждой категории и пойдем оттуда. Это сформирует наши исходные данные.



Очевидно, что здесь можно проанализировать множество вещей, но на данный момент мы просто хотим установить базовый уровень. Далее мы соберем дополнительные данные, чтобы увидеть, насколько последовательны и надежны наши данные с течением времени. Мы сообщим вам, что мы найдем.

Узнать больше о проактивных сбоях
Один из интересных для нас моментов — это различные причины, по которым диск обозначается как проактивный сбой. Сегодня мы регистрируем причины проактивного обозначения в момент, когда диск помечается как требующий замены, но в настоящее время для данного диска допускается несколько причин. Это затрудняет определение основной причины. Конечно, может не быть такого понятия, как основная причина, поскольку часто это комбинация факторов, вызывающих проблему. Этот анализ также может быть интересен. Независимо от точной причины, такие диски находятся в плохом состоянии, и замена деградировавших дисков для защиты хранящихся на них данных является нашим главным приоритетом.

Показатели отказов жестких дисков за весь срок службы
По состоянию на конец третьего квартала 2024 года мы отслеживали 288 547 работающих жестких дисков. Чтобы быть рассмотренным для обзора жизненного цикла, модель привода должна была иметь 500 или более приводов по состоянию на конец третьего квартала 2024 года и иметь более 100 000 накопленных дней привода в течение своего жизненного цикла. Когда мы удалили те модели приводов, которые не соответствовали критериям жизненного цикла, у нас осталось 286 892 привода, сгруппированных в 25 моделей, оставшихся для анализа, как показано в таблице ниже.



Снижение AFR за весь срок службы
Во втором квартале 2024 года AFR за весь срок службы для перечисленных накопителей составил 1,47%. В третьем квартале AFR за весь срок службы снизился до 1,31%, что является значительным снижением от одного квартала к другому для AFR за весь срок службы. Это снижение также противоречит увеличению квартального роста AFR за тот же период. На первый взгляд, это не имеет особого смысла, поскольку увеличение AFR от квартала к кварталу должно увеличивать AFR за весь срок службы. Есть два связанных фактора, которые объясняют эти, казалось бы, противоречивые данные. Давайте посмотрим.

Начнем с таблицы ниже, в которой суммированы различия между статистикой срока службы за второй и третий кварталы.


Для создания набора данных для таблиц AFR срока службы применяются два критерия: во-первых, в конце заданного квартала количество дисков определенной модели должно быть больше 500, а во-вторых, количество дней работы должно быть больше 100 000. Первый критерий гарантирует, что модели дисков соответствуют представленным данным; то есть у нас есть значительное количество каждой из включенных моделей дисков. Второй стандарт гарантирует, что модели дисков, указанные в таблице AFR срока службы, имеют достаточное количество точек данных; то есть у них достаточно дней работы, чтобы быть значимыми.

Как мы видим в таблице выше, в то время как количество дисков увеличилось со второго по третий квартал, количество дней работы дисков и количество отказов дисков значительно снизились. Это объясняется путем сравнения моделей дисков, указанных в таблице срока службы второго квартала, с таблицей срока службы третьего квартала. Подведем итоги.
  • Добавлено: в третьем квартале мы добавили модель диска Toshiba емкостью 20 ТБ (MG10ACA20TE). Во втором квартале в эксплуатации находилось только два таких диска.
  • Удалено: в третьем квартале мы удалили модель диска Seagate объемом 4 ТБ (ST4000DM000), поскольку на конец третьего квартала оставалось всего два диска, что значительно ниже критерия в 500 дисков.
Когда мы удалили диски Seagate объемом 4 ТБ, мы также удалили 80 400 065 дней работы дисков и 5 789 отказов дисков за весь срок службы из расчетов годового показателя… Если бы мы поступили таким образом, список моделей приводов, используемых для вычисления AFR за весь срок службы, теперь включал бы модели приводов, которые мы перестали использовать много лет назад, и включал бы около 100 различных моделей приводов. В результате большинство моделей приводов, используемых для вычисления AFR за весь срок службы, были бы устаревшими, а таблица AFR за весь срок службы содержала бы строки по сути бесполезных данных, не имеющих текущей или будущей ценности. Короче говоря, наличие количества приводов в качестве одного из критериев при вычислении AFR за весь срок службы делает таблицу релевантной и доступной.

Цитата из Drive Stats, Nevermore: Элегия для наших дисков Seagate 4 ТБ



Однажды в унылую полночь, когда я печатал очередной запрос,
Ищу множество странных и любопытных фактов из скрытой истории Drive Stats —
Пока я ждал, время шло, и вдруг статистика начала танцевать.
Строки пустых наборов данных; в базе данных больше ничего не было
«Правда?» — пробормотал я. «В базе данных больше ничего не было…
Поэтому мне нужно изучить эти приводы».
Ах, я отчетливо помню, это было как раз в сентябре.
Я запросил показатели отказов дисков Seagate емкостью четыре терабайта
Я с нетерпением набрал запрос, хотя мои глаза были затуманены.
Количество дисков Seagate по четыре было жутким, жутким; больше ничего.
Печальный и уверенный граф кричал так, как никогда прежде;
Никаких дисков Seagate емкостью четыре терабайта.
Я тут же проверил таблицы, данные, должно быть, полны небылиц;
Я уверен, что есть пропущенные строки и файлы, ожидающие изучения.
Реальность, которую я продолжал игнорировать, — данные Seagate, должно быть, отсутствуют.
После нескольких часов, потраченных на сбор данных, факты потрясли меня до глубины души;
Для наших дисков Seagate емкостью четыре терабайта срок службы подошел к концу.
Этих дисков Seagate больше никогда не будет.
(Приношу свои извинения Эдгару Аллану По)

Вскоре мы опубликуем отчет Backblaze Drive Stats за третий квартал 2024 года, и в таблицах будет отсутствовать старый верный накопитель Seagate ST4000DM000 емкостью 4 ТБ. Эта модель накопителя украшала наши диаграммы и таблицы Drive Stats с самого первого отчета Drive Stats, и было бы ужасной ошибкой, если бы мы позволили этому накопителю незаметно уйти в загробную жизнь. Поэтому в этот канун Дня всех святых мы просто обязаны сказать этим накопителям Seagate «никогда больше».

Первые 45 из этих дисков Seagate 4 ТБ были установлены в 45-дисковый Backblaze Storage Pod в мае 2013 года. Это было до 60-дисковых Storage Pod, Backblaze Vaults и даже Backblaze B2. В течение следующих двух лет каждый квартал добавлялись тысячи новых дисков Seagate 4 ТБ, и к третьему кварталу 2016 года в эксплуатации находилось 34 744 вращающихся душ. Это составляло более 50% всех дисков в эксплуатации на тот момент — вопиющий успех, который не удалось повторить ни одной другой модели дисков.

Увы, это не продлилось долго, так как первая волна 8-терабайтных дисков прибыла в середине 2016 года, и с этим не было закуплено дополнительных 4-терабайтных дисков Seagate. Со временем, когда 4-терабайтные диски Seagate встретили своего производителя, количество уменьшилось, и когда Storage Pods, содержащие эти диски, начали постепенно выводить из эксплуатации в 2018 году, количество сократилось еще больше. Последний гвоздь в крышку гроба был забит, когда в 2023 году наша система миграции дисков CVT зациклилась на замене всех оставшихся 4-терабайтных дисков Seagate, и вот мы здесь.

Что касается тех бесстрашных 45 оригинальных дисков, установленных в мае 2013 года, то в конце их уже не было. Их бесцеремонно заменили в обновлении Storage Pod еще в 2017 году. Несколько из них были воскрешены в качестве замены дисков, но сегодня они существуют только в духовном мире, умерев или были заменены к 2020 году. Тем не менее, многие другие диски Seagate емкостью 4 ТБ прожили долгую счастливую жизнь, и почти 100 из них прослужили более 100 месяцев (8,4 года), прежде чем были отправлены в свое последнее пристанище жнецом CVT.

Итак, пришло время; мы соберемся в круг, скрестим руки, возьмемся за них и проскандируем: «Наши диски Seagate… с четырьмя терабайтами… больше никогда!»

Статистика Backblaze Drive за второй квартал 2024

По состоянию на конец второго квартала 2024 года Backblaze отслеживал 288 665 жестких дисков (HDD) и твердотельных накопителей (SSD) на наших серверах облачного хранения, расположенных в наших центрах обработки данных по всему миру. Мы исключили из этого анализа 3789 загрузочных дисков, состоящих из 2923 твердотельных накопителей и 866 жестких дисков. Это оставляет нам 284 876 жестких дисков под управлением для обзора в этом отчете. Мы рассмотрим годовые показатели отказов (AFR) за второй квартал 2024 года и AFR за весь срок службы соответствующих моделей дисков, а также проверим возраст дисков в зависимости от показателей отказов с течением времени. По ходу дела мы поделимся нашими наблюдениями и идеями по представленным данным и, как всегда, ждем, что вы сделаете то же самое в разделе комментариев в конце поста.

Показатели отказов жестких дисков во втором квартале 2024 г.
Для нашего квартального анализа Q2 2024 мы исключаем из рассмотрения: модели приводов, которые имели не менее 100 приводов в эксплуатации на конец квартала, модели приводов, которые не накопили 10 000 или более дней привода в течение квартала, и отдельные приводы, которые превысили температурные характеристики производителя в течение своего срока службы. Удаленный пул составил в общей сложности 490 приводов, оставив нам 284 386 приводов, сгруппированных в 29 моделей приводов для нашего анализа Q2 2024.

В таблице ниже перечислены AFR и соответствующие данные для этих моделей приводов. Таблица отсортирована от большего к меньшему по размеру привода, а затем по AFR в пределах размера привода.


Заметки и наблюдения по статистике движения за второй квартал 2024 г.
Рост AFR: AFR для Q2 2024 года составил 1,71%. Это выше, чем в Q1 2024 года на 1,41%, но ниже, чем год назад (Q2 2023) на 2,28%. Хотя квартальный рост был немного неожиданным, ожидаются квартальные колебания AFR. Шестнадцать моделей приводов имели AFR 1,71% или ниже, а 13 моделей приводов имели AFR выше.

Два хороших нуля: во втором квартале 2024 года две модели дисков не имели ни одного отказа, Seagate на 14 ТБ (модель: ST14000NM000J) и Seagate на 16 ТБ (модель: ST16000NM002J). У обеих моделей относительно небольшое количество дисков и дней работы за квартал, поэтому их успех несколько сдержан, но у модели диска Seagate на 16 ТБ очень приличный показатель отказов за весь срок службы — 0,57%.

Еще один GOAT ушел: в первом квартале мы перенесли последний из наших 4-терабайтных дисков Toshiba. Во втором квартале мы перенесли последний из наших 6-терабайтных дисков, включая все 6-терабайтные диски Seagate, средний возраст которых составил девять лет (108 месяцев). Эта модель диска Seagate завершила свою карьеру в Backblaze с впечатляющим показателем AFR в 0,86%.

В настоящее время 4-терабайтный Seagate (модель: ST4000DM000) является нашей старейшей моделью дисков для хранения данных, средний возраст которой составляет 99,5 месяцев. Данные с этих дисков планируется перенести в течение следующего квартала или двух с помощью CVT, нашей внутренней системы миграции дисков. Они никогда не прослужат девять лет.

Клуб 10-летних: с переносом 6-терабайтных дисков Seagate, которым исполнилось 10 лет, мы задались вопросом: какой диск с данными является самым старым в эксплуатации? Ответ: диск HGST емкостью 4 ТБ (модель: HMS5C4040ALE640) со сроком службы 9 лет, 11 месяцев и 23 дня по состоянию на конец второго квартала. Увы, хранилище Backblaze, в котором находится этот диск, теперь переносится, как и многие другие диски со сроком службы более девяти лет. Посмотрим в следующем квартале, успеют ли они попасть в Клуб 10-летних до того, как будут выведены из эксплуатации.

Хотя нет ни одного диска с данными со сроком службы 10 лет, есть 11 загрузочных жестких дисков, которые превышают эту отметку. Фактически, один из них, диск WD емкостью 500 ГБ (модель: WD5000BPKT), прослужил более 11 лет. (Псс, не говорите об этом команде CVT.)

Сюрприз от HGST: на протяжении многих лет модели дисков HGST, которые мы использовали, работали очень хорошо. Поэтому, когда диск HGST емкостью 12 ТБ (модель: HUH721212ALN604) появился с AFR 7,17% во втором квартале, это стало новостью. Такие нехарактерные квартальные показатели отказов для этой модели на самом деле появились около года назад, хотя AFR 7,17% является самым большим квартальным значением на сегодняшний день. В результате AFR за весь срок службы вырос с 0,99% до 1,57% за последний год. Хотя AFR за весь срок службы не вызывает тревоги, мы обращаем внимание на эту тенденцию.

Показатели отказов жестких дисков за весь срок службы
По состоянию на конец второго квартала 2024 года мы отслеживали 284 876 работающих жестких дисков. Чтобы быть рассмотренной для обзора жизненного цикла, модель накопителя должна была иметь 500 или более дисков по состоянию на конец второго квартала 2024 года и иметь более 100 000 накопленных дней использования в течение срока службы. Когда мы удалили те модели накопителей, которые не соответствовали критериям жизненного цикла, у нас осталось 283 065 ​​накопителей, сгруппированных в 25 моделей для анализа, как показано в таблице ниже.


Возраст, AFR и змеи
Одной из истин в нашем бизнесе является то, что разные модели дисков выходят из строя с разной скоростью. Наша цель — разработать профиль отказов для данной модели диска с течением времени. Такой профиль может помочь оптимизировать наши стратегии замены и миграции дисков и в конечном итоге сохранить долговечность нашего сервиса облачного хранения.

Для нашей группы дисков с данными мы рассмотрим изменения в годовом показателе годового ресурса (AFR) с течением времени для моделей дисков с не менее чем миллионом дней использования по состоянию на конец второго квартала 2024 года. Это дает нам 23 модели дисков для обзора. Мы разделим модели дисков на две группы: те, средний возраст которых составляет пять лет (60 месяцев) или меньше, и те, средний возраст которых превышает 60 месяцев. Почему именно этот предел? Это типичный гарантийный срок для жестких дисков корпоративного класса.

Начнем с построения графика текущего срока службы AFR для 14 моделей приводов, средний возраст которых составляет 60 месяцев или меньше, как показано на диаграмме ниже.


Давайте рассмотрим модели приводов, охарактеризовав четыре квадранта следующим образом:
  • Квадрант I: Модели приводов в этом квадранте работают хорошо и имеют приемлемый показатель AFR менее 1,5%. Модели приводов справа в этом квадранте могут потребовать немного больше внимания в ближайшие месяцы, чем те, что слева.
  • Квадрант II: Эти модели приводов имеют частоту отказов выше 1,5%, но все еще разумны при AFR около 2% за весь срок службы. Важно то, что AFR не увеличивается значительно со временем.
  • Квадрант III: В этом квадранте сейчас нет приводов, но если бы они были, это не было бы причиной для беспокойства. Почему? Некоторые модели приводов испытывают более высокие показатели отказов на ранней стадии, а затем, следуя кривой ванны, их AFR падает по мере старения.
  • Квадрант IV: Эти модели приводов только начинают развиваться и только начинают формировать свой профиль отказов, что на данный момент является положительным фактором.
На первый взгляд, диаграмма говорит нам, что все выглядит хорошо. Диски в квадранте I работают хорошо, два диска в квадранте II могли бы быть лучше, но все еще приемлемы, и никаких сюрпризов в новых моделях дисков на данный момент нет. Давайте посмотрим, как обстоят дела с моделями дисков, средний возраст которых составляет более 60 месяцев, как в диаграмме ниже.


Есть девять моделей дисков, которые соответствуют критериям среднего возраста, включая диск Seagate 6 ТБ (желтый), диски которого были выведены из эксплуатации во втором квартале. Как вы можете видеть, модели дисков распределены по всем четырем квадрантам. Как и прежде, квадрант I содержит хорошие диски, квадранты II и III — диски, о которых нам нужно беспокоиться, а модели квадранта IV пока выглядят хорошо.

Если бы мы остановились здесь, мы могли бы решить, например, что диски Seagate емкостью 4 ТБ являются первыми в очереди на процесс миграции CVT, но не так быстро. Все эти модели дисков существуют уже не менее пяти лет, и у нас есть их показатели отказов с течением времени. Поэтому вместо того, чтобы полагаться только на момент времени, давайте посмотрим на изменение их показателей отказов с течением времени в приведенной ниже таблице.


Диаграмма-змея, как мы ее называем, показывает частоту отказов в течение срока службы каждой модели привода с течением времени. Мы начали с 24 месяцев, чтобы сделать диаграмму менее запутанной. Независимо от этого, модели приводов сортируются либо в квадрант I, либо в квадрант II, как только их средний возраст превышает 60 месяцев. Давайте рассмотрим приводы в каждом из этих квадрантов.

Квадрант I: Пять из девяти моделей дисков находятся в квадранте I по состоянию на второй квартал 2024 года. Два диска HGST емкостью 4 ТБ (коричневая и фиолетовая линии), а также диск Seagate емкостью 6 ТБ (красная линия) имеют почти вертикальные линии, указывающие на то, что их показатели отказов были постоянны с течением времени, особенно после 60 месяцев эксплуатации. Такая продемонстрированная последовательность с течением времени — это профиль отказов, который нам нравится видеть.

Профиль отказов 8 ТБ Seagate (синяя линия) и 8 ТБ HGST (серая линия) менее постоянны, и каждый из них увеличивает свои показатели отказов по мере старения. В случае диска HGST срок службы AFR вырос примерно с 0,5% до 1,0% за 18-месячный период, начиная с 48 месяцев, прежде чем выровняться. Диску Seagate потребовалось около двух лет, начиная с 60 месяцев, чтобы вырасти с 1,0% до почти 1,5% до выровняться.
Квадрант II: Оставшиеся 4 модели дисков оказались в этом квадранте. Три из моделей, Seagate 8 ТБ (желтая линия), Seagate 10 ТБ (зеленая линия) и HGST 12 ТБ (бирюзовая линия), имеют схожие профили отказов. Все три достигли определенного момента в своем сроке службы, и их кривая начала изгибаться вправо. Другими словами, их показатели отказов со временем ускорились. Хотя Seagate 8 ТБ (желтый) показывает некоторые признаки выравнивания, все три модели будут внимательно следить и заменяться, если эта тенденция сохранится.

Также в квадранте II находится диск Seagate 4 ТБ (черная линия). Эта модель диска активно переносится и заменяется дисками емкостью 16 ТБ и более с помощью процесса CVT. Таким образом, трудно сказать, является ли почти вертикальный профиль отказов функцией процесса замены или выравнивания интенсивности отказов модели диска с течением времени. В любом случае ожидается, что миграция этой модели диска будет завершена в следующем квартале или двух.

Нормальный профиль отказа
Если бы нам пришлось выбрать одну из моделей дисков для представления нормального профиля отказов, это был бы Seagate емкостью 8 ТБ (синяя линия, модель: ST800DM002). Почему? Частота отказов в течение первых 60 месяцев постоянно составляла около 1,0%, прогнозируемого Seagate AFR. Через 60 месяцев AFR увеличился по мере старения диска, как и ожидалось. Вы могли бы подумать, что мы выберем профиль отказов одной из двух моделей дисков HGST емкостью 4 ТБ (коричневая и фиолетовая линии). «Проблема» в том, что их частота отказов значительно ниже любого опубликованного AFR любого производителя дисков. Хотя это здорово для нас, их годовые частоты отказов с течением времени, к сожалению, не являются нормальными.

Может ли ИИ помочь?
Идея использования методов AI/ML для прогнозирования сбоя накопителя существует уже несколько лет, но в качестве первого шага давайте посмотрим, является ли прогнозирование сбоя накопителя проблемой, достойной применения ИИ. Недавно мы провели вебинар « Использование данных облачного хранилища в приложениях и службах AL/ML », в котором мы изложили общие критерии, которые следует использовать при оценке необходимости использования AI/ML для решения определенной проблемы, в данном случае прогнозирования сбоя накопителя. Наиболее существенным критерием, который здесь применяется, является то, что ИИ лучше всего использовать для решения проблемы, для которой вы не можете последовательно применять набор правил для ее решения.

Модель обучается путем взятия исходных данных и применения алгоритма для итеративного объединения и взвешивания нескольких факторов. Выходными данными является модель, которая может быть использована для ответа на вопросы о предмете модели, в данном случае отказе диска. Например, мы обучаем модель, используя данные Drive Stats для данной модели диска за последний год. Затем мы задаем модели вопрос, используя ежедневную статистику SMART диска Z и связанную с ней информацию. Мы используем эти данные в качестве входных данных для модели, и хотя точного соответствия нет, модель будет использовать вывод для разработки ответа вероятности отказа диска Z с течением времени. Таким образом, кажется, что прогнозирование отказа диска было бы хорошим кандидатом для использования ИИ.

Неясно, можно ли применить то, что изучено для одной модели диска, к другой модели диска. Один взгляд на змеиную диаграмму выше наглядно демонстрирует проблему, поскольку профиль отказов для каждой модели диска отличается, иногда радикально отличается. Например, как вы думаете, можно ли обучить модель на дисках Seagate емкостью 4 ТБ (черная линия) и использовать ее для прогнозирования отказов дисков для любой из моделей дисков HGST емкостью 4 ТБ (фиолетовая и коричневая линии)? Ответ может быть «да», но это определенно не кажется вероятным.

При всем при этом, за эти годы было опубликовано несколько исследовательских работ и исследований, в которых пытались определить, можно ли использовать AI/ML для прогнозирования отказов дисков. Мы сделаем обзор этих публикаций в ближайшие пару месяцев и, надеемся, прольем свет на возможность использования AI для точного и своевременного прогнозирования отказов дисков.

Статистика Backblaze Drive за первый квартал 2024

По состоянию на конец первого квартала 2024 года Backblaze отслеживала 283 851 жесткий диск и твердотельный накопитель на наших серверах облачного хранения, расположенных в наших центрах обработки данных по всему миру. Мы исключили из этого анализа 4279 загрузочных дисков, включая 3307 твердотельных накопителей и 972 жестких диска. Таким образом, под нашим управлением остается 279 572 жестких диска, которые необходимо изучить для данного отчета. Мы рассмотрим их годовую частоту отказов (AFR) по состоянию на первый квартал 2024 года, а также углубимся в средний возраст отказов дисков по моделям, размерам дисков и т. д. Попутно мы поделимся своими наблюдениями и мнениями по поводу представленных данных и, как всегда, с нетерпением ждем, когда вы сделаете то же самое в разделе комментариев в конце публикации.

Частота отказов жестких дисков за первый квартал 2024 г.
Мы проанализировали данные статистики 279 572 жестких дисков. В этой группе мы выявили 275 отдельных приводов, температура эксплуатации которых в какой-то момент срока службы превысила спецификации производителя. Таким образом, эти приводы были исключены из наших расчетов AFR.

Остальные 279 297 накопителей были разделены на две группы. Первичную группу составляют модели приводов, у которых на конец квартала работало не менее 100 приводов и которые наработали более 10 000 дней эксплуатации в течение того же квартала. Эта группа состоит из 278 656 накопителей, сгруппированных по 29 моделям накопителей. Вторичная группа содержит оставшийся 641 диск, не отвечающий указанным критериям. Вторичную группу мы рассмотрим позже в этом посте, а сейчас давайте сосредоточимся на первичной группе.

За первый квартал 2024 года мы проанализировали 278 656 жестких дисков, сгруппированных по 29 моделям дисков. В таблице ниже перечислены AFR этих моделей приводов. Таблица отсортирована по размеру диска, затем по AFR и сгруппирована по размеру диска.


Примечания и наблюдения по статистике движения за первый квартал 2024 года
Нисходящий AFR: AFR за первый квартал 2024 года составил 1,41%. Это меньше, чем в четвертом квартале 2023 года (1,53%), а также ниже, чем год назад (первый квартал 2023 года) на 1,54%. Продолжающийся процесс замены старых накопителей емкостью 4 ТБ является основной причиной этого снижения, поскольку AFR в первом квартале 2024 года (1,36%) для когорты накопителей емкостью 4 ТБ снизился с максимума в 2,33% во втором квартале 2023 года.
Несколько хороших нулей: в первом квартале 2024 года у трех моделей накопителей не было сбоев:
Seagate 16 ТБ (модель: ST16000NM002J)
  • 1 квартал 2024 г.: 42 133 дня вождения.
  • Общий стаж вождения: 216 019 дней.
  • Пожизненный AFR: 0,68%
  • Доверительный интервал за весь срок службы: 1,4%
Seagate 8 ТБ (модель: ST8000NM000A)
  • 1 квартал 2024 г.: 19 684 дней вождения.
  • Общий стаж вождения: 106 759 дней.
  • Пожизненная AFR: 0,00%
  • Доверительный интервал за весь срок службы: 1,9%
Seagate 6 ТБ (модель: ST6000DX000)
  • 1 квартал 2024 г.: 80 262 дней вождения.
  • За все время вождения: 4 268 373 дня.
  • Пожизненный AFR: 0,86%
  • Доверительный интервал за весь срок службы: 0,3%
У всех трех накопителей AFR за срок службы составляет менее 1 %, но в случае моделей накопителей емкостью 8 ТБ и 16 ТБ доверительный интервал (95 %) все еще слишком высок. Хотя возможно, что обе модели приводов продолжат работать хорошо, нам бы хотелось, чтобы доверительный интервал был ниже 1%, а лучше — ниже 0,5%, прежде чем мы сможем доверять сроку службы AFR.

С доверительным интервалом 0,3% накопители Seagate емкостью 6 ТБ обеспечили еще четверть нулевых сбоев. В среднем возрасте девяти лет эти влечения продолжают бросать вызов своему возрасту. Они были приобретены и установлены одновременно еще в 2015 году и являются членами единственного хранилища Backblaze Vault емкостью 6 ТБ, которое все еще работает.

Конец очереди: Toshiba емкостью 4 ТБ (модель: MD04ABA400V) не включена в таблицы статистики накопителей за первый квартал 2024 года. Это не было упущением. Последний из этих дисков стал объектом миграции в начале первого квартала, и их данные были безопасно перенесены на нетронутые диски Toshiba емкостью 16 ТБ. Они конкурировали с дисками Seagate емкостью 6 ТБ по возрасту и AFR, но их число росло, и пришло время уходить.
Вторичная группа
Как отмечалось ранее, мы разделили модели поездок на две группы: первичные и вторичные, при этом количество поездок (>100) и количество дней в пути (>10 000) являются показателями, используемыми для разделения групп. Вторичная группа насчитывает в общей сложности 641 накопитель, распределенный по 27 моделям накопителей. Ниже представлена таблица этих моделей приводов.


Вторичную группу в основном составляют модели накопителей, которые являются дисками на замену или кандидатами на миграцию. Несмотря на это, отсутствие наблюдений (дней езды) за период наблюдения слишком мало, чтобы иметь какую-либо уверенность в расчете AFR.

Время от времени второстепенная модель привода будет перемещаться в основную группу. Например, Seagate емкостью 14 ТБ (модель: ST14000NM000J), скорее всего, будет иметь более 100 дисков и 10 000 дней работы во втором квартале. Обратное также возможно, особенно если учесть, что мы продолжаем мигрировать наши модели накопителей емкостью 4 ТБ.

Зачем нужна дополнительная группа?
На практике у нас всегда было две группы; мы просто не назвали их. Раньше мы исключали из квартальных, годовых диаграмм и диаграмм AFR за весь срок службы модели накопителей, у которых не было хотя бы 45 накопителей, а затем увеличили это число до 60 накопителей. Это было нормально, но мы поняли, что нам необходимо также установить минимальное количество дней в пути за период анализа, чтобы повысить уверенность в рассчитанных нами AFR. С этой целью мы установили следующие пороговые значения для моделей приводов, входящих в основную группу.


Мы будем оценивать эти показатели по мере продвижения и при необходимости изменять их. Цель состоит в том, чтобы продолжать предоставлять AFR, которые, как мы уверены, точно отражают приводы в нашей среде.

Средний возраст отказа диска Redux
В отчете «Статистика дисков» за первый квартал 2023 года мы рассмотрели средний возраст, в течение которого диск выходит из строя. Этот обзор был вдохновлен людьми из Secure Data Recovery, которые подсчитали, что на основе анализа 2007 вышедших из строя дисков средний возраст их выхода из строя составил 1051 день или примерно 2 года и 10 месяцев.

Мы применили тот же подход к нашим 17 155 вышедшим из строя дискам и были удивлены, когда средний срок их отказа составил всего 2 года и 6 месяцев. Затем мы поняли, что многие из моделей накопителей, которые все еще использовались, были старше (намного старше), чем в среднем, и, конечно, когда какое-то количество из них выйдет из строя, это повлияет на средний срок отказа для данной модели накопителя.

Чтобы учесть это, мы рассматривали только те модели приводов, которые больше не используются в нашей производственной среде. Мы называем эту коллекцию устаревшими моделями накопителей, поскольку это накопители, которые больше не устаревают и не выходят из строя. Когда мы рассмотрели средний возраст этой вышедшей из эксплуатации группы дисков, средний возраст отказа составил 2 года и 7 месяцев. Да, неожиданно, но мы решили, что нам нужно больше данных, прежде чем делать какие-либо выводы.

Итак, год спустя мы можем увидеть, изменился ли средний возраст выхода из строя дисков, который мы рассчитали в первом квартале 2023 года. Давайте покопаемся.

Как и прежде, мы записали дату, серийный_номер, модель, емкость_диска, отказ и необработанное значение SMART 9 для всех вышедших из строя дисков, имеющихся в наборе данных Drive Stats за апрель 2013 года. Необработанное значение SMART 9 дает нам количество часов, в течение которых привод был в рабочем состоянии. Затем мы удалили загрузочные диски и диски с неполными данными, то есть некоторые значения отсутствовали или были крайне неточны. В результате по состоянию на первый квартал 2023 года у нас осталось 17 155 вышедших из строя дисков.

За прошедший год, со второго квартала 2023 года по первый квартал 2024 года, мы зарегистрировали еще 4406 вышедших из строя дисков. Было 173 диска, которые были либо загрузочными дисками, либо имели неполные данные, в результате чего нам осталось добавить 4233 диска к предыдущим 17 155 вышедшим из строя дискам, всего 21 388 вышедших из строя дисков для оценки.

Когда мы сравниваем первый квартал 2023 года с первым кварталом 2024 года, мы получаем таблицу ниже.


Средний срок отказа для всех моделей дисков Backblaze (2 года и 10 месяцев) соответствует базовому уровню безопасного восстановления данных. Вопрос в том, подтверждает ли это их количество? Мы говорим: пока нет. Почему? Две основные причины.

Во-первых, у нас есть только две точки данных, поэтому у нас нет особой тенденции, то есть мы не знаем, является ли выравнивание реальным или просто временным. Во-вторых, средний возраст отказов активных моделей накопителей (то есть находящихся в производстве) сейчас уже выше (2 года и 11 месяцев), чем базовый уровень Secure Data. Если эта тенденция сохранится, то, когда активные модели накопителей выйдут из эксплуатации, вероятно, увеличится средний срок выхода из строя моделей накопителей, которые не производятся.

Тем не менее, мы можем сравнить цифры по размеру диска и модели диска за период с 1 квартала 2023 года по 1 квартал 2024 года, чтобы посмотреть, сможем ли мы получить какую-либо дополнительную информацию. Начнем со среднего возраста по размеру диска, указанного в таблице ниже.


Наиболее важным наблюдением является то, что для каждого размера диска, на котором были активные модели дисков (зеленые), средний возраст отказов увеличился с 1 квартала 2023 года до 1 квартала 2024 года. Учитывая, что общий средний возраст отказов увеличился за последний год, разумно Ожидается, что некоторые из когорт размера активных дисков увеличатся. Имея это в виду, давайте посмотрим на изменения по моделям приводов за тот же период.

Начиная с моделей накопителей, выведенных из эксплуатации, было три модели накопителей, в общей сложности 196 накопителей, которые перешли из режима активного в режим вывода из эксплуатации с 1 квартала 2023 года по 1 квартал 2024 года. Тем не менее, средний возраст выхода из строя для когорты снятых с эксплуатации накопителей остался на уровне 2 лет 7 месяцев, поэтому мы Я избавлю вас от просмотра диаграммы с 39 моделями накопителей, где более 90% данных не изменились с первого квартала 2023 года по первый квартал 2024 года.

С другой стороны, модели с активным приводом немного интереснее, как мы видим ниже.


Во всех моделях приводов, кроме двух (выделены), средний возраст отказов для каждой модели накопителей увеличился. Другими словами, модели активных приводов на момент выхода из строя в среднем старше, чем год назад. Помните, что мы проверяем средний возраст сбоев дисков, а не средний возраст самого диска.

На этом этапе давайте рассмотрим. Специалисты по безопасному восстановлению данных проверили 2007 вышедших из строя дисков и определили, что средний срок их отказа составил 2 года и 10 месяцев. Мы проверяем это утверждение. На данный момент средний возраст отказа вышедших из эксплуатации моделей накопителей (которые больше не используются в наших условиях) составляет 2 года и 7 месяцев. Это все равно меньше, чем число Secure Data. Но модели приводов, которые все еще находятся в эксплуатации, в настоящее время достигают в среднем 2 лет и 10 месяцев, что позволяет предположить, что как только эти модели приводов будут выведены из эксплуатации, средний возраст отказов вышедших из эксплуатации моделей приводов увеличится.

Исходя из всего этого, мы считаем, что средний срок отказа наших вышедших из эксплуатации моделей приводов в конечном итоге превысит 2 года и 10 месяцев. Кроме того, мы прогнозируем, что средний срок отказа для моделей накопителей, вышедших из эксплуатации, приблизится к 4 годам, как только наши модели накопителей емкостью 4 ТБ будут выведены из эксплуатации.

Годовые показатели отказов производителей
Как мы отмечали в начале отчета, квартальный AFR за первый квартал 2024 года составил 1,41%. Каждый из четырех производителей, которых мы отслеживаем, внес свой вклад в общий показатель AFR, как показано на диаграмме ниже.


Как видите, общий показатель AFR для всех накопителей достиг пика в третьем квартале 2023 года и продолжает снижаться. В основном это связано с выводом из эксплуатации старых накопителей емкостью 4 ТБ, которые находятся дальше по кривой сбоя дисков. Интересно, что все остальные используемые сегодня накопители емкостью 4 ТБ — это модели Seagate или HGST. Поэтому мы ожидаем, что квартальный AFR, скорее всего, продолжит снижаться для этих двух производителей, поскольку в следующем году их модели накопителей емкостью 4 ТБ будут заменены.

Частота отказов жесткого диска в течение всего срока службы
По состоянию на конец первого квартала 2024 года мы отслеживали 279 572 работающих жестких диска. Как отмечалось ранее, мы определили минимальные критерии приемлемости модели привода, которая будет включена в наш анализ для ежеквартальных, годовых и пожизненных обзоров. Чтобы участвовать в проверке срока службы, модель накопителя должна была иметь 500 или более накопителей по состоянию на конец первого квартала 2024 года и иметь более 100 000 накопительных дней эксплуатации за весь срок службы. Когда мы удалили те модели накопителей, которые не соответствовали критериям срока службы, у нас осталось 277 910 накопителей, сгруппированных в 26 моделей, оставшихся для анализа, как показано в таблице ниже.


За тремя исключениями, доверительный интервал для каждой модели привода составляет 0,5 % или менее при достоверности 95 %. Для трех исключений: моделей Seagate емкостью 10 ТБ, Seagate 14 ТБ и Toshiba 14 ТБ частота отказов дисков от квартала к кварталу была слишком различной в течение срока их службы. Эта волатильность оказывает негативное влияние на доверительный интервал.

Сочетание малого срока службы AFR и небольшого доверительного интервала помогает определить модели приводов, которые хорошо работают в наших условиях. В наши дни нас интересуют в основном диски большего размера в качестве замены, целей миграции или новых установок. Используя приведенную выше таблицу, давайте посмотрим, сможем ли мы определить наших лучших производителей емкостью 12, 14 и 16 ТБ. Мы не будем рассматривать накопители емкостью 22 ТБ, поскольку у нас есть только одна модель.


Модели дисков сгруппированы по размеру диска, а затем отсортированы по сроку службы AFR. Давайте рассмотрим каждую из этих групп.
  • Модели накопителей емкостью 12 ТБ. Три модели HGST емкостью 12 ТБ отличаются высокой производительностью, но их трудно найти новые. Кроме того, компания Western Digital, которая некоторое время назад приобрела бизнес по производству приводов HGST, начала использовать собственные номера моделей этих накопителей, так что это может сбить с толку. Если вы нашли оригинальный HGST, убедитесь, что он новый, поскольку с нашей точки зрения покупка отремонтированного диска — это не то же самое, что покупка нового.
  • Модели накопителей емкостью 14 ТБ: первые три модели выглядят надежными — WDC (WUH721414ALE6L4), Toshiba (MG07ACA14TA) и Seagate (ST14000NM001G). Остальные две модели накопителей имеют посредственный срок службы AFR и нежелательные доверительные интервалы.
  • Модели накопителей емкостью 16 ТБ: здесь большой выбор: все шесть моделей накопителей на данный момент работают хорошо, хотя модели WDC на сегодняшний день являются лучшими из лучших.

Backblaze Drive Stats for 2023

По состоянию на 31 декабря 2023 г. под нашим управлением находилось 274 622 накопителя. Из этого числа было 4400 загрузочных дисков и 270 222 диска с данными. Этот отчет будет посвящен нашим дискам с данными. Мы рассмотрим частоту отказов жестких дисков в 2023 году, сравним эти показатели с предыдущими годами и представим статистику отказов за весь срок службы для всех моделей жестких дисков, действующих в нашем центре обработки данных по состоянию на конец 2023 года. Попутно мы делимся своими наблюдениями и понимание представленных данных, и, как всегда, мы с нетерпением ждем, когда вы сделаете то же самое в разделе комментариев в конце публикации.

Частота отказов жестких дисков в 2023 году
По состоянию на конец 2023 года Backblaze отслеживала 270 222 жестких диска, используемых для хранения данных. Для нашей оценки мы исключили из рассмотрения 466 дисков, о которых поговорим позже. Таким образом, для анализа в этом отчете нам осталось 269 756 жестких дисков, охватывающих 35 моделей дисков. В таблице ниже показаны годовые показатели отказов (AFR) на 2023 год для этой коллекции накопителей.



Примечания и наблюдения
Один ноль за год: в 2023 году только у одной модели накопителей не было сбоев — Seagate емкостью 8 ТБ (модель: ST8000NM000A). Фактически, эта модель накопителя не имела ни одного сбоя в нашей среде с тех пор, как мы начали ее развертывание в третьем квартале 2022 года. Этот «ноль» сопровождается некоторыми оговорками: у нас в эксплуатации находится только 204 накопителя, а количество дней эксплуатации накопителя ограничено ( 52 876), но отсутствие сбоев за 18 месяцев — хорошее начало.

Сбои за год: в 2023 году вышло из строя 4189 дисков. Проделав небольшие математические расчеты, выяснилось, что в среднем за последний год мы заменяли неисправный диск каждые два часа и пять минут. Если мы ограничим количество рабочих часов до 40 в неделю, то неисправный диск будет заменяться каждые 30 минут.

Больше моделей приводов. В 2023 году мы добавили в список шесть моделей приводов, исключив из обращения ни одну, в результате чего мы отслеживаем в общей сложности 35 различных моделей.

Две модели уже какое-то время находятся в нашей среде, но к концу 2023 года их производство, наконец, достигнет 60 накопителей.
  • Toshiba 8 ТБ, модель HDWF180: 60 дисков.
  • Seagate 18 ТБ, модель ST18000NM000J: 60 дисков.
Четыре модели были новыми для нашей производственной среды, и к концу 2023 года в их производстве будет 60 или более приводов.
  • Seagate 12 ТБ, модель ST12000NM000J: 195 дисков.
  • Seagate 14 ТБ, модель ST14000NM000J: 77 дисков.
  • Seagate 14 ТБ, модель ST14000NM0018: 66 дисков.
  • WDC 22 ТБ, модель WUH722222ALE6L4: 2442 диска.
Диски трех моделей Seagate используются для замены вышедших из строя дисков емкостью 12 ТБ и 14 ТБ. Диски WDC емкостью 22 ТБ — это новая модель, добавленная в основном как два новых хранилища Backblaze Vault по 1200 дисков в каждом.

Смешивание и подбор моделей приводов
Было время, когда мы покупали дополнительные диски определенной модели, чтобы иметь под рукой замену вышедшего из строя диска диском той же модели. Например, если бы нам нужно было 1200 дисков для Backblaze Vault, мы бы купили 1300, чтобы получить 100 запасных. Со временем мы протестировали комбинации различных моделей накопителей, чтобы убедиться в отсутствии влияния на пропускную способность и производительность. Это позволило нам приобретать диски по мере необходимости, например, диски Seagate, упомянутые ранее. Это сэкономило нам средства на покупке дисков, которые простоял месяцами или годами в ожидании выхода из строя той же модели диска.

Диски, не включенные в этот обзор
Ранее мы отмечали, что из рассмотрения в этом обзоре было исключено 466 накопителей. Эти диски делятся на три категории.
  • Тестирование. Это диски определенной модели, которые мы отслеживаем и собираем данные о статистике дисков, но которые находятся в процессе квалификации как производственные диски. Например, в четвертом квартале оценивались четыре накопителя Toshiba емкостью 20 ТБ.
  • Горячие диски: это диски, которые во время работы подвергались воздействию высоких температур. Мы удалили их из этого обзора, но рассмотрим их отдельно, чтобы узнать больше о том, насколько хорошо диски выдерживают нагрев. Мы подробно рассмотрели эту тему в нашем отчете о статистике поездок за третий квартал 2023 года.
  • Менее 60 дисков: это пережиток того времени, когда мы использовали один сервер хранения из 60 дисков для хранения большого количества отправленных нам данных. Сегодня мы разделяем один и тот же объект на 20 серверов, то есть в Backblaze Vault, что значительно повышает надежность данных. В 2024 году мы собираемся пересмотреть 60 критериев вождения и, скорее всего, заменим этот стандарт минимальным количеством дней вождения за определенный период времени, чтобы стать частью пересмотра.
Тем не менее, в данных Drive Stats за четвертый квартал 2023 года вы найдете эти 466 накопителей, а также данные по 269 756 накопителям, использованным в обзоре.

Сравнение статистики поездок за 2021, 2022 и 2023 годы
В таблице ниже сравниваются AFR за каждый из последних трех лет. В таблицу включены только те модели приводов, которые в 2023 году проработали более 200 000 дней. Данные за каждый год включают в себя этот год только для действующих моделей приводов, представленных на конец каждого года. Таблица отсортирована по размеру диска, а затем по AFR.


Примечания и наблюдения
Чего не хватает? Как уже отмечалось, в 2023 году для попадания в список модели привода потребовалось бы 200 000 или более дней вождения. Такие накопители, как модель WDC емкостью 22 ТБ с 126 956 днями работы и Seagate емкостью 8 ТБ с нулевым сбоем, но только 52 876 дней работы не соответствовали требованиям. Почему 200 тысяч? Каждый квартал мы используем 50 000 дней вождения в качестве минимального числа, которое можно считать статистически значимым. Это не идеальный показатель, но он минимизирует волатильность, иногда связанную с моделями приводов с меньшим количеством дней в пути.

AFR 2023 года вырос: AFR для всех перечисленных моделей приводов составил 1,70% в 2023 году. Для сравнения: 1,37% в 2022 году и 1,01% в 2021 году. На протяжении 2023 года мы наблюдали рост AFR, поскольку средний возраст парка приводов увеличился.. В настоящее время существует девять моделей приводов со средним возрастом шесть лет и более. На эти девять моделей приходится почти 20% производимых приводов. Начиная со второго квартала, мы ускорили переход от старых моделей дисков (обычно емкостью 4 ТБ) к новым моделям дисков (обычно 16 ТБ). Эта программа будет продолжаться в течение 2024 года и далее.

Годовая частота отказов в зависимости от размера диска
Теперь давайте углубимся в цифры и посмотрим, чему еще мы можем научиться. Мы начнем с рассмотрения квартальных AFR по размеру накопителей за последние три года.



Начнем с того, что AFR для накопителей емкостью 10 ТБ (золотая линия) очевидно увеличивается, равно как и накопителей емкостью 8 ТБ (серая линия) и накопителей емкостью 12 ТБ (фиолетовая линия). Каждая из этих групп закончила с AFR 2% или выше в четвертом квартале 2023 года, а во втором квартале 2021 года стартовала с AFR около 1%. С другой стороны, AFR для накопителей емкостью 4 ТБ (синяя линия) первоначально выросла, достигнув пика в 2022 году. и с тех пор снизился. Остальные три размера дисков — 6 ТБ, 14 ТБ и 16 ТБ — колебались в пределах 1% AFR за весь период.

Уменьшив масштаб, мы можем посмотреть на изменение AFR в зависимости от размера накопителя на ежегодной основе. Если сравнить годовые результаты АФР за 2022 и 2023 годы, то получим таблицу ниже. Результаты за каждый год основаны только на данных за этот год.



На первый взгляд может показаться странным, что AFR для накопителей емкостью 4 ТБ снижается. Особенно если учесть, что средний возраст каждой из моделей накопителей емкостью 4 ТБ превышает шесть лет и продолжает стареть. Причина, вероятно, связана с тем, что в 2023 году мы сосредоточимся на переходе с дисков емкостью 4 ТБ на диски емкостью 16 ТБ. Обычно мы сначала переносим самые старые диски, то есть те, которые с большей вероятностью выйдут из строя в ближайшем будущем. Этот процесс удаления самых старых дисков, по-видимому, смягчает ожидаемый рост количества отказов по мере старения диска.

Но не все модели приводов подходят друг другу. Накопителям Seagate емкостью 6 ТБ в среднем более 8,6 лет, и к 2023 году они будут иметь самый низкий AFR для любой группы размеров дисков, что потенциально может стать насмешкой над теорией «возраст связан с отказом», по крайней мере, за последний год. Давайте посмотрим, справедливо ли это для частоты отказов наших накопителей за весь срок службы.

Статистика жесткого диска за весь срок службы
Для нашего обзора AFR за весь срок службы мы оценили 269 756 накопителей 35 моделей. В таблице ниже приведены статистические данные о сроке службы накопителей с апреля 2013 г. по конец четвертого квартала 2023 г.


Текущий срок службы AFR для всех накопителей составляет 1,46%. Это больше, чем в конце прошлого года (четвертый квартал 2022 года), который составлял 1,39%. Это имеет смысл, учитывая квартальный рост AFR в 2023 году, как было зафиксировано ранее. Это также самый высокий показатель AFR за весь срок службы с первого квартала 2021 года (1,49%).

В таблице выше указаны все модели приводов, действующие по состоянию на 31 декабря 2023 г. Чтобы разгрузить список, мы можем удалить те модели, по которым недостаточно данных, чтобы быть статистически значимыми. Это не означает, что AFR, показанный выше, неверен, это просто означает, что нам нужно больше данных, чтобы быть уверенными в частоте отказов, которую мы перечисляем. С этой целью в приведенную ниже таблицу включены только те модели накопителей, срок службы которых составляет два миллиона дней или более. Это дает нам управляемый список из 23 моделей накопителей для рассмотрения.



Используя приведенную выше таблицу, мы можем сравнить частоту отказов дисков в течение всего срока службы различных моделей дисков. На диаграммах ниже мы сгруппировали модели приводов по производителям, а затем построили график модели привода AFR в зависимости от среднего возраста в месяцах каждой модели привода. Относительный размер каждого круга представляет количество поездок в каждой когорте. Горизонтальный и вертикальный масштабы для диаграмм каждого производителя одинаковы.



Примечания и наблюдения
Миграция дисков. При выборе моделей дисков для миграции мы могли бы сначала заменить самые старые модели дисков. В данном случае диски Seagate емкостью 6 ТБ. Учитывая, что дисков всего 882 — это меньше, чем один Backblaze Vault, — влияние на частоту сбоев будет минимальным. Помимо этого, диаграмма ясно показывает, что нам следует продолжать миграцию наших дисков емкостью 4 ТБ, как мы обсуждали в нашей недавней публикации о том, какие диски находятся на каких серверах хранения. Как отмечается в этом сообщении, существуют и другие факторы, такие как возраст сервера, размер сервера (45 против 60 дисков) и частота отказов сервера, которые помогают нам принимать решения.

HGST: На графике слева ниже показана линия тренда AFR (полином второго порядка) для всех наших моделей HGST. Не похоже, что отказ диска постоянно увеличивается с возрастом. На диаграмме справа показаны те же данные с удаленными моделями дисков HGST емкостью 4 ТБ. Результаты больше соответствуют нашим ожиданиям: количество отказов дисков со временем увеличивается. Хотя диски емкостью 4 ТБ работают отлично, они, похоже, не являются эталоном AFR для новых/больших дисков.


Еще один потенциальный фактор, не рассмотренный здесь, заключается в том, что, начиная с моделей накопителей емкостью 8 ТБ, внутри накопителей использовался гелий, и диски были герметизированы. До этого они охлаждались воздухом и не были герметизированы. Так повлиял ли переход на гелий внутри накопителя на профиль отказов накопителей HGST? Интересный вопрос, но с учетом имеющихся у нас данных я не уверен, что мы сможем на него ответить – или что это имеет большое значение, поскольку гелий никуда не денется.

Seagate: На диаграмме слева ниже показана линия тренда AFR (полином второго порядка) для наших моделей Seagate. Как и в случае с моделями HGST, похоже, что количество отказов дисков с возрастом не увеличивается. Из диаграммы справа мы удалили модели накопителей старше семи лет (средний возраст).


Интересно, что линия тренда на двух графиках практически одинакова вплоть до шестилетней точки. Если мы попытаемся заглянуть в прошлое для накопителей емкостью 8 ТБ и 12 ТБ, то не получим четкого направления. Еще больше запутывает ситуацию тот факт, что все три модели, которые мы удалили, поскольку они старше семи лет, являются потребительскими моделями накопителей, а все остальные модели накопителей являются моделями накопителей корпоративного уровня. Повлияет ли это на частоту отказов корпоративных моделей накопителей, когда они прослужат семь, восемь или даже девять лет? Следите за обновлениями.

Toshiba и WDC: Что касается моделей накопителей Toshia и WDC, то имеются данные за чуть более трех лет, и никаких заметных закономерностей обнаружено не было. На сегодняшний день все накопители каждого из этих производителей работают хорошо.

Сбой диска и миграция диска
Выше мы видели одну вещь: прогнозы отказа диска обычно зависят от модели диска. Но мы не переносим модели дисков как группу, вместо этого мы переносим все диски на сервере хранения или в Backblaze Vault. Диски на данном сервере или в хранилище могут быть разных моделей. О том, как мы выбираем серверы и хранилища для миграции, будет рассказано в следующем посте, а пока мы просто скажем, что сбой диска — это еще не все.

Данные статистики жесткого диска
Полный набор данных, использованный для создания таблиц и диаграмм в этом отчете, доступен на нашей странице «Данные тестирования жесткого диска». Вы можете бесплатно скачать и использовать эти данные в своих целях. Все, что мы просим, это три вещи: 1) вы ссылаетесь на Backblaze в качестве источника, если вы используете данные, 2) вы признаете, что несете единоличную ответственность за то, как вы используете данные, и 3) вы не продаете сами эти данные кому-либо; это бесплатно.

Удачи, и дайте нам знать, если найдете что-нибудь интересное.

Статистика Backblaze Drive за третий квартал 2023

По состоянию на конец третьего квартала 2023 года Backblaze отслеживала 263 992 жестких диска (HDD) и твердотельных накопителей (SSD) в наших центрах обработки данных по всему миру. Из этого числа 4459 являются загрузочными дисками, из них 3242 — твердотельными накопителями и 1217 — жесткими дисками. Частота отказов твердотельных накопителей проанализирована в обзоре SSD Edition: 2023 Drive Stats.

В результате у нас осталось 259 533 жестких диска, на которых мы сосредоточимся в этом отчете. Мы проанализируем квартальные и за весь срок отказов накопителей данных по состоянию на конец третьего квартала 2023 года. Попутно мы поделимся своими наблюдениями и мнениями относительно представленных данных, и впервые в истории мы выявить частоту отказов дисков в разбивке по центрам обработки данных.

Уровень отказов жестких дисков в третьем квартале 2023 г.
По состоянию на конец третьего квартала 2023 года мы управляли 259 533 жесткими дисками, используемыми для хранения данных. Для нашего обзора мы исключили из рассмотрения 449 накопителей, поскольку они использовались в целях тестирования или представляли собой модели накопителей, в которых не было как минимум 60 накопителей. В результате у нас осталось 259 084 жестких диска, сгруппированных по 32 различным моделям.

В таблице ниже приведена годовая частота отказов (AFR) для этих моделей накопителей за третий квартал 2023 года.


Примечания и наблюдения по статистике за третий квартал 2023 года
  • Диски емкостью 22 ТБ находятся здесь: Внизу списка вы увидите диски WDC емкостью 22 ТБ (модель: WUH722222ALE6L4). Backblaze Vault из 1200 дисков (плюс четыре) теперь работает. 1200 накопителей были установлены 29 сентября, поэтому в этом отчете каждый из них проработал только один день, но сбоев пока нет.
  • Старики становятся смелее: на другом конце спектра срока службы находятся накопители Seagate емкостью 6 ТБ (модель: ST6000DX000) со средним сроком службы 101 месяц. В этой когорте в третьем квартале 2023 года не было сбоев при 883 дисках и сроке службы AFR 0,88%.
  • Ноль сбоев: в третьем квартале шесть различных моделей накопителей не имели сбоев в течение квартала. Но только у Seagate емкостью 6 ТБ, упомянутого выше, было более 50 000 дней работы в эксплуатации, что является нашим минимальным стандартом для обеспечения достаточного количества данных, чтобы сделать AFR правдоподобным.
  • Один сбой: в третьем квартале было зарегистрировано четыре модели приводов с одним сбоем.
После применения показателя 50 000 дней поездок выделились две поездки:
  • WDC 16 ТБ (модель: WUH721816ALE6L0) с AFR 0,15%.
  • Toshiba 14 ТБ (модель: MG07ACA14TEY) с AFR 0,63%.
Ежеквартальный показатель AFR падает
В третьем квартале 2023 года квартальный AFR для всех накопителей составил 1,47%. Это меньше, чем 2,2% во втором квартале, а также меньше, чем 1,65% год назад. Ежеквартальный AFR основан только на данных за этот квартал, поэтому он часто может колебаться от квартала к кварталу.

В нашем отчете за второй квартал 2023 года мы подозревали, что рост в 2,2% за квартал был вызван общим старением парка накопителей, и, в частности, мы указали на конкретные модели накопителей емкостью 8 ТБ, 10 ТБ и 12 ТБ как на потенциальных виновников такого роста. Этот прогноз не оправдался в третьем квартале, поскольку почти у двух третей моделей приводов показатель AFR снизился по сравнению с предыдущим кварталом по сравнению со вторым кварталом, и любое увеличение было минимальным. Сюда входили наши подозрительные модели дисков емкостью 8 ТБ, 10 ТБ и 12 ТБ.

Кажется, что второй квартал был аномалией, но в третьем квартале было одно большое отличие: мы вывели из эксплуатации 4585 устаревших дисков емкостью 4 ТБ. Средний возраст вышедших из эксплуатации накопителей составлял чуть более восьми лет, и хотя это было хорошее начало, осталось еще 28 963 накопителя емкостью 4 ТБ. Чтобы облегчить непрерывный вывод из эксплуатации устаревших дисков и сделать процесс миграции данных простым и безопасным, мы используем CVT, наше замечательное собственное программное обеспечение для миграции данных, о котором мы расскажем в другой раз.

Жаркое лето и данные статистики езды
Как и любой другой человек в нашем бизнесе, Backblaze постоянно контролирует наши системы и диски. Поэтому для нас не стало большим сюрпризом, когда ребята из НАСА подтвердили, что лето 2023 года станет самым жарким за всю историю наблюдений на Земле. Последствия этого рекордного лета отразились в наших системах мониторинга в виде предупреждений о температуре привода. Тот или иной диск на сервере хранения может перегреваться по многим причинам: он выходит из строя; вышел из строя вентилятор в сервере хранения; другие компоненты выделяют дополнительное тепло; поток воздуха каким-то образом ограничен; и так далее. Добавьте к этому тот факт, что температура окружающей среды в центре обработки данных часто повышается в летние месяцы, и вы можете получать больше предупреждений о температуре.

Просматривая данные о температуре наших накопителей в третьем квартале, мы заметили, что у небольшого количества накопителей температура превышала максимальную температуру производителя как минимум на один день. Максимальная температура для большинства накопителей составляет 60°C, за исключением накопителей Toshiba емкостью 12 ТБ, 14 ТБ и 16 ТБ, максимальная температура которых составляет 55°C. Из 259 533 дисков с данными, находившихся в эксплуатации в третьем квартале, 354 отдельных диска (0,0013%) превысили максимальную температуру производителя. Из них только два диска вышли из строя, в результате чего по состоянию на конец третьего квартала 352 диска все еще работали.

Хотя колебания температуры являются частью работы центров обработки данных, и подобные оповещения о температуре не являются чем-то необычным, команды наших центров обработки данных изучают коренные причины, чтобы убедиться, что мы готовы к неизбежному наступлению все более жаркого лета.

Повлияют ли предупреждения о температуре на статистику вождения?
Два диска, температура которых превысила максимальную температуру и вышли из строя в третьем квартале, были исключены из расчетов AFR третьего квартала. Оба диска были дисками Seagate емкостью 4 ТБ (модель: ST4000DM000). Учитывая, что оставшиеся 352 накопителя, температура которых превысила максимальную температуру, не вышли из строя в третьем квартале, мы оставили их в расчетах статистики накопителей для третьего квартала, поскольку они не увеличили вычисленную частоту отказов.

Начиная с четвертого квартала, мы удалим 352 диска из обычных расчетов AFR Drive Stats и создадим отдельную группу дисков для отслеживания, которую мы назовем Hot Drives. Это позволит нам отслеживать диски, температура которых превысила максимальную температуру, и сравнивать интенсивность их отказов с теми дисками, которые работали в соответствии со спецификациями производителя. Хотя число дисков в группе Hot Drives ограничено, это может дать нам некоторое представление о том, может ли воздействие высоких температур привести к более частому выходу диска из строя. Этот повышенный уровень мониторинга позволит выявить любое увеличение количества сбоев дисков, чтобы их можно было обнаружить и оперативно устранить.

Новые поля данных статистики поездок в третьем квартале
Во втором квартале 2023 года мы представили три новых поля данных, которые начали заполнять в публикуемых нами данных Drive Stats: vault_id, pod_id и is_legacy_format. В третьем квартале мы добавляем еще три поля в записи каждого диска следующим образом:
  • центр обработки данных: центр обработки данных Backblaze, в котором установлен диск, в настоящее время одно из следующих значений: ams5, iad1, phx1, sac0 и sac2.
  • Cluster_id: имя данной коллекции серверов хранения, логически сгруппированных для оптимизации производительности системы. Примечание. В настоящее время идентификатор кластера не всегда правильный, мы работаем над этим.
  • pod_slot_num: физическое расположение диска на сервере хранения. Конкретный слот различается в зависимости от типа и емкости сервера хранения: Backblaze (45 дисков), Backblaze (60 дисков), Dell (26 дисков) или Supermicro (60 дисков). Мы углубимся в эти различия в другом посте.
С учетом этих дополнений новая схема, начинающаяся в третьем квартале 2023 года, будет следующей:
  • дата
  • серийный номер
  • модель
  • емкость_байтов
  • отказ
  • центр обработки данных (3 квартал)
  • идентификатор_кластера (3-й квартал)
  • vault_id (2-й квартал)
  • pod_id (2-й квартал)
  • pod_slot_num (3 квартал)
  • is_legacy_format (2-й квартал)
  • smart_1_normalized
  • smart_1_raw
Остальные пары значений SMART (по данным каждой модели накопителя)
Начиная с третьего квартала, эти поля данных добавляются в общедоступные файлы статистики езды, которые мы публикуем каждый квартал.

Частота отказов по центрам обработки данных
Теперь, когда у нас есть центр обработки данных для каждого диска, мы можем вычислить AFR для дисков в каждом центре обработки данных. Ниже вы найдете AFR для каждого из пяти центров обработки данных за третий квартал 2023 года.


Примечания и наблюдения
  • Null?: Диски, сообщившие нулевое или пустое значение для своего центра обработки данных, сгруппированы в четыре хранилища Backblaze. Дэвид, старший инженер по инфраструктурному программному обеспечению Drive Stats, описал процесс сбора всех частей данных Drive Stats каждый день. TL:DR заключается в том, что хранилища могут быть слишком заняты, чтобы ответить в тот момент, когда мы запрашиваем, и, поскольку поле центра обработки данных является полезным для хранения данных, мы получаем пустое поле. Мы можем вернуться на день или два назад, чтобы найти значение центра обработки данных, что мы и сделаем в будущем, когда сообщим эти данные.
  • sac0?: sac0 имеет самый высокий AFR среди всех центров обработки данных, но он также имеет самые старые диски — в среднем почти в два раза старше, чем следующий ближайший центр обработки данных, sac2. Как обсуждалось ранее, сбои дисков, похоже, следуют «кривой ванны», хотя в последнее время мы видели, что кривая начинается более пологой. Тем не менее, по мере старения моделей приводов они, как правило, выходят из строя чаще. Другим фактором может быть то, что sac0 и, в меньшей степени, sac2 имеют одни из самых старых модулей хранения данных, в том числе несколько модулей с 45 дисками. Мы находимся в процессе использования CVT для замены этих старых серверов при переходе с дисков емкостью 4 ТБ на диски емкостью 16 ТБ и более.
  • iad1: Центр обработки данных IAD является основой нашего восточного региона и быстро растет с момента его ввода в эксплуатацию около года назад. Этот рост обусловлен сочетанием новых данных и использования клиентами наших возможностей облачной репликации для автоматического копирования своих данных в другом регионе.
  • Данные за третий квартал: эта диаграмма предназначена только для данных за третий квартал и включает все диски с данными, включая те, у которых количество дисков менее 60 на модель. Отслеживая эти данные в ближайшие кварталы, мы надеемся получить некоторое представление о том, действительно ли в разных центрах обработки данных наблюдается разная частота отказов дисков, и если да, то почему.

Частота отказов жесткого диска в течение всего срока службы
По состоянию на 30 сентября 2023 г. мы отслеживали 259 084 жестких диска, используемых для хранения данных клиентов. Для анализа срока службы мы собираем количество дней работы диска и количество сбоев каждого диска, начиная с момента его ввода в эксплуатацию в одном из наших центров обработки данных. Мы группируем эти диски по моделям, а затем суммируем количество дней использования и сбоев для каждой модели за срок их службы. Этот график находится ниже.


Одним из наиболее важных столбцов на этой диаграмме является доверительный интервал, который представляет собой разницу между низким и высоким уровнями достоверности AFR, рассчитанную на уровне 95%. Чем ниже значение, тем больше мы уверены в заявленном AFR. Нам нравится, чтобы доверительный интервал составлял 0,5% или меньше. Когда доверительный интервал выше, это не обязательно плохо, это просто означает, что нам либо нужно больше данных, либо данные несколько противоречивы.

В таблице ниже представлены только те модели приводов, доверительный интервал которых составляет менее 0,5%. Мы отсортировали список по размеру диска, а затем по AFR.


Модели накопителей емкостью 4 ТБ, 6 ТБ, 8 ТБ и некоторые модели накопителей емкостью 12 ТБ больше не производятся. В частности, модели HGST емкостью 12 ТБ все еще можно найти, но они были переименованы в Western Digital и получили альтернативные номера моделей. Изменились ли они существенно внутри, неизвестно, по крайней мере нам.

И последнее замечание относительно данных о сроке службы AFR: вы могли заметить, что AFR для всех накопителей не сильно меняется от квартала к кварталу. Последние два года он колебался между 1,39% и 1,45%. По сути, у нас много приводов с большим сроком службы, поэтому сложно переместить стрелку вверх или вниз. Хотя статистика срока службы отдельных моделей дисков может быть очень полезной, срок службы AFR для всех дисков, вероятно, будет становиться все менее и менее интересным по мере того, как мы добавляем все больше и больше дисков. Конечно, могут поступить несколько сотен тысяч никогда не выходящих из строя накопителей, поэтому мы продолжим рассчитывать и представлять срок службы AFR.

Как мы добились скорости загрузки выше, чем у AWS S3

Вам не всегда нужно самое быстрое облачное хранилище — ваши требования к производительности зависят от вашего варианта использования, бизнес-целей и потребностей в безопасности. Но все же, чем быстрее, тем лучше. А Backblaze только что анонсировала инновацию в облачном хранилище B2, которая обеспечивает гораздо большую скорость: загрузка большинства файлов теперь будет на 30% быстрее, чем в AWS S3.

Сегодня я углублюсь во все детали этого улучшения производительности, расскажу, как мы это сделали и что это значит для вас.

TL:DR
Результаты: согласно нашим тестам, клиенты, которые полагаются на загрузку небольших файлов (1 МБ или меньше), могут ожидать ускорения загрузки в среднем на 10–30 %, и все это без каких-либо изменений в надежности, доступности или цене.

Что это значит для тебя?
Все клиенты B2 Cloud Storage получат выгоду от этих улучшений производительности, особенно те, кто использует Backblaze B2 в качестве места хранения программного обеспечения для защиты данных. Небольшие загрузки размером 1 МБ или меньше составляют около 70% всех загрузок в облачное хранилище B2 и являются обычным явлением для рабочих процессов резервного копирования и архивирования. К конкретным преимуществам повышения производительности относятся:
  • Быстрее защищает данные при удаленном резервном копировании.
  • Освобождает время ИТ-администраторов для работы над другими проектами.
  • Уменьшает перегрузку пропускной способности сети.
  • Более эффективная дедупликация данных.
Veeam стремится работать вместе с нашими партнерами над внедрением инноваций и созданием единого фронта против киберугроз и атак. Новые улучшения производительности, выпущенные Backblaze для облачного хранилища B2, способствуют реализации нашей миссии по обеспечению радикальной устойчивости наших общих клиентов.
Андреас Нойферт, вице-президент по управлению продуктами, альянсы, Veeam

Когда я могу ожидать более быстрой загрузки?
Сегодня. Обновления производительности были полностью развернуты во всех регионах хранения данных Backblaze.

Как мы это сделали
До этой работы, когда клиент загружал файл в Backblaze B2, данные записывались на несколько жестких дисков (HDD). Эти операции необходимо было завершить до возврата ответа клиенту. Теперь мы записываем входящие данные на те же жесткие диски, а также одновременно в пул твердотельных накопителей (SSD), который мы называем «тайником осколков», ожидая только того, пока записи с жесткого диска попадут в память файловых систем. кэши и запись на SSD завершаются перед возвратом ответа. После завершения записи на жесткий диск мы освобождаем место на твердотельных накопителях, чтобы его можно было использовать повторно.

Поскольку запись данных на SSD происходит намного быстрее, чем запись на жесткие диски, конечным результатом является более быстрая загрузка.

Это всего лишь краткое изложение; если вас интересуют технические подробности (а также результаты тщательного тестирования ), читайте дальше!

Путь к повышению производительности
Как вы, возможно, помните из многих сообщений в блогах и вебинарах Drive Stats, Backblaze хранит все данные о клиентах на жестких дисках, которые некоторые ласково называют «вращающейся ржавчиной». Исторически мы резервировали твердотельные накопители для загрузочных дисков Storage Pod (сервера хранения).

До настоящего времени.
Правильно — твердотельные накопители вошли в сферу хранения данных. Чтобы добиться такого повышения производительности, мы объединили производительность твердотельных накопителей с экономической эффективностью жестких дисков. Сначала я немного углублюсь в историю, чтобы добавить некоторый контекст к тому, как мы проводили обновления.

Жесткий диск против SSD
IBM выпустила первый жесткий диск еще в 1957 году, поэтому справедливо сказать, что HDD — это зрелая технология. Емкость накопителей и скорость передачи данных на протяжении десятилетий неуклонно росли, в то время как стоимость одного байта резко упала. Этот первый жесткий диск IBM RAMAC 350 имел общую емкость 3,75 МБ и стоил 34 500 долларов. С поправкой на инфляцию это около 375 000 долларов, что соответствует 100 000 долларов за МБ или 100 миллиардов долларов за ТБ в долларах 2023 года.


Фотография людей, заталкивающих один из первых жестких дисков в грузовик.
Первый жесткий диск, поставляемый IBM.

Сегодня версия Seagate Exos X16 емкостью 16 ТБ — жесткого диска, широко используемого в Backblaze B2 Storage Cloud, — продается по цене около 260 долларов США, 16,25 доллара США за ТБ. Если бы стоимость одного байта у него была такая же, как у IBM RAMAC 250, его можно было бы продать за 1,6 триллиона долларов — примерно столько же, сколько текущий ВВП Австралии!

SSD-накопители, напротив, существуют только с 1991 года, когда 20-мегабайтный диск SanDisk поставлялся в ноутбуки IBM ThinkPad по OEM-цене около 1000 долларов. Давайте рассмотрим современный SSD: Micron 7450 MAX емкостью 3,2 ТБ. Розничная цена Micron SSD составляет около 360 долларов, а цена составляет 112,50 долларов за ТБ, что почти в семь раз дороже, чем у жесткого диска Seagate.

Итак, жесткие диски легко превосходят твердотельные накопители по стоимости хранения, но как насчет производительности? Вот цифры из паспортов производителей:


Поскольку пластины жесткого диска вращаются с постоянной скоростью, в данном случае 7200 об/мин, они могут передавать больше блоков за один оборот на внешнем крае диска, чем ближе к середине — отсюда и две цифры скорости передачи данных X16.

SSD более чем в 20 раз быстрее при устойчивой передаче данных, чем HDD, но посмотрите на разницу в скорости произвольной передачи! Даже когда жесткий диск работает максимально быстро, передавая блоки с внешнего края диска, твердотельный накопитель читает данные более чем в 2200 раз быстрее и записывает почти в 900 раз быстрее.

Такая огромная разница связана с тем, что при чтении данных из случайных мест на диске пластинам приходится совершать в среднем 0,5 оборота между блоками. При скорости 7200 оборотов в минуту (об/мин) это означает, что жесткий диск тратит около 4,2 мс на переход к следующему блоку, прежде чем он сможет даже передать данные. Напротив, в технических характеристиках твердотельного накопителя указана задержка всего 80 мкс (это 0,08 мс) для чтения и 15 мкс (0,015 мс) для записи, что в 84–280 раз быстрее, чем у вращающегося диска.

Давайте рассмотрим реальную операцию, скажем, запись 64 КБ данных. Если предположить, что жесткий диск может записывать эти данные в последовательные секторы диска, он будет вращаться в среднем 4,2 мс, а затем потратит 0,25 мс на запись данных на диск, в общей сложности 4,5 мс. SSD, напротив, может мгновенно записывать данные в любое место, затрачивая на это всего 27 мкс (0,027 мс). Это (отчасти теоретическое) преимущество в скорости в 167 раз является основой улучшения производительности.

Почему я выбрал блок размером 64 КБ? Как мы упоминали в недавнем сообщении в блоге, посвященном производительности облачного хранилища, в целом файлы большего размера лучше, когда речь идет о совокупном времени, необходимом для загрузки набора данных. Однако могут существовать и другие требования, требующие использования файлов меньшего размера. Многие приложения резервного копирования разбивают данные на блоки фиксированного размера для загрузки в виде файлов в облачное объектное хранилище. При выборе размера блока существует компромисс: блоки большего размера улучшают скорость резервного копирования, а блоки меньшего размера уменьшают требуемый объем хранилища. На практике блоки резервных копий могут иметь размер всего 1 МБ или даже 256 КБ. Блоки по 64 КБ, которые мы использовали в приведенных выше расчетах, представляют собой фрагменты, составляющие файл размером 1 МБ.

Задача, стоящая перед нашими инженерами, заключалась в том, чтобы воспользоваться преимуществами скорости твердотельных накопителей для ускорения загрузки небольших файлов без больших затрат.

Улучшение производительности записи небольших файлов
Когда клиентское приложение загружает файл в Backblaze B2 Storage Cloud, модуль координатора разбивает файл на 16 сегментов данных, создает четыре дополнительных сегмента четности и записывает полученные 20 сегментов на 20 разных жестких дисков, каждый в отдельный модуль.

Примечание. По мере увеличения емкости жесткого диска увеличивается и время, необходимое для восстановления после сбоя диска, поэтому мы периодически корректируем соотношение между сегментами данных и фрагментами четности, чтобы поддерживать целевой уровень надежности в одиннадцать девяток. Раньше вы слышали, как мы говорили о соотношении 17 + 3, но мы также используем 16 + 4, а в наших новейших хранилищах используется схема 15 + 5.

Каждый под записывает входящий осколок в свою локальную файловую систему; на практике это означает, что данные записываются в кэш в памяти и будут записаны на физический диск в какой-то момент в ближайшем будущем. Любые запросы к файлу могут быть удовлетворены из кэша, но данные еще не сохранены постоянно.

Мы должны быть абсолютно уверены, что сегменты были записаны на диск, прежде чем мы вернем ответ «успех» клиенту, поэтому каждый под выполняет системный вызов fsync для передачи («сброса») данных сегментов из системной памяти через жесткий диск. записать кеш на сам диск перед возвратом его статуса координатору. Когда координатор получил как минимум 19 успешных ответов, он возвращает ответ об успехе клиенту. Это гарантирует, что даже если весь центр обработки данных отключится от электропитания сразу после загрузки, данные будут сохранены.

Как мы объяснили выше, для небольших блоков данных подавляющая часть времени, затрачиваемого на запись данных на диск, тратится на ожидание поворота диска в правильное место. Запись сегментов на SSD может привести к значительному увеличению производительности для небольших файлов, но как насчет семикратной разницы в стоимости?

Наши инженеры придумали, как получить кусок пирога и съесть его, используя скорость твердотельных накопителей без значительного увеличения стоимости. Теперь, получив файл размером 1 МБ или меньше, координатор, как и раньше, разбивает его на шарды, а затем одновременно отправляет шарды набору из 20 подов и отдельному пулу серверов, каждый из которых заполнен 10 описанными выше твердотельными накопителями Micron — «тайник осколков». Серверы Shard Stash легко выигрывают гонку «сбросить данные на диск» и возвращают свой статус координатору всего за несколько миллисекунд. Тем временем каждый модуль жесткого диска записывает свой сегмент в файловую систему, ставит в очередь задачу по сбросу данных сегмента на диск и возвращает подтверждение координатору.

Как только координатор получает ответы, подтверждающие, что по крайней мере 19 из 20 подов записали свои шарды в файловую систему и по крайней мере 19 из 20 шардов были сброшены на SSD, он возвращает свой ответ клиенту. Опять же, если в этот момент произойдет сбой питания, данные уже будут безопасно записаны в твердотельное хранилище.

Мы не хотим оставлять данные на твердотельных накопителях дольше, чем необходимо, поэтому каждый под, закончив запись своего шарда на диск, сигнализирует тайнику шарда, что он может очистить свою копию шарда.

Реальный прирост производительности
Как я уже упоминал выше, рассчитанное 167-кратное преимущество SSD в производительности над HDD является в некоторой степени теоретическим. В реальном мире время, необходимое для загрузки файла, также зависит от ряда других факторов: близости к центру обработки данных, скорости сети, а также всего программного и аппаратного обеспечения между клиентским приложением и устройством хранения данных, и это лишь некоторые из них.

Первым регионом Backblaze, получившим повышение производительности, стал Восток США, расположенный в Рестоне, штат Вирджиния. За 12-дневный период после развертывания тайника осколков среднее время загрузки файла размером 256 КБ составило 118 мс, а файла размером 1 МБ — 137 мс. Чтобы воспроизвести типичную клиентскую среду, мы запустили тестовое приложение в дата-центре нашего партнера Vultr в Нью-Джерси, загрузив данные в Backblaze B2 через общедоступный Интернет.

Для сравнения мы провели тот же тест на восточном регионе США (Северная Вирджиния) Amazon S3, us-east-1на той же машине в Нью-Джерси. В среднем загрузка файла размером 256 КБ на S3 занимала 157 мс, а файла размером 1 МБ — 153 мс.

Итак, сравнивая Backblaze B2 в восточном регионе США с эквивалентом Amazon S3, мы оценили новый улучшенный Backblaze B2 как на 30 % быстрее, чем S3 для файлов размером 256 КБ, и на 10% быстрее, чем S3 для файлов размером 1 МБ.

Эти низкоуровневые тесты были подтверждены, когда мы засекли время, когда программное обеспечение Veeam Backup & Replication выполняло резервное копирование 1 ТБ виртуальных машин с размером блока 256 КБ. Резервное копирование сервера на Amazon S3 заняло три часа 12 минут; мы измерили время того же резервного копирования на Backblaze B2 всего за два часа 15 минут, что на 40 % быстрее, чем у S3.

Методика тестирования
Мы написали простое тестовое приложение Python с использованием AWS SDK для Python (Boto3). Каждый тестовый запуск включал синхронизацию 100 загрузок файлов с использованием API S3 PutObject с задержкой 10 мс между каждой загрузкой. (К вашему сведению, задержка не включена в измеренное время.) Тестовое приложение использовало одно соединение HTTPS во время тестового запуска, следуя рекомендациям по использованию API. В течение последних нескольких недель мы проводили тестирование на виртуальной машине в регионе Vultr в Нью-Джерси каждые шесть часов в течение последних нескольких недель как для нашего восточного региона США, так и для его соседа по AWS. Задержка до конечной точки API Backblaze B2 составила в среднем 5,7 мс, до конечной точки API Amazon S3 — 7,8 мс, измеренная по 100 пинг-запросам.

Что дальше?
На момент написания серверы Shard Stash были развернуты во всех наших центрах обработки данных во всех наших регионах. На самом деле, вы, возможно, даже заметили, что небольшие файлы загружаются быстрее. Важно отметить, что эта конкретная оптимизация — лишь одно из серии улучшений производительности, которые мы реализовали, и их будет еще больше. Можно с уверенностью сказать, что все наши клиенты Backblaze B2 будут наслаждаться более быстрой загрузкой и выгрузкой, независимо от нагрузки на их хранилище.

Обновления продуктов и цен Backblaze



В ближайшие месяцы Backblaze выпустит большие обновления и обновления для обоих наших продуктов — B2 Cloud Storage и Computer Backup. Учитывая количество новых вещей, которые ожидаются на горизонте, сегодня я захожу в блог, чтобы объяснить, что происходит, когда и почему для наших клиентов, а также для всех, кто рассматривает возможность использования наших услуг. Вот что нового.

Обновления облачного хранилища B2
Цена, выход и обновления продукта

Удовлетворение и превышение потребностей клиентов в создании приложений, защите данных, поддержке рабочих процессов мультимедиа и т.д. является главным приоритетом для B2 Cloud Storage. Для дальнейшего развития этих усилий мы будем внедрять следующие обновления:

Изменения цен
Цена хранилища: с 3 октября 2023 г. мы увеличиваем ежемесячную стоимость хранилища с оплатой по мере использования с 5 долларов США за ТБ до 6 долларов США за ТБ. Цена B2 Reserve не изменится.

Бесплатный выход: также с 3 октября мы делаем выход бесплатным (т.е. бесплатную загрузку данных) для всех клиентов облачного хранилища B2 — как с оплатой по факту, так и с резервированием B2 — до трехкратного объема данных, которые вы храните. у нас, при этом любой дополнительный выход стоит всего 0,01 доллара США за ГБ. Поскольку поддержка открытой облачной среды занимает центральное место в нашей миссии, ключевым следующим шагом является предоставление всем клиентам бесплатного доступа, чтобы они могли перемещать данные, когда и куда они предпочитают.

Обновления Backblaze B2
От блокировки объектов для защиты от программ-вымогателей до облачной репликации для резервирования и большего количества центров обработки данных для поддержки потребностей в местоположении данных — Backblaze постоянно совершенствует облачное хранилище B2. Следите за новостями этой осенью, когда мы объявим об улучшении производительности загрузки, расширенной интеграции и новых партнерских отношениях.

Вещи, которые не меняются
Цены на хранилище по гарантированным контрактам, цены B2 Reserve и неограниченный бесплатный исходящий трафик между Backblaze B2 и многими ведущими сетями доставки контента (CDN) и вычислительными партнерами — все это остается неизменным.

Почему произошли изменения в облачном хранилище B2?
1. Продолжаем предоставлять лучшее облачное хранилище.

Я рад, что облачное хранилище B2 продолжает оставаться лучшей высококачественной и недорогой альтернативой традиционным поставщикам облачных услуг, таким как AWS, для предприятий любого размера. После семи лет эксплуатации без повышения цен планка стала очень высокой для рассмотрения любых изменений в наших ценах. Мы каждый день инвестируем в то, чтобы сделать Backblaze B2 лучшим поставщиком облачных хранилищ. Повышение цен позволит нам продолжать делать это и в будущем.

2. Обеспечение свободы данных клиентов.
Мы слышали от клиентов, что одним из самых больших преимуществ облачного хранилища B2 является свобода — свобода от сложностей, неконтролируемых счетов и блокировки данных. Мы хотели удвоить эти преимущества и предоставить нашим клиентам возможность использовать открытое облако для использования своих данных так и где они пожелают. Обеспечение бесплатного исходящего трафика обеспечивает все эти преимущества для наших клиентов.

Резервное копирование компьютера Backblaze
Цена, история версий, версия 9.0 и обновления для администратора
Чтобы расширить наши возможности по обеспечению удивительно простого резервного копирования компьютеров, которое было бы одновременно надежным, надежным и доступным, мы вводим следующие обновления для Backblaze Computer Backup и делимся некоторыми предстоящими обновлениями продукта:
  • Цены на резервное копирование компьютера: с 3 октября новые покупки и продления будут составлять 9 долларов США в месяц, 99 долларов США в год и 189 долларов США за двухлетние планы подписки, а цена Forever Version History составит 0,006 долларов США за ГБ в месяц.
  • Бесплатная расширенная история версий на один год. Также с 3 октября ко всем лицензиям на резервное копирование компьютеров можно будет бесплатно добавить расширенную историю версий на один год, ранее стоимость которой составляла 2 доллара США в месяц. Возможность восстановить удаленные или измененные файлы в течение года спустя избавляет пользователей Computer Backup от огромных головных болей, и теперь это преимущество доступно всем подписчикам. Начиная с 3 октября войдите в свою учетную запись и бесплатно выберите «Один год расширенной истории версий».
  • Версия 9.0: В сентябре выйдет версия 9.0. Помимо некоторых улучшений производительности и удобства использования, этот выпуск включает в себя очень востребованную новую функцию локального восстановления для конечных пользователей. Мы поделимся с вами всеми подробностями в сентябре, когда выйдет версия 9.0.
  • Обновления администрирования групп. В дополнение к версии 9.0 у нас есть впечатляющий план обновлений функциональности наших групп, направленный на обслуживание нашей растущей и развивающейся клиентской базы. Тем, кому необходимо управлять всем, от двух до двух тысяч рабочих станций, мы рады предложить больше спокойствия и контроля с помощью расширенных инструментов, созданных для предприятий, по цене, которая все еще опережает конкурентов.
  • Почему произошли изменения в резервном копировании компьютера?

С момента запуска Computer Backup в 2008 году мы остаемся приверженцами продукта, который автоматически создает резервные копии всех ваших данных в облаке по фиксированной ставке. За следующие 15 лет средний объем данных, хранящихся на одного пользователя, значительно вырос, и наши инвестиции в создание нашего облака хранения для поддержки этого роста увеличились, чтобы не отставать от этого темпа.

В то же время мы продолжаем инвестировать в улучшение продукта — как мы это делали недавно с предстоящим выпуском версии 9.0, в нашу активную разработку новых функций администрирования групп и в бесплатное добавление дополнительной расширенной версии на один год. история для всех пользователей. И нам еще многое предстоит сделать, чтобы наш продукт всегда соответствовал своим обещаниям.

Чтобы продолжать предлагать неограниченное резервное копирование, внедрять инновации и повышать ценность лучших услуг резервного копирования компьютеров, нам необходимо привести наши цены в соответствие с нашими затратами.

Спасибо
Мы понимаем, насколько ценны ваши данные для вашего бизнеса и вашей жизни, и доверие, которое вы оказываете Backlaze каждый день, не потеряно для меня. Мы глубоко привержены нашей миссии — сделать хранение, использование и защиту этих данных удивительно простыми, и обновления, которыми я поделился сегодня, — это большой шаг вперед в обеспечении того, чтобы мы могли делать это в долгосрочной перспективе. Итак, в заключение я скажу спасибо за то, что доверили нам свои ценные данные — для нас большая честь служить вам.

Статистика Backblaze Drive за второй квартал 2023 года



В конце второго квартала 2023 года Backblaze отслеживала 245 757 жестких дисков и твердотельных накопителей в наших центрах обработки данных по всему миру. Из этого числа 4460 являются загрузочными дисками, 3144 — твердотельными накопителями и 1316 — жесткими дисками. Частота отказов твердотельных накопителей анализируется в обзоре SSD Edition: 2022 Drive Stats.

Сегодня мы сосредоточимся на 241 297 накопителях данных, находящихся под управлением, и проанализируем их ежеквартальную и пожизненную частоту отказов по состоянию на конец второго квартала 2023 года. некоторые дополнительные поля данных, которые мы теперь включаем, и многое другое.

Частота отказов жестких дисков за второй квартал 2023 г.
В конце второго квартала 2023 года мы управляли 241 297 жесткими дисками, используемыми для хранения данных. Для нашего обзора мы исключили из рассмотрения 357 накопителей, поскольку они использовались для целей тестирования или моделей накопителей, в которых не было по крайней мере 60 дисков. Это оставляет нам 240 940 жестких дисков, сгруппированных в 31 модель. В таблице ниже приведена годовая частота отказов (AFR) для этих моделей накопителей за второй квартал 2023 года.


Примечания и наблюдения по статистике привода за второй квартал 2023 г.
Отсутствие отказов. Во втором квартале 2023 г. было шесть моделей накопителей без отказов, как показано в таблице ниже.


Таблица отсортирована по количеству дней вождения каждой модели за квартал. Как правило, модель вождения должна иметь не менее 50 000 дней вождения в квартале, чтобы быть статистически значимой. Все три ведущих диска соответствуют этому критерию, и отсутствие сбоев за квартал неудивительно, учитывая, что AFR за весь срок службы для трех дисков колеблется от 0,13% до 0,45%. Ни один из трех нижних дисков не накопил 50 000 дней работы в квартале, но два диска Seagate показали хороший старт. И всегда приятно видеть, что Toshiba емкостью 4 ТБ (модель: MD04ABA400V) с восемью годами службы не имеет ни одного сбоя за квартал.

Самый старый диск? Моделью диска с самым старым средним возрастом по-прежнему является Seagate емкостью 6 ТБ (модель: ST6000DX000) с возрастом 98,3 месяца (8,2 года), а возраст самого старого диска в этой когорте составляет 104 месяца (8,7 года).

Самым старым рабочим накопителем данных в парке является Seagate емкостью 4 ТБ (модель: ST4000DM000) с возрастом 105,2 месяца (8,8 года). Это впечатляет, особенно в среде центра обработки данных, но победителем в номинации «Самый старый действующий диск в нашем парке» на самом деле является загрузочный диск: диск WDC емкостью 500 ГБ (модель: WD5000BPKT) со сроком службы 122 месяца (10,2 года).

Повышение AFR: AFR во втором квартале 2023 г. составил 2,28% по сравнению с 1,54% в первом квартале 2023 г. Хотя квартальные показатели AFR могут быть неустойчивыми, они также могут быть полезны для выявления тенденций, требующих дальнейшего изучения. В данном случае рост был ожидаем, так как возраст нашего флота продолжает увеличиваться. Но было ли это настоящей причиной?

Углубившись, мы начнем с годовой частоты отказов и среднего возраста наших дисков, сгруппированных по размеру диска, как показано в таблице ниже.


Для нашей цели мы определим диск как старый, если ему исполнилось пять или более лет. Почему? Это гарантийный срок дисков, которые мы покупаем сегодня. Конечно, на диски емкостью 4 ТБ и 6 ТБ, а также на некоторые из дисков емкостью 8 ТБ распространяется только двухлетняя гарантия, но для согласованности мы будем придерживаться пяти лет в качестве точки, по достижении которой диск помечается как «старый».

Использование нашего определения для старых дисков исключает диски емкостью 12 ТБ, 14 ТБ и 16 ТБ. Это оставляет нам приведенную ниже диаграмму ежеквартального AFR за последние три года для каждой группы старых дисков, моделей емкостью 4 ТБ, 6 ТБ, 8 ТБ и 10 ТБ.


Интересно, что самые старые диски емкостью 4 ТБ и 6 ТБ выдерживают свои испытания. Да, за последний год или около того произошло увеличение, но, учитывая их возраст, у них все хорошо.

С другой стороны, диски емкостью 8 ТБ и 10 ТБ со средним сроком службы пять и шесть лет соответственно требуют дополнительного внимания. Далее в этом отчете мы рассмотрим данные о продолжительности жизни, чтобы убедиться, что наши выводы оправданы.

Что нового в данных Drive Stats?
В течение последних 10 лет мы собираем и храним данные статистики дисков, а с 2015 года мы открыли исходный код файлов данных, которые мы использовали для создания отчетов статистики дисков. Время от времени в схему добавляются новые пары атрибутов SMART, поскольку мы устанавливаем новые модели дисков, которые сообщают о новых наборах атрибутов SMART. В этом квартале мы решили собрать и сохранить некоторые дополнительные поля данных о дисках и среде, в которой они работают, и добавили их в общедоступные файлы статистики дисков, которые мы публикуем каждый квартал.

Новые поля данных
Начиная с данных Drive Stats за Q2 2023, в каждой записи диска появляются три новых поля данных.
  • Vault_id: все диски с данными являются членами хранилища Backblaze. Каждое хранилище состоит из 900 или 1200 жестких дисков, равномерно распределенных по 20 серверам хранения. Хранилище представляет собой числовое значение, начинающееся с 1000.
  • Pod_id: в каждом хранилище Backblaze есть 20 серверов хранения. Pod_id — это числовое поле со значениями от 0 до 19, назначенное одному из 20 серверов хранения.
  • Is_legacy_format: в настоящее время 0, но будет полезен в ближайшие кварталы по мере добавления дополнительных полей.
Новая схема выглядит следующим образом:
  • date
  • serial_number
  • model
  • capacity_bytes
  • failure
  • vault_id
  • pod_id
  • is_legacy_format
  • smart_1_normalized
  • smart_1_raw
  • Remaining SMART value pairs (as reported by each drive model)
Оставшиеся пары значений SMART (согласно каждой модели диска)
Время от времени наши читатели спрашивали, есть ли у нас дополнительная информация о том, где живет диск и, что более важно, где он умер. Недавно добавленные поля данных выше являются частью внутренних данных о диске, которые мы собираем каждый день, но они не были включены в данные статистики диска, которые мы используем для создания отчетов статистики диска. С помощью Дэвида из нашей команды Infrastructure Software эти поля теперь будут доступны в данных Drive Stats.

Как мы можем использовать информацию о Vault и Pod?
Сначала предостережение: у нас есть ровно четверть этих новых данных. Хотя было заманчиво создавать диаграммы и таблицы, мы хотим увидеть данные за пару кварталов, чтобы лучше понять их. Ищите первоначальный анализ позже в этом году.

Тем не менее, эти данные дают нам сервер хранения и хранилище каждого диска. Работая в обратном направлении, мы должны иметь возможность задавать такие вопросы, как: «Являются ли определенные серверы хранения более склонными к отказу дисков?» или «Какие модели дисков лучше или хуже работают с определенными серверами хранения?» Кроме того, мы надеемся добавить такие элементы данных, как тип сервера хранения и центр обработки данных, чтобы предоставить дополнительную информацию о нашей платформе облачного хранилища с несколькими эксабайтами.

На протяжении многих лет мы использовали данные Drive Stats внутри компании, чтобы повысить эффективность работы и надежность. Предоставление этих новых элементов данных всем через наши отчеты Drive Stats и загрузку данных — это правильное решение.

В городе появился новый драйв
Если вы все же решите скачать наши данные Drive Stats за второй квартал 2023 года, вас ждет сюрприз — новая модель накопителя. Таких дисков всего четыре, поэтому их легко не заметить, и они не указаны ни в одной из таблиц и диаграмм, которые мы публикуем, поскольку на данный момент они считаются «тестовыми» дисками. Но если вы просматриваете данные, выполните поиск модели «WDC WUH722222ALE6L4», и вы найдете наши недавно установленные диски WDC емкостью 22 ТБ. Они прошли тестирование в конце второго квартала и проходят испытания, пока мы говорим. Следите за обновлениями. (Псс, по состоянию на 28.07 ни один не вышел из строя.)

Частота отказов жестких дисков за весь срок службы
По состоянию на 30 июня 2023 г. мы отслеживали 241 297 жестких дисков, используемых для хранения данных клиентов. Для нашего анализа жизненного цикла мы удалили 357 дисков, которые использовались только в целях тестирования или не имели по крайней мере 60 дисков, представленных в полном наборе данных. Таким образом, у нас остается 240 940 жестких дисков, сгруппированных по 31 модели, для анализа приведенной ниже таблицы срока службы.


Примечания и наблюдения о статистике жизни
Пожизненный AFR также повышается. Годовая частота отказов за весь срок службы для всех перечисленных выше дисков составляет 1,45 %. Это на 0,05% больше, чем в предыдущем квартале на 1,40%. Ранее в этом отчете, изучив данные за второй квартал 2023 года, мы определили диски емкостью 8 ТБ и 10 ТБ в качестве основных подозреваемых в увеличении скорости. Давайте посмотрим, сможем ли мы подтвердить это, изучив изменение показателей AFR за весь срок службы различных дисков, сгруппированных по размеру.


Красная линия — это наш базовый уровень, так как это разница между Q1 и Q2 (0,05%) AFR за весь срок службы для всех дисков. Диски выше красной линии поддерживают увеличение, диски ниже линии вычитают из увеличения. Основными дисками (по размеру), которые «движут» увеличенную годовую частоту отказов в течение всего срока службы, являются диски емкостью 8 ТБ и 10 ТБ. Это подтверждает то, что мы обнаружили ранее. Учитывая, что накопителей на 10 ТБ относительно немного (1124) по сравнению с дисками на 8 ТБ (24 891), давайте углубимся в модели дисков на 8 ТБ.

Пожизненная AFR для всех дисков емкостью 8 ТБ подскочила с 1,42% в первом квартале до 1,59% во втором квартале. Увеличение на 12%. В эксплуатации находится шесть моделей накопителей емкостью 8 ТБ, но на три из этих моделей приходится 99,5 % отказов дисков для когорты накопителей емкостью 8 ТБ, поэтому мы сосредоточимся на них. Они перечислены ниже.


Для всех трех моделей увеличение годовой частоты отказов за весь срок службы с Q1 по Q2 составляет 10 % или более, что статистически аналогично увеличению на 12 % для всех моделей накопителей емкостью 8 ТБ. Если бы вам нужно было выбрать одну модель накопителя, на которую нужно было бы сосредоточиться при миграции, любой из трех был бы хорошим кандидатом. Но диски Seagate модели ST8000DM002 в среднем почти на год старше других рассматриваемых моделей дисков.

Не совсем всю жизнь? В приведенной выше таблице анализируются данные за период с 20 апреля 2013 г. по 30 июня 2023 г., или 10 лет, 2 месяца и 10 дней. Как отмечалось ранее, самому старому диску, который у нас есть, 10 лет и 2 месяца, плюс-минус день или два. Казалось бы, нам нужно изменить заголовок нашей таблицы, но пока не совсем. Диск, который был установлен в любое время во втором квартале 2013 года и все еще работает сегодня, будет сообщать о днях работы диска как часть данных о сроке службы для этой модели. Как только все диски, установленные во втором квартале 2013 года, исчезнут, мы сможем соответствующим образом изменить дату начала в наших таблицах и диаграммах.

Несколько слов об отказе привода
Беспокоит ли нас увеличение количества отказов накопителей? Конечно, нам бы хотелось, чтобы они были ниже, но неизбежная реальность бизнеса облачных хранилищ заключается в том, что диски выходят из строя. За прошедшие годы мы наблюдали широкий диапазон частот отказов у разных производителей, моделей и размеров дисков. Если вы не готовы к этому, вы потерпите неудачу. В рамках нашей подготовки мы используем данные статистики дисков как один из многих входных данных для понимания нашей среды, чтобы мы могли корректировать, когда и как нам нужно.

Итак, нас беспокоит увеличение количества отказов накопителей? Нет, но мы и не высокомерны. Мы продолжим следить за нашими системами, при необходимости примем меры и по ходу дела поделимся с вами тем, что сможем.

Данные статистики жесткого диска
Полный набор данных, использованных для создания информации, используемой в этом обзоре, доступен на нашей веб-странице «Статистика жесткого диска». Вы можете скачать и использовать эти данные бесплатно в своих целях. Все, что мы просим, это три вещи: 1) вы указываете Backblaze в качестве источника, если вы используете данные, 2) вы соглашаетесь с тем, что вы несете единоличную ответственность за то, как вы используете данные, и 3) вы никому не продаете эти данные; это бесплатно.

Если вы хотите, чтобы таблицы и диаграммы использовались в этом отчете, вы можете загрузить ZIP-файл из облачного хранилища Backblaze B2, который содержит электронную таблицу MS Excel с вкладками для каждой из таблиц или диаграмм.

Удачи и дайте нам знать, если вы найдете что-нибудь интересное.