Добро пожаловать в первую версию отчета Backblaze Drive Stats о твердотельных накопителях. Этот выпуск будет посвящен исключительно нашим твердотельным накопителям, в отличие от наших ежеквартальных и годовых отчетов Drive Stats, которые до прошлого года были сосредоточены исключительно на жестких дисках. Первоначально мы планируем публиковать издание SSD два раза в год, хотя это может измениться в зависимости от его ценности для наших читателей. Мы продолжим ежеквартально публиковать отчеты о статистике жестких дисков.
Задний план
Все твердотельные накопители в этом отчете являются загрузочными дисками на наших серверах хранения. В наших ранних серверах хранения мы использовали жесткие диски исключительно в качестве загрузочных дисков. Мы начали использовать твердотельные накопители в этом качестве в четвертом квартале 2018 года. С тех пор твердотельные накопители были установлены на всех новых серверах хранения и на всех серверах с неисправными загрузочными жесткими дисками. Загрузочные диски в нашей среде не только загружают серверы хранения, но и хранят файлы журналов и временные файлы, созданные сервером хранения. Каждый день загрузочный диск будет читать, записывать и удалять файлы в зависимости от активности самого сервера хранения.
Обзор
По состоянию на 31 декабря 2021 г. мы использовали 2200 твердотельных накопителей. Поскольку ниже мы делимся различными таблицами и диаграммами, некоторые цифры, особенно годовая частота отказов (AFR), будут очень неожиданными для информированных читателей. Например, ваше внимание может привлечь AFR 43,22%. Мы объясним эти выбросы по ходу дела. Большинство из них связано с новизной диска, но мы сообщим вам об этом.
Как и в случае с отчетами о жестких дисках, мы опубликовали данные, которые использовали для разработки нашего отчета о твердотельных накопителях. Фактически, мы всегда публиковали эти данные, поскольку они находятся в тех же файлах, что и данные жесткого диска. Теперь о плохих новостях: данные в настоящее время не включают тип накопителя, SDD или HDD, поэтому вам придется провести исследование по номеру модели. Извиняюсь. Вы найдете ссылки для загрузки файлов данных на нашей веб-странице данных тестов Drive Stats. Если вы просто ищете данные SSD, начните с Q4 2018 и продолжайте.
Если вы не знакомы с нашими отчетами Drive Stats, вы можете задаться вопросом, почему мы собираем и передаем эту информацию. Это начинается с того факта, что у нас есть много доступного хранилища данных, более двух эксабайт на сегодняшний день, для клиентов, использующих Backblaze B2 Cloud Storage и Backblaze Computer Backup. При этом нам необходимо иметь глубокое понимание нашей среды, одним из аспектов которой является то, как часто диски, как жесткие, так и твердотельные, выходят из строя. Примерно семь лет назад мы решили поделиться тем, что узнали, и пролить свет на ранее непрозрачный мир частоты отказов жестких дисков. Вполне естественно, что мы будем столь же прозрачны с SSD. Читать дальше.
Годовая частота отказов твердотельных накопителей за 2019, 2020 и 2021 годы
В конце 2021 года в наших серверах хранения было 2200 твердотельных накопителей, что выросло с нуля в третьем квартале 2018 года. Мы начнем с анализа AFR за последние три года, затем углубимся в частоту отказов в 2021 году и, наконец, возьмем посмотрите на ежемесячные ставки AFR с 2019 года. Мы объясним каждый по ходу дела.
На приведенной ниже диаграмме показаны показатели отказов за 2019, 2020 и 2021 годы.
Наблюдения и комментарии
Данные за каждый год (2019, 2020 и 2021) включают деятельность, имевшую место в этом году.
В 2021 году частота отказов имеет тенденцию к увеличению. Мы видели это, когда сравнивали наши загрузочные диски HDD и SSD в предыдущем посте. Когда мы перейдем к квартальному графику позже в этом сообщении блога, эта тенденция как таковая будет намного яснее.
У двух дисков сногсшибательная частота отказов — модель Crucial: CT250MX500SSD1 и модель Seagate: ZA2000CM10002. В обоих случаях количество дней вождения и количество поездок (не показано) очень мало. Для Crucial установлено всего 20 дисков, которые были установлены в декабре 2021 года. Для Seagate было всего четыре диска, и один вышел из строя в начале 2021 года. В обоих случаях AFR основан на очень небольшом количестве данных, что приводит к очень широкий доверительный интервал, который мы увидим в следующем разделе. Мы включаем эти диски для полноты картины.
День вождения означает один привод в эксплуатации в течение одного дня. Следовательно, один привод в эксплуатации в 2021 году будет иметь 365 дней вождения. Если диск выйдет из строя через 200 дней, он будет иметь 200 дней работы и будет помечен как неисправный. Для данной когорты дисков за указанный период времени мы вычисляем AFR следующим образом:
AFR = (сбои диска / (дни привода / 365)) * 100
Это обеспечивает годовую частоту отказов (AFR) за любой период времени.
Ежегодная частота отказов твердотельных накопителей за 2021 г.
Давайте углубимся в 2021 год и добавим еще несколько деталей. Таблица ниже представляет собой расширенную версию годового раздела за 2021 год из предыдущей диаграммы.
Из таблицы должно быть ясно, что для дисков Crucial и Seagate с двузначным значением AFR требуется намного больше данных, прежде чем можно будет судить об их надежности в нашей среде. Об этом свидетельствует чрезвычайно широкий доверительный интервал для каждого диска. Приемлемый доверительный интервал составляет менее 1,0%, при этом оптимальным для нас является 0,6% или менее. Только модель Seagate: ZA250CM10002 соответствует критерию 1,0%, хотя модель Seagate: ZA250CM10003 очень близка.
Очевидно, что требуется время, чтобы собрать достаточно данных, чтобы быть уверенным, что рассматриваемый диск работает на ожидаемом уровне. В нашем случае мы ожидаем AFR от 1% до 2%. Все, что меньше, отлично, а все, что больше, заслуживает внимания. Один из способов, которым мы «наблюдаем», — отслеживание квартальных результатов, которые мы рассмотрим далее.
Ежеквартальные показатели отказов твердотельных накопителей с течением времени
Есть два разных способа взглянуть на квартальные данные: за дискретные периоды времени, например квартал или год; или кумулятивно за определенный период времени, например, все данные с 2018 года. Данные, охватывающие квартал за кварталом, могут быть неустойчивыми или резкими, но быстро реагируют на изменения. Совокупные данные показывают долгосрочные тенденции, но менее чувствительны к быстрым изменениям.
Ниже приведены графики как поквартальных, так и совокупных поквартальных данных для наших твердотельных накопителей, начиная с первого квартала 2019 года. Сначала мы сравним все твердотельные накопители, а затем рассмотрим несколько отдельных интересующих дисков.
Совокупная кривая плавно перетекает ниже порогового значения AFR в 2%, вызывающего озабоченность. Если бы мы просто следили за квартальным значением, мы могли бы счесть использование твердотельных накопителей в качестве загрузочных дисков проблематичным, поскольку в нескольких кварталах показатель AFR был на уровне 3% или около него. Тем не менее, чем больше данных, тем лучше, и по мере старения твердотельных накопителей мы хотим быть еще более бдительными, чтобы увидеть, как долго они прослужат. У нас есть много данных по этой теме для жестких дисков, но мы все еще изучаем SDD.
Имея это в виду, давайте взглянем на три старых твердотельных накопителя, чтобы увидеть, есть ли что-нибудь интересное на данный момент.
Наблюдения и комментарии
За весь 2021 год совокупный показатель AFR для всех трех дисков был ниже 1%.
Это сопоставимо с совокупным AFR для всех SSD-накопителей по состоянию на четвертый квартал 2021 года, который составил 1,07% (по сравнению с предыдущим графиком).
Продолжая сравнение, совокупный (срок службы) AFR для наших жестких дисков составил 1,40%, как указано в нашем отчете о статистике дисков за 2021 год. Но, как мы отметили в нашем сравнении жестких дисков и твердотельных накопителей, две группы (твердотельные и жесткие диски) находятся в разных точках своего жизненного цикла. Как и было обещано, мы продолжим изучать эту дихотомию в ближайшие месяцы.
Модель (ZA250CM10002), представленная красной линией, похоже, следует классической кривой отказов ванны, испытывая ранние отказы, прежде чем установится до значения AFR ниже 1%. С другой стороны, два других диска не показывали признаков преждевременного выхода из строя и начали выходить из строя совсем недавно. Этот тип отказов аналогичен тому, который демонстрируют наши жесткие диски, которые больше не соответствуют модели кривой ванны.
Эксперименты и тест-драйвы
Если вы решите загрузить данные и покопаться, вы увидите несколько аномалий, связанных с моделями SSD. Мы хотели бы пролить свет на эти выбросы, прежде чем вы начнете ковыряться. Мы уже рассмотрели диски Crucial и Seagate с более высокими, чем ожидалось, показателями AFR, но есть еще две модели твердотельных накопителей, которые не фигурируют в этом отчете, но фигурируют в данных. Это Samsung 850 EVO 1 ТБ и HP SSD S700 250 ГБ.
Почему они не отображаются в этом отчете? Как и в случае с нашим обзором статистики дисков для наших жестких дисков, мы удаляем те диски, которые мы используем для целей тестирования. Вот подробности:
Твердотельные накопители Samsung были первыми твердотельными накопителями, которые устанавливались в качестве загрузочных дисков. Было установлено 10 дисков, чтобы проверить, как SSD будут работать в качестве загрузочных дисков. Недурно! У нас были предварительные планы на эти 10 дисков на других серверах, и примерно через две недели диски Samsung были заменены другими твердотельными накопителями и развернуты по их первоначальному назначению. Их новаторская работа была отражена в данных Drive Stats для потомков.
Твердотельные накопители HP, которые были частью тестирования нашей внутренней платформы переноса данных, т. е. переноса данных с меньших дисков на большие. Эти диски фигурировали в данных за третий и четвертый кварталы 2021 года. Любые данные, относящиеся к этим дискам в третьем или четвертом квартале, не основаны на использовании этих дисков в нашей производственной среде.
Что дальше
Мы признаем, что 2200 твердотельных накопителей — это относительно небольшое количество дисков, на которых можно проводить наш анализ, и хотя это число приводит к более широким, чем хотелось бы, доверительным интервалам, нам нужно было с чего-то начинать. Разумеется, мы продолжим добавлять в исследуемую группу загрузочные SSD-накопители, что повысит достоверность представляемых данных. Кроме того, мы ожидаем, что наши читатели оценят представленные данные со своей обычной скептической точки зрения и помогут нам сделать этот отчет еще более информативным и полезным.
У нас есть твердотельные накопители на других типах серверов в нашей среде. Например, серверы восстановления, служебные серверы, серверы API и т. д. Мы рассматриваем возможность оснащения дисков на некоторых из этих серверов, чтобы они могли сообщать о своей статистике так же, как наши загрузочные диски. Есть несколько соображений, прежде чем мы это сделаем:
Мы не влияем на производительность других серверов.
Мы понимаем, что рабочая нагрузка дисков на каждом из других серверов, скорее всего, разная. Это означает, что мы можем получить несколько когорт SSD-накопителей с разными рабочими нагрузками, которые могут быть или не быть подходящими для нашего анализа.
Мы не хотим влиять на производительность наших технических специалистов в центрах обработки данных, добавляя дополнительные или конфликтующие шаги в процессы, которые они используют при обслуживании этих других серверов.
Данные статистики SSD
Полный набор данных, использованных для создания информации, используемой в этом обзоре, доступен на нашей странице данных тестирования жесткого диска. Как отмечалось ранее, вы найдете данные SSD и HDD в одних и тех же файлах, и вам придется использовать номер модели, чтобы отличить одну запись от другой. Вы можете скачать и использовать эти данные бесплатно в своих целях. Все, что мы просим, это три вещи: 1) вы указываете Backblaze в качестве источника, если вы используете данные, 2) вы соглашаетесь с тем, что вы несете единоличную ответственность за то, как вы используете данные, и 3) вы никому не продаете эти данные; это бесплатно.