По состоянию на 30 сентября 2019 года у Backblaze было 115 151 вращающихся жестких дисков, распределенных по четырем центрам обработки данных на двух континентах. Из этого числа было 2098 загрузочных дисков и 113 053 дисков с данными. Мы посмотрим на частоту отказов жестких дисков в течение срока службы моделей накопителей данных, которые в настоящее время работают в наших центрах обработки данных, но сначала мы рассмотрим события, которые произошли в Q3, которые потенциально повлияли на статистику накопителей за этот период. Как всегда, мы опубликуем данные, которые мы используем в этих отчетах, на нашей веб-странице с тестовыми данными жесткого диска, и мы с нетерпением ждем ваших комментариев.
www.backblaze.com/b2/hard-drive-test-data.html
Статистика жесткого диска за 3 квартал 2019 года
На этом этапе в предыдущих отчетах по статистике жестких дисков мы раскрывали квартальную таблицу статистики жестких дисков. На этот раз мы представим только таблицу Lifetime Hard Drive Failure, которую вы можете увидеть, если перейдете к концу этого отчета. Для таблицы Q3 данные, которые мы обычно используем для создания этого отчета, могли быть косвенно затронуты одной из наших служебных программ, которая выполняет проверки целостности данных. Хотя мы не верим, что долгосрочные данные будут затронуты, мы чувствовали, что вы должны знать. Ниже мы углубимся в подробности, пытаясь объяснить, что произошло в 3-м квартале и что, по нашему мнению, все это значит.
Что такое неисправность диска?
На протяжении многих лет мы заявляли, что сбой диска происходит, когда диск перестает вращаться, не остается участником RAID-массива или демонстрирует постоянное ухудшение со временем, о чем свидетельствует статистика SMART и другие системные проверки. Например, диск, который сообщает о быстро увеличивающемся или вопиющем количестве ошибок чтения носителя, является кандидатом на замену в качестве неисправного диска. Эти типы ошибок обычно видны в статистике SMART, которую мы записываем как ненулевые значения для SMART 197 и 198, которые регистрируют обнаружение и исправление поврежденных секторов диска, как правило, из-за ошибок носителя. Мы также отслеживаем другие статистические данные SMART, но эти два наиболее важны для этого обсуждения.
Что может быть неочевидным, так это то, что изменения некоторых атрибутов SMART происходят только при выполнении определенных действий. Снова используя SMART 197 и 198 в качестве примеров, на эти значения влияют только тогда, когда операция чтения или записи происходит в секторе диска, носитель которого поврежден или иным образом не позволяет выполнить операцию. Короче говоря, статистические данные SMART 197 и 198, имеющие сегодня нулевое значение, не изменятся, если во время нормальной работы диска не будет обнаружен плохой сектор. Эти две SMART-статистики не вызывают чтения и записи, они только регистрируют аномальное поведение от этих операций.
Защита сохраненных данных
Когда файл или группа файлов поступает в центр обработки данных Backblaze, файл делится на части, которые мы называем осколками. Для получения дополнительной информации о том, как создаются и используются сегменты в архитектуре Backblaze, обратитесь к сообщениям в блогах Backblaze Vault и Backblaze Erasure Coding. Для простоты, скажем, осколок — это блок данных, который находится на диске в нашей системе.
Поскольку каждый шард хранится на жестком диске, мы создаем и храним односторонний хэш содержимого. По причинам, варьирующимся от повреждения носителя до гниения и гамма-излучения, мы регулярно проверяем целостность этих сегментов, повторно вычисляя хэш и сравнивая его с сохраненным значением. Чтобы пересчитать хеш-значение сегмента, утилита, известная как проверка целостности сегмента, считывает данные в сегменте. Если между недавно вычисленными и сохраненными значениями хеша есть несоответствие, мы перестраиваем шард, используя другие шарды, как описано в сообщении в блоге Backblaze Vault.
Проверки целостности осколка
Утилита проверки целостности осколка запускается как служебная задача на каждом модуле хранения. В конце июня мы решили увеличить частоту проверок целостности сегментов в ферме данных, чтобы эти проверки выполнялись как можно чаще на данном диске, сохраняя при этом его производительность. Мы увеличили частоту проверок целостности сегментов, чтобы учесть растущее число дисков большой емкости, которые были развернуты в последнее время.
Последствия для статистики движения
Как только мы записываем данные на диск, эта часть диска остается неизменной до тех пор, пока пользователь не прочитает данные, данные не будут считаны процессом проверки целостности сегмента для повторного вычисления хэша, или данные не будут удалены и перезаписаны. Как следствие, нет обновлений, касающихся этого раздела диска, отправленного в статистику SMART, пока не произойдет одно из этих трех действий. Ускоряя частоту проверок целостности осколка на диске, диск читается чаще. Ошибки, обнаруженные во время операции чтения утилиты проверки целостности сегмента, фиксируются соответствующими атрибутами SMART. Собирая воедино кусочки, проблема, которая могла бы быть обнаружена в будущем — при нашей предыдущей каденции проверки целостности осколка — теперь будет отслеживаться статистикой SMART, когда процесс читает этот раздел диска сегодня.
Увеличивая частоту проверки целостности осколка, мы потенциально перенесли ошибки, которые должны были быть обнаружены в будущем, в Q3. Хотя обнаружение потенциальных проблем раньше — это хорошо, вполне возможно, что сбои жестких дисков, записанные в 3-м квартале, могут быть искусственно высокими, поскольку будущие сбои переносятся в квартал. Учитывая, что наши расчеты в годовом исчислении отказов основаны на днях вождения и сбоях в работе, возможное увеличение количества отказов в Q3 может вызвать искусственный скачок в годовом исчислении отказов Q3. Это то, что мы будем отслеживать в ближайшие кварталы.
Обратите внимание на несколько моментов, поскольку мы учитываем влияние ускоренных проверок целостности осколков на данные Q3 для Drive Stats:
- Количество отказов дисков в течение срока службы данной модели дисков не должно увеличиваться. В лучшем случае мы просто немного отодвинули неудачи.
- Вполне возможно, что проверки целостности осколка не сделали ничего, чтобы увеличить количество отказов дисков, которые произошли в Q3. Квартальные показатели отказов не сильно отличались от предыдущих кварталов, но мы не чувствовали себя комфортно публиковать их в настоящее время, учитывая обсуждение выше.
Срок службы жесткого диска Статистика до Q3 2019
Ниже приведены показатели отказов по сроку службы для всех моделей наших приводов, находящихся в эксплуатации по состоянию на 30 сентября 2019 года.
Срок службы отказов для моделей накопителей в производстве незначительно вырос с 1,70% в конце второго квартала до 1,73% в конце третьего квартала. Это тривиальное увеличение, по-видимому, указывает на то, что отмеченная выше потенциальная проблема с данными Q3 минимальна и находится в пределах нормального отклонения. Тем не менее, мы не удовлетворены тем, что это правда, и у нас есть план, чтобы убедиться, как мы увидим в следующем разделе.
Что дальше для Drive Stats?
Мы будем продолжать публиковать нашу статистику по жестким дискам каждый квартал, и в следующем квартале мы также планируем включить квартальный график (Q4). В обозримом будущем нам предстоит немного проделать внутреннюю работу, поскольку мы будем отслеживать две разные группы накопителей. Одной из групп будут диски, которые, так сказать, «прошли через червоточину», поскольку они присутствовали во время ускоренных проверок целостности осколка. Другая группа будет теми дисками, которые были запущены в производство после того, как настройка проверки целостности осколка была уменьшена. Мы сравним эти два набора данных, чтобы увидеть, действительно ли какое-либо влияние увеличенных проверок целостности осколков на частоту отказов жесткого диска Q3. Мы сообщим вам, что мы найдем в последующих отчетах по статистике дисков.
Данные о жестком диске
Полный набор данных, использованный для создания информации, использованной в этом обзоре, доступен на
нашей веб-странице с данными испытаний жесткого диска. Вы можете скачать и использовать эти данные бесплатно в своих целях. Все, что мы просим, - это три вещи: 1) вы цитируете Backblaze в качестве источника, если вы используете данные, 2) вы соглашаетесь с тем, что несете единоличную ответственность за то, как вы используете данные, и 3) вы не продаете эти данные кому-либо; это свободно. Удачи и дайте нам знать, что вы найдете.