Скоростные NVMe-диски на серверах

Продолжаем добавлять диски NVMe в наши тарифы. Две неледи назад обновили Форсаж, теперь добрались до линейки готовых серверов.

Что такое NVMe?
NVMe — это новый стандарт SSD-накопителей. Они подключаются через производительный интерфейс PCI Express, и работают на собственном протоколе, который учитывает все особенности твердотельных накопителей. Как результат: скорость чтения-записи в 2-3 раза выше, чем у SSD.
Узнать подробности о технологии NVMe

Как заказать?
На главной странице или на странице Готовых конфигураций выбирайте виртуализацию KVM и диск NVMe. Дальше как обычно — кладите в корзину, авторизуйтесь (или регистрируйтесь) в Личном кабинете, оплачивайте заказ. Готово! Через несколько минут сервер готов к работе.


Заказать сервер с NVMe

Даунтайм 7 января: что произошло

7 января система мониторинга сообщила о проблемах с производительностью на 28-ми родительских серверах. Основным симптомом был медленно работающий процессор.

Поиск причин и решение
Проблема проявилась только на платформе Intel S2600BPB с новыми процессорами Intel Silver и Gold. Другие общие характеристики не обнаружились: разные дата-центры, разные версии Linux, разные виртуализации.

Решить проблему в лоб не удалось. Сняли с сервера всю нагрузку (выключили клиентские VDS) — родительский сервер продолжал тормозить. Медленно работал даже интерфейс UEFI. Перезагрузка также не помогала.

Примерно 8 часов ушло на то, чтобы докопаться до сути проблемы. Искали, что связывает все эти случаи. В итоге решить проблему удалось только полным отключением питания. При запуске серверов после 10-минутного простоя проблема исчезает и не повторяется.

Причина сбоя
Чтобы объяснить, в чем дело, придется немного рассказать о физическом устройстве питания серверов.


Сервер получает питание не напрямую. Для группы серверов действует пара блоков питания, работающих параллельно. Управляет подачей питания на все элементы сервера специальное устройство — контроллер BMC, Intel Baseboard Management Controller.

В консоли одного BMC нашли логи:
308 Sun Jan 7 05:31:29 2018 PS1 Status  BMC Warning Power Supply    Predictive Failure - Over-temperature warning, Status Byte: 0x40 - Asserted
312 Sun Jan 7 05:40:04 2018 PS2 Status  BMC Warning Power Supply    Predictive Failure - Over-temperature warning, Status Byte: 0x40 - Asserted

То есть контроллер определил перегрев блоков питания, после чего дал команду всем подчиненным ему серверам работать на минимальной мощности.

Проверили логи остальных контроллеров для пострадавших серверов. Все они с точностью до минуты определили такой же перегрев блоков питания:
d0 | 01/07/2018 | 05:31:30 | Power Supply #0x50 | Predictive failure | Asserted
 b2 | 01/07/2018 | 05:31:29 | Power Supply #0x50 | Predictive failure | Asserted
 a6 | 01/07/2018 | 05:31:29 | Power Supply #0x50 | Predictive failure | Asserted
 79 | 01/07/2018 | 05:31:29 | Power Supply #0x50 | Predictive failure | Asserted
 62 | 01/07/2018 | 05:31:30 | Power Supply #0x50 | Predictive failure | Asserted
 7e | 01/07/2018 | 05:31:29 | Power Supply #0x50 | Predictive failure | Asserted
 3d | 01/07/2018 | 05:31:29 | Power Supply #0x50 | Predictive failure | Asserted
 3e | 01/07/2018 | 05:31:29 | Power Supply #0x50 | Predictive failure | Asserted
185 | 01/07/2018 | 05:31:30 | Power Supply #0x50 | Predictive failure | Asserted
 4d | 01/07/2018 | 05:31:30 | Power Supply #0x50 | Predictive failure | Asserted
 53 | 01/07/2018 | 05:31:29 | Power Supply #0x50 | Predictive failure | Asserted
 a4 | 01/07/2018 | 05:31:30 | Power Supply #0x50 | Predictive failure | Asserted
 ee | 01/07/2018 | 05:31:31 | Power Supply #0x50 | Predictive failure | Asserted
 28 | 01/07/2018 | 05:31:31 | Power Supply #0x50 | Predictive failure | Asserted
 38 | 01/07/2018 | 05:31:30 | Power Supply #0x50 | Predictive failure | Asserted
 91 | 01/07/2018 | 05:31:30 | Power Supply #0x50 | Predictive failure | Asserted
 3a | 01/07/2018 | 05:31:31 | Power Supply #0x50 | Predictive failure | Asserted
 2c | 01/07/2018 | 05:31:30 | Power Supply #0x50 | Predictive failure | Asserted

Датчики температуры показывали, что температура на блоках питания не поднималась выше 39°C. Получается, что с десяток разных контроллеров одновременно решили, что происходит перегрев блоков питания, хотя на самом деле его не было. Наше предположение — это проблема аппаратной платформы, баг в логике работы.

Одной из версий было, что кто-то взломал IPMI и одновременно дал команду на снижение энергопотребления всем процессорам. Однако, пострадали и новые простаивающие сервера, еще не подключенные в сеть.

Написали запрос в Intel с описанием проблемы, приложив все логи BMC. Интел обещал помочь. Спустя 18 часов, позвонил инженер Intel и сообщил, что зарегистрированы еще аналогичные случаи. Обещали держать нас в курсе новостей. Мы ожидаем одного из двух ответов: либо сообщения о том, что проблема была разовая и больше не повторится, либо обновления BMC для закрытия проблемы.

Решили провести свой эксперимент. На пустой платформе без клиентских серверов перевели время назад, на 6 января, и на следующие сутки, как только часы показали 5:30 проблема повторилась. Поставили на этой платформе дату +3 дня относительно текущего времени. Это поможет заранее узнать о повторении проблемы.

FirstVDS: Встречаем 2018-ый



Добавили защиту от DDoS на всех тарифах
Раньше защищенный канал был доступен только для Атлантов и Форсажей, а теперь его можно подключить и на готовых тарифах за 500 рублей в месяц. Канал DDoS-Guard защищает серверы от самых распространённых атак на 3-4 уровне: Smurf, SYN-, ICMP-флуд.
firstvds.ru/products/vds_vps_hosting


Оптимизировали серверы для Битрикс24
Подобрали виртуальные и выделенные серверы под корпоративные порталы Битрикс24 разного размера. Учли, что вам могут пригодиться бэкапы и администрирование — уже в комплекте.
firstvds.ru/products/bitrix24


Снизили цену на хостинг для Windows
В марте Windows подняли цены на лицензии, и нам пришлось повысить цены на Windows-серверы. Но в июле мы нашли способ сделать их даже дешевле, чем было — от 589 рублей в месяц. Собрали отдельный кластер, взяли под него одну лицензию Datacenter и вуаля.
firstvds.ru/hosting/windowsvps


Добавили диска на Форсажах и Битриксах
Увеличили лимит диска для серверов в своей конфигурации, под 1С-Битрикс и Битрикс24: HDD до 1 ТБ и SSD до 500 Гб. Больше места для ваших больших проектов!




Счастливого Нового года, друзья!
Команда эльфов FirstVDS

24 декабря обновление личного кабинета

24 декабря мы обновляем функционал личного кабинета.

Начнем в 5 часов утра и планируем завершить до 11 часов по московскому времени. На время работ личный кабинет может быть недоступен.

Также могут быть недоступны или отвечать с задержкой наши специалисты техподдержки. Если вам нужна помощь наших администраторов, пожалуйста запланируйте работы на другое время.

Всегда ваша, Команда FirstVDS

Деньрожденческий квест — стартуем

Мы выбрали вас для обучения нейросети FirstVDS.

К 15-летию компании мы разработали интерактивного помощника на базе искусственного интеллекта. Вы, как человек с высоким IQ, можете помочь нам в его обучении.

Хотите быть причастным к созданию нейросети — участвуйте в квесте.
quest.firstvds.ru

Как мы на «Битрикс24.Идея» съездили, или похождения штатного шамана FirstVDS

С Битриксом без бубна никак — об этом на конференции «Битрикс24.Идея» шутили все.

У нас для таких случаев есть штатный шаман Игорь. Он прокачал под корпоративный портал Битрикс дедики и вдски. Теперь они масштабируются быстро, как по волшебству, бэкапы и администрирование 24/7 включены. Технари тоже что-то оптимизировали, чтобы серверы «летали». Но самое сложное досталось, конечно, Игорю. Потом собрал нас всех и повёз на конференцию.

В Сколково Игорь научил всех с Битриксом дружить. Показал, как бить в бубен, чтобы настроить портал без чтения документации. Объяснил, как попугаев призывать и лицензии заговаривать.

А если серьёзно, на конференцию мы привезли в первую очередь не шамана, а продукт и команду специалистов.

Летели из солнечного Иркутска 5 часов с четырьмя 23-килограммовыми чемоданами гостинцев и промо-материалов. Москва встретила нас без энтузиазма: серым небом и дождиком.

В Сколково оказалось, что наш стенд стоит рядом с конкурентами. Сначала мы расстроились. А потом поняли, что выгодно выделяемся на их фоне. Сами посудите:


В 9:00 начали собираться люди. Мы радовались и делились фотками с коллегами, которые остались в Иркутске. Сначала они подшучивали — дескать, пусто, как на заброшенном складе. Буквально за полчаса все изменилось.


firstvds.ru/blog/kak-my-na-bitriks24ideya-sezdili

Итоги квеста ко дню сисадмина 2017

В Квесте Сисадмина 2017 поучаствовали 844 человека — это в 2 раза больше, чем в предыдущем квесте, отличная тенденция!
544 из них решили только первое задание, 216 — первое и второе, а третье — только 13 человек. Это менее 2% участников.

Вот как распеделились места:

I Влад Росков с итоговым временем 0:52:35
Решил 3 задание квеста за 2 часа, 2 минуты и 35 секунд + 7 из 9 бонусов. Подсказок не брал.

II Александр (kamazee) — 1:31:05
Прошел 3 задание за 2 часа 51 минуту и 5 секунд, решил 8 допов и не брал подсказок.

III Kuj Gfcnv — 2:30:48
Решил задание за 2 часа 10 минут и 48 секунд, но взял 2 подсказки.

IV Andrey Lukashin — 3:23:50
Сделал админское задание за 3 часа, 53 минуты и 50 секунд, решил 3 бонуса.

V Антон Аверьянов — 3:46:08
Прошел квест без подсказок и бонусов.

VI Константин Сбитнев — 4:04:08
Очень упорно решал бонусы — сделал 8 из 9. Само задание решил за 5 часов 24 минуты 8 секунд.

VII Представитель Cadmus — 5:35:28
Решил квест за 6 часов, 5 минут и 28 секунд + получил 3 бонуса за дополнительные задания.

VIII Иванов Иван — 6:02:47
Решил задание за 6 часов 52 минуты 47 секунд, прошел 5 бонусов.

IX Юрий Тарабуткин — 7:06:58
Прошёл 3 задание за 6 часов, 46 минут, 58 секунд с двумя подсказками.

X Babenko Kirill — 8:16:23
Решил задание за 8 часов, 36 минут и 23 секунды, прошел 2 бонуса.

XI Виталий Степанец — 11:56:28
Решил задание за 12 часов 36 минут и 28 секунд, правильно ответил на 8 бонусов.

XII Степан Легачёв — 15:05:31
Прошел квест за 16 часов, 25 минут и 31 секунду. Решил 8 бонусов.

XIII Alex Alex — 20:02:26
Наш самый упорный и поэтому классный участник. Решил квест за 20 часов 42 минуты и 26 секунд с перерывами на сон и отдых + 4 бонуса прошёл.

За игру участники использовали 1721 подсказку и решили 196 бонусных заданий.

Бонусы к первому заданию решили:
— бонус # 1 — 52 человека
— бонус # 2 — 56 человек
— бонус # 3 — 28 человек

Ко второму:
— бонус # 1 — 38 человек
— бонус # 2 — 44 человека
— бонус # 3 — 5 человек

И к третьему:
— бонус # 1 — 5 человек
— бонус # 2 — 7 человек
— бонус # 3 — 1 человек

Благодарю всех участников за интерес, добрые отзывы и хорошие советы! В декабре мы учтём все пожелания и сделаем ещё более крутой квест :))
А ответы на Сисадминский квест можно найти на нашем сайте.
firstvds.ru/blog/otvety-na-kvest-sisadmina-2017

С днём сисадмина — участвуй в квесте, выигрывай призы


Настал твой день — день сисадмина. Отпразднуй его участием в квесте. Покажи, кто тут гуру: обойди прАдвинутых юзеров и получи приз.



10 победителям деньги на счёт и мерч FirstVDS:
  • 1 место – 5000 р. и свитшот,
  • 2 место – 3000 р. и свитшот,
  • 3 место – 1500 р. и свитшот,
  • 4–6 место: футболка,
  • 7-10 место: баф.
quest.firstvds.ru

Не хочешь напрягать мозги в праздник — крути баклажан починки сервера. Это про будни сисадмина и просто весело.
firstvds.ru/adminday

Как за 15 лет вырастить лучшую службу поддержки

Человек выбирает хостинг по цене и отзывам. Решает, остаться ли в компании — по доступности сервера и качеству поддержки. Большинство наших клиентов не занимается администрированием сервера, и для них очень высока ценность качественной поддержки.

15 лет мы колдовали над саппортом: менялись в деталях и устраивали революции. Тестировали новое, отказывались от неуместного и праздновали находки. Добились отличного соотношения между скоростью и качеством ответов, но не остановились на этом.

Расскажем, как выросла служба поддержки FirstVDS

2002 — 2007 год: Ну очень крутая поддерж
ка
  • Среднее количество запросов в месяц — 540
  • Среднее время ответа — 26 мин
  • Данные с 2003 по 2007 год, цифры за 2002 год не сохранились
Когда проект молодой и клиентов мало, оказывать классную поддержку проще простого. Первые годы на FirstVDS этим занималась вся команда проекта. Помимо своей основной работы сотрудники решали технические, финансовые и другие вопросы заказчиков. Наизусть знали всех клиентов, их сайты и проблемы.

К 2005 начала формироваться техническая поддержка — наняли 4 человек. Загрузка была небольшая, и они справлялись отлично — отвечали быстро и полно.

Консультирование по техническим вопросам было бесплатным, настройка и установка — платной. Техспециалисты работали посменно и выполняли определённые задачи за фиксированную стоимость. Перенос сайта — столько-то, оптимизация скриптов — столько-то и т.д.

Общие вопросы (активация услуг, аккаунтов, обработка заказов) решал другой отдел — по работе с клиентами. Он состоял из 2 человек. Сотрудники отдела также отвечали на вопросы с финансами и документами. Решали все свои задачи бесплатно.

Письма и звонки получал отдел по работе с клиентами и, если вопрос технический, передавал поддержке. Запросы, которые поступали через личный кабинет (ЛК), видели оба отдела — выбирали свои и обрабатывали в тикетнице.

В 2008 году клиентов стало значительно больше. 6 специалистов уже не справлялись.

2008 — 2010 год: Оставаться крутыми всё сложней
  • Среднее количество запросов в месяц — 2302 (+1762)
  • Среднее время ответа — 8 мин (-18 мин)
Увеличилось число запросов, а с ним и время ответа. Чтобы отвечать так же быстро и качественно, мы наняли ещё людей: троих в отдел по работе с клиентами и четверых в техподдержку. Отделы работали по старой схеме.

Среднее время ответа уменьшилось в 3 раза! Но клиенты всё больше жаловались, что технические работы платные.
Да… ещё немного, и ваш сервис станет таким же отстойным, как и все остальные. Деньги дерут за всё. Рекомендую на пополнение счёта комиссию установить, на запуск passwd и ещё на каждый логин в ISPmanager
Мы периодически снижали цены и, наконец, решили, что бесплатная техподдержка — отличное конкурентное преимущество.

2011 — 2012 год: Бесконечная очередь из тикетов
  • Среднее количество запросов в месяц — 3322 (+1020)
  • Среднее время ответа — 27 мин (+19)

Чтобы обойти конкурентов, мы сделали техподдержку бесплатной. Платными остались только сложные технические работы — установка и настройка ПО, перенос сайтов и баз данных.

Мы предвидели, что тикетов станет много, и скорость ответа уменьшится. Клиенты будут недовольны, потому что привыкли получать отклик быстрее. Тогда мы ввели очередь — когда клиент видит номер в очереди, он оценивает примерное время ответа.

Очередь формировалась по весу. В начало очереди попадали клиенты, которые с нами дольше, больше платят и меньше спрашивают, в конец — новенькие и проблемные (ну, бывают такие).

Можно было подняться в очереди за деньги: в начало — 200 руб., за первыми в очереди — 50 руб. Клиенты со срочными проблемами могли решить вопрос в ускоренном порядке.

Проблема в том, что клиенты в конце очереди почти не продвигались выше. Их постоянно обгоняли те, кто доплачивал. Или приходили ещё «старые и дорогие», и конец очереди отодвигался дальше и дальше. Чтобы ответить всем, мы ускорялись и теряли в качестве. В результате всё равно отвечали недостаточно быстро и полно.

Проблему с огромной очередью надо было решать.

2013 — суровые сортировщики
  • Количество запросов в месяц — 3853 (+531)
  • Среднее время ответа — 27 (+0)

Чтобы отвечать быстро, качественно и не обижать клиентов в конце очереди, мы сделали несколько вещей.

Первое — вернули платную техническую поддержку, но в новом виде. Добавили два пакета, они действовали месяц и включали решение нескольких задач по администрированию сервера. «Базовый» стоил 250 руб., включал решение 5 задач и предполагал ответ в течение 24 часов, «Премиум» — 10 задач за 2000 руб. и ответ за 5 часов. От последнего вскоре отказались, он был не востребован.

Второе — разбили отдел по работе с клиентами на два: отдел финансов и отдел продаж. До этого финансовые, предпродажные и общие вопросы решали одни и те же люди и в основном обслуживали существующих клиентов. После разделения отдел продаж смог уделять больше внимания потенциальным клиентам.

Третье — ввели платный звонок админам. Запросов стало больше, и техспециалисты не успевали общаться со всеми желающими по телефону. Платная линия разгрузила админов. Клиенты получили возможность решать срочные вопросы в 2-3 раза быстрее.

Четвёртое и главное — добавили к техподдержке первую линию — сортировщиков. Они общались с клиентами по телефону. Отвечали в тикетах на общие и простые технические вопросы, например, на какие сервера имён ведёт домен. Предпродажные, финансовые и сложные технические вопросы передавали соответствующим отделам.


Мы решили, что задача у первой линии нехитрая — спецы с высшим образованием и глубокими техническими знаниями туда не нужны. Набирали просто хороших ребят с желанием работать. Написали 10 шаблонов и особенно не учили.

Мы думали, что после сортировки техподдержка, финансы и продажи будут получать только целевые запросы, и скорость ответов увеличится. Но ожидания не оправдались. Получилась та же очередь, но в других отделах — клиенты снова негодовали.

Вторая причина недовольства клиентов — проблемы в общении. Все запросы сначала падали первой линии. Сейчас понятно, что там клиентов должны были «встречать» вежливые и внимательные консультанты. Но лицом компании были сортировщики, которые отвечали по шаблону или перекидывали в другой отдел. Если не могли помочь, не знали как объяснить причину. Общались сухо и официально, отвечали только по делу. Их задачей было передать тикеты, общаться с клиентами сортировщиков не учили.

Мы расстроились, но от деления на несколько линий не отказались. Идея была хорошей, осталось сделать первую линию более приветливой и функциональной.

2014 год — служба заботы о клиентах
  • Среднее количество запросов в месяц — 4105 (+252)
  • Среднее время ответа — 19 мин (-8)

Сортировщики не справлялись со своей задачей, и мы сделали из первой линии отдел заботы о клиентах. Вся суть изменений в названии — мы обучили сортировщиков общаться с клиентами. И набрали 5 новых сотрудников.

Разработали вводный курс, написали подробный регламент. Начали каждый месяц прослушивать звонки, составлять скрипты разговоров. Саппортеры стали вежливыми, приветливыми и приятными в общении.

Компетенция первой линии расширилась. В отдел заботы о клиентах перешли общие вопросы, добавились простые технические, например, создание домена на сервере. Сотрудники отвечали в тикетах и по телефону.

В этом же году мы добавили на сайт чат.

Техподдержка обновила свой регламент, и ряд техвопросов средней сложности повис в воздухе. Например, установка расширений PHP, ПО на сервере, определение вредоносных скриптов, рассылающих спам. Первая линия не знала, как на них отвечать, у второй не было времени.

2015 год — техконсультанты меж двух огней
  • Количество запросов в месяц — 5040 (+827)
  • Среднее время ответа — 33 мин (+14 мин)

Спустя год между отделом заботы о клиентах и техподдержкой назрел конфликт. Саппортеры были обучены решать общие и простые технические вопросы. Они закрывали примерно 40% процентов тикетов, но качественно. Однако технические вопросы посложнее саппортеры передавали админам, для которых эти вопросы были слишком простыми.

Админы считали, что с такой ерундой могла бы справиться и первая линия. Первая линия не считала эти вопросы ерундой. Тогда мы добавили техконсультантов. Эти ребята стали буфером между первой линией и админами. Они взяли на себя технические вопросы средней сложности — задачи, которые можно решить за 15 минут. В обязанности консультантов вошла помощь при падении службы сервера (Apache, Nginx), неверно настроенных правах на файлы сайта, ошибках с указанием параметров подключения баз данных и др.

Сложные технические вопросы (замена IP-адресов, перенос сайтов/баз данных, настройка резервного копирования и др.) консультанты передают админам.

С добавлением ещё одной линии поддержки понадобилось дополнительное время на передачу тикетов. Скорость ответов снизилась, зато увеличилось их качество. Главное, появление техконсультантов разгрузило админов, конфликт с первой линией был снят.

Общие, предпродажные, финансовые, простые и средние по сложности техвопросы мы решали бесплатно. Закрывали около 80% тикетов. Но клиенты всё равно негодовали, что наша поддержка платная.

2016 год — платная или бесплатная поддержка?
  • Среднее количество запросов в месяц — 7002 (+1962)
  • Среднее время ответа — 17 мин (-16 мин)

Поддержка всегда была бесплатной. Только часть технических работ мы выполняли за деньги и постепенно сужали этот список. Платная помощь никогда не покрывала расходов на содержание поддержки, её целью был не заработок, а сокращение запросов, в которых наша помощь на самом деле не требуется.

К 2016 году бесплатной была помощь первой линии и техконсультантов, но даже это не удовлетворяло клиентов.

Мы изучили конкурентов и поняли, что дело в названии. Переименовали сложную техническую поддержку в администрирование — когнитивный диссонанс исчез, клиенты перестали ругаться.

В этом же году полноценно заработал отдел качества. В 2015 мы анализировали причины ухода клиентов, исправляли то, что зависело от нас. К концу года ввели систему оценки чатов и тикетов — лайки/дизлайки от клиентов. Задачей отдела качества стало проверять правильность и полноту ответов, справедливость оценки клиентом. По результату сотрудников поддержки начали штрафовать или поощрять материально. Поддержка стала отвечать ещё качественнее, а благодаря мотивации и 5 новым сотрудникам ещё и в 2 раза быстрее.

2017 год — секс по телефону теперь бесплатно
  • Среднее количество запросов в месяц 6458 (-544)
  • Среднее время ответа мин 14 (-3)

Похожая история получилась с платной линией техподдержки. Клиенты звонили на 8-800, слышали «Если вы хотите обсудить технический вопрос… оставайтесь на линии. Стоимость звонка 45 руб./мин. без НДС». Клиенты бросали трубку и шли писать негативные отзывы.
Коллеги из VDS, а у вас все в порядке? 45 руб за минуту поговорить с техподдержкой? Секс по телефону и то дешевле. Брррр

Они считали всю техподдержку по телефону платной, потому что недослушивали голосового меню —
«… или дождитесь, пока ваш звонок будет переведён в Службу заботы о клиентах».

Мы думали, как изменить голосовое меню — в итоге отказались от платной линии.
Теперь чтобы поговорить с админом, надо позвонить в службу заботы о клиентах. Если вопрос сложный и срочный, сотрудники соединят с админом.

Это последнее изменение в поддержке FirstVDS на сегодня, но не последнее в истории проекта. Уже 15 лет мы меняемся, чтобы стать понятнее, ближе и удобнее. Главный критерий изменений — ваш отклик.

С каждым годом вас всё больше — всё сложнее учитывать мнение каждого, отвечать быстро и качественно, но мы стараемся.


За последние 2 года поддержка FirstVDS увеличилась в 2 раза. Сейчас в 3 линиях 37 человек. Мы посещаем курсы, прослушиваем звонки, измеряем время ответа. Дополняем регламент, используем систему мотивации сотрудников.

За 15 лет мы многое изменили, но ещё есть, куда стремиться. Поддержку FirstVDS ругают и хвалят. Мы используем конструктивную критику, чтобы стать лучше, и радуемся тёплым словам. Ставьте нам лайки/дизлайки в тикетах, пишите отзывы на сайте — нам нужен ваш отклик.

Хотите подробностей, как устроена поддержка FirstVDS сейчас, почему мы считаем текучку положительной, и сколько руководителей вышло из саппорта? Подумываем об ещё одной статье про поддержку. Пишите в комментариях, что вам интересно.

Flashcache — дёшево и сердито или альтернатива HW RAID 10 SAS

До 2014 года на серверах FirstVDS мы использовали промышленные HDD-накопители с
SAS-интерфейсом и аппаратными контроллерами, собранные в RAID 10. Это решение полностью устраивало нас в плане надёжности и производительности. Проблемы с частичной потерей клиентских данных были 3 раза за 12 лет использования. Два раза выгорали аппаратные контроллеры. Один раз вышла из строя батарейка и при аварийном отключении питания встроенная кеш-память рейда очистилась.

Однако SAS HDD дорогие. Для одного сервера мы брали комплект из 4 дисков по 600 Гб, аппаратного RAID-контроллера с батарейкой. Всё решение обходилось в 44 806 руб. за 1 Тб. Повышать цены на VDS мы не хотели. Нужно было найти более дешёвое решение, при этом не потерять в скорости и надёжности. А в идеале и увеличить предоставляемое для VDS место.

Только SSD — ещё дороже. На тот момент диски по 240 Гб стоили от 8000 руб. Дешевле было остаться на Raid 10 SAS, чем использовать SSD суммарным объёмом в 1 Тб. А увеличить хранилище и того дороже. Поэтому мы рассмотрели несколько программных решений и включили SSD в тесты, чтобы сравнить скорость. Таблица с результатами ниже.

Альтернативные решения
zfs — файловая система и менеджер логических разделов с адаптивным замещающим кешем, разработанная компанией Sun Microsystems. Zfs нельзя включить в оригинальную версию ядра Linux из-за несовместимости лицензий (CDDL vs GPL). Систему можно прикрутить DKMS-модулями, но усилия не стоят того – судя по публичным тестам скорость записи/чтения была невысока. Тестировать сами не стали.

bcache — разработка Google, в 2013 году была ещё сырой — не использовалась в продакшене. Работала только с CentOS 7, а мы использовали CentOS 6. Bcache тоже не стали тестировать.

lvm cache — технология Linux сообщества. Тоже работала только с CentOS 7, но публичных тестов на тот момент не было — решили провести сами. Цифры не понравились.

flashcache — разработан Facebook: компания внушает доверие, и технология уже была проверена в продакшене.

Flashcache работает в 3 режимах:
  • Write through — данные сначала пишутся на диск, а потом сбрасываются в кеш. Кешируется только запись.
  • Write back — данные сначала пишутся в кеш, потом сбрасываются на диск. Кешируется запись и чтение.
  • Write around — данные пишутся на диск, а в кеш попадают после первого чтения. Кешируется только чтение.

Так как write back — самый быстрый режим, выбрали для тестов его.

MD — software raid. Flashcache работает в паре с MD и Raid 1. Мы включили в тестирование MD без Flashcache, чтобы проверить, как он работает отдельно.

Итоги тестирования
Чтобы максимально приблизить условия исследования к реальным, запустили рандомную запись и чтение в файл 32 Гб (примонтированную файловую систему).


Flashcache в режиме writeback обошёл lvmcache и обогнал software raid. Сильно проиграл дорогим SSD, но главное, flashcache превзошёл наше решение на SAS HDD.

Новое решение с flashcache
По результатам исследования в январе 2014 года мы внедрили flashcache на SSD + SATA HDD.
С тех пор на одном сервере стоит 1 SSD и 2 SATA HDD по 4ТБ в зеркале. Технология работает в режиме writeback: быстро записывает данные в кеш и медленно скидывает на основной носитель.

При внедрении и обслуживании flashcache мы столкнулись с некоторыми особенностями технологии.

Особенности flashcache
1) SSD изнашивается
Из-за превышенного количества записей/перезаписей SSD перестаёт записывать новые данные. Чтобы этого не произошло мы мониторим SMART-атрибуты:
  • Media_Wearout_Indicator – это время жизни или износ диска: значение для нового диска – 100, со временем оно уменьшается. Минимально допустимое – 10, при достижении этого значения диск становится пригодным только для чтения.
  • Reallocated_Sector_Count – количество переназначенных секторов – должно быть меньше 100.

Программа мониторинга следит за этими значениями в автоматическом режиме и уведомляет сотрудников о проблемных дисках. Нам остаётся только вовремя их менять.

Раньше мы использовали диски 240 Гб, они работали меньше года. Сейчас технология over-provisioning позволяет нам увеличить резервную область диска и за счёт этого продлить срок жизни SSD. Диск объёмом 1 Тб мы режем до 240 Гб, это рабочая область, остальные 760 Гб – резерв на износ. Сейчас SSD в среднем работает 1 год.

2) Сбои, когда сгорает SSD и теряются несинхронизированные (грязные) данные
В режиме writeback данные сначала попадают в кеш SSD и только потом в память SATA HDD. Данные, которые не успели скинуться на SATA HDD, называются грязными. При сбое они безвозвратно сгорают вместе с SSD. При экстренном отключении питания SSD тоже может выйти из строя с потерей данных.

К счастью, сбои происходят не так часто. За 2,5 года у нас произошло два случая с потерей клиентских данных, которые не успели записаться в хранилище.

Уменьшить количество сбоев можно двумя способами:
  • Использовать качественные серверные SSD. Что мы и делаем – покупаем диски Intel, Hitachi, Toshiba и др.
  • Настроить репликацию кеша (зеркальный рейд). Решение предусматривает установку второго SSD, но из-за редких сбоев деньги на него мы зажали.

3) Долго чистить кеш
Поменять SSD и настроить flashcache – 5 минут. Но перед этим нужно очистить кеш – скинуть все грязные данные на диски.

В среднем у нас 30% грязных данных на SSD, максимум – 70%. Очистка кеша занимает до 4 часов.

В это время система работает медленнее, потому что обращается к медленным носителям. Мы всегда предупреждаем клиентов о падении скорости, но форсировать процесс не можем. Скорость записи на SATA HDD зависит от того, насколько интенсивно клиенты используют диск. Чем интенсивнее используют, тем больше нагрузка и медленнее скорость записи.

4) Кеш может переполниться
Часто используемые данные находятся в кеше и называются горячими. На наших серверах их примерно 13%, максимум 62%. Такого объёма достаточно для быстрого чтения/записи всех VDS на сервере. Но переполнить кеш и снизить производительность может недоверие всего одного клиента.

Допустим, клиент захочет протестировать дисковую подсистему. Запустит программу рандомной записи файлов. Если диск клиента по объёму больше кеша, все плохо. Кеш переполнится и всё скатится в низкую производительность. Пострадают все VDS на сервере.

Если вздумаете провести такой тест, не ждите актуальных результатов. Мы программно ограничиваем нарушителю количество обращений на диск, это снижает скорость.

5) Flashcache не работает на Centos 7
После обновления ядра flashcache стал несовместим с Centos 7. Так как эта версия дистрибутива стоит на 50% наших серверов, проблема острая. Сейчас Centos 7 используется с sw raid1 с SSD. На трёх кластерах мы тестируем enhanceio — другую технологию кеширования — но пока не готовы озвучить результаты.


С 2013 года доллар подорожал в 2 раза. Поэтому решение с flashcache в рублях стоит почти также, как RAID 10 SAS, а в долларах в 2 раза дешевле.

Увеличив объём хранилища в 4 раза, мы сократили цену 1 Тб. Теперь он дешевле в 4 раза в рублях и в 8 раз в долларах.

Вывод
В 2014 году мы внедрили flashcache — увеличили предоставляемое для VDS место в 4 раза, и повысили скорость взаимодействия с дисковой подсистемой. Это решение вышло дешевле предыдущего, позволило нам снизить затраты и не повышать цены на VDS.

Под вопросом осталась надёжность, всё-таки с HW RAID 10 SAS было меньше сбоев. В мае 2015 для людей, которым принципиально важна надёжность и скорость мы ввели тарифы с SSD в качестве основного носителя.