Июнь — NVMe на Storage 2.0, рецепт WireGuard и -35% на выделенные серверы с AMD Ryzen 9 3900X

Июнь пролетел с невероятной скоростью, а всё потому, что мы были заняты новыми релизами, акциями и другими проектами. Как говорится, покой нам только снится :) Об этом и других новостях читайте в свежем дайджесте.


Статьи и инструкции
Как установить WireGuard

WireGuard — популярный протокол VPN, безопасный, быстрый и простой в настройке. С помощью нового рецепта вы можете установить его на свой сервер буквально в пару кликов. Более подробно об установке и настройке WireGuard рассказываем в новой инструкции.
firstvds.ru/technology/ustanovka-i-nastroyka-wireguard-vpn-na-virtualnom-servere
Установка и настройка WireGuard (VPN) на виртуальном сервере

Habr: самое интересное за июнь
Что общего у кактовикских цифр, трёхраздельного шифра, лунных морей и российского микрокомпьютера Repki Pi? На первый взгляд, кажется, что ничего. Но на самом деле все эти темы упоминаются в нашем блоге! Присоединяйтесь к нам на Хабре и узнавайте что-то новое каждый день.

Реальность виртуальная, пациент настоящий: как видеоигры лечат людей
Будущее наступило, и видеоигры теперь это не только развлечение, но и отличное средство для обучения медицине, помощи больным и мотивации к здоровому образу жизни. В новой статье на VC рассказываем, как именно врачи могут использовать игры и каких результатов им уже удалось добиться.
vc.ru/future/726545-realnost-virtualnaya-pacient-nastoyashchiy-kak-videoigry-lechat-lyudey

Новости
А теперь к новостям июня.


VDS Storage 2.0 теперь ещё и с NVMe до 5000 Гб
NVMe-накопители теперь и на VDS Storage 2.0!
Решили обновить тариф VDS Storage 2.0 и добавили возможность заказа с NVMe-накопителем до 5000 Гб — с резервированием данных или без. Базовая стоимость без резервирования данных — 1249 ₽/мес, а вместе с ним — 1 549 ₽/мес. Кроме того, мы изменили шаг увеличения хранилища со 100 Гб на 50 Гб для всех типов накопителей. Если ещё не тестили этот тариф, возможно, сейчас тот самый момент.
firstvds.ru/storage-vds

Снизили цены на SSL-сертификаты GlobalSign до 19 июля
В мае мы запустили акцию с большими скидками на SSL-сертификаты, но решили не останавливаться на этом и пошли дальше — снизили цены на сертификаты GlobalSign в 3, 5 и 7 раз! Воспользоваться предложением можно только до 19 июля, поэтому не откладывайте.
firstvds.ru/services/ssl_certificate


Выгодная цена или мощный сервер? Забирайте всё и сразу!
Зачем выбирать, если можно перейти на сайт FirstDEDIC и получить любую конфигурацию на базе AMD Ryzen 9 3900X (3,8-4,6 ГГц, 12 ядер) со скидкой 35%? Главное, успеть до 10 июля, пока акция ещё в силе. Подробные условия можно узнать тут.
1dedic.ru

У FirstDEDIC появились новые диски и накопители
Хорошие новости для тех, кому не хватает места на выделенном сервере. Теперь для конфигураций на базе Intel Core и AMD Ryzen доступны NVMe-накопители на 4 000 Гб, а для серверов на базе AMD Epyc, Intel Scalable, Xeon E или Xeon E3 можно выбрать NVMe-накопитель объёмом 16 000 Гб. Также для всех конфигураций появились HDD-накопители по 18 000 Гб.
1dedic.ru

Релизы и уязвимости
Релиз Debian 12.0 «Bookworm»

Спустя почти два года разработки состоялся релиз Debian 12.0 «Bookworm». Среди ключевых изменений: ядро Linux обновлено до версии 6.1, также обновлены systemd 252, Apt 2.6 и Glibc 2.36, пользовательские и серверные приложения, средства разработки. В состав официальных установочных образов, помимо свободных прошивок из репозитория main, включены и проприетарные прошивки, также добавлен новый репозиторий non-free-firmware.
www.opennet.ru/opennews/art.shtml?num=59273

Релиз ядра Linux 6.4
Вышла новая версия ядра Linux 6.4, содержащая более 16 тысяч исправлений. Одним из ключевых обновлений стала поддержка Intel LAM (Liniar Address Masking), которая обеспечивает более эффективное использование ресурсов. По части файловых систем произведены небольшие улучшения в драйвере NTFS3, а также увеличение производительности EXT4 и BTRFS. Также продолжается улучшение поддержки языка программирования Rust.
www.opennet.ru/opennews/art.shtml?num=59344

Критическая уязвимость в WordPress-плагине WooCommerce Stripe Gateway
В популярном плагине WordPress для e-commerce сайтов WooCommerce Stripe Gateway обнаружена уязвимость, позволяющая неавторизованным пользователям просматривать данные со страниц оформления заказов, включая личную информацию покупателей. Проблема связана с небезопасной обработкой объектов заказов и отсутствием адекватного механизма контроля доступа в функциях javascript_params и payment_fields. Уязвимость устранена в версии 7.4.1, разработчики рекомендуют обновиться как можно скорее.
xakep.ru/2023/06/16/woocommerce-stripe-gateway-bug/

Июньский пакет обновлений от Microsoft
Microsoft представила июньский пакет обновлений, в рамках которого исправила 78 уязвимостей, включая 38 уязвимостей, допускающих удаленное выполнение кода. Также компания выпустила множество обновлений Microsoft Office и устранила проблемы, позволяющие использовать вредоносные документы Excel и OneNote для удаленного выполнения кода.
xakep.ru/2023/06/15/june-2023-patches/

Ежемесячный информационный бюллетень Leaseweb | июнь 2023



Температура становится жарче, а значит и наша летняя распродажа! С 1 июля вы не захотите пропустить эти скидки на выделенные серверы во всех наших регионах, включая Австралию (мы здесь, чтобы согреть ваши кошельки этой зимой).

Зарегистрируйтесь для получения обновлений по ссылке ниже или зайдите по ссылке, чтобы узнать о скидках после 1 июля.
www.leaseweb.com/summer-sale-2023

Скидка 15% на VPS
Отдельные пакеты VPS теперь доступны по сниженной цене на 15 % по сравнению с предыдущими ценами. Это также доступно для существующих клиентов Leaseweb, которые хотели бы продлить свой контракт VPS. Перейдите по ссылке, чтобы получить свой VPS прямо сейчас!
www.leaseweb.com/cloud/virtual-server

Скидка на широкополосный доступ в APAC скоро закончится
Последний шанс получить скидку 20% на пакеты с высокой пропускной способностью в Азиатско-Тихоокеанском регионе! Распродажи заканчиваются 30 июня, поэтому перейдите по ссылке ниже, чтобы ознакомиться с нашими предложениями. Доступно в Гонконге, Японии, Сингапуре и Австралии.
www.leaseweb.com/dedicated-servers/high-bandwidth-server

Cloud Connect теперь доступен в Канаде
Мы официально запустили Leaseweb Cloud Connect в Канаде, чтобы вы могли быстро и безопасно подключать свои облачные среды. Мы обеспечиваем максимальную эффективность, безопасные соединения и прозрачное ценообразование. Перейдите по ссылке ниже, чтобы узнать больше.
www.leaseweb.com/network-services/cloud-connect

Новый метод развертывания брандмауэров и балансировщиков нагрузки
Мы обновили нашу стандартную поставку брандмауэров и балансировщиков нагрузки, чтобы предоставить вам возможности общей инфраструктуры. Испытайте молниеносное развертывание, повышенную масштабируемость и качественную производительность по доступной цене.
blog.leaseweb.com/2023/06/20/introducing-new-firewalls-load-balancers-deployment/

Быть ​​частью экосистемы Synfonium



После POC (нового) Qwant и ваших отзывов, с Миро, моим братом, и Caisse des Dépôts, мы решили завершить создание Synfonium, который теперь будет покупать 100% Qwant и 100% fe Shadow. Synfonium на 75% принадлежит Jezby Venture & Deep Code и на 25% — CDC. Закрытие состоится этим летом.

В начале учебного года мы вернемся к стратегическим деталям того, что мы собираемся построить для вас, а также к тому, как мы хотим интегрировать всю технологическую экосистему ЕС в приключение. Вы найдете поисковую систему, бесплатные услуги, пакет для совместной работы, вход через социальные сети, а также услуги наших технических партнеров.

Одна из ролей Synfonium — создать критическую массу пользователей и клиентов B2C и B2B, которые смогут использовать все эти бесплатные и платные услуги. Сегодня технологические компании SaaS работают в своем собственном уголке. Завтра мы хотим создать эту платформу совместно с экосистемой, чтобы сделать все эти европейские технологии видимыми и найти пользователей, а затем и клиентов.

Путь долгий, сложный и дорогой, но есть реальные ожидания, что эта платформа будет в Cloud SaaS EU, которая уважает наши ценности и наши европейские законы. Я не знаю, удастся ли нам все это или часть, или вообще ничего, но вместо того, чтобы сказать, что это невозможно, что это заранее потеряно, что у нас недостаточно средств, мы, мы постараемся.

Я рассчитываю на то, что вы поможете нам построить эту платформу как технический партнер, как пользователь и, почему бы и нет, как клиент. «Быть ​​частью экосистемы Synfonium» — вот как мы будем измерять успех проекта.

Обновление биллинг панели systemintegra



Уважаемые клиенты.
В ближайшее время мы произведём обновление нашей биллинговой системы.
Доступ к заказам услуг и тикет-система будут недоступны (ожидаемый даунтайм до 20 минут).
Мониторинг серверов и сайтов клиентов с постоянным обслуживанием будет работать без каких-либо остановок.

Надеемся на ваше монимание.
C Уважением, команда systemintegra.

Summer Deals




  • Ryzen 7 3800X [8c/16t] (4,5GHz) / 64 озу ddr4 / 2x 960 NVMe / Anti-DDoS-GAME — 13440 7000р
  • Ryzen 7 3800X [8c/16t] (4,5GHz) / 128 озу ddr4 / 2x 960 NVMe / Anti-DDoS-GAME — 15120 9800р
  • Epyc 7371 [16c/32t] (3.8GHz) / 128 озу ddr4 / 2x 960 NVMe — 13720р
  • Epyc 7371 [16c/32t] (3.8GHz) / 256 озу ddr4 / 2x 960 NVMe — 19320р
  • Epyc 7371 [16c/32t] (3.8GHz) / 512 озу ddr4 / 2x 960 NVMe — 30380р
  • Epyc 7351p [16c/32t] (2,4 GHz) / 256 DDR4 ECC 2400MHz / 2x 4 ТБ HDD SATA SoftRaid — 12300р
  • Epyc 7351p [16c/32t] (2,4 GHz) / 256 DDR4 ECC 2400MHz / 2x 512 NVMe SoftRaid — 12300р
  • Epyc 7351p [16c/32t] (2,4 GHz) / 128 DDR4 ECC 2400MHz / 2x 4 ТБ HDD SATA SoftRaid — 9000р
  • Epyc 7351p [16c/32t] (2,4 GHz) / 128 DDR4 ECC 2400MHz / 2x 512 NVMe SoftRaid — 9000р
bill.ovh/billmgr

Вечные VM OVH
  • Ryzen 7 3800X [16 vCore] / 8 ddr4 / 100 NVME — 30000р/разово
  • Ryzen 7 3800X [16 vCore] / 16 ddr4 / 200 NVME — 50000р/разово
  • Ryzen 7 3800X [16 vCore] / 32 ddr4 / 400 NVME — 100000р/разово
для заказа вечной, написать тикет тут asuka.onl/billmgr

Приглашаем на аукцион! Выделенные серверы от 2800 ₽



Приглашаем заглянуть на страницу аукциона, мы добавили новые лоты! Собрали сразу несколько конфигураций на базе Intel Xeon E5, E3 и Core i7.

Стоимость конфигураций от 2800 рублей в месяц и от 30 240 рублей в год. Цена сохранится на весь срок аренды сервера, а при заказе на 3, 6 или 12 месяцев прибавится ещё и скидка за период.



Важно: количество серверов и время их размещения на аукционе — ограничены. Успевайте сделать заказ, пока нужная конфигурация есть в наличии.

https://firstdedic.ru

Проверьте свой сервер перед летним отпуском



Лето — самое лучшее время, чтобы отдохнуть и зарядиться энергией к предстоящему рабочему сезону. Но прежде чем отправиться в заслуженный отпуск, не забудьте проверить свой сервер. Вот несколько шагов, благодаря которым во время отдыха вас ничто не будет тревожить.

Пополните баланс
Убедитесь, что на вашем счету достаточно средств. При необходимости пополните баланс с запасом или подключите автоплатёж — тогда счёт будет пополняться автоматически, если на нем недостаточно денег для продления услуг.

Обновите ПО
Проверьте программные решения, которые используются на сервере, на уязвимости и при необходимости обновите.

Настройте бэкапы
Проверьте, что все важные данные регулярно резервируются и сохраняются в надёжном месте. Убедитесь, что резервное копирование выполняется корректно.

Проверьте доступ к серверу
Обратите внимание на настройки безопасности и параметры доступа к серверу, которые могут потребоваться во время вашего отсутствия.

Рекомендуем выполнить все необходимые проверки заранее, чтобы не беспокоиться об этом во время отпуска. Если у вас возникнут вопросы или потребуется помощь — наши специалисты всегда на связи и готовы помочь.
my.firstvds.ru/billmgr

Изменения уровня бесплатного пользования AWS SES

1 августа 2023 г. изменится уровень бесплатного пользования Amazon Simple Email Service (SES). Мы добавляем дополнительные функции на уровень бесплатного пользования SES: теперь он включает в себя больше источников исходящих сообщений электронной почты, новый Virtual Deliverability Manager от SES и более высокий лимит на получение входящих сообщений. Мы также снижаем лимит уровня бесплатного пользования для исходящих сообщений и сокращаем продолжительность уровня бесплатного пользования SES до 12 месяцев.

Это может повлиять на ваш счет, начиная с августа 2023 года. Поскольку вы уже используете SES, вы сможете пользоваться пересмотренным уровнем бесплатного пользования еще 12 месяцев (до августа 2024 года). С учетом вашего использования SES в мае 2023 года это изменение не повлияло бы на ваш счет за SES.
Обратите внимание, что это оценка, основанная на вашем использовании, и фактическое влияние на выставление счетов может варьироваться в зависимости от ваших моделей использования каждый месяц и любых скидок, которые у вас могут быть.

Пересмотренный уровень бесплатного пользования SES предлагает вам больше гибкости. Ранее уровень бесплатного пользования SES включал до 1000 входящих сообщений электронной почты в месяц и до 62 000 исходящих сообщений в месяц при отправке из вычислительных сервисов AWS, таких как Amazon EC2. Пересмотренный уровень бесплатного пользования включает до 3000 сообщений в месяц. Вы можете получать входящие сообщения, отправлять исходящие сообщения, отправленные откуда угодно (не только из вычислительных сервисов AWS), или попробовать Virtual Deliverability Manager, который дает вам простой доступ к подробным метрикам для изучения и отслеживания показателей доставки электронной почты и вовлеченности. Для новых клиентов SES пересмотренный уровень бесплатного пользования доступен в течение 12 месяцев после начала использования SES; для существующих клиентов SES пересмотренный уровень бесплатного пользования доступен в течение 12 месяцев, начиная с 1 августа 2023 г.

Пересмотренный уровень бесплатного пользования SES вступит в силу 1 августа 2023 г., и ваши учетные записи будут зарегистрированы автоматически. В рамках этого изменения вы увидите, что метка, которую вы видите в своем счете SES для единицы ценообразования для входящих сообщений, изменится с «Сообщение» на «Количество» — это соответствует тому же способу, которым мы обозначаем исходящие сообщения. Мы не можем предложить возможность остаться на предыдущей модели бесплатного уровня SES».

Венгрия - новая локация в is*hosting!



Страна, известная национальной кухней и интересными изобретениями, пополнила список локаций is*hosting. Узнайте Венгрию с новыми VPS DELL R640 на NVMe дисках!

Дата-центр ATW Dataland 1 находится в Будапеште и отвечает современным требованиям надежности. В дата-центре кондиционирование воздуха зарезервировано по схеме N+1, доступность электрической сети находится на уровне 99,99%, система электроснабжения имеет резервный генератор, а сетевые устройства работают на базе оборудования Cisco.

Наш партнер ATW имеет опыт уже более 15 лет и понимает важность обеспечения дата-центра необходимыми системами безопасности, включая автоматическую пожарную сигнализацию и обнаружение дыма, систему поддержки оптимальной температуры (22°C ± 2°C) и круглосуточный мониторинг.
is*hosting — надежный провайдер для развития бизнеса. Попробуйте VPS в Венгрии уже сейчас!
Мы объявляем бонусы в честь открытия новой локации!

Получите 3 дополнительных месяца в подарок после оплаты, воспользовавшись кодом HUNOW, или 6 бонусных месяцев при оплате за год!
Код будет действовать до 3 июля.
cp.inferno.name/cart.php?gid=82

Отвечаю на вопросы после аварии



Мы шутили про эти телефоны, а они пригодились на прошлых выходных. Точнее, пригодилось резервирование телефонии. Не конкретно эти, но похожие)

Вот тут пост про нашу аварию на прошлых выходных. Там всё было по горячим следам, потом я обещал подробнее ответить на вопросы. Отвечаю. Самое главное, пожалуй, что бы я хотел донести, — в комментариях к первому посту было очень много советов, что можно сделать, чтобы избежать такой же аварии. Но большинство из этого мы делать не будем. Потому что это ошибка выжившего: защищаться надо от вероятных рисков, а не от крайне маловероятных, где совпадает сразу пять факторов. Точнее, можно и от них, но есть критерий экономической обоснованности.

Но давайте обо всём по порядку.

Сколько клиентов пострадало?
На три часа и более в одном ЦОДе отключилось 7–10 % из 14 наших, то есть менее 0,5 % от общего числа клиентов хостинга (точнее, хостов). Тем не менее мы очень подробно рассказываем про эту аварию, потому что она вызвала очень много вопросов.

Почему вы занимаетесь ЦОДом, а не встаёте в готовый?
«Прекрасная история, спасибо! Совет автору: ищите компанию, которая занимается ЦОДами давно и профессионально, ну а вам — переориентироваться на продажу сервисов/мощностей в этих ЦОДах...»
Сейчас по миру у нас 14 ЦОДов, где можно разместиться. Один из них, первый в Москве, с которого всё начиналось, — наш. Именно в нём произошла эта авария, и именно поэтому я так подробно всё рассказываю. Естественно, было бы логично уже давно сосредоточиться только на VDS-хостинге, как мы делаем везде по миру, но это наш базовый ЦОД, он для нас дорог. В смысле пока всё же экономически обоснованнее держать его. Плюс у нас на площадке есть аттестация ФСТЭК, что позволяет строить защищённые сегменты. Ну и охрана у него впечатляющая, про это — ниже.

Вообще тут вопрос намного более сложный. RuCloud Королёв — это наш первый ЦОД. Мы его создали сразу после истории с «Караваном», когда «Караван» ушёл в небо. Напомню, что они при срочной необходимости переехать не смогли забрать с собой энергетику и много других вещей, и это стоило им бизнеса. Полностью. Теперь — про экономику ЦОДа: если вы строите свой, то с масштабом снижается доля постоянных издержек. То есть с экономической точки зрения надо строить ЦОД как можно большего размера. А вот с точки зрения ведения ИТ-бизнеса в России — как можно меньшего, потому что, если есть выбор между одним ЦОДом и двумя-тремя, второе намного надёжнее. Но каждый инстанс получается дороже. В итоге мы построили свой ЦОД, подняли в нём аттестованный ФСТЭК сегмент (это своё помещение, защита от прослушивания, защита от лазерного считывания вибраций, сертифицированное оборудование, сертифицированное ПО, аудиты) — такого на общих площадках в принципе не сделать, а некоторым клиентам это важно. В смысле по рекламным проспектам может создаться впечатление, что можно, но нет. Равно как и с PCI DSS в Европе чаще всего — так же. Опять же свои админы, свои правила. Но тут — как с 3F: лучше всё же арендовать.

Соответственно, дальше мы раскладывали яйца по разным корзинам. Сейчас их 14. К концу недели будет 15. Можно выбрать любую.

То есть надо читать блог, чтобы понимать некоторые незадокументированные особенности ЦОДов?
Да. Мы же не можем прямо на сайте явно написать про ЦОД в Амстердаме, что там в стране легальны порнография и варез, и поэтому там можно выкладывать свежий фильм Михалкова без юридических проблем. Точно так же мы не можем рассказать про все особенности других ЦОДов. По большому счёту они сводятся к тому, что «по беспределу не заберут сервер», к особенностям охраны, питания, законодательства страны и так далее. Корпоративных клиентов мы консультируем на переговорах, если надо.

Сразу скажу, что даже Tier-IV никак не защищает от аварии. У нас был пример, когда 10 часов не было Интернета в Швейцарии. Они каждые 15 минут писали, что сейчас всё будет, кстати. Молодцы! Хороший статус-апдейт.

Вкратце вот: в ZUR1 (Цюрих) — 2N по питанию и N+1 охлаждения, внутренний стандарт SLA — 99,999 % (это выше, чем в Tier IV по UI). Во Франкфурте (это наш второй Tier IV UI) — N+1, два городских ввода от разных станций. EQUINIX LD8 гарантирует SLA TIER III (99,98 % — те самые 105 минут простоя в год). Питание и охлаждение — N+1, но они очень сильно заморочились на резервирование Интернета, аплинки с нескольких магистралей. Linxdatacenter — питание N+1. Екатеринбург — N+1. AMS9 — N+1. Останкино — четыре независимых ввода, прямое подключение к ТЭЦ-21, N+N.

А вот что мы реальном можем сделать — это написать SLA в каком-то виде на каждом из ЦОДов при выборе места для создания VDS. Это мы сейчас обдумываем, потому что SLA надо считать и фактический, и какой-то ещё прогнозный.

Уложились ли вы в свой SLA?
«Было бы очень интересно послушать про SLA и про то, как оно сейчас реализуется в текущей действительности...»
У нас по этому ЦОДу SLA — с 99,98-процентной доступностью, это 1 час 45 минут возможного простоя в год. Сразу скажу: это только в рекламе, а в документах это никак не регламентировано. Но мы всё равно выплачиваем компенсации.

Напомню, что в этом ЦОДе были клиенты с простоем больше трёх часов (77 % пострадавших), около 10 % — с простоем около 12 часов, и около 1 % — с простоем больше. Естественно, мы сразу же обещали компенсации всем тем, кто попал под этот инцидент. Надо понимать, что речь идёт про оговорённые договором компенсации, то есть если там была трейдерская машина, которая должна была что-то выкупить в нужный момент и клиент от этого потерял или недополучил какую-то сумму, — простите, но по договору мы компенсируем время простоя сервера, а не недополученную прибыль в результате работы ПО. Для критичных случаев как раз используется георезервирование, и именно поэтому нас выбирают: среди российских VDS-провайдеров у нас наиболее широкая география.

Сейчас, возможно, мы ещё выдохнем и будем менять договоры в сторону более явного прописывания SLA. Если бы мы делали это заранее, то ЦОД в Королёве имел бы 99,96 % или 99,9 %, а не 99,98 %. Для примера: фактический аптайм 100 % с 1991 года есть в Останкино.

Собственно, поэтому Королёв и дешевле других ЦОДов по колокации. Мы продаём колокацию во всех точках нашего присутствия, но об этом мало кто знает. У нас много места везде, кроме М9.

Почему ИБП хватает только на одно переключение дизеля?
«Тут много всяких «полезных» решений насоветовали в комментариях, разумеется. Вроде стресс-проверок отключением электроэнергии каждую ночь и покупки ИБП с акумом на сутки работы. Лол».
Похоже, про ИБП всё же надо объяснить. На текущий момент общемировая практика — держать их из расчёта одного набора свинцовых батарей на юнит, что обеспечивает несколько минут работы. За эти несколько минут нужно сделать переключение питания, то есть завести дизель. Заряда хватает обычно и на второе переключение с дизеля на городской ввод. Батареи заряжаются около 9–12 часов минимум. В случае если отключений питания несколько, то с каждым новым разрядом вырастают шансы, что они отключатся вместе с частью стоек. Почему так? Потому что бесконечно копить батареи обычно не имеет смысла. Уже начиная с полуторного запаса начинаются сложности с их размещением (они травят водород, то есть нуждаются в своей вентиляции, им нужен свой климат-контроль, они очень тяжёлые, то есть давят на перекрытия). В ЦОДах высокой ответственности вместо свинцовых батарей используются ДДИБП — огромные волчки, вращающиеся в гелии или вакууме, которые крутят вал генератора. У нас такого в этом ЦОДе, естественно, не было. Если бы было — размещение было бы куда дороже, и логичнее было бы дублировать ЦОД целиком. Что, собственно, у нас сделано 14 раз.

Почему охрана не пускала админов в девять утра в субботу?
Потому что одна из главных фичей Королёва — это та самая охрана режимного объекта, которая не стесняется посылать на три буквы всех, кого нет в списках. То есть они как-то умудрились даже [данные удалены] лицом в пол [данные удалены] приехавших нас аттестовать [данные удалены]. Потому что они размахивали какими-то корочками и хамили.

В Останкино у нас, например, охрана — отдельным батальоном Росгвардии. Поверьте, туда не приедет никакой ретивый сотрудник МВД с документами на следственные действия по виртуальному серверу вынимать физический. А это известный российский риск: если рядом с вами стоят странные персонажи (а на любом крупном VDS-хостинге всегда есть доля таких клиентов, и я про это писал), то может приехать сотрудник и попытаться выдернуть сервер. А железо — оно не такое, что вот на этом сервере добрые, а на этом — злые. Оно общее. Мы по опыту коллег знаем, что самый быстрый возврат сервера по звонку начальника: «Ты что там такое творишь? Верни железку обратно!» — занимает пять часов даунтайма. Спасибо, такого не надо ни нам, ни нашим клиентам.

Поэтому охрана действовала ровно в рамках своих полномочий. Мы находимся на территории стратегического производства. С началом кое-каких событий тут очень поднялся уровень паранойи. Героев, желающих проскочить, потому что внутри что-то срочное, хоть отбавляй. Охрана — в нашем случае внешний периметр Росгвардии — пускает тех, кто есть в списке, и не пускает остальных. Аварийной команды в списке не было, им нужно было получить соответствующий приказ. В лица они нас знают прекрасно, но нет — правила есть правила! Как я уже говорил, они очень юзерфрендли, почти как UNIX. То, что нам надо обсудить, как пускать своих людей во время аварий, — это отдельный вопрос, его сейчас прорабатываем. Возможно, будем страховаться и выписывать дополнительные разовые пропуска каждую смену. Собственно, вы сейчас будете смеяться, но мы так и делали, просто не на всех, а на одного человека дополнительно на всякий случай, и как раз он смог приехать уже к концу инцидента.

Почему патрубок дизеля лопнул? Вы что, его не обслуживали?
Дизель обслуживается каждые полгода. В этот раз срок был даже меньше, потому что зимой мы стояли на дизелях сутки во время прошлого отключения питания от города. Каждый месяц мы проверяем дизели и топливо, но не под боевой нагрузкой из нашего машзала, а под синтетической.

Обычная практика ЦОДов нашего размера — резерв из N+1 дизелей. У нас был 2N, нужен 2N+1.

Как вы видите выше, даже Tier-IV ЦОДы не считают критичным подниматься до 2N+1.

Почему дизель чинили админы?
Потому что не было выбора: дизелист был снаружи. Естественно, админы не должны были этого делать, естественно, большое спасибо, что получилось. Админы — однозначно герои этой истории!

Почему на территории нет моториста постоянно?
Потому что при дублировании вторым вводом из города, дизелем, 2N дизелем и ИБП шанс, что понадобится моторист, исчезающе мал. Для предотвращения маловероятных рисков проще дублировать ЦОД, что, повторюсь, у нас и сделано 14 раз. Вообще каждый раз, когда встаёт вопрос повышения на 0,5 % шанса в случае аварии или при открытии новой площадки начиная с какого-то экономического порога лучше выбирать геораспределённость. Это же ответ про то, готовы ли мы запуститься после пожара топлива: нет, не готовы, мы потушимся штатно, но не перезапустим дизели в разумный срок. А вот что реально стоит пересмотреть — это режим работы вентиляции, нужны отдельные решения под неё.

Теперь — самое интересное. На каждые плановые работы или начало каждой аварии мы тут же зовём профессионалов с дизелем, который арендуем. То есть когда планируются работы на подстанции, у нас резерв 3N по дизелям (наши плюс привезённый мобильный) и мотористы в дежурстве. В данном случае ещё один дизель на 0,5 МВт и команда обслуживания прибыли и смогли попасть на территорию уже после включения луча из города.

Почему админы вручную включали оборудование?
«И «Админы бегали между стойками» — даже после отключения питания машины должны сами подниматься».
Как раз машины не должны сами подниматься. История знает слишком много ситуаций, когда несколько циклов включения-выключения по питанию разваливают рейды и ломается железо. У нас настроено так, что после нештатного отключения питания часть оборудования надо включать вручную осознанно. В обычное время, когда не надо зажимать руками патрубок дизеля, это очень хорошая практика. И нет, мы не собираемся менять её несмотря на произошедшую ситуацию. Это как с ремнём в машине: есть незначительный процент аварий, когда пристёгнутый ремень хуже, чем непристёгнутый. Но статистически верно пристёгиваться, если задача — выжить.

Были ли потери данных?
Нет, рейды не сыпались. Если не считать нештатных перезагрузок и потерь того, что было в оперативной памяти, всё остальное более-менее нормально (насколько мы знаем).

Почему вы не сделали всё, чтобы предотвратить аварию?
На самом деле мы сделали всё, что казалось вероятным и при этом укладывалось в экономическое обоснование. По каждому риску вы делаете следующее: оцениваете его вероятность, а также ущерб от него и решаете, сколько вы готовы потратить на предотвращение. И, соответственно, оцениваете, насколько его можно предотвратить за этот бюджет. Исходя из этой модели очень хорошо закрываются наиболее вероятные риски и куда хуже — маловероятные. К нашествию пришельцев, высаживающихся в ЦОД, мы не готовы. Эта ситуация с цепочкой из пяти совпадений подряд — на самом деле тот же класс риска.

Как я уже говорил, мы исходили из двух неверных допущений в оценке рисков: что резервировать дизели надо по 2N, а не 2N+1 (уже исправили), и что DDoS-защита (за которой был мониторинг серверов) не нуждается в кластере коммутаторов, если есть один надёжный онлайн и один точно такой же в шкафу через 20 метров от стойки. Ну и главный косяк — мониторинг должен быть геораспределён, это мы знали, но не успели сделать.

От каких рисков вы защитились тогда, например?
Мы прекрасно отработали несколько прошлых рисков: и санкционные отключения оплат, и отзыв лицензии у банка с платёжным шлюзом, и крупные атаки прошлого года. У нас нет желания экономить на рисках, но у всего есть разумные пределы.

Например, мы очень долго занимались сетевыми драйверами и писали свои, а затем сертифицировали их в Microsoft (ну с последней версией уже не выйдет, а вот предыдущие сертифицированы и лежат в каталоге ПО гипервизора).

После общения с другими хостинг-провайдерами могу сказать, что ситуация с сетью у нас очень хорошая. Именно в Королёве у нас огромная плотность вычислительных машин — это из-за 30-рублёвых промотарифов. И у нас там порядок в сети. При последней большой DNS-атаке, затронувшей всю страну (привет, домены Битрикса!), пострадали, кажется, вообще все наши знакомые. У нас же только два человека хоть как-то пострадали среди всех клиентов. Два человека, Карл! Мне кажется, что это лучший показатель порядка в сети.

Мы предотвратили очень много инцидентов, направленных не в наш карман, а в сторону клиента, благодаря правильным ACL, драйверам и т. п. У этого есть оборотная сторона: в субботу не могли быстро включить коммутатор на замене вместо выгоревшего. Теперь продумаем и это, скорее всего, построим кластер.

В целом по этой аварии вопрос такой: «Действовал бы я точно так же, если бы мог вернуться в прошлое?» Ответ: «Скорее всего, да». Без проклятия знания все действия ДО были рациональными.

Почему вы пишете про такие вещи?
«Вот за такие триллеры вам можно простить горы проходного шлака, который обычно публикуется в этом блоге. Побольше бы таких историй! ;)»
Мы открыто рассказываем про все ситуации, которые влияют на хостинг. Да, мы прекрасно понимаем, что в России так не принято. Да, мы прекрасно понимаем, что из-за этого открывается много приподзакрытых глаз, не знающих, как всё изнутри. Да, мы понимаем, что другие хостинги, утаивающие детали про то, что у них происходило и происходит, до какого-то момента надёжнее смотрятся со стороны. Тем не менее моё осознанное решение как владельца компании — долговременная репутация. Если уж мы лажаем, то рассказываем об ошибке. Мы тут не на пару дней и вроде до этого момента более-менее успешно избегали серьёзных косяков.

«Захватывающая статья! Очень импонирует то, что вы открыто говорите о своих косяках. Думаю, что даже у недовольных отключением пользователей её прочтение повысит доверие к вам».

Если быть честными, то скорее наоборот. Это вот вторая публикация про менее чем 0,5 % клиентов хостинга, но при этом выглядящая так, как будто всё произошло по всему гриду. Но я очень надеюсь на то, что наши клиенты — всё же рациональные люди.

Как себя чувствуют админы?
С моей точки зрения, они герои той ночи! Но, тем не менее, они довольно сильно подавлены, потому что успели прочитать комментарии и чаты. Каждый раз возникает ощущение, что ты что-то недоработал, и при любой аварии ответственный человек начинает корить себя. Наши админы как раз очень ответственные, и ЦОД — их детище во многом. Естественно, они расстроены. Более того, мы с командой очень долго обсуждали, нужно ли публиковать материал про эту аварию второй раз: это ведь ещё один удар по ним фактически. Представьте себя сейчас на их месте: ощущение будет не из приятных. Полагаю, что девопсы и админы, которые знают, что у них в инфраструктуре что-то ещё неидеально (а это постоянное чувство, и оно сохраняется годами), это поймут.

ruvds.com