Рейтинг
0.00

H3LLO CLOUD

1 читатель, 30 топиков

Чисто русский переезд в другой дата-центр




У нас на неделе был эпический переезд из Ростелекома в IXcellerate. Кажется, мы обязаны про это рассказать.

Потому что случился просто весь сок того, как работает отечественный рынок:
  • Те, кто ждал подъёма своего облака всё это время — вы ждали СДЭКа, который вёз два патч-корда «день в день».
  • У нас глючили сетевые железки, и мы не знали, в чём дело. Две недели поиска бага закончились тем, что мы перевезли их в другой дата-центр, и там глюк прошёл полностью.
  • Нельзя зайти в ЦОД Ростелекома 21 человеку, потому что 1 человек оформляется охраной 5 минут с записями в бумажный журнал, а через час они просят пересоздать заявку.
  • Если у вас в команде есть белорусы и казах, то их будут проверять 3 дня, прежде чем пустить на стратегический объект, потому что таков SLA безопасников по обмену данными. Но если у вас есть сириец, его пустят сразу (вероятно, потому что обмен данными не налажен).
  • И да, после переезда мы наконец-то обновили бесплатные лимиты, теперь даже не надо пополнять счёт, чтобы их получить.


Бета облака
Мы строим последнее коммерческое облако в России. Есть масштабная бета, в бете много халявных ресурсов, но надо помнить, что, несмотря на 5 автономных зон, геораспределённое хранилище, другие плюшки, в любой момент всё может пойти по звезде. Потому что мы решили поправить какой-то баг на проде (на самом деле нет).

Нашу бету уже ломали коллеги (спасибо большое), ломали тестеры (спасибо большое), нам показывали на проблемы с UI, была куча пожеланий — в общем, постоянно идут работы.

В целом всё началось с желания запуститься как можно быстрее. Поэтому мы развернули нашу бету на самом оптимальном стеке. Демоинсталляция с халявными ресурсами живёт всё ещё не на той же архитектуре, что прод. В ней ещё торчали куски Козистека — уже кубероцентричного, красивого и новомодного, блестящего такого, но с прослойкой для своего, пока ещё сырого API и без физического разделения сетей. Ну и заодно оказалось, что это решение тоже не очень нормально работает. Мы постепенно избавлялись от него итерация за итерацией, но его наследие продолжало нас преследовать.

Параллельно у нас существовало две другие реальности. Первая — это наша основная ветка разработки, где мы строили правильную архитектуру для будущего продакшена. Вторая, и самая продвинутая, — ветка для одного крупного телеком-оператора, которому мы делаем white-label облако. Поскольку там мы разворачивали всё с нуля на их кластере, то многие архитектурные проблемы уже были решены, и эта ветка по своей проработанности ушла далеко вперёд.

Массово посыпались проблемы на бете
То на ровном месте начинали флапать внутренние BGP-сессии с хостов до ToR-коммутаторов. То внезапно отваливалась наша гиперконвергентная дисковая подсистема — поды начинали мигрировать, отваливаться, а хосты «затенялись» (становились tainted) и переставали принимать новые нагрузки. Всё упиралось в один маршрутизатор ядра. Производительность у него была неплохой, оверхед маленький, но стабильность исчезла.

Мы привезли новые железки, и они стали показывать примерно 40–50% от номинальной производительности по пропускаемому трафику. Представьте: у вас 25-гигабитный линк, а он выкачивает от силы треть.

Почему? Расследование в моменте, когда всё вокруг горит, не дало результатов, но копались мы пару недель. В итоге подъехали 100-гигабитные карточки и мы решили не тратить время и просто пересобрать всё на них.

Дальше можно было долго и упорно ловить баги, чинить разваливающуюся сеть и пытаться понять, почему железо не работает. А можно было признать очевидное — архитектура, созданная для демо, исчерпала себя.

И мы решили убить двух зайцев: перевезти бету на новую, правильную архитектуру, которая уже была готова в той самой продвинутой ветке для не-скажу-какого-оператора, и заодно сменить гео.

Как потом оказалось, на новом месте железки заработали, и от шутки про то, что «я же тебе говорил, место проклятое!», мы удержаться не смогли.

Как переезжать? Был вариант с плавным переносом серверов, частичными переездами, попыткой обеспечить совместимость двух несовместимых кластеров. Это долго, мучительно и чревато новыми, ещё более изощрёнными проблемами.

Если вы любите приключения, рекомендую такой путь.

Но поскольку это бета, а в бете, как известно betta than nothing, мы выбрали путь Безумного Макса и Дороги ярости. Полностью всё вырубить, физически перевезти и собрать с нуля в новом стеке и новом ЦОДе. Да, это означало простой около 2 дней для пользователей беты (как нам казалось вначале). Но так было быстрее и, как оказалось, веселее.

Мы объявили, что берём тайм-аут, и дальше затеяли масштабный тимбилдинг: почти весь офис, включая фаундеров, отправился в Ростелеком паковать серверы.


Место проклятое!
Шаг 1: подаём заявку на проход 21 человека за сутки. Мы такие заявки (правда, на меньшее количество людей) подавали полтора года по одной и той же форме. Перезванивают их сотрудники и говорят:
— Надо заявку переделать!
— А почему?
— Вам надо по-другому название ЦОДа написать, не Nord, а «РТК-Медведково-1», потому что Nord — это слишком прозападно.

Ладно, поменяли. Последний раз же.

Потом за пару часов до времени заезда коллеги внезапно выясняют, что у нас в штате работают белорусы и пара человек из Казахстана. Им вход блокируют.

— Я сотрудник физической безопасности, мне надо на то, чтобы проверить человека из Беларуси, три дня. У вас их тут двое. Ещё из Казахстана двое. Короче, идите на хер, пересоздайте заявку без них.

Интересно, что у нас есть сириец, который такие проверки не триггерил ни в одной заявке.

Ладно, пересоздались без них. Последний раз же.

Наученные прошлым опытом, печатаем серийники для заявки на выезд.

Дальше мы сломали их физический IAM. То есть попыткой зайти разом вся их пропускная система подвисла так нехило, больше чем на час. Потому что каждого они пропускают минут по 5. Записи в бумажный журнальчик делают, паспортные данные какие-то переписывают, забивают, хотя они все в заявке есть. Потом ещё выдают тебе на планшете ту самую инструкцию, которую никто не читает, но вместо галочки — роспись пальцем. Потом это всё в определённый момент просто зависает, ломается. А у них же ещё двое ворот на входе в ЦОД. И, понятно, чтобы не создавать очередь, часть людей уходит на другие ворота, и их логика ломается окончательно.

В итоге оказалось, что пропустить всех надо за 1 час, потому что потом слот активации пропуска заканчивается. Пять человек не попали вообще.

— Заявка закрылась, мы не можем запускать новых людей. Пересоздайте, пожалуйста, заявку на вход!

Ладно, пересоздали. Последний раз же.

Около 14 звонит газель, которая должна была всё это вывозить. Она, как это принято, внезапно ломается. Мы срочно ищем другую. Пересоздаём заявку. Последний раз же.

Дальше выезд из Ростелекома. Это ещё хуже, чем вход новых, ни разу не посещавших людей. На каждый сервак сверяется серийник. И благо, они ушли от той идеи, что мы в заявке должны указывать ещё внутренний учётный номер. Раньше было так: при ввозе они клеили наклейку с номером и в заявку надо было вбивать и его, и серийник железки. Мы с первого же раза сказали, что этой хернёй заниматься не будем, и ни разу её не вбивали. Поэтому все наши заявки проходили прекрасно по серийникам серверов.





Патч-корды — оказывается, это проблема
Заезд в IXcellerate как небо и земля. Мы приехали чуть раньше, чем грузовик, успели выпить кофе и посидеть. Заявка делается просто по списку людей, документы проверяют на входе, без всяких журнальчиков (всё электронное). Проход занял по 20 секунд на человека.

Примерно за 3 часа всё смонтировали — быстрее, чем разбирали в РТК, потому что белорусов пустили.


Но! Для того чтобы в IXcellerate связать наш meet-me-room с новой инсталляцией (она у нас идёт как отдельный контур), понадобилась парочка отдельных патч-кордов. Трассы проложены, кроссы разварены, трансиверы есть. И вот нам, значит, нужен обычный патч-корд, FC — LC-дуплекс.

Заказываем его 30-го, в среду.

На «Всех инструментах» патч-корды были, на них было написано «доставка 1 день», но при добавлении в корзину дата доставки превращалась в 5 августа.

Нашли на Nag.ru. Они такие — «сейчас привезём!» Оплачиваем супернаценку за доставку СДЭКом. Это, кстати, в два раза дороже, чем сами патч-корды, чтобы доставить день в день.

И СДЭК их морозит на хрен.


Прикол в том, что у нас собрано уже всё. Контур заведён, уже всё крутится. Связать его с ядром сети — два, два маленьких патч-корда, и их не хватает!

То есть все, кто ждали нашего облака, имейте в виду, вы ждали два патч-корда, которые мы заказали в трёх разных местах. Мы с коллегами из ЮЛ-Ком уже шутили на предмет купить аппарат для сварки этих патч-кордов и варить их самим. Оказалось, это стандарт рынка. Это боль. Оказалось, что у многих это блокер включения нового клиента. Потому что две недели ждать патч-корды! Что происходит, почему в Москве их дефицит, я не знаю.

СДЭК привёз заказ день в день через 6 дней.


Изменения в архитектуре демоинсталляции
Была архитектура, растянутая на VLAN’ах. Пять физически изолированных сетей (для управления, хранения, публичного трафика и т.д.), которые всё равно терминировались как разные VLAN на одном маршрутизаторе. Мы жили даже в продакшене с MTU 1500 (!), что создавало проблемы для оверлейных сетей и производительности. И не спрашивайте, почему мы не пробовали его увеличить — мы пробовали, но пришлось откатиться. Это мешало построить полноценную оверлейную сеть Kube-OVN и изолировать теннаты друг от друга.

Сейчас полностью перешли на микросервисную архитектуру, выпилив все рудименты. Сеть теперь построена на EVPN VXLAN с физической топологией Dragonfly+. На уровне отдельной группы стоек — Clos (Node, Leaf, Spine), между Спайнами — full-mesh. Там тоже не без сюрпризов, про то, какие грабли поймали, напишем отдельно.

Выкатили API напрямую. Здесь мы вдохновлялись подходом AWS, которые через свой IAM прокачивают до миллиарда запросов. Наш API станет точкой входа для веб-интерфейса, CLI и внешних инструментов типа Terraform’а. То, что вы просили с беты, тоже запустим. Теперь эти доработки делаются ещё быстрее. Будут VPC для объединения машин в разных зонах доступности, Managed Kubernetes, управление DNS-зонами, очереди сообщений (Kafka, RabbitMQ, NATS).



Про бесплатный доступ
Для юрлиц сделали ролевую модель доступа (RBAC) для создания и управления пользователями с разными правами. Корпораты, добро пожаловать! При регистрации юрлица сразу даём 50 тысяч бонусов на 3 месяца.

Для пользователей-физлиц обновили наши бесплатные лимиты. Теперь, чтобы их получить, не нужно пополнять счёт. Мы просто будем холдить небольшую сумму на привязанной карте на несколько дней для верификации пользователя, потом отпускать. Сделали грейды бесплатных ресурсов: если нужен будет быстрый кластер с балансировщиком и расширенной СУБД, уже после пополнения счёта он подключится в бесплатные ресурсы.

Сейчас мы завершаем финальное тестирование и готовимся выкатить все обновления в публичный доступ. Спасибо всем тестировщикам, кто был с нами, ждал и подбадривал нас бодрой руганью.

h3llo.cloud/ru

Где подвох: почему даём две виртуалки бесплатно на год




Мы даём новым пользователям облачного сервиса огромный приветственный лимит. Он настолько щедрый, что щедрее на российском рынке просто нет. Мы проверяли.

Всё совершенно бесплатно на целый год:
  • Две виртуальные машины, у которых 2vCPU и 4 Гигабайта DDR5 у каждой.
  • Managed Postgres (тоже 2vCPU и 4ГБ RAM)
  • Ещё на 40 GB — сетевой диск, который можно по желанию подключать к любой машине.
  • Объектное хранилище на 100 GB.
  • + белый статический IP. V4, конечно.

Никто на российском рынке и среди крупных западных облачных хостингов такого объёма не даёт больше чем на месяц. Собственно, из тех, кого мы нашли, — вообще никто.


Скоро мы планируем прикрутить ещё одну фичу — бесплатный доступ к Kubernetes.
  • Любой желающий сможет три месяца поиграться с простеньким кластером на один мастер-воркер и понять, что за контейнерами — будущее. Ну или бесплатно сойти с ума.
  • А потом получить месяц доступа к продакшен-кластеру. Это полноценный отказоустойчивый кластер, состоящий из трёх–пяти мастер-нод. Тут можно уже развернуться по полной, начать серьёзные продажи, протестировать свои идеи в реальных условиях.

После этого, конечно, бесплатный период закончится. Мы не филантропы, двигающие идею облачного инстанса в массы, мы практичная компания со своей экономической моделью. И, кстати, дешевизной мы не заманиваем: средний чек у нас на уровне тех же Селектела, Яндекса и Сбера.

Мы пришли за вашими деньгами. Но хотим, чтобы вы смогли посмотреть инфраструктуру сами.

Где, собственно, подвох?
Такой большой лимит подходит для того, чтобы вы смогли полноценно поработать с облачным сервисом, ощутить его преимущества. Облачные сервисы мы любим и хотим, чтобы все поняли, насколько они крутые и как с ними нужно работать.

Поэтому построили публичное облако, масштаб которого позволяет решать реальные задачи. Поставили топовые сервера, процессоры Xeon пятого поколения, сети на 400 гигабит, всё это нарезали на виртуальные кусочки и готовы по запросу предоставить клиенту нужную мощность.

Релиз у нас сегодня, если что. До этого тестировали.

И вот эти лимиты: 2 ВЦПУ + 4 ГБ памяти для управляемых баз данных. Они минимум вдвое быстрее тех, что есть сейчас на рынке. Мы протестили.

Это как первая доза бесплатно. Втянетесь в нормальное хорошее облако — будет тяжело съезжать после того, как увидите, насколько оно экономит время в разных местах. И насколько удобно работать с нашим UX, благо мы всё сделали и делаем для того, чтобы экономить ваше время.

Почему две машины? Потому что только так можно поиграть полноценно. Многие берут или дают для теста одну машину. С одной, даже хорошей, вы не наступите на все грабли. Мы даём сразу две, чтобы можно было поднять отказоустойчивую систему.

Важный элемент этой схемы — балансировщик нагрузки. И нет, ящер с картинки наверху не врёт. Балансировщик у нас тоже входит в бесплатный пакет, что обычно встречается только в платных тарифах у других провайдеров.

Всё это для того, чтобы любой пользователь мог сразу и на целый год запустить полноценный продукт. Блог на 10 тысяч посещений, небольшой онлайн-магазин, корпоративный сайт. Это возможность запустить онлайн-проект без покупки железа, без аренды и долгой настройки виртуальных машин.

Мы предоставляем базу данных, так что можно не париться с настройкой Postgres, Mongo или целого кластера, MySQL или ещё чего угодно.

Всё запускается буквально в два клика. И никаких финансовых рисков на старте.

Никакой экономии на хранении: это полноценный прод без деградации. Все диски дублируются трёхкратно, а резервные копии создаются в другой зоне доступности. Даже если один из дата-центров вдруг выйдет из строя, информация останется доступной. Это означает, что ни один сбой не приведёт к потере проекта или базы данных.

Ещё один плюс двух машин — их гораздо легче масштабировать. Если продажи пошли, нагрузка растёт, то к двум можно добавить ещё две, пять, сто… Вся инфраструктура уже готова. И, что немаловажно, это безопасная инфраструктура.

В этом первый подвох: если ваш проект взлетит, то вы захотите масштабироваться. С одной ВМ дальше хотелок дело не пойдёт. С двумя вы сможете всё и сразу — и дадите нам денег.

Вторая история — конечно, со временем, возможно, мы снизим лимиты. Но пока мы можем позволить себе такого рекламного расхода. Машзал со старта облака будет загружен не полностью и не весь, а нагрузка на вычисления — наименьшая часть расходов cash burn. Поэтому, если мы загрузим машзалы хотя бы наполовину бесплатными клиентами с некоторой конверсией (хотя бы 5 %) в рост, это очень быстро приведёт к нашей прибыли. Быстрее, чем другие модели. Мы считали. Мы любим считать и любим теорию игр.

В процессе расчётов мы пришли к выводу, что переподписка, когда один физический ресурс распределяется между несколькими пользователями, может быть эффективной, если тщательно настроить баланс нагрузки. Мы будем использовать её только для бесплатных демохостов, чтобы оптимизировать ресурсы на старте. А для постоянных клиентов ресурсы выделяются индивидуально: так мы исключаем риск, что одновременный высокий спрос приведёт к перегрузке и испортит работу сервиса.

Про белый IP
Надо сказать пару слов про деньги и ограничения законодательства.

У нас простая регистрация: достаточно электронной почты и номера телефона, причём второе — даже не наше требование, а Минцифры. Поэтому легко предположить, что кто-то со второй симки, например, захочет получить вторую пару бесплатных серверов. Или через год зарегистрирует новый аккаунт, чтобы снова сидеть бесплатно.

Есть две системы. Первая — финансовая. Для того чтобы получить бесплатные лимиты, нужно пополнить счёт. Там немного, тысяча рублей минимум, но от спама одноразовыми аккаунтами это защищает. И, что важно, это не плата за бесплатный пакет (как звучит-то!). Эти деньги останутся на счёте, ими можно будет оплачивать дополнительные услуги. А при пополнении на пять тысяч рублей активируется полный набор лимитов, включая белый IP. Это защищает нас от массовых фейковых регистраций: случайный пользователь вряд ли будет заводить десятки аккаунтов и замораживать на них деньги, пусть и небольшие.

Вторая — нейросеть, которую мы уже обучаем (на базе Tensor Flow). Она анализирует контрольные суммы, имена образов и другие параметры, чтобы выявлять повторные регистрации и попытки обойти ограничения. И если кто-то, исчерпав бесплатный лимит, запустится с нового аккаунта, то мы это, вероятно, увидим.

Ещё аспекты
Мы строим облако очень поздно по сравнению с другими. Это минус по возможной доле рынка, но плюс по тому, что можно не повторять неэффективные шаги.

Мы сразу же ушли от оверхеда технологий. Помните историю про неповоротливость и уязвимость OpenStack — платформы, на которой сидят почти все российские облака? Так вот: это не про нас. Мы OpenStack попробовали, оценили и сразу отказались, написав в итоге свою платформу на Go с парой ключевых обработок на Scala.

У нас очень продуманная команда, и, вероятно, мы сможем сохранить это преимущество ещё пару лет. Небольшая оптимизированная команда, где каждый на своём месте и эффективно закрывает свой сектор, — одна из причин, по которым мы можем давать такие жирные приветственные лимиты. О других расскажем чуть позже.

Единственная сфера, в которой мы отходим от принципа «один человек — одна задача», — это безопасность. Site Reability Engineering, Network Operation Center и инженеры по безопасности у нас работают в несколько смен, поэтому мониторинг ситуации и техподдержка — круглосуточные. И если заметим подозрительную активность, то не будем сразу отключать клиента, как большинство провайдеров. Попробуем разобраться, свяжемся с самим клиентом. Хотя стопроцентно этого обещать не могу: ландшафт ИБ меняется каждый день. Но постараемся.

Чтобы не ловить детские косяки типа ненастроенного файрволла, у нас есть внешние утилиты «обстукивания». Если, например, у вас открыты небезопасные настройки или база данных без пароля, то мы предупредим об этом.

У нас очень хороший старт на собственных активах (без кредитов). Про старт я подробно рассказывал вот тут, если кратко: была майнинг-ферма — непрофильный актив, который нужно было переоборудовать во что-нибудь более интересное. А майнинг-ферма — это не только доступ к дешёвому электричеству, но и большое количество производительных видеокарт. Располагалось всё это добро далековато от Москвы, в Александрове, так что мы решили заняться облаком. Особенно после того, как побегали по территории с пистолетами, потому что асиков было на миллиард.

Плюс два ЦОДа в Москве в аренде.

Закупили самое новое оборудование. Есть дата-центры мощнее нашего, глобальнее — у Яндекса, например. У нас сейчас стоят процессоры Xeon пятого поколения, как только в продаже появятся шестые — сразу купим. Это серьёзное преимущество: у других облачных сервисов — в среднем третье поколение, а оно в несколько раз слабее. И, что важно, для той же мощности нам нужно меньше физических серверов, а следовательно, и места. Больше вычислений на стойку, а расходы у ЦОДов идут именно на стойку.

Ещё один наш бонус — продуманный цикл жизни железа. Многие другие ЦОДы создавались годами, там огромное количество техники, и разом её заменить… ну, наверное, можно. Но потребуется бюджет, сопоставимый с бюджетом небольшого региона. Это как в авиации: когда выходит новый двигатель, надо менять весь парк. Весь парк менять невозможно, поэтому новые компании эффективнее уже имеющихся. А уже имеющиеся продают самолёты в Африку.

Отработав свой срок в клиентском сегменте — там, где важна производительность, сервер переедет в ванну на другие задачи. Туда, где процессор и память менее важны. За пределы Москвы в ЦОД с более дешёвой стоимостью поддержания стойки на задачи по фактическому потреблению типа инференса. И продолжит приносить пользу, плавая в диэлектрической жидкости. Иммерсионное охлаждение позволяет тратить меньше электричества, а компактная команда из 30 человек делает обслуживание бизнеса дешевле.

Про иммерсию я ещё расскажу отдельно, она прямо очень сильно меняет правила игры. Если у вас ЦОД приспособлен под неё. У нас приспособлен.

Что делать, если придёт большой клиент и надо будет освобождать машзал?

Ничего. Докупим железа. Если придёт условный Озон или Вайлдбериз — мы потянем. Не моментально, не по клику: потребуется докупить оборудования, настроить поддержку. Это не повлияет на бесплатные лимиты.

Но наша ЦА — не такие гиганты, а российский топ-1000. Давайте представим, например, Тануки. У них, кстати, отличные ИТ, если что. Вот 100 таких компаний мы прямо сейчас можем включить по клику, и даже на постоплатной системе. То есть без авансов, без всего, просто приходите, пользуйтесь — по истечении месяца заплатите.

Мы можем предоставить клиентам принципиально новые инструменты и возможности, помочь вывести бизнес на другой уровень. Кстати, неважно, физическое вы лицо или юридическое, мы можем работать и с карточками, и по электронному документообороту с выставлением счетов.

Сейчас мы уже собрали три сотни заявок на платную подписку. И ожидаем, что очень быстро добьём до тысячи: числа говорят сами за себя.

К лету мы планируем масштабировать бизнес: приедет новое оборудование, которое разместим уже на базе iXcellerate. Когда закончим основные работы, у нас будет достаточно мощностей, чтобы без проблем завести почти любого клиента. Если у других провайдеров ресурсы ограничены — у нас с этим проблем нет. Хотите масштабировать интернет-магазин? Легко. Запускаете крупный корпоративный проект? Потянем. Мы не просто расширяем инфраструктуру, а создаём площадку, где бизнес сможет расти без ограничений.

Вот здесь можно забрать.
limits.h3llo.cloud

Вот в этом подвох. Мы хотим, чтобы вы почувствовали себя неожиданно хорошо и подсели.

Если вдруг вам по какой-то противоестественной причине интересно наблюдать за реалити-шоу «айтишники против всего мира», то вот наш телеграм-канал, в котором рассказы, как мы строим это облако и какие грабли уже нащупали.

Переезжаем в новый ЦОД, где всё будет распределено и отказоустойчиво




BGP — автоматический протокол маршрутизации.

То есть чтобы BGP начал работать, нужно отправить письмо. В 2025 году. Две тысячи. Двадцать. Пять на дворе, леди и джентльмены.

Всё, что мы анонсируем, должно распространяться по интернету, желательно моментально. Понимаете, какая тут зависимость от оператора.

Пару недель назад переключаемся с основного провайдера на резервного. Всё анонсировано корректно, но интернет не работает. Пишем в поддержку — в ответ:

А вы не уведомили нас письменно, что начали анонсировать новые подсети. Поэтому мы их игнорируем.

Сервисы для большинства пользователей работали штатно. Но историю мы запомнили.

Теперь у нас автоматическая балансировка маршрутов по восьми линкам. Переезжаем в новый ЦОД, где всё будет распределено и отказоустойчиво. Надеемся, что письма писать не придётся.

Наши эпические косяки при запуске облака




Мы запускали облако, но сделали много ошибок. Сейчас расскажу про основное.

Если коротко — у нас в какой-то момент было больше двух тысяч человек, примерно половина из которых не понимала, что происходит, и мы не понимали, что происходит, и при этом нам со всех сторон сыпались жалобы. Разные.

Мы давали бесплатные лимиты в облаке, но нам нужно было убедиться, что это не будут абузить. Поэтому мы сделали порог в 1 000 рублей на часть бесплатных ресурсов и порог в 5 000 рублей пополнения счёта — на полную модель.

Вот эти пополнения и вызвали большую часть попоболи.

Баннеры
В статье мы всё подробно расписали про условия акции.
А вот на баннере так сделать нереально. Детали были по ссылке. Написаны.
Люди кликали на классный заголовок, ожидая полностью бесплатного предложения, букв особо не читали, а потом по мере процесса регистрации их перебрасывало на шаг, где выяснялось, что нужно пополнить баланс на 5 000 рублей. Естественно, они приходили к нам в Телегу кричать: «А вы просите, блин! Вот я-то думал, что мне всё бесплатно дадут!»


А вот и нет, совсем бесплатно просто за регистрацию мы, конечно, ничего не дадим. Точнее, могли бы, если бы придумали способ избежать повторных регистраций по кругу. В нашей картине мира пять тысяч рублей — достаточный аргумент, что пользователь добросовестный. Особенно если ему нужно облако.

Конечно же, мы ошибались.

5 000 рублей
По закону нам нужно аутентифицировать любого пользователя хостинга, для этого подходят номер сотового (потому что паспорт — у оператора при выдаче симки), банковский платёж (потому что паспорт — у банка при выдаче карты с чипом, как у симки) или регистрация через Госуслуги (потому что они тоже каким-то чудом создают однозначную связь с паспортом). Прикручивать Госуслуги — квест не для слабонервных. Где купить тысячу сотовых номеров за приемлемые деньги, мы знаем, и это распространённый вид абуза в сфере хостинов в России, поэтому остаётся банк.

Так вот, мы даём год бесплатного использования двух виртуальных машин, еще одну такую же виртуалку — под базу данных, балансировщик, объектное хранилище, место на диске и ещё всякую требуху. И хотим, чтобы там был честный пользователь, который привыкнет к хорошему, в идеале научится мыслить управляемыми сервисами, посмотрит год на нашу стабильность и поймёт, что можно переезжать с коммерческим проектом.

Для такого пользователя 5 000 рублей на баланс — не проблема.

Но!

Нас начали подозревать в том, что всё было ради этих пяти тысяч. Почему? Потому что изначально мы думали, что вернуть их нельзя, а можно только потратить на услуги хостинга.

И вот это по какой-то причине разозлило людей. В целом мы уже догадываемся, по какой: прописать условия возврата действительно было бы справедливо.

Путаница с условиями
Тут была целая история. Изначально у нас было два типа железа — старое и новое. Старое — такое же надёжное, как и новое, только больше, теплее и медленнее. Но за два дня до запуска приехали наши крутейшие серваки с Xeon 6530 и DDR5. Успели всё воткнуть до релиза: сами поработали грузчиками, раскатили всё, что было нужно, подняли сервисы и запустились полностью на них — мощных и свежих.

Поначалу предполагалось, что на старом мы делаем более медленные ВМ и даём их при пополнении счёта на 1 000 рублей — это достаточное подтверждение. Но если хочется иметь две топовые машинки, то надо пополниться на 5 000.

Так вот, проблема с порогами пополнения возникла из-за того, что старое мы просто выкинули из ЦОДа, а вот информация про него где-то осталась. В итоге мы пришли к тому, что вариант с 1 000 рублей убрали. Баннеры проапгрейдили, а часть публикаций — нет.

Последствия не заставили себя ждать. В статье мы всё быстро пофиксили, но к тому моменту уже успели получить две категории пользователей: первые, которые радовались офигенному офферу на 5 000, и вторые, приходившие и требовавшие халяву, которую ожидали, кликнув по баннерам или прочитав старую версию статьи.

Дефицит IP-адресов
В моменте мы буквально чуть не выстрелили себе в ногу с IPv4. У того, у кого мы их берём, как раз непосредственно перед запуском не оказалось нужного количества. Просто в мире всё меньше белых v4, и даже у поставщиков запас на складе иногда заканчивается. Еле выкрутились. Получилось дороже, но зато вовремя.

Оплата в новом окне
Потом — классическая проблема 2020-х: мы сделали переход на страницу оплаты в новом окне. А в новом окне обычно открывается всякое непотребство. И, конечно, «умные» браузеры начали блокировать открытие этих внешних ссылок.

Банк же считал открытие окна событием начала оплаты со всеми вытекающими последствиями, что добавило путаницы в сессиях.

Дофига кто нажимал, а пополнения баланса не происходило: страница просто не открывалась.

Открываю статистику, вижу тысячи оплат, думаю: «Вау, красота, регистрации валят!» А вот и нет: денег меньше, это просто люди не могли понять, куда и как их кидать в экран.

Наверное, стоило видеть моё лицо в тот момент, когда я увидел сводную по данным нашего API, а не банка. Потому что банк в своей статистике все транзакции «в процессе» тоже считал за мясо.

Очень, очень дофига людей
Мы не ждали тысяч обращений за часы, поэтому на второй день внедрили лист ожидания. Пользователь заходил, мы выводили дружелюбное сообщение: «Ты в листе ожидания, как в клубе, но без фейсконтроля. Скоро мы тебя запустим». И реально скоро запускали.

Так вот, там появились ручные случаи, когда люди писали, что фейсконтроль не пускает. На деле это письмо с приглашением уходило в спам.

Письма в спаме у Яндекса
Наши письма с приглашениями и информацией у Яндекса почему-то упорно попадали в спам. Пользователи присылали скрины: «Это письмо попало в папку «Спам» по следующим причинам: в письме — невалидная dkim-подпись».

Вроде мы не совсем конченые, админим не первый год и настроили всё верно. Да и писем у нас мало.

Я, естественно, ради проверки отправляю такое же письмо на гугловскую почту — Google говорит, что все подписи корректные, везде галочки. А Яндекс нашу подпись воспринимать отказывается. Единственный.


В итоге просто принял это как факт, что Яндекс не любит наших заголовков, а может, просто «Hello, Cloud». Не думаю, что они нас вообще хоть как-то заметили как конкурента (хотя мы их считаем основным будущим конкурентом), но само явление странное.

Что сделали для исправления
Править надо было на лету.

Сначала самое горячее — оплаты и лист ожидания. Сделали двухэтапную рассылку. Сначала — подтверждение регистрации, а уже потом — письмо: «Приходи, оплачивай пять тысяч, заноси деньги на баланс и получай вот это, это и это». Со всеми условиями, подробно. Это заработало. Было приятно, когда банк дублировал на почту уведомления об оплатах и они сыпались пачками.

Подробнее объяснили, что именно в бете. Мы подключаем фичи по мере их выхода из тестов. Например, балансировщика мгновенно не обещали, но как будет релиз — сразу. Люди удивлялись, что его нет сразу, и засыпали поддержку вопросами, где его найти.

Вывели все ожидаемые ресурсы в админпанель и показали, что и когда будет в бете. Подробнее написали про это в лендинге, чтобы не ждали сразу.

Повесили дисклеймер: «Дружище, это бета-версия. Здесь всё что угодно может пойти не так. Если есть вопросы, то welcome к нам в группу в Телегу и на почту». Дали прямой контакт в почте (отвечаю я) и Телегу, где отвечает вся команда.

Потом столкнулись с частой ошибкой пользователей. Люди не читали строчку в интерфейсе для подключения по SSH и пытались залогиниться с логином root вместо user. А рутовский доступ у нас везде по дефолту закрыт из соображений безопасности. Объясняли. Сделали строчку заметнее.

По возврату денег и борьбе с абузом посидели, покубатурили и решили: желающим вернуть — вернём. Но если заводить второй аккаунт, то бесплатных лимитов уже не дадим. Процедуру для вывода средств и верификации уже внедрили и протестили.

Смысл этой суммы был в том, чтобы выстроить некий фильтр и не допустить массовой регистрации ради бесплатных ресурсов.

И сейчас делаем интеграцию с Госуслугами, но нервы не выдерживают: для нас это уже ЭРЕБОР. Но надо доделать. Кому-то важно не давать поганым капиталистам ни рубля за демо, поэтому, вероятно, со временем доведём.

Многие регистрировались компаниями, и там бесила предоплата. Сейчас готовим такую механику: в аккаунте будет возможность создать компанию, некую абстракцию, и даже пригласить туда других пользователей. Это будет такой корпоративный аккаунт. К нему можно будет привязать как оплату карточкой постфактум, так и оплату через счёт, подключив ЭДО. Вот как раз для «физиков», если подключить карточку, будут удобны Госуслуги, потому что мы дадим возможность неограниченно уходить в минус (или можно пользоваться балансовой системой на личном аккаунте, чтобы не бояться внезапного масштабирования облака). Для компании подключение юрлица через ЭДО выглядит как вполне такой нормальный фильтр. И таким аккаунтам мы будем начислять, я думаю, тысяч 50 бонусных баллов на несколько месяцев. А бонусный балл в нашей сегодняшней игре равен российскому рублю. Кроме того, хотим перейти на честную постоплатную систему. Месяц пользуешься — потом тебе выставляется счёт. Даже если этот счёт выставлен на карточку, у тебя есть пять дней: можешь, если с чем-то не согласен, даже оспорить. Через пять дней мы просто захолдим сумму на карте, а ещё через пять запроцессим её. Юрлицам же даётся 10 дней — стандартная история. Понятно, что ещё есть период, когда он не оплатил, но мы его пока не блокируем, а только напоминаем. Если совсем долго не оплатил — тогда уже скажем: «Друг, ну всё, хорош это терпеть», всё остановим, но данные сохраним. У нас есть огромное холодное хранилище на два петабайта: туда можно сложить все бэкапы и ещё какое-то время его держать, если, конечно, пользователь не дал прямой команды уничтожать всё сразу при отключении.

Вот такие пироги! Ошибок мы наделали, но двигаемся дальше, учимся и спасибо, что пинаете нас. Добавили кнопку, чтобы послать нас в жопу на корпоративном сайте, прямо на главной, кстати.

Так что, если чем обидели — приходите на наш корпоративный сайт!
h3llo.cloud/ru

Бизнес в России — это гомерически смешно






Первая тестовая стойка дома, до заезда в ЦОД. Уже после сборки я понял, что держать 35 миллионов рублей в квартире — так себе идея

Когда вы внутри, это, конечно, тяжко, печально и всё такое, но снаружи это всегда смешно.

Мы строим крупное российское облако, наверное, одними из последних в этой стране в ближайшие несколько лет. Потому что начали без заёмных средств до ставки 21% и ещё когда можно было более-менее внятно пройти бюрократию на лицензию.

Про ад с бюрократией я писал вот здесь.

В этом посте, кстати, было про Ростелеком, речь про Даталайн, который им стал в процессе нашего заезда:
Дальше выбор ЦОДа. Один из партнёрских ЦОДов, где мы размещаемся в Москве, — это Ростелеком. Первую стойку нам выделили в моменте: мы направили запрос, нам сказали: «В этом ЦОДе нет, но встаньте вот сюда» и прислали коммерческое предложение на следующий день. Это заняло буквально два письма туда-обратно и пару звонков. А вот предложение на последнюю стойку менеджер отправлял нам уже месяц. Возможно, согласовывал внутри.

Так вот. Через пару часов после публикации мне написал менеджер из Ростелекома и попросил отредактировать материал, чтобы не порочить деловую репутацию компании. Ну и мы согласились, потому что ничего принципиального для нас в этой истории не было и мы в целом больше за дружбу.

Знаете, в эти игры можно играть вдвоём.

Я попросил в ответ прислать проект правок, то есть предложить итоговые формулировки. Я абсолютно точно знал, что будет дальше — ведь отдельный человек в системе не может взять на себя такую ответственность.

И да, они собрали внутри себя совещание и сутки думали, что же именно нужно поменять. Мы до сих пор бы обменивались официальными письмами и шли бы им навстречу, если бы не решили оттуда уехать.

Второй случай связан с тем, что мы только спустя полгода после открытия офиса смогли провести туда интернет.

Наш интернет
Самое первое, что приходит в голову, — это история про провайдера, сапожника без сапог.

Это про наше подключение офиса к интернету.

Мы заехали в бизнес-центр, который принадлежит нашим друзьям. Приехали, посмотрели, всё понравилось. История классическая, как обычно, один провайдер. Просто никто не заморачивался подключать больше в сам БЦ. Собственники были не против завести кого-то ещё, но у них в принципе такой потребности и не было.

У нас потребность была. Начали смотреть предложения, считать, думать.

В это же время мы очень активно строили между двумя ЦОДами свои оптические линии. И внезапно поняли, что дойти и до офиса тоже — вообще не проблема. Закинули вопрос, сколько нам будет стоить по тёмному волокну включиться где-то здесь? Есть оно вообще где-то ближайшее?

Получили очень адекватное такое предложение — прямое включение, скорость любая, всё зависит от той пары трансиверов, которые поставишь на концах. Два волокна TX/RX, то есть одно на приём, одно на передачу.

По ценнику получилось дешевле, чем гигабитный инет в месяц.

Решили, что сейчас поставим 40 и врубим, потом 100 Гбит/с. Удобно же для офиса. Тем более команда быстро растёт.

Начали делать. Всё хорошо, но был один нюанс. Последние 150 метров достроить — надо согласовывать с собственником здания, через которое проходит как раз от ближайшего колодца трасса. У нас что с одного ввода люка, что с другого стоят жилые дома. В подвале этих жилых домов лежит трасса МГТС, в которой лежит оптика ШПД. Но когда вы ведёте там свою жилу, это становится не вопросом ШПД для дома, а отдельным проектом.

Прокинуть оптику — дело 2–3 дней. А вот этап согласования с собственником занял почти четыре месяца, из которых три он всячески пытался набить цену.

Собственник должен просто сказать: «Разрешаю, согласовываю». Подписать на плане, что согласовано, и, пожалуйста. Председатель ТСЖ, через которого предполагалось, что всё это идёт, хотел за это денег. От председателя надо получить документ, что трасса прокладки через подвал согласована. Она там уже по факту лежит и оказывает услуги дому. Казалось бы, надо как-то через неё класться. Но всё равно нужна его подпись. В этот момент мужик понял, что настал его звёздный час, и решил не упускать свой лучший шанс в жизни стрясти денег с коммерсов. Правда, он не знал, сколько именно трясти. А через помощника сигналил, что коммерческое предложение пришлите: сколько это, как это. Всё боялся продешевить. Непонятно же, сколько это стоит — 50 метров кабеля положить тебе в существующий лоток. Сколько за это взять? Разово? Ежемесячно?

Первые два месяца, пока это делали, мы сидели, как самый крутой провайдер, на мобильных интернетах. Потом получили L2 VPN с последней милей от другого провайдера, офис ожил.

А потом после примерно десятой итерации переговоров выяснилось, что председатель ТСЖ вообще не при делах. И его звёздный час прошёл. Подвал, через который всё идёт, давно выкупил другой человек — и он нам всё это очень быстро подписал. Безвозмездно.

Теперь по цене обычного офисного интернета у нас 40 Гбит/с напрямую к ЦОДу с минимальными задержками и без посторонних на пути. Но второй раз в такую игру я играть не хочу. Либо же сразу буду приходить с ультимативным коммерческим предложением.

При любой прокладке кабеля такая потенциальная проблема всегда присутствует. Поэтому когда мы брали собственный ЦОД, заодно купили ещё участок земли по дороге от электростанции — как раз на такой случай. В общих затратах на инфраструктуру он почти бесплатный.

Теперь представьте тех людей, которые строят трассу длиной не 150 метров, а 120 километров. И через сколько собственников она проходит. Сразу вспоминаются все эти жилые дома посреди скоростной трассы и прочие радости жизни.

Виртуализация туалета
Для офиса мы сняли почти весь этаж. Почти — потому что у нас только один сосед на этаже. Давно сидят в бизнес-центре, проверенные спокойные люди. У них там работает несколько человек, по нашей оценке, 4, плюс-минус 2.

И вот они с чего-то решили поделить территорию общего пользования, а конкретно туалеты.

Просто взяли и закрыли себе одну из двух кабинок туалетов.

Врезали в дверь замок и сделали выделенный персональный туалет.

К этому моменту у нас было уже под два десятка человек. А два десятка человек во вторую кабинку помещается не всегда.

Грубо говоря, их туалет dedicated, а у нас адская переподписка. Зашли на чай к собственникам бизнес-центра, они сильно удивились, и через 20 минут работы АХО, замок исчез. Всё, казалось бы, хорошо, я думал на этом и закончилось. Так нет, их учредитель пришёл к нам за эти туалеты качать права. Казалось бы, уже 25-й год на дворе, а кто-то додумывается поделить кабинки туалета. К счастью, быстро объяснили про общие права доступа.

Собеседования
Самое главное требование у нас — работа только из офиса, удалёнка невозможна. При этом у нас нет строгого расписания — кто-то приходит позже, кому как удобно. Отбор у нас идёт через два фильтра. Сначала с кандидатом обсуждают базовые условия, знакомятся. Потом проверяют технические навыки. И только после этого человек попадает ко мне на финальное интервью.

Как-то к нам пришёл парень, который назвался middle+ фронтендером. Когда он начал рассказывать о своём опыте, выяснилось, что на сайте одной крупной букмекерской конторы он просто вручную обновляет информацию о матчах.

— Я беру шаблон, копирую, вставляю весь контент в реактовские компоненты руками и загружаю на сайт.

Я осторожно выдохнул и спросил опытного middle+ про концепцию DRY (Don't repeat yourself) и как он применяет её в работе.

— DR что?

Я объяснил. На что кандидат просто сказал: «Нет, сдаюсь» и вышел с собеседования.

Сразу скажу, что место немного холиварное, потому что DRY не всегда однозначно хорошо — где-то вступает в противоречие с KISS. Но это, по крайней мере, можно обсудить. Да и реактовские компоненты сами по себе подразумевают DRY — ты определяешь компонент один раз, а потом просто вызываешь его с разными параметрами.

А где он руками копипастил — это крупная контора, реально на слуху у всех. В каждый видеоролик свою рекламу пихает и такой подход к разработке сайта. Я офигел, конечно, что там до сих пор не слышали про CMS.

Вторая история с собеседования была ещё веселее. И вот она уже заставила надолго задуматься.

Два Scala-разработчика. Забегая вперёд, скажу, что в итоге-то мы столкнулись с очень большими проблемами с набором Scala-команды и после выхода Sonnet 3.6 переключили часть компонентов на Go, но про это чуть позже. А Sonnet 3.7 вообще поставил точку в вопросе.

Но вот собеседование. Откликов совсем немного. Scala-разработчики — это нечто очень экзотическое, днём с огнём не найдёшь.

Пришёл, значит, к нам первый кандидат нормальный такой. Пообщались, всё понравилось, пригласили в офис. Дали небольшое тестовое задание — спецификацию OpenAPI с описанием эндпоинтов REST API для веб-сервера. Говорю: «Подними. Стек любой. Инструментарий любой. Как тебе удобно, так и делай. Главное — без нейронок». Мы же скил оцениваем. Так-то мы за LLM. Дали всё, что он попросил. Отошёл заварить кофе. Возвращаюсь. Он:

— Вот. Готово.

Я не понял.

Смотрю — действительно готово.

У него был свой фреймворк написанный, который берёт спеку OpenAPI и поднимает веб-сервер. Он просто несколько строчек кода имплементировал во внутреннюю логику к каждому методу, а всё остальное за него делал фреймворк. Потому что задача встречается не первый раз. Классная вещь. Я прям воодушевился: 10 минут и выполнен рабочий веб-сервер. Но денег этот кандидат хотел прям очень много. Мы ещё поговорили и решили, что надо подумать, потому что один такой человек с правильными инструментами заменяет целый отдел. А с нейросетками, возможно, два.

В этот момент пришёл другой кандидат. Такой дядечка уже в возрасте. Отметился в крупном банке. Всё хорошо рассказывает, дали то же самое задание. Он открыл Vim вместо IDE и начал быстро набирать пятую сонату код.

Спустя полтора часа на Play! Framework эта штука еле-еле завелась и выдавала один работающий метод. Не микросервис, а именно один метод. Без логики.

Контраст, конечно, был очевиден.

Денег он запросил столько же много. А за сакральное знание, как выйти из Vim, мы столько платить не готовы.

В итоге после всех обдумываний перешли на Go. Scala закрывает исключительно тот кусочек, который прям вообще не вариант ни на чём другом сделать, и в команде есть люди, которые с ней работают, в том числе я.

Ещё одна интересная особенность в том, что современные LLM обучены очень хорошо кодить на Go, но очень плохо на Scala, и использовать их возможности просто не выйдет. Возможно, выборка была не очень большая. Мы надеялись на o1 и R1, но тоже нет. В общем, Go. Там и проблем с разработчиками нет.

Третья история с собеседований — аналитики ИБ. Руководитель по ИБ в компании должен завестись сам, потому что публиковать вакансию всё равно не выйдет со всеми деталями. Да и на рынке специалистов по ИБ нет от слова «совсем». Как и самого ИБ в малом и среднем бизнесе.

Мы всё же взялись строить SOC и более-менее открыто прописали, что делать и как. И начался поток людей, которые умеют поднимать файрвол на роутере. И это потолок их навыков. До строки квалификационных требований про спокойствие так и не дошли. А спокойным надо быть.

Специфика бизнеса — в том числе не допустить открытия канала к ОРМ. Мы, как хостер, должны определённый формат СОРМ поддерживать. К счастью, мы не должны закупать никакое дорогостоящее железо как телеком-операторы. Но мы должны наружу выставить для них защищённые концы с доступом к определённой информации. Её перечень, структуры и так далее, они все открыты в нормативке. Там 70-страничный документ с описанием GraphQL схемы. Собственно, мы должны её поддерживать и не давать посторонним лицам. Это персональные данные и, в принципе, репутация. Ну и помимо СОРМ есть базовая гигиена ИБ, за которой необходимо следить.

Поиски, кстати, всё ещё продолжаются.

35 миллионов в квартире — плохая идея
Первая наша стойка для MVP, как вы видели выше, была не стойка, а груда серваков, стоящих друг на друге у меня дома. Выглядело зачётно. Светилось как новогодняя ёлка — и был это как раз конец зимы.

У меня несколько розеток отдельных под домашний кинотеатр, акустику и так далее. По идее каждый сервак — блоки питания 800–1400. После включения всё это начинает жужжать адски, как рой дронов. Я думал, что соседи испугаются, что сейчас атака будет.

Потом ёлочка начинает гореть, то есть греться. Естественно, включаешь кондей либо открываешь окно, когда холодно. Дальше можно с этим сидеть, жить, настраивать.

А вот дальше по факту я очень удивился, что вся стойка потребляет как микроволновка. Десяток серваков жрёт меньше, чем чайник. Я до этого привык, что если заявлено три с половиной киловатта на асике или видюхах в риге, значит, оно и будет жрать три с половиной киловатта. Так и есть, в принципе, плюс-минус пять процентов. А здесь, оказывается, ни фига.

Но самое смешное случилось, когда мы это через неделю настроили и повезли уже в ЦОД. Вызвали «Грузовичкоф». Приехала к нам Лада Ларгус и такой типичный водитель Ларгуса, который откуда-то с региона, видимо, приехал на заработки.

Посмотрел он на сервак. Мы ему объяснили, что стоит он дохрена и надо с ним очень аккуратно. Всё шикарно. Он потихонечку их перенёс. Мы помогли, загрузили. Всё это на грузовом лифте по нескольку штук за раз, на подземную парковку, всё уложили. Обмотали, естественно, плёнкой пупырчатой. Коммутаторы упаковали сверху. Всё хорошо.

Выезжаем из паркинга, и он говорит:

— Ребята, а незамерзаечки у вас не будет? У меня что-то закончилась.

Мы ему отдали канистру незамерзайки. Он, значит, что-то залил, а что осталось — положил в багажник.

Уже приехав в ЦОД, мы поняли, мало того, что он её хреново закрыл, он в багажник её кинул прям поверх серверов.

И вся незамерзайка по ним течёт!

Пока я матерился страшными словами, он всё поспешно выгрузил и уехал.

В незамерзайке спирт (этиловый или изопропиловый), что для серверов условно-безопасно. И вода. Вода уже не так безопасна. К счастью, дальше крышки это не протекло. В паре мест капнуло на платы, я протёр, просушил, и всё завелось.

Это были наши первые серваки для Proof-of-Concept. Сейчас эти серваки будут доживать в наших инстансах под CDN, а мы закупаем уже HPE Gen12. Надеюсь, скоро покажу. Их точно сразу в ЦОД и не на Ларгусе.

VDI
Изучали рынок VDI в России, когда думали, кому и что будем продавать.

Получилось как с той рисоваркой, для запуска которой нужен админ, Senior-разработчик, тимлид и уборщица.

Садится команда людей, среди которых DevOps опытный, который сам Linux-драйверы низкоуровневые пишет для железа. Тимлид, который поднял десятки проектов руками, до этого много в студии Лебедева отработал и в блокчейн-проекте. Собственно, L1veStack (наш контейнерный хостинг) под его руководством вышел. Другой тимлид (тоже с хорошим опытом за плечами), разработчики и я.

И вот мы логинимся в VK и начинаем делать себе VDI. Прям по кнопке «создать VDI». Перед нами мастер на 7 шагов. Проходим первый экран, и там такая хитрая кнопочка «протестировать, всё ли правильно». Нажимаем. Просто начинает крутиться кругляш, и ничего не происходит.

В ресурсах смотрим — херак, создалась виртуалка. Что-то там крутится, крутится, крутится и не меняется. Минут через пять вместо кругляша появляется галочка, что у нас всё окей.

Но виртуалку он не удаляет. Тарификация на неё капает.

Едем дальше. Дальше сетевые настройки, надо зайти в настройки сети, создать новую сеть. Причём диапазон 24-й ей маловат, ей подавай сразу минимум 22-й — и иди ещё с этим всем разберись и пойми из их описания. Ладно, курим маны и кое-как этот этап проходим.

Начинается третий шаг. Называется «введите данные для домена». И просит разные параметры LDAP. Прикол в том, что выскакивают всякие подсказки с ошибками, что введённая строка не соответствует формату. Проверка прикручена. Но вот авторизации по этим данным нет, и можно вставить чужой домен.

На следующем шаге запуск виртуалки под уже выбранную конфигурацию.

1 рабочий стол, 1 контроллер, минимальные ресурсы.

Запустить виртуалку невозможно, потому что квоты не хватает.

Дальше курим ман, и оказывается, что ни один новый аккаунт это всё запустить не сможет никогда.

Деньги есть, а вот лимиты стоят запрещающие. И иначе как через поддержку, это не решается.

Мы всё это посмотрели и поняли, что вряд ли кто-то эти сценарии проходит легко и хорошо.

Пошли тестить других. На третий день случайно вспомнили про ту виртуалку, которая включилась во время теста, пошли тушить. Тоже непросто, удаление заняло минут 20, потому что её нельзя просто удалить (кнопка тупо заблокирована). Сначала надо удалить все связанные с ней ресурсы — сеть, VDI-группу и так далее. А до этого надо ещё додуматься. Прикинули, сколько таких у других крупных клиентов )

Кстати, вероятно, если вы несколько раз запустите тест, виртуалок тоже будет несколько. Пробовать не стали.

В итоге после трёх дней такого тыкания во все VDI на рынке, мы для себя записали, как должен выглядеть проект. Думали, что клиенты этого не замечают, потому что всё падает на девопсов, — но дошли до знакомых архитекторов с 1200 столами, они посмотрели, увидели фотографии графического кластера в ванной и сказали, что мы первые адекватные, кто заглянул. Хорошо пообщались. Стало многое понятно.

Как покинуть офис
Лучшая история с офисом была, когда мы устроили вечеринку в пятницу с пиццей. Бизнес-центр у нас относительно небольшой, арендаторов не сотни, все уходят около 20–21. Охранник по стандартной привычке закрывает выход из здания и уходит на обход.

У нас корпоратив до 22. Мне понадобилось срочно уехать. Спускаюсь, охранника нет, выход закрыт. Соответственно, наши, кто любит просыпаться в 16 и работать вечером, делятся со мной лайфхаком — надо выйти в окно.

Показали окно. Я и вышел.

Охранник это увидел снаружи, и нам чуть не накрыли корпоратив группой быстрого реагирования. Дальше уже объяснили, что мы, айтишники, дикие люди, и можем не только приехать после завтрака в 17, но и уходить ночью. Больше таких инцидентов не было.

Привет Таймвебу
Ну и чисто хабровская история. Про комментарии к статьям. Буквально недавно столкнулся с тем, как эсэмэмщики работают в лучших традициях.

Вот наш пост про перформанс-тесты. Там есть про этих прекрасных облачных провайдеров, и не очень лестное. Хотя, несмотря на адскую переподписку, по деньгам там всё же довольно интересные условия. Но про переподписку тезисы, видимо, не понравились.

Сначала от них пришёл засланец просто, у которого стояла отметочка в профиле, что он работает в Таймвебе. Он накатал длинную-длинную телегу про то, какое мы говно. Его начали минусовать, спустили до -5. И внезапно попёрли плюсы, причём очень кучно! И это совпало с моментом, когда он отредактировал профиль и убрал, что он работает в Таймвебе. Прям отличная переобувка в воздухе — чудо, человек уволился, чтобы нас прокомментировать.

«Я вам оборудование закину погонять»
Напомню, когда мы только взяли площадку под ЦОД, там были развёрнуты ванны под асики. И ещё контейнеры стояли. И вот один из наших знакомых спрашивает, раз уж мы купили площадку, можно ли поставить своё оборудование.

Соглашаемся, но не проговариваем все детали. А важной деталью была цена этого оборудования, а не только условия аренды нашей площади.

Асиков там было почти на миллиард. Комплект майнера включал в тот момент травматический пистолет, и не один.


Набор майнера

Мы тогда с сооснователем вместе дополнительно дежурили в будущем ЦОДе в нагрузку к росгвардейцам, которые нас охраняли. Потому что места дикие, и если что — росгвардейцы убегут первыми. Потому что вопрос на миллиард и 15 минут погрузочных работ.

Объект мы за первую ночь утыкали камерами с детекцией движения, но детекцию нормально настроить не успели. И камеры реагировали не только на росгвардейцев, но и на птиц. Птицы летали не только снаружи, но и внутри ангара, и сильно чаще, чем я думал. А я на измене, представляю, что кто-то полезет это оборудование вытаскивать.

Когда история с асиками кончилась и в ванны мы перезалили другой диэлектрик под серверы, очень сильно выдохнули.

Всё же облаком в России заниматься гораздо спокойнее и предсказуемее.

h3llo.cloud
auth.h3llo.cloud/register

Что мы приготовили в H3LLO.CLOUD



Привет, h3cloud!

Возможно, вы помните, что в июне у нас была задержка из-за удачно сошедшегося ряда особенностей — переезда из ЦОДа Ростелекома, старого стека (при том, что на корпоративном проде частных облаков уже был новый) и потом задержек с развёртыванием сразу правильно.

Завтра будет большой апдейт, и там новые полностью бесплатные пакеты для индивидуальных пользователей.

По функционалу мы даем нашим пользователям, помимо виртуальных машин, виртуальные сети с преднастроенной конфигурацией, работающей из коробки и с большой гибкостью, чтобы настроить любые параметры, включая статическую маршрутизацию. Это, правда, открывает миллион способов выстрелить себе в ногу, если ты не знаешь, что делаешь, но ты получаешь полную свободу.

Да, мы обновили цены, то есть демократичные цены на все предоставляемые нами ресурсы. Дальше мы… Конечно же, предоставляем широкий набор образов, включая образы на Windows. Правда, с опцией «Приноси свой ключ».

Мы не забыли про базы данных, балансировщики, объектное хранилище, возможность делать бэкапы и снапшоты дисков. И, наконец-то, у нас доехал новый обновленный UI подо все это.

Мы решили не мелочиться и для первых пользователей собрали пакет, на котором можно запустить серьёзный проект, а не только блог. Это не триальный «огрызок», а полноценный сетап.

Что внутри:
  • 2 мощные виртуальные машины (на свежих Xeon 5 с памятью DDR5).
  • Балансировщик нагрузки, чтобы распределять трафик.
  • Управляемая база данных (PostgreSQL или MariaDB на выбор).
  • 40 Гб быстрого сетевого хранилища (SSD).
  • 100 Гб объектного хранилища для файлов и бекапов.
  • 1 белый IPv4-адрес.

Этого хватит, чтобы поднять сайт, который выдержит 10 тысяч запросов в секунду. Или развернуть корпоративную почту для всей компании. Ну или завести сервис наблюдения за котом. Можно даже за соседским, чтобы он у вас на участке не гадил.

Сейчас заканчиваем стресс-тесты для инфраструктуры.

Завтра откроем доступ уже в новой консоли.

Посмотреть что у нас есть уже сейчас можно тут

С уважением,
Константин \m/
H3LLO.CLOUD

Знакомьтесь, это ванна






В ванне у нас 24 ячейки по 5 киловатт. То есть одна «лежачая стойка» — отвод 120 киловатт тепла. Это примерно в 20 раз больше, чем стойка в обычном ЦОДе.
Ячейка — 25х30 см. Туда по ширине влезает стандартная двухпроцессорная материнская плата.
Сама установка имеет габариты чуть больше двух метров в длину, порядка метра в ширину, и в высоту она у нас где-то сантиметров 80.
Внутри у нас не самое новое железо, которое мы чаще всего и погружаем, — то, что уже доживает свой век или изначально рассматривается как расходный материал.
Жидкость, которую мы используем, — диэлектрическая, то есть ток не проводит. Но она имеет масляную основу.
И ванна, как оказалось, вполне себе может гореть!
Мы это поняли на практике.
На фотографии просто ванна, которую повело от перегрева. А ещё одна сгорела, и сфотографировать мы это не успели. Это было задолго до публичного облака, ещё когда мы хостили криптанов с асиками. Пожарные, когда поняли, что горит целая ванна масла, сказали, что тушить её бесполезно и пока всё масло не выгорит, они будут просто смотреть, чтобы огонь не перекинулся на соседние.
Так мы провели вечер у костра.

Старые серверы мы разгоняем и топим. Это даёт +2 года использования в инференсе, а поскольку это гиперскейл в контейнерах — то, когда сервер умрёт, никто не заметит, это часть жизни.
Но сначала утопленника надо разогнать и подготовить.
  • 1. Меняем провода на те, у которых изоляция не растворяется при +50 по Цельсию. Провода обычно выше процессора при вертикальном погружении, и туда доходит прямой поток тепла. А для изоляции обычных проводов такая температура очень неприятная.
  • 2. Снимаем кулеры и всё движущееся, чтобы не мешали потоку жидкости. Движение жидкости обеспечивается насосом ванны и естественной конвекцией.
  • 3. Если кулер снять, сойдёт с ума контроллер железяки (если он есть) и будет пытаться троттлить железку, потому что не получается выставить повышенные обороты кулеру. Заливаем новую прошивку или ломаем датчик, чтобы железка думала, что кулер всегда на максимуме.
  • 4. Иногда надо отколупать или перевернуть радиаторы, они очень мешают потоку жидкости.
  • 5. Такая же фигня с оперативкой рядами. Мы, например, искали платы, у которых процессор с оперативной памятью тоже ставится вертикально. У многих они ставятся горизонтально, что, соответственно, будет препятствовать нормальному охлаждению каждого второго, третьего и последующего модуля памяти в ряду. Жидкость должна проходить их насквозь, а не как пороги.
  • 6. Обычная термопаста со временем растворяется и вымывается из-под радиатора. Есть специальная, устойчивая к вымыванию. Нам её поставляет производитель иммерсионных установок. Новая намазывается навсегда. У нас рекорд 4 года, поэтому навсегда равняется именно этому сроку. Дольше сервак в ванне не жил.
  • 7. Жёсткие диски иногда очень сложно достать, если сервер уходит мордой вниз. Иногда нужны специальные салазки или что-то ещё, чтобы можно было вытащить диск для замены, не вынимая сервер из ванны.

h3llo.cloud/ru/

Ваше мнение стоит целого ЦОДа




Добрый день, H3llo!

Мы тут готовимся к публичному запуску последнего коммерческого облака в России и не хотим стрелять себе в ногу.

А самый проверенный способ выстрелить себе в ногу — стать корпоратами, деплоить в пятницу вечером, отключить файрвол на минуточку для теста и не слушать сообщество.

Поэтому я пришёл к вам с вопросами.

Их всего три: что у вас случалось раньше плохого с облаками или хостингами, что бы вы хотели исправить и что вы бы лично хотели от нашего облака.

Ответить можно тут. Займёт от 30 секунд до 1 года, но медиана где-то в районе 3 минут.
survey.h3llo.cloud


Заранее большое спасибо!

Не обещаю, что всё это имплементируем, но обещаю, что очень внимательно к этому отнесёмся и потом поделимся с вами и сообществом результатами всего опроса.

Мне серьёзно очень важно услышать про ваш опыт, потому что мы делаем облако без херни. По крайней мере, стараемся.

С уважением,
Константин \m/
H3LLO.CLOUD

h3llo.cloud/ru/

У нас в названии есть слово «гиперскейлер»




У нас в названии есть слово «гиперскейлер». На подкасте меня спросили, а что это.
Я прям растерялся.
Это хостинг масштабом больше любого потенциального клиента в разы. В смысле, когда у клиента случится пиковая нагрузка, он сможет получить все нужные ресурсы.
Это значит несколько неочевидных вещей:
  • Нет единого крупного клиента (привет, Сбер).
  • График потребления ресурсов у клиентов разный (а не облако для розницы, падающее в чёрную пятницу).
  • Есть свободные ресурсы или ресурсы, с которых можно сдвинуть какие-то проекты вроде месячного расчёта для поиска обитаемых планет в фоновом режиме.
  • Есть платформа, которая позволяет так масштабироваться.
  • Есть куча автоматизаций, которые решают проблемы свёртывания-развёртывания.
Напомню, мы выкинули всё, что раньше делали другие (потому что у других получился Опенстек), переосмыслили всё это полностью и написали свою платформу. У нас никакого легаси, сложных совместимостей, зато есть самое топовое железо. И как следствие мы строим лучший пользовательский опыт. Мы не идём в сторону сотен сервисов, как у Амазона. Мы идём в сторону того, чтобы это было просто, понятно, удобно и экономически эффективно.
Местами получается. Мы только начали.

h3llo.cloud/ru/