Рейтинг
0.00

Yandex Cloud

5 читателей, 254 топика

Сбой с вероятностью один раз в 20 лет: о мартовском инциденте в дата-центре



30 марта сервисы, размещённые в одном из наших основных дата‑центров, оказались недоступны. К инциденту привела авария на опорной подстанции, которая спровоцировала отказ сразу двух вводов питания и последующий каскадный сбой оборудования.

В этой статье подробно покажем, какие именно риски сработали — а для этого объясним, как устроено энергоснабжение в дата‑центре и на что это влияет. С этой точки зрения посмотрим, как развивались события в этот день и что бывает в дата‑центре, когда случаются ситуации, вероятность которых оценивается как «один на десятилетия». В завершение расскажем, что планируем делать дальше, чтобы не допустить повторения, и какой урок из этого могут извлечь другие инженеры.

Как устроено энергоснабжение дата-центра
Для того чтобы понять ход воскресных событий, даже если вы редко сталкиваетесь с инженерной инфраструктурой, потребуется сделать шаг назад и вспомнить, как работают системы энергоснабжения в целом и как устроено резервирование электропитания в дата‑центре на случай аварий. Если вы опытный инженер, и уже хорошо всё это знаете, можете просто промотать немного дальше.

Кратко о национальной электроэнергетической системе в целом. Если сильно упрощать, то систему энергоснабжения в масштабе страны можно поделить на несколько уровней:
  • Источники — многочисленные электростанции, которые генерируют энергию: ТЭС, ГЭС, АЭС и т. д.
  • Сеть передачи энергии — линии электропередачи (ЛЭП) высокого уровня напряжения, которые образуют «кровеносную систему» для снабжения электричеством всех уголков страны.
  • Систему преобразования и распределения. Поскольку по магистральным линиям идёт ток высокого напряжения, для передачи энергии в готовом для потребления виде нужны электроподстанции, которые принимают энергию от генераторов, преобразуют уровень напряжения и распределяют дальше по регион
  • Ну и вокруг всего этого есть большой блок эксплуатации: инженерам необходимо следить за исправностью всего оборудования, вовремя проводить ТО, устранять возникающие аварии и минимизировать последствия и так далее. Для этого существуют лучшие практики и правила эксплуатации, в работе им помогает система диспетчерской связи — для этой статьи подробнее расписывать не будем.

Единая энергетическая система России — крупнейшее в мире энергообъединение с централизованным управлением. Чтобы обеспечить электропитанием все субъекты федерации параллельно работают семь объединённых энергетических систем (ОЭС) — Центра, Юга, Северо‑Запада, Средней Волги, Урала, Сибири и Востока. Подробнее о том, как это устроено можно также почитать здесь.

Чтобы такая масштабная система работала без сбоев, инженеры строят отказоустойчивую сеть и продумывают варианты «страховки», например, то самое резервирование: альтернативные схемы работы на случай отказа какого‑то из узлов. Например, в случае разрыва ЛЭП продумываются альтернативные пути передачи, но не только. У всех подобных систем довольно сложная внутренняя архитектура.

По ту сторону этой системы есть потребители электричества, которые тоже бывают разных уровней, от простых жителей с розетками на 220 В, до сверхкрупных предприятий, которые могут ставить свои трансформаторы для приёма тока высокого напряжения и преобразования энергии для своих нужд.

Как мы учитываем эту информацию при строительстве дата‑центров. Стандарты проектирования дата‑центров предписывают внимательно выбирать место для строительства с учётом всех факторов риска: от доступности инфраструктуры и до вероятности стихийных бедствий и техногенных катастроф. Доступность и надёжность энергоснабжения — как раз один из таких важнейших факторов.

Если вернуться конкретно к дата‑центру Яндекса, то он появился в 2010-х годах на площадке, которая раньше принадлежала заводу и уже имела выгодное положение: она расположена максимально близко к генератору и надёжному поставщику энергии. Для понимания надёжности: самая близкая к дата‑центру подстанция на 220 кВ не сбоила ни разу с 1960 года. Её установленная мощность 251 МВА, и сегодня подстанция обеспечивает параллельную работу нескольких региональных энергосистем.

Заметка на полях: на самом деле, одна довольно крупная авария на нашей памяти случалась в 2015 году, когда на подстанции полностью отключился трансформатор. Но поскольку таких трансформаторов на подстанции подобного уровня несколько — нагрузку удалось перераспределить на другие линии, и мы как потребитель почти ничего не заметили. За счёт чего можно обеспечить резервирование — расскажу чуть ниже.

Такие подстанции проектируются как сложные распределённые системы, чтобы предоставить потребителям определённые гарантии независимости ячеек. Теоретически можно подключиться и к нескольким подстанциям, но в этом нет практического смысла, так как они все являются частью одной системы, замкнутой по своему дизайну. Поэтому существующее решение было наиболее подходящим вариантом.

Когда на площадке был создан первый энергоцентр, дата‑центр потреблял относительно немного, но с учётом планов по загрузке мощностей мы также установили дизель‑генераторные установки (ДГУ) в качестве резервного источника питания. Несмотря на распространённый миф, что «ДГУ всех спасут», эти установки тоже являются точкой отказа. И на этот случай есть несколько вариантов подстраховки.

Что делать с тем, что у ДГУ есть свои риски. Когда в системе электроснабжения происходят нештатные ситуации, у нас всегда есть угроза скачка напряжения, из‑за которого мы рискуем получить пробой изоляции, выход из строя блоков питания и других частей оборудования. Для чувствительного IT‑оборудования это особенно опасно, поэтому на случай аварий схемы подключения продумываются так, чтобы скачок напряжения «не дошёл» до конечного сервера, и переключение для него было максимально бесшовным и незаметным.

Для такого плавного переключения рядом с ДГУ часто стоят источники бесперебойного питания (ИБП), которые могут сразу же принять на себя нагрузку на то время, пока ДГУ заводится и выходит на полную мощность. Другой частый вариант — вместо ДГУ использовать ДРИБП (дизель‑роторные источники бесперебойного питания), которые являются устройством «два в одном» и сочетают в себе возможности ДГУ и ИБП. У них свои особенности, схема подключения будет чуть другой, но в целом это тоже распространённый вариант. Мы его тоже используем.

Также для сокращения времени запуска ДГУ их стараются держать тёплыми, проводят регулярное ТО и тестовые пуски, чтобы убедиться, что резервный источник питания в любой момент готов принять нагрузку.

Но иногда именно в момент аварии ДГУ могут сразу не запуститься именно из‑за того, что что‑то в системе идёт нештатно. А значит, считать такую установку основным источником питания всё равно нельзя, нужен ещё какой‑то резерв.

Как резервирование питания сейчас устроено у нас. Через 10 лет после строительства мы завершили постепенную модернизацию дата‑центра, чтобы привести его в соответствие с растущими нагрузками и лучшими практиками и стандартами проектирования.

Одна из таких зарекомендовавших себя практик — два независимых источника питания. Чтобы минимизировать риски отказа на стороне энергосистемы, можно подключаться к таким источникам напрямую (что мы и сделали). Для этого мы по сути стали потребителем более высокого уровня и заключили договор с федеральным оператором.

В результате мы подключили дата‑центр по линиям высокого напряжения (110 кВ) напрямую к опорной подстанции в сети национального оператора — в нашей схеме это уровень 1.

Как это выглядит:


Нижним уровнем в такой схеме будет технологический модуль дата‑центра — это автономный технологический квант с точки зрения размещения оборудования и инженерных систем. Типичный дата‑центр Яндекса содержит несколько десятков таких модулей: модули сервисов Яндекса, модули облака, пара модулей сетевого центра.

И если на первом уровне опорная подстанция немного остаётся для нас «чёрным ящиком», то на всех последующих мы контролируем всё сами и обеспечиваем резервирование. Пройдёмся по всем уровням, что для этого сделано:
  • Уровень 2: построили собственные кабельные линии от опорной подстанции. Так мы избежали использования более хрупких распределительных сетей общего назначения между дата‑центром и подстанцией.
  • Для резервирования питания два раздельных ввода питания подключены к раздельным ячейкам питающей подстанции высокого напряжения.
  • Уровень 3: построили собственную подстанцию 110кВ. Подстанция введена в эксплуатацию ещё в 2014 году, оборудована двумя трансформаторами 110/10кВ и закрытым распределительным устройством 10кВ.
  • Каждый модуль дата‑центра подключается двумя линиями к разным секциям шин 10кВ. И это одна из причин, почему уже упомянутая крупная авария на опорной подстанции в 2015 году прошла незамеченной.
  • Уровень 4. Это уровень распределительных линий 10кВ между нашей подстанцией и технологическими модулями дата‑центра. На этом же уровне находятся ДРИБП.
  • Они используются для поддержания работоспособности сетевой инфраструктуры дата‑центра, сервисов безопасности, наблюдения и управляющего контура (Observability).
  • Уровень 5. Это технологический модуль дата‑центра.Типовая схема подключения всех технологических модулей дата‑центра: два независимых трансформатора 10/04 кВ, ИБП и распределительное устройство, для возможности проведения регламентных работ.

В случае, если один из вводов питания оказывается недоступен, второй ввод может полностью принять нагрузку на себя — мощность дата‑центра рассчитана таким образом, что одного ввода достаточно, чтобы держать электроснабжение полностью загруженного дата‑центра. Осуществлять переключение помогает распределительное устройство, или АВР (автоматический ввод резерва). С его помощью также можно проводить обслуживание на одной из линий.

Для чего остались ДГУ в этой схеме. В дата‑центрах Яндекса дизельные установки используются для поддержания работоспособности управляющего контура дата‑центровых сервисов.

Решение с ДРИБП помогает сократить время реакции операционной команды в случае сбоев по питанию. Так каждый дата‑центр остаётся транзитным для трафика других дата‑центров, а также при этом обеспечивается мягкий взлёт для остальных сервисов. Помимо этого сеть нужна в том числе для мониторинга инженерных систем и рабочих мест сотрудников дата‑центра, чтобы множество проблем можно было заметить удалённо.

Для понимания масштабов и эксплуатационных рисков: проведение планового обхода всего дата‑центра в этой зоне потребует от пары дежурных инженеров 4 часов на ногах. Следовательно, если где‑то не срабатывает автоматика, или сама процедура по регламенту должна выполняться с участием инженера — большой объём работы по устранению серьёзной аварии потребует и серьёзного усиления команды.

Благодаря тому, что сеть и управляющие сервисы дополнительно зарезервированы с помощью ДРИБП, даже если сбой крупный, зона по‑прежнему видна на мониторинге, и связана по сети с другими зонами доступности, а значит, трафик может убегать из одного дата‑центра в другой. Это важная деталь, когда нужно зарезервироваться на уровне всей сети дата‑центров.

Как это работает при резервировании уровнем выше. При планировании схем резервирования мы исходим из того, что сервисы управляющего контура Яндекса должны продолжать работать и при недоступности одного дата‑центра. В этом случае нагрузка должна перераспределяться по остальным зонам доступности.

Поскольку это довольно сложная задача, то помимо самой схемы с дополнительным резервированием, серьёзно продумываются и регламенты эксплуатации. Мы регулярно проводим для команды учения с имитацией падения одного дата‑центра, и как правило продолжаем совершенствовать систему эксплуатации по итогам таких учений.

По нашей статистике от команды эксплуатации за последние четыре года:
  • Если иметь в виду линии 110 кВ и нашу высоковольтную часть подстанции, в том числе трансформаторы 63 МВт, — то около десятка раз проводилось плановое обслуживание, при этом дата‑центр находился в рабочем состоянии на одной линии или одном трансформаторе. Было зафиксировано одно неплановое отключение линии из‑за сработки защиты на опорной подстанции: после локализации оказалось, что срабатывание защиты было ложным, но все системы отработали штатно. Все подобные инциденты наше оборудование и наши пользователи не почувствовали.
  • По среднему напряжению 10 кВ за четыре года было 56 плановых отключений по одной линии какого‑либо модуля для техобслуживания. Работали на втором вводе, и IT‑оборудование также продолжало функционировать.

Понятно, что все плановые работы идут с предупреждением сервисов соответствующих модулей и с особым регламентом проведения работ.

Но в целом эти данные показывают, что энергосистема большого дата‑центра — это живой и функционирующий механизм. И функционирующий хорошо и надёжно.

Теперь посмотрим, какие из перечисленных рисков сработали для нас в то воскресенье и что привело к «эффекту домино».

Что происходило 30 марта
В 12:25 воскресенья на мониторинге мы заметили недоступность дата‑центра по питанию и сразу приступили к выяснению и устранению проблемы.

Как было видно в системе, в 12:18 на площадке запустились ДРИБП, но уже в 12:20 стало наблюдаться «резкое занижение напряжения». В 12:27 главный инженер обслуживающей организации связался с дата‑центром и сообщил, что на подстанции отключились обе линии 110 кВ, но причина пока неизвестна. А значит, у нас Проблема № 1: сразу две точки отказа по питанию с непонятным прогнозом, а дизель‑генераторы просто не рассчитаны на то, чтобы принять такую нагрузку.

При этом на площадке находилась только воскресная смена, а значит, мы начинаем уже на этом этапе усиливать команду.

До 13:00 мы полностью сняли всю маршрутизацию трафика для всех наших дата‑центров, чтобы возвращение работоспособности проходило под контролем дежурной смены. Одновременно с этим это помогло в течение первых 30–40 минут дать рекомендации всем пользователям мультизональных сервисов перераспределить нагрузку на другие зоны.

Также примерно в это же время мы получили сообщение с федеральной подстанции, что технически система готова к подаче напряжения, но по регламенту нужно получить разрешение от диспетчерского управления. Возникает Проблема № 2: при сбоях такого масштаба, которые затрагивают сразу несколько региональных подсистем, «нельзя просто взять и включить всё обратно», нужно убедиться, что это не усугубит ситуацию.

В 15:30 вернулось питание от подстанции и стартовали работы по восстановлению электропитания дата‑центра.

С 15:52 начался запуск инженерных систем из состояния blackout — в первую очередь для модулей облачной платформы. Здесь было важно перед IT‑эксплуатацией проверить работоспособность оборудования, и по регламенту это ручной процесс, с подключением инженера. Здесь появляется Проблема № 3: не все работы можно провести автоматически, мы зависим от скорости ручных операций.

Но поскольку во время потери питания ДГУ приняли нагрузку от сетевого оборудования и систем эксплуатации, мы смогли быстрее приступить к восстановлению работоспособности сетевого и серверного оборудования.

К 17:04 мы восстановили электропитание и работу оборудования. Приступили к восстановлению работы сервисов.

19:08 — убедились в целостности данных и конфигураций инфраструктурных систем. Приступили к восстановлению работоспособности сервисов.

20:30 — восстановили доступность первых базовых сервисов, рантмайма, хранилища и начали поэтапное восстановление сервисов баз данных.

В 21:55 успешно завершилось включение всех инженерных систем для работы IT‑оборудования в облачных модулях.

Около 22:22 работа основных сервисов полностью восстановлена. Приступили к возвращению балансировки сетевой нагрузки и доступности остальных сервисов и к 00:00 полностью восстановили работоспособность всех сервисов в зоне.

Что мы планируем делать дальше
Как показал наш опыт, маловероятные ситуации, которые случаются раз в 10–20 лет, вполне могут оказаться реальностью. Следовательно, уже сейчас мы ведём переоценку рисков, которые связаны с энергоснабжением дата‑центров.

Самым лёгким вариантом может показаться «просто поставить больше ДГУ», но с одной стороны такое решение нельзя будет реализовать в короткие сроки, а с другой — как мы помним, ДГУ не панацея (см. начало статьи). Поэтому планируем комплексную работу на нескольких уровнях.

На уровне дата‑центров
Мы продолжаем опираться на принятую в Яндексе модель резервирования на случай отказа «−1 ДЦ» и старательно придерживаемся её во всех сервисах. Но при этом мы знаем, что у части пользователей Yandex Cloud нагрузка размещена только в одной зоне, и поэтому для модулей облачной платформы рассматриваем альтернативные схемы резервирования, в том числе с использованием ДГУ как третьего, резервного источника питания.

На уровне сервисов Яндекса
Мы продолжим проведение регулярных учений для отработки действий команды эксплуатации на случай нештатных событий. В этот раз сервисы Яндекса в основном пережили сбой нормально, но мы выявили несколько мер, которые позволят ускорить «холодный» старт зоны.

На уровне Yandex Cloud
Чтобы клиенты облачной платформы также могли реализовать модель «−1 ДЦ» для проектирования высоконадёжных сервисов, есть несколько зон доступности. Мы продолжим развивать инструменты мультизональной отказоустойчивости и пополнять библиотеку архитектурных решений, которыми могут воспользоваться клиенты.

Одно из последних решений — инструмент Zonal Shift. Это механизм оперативного отключения подачи трафика L3/L7-балансировщиков в зону. В условиях полного отказа дата‑центра он уже доказал свою эффективность и помог точечно управлять нагрузкой для сервисов с мультизональной архитектурой. Надеемся, что он поможет клиентам в том числе для проведения учений.

Чему другие инженеры могут научиться на нашем опыте
Мультизональность на такие случаи — это необходимость для mission‑critical‑сервиcов. Мы публикуем этот разбор в том числе для того, чтобы больше компаний могли оценить подобные риски для себя и заранее подготовиться к возможным инцидентам. Чтобы не повторять чужой опыт в подобной ситуации, лучше быть готовым ко всему: знать, как может развиваться проблема, для более быстрой диагностики и минимизации последствий.

Обновление Yandex BareMetal: показываем самые популярные сценарии



Сегодня мы выпустили в публичное превью сервис по аренде выделенных серверов Yandex BareMetal — теперь пользователи облака могут арендовать у нас серверы и интегрировать их с облачной средой. С сервисом можно работать по API, а также гранулярно настраивать права доступа к серверам за счёт интеграции с Yandex Identity and Access Management.

В этой статье покажем, какие наиболее популярные сценарии можно реализовать с помощью обновлённого сервиса.

Что важно для компаний, которые арендуют физические серверы
По данным исследования Yandex Cloud, 59% российских компаний начали использовать услуги аренды физических серверов относительно недавно, в последние 1,5 года.

Какие облачные сервисы наиболее актуальны при интеграции с bare metal:
  • сервисы защиты от DDoS‑атак (59% респондентов);
  • сервисы резервного копирования (48% респондентов);
  • облачный роутер — единая сеть между выделенными серверами и облачной инфраструктурой (46%).

Для чего чаще всего применяют технологии bare metal:
  • для хранения и обработки данных — 70% респондентов;
  • для собственных виртуализаций, например, Openstack или VMware — 66%;
  • для хостинга бизнес‑приложений — 47%;
  • для задач бэкофиса — 44%.
На примере сервисов Yandex Cloud далее мы увидим, как могут решаться разные задачи благодаря интеграции облачных сервисов c выделенными физическими серверами.

Сценарии интеграции с сервисами резервного копирования
Традиционно в составе облачной платформы задача по безопасному и надёжному хранению данных решается при помощи двух технологий:
  • Встроенные в платформу облака технологии защиты дисков виртуальных машин. В случае Yandex Cloud стоит вспомнить про снимки дисков виртуальных машин.
  • Технология объектного хранилища, которая подходит не только для задач по хранению данных приложений, адаптированных к облачной инфраструктуре, но и для хранения резервных копий.

В большинстве случаев эти технологии закрывают значительную часть сценариев по защите данных. Тем не менее, в некоторых случаях этого недостаточно.

Для наглядности возьмём сценарий, связанный с защитой данных на файловом уровне, для приложения, которое не может работать с S3. Представим случай, когда специфика работы приложения требует контроля целостности при выполнении операций по резервному копированию.

Какую технологию использовать?
Ответ на вопрос кроется в использовании дополнительных, или наложенных решений для защиты информации. Примером такого облачного сервиса может быть Yandex Cloud Backup, который решает задачи по резервному копированию данных не только для защиты виртуальных машин, но и физических серверов в сервисе Yandex BareMetal. Поскольку физический сервер остаётся неизменным атрибутом традиционной ИТ‑инфраструктуры, то для него важно предусмотреть защиту на всех уровнях. Raid‑массивы призваны защитить от потери данных при выходе из строя одного или нескольких накопителей/блочных устройств. Если же из строя выходит целый сервер, то понадобятся как раз такие специализированные решения.

Как работает интеграция. Cloud Backup использует специализированный агент, который устанавливается в ОС физического сервера, за счёт чего появляется возможность выполнять операции резервного копирования:
  • для всех блочных устройств в составе сервера;
  • для определённых блочных устройств в составе сервера;
  • для определённых файлов и папок (директорий);
  • для данных приложений, требующих контроля целостности (базы данных);
  • также следует отметить, что грамотная настройка стратегии защиты (стратегии резервного копирования) положительно влияет на показатели RPO и RTO.

Для начала работы с этим провайдером резервного копирования пользователь проходит несколько подготовительных шагов, которые обеспечивают безопасное и надёжное создание и хранение бэкапов:
  • Настройку сервисных аккаунтов.
  • Настройку тестового сервера и необходимых сетевых разрешений.
  • Создание политик резервного копирования.
Подробнее о тонкостях конфигурирования можно узнать в документации. При настройке важно помнить о базовых практиках безопасности: не создавать долгоживущих ключей, использовать надёжное хранилище секретов, внимательно назначать сетевые доступы.

Такая правильно настроенная интеграция с Cloud Backup решает задачу защиты данных от потери на физическом серверном оборудовании в рамках «одного окна», не покидая консоль Yandex Cloud.

Сценарии интеграции с объектным хранилищем
В контексте физических серверов S3-совместимое хранилище может решать несколько задач.

Опция 1. Клиент решил перенести нагрузку из виртуальной машины на физический сервер, при этом приложение использовало технологии облака, и часть данных приложения размещались в S3-хранилище.

Опция 2. Клиент разворачивает на bare‑metal‑серверах кластер баз данных, например, кластер PostgreSQL высокой доступности. Технологии кластеризации, обеспечивающие репликацию данных между всеми вычислительными единицами в кластера позволяют решить задачу доступности базы для конечных потребителей, однако эта технология не помогает защитить данные от порчи или утраты, в случае повреждения базы данных.

Для решения задачи по защите данных следует применять стратегию защиты с использованием технологии Point‑in‑Time Recovery (PITR), которая позволяет восстановить состояние кластера на любой момент времени в интервале от создания самой старой полной резервной копии до архивации самого свежего журнала опережающей записи (Write Ahead Log, WAL). Это позволит приблизить показатели RTO и RPO к минимальным значениям, а хранение резервных копий и WAL транзакций в объектном хранилище (S3) обеспечит сохранность резервных копий.

Основное отличие второго сценария в том, что схема защиты выстраивается на уровне базы данных, защита может быть выполнена без использования дополнительного ПО.

Как работает интеграция с S3-хранилищем в случае с PostgreSQL?
Для реализации потребуется решить две задачи:
  • Подключить кластер к объектному хранилищу с использованием FUSE‑драйвера, которым, например может выступить GeeseFS, оптимизированный для работы с Yandex Object Storage.
  • Интегрировать приватные подсети BareMetal с объектным хранилищем (S3) через сервисное подключение. В решении данной задачи поможет технология Cloud Interconnect, при помощи которой серверы BareMetal смогут взаимодействовать с приватными подсетями в Virtual Private Cloud.

Из каких кубиков складывается головоломка, или как решить задачу?
  • Создать VRF и приватную подсеть в BareMetal.
  • Арендовать физический сервер.
  • Создать сервисное подключение к S3 (Private Endpoint) в одной из имеющихся подсетей в VPC. Смотрим на документацию.
  • Настроить интеграцию с подсетями VPC (из BareMetal в VPC) через Cloud Interconnect. Смотрим на документацию.
  • Если используется собственный DNS‑сервер, создать необходимые ресурсные записи для направления трафика к S3-хранилищу на IP‑адрес сервисного подключения.
Если приватный DNS не используется в BareMetal‑контуре, настроить сопоставление через файл /etc/hosts (storage.yandexcloud.net <--> в IP‑адрес сервисного подключения).

Итоговая диаграмма сетевой связности для доступа к S3 будет выглядеть следующим образом:


Безусловно, доступные сценарии не исчерпываются этими примерами: так, в прошлый раз мы рассказывали о возможностях собственной виртуализации. Однако благодаря появившейся в обновлении интеграции с Cloud Interconnect, а также с расширением функциональности работы через API — можно выстроить и более сложные архитектурные сценарии.

Назначен новый глава Yandex Cloud



Платформу Yandex Cloud возглавил Григорий Атрепьев — он перешёл на эту должность с поста директора по продуктам Yandex Cloud. Операционным директором стал Александр Черников, который ранее отвечал за развитие бизнеса Yandex Cloud в России и СНГ.

Григорий Атрепьев работает в Yandex Cloud с момента создания платформы в 2018 году. Он присоединился к ней в роли архитектора облачных решений — специалиста, который проектирует и организует работу IT-систем в облаке. Под руководством Григория в Yandex Cloud были сформированы команды облачных архитекторов, технических аккаунт-менеджеров и инженеров. Это позволило платформе динамично расширять продуктовый портфель и оказывать клиентам всестороннюю помощь в любых задачах — от создания облачной IT-архитектуры до внедрения искусственного интеллекта в бизнес-процессы. В качестве руководителя Yandex Cloud Григорий будет формировать стратегию платформы и развивать экосистему B2B-продуктов, в том числе решения on-premises и продукты на базе ИИ.

Александр Черников присоединился к Yandex Cloud в 2019 году. В его зону ответственности входило развитие направления по работе с клиентами и масштабирование коммерческого блока. Под его руководством в 2022–2024 гг. выручка платформы выросла почти в 7 раз — до 19,8 млрд руб. В должности операционного директора Александр продолжит растить бизнес облачной платформы и новых направлений Yandex Cloud, а также развивать взаимоотношения с клиентами и партнёрами.

Обновление тарифов для корпоративных клиентов

С 15 апреля 2025 года мы обновляем тарифную линейку Яндекс 360 для бизнеса.
Онлайн-офис для совместной работы пополнится новыми продуктами, а в сервисах появятся новые функции на основе нейросетей.



360.yandex.ru/business/tariff/new_tariffs/

Приглашаем на BareMetal CyberChamp

Приглашаем вас на BareMetal CyberChamp — товарищеский турнир по Dota 2 среди сотрудников Яндекса и клиентов Yandex Cloud, в числе которых: 1С Game Studio, R‑Vision, Иви, ФК Динамо Москва и другие.

Регистрируйтесь и присоединяйтесь к трансляции финала 29 марта, где встретятся команды‑победители группового этапа.

А ещё вас ждёт:
  • экспертная сессия с представителями 1C Game Studio, Astrum Entertainment и сервиса Плюс Гейминг, которые обсудят текущее видение отрасли и поделятся мнением о трендах и технологиях в игровой индустрии;
  • открытый диалог, где мы расскажем о сервисе Yandex BareMetal в преддверии его большого обновления;
  • квиз по Dota 2 c розыгрышем призов.
Мы поддержим онлайн‑трансляцию турнира на выделенных серверах Yandex BareMetal, что обеспечит стабильность и высокое качество стриминга.

champ.yandex.cloud



Yandex BareMetal — не только для gamedev
  • Yandex BareMetal — это сервис по аренде выделенного физического сервера, все ресурсы которого доступны для решения только ваших задач.
  • Защищённые дата‑центры, соответствующие требованиям 152‑ФЗ, стандартам ISO, PCI DSS и ГОСТ Р 57580
  • Готовые конфигурации с возможностью установки своих средств виртуализации, ОС и ПО
  • Дополнительные вычислительные мощности, которые можно оперативно получить для проведения тестирований и поддержки текущих и новых сервисов
  • Управление через KVM в консоли Yandex Cloud или по SSH‑протоколу, контроль доступа с помощью IAM

Обновление тарифов в некоторых сервисах c 1 мая 2025 года





C 1 мая 2025 года мы обновим тарифы в некоторых сервисах Yandex Cloud — это первое повышение цен с 2022 года.
За это время расходы на создание и развитие IT-инфраструктуры и сервисов на рынке облачных технологий выросли примерно на 35%.
Рост обусловлен целым рядом макроэкономических факторов, и ключевые из них — регулярное повышение цен на оборудование, значительное изменение курса рубля и увеличение стоимости разработки и поддержки.
Изменение тарифов Yandex Cloud не будет превышать 8%. Ряд сервисов текущие изменения не затронут вовсе.



В будущем изменения цен на сервисы Yandex Cloud будут привязаны к началу календарного года — уведомлять об этом мы будем заранее. Такой подход поможет клиентам упростить долгосрочное финансовое планирование.

Специальные условия, скидки и резервы
Цены и скидки, которые были зафиксированы в рамках специальных условий или резервов до 6 февраля 2025 года, остаются в силе и будут действовать в соответствии с согласованным сроком и объёмом потребления.
Также в консоли продолжит действовать резервирование ресурсов (CVoS). На новые резервы, купленные с 6 февраля 2025 года, цены будут проиндексированы с 1 мая 2025 года.
Если у вас остались вопросы, пожалуйста, обратитесь к вашему аккаунт-менеджеру или в техническую поддержку.

Итоги года: что общего между результатами Yandex Cloud и шахматными рекордами

Шахматы — наша новогодняя тема: точные ходы и продуманные стратегии вдохновляют команду Yandex Cloud. В 2024 году мы достигли новых высот в технологиях и поддержке клиентов, а теперь решили провести параллели между нашими успехами и шахматными рекордами.

Очень сложно точно посчитать, сколько было сделано ходов в истории шахмат. В международной шахматной базе данных — более 11 млн партий, сыгранных с 1475 по 2024 год. Если в среднем брать по 40 ходов за партию, это свыше 440 млн ходов. При этом в базе только результаты профессиональных турниров, а сколько любительских партий сыграли за это время онлайн и вживую — вычислить невозможно.

Шахматы стали нашей новогодней темой неслучайно: эта игра вдохновляет нас на новые достижения. Подобно гроссмейстерам мы продолжаем расти и развивать бизнес, помогаем клиентам и партнёрам становиться сильными фигурами на рынке, а разработчикам создавать новые технологии и делать выигрышные ходы в работе и жизни. В этой статье проводим параллели между нашими итогами 2024 года и заметными рекордами в мире шахмат. Надеемся, эти истории вдохновят и вас на новые достижения.

Высший шахматный рейтинг
В мае 2014 года Магнус Карлсен занял первую строчку в рейтинговом листе Международной шахматной федерации (ФИДЕ), достигнув рекордной отметки в 2882 пункта. Так высоко в мировой истории шахмат не забирался никто.

Рейтинг шахматиста — это числовой параметр, который отражает результаты игрока в предшествующих рейтинговых партиях и показывает его силу относительно силы соперников. Мы в Yandex Cloud тоже смотрим, как прошли наши «предшествующие партии». Например, сравниваем свои результаты с итогами предыдущего года, оценивая, насколько мы выросли и что улучшилось.


Дольше всех был чемпионом мира
Немецкий шахматист Эмануил Ласкер пять раз успешно защитил свой титул и провёл на шахматном троне рекордные 27 лет — с 1894 по 1921 годы. Даже после потери звания он продолжал выступать на высшем уровне до 68 лет.
Для нас важно оставаться чемпионами в своей отрасли, поэтому мы регулярно развиваемся и расширяем горизонты. Так, весной разместили серверы на территории Казахстана. Теперь компании из Центральной Азии могут использовать наши сервисы и технологии для разработки, тестирования и запуска цифровых продуктов.

Рекордные 7 284 970 партий в день 100‑летия ФИДЕ
20 июля 2024 года, в день 100‑летия ФИДЕ, во всём мире прошло более 350 онлайн- и офлайн‑турниров. За 24 часа было сыграно 7 284 970 партий, это максимум, который попал в Книгу рекордов Гиннесса. Сложно представить, сколько вариантов решений проанализировали игроки во время поединков.
Игра в шахматы требует умения анализировать, прогнозировать и принимать решения. Расчёт и подбор комбинаций ходов помогают игроку прийти к победе в партии. Наши сервисы и платформы данных тоже анализируют огромные объёмы информации и помогают клиенту принять верное решение.
Так, компания Rostic’s использует аналитику данных, чтобы ускорить обслуживание и сборку заказов, оптимизировать работу курьеров и увеличить продажи торговых точек. Автостэлс‑Тех применяет аналитическую платформу для хранения данных и использования их в качестве источника для ML‑систем, CRM и других сервисов.
yandex.cloud/ru/blog/posts/2024/04/rostics
yandex.cloud/ru/cases/autostels-tech


Чтобы пользователи могли работать с данными в более сложных задачах и сценариях, в этом году мы запустили:
  • Yandex MetaData Hub — инструмент, который помогает управлять подключениями к базам данных, описывать схемы данных и организовывать работу с метаданными в едином каталоге.
  • Data Platform Solution Library — библиотеку решений для работы с данными в облаке. С её помощью можно упростить разработку IT‑решений.

Самый масштабный сеанс одновременной игры
При одновременной игре шахматист проводит сразу множество партий с соперниками, сидящими по кругу или в один ряд. Игрок делает ход на одной доске, затем переходит к следующей.

Рекордсмен по количеству противников в одном сеансе — Эхсан Гаем Магами, двенадцатикратный чемпион Ирана. В 2011 году он провёл одновременную игру против 604 шахматистов. Эхсан победил 580 игроков, свёл вничью 16 партий и проиграл всего 8 поединков.

Многие наши клиенты тоже проводят «сеансы одновременной игры»: разрабатывают продукты, заботятся об информационной безопасности и непрерывно поддерживают сервисы для миллионов пользователей в разных точках мира. Вот некоторые их них:


Самая долгая неподвижность фигур
В 2021 году во время партии между израильскими шахматистами Эйтаном Розеном и Марселем Эфроимски в Хайфе чёрная пешка G не двигалась на протяжении 225 ходов. Практически всё это время она защищала ферзя.
Защита — неотъемлемая часть любой системы, и мы в Yandex Cloud уделяем ей особое внимание. В этом году мы последовательно увеличивали инвестиции в информационную безопасность и защиту клиентов, а также предложили им новые продукты и сервисы:

Самая долгая шахматная партия с благотворительной целью
В апреле 2024 года чемпион Нигерии Тунде Онакойя и чемпион США Шон Мартинес играли 60 часов подряд на Таймс-сквер в Нью-Йорке и установили новый мировой рекорд по продолжительности игры. Онакойя устроил матч в рамках благотворительной кампании Chess In Slums Africa, чтобы обеспечить детей из бедных регионов Африки образованием.
Мы в Yandex Cloud тоже стремимся решать социально важные задачи и запускать проекты в области образования и науки, здравоохранения, экологии и культуры. В 2024 году представили сервис для отслеживания облаков пепла на Камчатке, создали крупнейший каталог вспышек на карликовых звёздах и разработали систему на базе ИИ, которая помогает врачам выявлять редкую патологию spina bifida при беременности. Всё это делает Центр технологий для общества Yandex Cloud.
yandex.cloud/ru/blog/posts/2024/03/kamchatka-all-materials
yandex.cloud/ru/blog/posts/2024/10/stars-snad
yandex.cloud/ru/social-tech

Наименьшее число ходов за весь турнир
В 2003 году венгерский гроссмейстер Петер Секей свёл вничью все 13 партий одного из турниров Мемориала Капабланки и потратил на это всего 130 ходов. То есть в среднем он делал по 10 ходов в каждой партии.
Наша служба поддержки тоже стремится уменьшить количество ходов к победе: отвечает клиентам оперативно и решает вопросы всего за несколько сообщений в чате.


Самое большое число зрителей шахматного турнира
В 2016 году на официальном сайте ФИДЕ больше 10 млн человек следили за поединком двух гроссмейстеров: Магнуса Карлсена и Сергея Карякина. Матч вызвал огромный интерес зрителей — его смотрели даже те, кто далёк от мира шахмат.
Мы по своему опыту знаем, как сложно бывает организовать стабильную онлайн‑трансляцию, будь то деловое мероприятие, премьера нового сериала или даже посадка марсохода «ЭкзоМарс». В августе 2024 года мы запустили сервис Yandex Cloud Video. Он позволил транслировать с минимальной задержкой по времени нашу главную конференцию Yandex Scale, которую смотрели больше 15 тыс. человек.
yandex.cloud/ru/blog/posts/2024/08/yandex-cloud-video
scale.yandex.cloud/

Самый масштабный сеанс игры вслепую
В игре вслепую шахматисты держат расположение фигур в голове и объявляют ходы устно, не глядя на доску. Играть вслепую несколько партий одновременно ещё сложнее. Самый большой подобный сеанс провёл американский шахматист Тимур Гареев, сыграв против 48 противников. Результат — 35 побед, семь ничьих, шесть поражений.
www.chess.com/news/view/timur-gareyev-plays-blindfold-on-48-boards-5729

Работу технологий машинного обучения часто сравнивают с чёрным ящиком, ведь мы не видим, как именно искусственный интеллект выдвигает гипотезы и строит прогнозы. И всё же от игры вслепую мы постепенно приходим к игре в четыре руки: ИИ становится инструментом для решения прикладных задач бизнеса. Яркий тому пример — наши сервисы машинного обучения, о которых мы рассказали в 2024 году:

Самый молодой гроссмейстер
Абхиманью Мишра из США — самый молодой гроссмейстер в истории. Он получил это звание в 2021 году, в возрасте 12 лет и четыре месяца. И это не первый рекорд шахматиста: в 9 лет и 2 месяца он получил звание самого молодого национального мастера, а в 10 лет 9 месяцев и 3 дня — самого молодого международного мастера.
Для тех, кто хочет достичь мастерства в работе с нашей платформой, мы в этом году запустили сертификацию Yandex Cloud и ещё несколько образовательных инициатив: бесплатные курсы по работе с нейросетями, обучение шифрованию данных и управлению ключами и другие.
yandex.cloud/ru/blog/posts/2024/04/yc-certification
yandex.cloud/ru/blog/posts/2024/05/training-ml
yandex.cloud/ru/training/encrypt



В 2025 году всех нас ждут новые задачи и вызовы. Справиться с ними поможет критическое мышление, навык стратегического планирования и умение концентрироваться. Подходящий инструмент для их развития — конечно, шахматы. Поэтому мы решили запустить собственную игру с YandexGPT в роли комментатора. Добавили шахматы на главную страницу и предлагаем вам сыграть!

Победителей наградим призами. Игроки, занявшие первые пятьдесят мест, получат гранты на использование сервисов Yandex Cloud, а пятёрка лидеров — эксклюзивные шахматные наборы. Игра продлится до 20 января 2025 года, а победителей объявим 27‑го числа.
yandex.cloud/ru/

С наступающим Новым годом!

С наступающим!



Заканчивается 2024 год — продуктивный, разнообразный и интересный. Спасибо, что были с нами!
В честь праздника мы приготовили для вас кое‑что необычное: шахматы с YandexGPT в роли комментатора. Это отличная возможность потренировать стратегическое мышление, чтобы успешно справляться с новыми задачами в 2025 году.

Шахматы + YandexGPT +
На главной странице Yandex Cloud вас ждут шахматы с комментариями от YandexGPT. Нейросеть станет вашим помощником и главным фанатом — будет анализировать и комментировать каждый ваш ход.
Игроки, занявшие первые 50 мест, получат гранты на сервисы Yandex Cloud, а пятёрка лидеров — эксклюзивные шахматные наборы.
Играть можно сколько угодно раз — до 20 января. А уже 27 января будут объявлены победители!
Поздравляем с наступающим Новым годом и желаем удачной игры!
Сделать свой ход yandex.cloud/ru/

Итоги, рекорды, смелые ходы в 2024 году
И ещё немного о шахматах: мы подвели итоги года и сравнили их с настоящими рекордами в шахматном мире.

В нашей праздничной статье вы найдёте самые интересные новости, анонсы и кейсы, которыми запомнился этот год, а ещё набор инсайтов и полезных ссылок на 2025‑й!
yandex.cloud/ru/blog/posts/2024/12/years-results

А если хотите посмотреть обсуждение итогов в формате видео, на этой странице вас ждёт запись праздничного выпуска Monthly Cloud News с Антоном Черноусовым!
yandex.cloud/ru/events/1020


Эта гирлянда сгенерирована с помощью нейросети YandexART в сервисе Yandex Foundation Models.
За год в сервисе вышло много обновлений: новые языковые модели, дообучение, интерфейс для экспериментов и многое другое. Попробуйте новинки в деле: например, создайте необычные открытки и поздравления для друзей, коллег или клиентов!
yandex.cloud/ru/services/foundation-models

Yandex Cloud запустила сервис для хранения, обработки и трансляции видео для бизнеса



Yandex Cloud представила сервис для хранения, обработки и трансляции видео Cloud Video. Инструмент будет полезен компаниям, которые размещают видеообзоры, ролики, лекции на своих сайтах и в веб-приложениях. Кроме того, сервис поможет организациям проводить онлайн-трансляции на сотни тысяч зрителей с минимальной задержкой.

Cloud Video поддерживает все популярные форматы видеофайлов. Бизнес может самостоятельно настроить доступ к контенту: например, сделать видео доступным только сотрудникам компании или всем пользователям. Есть возможность анализировать статистику просмотров, а также визуализировать данные в сервисе Yandex DataLens.

Дополнительные функции, которые доступны в Cloud Video:
  • транскодинг. Качество видео можно скорректировать в зависимости от скорости интернета пользователя;
  • перевод в режиме реального времени;
  • автоматические субтитры.