Рейтинг
0.00

Yandex Cloud

5 читателей, 245 топиков

Приглашаем на about:cloud – бессерверные технологии и IoT



2 июля в 17:00 проведём онлайн-мероприятие about:cloud, во время которого:
  • расскажем о новой функциональности Cloud-Native сервисов и планах развития направлений IoT и Serverless;
  • представим новый сервис API Gateway;
  • покажем примеры интеграции сервисов Yandex Message Queue и Yandex Monitoring;
  • расскажем про алертинг в Yandex Monitoring;
  • покажем Terraform-провайдер для Yandex Message Queue.
Бонус для участников: возможность первыми поучаствовать в тестировании новых сервисов Облака.
cloud.yandex.ru/events/145

Проблемы при работе с дисками 19 июня 2020 года



Резюме по инциденту
В пятницу 19 июня некоторым клиентам были частично или полностью недоступны сервисы Compute Cloud, Managed Service for ClickHouse, Managed Service for Kubernetes, Managed Service for MongoDB, Managed Service for MySQL, Managed Service for PostgreSQL, Managed Service for Redis в зоне ru-central-b Яндекс.Облака. Проблема была локализована в 10:15, после чего наша команда точечно помогала пользователям устранять последствия инцидента.

Мы приносим свои извинения всем пользователям, кого затронул данный инцидент, и хотим рассказать подробнее о случившемся и мерах предотвращения повторения подобной ситуации в будущем.

Что произошло?
В Яндекс.Облаке данные хранятся в распределенной сетевой системе хранения данных собственной разработки. Сетевой диск выдерживает одновременный отказ двух серверов из своего сегмента без потери данных. Используемый в Яндекс.Облаке размер сегмента отказа — группа серверов, расположенных в разных серверных стойках. На каждом сервере для хранения данных конкретного сетевого диска используется один физический диск. В момент отказа физического диска или сервера данные начинают реплицироваться на другие серверы этого сегмента, пока коэффициент репликации каждого блока данных не будет восстановлен. 19 июня случилась маловероятная ситуация, когда произошел отказ четырех серверов, три из которых находились в одном сегменте отказа, что привело к тому, что не все данные успели реплицироваться. В результате часть данных на дисках оказалась потеряна и произошел сбой в работе перечисленных выше сервисов.

Ход событий:
8:40 — Выход из строя первого сервера, он признан невосстановимым. Ситуация штатная.
9:48 — Второй сервер того же сегмента признан невосстановимым. Сразу после этого сработала автоматика, оповещающая об угрозе потери данных. Команда сервиса сразу же приступила к поиску проблемы, поскольку это является опасной ситуацией, и потеря данных становится возможной, если в скором времени откажет третий сервер из сегмента.
10:09 — Вышел из строя третий сервер из этого же сегмента отказа. Локализовать проблему до выхода из строя третьего сервера не удалось. Сразу после этого автоматика была принудительно остановлена на всех серверах Яндекс.Облака.
10:15 — Вышел из строя сервер в другом сегменте отказа, который был упомянут в изначальном сообщении о проблеме. Но так как это был первый неработающий сервер в другом сегменте, то с данными в этом сегменте ничего не произошло. К тому же автоматика была уже остановлена и сервер был возвращен в строй.
10:15 — Мы начали оказывать помощь пострадавшим пользователям по их запросам.

На данный момент мы закончили устранение массовых последствий проблемы, локализовали пользователей, где есть потребность в дополнительной помощи, которую продолжим оказывать точечно, используя все возможности.

Последствия для пользователей:
  1. В Compute Cloud сбой затронул часть дисков пользователей, находящихся в зоне ru-central-b. Часть данных на этих дисках была утрачена, что привело к частичной или полной потере диска. Пострадавшим пользователям были высланы рекомендации провести аварийное восстановление диска по инструкции. Все затронутые диски были отмечены в консоли Яндекс.Облака. При этом часть дисков мы смогли восстановить самостоятельно без участия пользователей, где пострадавшей оказалась внутренняя системная часть диска. С таких дисков отметка в консоли была снята, так что если сейчас в консоли Яндекс.Облака нет отметок о возможном повреждении жестких дисков, то никаких действий со стороны пользователя не требуется.
  2. Управляемые базы данных, кластера которых были развёрнуты с сетевыми дисками в нескольких зонах доступности, были недоступными на запись в течение нескольких минут. При этом потери данных не было. Такая недоступность — это внештатная ситуация, так как не была предусмотрена обработка частичной, а не полной, потери диска. Подобное поведение системы будет улучшено, переключение из-за длительных проблем с диском будет осуществляться за десятки секунд.
  3. Управляемые базы данных Managed Service for PostgreSQL и Managed Service for MySQL, кластера которых были развёрнуты только в пострадавшей зоне доступности ru-central-b, были восстановлены без потери данных из последней резервной копии, но с недоступностью сервиса на время восстановления.
  4. Управляемые базы данных Managed Service for ClickHouse, Managed Service for MongoDB и Managed Service for Redis, кластера которых были развёрнуты только в пострадавшей зоне доступности ru-central-b, были восстановлены из последней резервной копии с потерей данных за последний бизнес-день.
  5. Инцидент затронул только нескольких пользователей Managed Service for Kubernetes, которые использовали не отказоустойчивый тип мастеров. Во время инцидента для них был недоступен control plane Kubernetes, при этом запущенные в кластерах сервисы клиентов продолжали штатно функционировать. Эти мастера были восстановлены из последней резервной копии.

Причины
Причина сбоя нами была первоначально ошибочно идентифицирована как исключительно аппаратная, поскольку сбой произошел на уровне нашей базовой инфраструктуры. Автоматика в наших дата-центрах самостоятельно находит возможные проблемы с физическим оборудованием, после чего принимает решение о том, как исправить ситуацию. В зависимости от проблемы автоматическая система может дать указание на замену диска, перезагрузку сервера или полную перенастройку сервера, если другие меры не помогли. При этом пользователи Яндекс.Облака не замечают выход из строя сервера или диска и для них все сервисы продолжают работать в штатном режиме: виртуальные машины и данные автоматически переносятся на другие серверы.

Внутреннее расследование причин показало, что в автоматической процедуре исправления аппаратных проблем существовала ошибка: в маловероятной ситуации проблем с конкретным диском автоматика сделала вывод, что проблема касается всего сервера целиком, а точнее — всех его дисков, а не одного диска, как было на самом деле. Система перезагружала сервер, обнаруживала проблему снова и отправляла его в полную перенастройку. Попытки перенастройки оказались безуспешными, и в итоге была предпринята крайняя мера — процедура восстановления отформатировала все диски.

Неверное определение причины проблемы физической инфраструктуры не приводило к каким-либо видимым для пользователя последствиям. Отправка «здорового» сервера в полную перенастройку со всеми дисками незаметна пользователям и является штатной ситуацией. Но так как в данной ситуации произошёл одновременный выход из строя трёх серверов, в то время как в модель отказа Яндекс.Облака заложен одновременный выход из строя двух серверов в сегменте, данные на отформатированных дисках не были реплицированы и в итоге были утеряны.

Меры для предотвращения повторения подобной ситуации в будущем
  1. Мы уже исправили ошибку в автоматической процедуре, которая неверно определяла уровень аппаратной проблемы.
  2. Перед отправкой сервера или диска в полную перенастройку по любой причине мы добавили обязательную задержку в одни сутки. Это позволит инженерам вручную обработать эту ситуацию и вернуть физические диски в кластер без потери данных.
  3. Будет добавлен дополнительный уровень проверки — теперь система хранения данных в Яндекс.Облаке будет явно подтверждать любое действие с оборудованием. Так мы сможем отложить работы с вышедшим из строя физическим диском или сервером на любой необходимый срок, пока не будем уверены в безопасности этого действия. В произошедшем инциденте это позволило бы не отправлять второй и третий серверы в перенастройку, а заморозить их до восстановления первого сервера.
  4. Мы введём обязательное резервное копирование мастеров Managed Service for Kubernetes с частотой несколько раз в сутки.

Мы также рекомендуем нашим клиентам:
  • Для повышения отказоустойчивости приложений использовать либо наши кросс-зональные решения, либо иметь резервную копию критичных данных в других зонах доступности Яндекс.Облака.
  • Проработать систему активного мониторинга вашего сервиса, размещенного на нашей платформе, с целью повышения контроля доступности вашего сервиса. Если вам нужна помощь, мы всегда готовы помочь вам с подбором подходящего партнёра или же с настройкой мониторинга самостоятельно через обращение в службу поддержки.

TransMachine: сервис компании «Транслинк» на базе Yandex Translate



«Транслинк» входит в топ-5 российских компаний в сфере профессионального перевода. Компания создает цифровые продукты, которые снижают стоимость и увеличивают скорость перевода, что позволяет оставаться одним из лидеров индустрии.
В начале 2020 года компания «Транслинк» запустила новый продукт TransМасhine — сервис на основе технологий машинного перевода от Яндекс.Облака.

Как устроен TransMachine
Сервис использует доменно-адаптивный движок машинного перевода. Он постоянно обучается на текстах выбранной тематики и на памяти переводов (translation memory). TransMachine создан на базе Yandex Translate — облачного сервиса машинного перевода с использованием нейронной сети. Алгоритм Yandex Translate постоянно самообучается на большом количестве параллельных текстов, что повышает качество машинного перевода.

Пользователь также может загрузить в сервис свои глоссарии, чтобы термины и специфичные выражения в переводах конкретной тематики переводились однообразно. Перевод с помощью TransMachine дает более предсказуемый результат, чем перевод с помощью стокового движка машинного перевода. Сервис позволяет переводить сложные отраслевые тексты быстрее, сохраняя качество перевода.

Опыт применения
Одним из первых клиентов сервиса TransМасhine стал крупный холдинг, включающий десятки предприятий с сотнями сотрудников. Компании сотрудничают с зарубежными предприятиями. Количество общения с зарубежными партнерами выросло, что привело к росту объема документов на перевод.

Когда он достиг 500 страниц в месяц, компания столкнулась с выбором: продолжить использовать ручной перевод или попробовать машинный. Ручной перевод — трудоемкий, дорогой и долгий процесс. Было решено попробовать технологии машинного перевода, чтобы сэкономить бюджет и время.

От самостоятельного использования стоковых движков машинного перевода компания-заказчик отказалась почти сразу: из-за отраслевой специфики тексты перевода были очень низкого качества и требовали значительной редактуры.

Решение
Специалисты «ТрансЛинк» оценили эффективность ручного перевода, постредактуры машинного перевода (MT) и постредактуры перевода TransMachine. Они сравнили стоимость, временные затраты и качество результата и подготовили для заказчика следующую таблицу:



По подсчетам наиболее выгодным вариантом оказался сервис TransMachine: он в 2-3 раза быстрее на 30% дешевле ручного перевода, а качество готового текста примерно такое же.

Процесс
Специалисты «Транслинк» получали сканы документов компании в формате PDF, переводили их в читаемый формат и загружали в CAT-систему с подключенным облачным сервисом машинного перевода (MT).

«Транслинк» выделил под клиента отдельный домен MT, который постоянно дообучивается на текстах готовых переводов. Таким образом, алгоритм постепенно адаптируется под тексты заказчика, время на постредактуру снижается, а сроки сдачи работ сокращаются.

Результаты
Результаты тестового периода показали, что клиент сэкономил 30% бюджета, а скорость перевода выросла в 2 раза. Заказчик получает переведенные документы на 12-24 часов раньше. За счет обучения алгоритма объем перевода с января по март вырос в два раза: с 30 до 60 страниц в день.

Сейчас «Транслинк» работает над улучшением распознавания отсканированных и электронных документов, чтобы ускорить процесс перевода с помощью TransMachine.

Попробовать TransMachine → www.transmachine.ru

Вебинары июня по теме безопасности



Приглашаем вас на ближайшие вебинары о безопасности в Облаке.
Уже завтра, 16 июня в 12:00 обсудим архитектуру сервиса IAM, его принципы работы. Вы узнаете о развитии ролевой модели, сценариях использования новых ролей, а также о недавних улучшениях сервиса.
Регистрация на мероприятие → cloud.yandex.ru/events/142

А 23 июня мы проведём вебинар-обзор двух новых сервисов Облака: сервиса управления ключами Key Management Service (KMS) и сервиса для управления сертификатами Certificate Manager.
Регистрация на мероприятие → cloud.yandex.ru/events/140
Участие бесплатно, зарегистрируйтесь, чтобы получить ссылку на трансляцию.
До встречи онлайн!

Yandex Key Management Service выходит в общий доступ



Сервис для управления криптографическими ключами Yandex Key Management Service (Yandex KMS) вышел в общий доступ.

Создавайте и храните криптографические ключи в Yandex KMS. Используйте ключи, чтобы защитить секреты, личные данные и другую конфиденциальную информацию, которую храните в облаке. О том, какие схемы используются в операциях шифрования и расшифровки при помощи ключей читайте в разделе Шифрование.

Где можно использовать ключи Yandex KMS
— В сервисах Яндекс.Облака:
— При работе с Terraform.
— В библиотеках шифрования:
В ближайшее время добавится интеграция ключей Yandex KMS в хранилище Object Storage и возможность добавлять пользовательские криптографические ключи в Certificate Manager.

Что меняется в общедоступной версии
Для общедоступной версии сервиса действует соглашение об уровне обслуживания (SLA), а также тарифицируются операции и время использования ключей. Подробнее в разделах:

Новое в документации за май



Появился новый сервис:
DataSpere — среда для ML-разработки с привычным интерфейсом Jupyter Notebook. Подробнее в документации.

Обзор платформы
Новое:
Добавлен раздел Безопасность платформы Яндекс.Облако.
Улучшения:
Обновлены правила проведения внешних сканирований безопасности.

Cloud Functions
Новое:
Добавлены инструкции про создание и удаление функции с помощью Terraform.

DataLens
Новое:
Использование Markdown в DataLens.

Managed Service for MongoDB
Новое:
Добавлены инструкции про создание и удаление кластера с помощью Terraform.

Managed Service for MySQL
Новое:
Добавлены инструкции про создание и удаление кластера с помощью Terraform.

Managed Service for PostgreSQL
Новое:
Создание логической реплики Аmazon RDS для PostgreSQL.
Добавлены инструкции про создание и удаление кластера с помощью Terraform.

Managed Service for Redis
Новое:
Доступна новая платформа для хостов — Intel Cascade Lake.

SpeechKit
Новое:
Описаны изменения в последних релизах моделей распознавания.

Translate
Новое:
Добавлено дообучение моделей.

Vision
Новое:
Добавлено распознавание шаблонов.

Yandex DataSphere, проект с РБК и другие новости



Локдаун: Как IT помогает выжить бизнесу
Все лето мы будем выходить в эфир вместе с РБК и следить за тем, как бизнес подстраивается под текущую ситуацию. Говорим о том, как IT помогает компаниям пережить кризис и что происходит на облачном рынке. Среди участников — S7 Group, Леруа Мерлен, Mindbox.
lockdown.rbc.ru/live


Новый облачный сервис для ML-разработки
Yandex DataSphere сочетает привычный интерфейс Jupyter Notebook с уникальными возможностями для ML-разработки:
  • меняйте конфигурацию с CPU на GPU без остановки проекта и с сохранением прогресса;
  • запускайте разные части кода на разных вычислительных ресурсах в текущем проекте.
Yandex DataSphere находится на стадии Preview и не тарифицируется. Запросить доступ к сервису можно на сайте.
cloud.yandex.ru/services/datasphere


IoT-аналитика для кофемашины
Компания FESCOM внедрила IoT-систему на базе AggreGate в одной из подмосковных кофеен с помощью сервисов Яндекс.Облака и компании Tibbo Systems. Это позволило разобраться в реальных расходах и построить эффективную систему учета.
Читать кейс cloud.yandex.ru/cases/fescom
Участвуйте в программе для компаний-разработчиков, чтобы получить грант и реализовать свой IoT проект в Облаке.

Другие истории наших пользователей
ПИК Digital: как создать и вывести на рынок облачный SaaS-продукт
IT-компания ПИК Digital занимается разработкой и внедрением ПО для группы компаний ПИК. Они создали SaaS-решение «Банковский портал» вместе с партнером Облака Express 42. Как им удалось быстро вывести продукт на рынок — читайте в блоге.
Читать cloud.yandex.ru/cases/pik-digital

Компания «21 век» перенесет 1С в Облако
Облачный 1С сократит расходы на приобретение или аренду инфраструктуры. Компания организует сетевые папки Windows, работу с файловой БД 1С и перенос в Облако серверной части 1С — СУБД Microsoft SQL и PostgreSQL.
Узнать больше www.1c.rent/go1c

Хорошие новости для пользователей управляемых баз данных.
  • Для сервисов управляемых баз данных и Yandex Data Proc расширена линейка классов хостов. Теперь вы можете выбрать конфигурацию до 64 vCPU и 512 GB RAM.
  • В Yandex Managed Service for Redis доступны хосты на платформе Intel Cascade Lake. Они производительнее и дешевле, чем Intel Broadwell.
  • В сервисе Yandex Managed Service for Redis появилась возможность резервировать ресурсы CPU и RAM на один или на три года. Рассчитать экономию можно в разделе Биллинг в консоли управления. О тарифах на резервируемые ресурсы читайте на сайте.

Топ-10 образов в Yandex Cloud Marketplace
  • LAMP. Образ для создания сайтов и веб-приложений с набором Linux, Apache, MySQL, PHP.
  • LEMP. Вариация LAMP-стека с Linux, Nginx, MySQL и PHP для создания сайтов. Подробнее о создании сайтов на LAMP/LEMP.
  • 1С-Битрикс. Образ с тремя продуктами: 1С-Битрикс: Управление сайтом», 1С-Битрикс24», 1С-Битрикс: Внутренний портал учебного заведения».
  • GitLab. Cистема с открытым исходным кодом для управления Git-репозиториями.
  • WordPress. Самая популярная CMS с открытым исходным кодом для создания веб-сайтов.
  • Node.js. Среда с открытым исходным кодом для разработки приложений.
  • Яндекс.Диалоги. Платформа для запуска навыков Алисы.
  • Joomla!.. CMS с открытым исходным кодом для создания веб-сайтов — инструкция по созданию сайта на ней.
  • Django. Фреймворк для разработки на языке программирования Python.
  • Redmine. Cистема управления проектами Redmine, СУБД MySQL, веб-сервер Nginx и сервер веб-приложений Passenger.
cloud.yandex.ru/marketplace

cloud.yandex.ru

Новый сервис Yandex DataSphere для разработчиков машинного обучения



В Облаке появился сервис Yandex DataSphere для разработчиков машинного обучения. Сервис доступен в режиме Preview: для доступа к сервису нужна предварительная регистрация, до конца июня пользоваться Yandex DataSphere можно бесплатно.

О сервисе
Yandex DataSphere — это облачная среда для использования инструментов машинного обучения. Разработчикам предлагается привычный интерфейс Jupyter Notebook, одного из наиболее популярных инструментов ML-разработки. При этом возможности Jupyter Notebook адаптированы к работе в облаке и существенно расширены.


Yandex DatаSphere использует технологию бессерверных вычислений (serverless computing) при работе с машинным обучением. Это значит, что при редактировании и просмотре кода не задействуются вычислительные ресурсы CPU или GPU, виртуальная машина нужного типа подключается только на время непосредственных расчетов: обучение моделей, запуск, другие вычисления. При таком подходе пользователь платит только за время реального использования вычислительных ресурсов. Время редактирования и просмотра кода, случайный простой не выключенной ночью или на выходных виртуальной машины не тарифицируется.

Преимущества Yandex DataSphere
В Yandex DataSphere реализовано бесшовное переключение между разными конфигурациями виртуальных машин
Вы можете без остановки вычислений и с сохранением прогресса применять разные типы виртуальных машин: экономичные с CPU и быстрые с GPU. В большинстве облачных сред разработки машинного обучения возможен запуск расчетов модели только на машине одного типа. Если часть вычислений требует использования более дорогой машины с GPU, на ней будет вычисляться весь проект.

Запуск отдельных частей кода на разных виртуальных машинах без остановки проекта
В Yandex DatаSphere разные части кода могут быть исполнены на ВМ разного типа, при этом результаты предыдущих вычислений сохранятся. При этом для переключения на ВМ другого типа не нужно запускать весь проект заново. Это ускоряет разработку, позволяет экономнее и эффективнее использовать более дорогие вычислительные ресурсы.

Подробнее о сервисе читайте в документации.
cloud.yandex.ru/docs/datasphere

Знакомые продукты Microsoft в Яндекс.Облаке



Удалённые рабочие столы по RDP, настройка Active Directory, развёртывание почтового сервера или 1С с MS SQL — всё выполнимо на базе Яндекс.Облака.
Мы записали вебинар и подготовили пошаговые инструкции для работы с сервисами:
Стоимость
Размещать сервисы в Облаке выгодно — посмотрите здесь сравнение цен. Стоимость с Windows Server Standard зафиксирована и не зависит от конфигурации ВМ. Для конфигураций от 8 ядер Windows Server Standard выгоднее, чем Windows Datacenter.
cloud.yandex.ru/promo/ws-in-cloud/