В сервисе Data Proc появилась возможность создавать задачи при помощи CLI и API

Yandex Cloud
27 февраля 2020, 15:16

Data Proc Jobs — это способ удаленного запуска задач (jobs) на кластерах Yandex Data Proc. Запускать задачи можно с использованием HTTP или gRPC Data Proc API, а так же через Yandex Cloud SDK или YC CLI.
cloud.yandex.ru/services/data-proc
cloud.yandex.ru/docs/data-proc/api-ref/Job/
cloud.yandex.ru/docs/ydb/sdk/index
cloud.yandex.ru/docs/cli/operations/install-cli

Data Proc поддерживает четыре типа задач:

sparkJob — Apache Spark
pysparkJob — Python API для Apache Spark
mapreduceJob — Apache Hadoop
hiveJob — Apache Hive

Зачем нужны задачи Data Proc Jobs?
Задачи позволяют упростить использование Hadoop-стека технологий. Data Proc Jobs разделяет процесс обработки данных на задачи и позволяет запускать их без непосредственного доступа на хосты в Облаке. Data Proc Jobs подходит как для выполнения разовых операций, так и для построения ETL-процессов и запуска регулярных аналитических расчётов.

Для каких версий поддерживается создание задач?
Запуск заданий доступен для кластеров, созданных с версией образа v1.1 и выше. Всю диагностическую информацию о запущенных и выполненных задачах можно найти в истории операций над кластером, а также в бакете сервиса Object Storage, который был указан при создании кластера.
cloud.yandex.ru/services/storage

В версии образа 1.1 компоненты обновились до следующих версий:

Hadoop 2.10.0
Tez 0.9.2
Hive 2.3.6
Zookeeper 3.4.14
HBase 1.3.5
Sqoop 1.4.7
Oozie 4.3.1
Spark 2.4.4
Flume 1.8.0
Zeppelin 0.8.2

Подробнее об использовании задач Spark и PySpark читайте в документации.
cloud.yandex.ru/docs/data-proc/solutions/run-spark-job

В сервисе Data Proc появилась возможность создавать задачи при помощи CLI и API

0 комментариев

Оставить комментарий