В сервисе Data Proc появилась возможность создавать задачи при помощи CLI и API
Data Proc Jobs — это способ удаленного запуска задач (jobs) на кластерах Yandex Data Proc. Запускать задачи можно с использованием HTTP или gRPC Data Proc API, а так же через Yandex Cloud SDK или YC CLI.
cloud.yandex.ru/services/data-proc
cloud.yandex.ru/docs/data-proc/api-ref/Job/
cloud.yandex.ru/docs/ydb/sdk/index
cloud.yandex.ru/docs/cli/operations/install-cli
Data Proc поддерживает четыре типа задач:
- sparkJob — Apache Spark
- pysparkJob — Python API для Apache Spark
- mapreduceJob — Apache Hadoop
- hiveJob — Apache Hive
Зачем нужны задачи Data Proc Jobs?
Задачи позволяют упростить использование Hadoop-стека технологий. Data Proc Jobs разделяет процесс обработки данных на задачи и позволяет запускать их без непосредственного доступа на хосты в Облаке. Data Proc Jobs подходит как для выполнения разовых операций, так и для построения ETL-процессов и запуска регулярных аналитических расчётов.
Для каких версий поддерживается создание задач?
Запуск заданий доступен для кластеров, созданных с версией образа v1.1 и выше. Всю диагностическую информацию о запущенных и выполненных задачах можно найти в истории операций над кластером, а также в бакете сервиса Object Storage, который был указан при создании кластера.
cloud.yandex.ru/services/storage
В версии образа 1.1 компоненты обновились до следующих версий:
- Hadoop 2.10.0
- Tez 0.9.2
- Hive 2.3.6
- Zookeeper 3.4.14
- HBase 1.3.5
- Sqoop 1.4.7
- Oozie 4.3.1
- Spark 2.4.4
- Flume 1.8.0
- Zeppelin 0.8.2
cloud.yandex.ru/docs/data-proc/solutions/run-spark-job
0 комментариев
Вставка изображения
Оставить комментарий