В сервисе Data Proc появилась возможность создавать задачи при помощи CLI и API



Data Proc Jobs — это способ удаленного запуска задач (jobs) на кластерах Yandex Data Proc. Запускать задачи можно с использованием HTTP или gRPC Data Proc API, а так же через Yandex Cloud SDK или YC CLI.
cloud.yandex.ru/services/data-proc
cloud.yandex.ru/docs/data-proc/api-ref/Job/
cloud.yandex.ru/docs/ydb/sdk/index
cloud.yandex.ru/docs/cli/operations/install-cli

Data Proc поддерживает четыре типа задач:
  • sparkJob — Apache Spark
  • pysparkJob — Python API для Apache Spark
  • mapreduceJob — Apache Hadoop
  • hiveJob — Apache Hive

Зачем нужны задачи Data Proc Jobs?
Задачи позволяют упростить использование Hadoop-стека технологий. Data Proc Jobs разделяет процесс обработки данных на задачи и позволяет запускать их без непосредственного доступа на хосты в Облаке. Data Proc Jobs подходит как для выполнения разовых операций, так и для построения ETL-процессов и запуска регулярных аналитических расчётов.

Для каких версий поддерживается создание задач?
Запуск заданий доступен для кластеров, созданных с версией образа v1.1 и выше. Всю диагностическую информацию о запущенных и выполненных задачах можно найти в истории операций над кластером, а также в бакете сервиса Object Storage, который был указан при создании кластера.
cloud.yandex.ru/services/storage

В версии образа 1.1 компоненты обновились до следующих версий:
  • Hadoop 2.10.0
  • Tez 0.9.2
  • Hive 2.3.6
  • Zookeeper 3.4.14
  • HBase 1.3.5
  • Sqoop 1.4.7
  • Oozie 4.3.1
  • Spark 2.4.4
  • Flume 1.8.0
  • Zeppelin 0.8.2
Подробнее об использовании задач Spark и PySpark читайте в документации.
cloud.yandex.ru/docs/data-proc/solutions/run-spark-job
Выделенные серверы OVH
Выделенные серверы Hetzner

0 комментариев

Оставить комментарий