Функция таблицы hudiCluster

Это расширение для функции таблицы hudi.

Позволяет обрабатывать файлы из таблиц Apache Hudi в Amazon S3 параллельно с использованием многих узлов в указанном кластере. При инициировании создается соединение со всеми узлами кластера, и каждый файл динамически распределяется. На рабочем узле он запрашивает у инициатора следующее задание для обработки и обрабатывает его. Это повторяется, пока все задания не будут завершены.

Синтаксис

Аргументы

cluster_name — Имя кластера, которое используется для формирования набора адресов и параметров соединения с удаленными и локальными серверами.
Описание всех остальных аргументов совпадает с описанием аргументов в эквивалентной функции таблицы hudi.

Возвращаемое значение

Таблица с указанной структурой для чтения данных из кластера в указанной таблице Hudi в S3.

Смотрите также