Функция таблицы urlCluster
Позволяет обрабатывать файлы с URL в параллельном режиме с многих узлов в указанном кластере. На инициаторе устанавливается соединение со всеми узлами в кластере, раскрывается подстановочный символ в пути к файлу URL и динамически распределяются файлы. На рабочем узле он запрашивает у инициатора следующий задание для обработки и обрабатывает его. Это повторяется до тех пор, пока все задачи не будут завершены.
Синтаксис
Аргументы
cluster_name
— Имя кластера, используемого для формирования набора адресов и параметров соединения с удаленными и локальными серверами.URL
— Адрес HTTP или HTTPS сервера, который может приниматьGET
запросы. Тип: String.format
— Формат данных. Тип: String.structure
— Структура таблицы в формате'UserID UInt64, Name String'
. Определяет имена и типы столбцов. Тип: String.
Возвращаемое значение
Таблица с указанным форматом и структурой, а также с данными из определенного URL
.
Примеры
Получение первых 3 строк таблицы, содержащей столбцы типа String
и UInt32 с HTTP-сервера, который отвечает в формате CSV.
- Создайте базовый HTTP сервер, используя стандартные инструменты Python 3, и запустите его:
Подстановочные знаки в URL
Шаблоны в фигурных скобках { }
используются для генерации набора шардов или для указания адресов для резервирования. Поддерживаемые типы шаблонов и примеры представлены в описании функции remote. Символ |
внутри шаблонов используется для указания адресов для резервирования. Они перебираются в том же порядке, в котором указаны в шаблоне. Количество сгенерированных адресов ограничено настройкой glob_expansion_max_elements.
Смотрите также