Перейти к основному содержимому
Перейти к основному содержимому

Функция таблицы urlCluster

Позволяет обрабатывать файлы с URL в параллельном режиме с многих узлов в указанном кластере. На инициаторе устанавливается соединение со всеми узлами в кластере, раскрывается подстановочный символ в пути к файлу URL и динамически распределяются файлы. На рабочем узле он запрашивает у инициатора следующий задание для обработки и обрабатывает его. Это повторяется до тех пор, пока все задачи не будут завершены.

Синтаксис

Аргументы

  • cluster_name — Имя кластера, используемого для формирования набора адресов и параметров соединения с удаленными и локальными серверами.
  • URL — Адрес HTTP или HTTPS сервера, который может принимать GET запросы. Тип: String.
  • formatФормат данных. Тип: String.
  • structure — Структура таблицы в формате 'UserID UInt64, Name String'. Определяет имена и типы столбцов. Тип: String.

Возвращаемое значение

Таблица с указанным форматом и структурой, а также с данными из определенного URL.

Примеры

Получение первых 3 строк таблицы, содержащей столбцы типа String и UInt32 с HTTP-сервера, который отвечает в формате CSV.

  1. Создайте базовый HTTP сервер, используя стандартные инструменты Python 3, и запустите его:

Подстановочные знаки в URL

Шаблоны в фигурных скобках { } используются для генерации набора шардов или для указания адресов для резервирования. Поддерживаемые типы шаблонов и примеры представлены в описании функции remote. Символ | внутри шаблонов используется для указания адресов для резервирования. Они перебираются в том же порядке, в котором указаны в шаблоне. Количество сгенерированных адресов ограничено настройкой glob_expansion_max_elements.

Смотрите также