Regexp

Input	Output	Alias
✔	✗

Описание

Формат Regex парсит каждую строку импортируемых данных в соответствии с заданным регулярным выражением.

Использование

Регулярное выражение из настройки format_regexp применяется ко всем строкам импортируемых данных. Количество подшаблонов в регулярном выражении должно соответствовать количеству столбцов в импортируемом наборе данных.

Строки импортируемых данных должны отделяться символом новой строки '\n' или новой строкой в формате DOS "\r\n".

Содержимое каждого подходящего подшаблона обрабатывается методом соответствующего типа данных в соответствии с настройкой format_regexp_escaping_rule.

Если регулярное выражение не совпадает со строкой и format_regexp_skip_unmatched установлено в 1, строка будет тихо пропущена. В противном случае будет выброшено исключение.

Пример использования

Рассмотрим файл data.tsv:

и таблицу imp_regex_table:

Мы вставим данные из вышеупомянутого файла в таблицу с помощью следующего запроса:

Теперь мы можем SELECT данные из таблицы, чтобы увидеть, как формат Regex распарсил данные из файла:

Настройки формата

При работе с форматом Regexp вы можете использовать следующие настройки:

format_regexp — String. Содержит регулярное выражение в формате re2.
format_regexp_escaping_rule — String. Поддерживаются следующие правила экранирования:
- CSV (аналогично CSV
- JSON (аналогично JSONEachRow
- Escaped (аналогично TSV
- Quoted (аналогично Values
- Raw (извлекает подшаблоны целиком, без правил экранирования, аналогично TSVRaw
format_regexp_skip_unmatched — UInt8. Определяет необходимость выбрасывания исключения в случае, если выражение format_regexp не совпадает с импортируемыми данными. Может быть установлено в 0 или 1.

Описание​

Пример использования​

Настройки формата​

Описание

Пример использования

Настройки формата