ParquetMetadata
Описание
Специальный формат для чтения метаданных файлов Parquet (https://parquet.apache.org/docs/file-format/metadata/). Он всегда выводит одну строку со следующей структурой/содержимым:
num_columns- количество столбцовnum_rows- общее количество строкnum_row_groups- общее количество групп строкformat_version- версия формата parquet, всегда 1.0 или 2.6total_uncompressed_size- общий размер данных без сжатия в байтах, рассчитанный как сумма total_byte_size всех групп строкtotal_compressed_size- общий размер данных с сжатием в байтах, рассчитанный как сумма total_compressed_size всех групп строкcolumns- список метаданных столбцов со следующей структурой:name- имя столбцаpath- путь столбца (отличается от имени для вложенного столбца)max_definition_level- максимальный уровень определенияmax_repetition_level- максимальный уровень повторенияphysical_type- физический тип столбцаlogical_type- логический тип столбцаcompression- сжатие, использованное для этого столбцаtotal_uncompressed_size- общий размер данных без сжатия в байтах для столбца, рассчитанный как сумма total_uncompressed_size столбца из всех групп строкtotal_compressed_size- общий размер данных с сжатием в байтах для столбца, рассчитанный как сумма total_compressed_size столбца из всех групп строкspace_saved- процент сохраненного пространства за счет сжатия, рассчитанный как (1 - total_compressed_size/total_uncompressed_size).encodings- список кодировок, используемых для этого столбца
row_groups- список метаданных групп строк со следующей структурой:num_columns- количество столбцов в группе строкnum_rows- количество строк в группе строкtotal_uncompressed_size- общий размер данных без сжатия в байтах для группы строкtotal_compressed_size- общий размер данных с сжатием в байтах для группы строкcolumns- список метаданных фрагментов столбцов со следующей структурой:name- имя столбцаpath- путь столбцаtotal_compressed_size- общий размер данных с сжатием в байтах для столбцаtotal_uncompressed_size- общий размер данных без сжатия в байтах для группы строкhave_statistics- логический флаг, указывающий, содержит ли метаданные фрагмента столбца статистику столбцаstatistics- статистика фрагмента столбца (все поля NULL, если have_statistics = false) со следующей структурой:num_values- количество ненулевых значений в фрагменте столбцаnull_count- количество значений NULL в фрагменте столбцаdistinct_count- количество уникальных значений в фрагменте столбцаmin- минимальное значение фрагмента столбцаmax- максимальное значение фрагмента столбца
Пример использования
Пример: