Перейти к основному содержимому
Перейти к основному содержимому

Spark JDBC

JDBC является одним из наиболее часто используемых источников данных в Spark. В этом разделе мы предоставим детали о том, как использовать официальный JDBC коннектор ClickHouse с Spark.

Чтение данных

Запись данных

Параллелизм

При использовании Spark JDBC, Spark считывает данные с помощью одной партиции. Для достижения более высокой конкурентности необходимо указать partitionColumn, lowerBound, upperBound и numPartitions, которые описывают, как партиционировать таблицу при чтении параллельно из нескольких рабочих узлов. Пожалуйста, посетите официальную документацию Apache Spark для получения дополнительной информации о конфигурации JDBC.

Ограничения JDBC

  • На сегодняшний день, вы можете вставлять данные через JDBC только в существующие таблицы (в настоящее время нет возможности автоматически создавать таблицу при вставке DF, как это делает Spark с другими коннекторами).