Spark JDBC
JDBC является одним из наиболее часто используемых источников данных в Spark. В этом разделе мы предоставим детали о том, как использовать официальный JDBC коннектор ClickHouse с Spark.
Чтение данных
- Java
- Scala
- Python
- Spark SQL
Запись данных
- Java
- Scala
- Python
- Spark SQL
Параллелизм
При использовании Spark JDBC, Spark считывает данные с помощью одной партиции. Для достижения более высокой конкурентности необходимо указать partitionColumn
, lowerBound
, upperBound
и numPartitions
, которые описывают, как партиционировать таблицу при чтении параллельно из нескольких рабочих узлов. Пожалуйста, посетите официальную документацию Apache Spark для получения дополнительной информации о конфигурации JDBC.
Ограничения JDBC
- На сегодняшний день, вы можете вставлять данные через JDBC только в существующие таблицы (в настоящее время нет возможности автоматически создавать таблицу при вставке DF, как это делает Spark с другими коннекторами).