PostgreSQL
 sql >> Base de données >  >> RDS >> PostgreSQL

Connexion Pyspark à la base de données Postgres dans le bloc-notes ipython

Je ne sais pas pourquoi la réponse ci-dessus n'a pas fonctionné pour moi, mais j'ai pensé que je pourrais également partager ce qui a réellement fonctionné pour moi lors de l'exécution de pyspark à partir d'un cahier jupyter (Spark 2.3.1 - Python 3.6.3):

from pyspark.sql import SparkSession
spark = SparkSession.builder.config('spark.driver.extraClassPath', '/path/to/postgresql.jar').getOrCreate()
url = 'jdbc:postgresql://host/dbname'
properties = {'user': 'username', 'password': 'pwd'}
df = spark.read.jdbc(url=url, table='tablename', properties=properties)