AWS EMR PySpark se connecte à mysql

Si vous souhaitez exécuter une tâche Spark sur Amazon EMR 3.x ou EMR 4.x, vous devez effectuer les opérations suivantes :

1) Vous pouvez mentionner le spark-defaults.conf propriétés lors de l'amorçage, c'est-à-dire que vous pouvez modifier la configuration de Driver Classpath et Chemin de classe de l'exécuteur propriété et aussi maximizeResourceAllocation (Demandez plus d'informations dans les commentaires si vous en avez besoin.) docs

2) Vous devez télécharger tous les jars requis, c'est-à-dire (mysql-connector.jar et mariadb-connector.jar) dans votre cas, les jars JDBC du connecteur MariaDB et MySQL vers tous les emplacements de chemin de classe comme Spark, Yarn et Hadoop sur tous les nœuds. est MASTER, CORE ou TASK (Le scénario Spark On Yarn couvre le plus) documentation sur les scripts d'amorçage

3) Et si votre travail Spark ne communique que du nœud du pilote à votre base de données, vous n'en aurez peut-être besoin que d'utiliser --jars et ne vous donnera pas d'exception et fonctionne bien.

4) Nous vous recommandons également d'essayer Master en tant que groupe de fils au lieu de local ou yarn-client

Dans votre cas, si vous utilisez MariaDB ou MySQL, copiez vos jars sur $SPARK_HOME/lib , $HADOOP_HOME/lib etc. sur chaque nœud de votre cluster, puis essayez-le.

Plus tard, vous pourrez utiliser les actions Bootstrap pour copier vos jars sur tous les nœuds le temps de la création du cluster.

Veuillez commenter ci-dessous pour plus d'informations.