Partitions SparkSQL PostgresQL Dataframe

Essentiellement, les limites inférieure et supérieure et le nombre de partitions sont utilisés pour calculer l'incrément ou la division pour chaque tâche parallèle.

Supposons que la table ait une colonne de partition "année" et des données de 2006 à 2016.

Si vous définissez le nombre de partitions sur 10, avec la limite inférieure 2006 et la limite supérieure 2016, vous aurez chaque tâche récupérant les données pour sa propre année - le cas idéal.

Même si vous spécifiez de manière incorrecte la limite inférieure et/ou supérieure, par ex. définissez inférieur =0 et supérieur =2016, il y aura un biais dans le transfert de données, mais vous ne "perdrez" pas ou ne parviendrez pas à récupérer des données, car :

La première tâche récupérera les données pour l'année <0.

La deuxième tâche récupérera les données pour l'année entre 0 et 2016/10.

La troisième tâche récupérera les données pour l'année entre 2016/10 et 2*2016/10.

...

Et la dernière tâche aura une condition où avec année->2016.