Désolé José d'apprendre que vous rencontrez un problème avec le connecteur.
Des informations concernant les partitionneurs sont disponibles sur le site de documentation du connecteur Spark . Veuillez déposer un ticket dans le Docs jira project si vous pensez que quelque chose manque ou n'est pas clair, cela pourrait vraiment aider les futurs utilisateurs !
Le partitionneur par défaut est un mince wrapper autour du MongoSamplePartitioner
. Il divise une collection en partitions de taille basée sur un échantillonnage statistique de la collection.
Le MongoShardedPartitioner
utilise le shardKey
pour générer les partitions. Par défaut, il utilisera _id
comme clé. Vous devrez peut-être configurer cette valeur.
Remarque : Les shardkeys hachées ne sont pas pris en charge par le MongoShardedPartitioner
comme actuellement il n'y a aucun moyen d'interroger une collection par rapport à la valeur hachée - donc lors de la récupération des partitions, il ne renverra pas de résultats. J'ai ajouté DOCS-12345
pour mettre à jour la documentation.
Il semble qu'il y ait un problème dans votre configuration où le MongoShardedPartitioner
ne parvient pas à partitionner la collection comme prévu et renvoie 0 résultats. L'inférence de schéma fonctionnera toujours en raison de la façon dont elle interroge la collection. S'il ne s'agit pas d'un problème de config/hashed shardkey, veuillez signaler un bogue dans le Spark jira project et je peux vous aider à identifier la cause et vous proposer un correctif.