Connecteur Spark Mongo, MongoShardedPartitioner ne fonctionne pas

Désolé José d'apprendre que vous rencontrez un problème avec le connecteur.

Des informations concernant les partitionneurs sont disponibles sur le site de documentation du connecteur Spark . Veuillez déposer un ticket dans le Docs jira project si vous pensez que quelque chose manque ou n'est pas clair, cela pourrait vraiment aider les futurs utilisateurs !

Le partitionneur par défaut est un mince wrapper autour du MongoSamplePartitioner . Il divise une collection en partitions de taille basée sur un échantillonnage statistique de la collection.

Le MongoShardedPartitioner utilise le shardKey pour générer les partitions. Par défaut, il utilisera _id comme clé. Vous devrez peut-être configurer cette valeur.

Remarque : Les shardkeys hachées ne sont pas pris en charge par le MongoShardedPartitioner comme actuellement il n'y a aucun moyen d'interroger une collection par rapport à la valeur hachée - donc lors de la récupération des partitions, il ne renverra pas de résultats. J'ai ajouté DOCS-12345 pour mettre à jour la documentation.

Il semble qu'il y ait un problème dans votre configuration où le MongoShardedPartitioner ne parvient pas à partitionner la collection comme prévu et renvoie 0 résultats. L'inférence de schéma fonctionnera toujours en raison de la façon dont elle interroge la collection. S'il ne s'agit pas d'un problème de config/hashed shardkey, veuillez signaler un bogue dans le Spark jira project et je peux vous aider à identifier la cause et vous proposer un correctif.