MongoDB

sql >> Base de données > >> NoSQL >> MongoDB

Comment supprimer les tweets vides à l'aide de filter() dans pyspark ?

Si vos données comme celle-ci

tweets = sc.parallelize(["title1", "", "title2", "title3", ""])

vous pouvez utiliser len(x) comme condition de filtre :

tweets.filter(lambda x: len(x) > 0).count()

Trouver un document de toute la collection, avec une valeur spécifique imbriquée dans plusieurs sous-documents intégrés

Filtre Mongo $lookup utilisant une requête imbriquée