C'est une solution quelque peu compliquée. L'idée est d'abord d'utiliser la base de données pour obtenir la population de paires possibles, puis de faire demi-tour et de demander à la base de données de trouver les paires dans le _user
champ. Méfiez-vous que des milliers d'utilisateurs créeront une sacrée grande liste d'appariement. Nous utilisons $addFields
juste au cas où il y aurait plus d'enregistrements d'entrée que ce que nous voyons dans l'exemple, mais sinon, pour plus d'efficacité, remplacez par $project
pour réduire la quantité de matière circulant dans le tuyau.
//
// Stage 1: Get unique set of username pairs.
//
c=db.foo.aggregate([
{$unwind: "$_user"}
// Create single deduped list of users:
,{$group: {_id:null, u: {$addToSet: "$_user"} }}
// Nice little double map here creates the pairs, effectively doing this:
// for index in range(0, len(list)):
// first = list[index]
// for p2 in range(index+1, len(list)):
// pairs.append([first,list[p2]])
//
,{$addFields: {u:
{$map: {
input: {$range:[0,{$size:"$u"}]},
as: "z",
in: {
$map: {
input: {$range:[{$add:[1,"$$z"]},{$size:"$u"}]},
as: "z2",
in: [
{$arrayElemAt:["$u","$$z"]},
{$arrayElemAt:["$u","$$z2"]}
]
}
}
}}
}}
// Turn the array of array of pairs in to a nice single array of pairs:
,{$addFields: {u: {$reduce:{
input: "$u",
initialValue:[],
in:{$concatArrays: [ "$$value", "$$this"]}
}}
}}
]);
// Stage 2: Find pairs and tally up the fileids
doc = c.next(); // Get single output from Stage 1 above.
u = doc['u'];
c2=db.foo.aggregate([
{$addFields: {_x: {$map: {
input: u,
as: "z",
in: {
n: "$$z",
q: {$setIsSubset: [ "$$z", "$_user" ]}
}
}
}
}}
,{$unwind: "$_x"}
,{$match: {"_x.q": true}}
// Nice use of grouping by an ARRAY here:
,{$group: {_id: "$_x.n", v: {$push: "$_id.fileid"}, n: {$sum:1} }}
,{$match: {"n": {"$gt":1}}}
]);
show(c2);