Mysql
 sql >> Base de données >  >> RDS >> Mysql

Obtenez les champs similaires les plus répétés dans la base de données MySQL

Ce dont vous parlez est un processus de regroupement de texte. Vous essayez de trouver des morceaux de texte similaires et vous en choisissez arbitrairement un. Je ne connais aucune base de données qui effectue cette forme d'exploration de texte.

Pour ce que vous décrivez, une technique d'exploration de texte assez basique fonctionnerait probablement. Créez une matrice terme-document avec tous les mots sauf les noms d'utilisateur. Utilisez ensuite la décomposition en valeurs singulières pour obtenir la valeur singulière et le vecteur les plus grands (il s'agit de la première composante principale de la matrice de corrélation). Les activités similaires devraient se regrouper le long de cette ligne.

Si vous avez un vocabulaire limité et que vous avez les termes dans un tableau, vous pouvez mesurer la distance entre deux actions par la proportion de mots qui se chevauchent. Avez-vous une liste de tous les mots dans les actions ?