Mysql
 sql >> Base de données >  >> RDS >> Mysql

Fonction de Jaro-winkler :pourquoi le même score correspond-il à des mots très similaires et très différents ?

La formule de distance de Jaro-Winkler est biaisée vers les cordes avec un début commun. Par exemple, Valentina et Valentiria .

Il a également des "règles" pas si intuitives (voir wikipedia ).

Vous devriez probablement d'abord déterminer le type de dissemblance auquel vous vous attendez, puis rechercher une formule de distance appropriée. Par exemple, en écriture, "angleworm" et "angelworm" est une erreur très probable, donc la distance entre les deux chaînes doit être faible. Alors que le décalage entre "là" et "trois" est moins probable et "éther" encore plus. Avec des anagrammes plus longs, la distance de Jaro peut être exactement la même, et même la correction de Winkler peut ne pas fonctionner.

Comme vous pouvez le lire sur cette page (c'est moi qui souligne)