Database
 sql >> Base de données >  >> RDS >> Database

5 erreurs courantes à éviter lors de dédoublonnage vos données

Les données sont la puissance et avec ce pouvoir vient une grande responsabilité. L'un des plus grands obstacles dans les données est d'identifier les doublons et de dédoublonnage.

Le but de données de déduplication est d'éliminer les données redondantes dans votre entreprise. Les doublons sont créés dans tous les domaines de votre entreprise, comme le représentant des ventes l'entrée d'un nouveau record sans vérification de la première base de données, un agent de commercialisation de télécharger une liste d'acheteurs potentiels sans vérifier si le dossier existe et un client qui saisit leurs informations à nouveau comme ils ont oublié qu'ils avoir un compte avec vous déjà.

La déduplication des données assure la gestion appropriée des données de ces documents, le stockage de données réduit, les communications marketing plus efficaces, et l'analyse prédictive mieux. Les enregistrements en double peuvent en fait peut un énorme impact sur l'apprentissage de la machine et les dossiers scientifiques de données en donnant théoriquement clients deux fois la puissance prédictive et donc créer un biais dans les sorties.

Cependant, chaque grande idée vient des risques et dans une stratégie de déduplication des données dans lequel est supprimé la plupart du temps, il peut y avoir des erreurs inhérentes.

en ligne ou Post-traitement

processus de déduplication inline-de duper les données lors de leur traitement. Cela signifie qu'il réduit la quantité de données immédiatement, qui est grande, mais a souvent des problèmes de performance avec la quantité de ressources nécessaires pour exécuter une telle stratégie. Cependant, cela ne signifie que vous avez besoin beaucoup moins d'espace disque brut que les données ne sont jamais réellement envoyées sur en premier lieu que la déduplication est réalisée sur l'extrémité avant.

Il est important que vous assurer que vous avez la puissance de traitement pour la déduplication en ligne et n'a pas d'impact performances. L'autre erreur est de supposer qu'il ya zéro cas pour avoir des doublons. Il y a des besoins légitimes pour avoir des doublons dans votre système. Les raisons peuvent être pour la facturation, le service à la clientèle, les ventes et la commercialisation des raisons, il est donc une bonne idée de consulter tous les ministères qui touchent les données avant la mise en œuvre de traitement en ligne.

Algorithmes

Déduplication est aussi bon que les algorithmes, il est alimenté à savoir comment sont les doublons découverts en premier lieu? Supposons que nous avons 100 copies d'un fichier sur nos systèmes, car chaque employé a sa propre version. Au lieu de stocker plusieurs copies, bonnes pratiques vous dit de stocker un seul et que tous les employés pointent à cela. Que faire si l'un des employés fait un changement à leur propre fichier qui signifie qu'il est légèrement différent des autres? Vous courez le risque de perdre des données. Il est important de vous assurer que toutes les règles que vous définissez du sens et ne pas commencer à retirer des ensembles de données uniques par erreur.

Il y a quelques algorithmes couramment utilisés pour la déduplication des données telles que SHA-1 ou MD5 et binaire Recherche structure en arborescence qui en valent la peine pour examiner trouver ce qui est le plus approprié pour vous.

Alors que de dédoublonnage des ensembles de données dans l'exemple ci-dessus peuvent être facilement traitées par les scientifiques de données. Pour les ventes et le marketing, il est un peu plus difficile. Considérez, que les différentes entreprises définissent différemment les doublons, il n'est plus une tâche pour le scientifique de données, mais plutôt pour les chefs des différents départements. Par conséquent, la première étape consiste à identifier ce qui fait un double. Par exemple, prendre un géant de la distribution comme Wal-Mart. Pour la société de distribution, chaque emplacement Walmart serait considéré comme un enregistrement unique, cependant, pour une société de logiciels de vente dans Wal-Mart, ils considéreraient tous les endroits que les doublons car ils ne veulent vendre dans le siège social. La même chose peut être dit pour la vente dans P &G, où une entreprise vend individuellement dans chaque marque. Ils veulent donc les garder tous séparés et appliquer le parent / enfant au lieu de relier de dédoublonnage pour identifier les différentes marques. Par conséquent, avant de dédoublonnage assurer que vous avez toutes les règles définies avant déterminer l'algorithme à utiliser pour duper les dé-données.

cryptage

Avec la protection des données, il est souvent le cas que les équipes de sécurité auront des données chiffrées car il est dans l'entreprise ce qui signifie qu'il est impossible de dédoublonner comme tout est unique dans ce contexte. Si vous utilisez la réplication et les produits de chiffrement en ligne avec le logiciel de déduplication, il y a une chance très élevée que les fichiers seront répliqués car il ne peut tout simplement pas les prendre comme des blocs de stockage uniques.

les produits de protection des données sont parfois Déduplication au courant, mais il est essentiel que vous considérez comment tout intègre ensemble.

Déduplication Manuel

La plupart des entreprises vont essayer de dédoublonner leur base de données prenant manuellement une énorme quantité de ressources et de temps avec un grand risque d'erreur humaine. Au-delà, avec de vastes ensembles de données, il est pratiquement impossible pour les processus manuels pour revenir sur tout.

Par exemple, si John Smith achète une paire de chaussures sur votre site aujourd'hui. Il retourne demain, mais comme registres J Smith comme il a oublié ses informations de connexion. La semaine prochaine, il signe à nouveau, mais avec une adresse e-mail. Je n'ai mentionné trois champs de données ici, mais il commence déjà à se compliquer, alors imaginez si vous avez 200 champs de données clients, comment vous assurez-vous que DEMEURE unique?

Il est important de construire des algorithmes soit complet vous-même si vous allez d'un processus manuel ou l'acquisition de données de nettoyage des outils pour le faire pour vous, économiser tout ce temps et d'efforts.

sauvegardes

Déduplication peut aller mal! Avant la suppression des doublons, il est important que tout est sauvegardé et vous pouvez résoudre les problèmes rapidement. Pour en revenir à notre exemple précédent, si nous découvrons que John Smith et J Smith sont en fait différentes personnes et ont besoin d'obtenir le retour de compte? Vous avez besoin d'un processus qui peut le faire, ce qui est une exigence légale aujourd'hui dans l'Union européenne (GDPR).

Une stratégie de déduplication des données est important que les entreprises développent leur empreinte numérique. Avec autant de canaux de communication, un seul enregistrement en double a la capacité de créer des biais et potentiellement conduire à des décisions erronées. Cela dit, il faut le faire correctement pour éviter les conséquences de la suppression des mauvais dossiers ou des algorithmes d'alimentation de manière incorrecte et réduire la vitesse d'affaires. Assurez-vous que la déduplication des données est entièrement formé au sein de votre stratégie de gouvernance des données.