Le profilage des données, ou la découverte de données, fait référence au processus d'obtention d'informations et de statistiques descriptives sur diverses sources de données. L'objectif du profilage des données est de mieux comprendre le contenu des données, ainsi que leur structure, leurs relations et leurs niveaux actuels d'exactitude et d'intégrité.
Le profilage des données peut révéler des erreurs ou de fausses conclusions concernant les métadonnées (données sur les données). La détection précoce de ces problèmes permet d'améliorer la qualité des données source avant de les intégrer ou de les stocker dans un entrepôt de données. Comprendre les attributs des données dans une table de base de données ou un fichier extrait, et inspecter les valeurs des données, permet de valider que le contenu des données correspond réellement à sa définition de métadonnées. Voir les données et les métadonnées permet également d'identifier les éléments sensibles ou contenant des informations personnellement identifiables (PII), de sorte que certaines colonnes peuvent être signalées pour des mesures de protection. Le profilage des données découvre ainsi les caractéristiques des données sources nécessaires à l'identification, à l'utilisation et à la lignée des données dans l'intégration, la sécurité, la création de rapports et les autres processus qui suivent.
Bien que les données collectées puissent souvent sembler bénignes ou inutiles, en particulier lorsqu'elles proviennent de plusieurs sources, gardez à l'esprit que toutes les données peuvent être utiles avec l'application ou l'algorithme approprié. Le profilage des données est donc également une première étape pour déterminer cette utilité (en améliorant la compréhension des données elles-mêmes).
Étant donné que de nombreuses entreprises s'appuient en fin de compte sur des sources de données brutes pour obtenir des informations sur des éléments tels que les inventaires de produits, la démographie des clients, les habitudes d'achat et les projections de ventes, la capacité d'une entreprise à tirer parti de manière concurrentielle de volumes de données en constante augmentation peut être directement proportionnelle à sa capacité à exploiter ces données. actifs. Gagner/perdre des clients et réussir/échouer en tant qu'entreprise pourrait très bien être déterminé par les connaissances spécifiques que les données collectées par une organisation transmettent. Ainsi, identifier les bonnes données, établir leur utilité au bon niveau et déterminer comment gérer les anomalies sont essentiels dans la conception des opérations d'entreposage de données et des applications d'informatique décisionnelle.
Selon Doug Vucevic et Wayne Yaddow, auteurs de Testing the Data Warehouse Practicum, "... le but du profilage des données est à la fois de valider les métadonnées lorsqu'elles sont disponibles et de découvrir les métadonnées lorsqu'elles ne le sont pas. Le résultat de l'analyse est utilisé à la fois de manière stratégique - pour déterminer l'adéquation des systèmes sources candidats et pour fournir la base d'une décision précoce de go/no-go, mais de manière tactique, pour identifier les problèmes pour la conception de solutions ultérieures et pour niveler les attentes des sponsors. ”
Les autorités responsables des données recommandent d'effectuer le profilage des données de manière aléatoire et répétitive sur des quantités limitées de données, au lieu d'essayer de s'attaquer à des volumes importants et complexes en une seule fois. De cette façon, les découvertes peuvent être des facteurs déterminants pour ce qui devrait être profilé ensuite. L'identification des règles de données, des restrictions et des conditions préalables garantit l'intégrité des métadonnées sur lesquelles le profilage futur est effectué. Savoir ce qui est supposé être dans certains fichiers de données et ce qui est réellement ce n'est peut-être pas la même chose. Ainsi, chaque fois que la qualité ou les caractéristiques d'une nouvelle source sont inconnues, les experts suggèrent d'abord de profiler les données, avant toute intégration dans un système existant.
Les étapes du processus de profilage des données incluent : l'importation de tous les objets, la création des paramètres de configuration, l'exécution du profilage proprement dit et l'analyse des résultats ; dont aucun n'est aussi facile qu'il n'y paraît ! Ensuite, en fonction des résultats, des corrections de schéma et de données peuvent être mises en œuvre, ainsi que d'autres ajustements pour une amélioration ultérieure des performances de profilage des données.
Outils de profilage IRI
À la mi-2015, IRI a publié une série d'outils gratuits de découverte de données structurées et non structurées (dark) dans son interface graphique Eclipse, IRI Workbench. Ils sont résumés sur http://www.iri.com/products/workbench/discover-data et liés à d'autres articles de ce blog qui vont plus en détail.