Database
 sql >> Base de données >  >> RDS >> Database

Profilage de base de données dans IRI Workbench

Mise à jour :Q2 2016  :En plus de l'assistant de profilage de base de données dans le groupe de menus de découverte de données dans IRI Workbench décrit ci-dessous, IRI a introduit une classification de données robuste qui permet l'application de règles de champ pour la transformation et la protection de données multi-sources via des bibliothèques de classes de données. Mise à jour Q2 2018  :IRI a également introduit un assistant de recherche de modèles à l'échelle du schéma pour trouver des PII correspondant à des valeurs RegEx ou littérales dans plusieurs tables à la fois. Mise à jour Q2 2019 :IRI propose désormais également la recherche de classes de données inter/intra-schéma et masquage pour les utilisateurs IRI FieldShield ou Voracity. Et, IRI vient de publier cet article pour montrer comment les résultats de profilage de base de données ci-dessous s'affichent dans Splunk.

Avec plus de données extraites de plus d'aspects de l'entreprise aujourd'hui, une connaissance facile de son contenu et de sa nature est essentielle pour garantir la qualité, la quantité et la sécurité de ces collections. Le profilage des données est le processus de découverte essentiel qui vous aide à analyser, classer, nettoyer, intégrer, masquer et générer des rapports sur les données de vos référentiels.

Outre les assistants de découverte de données sombres et structurées (et de définition des métadonnées), ainsi que la création de diagrammes E-R inter-DB dans Eclipse, le nouvel outil de profilage inter-DB d'IRI Workbench permet aux utilisateurs d'examiner la structure et l'exhaustivité des données de la base de données, et de valider cela les bonnes données sont stockées aux bons endroits. Dans cet article, nous examinerons cet outil et montrerons comment il fournit des résultats de recherche de valeurs tabulaires et des métadonnées statistiques.

Pour accéder au profileur de base de données, accédez au tableau auquel vous souhaitez accéder dans l'explorateur de sources de données. Faites un clic droit sur le tableau et passez la souris sur l'option IRI. Dans le menu qui s'affiche, sélectionnez Nouveau profil de base de données .

Sur la première page de l'assistant, configurez l'emplacement et la destination de la tâche, puis sélectionnez la sortie du rapport de profil, sous forme de fichier .csv ou .txt, ou les deux.

  • le format .csv est utile pour l'importation dans de nouvelles tables et bases de données, tandis que
  • le format .txt est un rapport pré-formaté, utile pour examiner rapidement les résultats.

Informations de profilage statistiques

La partie suivante de l'assistant apparaîtra avec deux tableaux :

  1. La table du haut est une liste de toutes les tables de la base de données, la table qui a lancé l'assistant étant mise en surbrillance par défaut.
  2. Cette case à cocher vous permet d'analyser en un clic chaque table et chaque ligne de votre base de données.
  3. Le tableau du bas affiche les options de profilage, suivies des colonnes du tableau en surbrillance dans lesquelles vous choisissez d'effectuer les options.

Cliquez sur n'importe quel tableau de la liste que vous souhaitez afficher et profiler. La matrice d'options changera automatiquement pour représenter les colonnes du tableau sélectionné. Il existe plusieurs manières de gérer les options d'affichage :

  • Pour toutes les options, cochez la case en haut du tableau, intitulée "Tous", et toutes les métadonnées seront signalées.
  • Pour les options de base uniquement (comptage et valeurs), cochez la case intitulée Basics.
  • Pour les options de longueur uniquement (valeurs de longueur), cochez la case intitulée Longueurs.

Si vous avez plusieurs colonnes dans votre tableau et que vous souhaitez sélectionner la même option pour toutes, cliquez sur le nom de l'option lui-même, et toutes les colonnes auront cette option sélectionnée. Vous pouvez désélectionner des colonnes dans l'option.

Une fois que tout est défini, cliquez sur Terminer puis le profil sera alors généré pour vous.

Recherche d'expressions

Un choix unique dans le tableau des options est la -Recherche d'expression-. Cette option vous permet de rechercher des colonnes par rapport à diverses options de recherche. Ces options sont :

  • Expressions régulières (recherche de modèle). Cela localise et compte le nombre de fois qu'une valeur correspond au format d'un modèle de recherche.
  • Chaîne floue. Cette option vous permet de rechercher des chaînes similaires à celles que vous saisissez et de sélectionner ou de spécifier des conditions de recherche.
  • Fichier de valeurs. Cette option vous permet de comparer une chaîne à toutes les chaînes d'un fichier défini et de compter chaque chaîne qui correspond.

La page de recherche d'expression comporte 6 sections importantes

  1. Une zone de liste déroulante Type de recherche pour sélectionner le type de recherche à effectuer.
  2. Le groupe d'options qui change en fonction du type de recherche sélectionné
    • Expression régulière :comporte deux boutons ; parcourir qui parcourt les expressions régulières existantes, et Créer… qui permet la création de nouvelles expressions régulières.
    • Chaîne floue :comporte une zone de comptage qui spécifie le seuil de la recherche floue (à quel point les chaînes doivent être proches pour être considérées comme une correspondance) et une zone de liste déroulante pour sélectionner l'algorithme de recherche floue à utiliser.
    • Fichier de valeurs :dispose d'un bouton Parcourir… qui vous permet de rechercher le fichier défini à utiliser pour la recherche de valeurs.
  3. Une zone de texte dans laquelle vous saisirez les données de votre recherche.
  4. Une liste déroulante des tables auxquelles vous pouvez appliquer la recherche d'expression.
  5. Une liste déroulante des colonnes auxquelles vous pouvez appliquer la recherche d'expression.
  6. Un tableau répertoriant les recherches que vous avez créées et qui seront effectuées par le profileur.

Pour créer un filtre d'expression régulière :

  1. Dans la liste déroulante Type de recherche, sélectionnez Expression régulière .
  2. Cliquez sur Parcourir à (votre bibliothèque d'expressions enregistrées), ou cliquez sur Créer  pour spécifier une expression régulière à utiliser lors de la recherche des valeurs d'une colonne.
  3. Dans le menu Tableau, sélectionnez le tableau contenant la colonne à filtrer.
  4. Dans le menu Colonne, sélectionnez la colonne à laquelle l'expression régulière doit être appliquée.
  5. Cliquez sur Ajouter au tableau , et un élément apparaîtra dans le tableau ci-dessous, contenant le nom du fichier, le nom de la colonne, la source de recherche, le seuil et le libellé de l'expression régulière qui composent le filtre.
  6. Répétez ce processus pour chaque colonne à laquelle vous souhaitez ajouter un filtre. Si vous avez trop de colonnes pour rendre ce processus pratique, vous pouvez toujours analyser plusieurs colonnes et tables automatiquement (pour que les données correspondent à votre ou vos modèles sur l'ensemble d'un schéma de base de données) à l'aide de cet assistant à la place.

Pour créer une recherche de chaîne floue :

  1. Dans la liste déroulante Type de recherche, sélectionnez Chaîne floue .
  2. Tapez la chaîne à utiliser pour la recherche.
  3. Sélectionnez le nombre de résultats à renvoyer (cette option apparaîtra lorsque la recherche approximative est sélectionnée).
  4. Sélectionnez le type de recherche floue à utiliser (cette option s'affiche lorsque la chaîne floue est sélectionnée).
  5. Dans le menu Tableau , sélectionnez le fichier qui contient la colonne pour la recherche approximative.
  6. Dans le menu Colonne, sélectionnez la colonne dans laquelle la recherche approximative doit être effectuée.
  7. Cliquez sur Ajouter au tableau , et un élément apparaîtra dans le tableau ci-dessous qui contient le nom du fichier, le nom de la colonne, la source de recherche, le seuil et le type de recherche de la recherche approximative à effectuer.
  8. Répétez ce processus pour chaque colonne dans laquelle vous souhaitez effectuer une recherche de chaîne floue.

Pour créer une recherche de fichiers de valeurs :

  1. Dans la liste déroulante des types de recherche, sélectionnez Fichier de valeurs. .
  2. Cliquez sur Parcourir pour sélectionner un fichier défini par rapport auquel la colonne sera vérifiée.
  3. Dans le menu Tableau, sélectionnez le tableau contenant la colonne à filtrer.
  4. Dans le menu Colonne, sélectionnez la colonne à laquelle l'expression régulière doit être appliquée.
  5. Cliquez sur Ajouter au tableau , et un élément apparaîtra dans le tableau ci-dessous qui contient le nom du fichier, le nom de la colonne, la source de recherche, le seuil et l'étiquette de recherche de la liste de valeurs qui composent le filtre.

Vérification de l'intégrité référentielle

Un autre choix dans le tableau des options est -Vérifier l'intégrité référentielle-. Cette option permet au profileur de comparer une ou plusieurs colonnes à une autre colonne et de déterminer si les colonnes ont une intégrité référentielle. Pour utiliser cette fonction, cochez les cases -Vérifier l'intégrité référentielle- dans les colonnes à comparer pour l'intégrité référentielle. Le bouton Suivant s'activera et vous permettra de spécifier les paramètres de la vérification de l'intégrité référentielle (voir ci-dessous pour les détails).

Si vous avez sélectionné l'option Vérifier l'intégrité référentielle pour l'une de vos colonnes, cliquez sur Suivant pour accéder à la page Vérification de l'intégrité référentielle. Cette page a les fonctionnalités suivantes :

  1. Deux zones de liste déroulante, l'une pour sélectionner la table dans laquelle se trouve la clé primaire, l'autre pour spécifier la colonne de la clé primaire.
  2. Deux listes déroulantes, l'une pour sélectionner la table dans laquelle se trouve la clé étrangère, l'autre pour spécifier la colonne de la clé étrangère. Il existe également un bouton pour ajouter la clé étrangère à une liste de clés étrangères à comparer à la clé primaire.
  3. Un bouton Créer une vérification d'intégrité pour ajouter les colonnes principales et étrangères à la liste ci-dessous.
  4. Une liste qui stocke toutes les vérifications d'intégrité référentielle qui seront effectuées par le profileur.


Pour créer une vérification d'intégrité référentielle :

  1. Dans la zone de liste déroulante du tableau sous Colonne de clé primaire, sélectionnez le tableau dans lequel se trouve la clé primaire.
  2. Dans la zone de liste déroulante des colonnes sous Colonne de clé primaire, sélectionnez la clé primaire.
  3. Dans la zone de liste déroulante du tableau sous Colonne de clé étrangère, sélectionnez le tableau dans lequel se trouve la clé étrangère.
  4. Dans la zone de liste déroulante des colonnes sous Colonne de clé étrangère, sélectionnez la clé étrangère.
  5. Cliquez sur le bouton Ajouter à la liste des clés étrangères…
  6. Répétez les étapes 3 à 5 pour chaque clé étrangère à comparer à la clé primaire
  7. Cliquez sur le bouton Créer un contrôle d'intégrité…
  8. Répétez les processus ci-dessus pour chaque vérification d'intégrité référentielle à effectuer.

Exemples de résultats de profil

 .csv affiché dans LibreOffice / .txt affiché dans EditPad Lite