Database
 sql >> Base de données >  >> RDS >> Database

Classification des données dans IRI Workbench

Les utilisateurs d'outils de masquage PII tels que FieldShield, DarkShield et CellShield EE dans la suite IRI Data Protector Suite ou la plate-forme Voracity peuvent cataloguer et rechercher leurs données - et appliquer des fonctions de transformation et de protection des données en tant que règles - à l'aide de données classement infrastructure dans leur IDE frontal commun, IRI Workbench, basé sur Eclipse™.   

Les fonctionnalités de découverte (recherche) de données multi-sources dans IRI Workbench peuvent utiliser les classes de données que vous avez définies, ou elles peuvent vous aider à attribuer des classes de données ou des groupes de classes de données à vos données en fonction de vos résultats de recherche, de vos règles métier et/ou ontologies de domaine.

Vous pouvez utiliser votre bibliothèque de classes de données dans des règles de champ réutilisables (par exemple, le masquage des données). Et vous pouvez également attribuer ces règles lorsque vous classez automatiquement les données.

Ces fonctionnalités offrent des fonctionnalités pratiques, cohérentes et conformes aux architectes de données et aux équipes de gouvernance. Consultez cet article pour un exemple de bout en bout d'utiliser des classes de données pour rechercher et masquer des données de manière cohérente sur plusieurs tables dans des schémas RDB.

Cet article décrit comment vous pouvez définir ces classes. Il existe des articles connexes sur les validateurs de classes de données qui peuvent être utilisés pour distinguer et vérifier les données en fonction des recherches de modèles.

Plusieurs autres articles du blog IRI traitent de l'application des classes de données dans divers contextes (principalement de masquage de données). Pour un index complet de ces articles, consultez cette section de la page d'auto-apprentissage du logiciel IRI.

Créer des classes de données

La classification commence par la configuration des classes de données dans les Préférences du Workbench screen, qui vous permet d'utiliser les classes globalement, dans plusieurs projets de votre espace de travail. Workbench a certaines classes préchargées, y compris les classes FIRST_NAME, LAST_NAME et PIN_US utilisées dans cet exemple.

Les classes de données fonctionnent en faisant correspondre (1) le nom de la classe au nom du champ, (2) un modèle aux données du champ, ou (3) définir le contenu du fichier par rapport aux données du champ. Le premier élément est fait pour vous automatiquement dans le processus de classification, si cette option est choisie. Vous pouvez ajouter autant de modèles et définir des correspondances de fichiers que nécessaire pour chaque classe afin de renvoyer les résultats escomptés.

La saisie d'une expression régulière comme nom de classe de données est un moyen supplémentaire de faire correspondre le nom de la colonne. Par exemple, il peut y avoir une colonne nommée LNAME ou LASTNAME. Je peux donc utiliser L(AST) ?[_-]?NAME (trait de soulignement et tiret entre parenthèses) pour saisir quelques variantes de NOM.

Vous pouvez également rendre vos classes et groupes de données inactifs. Si vous avez beaucoup de classes mais que vous souhaitez filtrer les éléments non utilisés dans votre projet particulier, vous pouvez les rendre inactifs. Cela vous permet d'en conserver une copie sans encombrer la liste déroulante qui utilise ces classes.

Groupes de classes de données

Vous pouvez également avoir des groupes de classes de données. Par exemple, le groupe inclus "NAMES" contient les classes de données FIRST_NAME, LAST_NAME et FULL_NAME. Si vous souhaitez appliquer une règle à plusieurs classes, vous pouvez utiliser un groupe au lieu de sélectionner les classes de données individuellement.

Pour cet exemple, j'ai supprimé le trait de soulignement de la classe de données FIRST_NAME pour illustrer l'option de correspondance de nom de la classification.

Assistant Source de classification des données

Une fois les matchers ajoutés aux classes nécessaires, vous pouvez exécuter l'assistant Data Classification Source Wizard. L'assistant accepte les formats de données suivants :CSV, Délimité, LDIF, ODBC ou XML. Cet assistant vous permet de sélectionner des sources pour votre bibliothèque de classes de données en vue d'une classification ultérieure.

Sur la page de configuration, commencez par sélectionner l'emplacement de votre nouvelle "iriLibrary.dataclass ” fichier, qui est la sortie de cet assistant. Le nom de fichier est en lecture seule car il ne peut y avoir qu'un seul de ces types de fichiers dans chaque projet. Vous pouvez également cocher la case si toutes vos sources sont des tables dans un profil de connexion.

La sélection de cette case ouvre une page de saisie comme celle ci-dessous où vous pouvez choisir les tables à inclure :

Si la case n'est pas cochée, vous pouvez ajouter des fichiers ou des sources ODBC dans le même écran de saisie. Sur ce type de page d'entrée, vous devrez également ajouter les métadonnées pour chaque source. Dans cet exemple, j'ai inclus un fichier CSV et deux tables Oracle.

Si vous devez rechercher et classer des données dans un ou plusieurs schémas de bases de données complets à la fois, utilisez les assistants Schema Pattern Search et Schema Pattern Search to Data Class Association.

Cliquez sur Terminer pour créer une bibliothèque de classes de données avec les sources sélectionnées incluses. L'éditeur de formulaire de classe de données qui s'ouvre vous permettra de classer les données dans ces sources.

Classer les données dans vos sources sélectionnées

Vous commencez le processus de classification en cliquant sur l'une des sources de données pour afficher les détails de cette source. La partie supérieure de l'écran comporte une section extensible qui affiche les détails du fichier ou de la table.

La section de classification commence par une case à cocher pour inclure la correspondance via le nom du champ au nom de la classe de données. Par exemple, j'ai une classe de données appelée FIRSTNAME et un champ appelé FIRSTNAME (la correspondance est insensible à la casse).

Dans ce cas, le processus de classification sélectionnera cette classe de données pour ce champ sans lire le contenu des données.

La section suivante affiche un tableau contenant des noms de champs avec des cases à cocher, une colonne pour la classe de données et une colonne pour les résultats correspondants. Le tableau inférieur est un aperçu des données dans la source. Les classes de données nécessaires doivent avoir été créées avant d'utiliser cet éditeur de formulaire, mais vous pouvez les ajouter ou les modifier ici.

Vous pouvez sélectionner manuellement la classe de données en cliquant sur la liste déroulante dans la colonne de classe de données du champ que vous souhaitez classer. Vous pouvez également cliquer sur Classer automatiquement et sélectionner les champs que vous souhaitez classer. Cliquer sur OK lancera le processus de classification automatique, qui peut prendre beaucoup de temps selon la quantité de données que vous avez dans votre source.

Le processus peut s'exécuter en arrière-plan si vous sélectionnez cette option dans la boîte de dialogue Eclipse standard qui s'affiche. De plus, vous pouvez afficher l'état du processus dans la vue de progression.

À la fin, la classe de données et la carte de classe de données seront créées dans la bibliothèque pour les champs sélectionnés. Dans cet exemple, le processus de classification a trouvé une correspondance de 87 % sur le champ SSN, 11 % sur LASTNAME et une correspondance de nom sur FIRSTNAME. Les pourcentages indiquent la quantité de données correspondantes dans votre source via les comparateurs pour cette classe de données.

Si "nom" s'affiche dans la colonne correspondante, la classe de données a été mise en correspondance en fonction du nom. Si vous avez sélectionné manuellement une classe de données, "utilisateur" s'affichera dans la colonne correspondante.

Le contenu final de la bibliothèque est affiché ci-dessous. Tout comme vous pouvez voir les détails des sources, vous pouvez également cliquer sur les classes de données et les cartes pour afficher leurs détails.

Les cartes de classes de données utilisent des références aux classes de données et aux champs, raison pour laquelle la bibliothèque stocke les sources et les classes de données, en plus de la carte elle-même. La suppression d'une source ou d'une classe de données supprimera également tout mappage de classe de données associé faisant référence à cet élément supprimé.

Lorsque vous cliquez sur Supprimer, un avertissement s'affiche pour vous le rappeler. Le processus peut être répété sur les autres sources incluses, et des sources supplémentaires peuvent être ajoutées à tout moment.

Les résultats de classification de cette bibliothèque peuvent maintenant être utilisés pour appliquer des règles de champ à ces sources de données. Le processus est expliqué dans mon prochain article sur l'application des règles de champ à l'aide de la classification.