Oracle
 sql >> Base de données >  >> RDS >> Oracle

Entreposage de données Profilage de données ETL avec Oracle Warehouse Builder

Introduction au profilage des données

Profilage des données est le processus de documentation systématique de la conception et du contenu des données dans un fichier, une table ou un schéma. Profilage des données est une première étape importante lorsqu'un entrepôt de données est en phase de planification. Il est important que les architectes et les concepteurs d'entrepôts de données comprennent la qualité et la nature globale des données des systèmes opérationnels sous-jacents avant d'entreprendre un projet majeur d'entreposage de données. Certains aspects spécifiques des données source que le profilage peut révéler incluent :

  • La taille globale (en octets) de chaque table ou fichier source, y compris les spécificités du type de données de chaque champ/colonne.
  • Comptes, moyennes, plages et existence de valeurs nulles pour chaque colonne.
  • Relations entre les colonnes de données dans les tables (comme les dépendances fonctionnelles).
  • Relations entre les tables (telles que les relations de clé étrangère).

Les résultats de l'étape de profilage des données peuvent en outre être utilisés pour développer des règles pour vérifier la qualité des données et des règles pour corriger les problèmes de données lors des premières étapes d'un pipeline ETL.

Oracle Warehouse Builder fournit une puissante fonction de profilage des données qui peut être utilisée pour apprendre, de manière très détaillée, l'étendue et les caractéristiques des données dans un schéma. La documentation officielle d'OWB sur le profilage des données est disponible sur ce lien. Oracle Warehouse Builder est installé avec les versions standard et Enterprise d'Oracle 11g Database. Voici quelques instructions sur l'installation d'Oracle 11g Release 2 sous Windows.

Si vous disposez d'un serveur central Oracle 11g, vous pouvez utiliser le client Oracle Warehouse Builder pour accéder à ce référentiel central.

Dans cette démonstration, les principales étapes requises pour profiler un schéma de système OLTP sont présentées. Le schéma cible sera le schéma Oracle "Order Entry" (OE) qui peut être installé et activé sur les bases de données Oracle 11g. Notez que l'utilisateur d'Oracle Warehouse doit avoir accès (informations d'identification) au schéma OE pour configurer le module approprié dans OWB.

La première étape majeure du profilage consiste à créer un module qui pointe vers le schéma de la base de données source. OWB prend en charge un grand nombre de sources de base de données ainsi que des fichiers plats (texte).

Mise en place d'un nouveau module pour le schéma de saisie des commandes

Dans cet ensemble d'étapes, le schéma Order Entry (OE) sera créé en tant que nouveau module dans Oracle Warehouse Builder.

  1. Commencez par vous connecter à Oracle Warehouse Builder. Ouvrez la fenêtre du navigateur de projet, puis ouvrez le MY_PROJECT
    Ouvrez les Bases de données dossier puis Oracle dossier.
    Faites un clic droit sur le dossier Oracle dossier et sélectionnez Nouveau module Oracle comme indiqué ci-dessous :
  2. Lorsque l'écran de bienvenue s'affiche, cliquez sur Suivant> bouton
  3. Indiquez un nouveau nom et une nouvelle description pour la base de données. Notez que vous ne pouvez pas utiliser d'espaces dans le nom de la base de données.
    Cliquez sur Suivant> bouton pour continuer.
  4. La prochaine étape principale consistera à spécifier l'emplacement de la base de données. Il est plus que probable que c'est la première fois que vous suivez ces étapes et que l'emplacement du schéma Oracle OE n'a donc pas été défini. Dans ce cas, cliquez sur Modifier... bouton affiché à côté de Emplacement invite
  5. Remplissez le nom, la description et les informations de connexion (nom d'hôte, nom d'utilisateur, mot de passe, numéro de port, nom du service Oracle, etc.) Cliquez sur OK bouton lorsque vous avez terminé.
  6. Confirmez les informations de connexion et cliquez sur l'option Importer après avoir terminé .
    Cliquez ensuite sur Suivant> bouton pour continuer :
  7. L'écran récapitulatif final apparaîtra, indiquant que la création du module a réussi.
    Cliquez sur Terminer bouton pour fermer cet écran.

Importation des métadonnées pour le schéma de saisie des commandes

  1. En cochant la case Importer après la fin option à l'étape 6, l'assistant d'importation de métadonnées se lancera automatiquement une fois le module de base de données créé. Si vous avez ignoré cette option, faites un clic droit sur le nouveau module Order_Entry et sélectionnez Importer les métadonnées dans le menu.
    Une fois l'assistant d'importation de métadonnées lancé, cliquez sur Suivant> bouton pour continuer.
  2. Les filtres d'informations l'écran apparaîtra ensuite. Dans ce cas, nous voulons importer des métadonnées pour tout le contenu du schéma, alors cliquez sur Tous puis cliquez sur Suivant> bouton pour continuer.
  3. L'écran suivant qui apparaît offre la possibilité de sélectionner tout ou partie des objets découverts dans le schéma. Initialement la Sélection d'objets l'écran apparaîtra comme suit :
  4. Cliquez sur l'icône de la double flèche vers la droite pour déplacer tous les objets de la liste Disponible côté Sélectionné côté comme indiqué ci-dessous. Cliquez ensuite sur Suivant> bouton pour continuer.
  5. Le résumé et importation l'écran apparaîtra ensuite. Passez en revue l'écran pour vous assurer que tous les objets ont été sélectionnés et cliquez sur Terminer bouton pour terminer l'importation.
  6. Un résultats d'importation l'écran de résumé apparaîtra. Cliquez sur OK bouton pour le fermer.
  7. Dans le navigateur de projets d'Oracle Warehouse Builder, la base de données ORDER_ENTRY sera remplie avec tous ses objets, y compris les tables comme indiqué ci-dessous :

À ce stade, un nouveau module de base de données pour le schéma de base de données Oracle Order Entry a été créé et toutes les métadonnées du schéma ont été importées dans Oracle Warehouse Builder. Au cours de la prochaine série d'étapes, un nouveau profil de données sera créé.

Créer un profil de données dans Oracle Warehouse Builder

La prochaine étape majeure consiste à créer un profil de données .

  1. Dans le navigateur de projets d'Oracle Warehouse Builder, cliquez avec le bouton droit sur Profils de données groupe et sélectionnez Nouveau profil de données
  2. Lorsque l'écran de bienvenue s'affiche, cliquez sur Suivant> bouton
  3. Indiquez un nom et une description du nouveau profil de données. Dans cet exemple, nous avons nommé le nouveau profil :Order_Entry_Schema_Profile (notez que les espaces ne sont pas autorisés dans le nom du profil). Cliquez sur Suivant> bouton pour continuer.
  4. L'écran suivant fournit une liste d'objets de schéma. Ouvrez les tableaux dossier et ajoutez toutes les tables (à l'exception de PURCHASEORDER table) répertorié dans la base de données de saisie des commandes à la sélectionnée côté de l'écran.
    N'ajoutez aucune des vues.
    Cliquez sur Suivant> bouton pour continuer.
  5. À ce stade, le Résumé apparaîtra et le profil de données a été configuré. Cliquez sur Terminer bouton.
  6. Une fois le nouveau profil configuré, l'Éditeur de profil de données l'écran apparaîtra.

La prochaine étape consistera à exécuter le profileur sur le schéma.

Utilisation de l'éditeur de profil dans Oracle Warehouse Builder

La dernière étape principale consiste à travailler dans l'éditeur de profil pour lancer une tâche de profilage des données, puis afficher les résultats. Si vous avez suivi les étapes précédentes pour créer un nouveau profil de données, alors OWB devrait avoir lancé l'éditeur de profil de données . Toutes les instructions à partir de ce point supposent que nous travaillons dans l'éditeur de profil de données.

  1. Vous trouverez ci-dessous une vue de l'éditeur de profil de données. Notez que le module de base de données ORDER_ENTRY est ouvert dans les Profile Objects fenêtre et toutes les tables doivent être listées ici.
  2. Vous pouvez apporter des modifications aux étapes de profilage par les sections de Property Inspector telles que Charger la configuration et Configuration de l'agrégation . Les descriptions de ces paramètres sont disponibles sur ce lien.
    Pour cet exemple, assurez-vous que les paramètres par défaut suivants sont sélectionnés :

    • Activer la découverte du format commun
    • Activer la découverte de type
    • Activer la découverte de modèles
    • Activer la découverte de domaine
    • Activer la découverte de clé unique
    • Activer la découverte des dépendances fonctionnelles
    • Activer la découverte des colonnes redondantes
    • Activer le profilage des règles de données
  3. Pour commencer la tâche de profilage des données, déroulez le Profil menu et sélectionnez Profil
  4. Une fois la tâche de profilage lancée, une boîte de dialogue apparaîtra indiquant la progression de la validation du profil. Cela peut prendre plusieurs minutes selon la vitesse du serveur et le nombre d'objets de base de données dans le profil.
  5. Lorsque l'étape de validation est terminée, la tâche de profil réelle s'exécute. Notez que ce travail s'exécute de manière asynchrone en arrière-plan. Cliquez sur OK bouton pour fermer le Profil Initié boite de dialogue.
  6. Une fois la tâche de profil terminée, Récupérer les résultats du profil l'écran apparaîtra. Cliquez sur Oui pour récupérer les résultats du profil dans l'éditeur de profil.
  7. Les résultats du profil apparaîtront dans l'éditeur de profil. Cliquez sur un nom de table pour voir les métadonnées dans le résultats du profil Canvas . Cliquez sur un nom de colonne pour voir les spécificités d'une colonne dans le Panneau d'exploration des données
    Dans la figure ci-dessous (cliquez pour agrandir l'image), les CLIENTS la table a été sélectionnée pour être affichée dans le canevas des résultats de profil, et le NLS_TERRITORY colonne a été sélectionnée pour être affichée dans le panneau d'exploration des données.

Plus d'informations sur le profilage des données Oracle OWB

Outre la documentation, Oracle propose également une série de didacticiels Oracle By Example (OBE) pour OWB, notamment :Oracle Warehouse Builder :Examining Source Data Using Data Profiling.