Database
 sql >> Base de données >  >> RDS >> Database

Introduction aux dimensions à variation lente (SCD)

Une dimension est une structure qui catégorise une collection d'informations afin que des réponses significatives aux questions concernant ces informations puissent être obtenues. Les dimensions dans la gestion des données et les entrepôts de données contiennent des données relativement statiques ; cependant, ces données dimensionnelles peuvent changer lentement au fil du temps et à des intervalles imprévisibles. Ces types de données dimensionnelles sont appelés dimensions à variation lente (SCD).

Dans un environnement d'entrepôt de données, une table de dimension possède une clé primaire qui identifie de manière unique chaque enregistrement et d'autres éléments d'information appelés données dimensionnelles. La clé primaire sera liée à une table de faits utilisant cette clé. Par conséquent, il est important d'avoir un modèle pour mettre à jour et gérer les données actuelles et les données historiques. Il existe des modèles reconnus qui sont connus par leurs types :

  • Type 1 :ce modèle implique le remplacement de l'ancienne valeur actuelle par la nouvelle valeur actuelle. Aucun historique n'est conservé.
  • Type 2 :les enregistrements actuels et historiques sont conservés et conservés dans le même fichier ou tableau.
  • Type 3 :les données actuelles et les données historiques sont conservées dans le même enregistrement. L'utilisateur décide de la quantité d'historique conservée dans l'enregistrement.
  • Type 4 :dans ce modèle, les données actuelles sont conservées dans deux tables différentes ; un pour les données actuelles et un qui contient toutes les données historiques.
  • Type 6 :ce modèle est un hybride des types 1, 2 et 3.

Toutes les méthodes de mise à jour pour les différents modèles SCD peuvent être réalisées à l'aide du programme SortCL dans IRI CoSort ou IRI Voracity. Voracity fournit désormais également un assistant de création de travail de bout en bout unique pour créer ces programmes automatiquement ; voir ci-dessous. La plupart des types utilisent une jointure externe complète pour faire correspondre les enregistrements de la source de données principale avec les enregistrements de la source de mise à jour en fonction de l'équivalence d'une clé unique de chacun. Les enregistrements avec des correspondances doivent être mis à jour dans le maître. Les enregistrements de la source de mise à jour qui n'ont pas de correspondance doivent être ajoutés au maître.

Mes articles sur les différents types de SCD montrent les données source ou d'entrée dans les fichiers et montrent les scripts SortCL qui sont utilisés pour mettre à jour les fichiers maîtres. Les tableaux peuvent également être une source avec ces scripts.

Dans chaque exemple, je couvre les étapes pour mettre à jour une source dimensionnelle qui maintient les coûts des produits qui changent à intervalles irréguliers. Le champ ou la colonne clé est ProductCode. Tous les fichiers maîtres sources contiendront les données suivantes :

La source master1.dat contient :

ProductCode Coût Date de début
C123 125,50 20110228
F112 2365.00 20120101
G101 19.25 20110930
J245 450.50 20110430
S022 98,75 20110515

Les données de mise à jour auront toutes la même StartDate. La source de mise à jour contient les données suivantes :

ProductCode Coût Date de début
F112 2425.00 20120701
J245 550,50 20120701
M447 101.75 20120701
S022 101.75 20120701

La déclaration de SCD est également discutée sur le site Web de l'IRI ici. Consultez ces articles spécifiques aux SCD : Type 1, Type 2, Type 3, Type 4 et Type 6.

Nouvel assistant graphique SCD

Les utilisateurs de Voracity peuvent désormais également utiliser un assistant de création de tâches spécialement conçu pour créer des rapports sur les types de SCD 1, 2, 3, 4 et 6 dans l'interface graphique IRI Workbench, basée sur Eclipse. L'assistant prend également en charge l'intégration du tri, de l'évaluation des expressions, de l'agrégation, du nouveau formatage, du chiffrement, etc.

Après avoir configuré la tâche et sélectionné le type de SCD dans l'assistant, vous spécifiez les données de base et mettez à jour les informations. Après cela, vous spécifiez les mappages pour la cible, en plaçant les champs en ligne avec les champs source correspondants et en utilisant les zones de liste déroulante selon les besoins, travaillez avec les ensembles de champs actuels et historiques. Après avoir joint les informations spécifiées sur la page Joindre les sources, le script approprié est créé et prêt à être schématisé, exécuté, modifié ou partagé.

Les articles associés aux types ci-dessus seront mis à jour pour refléter la façon dont le nouvel assistant SCD de Voracity peut créer automatiquement ces travaux pour vous.