Database
 sql >> Base de données >  >> RDS >> Database

Nomenclature et architecture des produits IRI

Les noms des produits logiciels IRI et leur fonctionnement ont parfois été une source de mystère, voire de confusion, pour les non-initiés. Cet article détaille les éléments et clarifie leur interaction, fournissant une introduction rapide aux utilisateurs potentiels, aux partenaires et aux nouvelles analyses du secteur mailles.

Là où tout a commencé

Tout a commencé avec IRI CoSort en 1978, l'utilitaire de tri, de transformation et de création de rapports de données volumineuses pour Unix et Windows, encore largement utilisé aujourd'hui. Avant CoSort, ce premier produit IRI s'appelait CO-SORT, COSORT et CoSORT, dans cet ordre.

En 1992, IRI a ajouté le programme de syntaxe et de manipulation de définition de données Sort Control Language (SortCL) aux autres utilitaires et API du package CoSort. Aujourd'hui, SortCL est l'interface utilisateur la plus largement utilisée et la plus riche en fonctionnalités du package CoSort.

Les scripts SortCL définissent, et le programme sortcl s'exécute, les tâches qui exécutent et combinent de nombreuses tâches courantes de déplacement et de mappage de données que les utilisateurs de CoSort doivent exécuter. SortCL n'est pas seulement un simple 4GL à apprendre, lire et modifier, mais il est également pris en charge via une API (appelée sortcl_routine) et graphiquement dans l'IDE gratuit IRI Workbench, construit sur Eclipse.

Au fur et à mesure que la fonctionnalité SortCL s'est développée, elle a dépassé le marché traditionnel de CoSort pour les migrations de tri et l'accélération BI/DW. Aujourd'hui, l'exécutable SortCL n'est pas seulement le moteur exécutant la plupart des tâches CoSort, mais c'est le cœur battant de plusieurs produits dérivés, illustrés ici :

Produits dérivés de CoSort / SortCL

Plus précisément, le même moteur SortCL et les scripts de travail compatibles - généralement conçus et souvent gérés à partir d'IRI Workbench, traitent les sources de données structurées dans :

  1. IRI FieldShield et IRI DarkShield pour le masquage des données
  2. IRI RowGen pour la synthèse des données de test et le sous-ensemble de bases de données
  3. IRI NextForm pour la conversion et la réplication de données et de bases de données et, le
  4. Tâches de la plate-forme de gestion de données IRI Voracity, qui incluent celles de CoSort et les produits liés ci-dessus, plus fonctionnalités frontales supplémentaires via l'interface graphique commune de Workbench, telles que :
  • Découverte de données (profilage, classification et recherche)
  • Entrepôt de données ETL, CDC et SDC
  • Migration et prototypage de Data Vault 2.0
  • Qualité des données (validation, nettoyage, homogénéisation)
  • Analyse ou traitement des données pour Splunk et KNIME, et d'autres outils de BI via le transfert

Voici une autre façon de voir la hiérarchie des produits :

où l'IDE Workbench est l'endroit où tous les travaux du produit IRI sont conçus, y compris les fonctionnalités supplémentaires prises en charge dans Voracity.

Une foire aux questions

Puisque SortCL a commencé avec CoSort et est commun à tous ces produits, cela signifie-t-il que je peux utiliser CoSort ou un autre produit ci-dessus pour faire ce que font les autres produits ?

La réponse est oui et non. Oui, vous avez SortCL et vous pouvez en théorie faire le même travail qu'un autre produit IRI compatible SortCL est censé effectuer. Mais ce serait plus difficile et représente un risque de production. IRI fournit uniquement de la documentation et une assistance pour les tâches les mieux associées à votre ou vos produits IRI sous licence.

Par conséquent, la capacité de croisement est limitée dans la pratique. Néanmoins, la fonctionnalité combinatoire est courante dans de nombreux cas (comme un sous-ensemble de bases de données trié), et dans Voracity, les cas d'utilisation multi-tâches et multi-étapes (comme le mappage incrémentiel, le masquage, le nettoyage et le reformatage) sont très efficaces et entièrement pris en charge. /P>

SortCL est le moteur par défaut dans tous les IRI Voracity CDC, ETL, CDC, nettoyage, réconciliation, sous-ensemble ,
Tâches de masquage d'informations personnelles, de synthèse de données de test, de conversion, de reformatage, de manipulation, d'analyse et de création de rapports.

Architecture d'exécution

Maintenant que vous connaissez les noms des produits, voyons comment ils interagissent et se déploient.

Le logiciel IRI fonctionne généralement dans un modèle client/serveur, où les travaux compatibles SortCL sont définis dans un environnement d'édition frontal comme IRI Workbench ou un autre éditeur de texte, ou via l'API IRI. Ces tâches s'exécutent généralement dans le programme back-end SortCL sur des machines Linux, Unix ou Windows (physiques ou virtuelles), sur site ou dans le cloud :

Certaines tâches scriptées dans la syntaxe SortCL peuvent également s'exécuter sans modification directement dans Map Reduce 2, Spark, Spark Stream, Story ou Tez pour les titulaires de licence de l'édition Voracity Grid (VGrid) pour Hadoop.

Notez cependant que contrairement à de nombreux autres programmes ETL et de masquage de données, il n'y a pas de serveur CoSort sur lequel SortCL doit s'exécuter ou être géré de manière centralisée. L'exécutable SortCL léger peut s'exécuter n'importe où, d'un Raspberry Pi à un mainframe z/Linux.

Il est donc courant, selon le schéma ci-dessus, que les sites aient des instances de test et QA SortCL installées sur les ordinateurs portables des développeurs exécutant IRI Workbench, ainsi que sur des serveurs de fichiers ou de bases de données centralisés pour optimiser les performances. Cette FAQ couvre la question de savoir où obtenir une licence SortCL dans le contexte des produits de masquage de données IRI, par exemple, et comment factoriser ses coûts en conséquence.

Si vous avez des questions sur le produit IRI dont vous avez besoin ou sur la meilleure façon de le déployer sur le matériel dont vous disposez (ou que vous prévoyez de provisionner), veuillez contacter votre représentant IRI.