Décharger de très grandes bases de données

L'une des principales préoccupations des administrateurs de bases de données qui doivent décharger des données volumineuses à partir de tables de très grandes bases de données (VLDB) est la vitesse. Un déchargement plus rapide rend les données accessibles sous différentes formes à des fins et sur des plates-formes différentes. Plus les données sont acquises rapidement, plus elles peuvent être traitées et livrées rapidement. Le résultat final est un délai de résolution plus rapide, et donc la productivité et la compétitivité des entreprises qui tirent profit de l'information.

La plupart des outils et méthodes actuellement utilisés pour extraire des données de grandes tables de faits sont tout simplement trop lents. Ceux qui prétendent être plus rapides sont compliqués, propriétaires ou nécessitent l'achat d'un package ETL coûteux. Un passage à un paradigme ELT ou Hadoop implique des dépenses matérielles importantes (ou une appliance de base de données), taxe la base de données sous-jacente en train de se transformer et impose des courbes d'apprentissage abruptes et des charges de maintenance.

N'existe-t-il pas d'autres options pour le déchargement et les processus en aval qui soient plus rapides, plus simples et plus abordables ?

Pourquoi décharger les tables VLDB ?

Il existe de nombreuses raisons pour lesquelles vous devriez décharger les données de ces tables en masse :

Migration de la base de données :plus vite vous pouvez extraire les données de la ou des anciennes bases de données, plus vite vous pouvez mapper et déplacer les données dans la ou les nouvelles bases de données. Le déplacement de données en masse serait bénéfique si les volumes de données sont massifs, il y a un avantage à la transformation, la protection et/ou l'analyse hors ligne (ce qui est possible immédiatement dans IRI CoSort), et lorsque les charges en masse pré-triées sont le seul moyen de répondre Délais de SLA.

Réorganisation de la base de données :déchargez, triez, rechargez pour que la base de données fonctionne efficacement et optimisez les requêtes courantes en gardant les tables dans l'ordre des jointures. Le déchargement est effectué dans des réorganisations hors ligne ou externes. Voir cette comparaison sur les méthodes de réorganisation hors ligne et en ligne.

Intégration des données :Les opérations d'extraction-transformation-chargement (ETL) DW à grande échelle commencent par l'extraction de tables dans la zone de transfert de données. Les données extraites des tables et mélangées avec des ensembles de données mainframe, des journaux Web et d'autres fichiers plats peuvent être intégrées et traitées plus efficacement dans le système de fichiers. Les transformations externes via sont non seulement plus efficaces car plusieurs actions peuvent être mises en scène en une seule passe d'E/S, mais aussi parce que la surcharge de calcul de tout ce travail est supprimée de la base de données (voir ETL contre ELT).

Réplication/archivage des données :En déchargeant les tables de faits, les données opérationnelles de la source dorée peuvent être dupliquées et stockées dans un format portable. Les données des fichiers plats peuvent être interrogées, manipulées et reformatées avec des outils comme IRI NextForm ou CoSort, et utilisées pour remplir d'autres bases de données et applications. De même, un référentiel accessible de ces données peut également être stocké hors ligne pour la restauration et la récupération de sauvegarde, ou la distribution aux parties qui ont besoin d'accéder aux données dans un environnement différent.

Intelligence économique :Il peut être plus rapide et plus facile d'importer des données opérationnelles dans Excel et d'autres outils BI dans des formats de fichiers plats tels que CSV et XML plutôt que d'essayer de faire le pont entre le tableau et une feuille de calcul ou un cube BI. Le déchargement des tables dans des fichiers plats est donc une étape initiale et efficace dans la franchise de données - la préparation des données pour les opérations de BI.

Regard sur les méthodes de déchargement

Les méthodes d'extraction VLDB varient en termes de performances et de fonctionnalités. Un bon utilitaire pour décharger les données volumineuses d'Oracle et d'autres bases de données majeures doit être efficace, facile à utiliser et prendre en charge certaines fonctions de reformatage qui n'alourdiraient pas le processus.

La commande SQL SPOOL peut vider des données dans un fichier plat, mais son volume est généralement lent. Les utilitaires natifs comme l'exportation ou la pompe de données d'Oracle sont plus rapides, mais produisent des extraits propriétaires qui ne peuvent être réimportés que dans la même base de données et ne peuvent pas être analysés comme le ferait un fichier plat.

Si vous avez besoin de décharger rapidement des tables volumineuses dans des fichiers plats portables, pensez à IRI FACT (Fast Extract) pour Oracle, DB2, Sybase, MySQL, SQL Server, Altibase, Tibero, etc. FACT utilise le parallélisme et des protocoles de connexion de base de données natifs (comme Oracle OCI ) pour optimiser les performances d'extraction. L'interface graphique FACT gratuite (assistant) qui fait partie de l'IRI Workbench, basée sur Eclipse™, présente les tables et colonnes disponibles à extraire et utilise la syntaxe SQL SELECT.

Un autre avantage de l'utilisation de FACT est son intégration de métadonnées avec le programme SortCL dans IRI Voracity pour transformer, protéger, cibler et même créer des rapports sur les extraits de fichiers plats. FACT crée également le fichier de contrôle de l'utilitaire de chargement en bloc de la base de données en prévision des repeuplements de la même table à l'aide de fichiers plats pré-cosortés dans les opérations ETL ou de réorganisation à grande échelle.