Database
 sql >> Base de données >  >> RDS >> Database

Qu'est-ce que la base de données Greenplum ? Introduction à la base de données Big Data

La base de données Greenplum est une base de données SQL de traitement massivement parallèle (MPP) construite et basée sur PostgreSQL. Il peut évoluer vers une charge de travail de données de plusieurs pétaoctets sans un seul problème, et il permet d'accéder à un cluster de serveurs puissants qui fonctionneront ensemble au sein d'une seule interface SQL où vous pouvez afficher toutes les données. Dans cet article de blog, nous expliquons ce qu'est Greenplum et décomposons l'architecture Greenplum, les avantages, les principaux cas d'utilisation et comment démarrer.

Qu'est-ce exactement que Greenplum ?

Greenplum Database est une base de données MPP open source et indépendante du matériel pour l'analyse, basée sur PostgreSQL et développée par Pivotal, qui a ensuite été rachetée par VMware. Son architecture a été spécialement conçue pour gérer des entrepôts de données à grande échelle et des charges de travail d'informatique décisionnelle en vous donnant la possibilité de répartir vos données sur une multitude de serveurs.

Cette base de données riche en fonctionnalités fournit des analyses puissantes et rapides sur les données qui évoluent jusqu'à des volumes de pétaoctets.

En un coup d'œil – TLDR

L'architecture Greenplum

Greenplum utilise une conception de base de données MPP qui peut vous aider à développer un déploiement évolutif et performant. Lire maintenant

Avantages Greenplum

Haute performance, optimisation des requêtes, open source et stockage de données polymorphe sont les atouts majeurs de Greenplum. Lire maintenant

Principaux cas d'utilisation

Découvrez pourquoi Greenplum est la meilleure base de données pour les cas d'utilisation de l'analyse, de l'apprentissage automatique et de l'IA. Lire maintenant

L'architecture Greenplum

Afin de bien comprendre l'architecture de Greenplum, regardons d'abord ce qu'est une base de données MPP.

Qu'est-ce qu'une base de données MPP ?

Lorsque vous traitez de grandes quantités de données complexes ou de mégadonnées, il est probable que votre machine principale commence à être écrasée par toutes les données qu'elle doit traiter pour produire vos analyses. résultats. Pour répondre à ce besoin de traitement plus rapide et permettre des résultats plus rapides, de nombreuses organisations envisagent d'adopter une base de données MPP.

Le système MPP s'appuie sur une architecture sans partage pour gérer plusieurs opérations en parallèle. Il utilise plusieurs unités de traitement différentes qui fonctionnent indépendamment en utilisant leur propre mémoire et ressources dédiées, de sorte que la charge de travail est partagée sur plusieurs appareils au lieu d'un seul. En règle générale, un système MPP comporte un nœud principal et un ou plusieurs nœuds de calcul. Le nœud principal, appelé « maître » dans Greenplum, indique à tous les autres nœuds, appelés segments dans Greenplum, ce qu'il faut faire, et fusionne leurs réponses pour créer la réponse finale.

Les bases de données MPP s'adaptent horizontalement en ajoutant plus de ressources de calcul (nœuds), plutôt que d'avoir à se soucier de la mise à niveau vers des serveurs individuels de plus en plus coûteux (mise à l'échelle verticale).

Conception architecturale Greenplum

Basé sur l'architecture PostgreSQL, Greenplum exploite essentiellement plusieurs instances de base de données PostgreSQL à la fois dans un seul cluster Greenplum. Les utilisateurs de PostgreSQL peuvent rapidement se familiariser avec ce type de base de données, car de nombreuses fonctionnalités, configurations et fonctionnalités sont les mêmes dans Greenplum, et incluent des fonctionnalités conçues pour optimiser le fonctionnement de PostgreSQL pour les tâches et les charges de travail de Business Intelligence (BI).

Greenplum a également introduit de nombreuses fonctionnalités qui ne sont pas disponibles dans PostgreSQL, telles que le chargement de données parallèle, la gestion des ressources, les améliorations de stockage et l'optimisation avancée des requêtes, ce qui en fait une offre attrayante lorsque vous comparez les deux.

Semblable à PostgreSQL, Greenplum exploite un serveur maître, ou hôte, qui est le point d'entrée de la base de données, acceptant les connexions et les requêtes SQL. Cependant, là où PostgreSQL utilise des nœuds de secours pour répartir géographiquement leur déploiement, Greenplum utilise des hôtes de segment qui stockent et traitent les données. Les segments Greenplum sont indépendants et stockent chacun une partie des données, bien qu'ils gèrent la majorité du traitement des requêtes. Vous pouvez exploiter aussi peu que deux hôtes de segment et évoluer jusqu'à une capacité illimitée. Si la mise en miroir est activée, vous devez augmenter vos hôtes de segment par incréments d'au moins deux.

Alors, comment tout cela est-il coordonné ? L'interconnexion Greenplum est la couche réseau de l'architecture et gère la communication entre les segments Greenplum et l'infrastructure du réseau hôte maître.

Avantages de Greenplum

Voici quelques-uns des principaux avantages de Greenplum qui peuvent vous aider à améliorer les performances de votre base de données :

  • Hautes performances

    Greenplum dispose d'un pipeline de données de conception unique qui peut diffuser efficacement des données du disque vers le processeur, sans dépendre de l'intégration des données dans la mémoire RAM, comme expliqué dans leur Greenplum Next Generation Big Plate-forme de données :article sur les 5 principales raisons. Cela offre aux déploiements Greenplum une énorme amélioration des performances par rapport aux systèmes en mémoire qui ont besoin de suffisamment de mémoire pour stocker leurs données, ou aux systèmes non basés sur RDBMS qui sont des moteurs de traitement en mémoire qui allouent de la RAM pour chaque requête simultanée. Les hautes performances de Greenplum éliminent le défi que la plupart des SGBDR ont à s'adapter à des niveaux de données pétabtye, car ils sont capables d'évoluer de manière linéaire pour traiter efficacement les données.

  • Optimisation des requêtes

    Greenplum propose un optimiseur de requêtes basé sur les coûts pour les charges de travail Big Data à grande échelle. Exploitant les performances décrites ci-dessus, Greenplum adapte les analyses interactives et en mode batch à l'échelle du pétaoctet sans dégrader les performances de vos requêtes. Cela permet à Greenplum de répartir la charge entre ses différents segments et d'utiliser toutes les ressources du système en parallèle pour traiter une requête.

    En outre, grâce aux améliorations de la charge de travail OLTP (traitement transactionnel en ligne) dans Greenplum 6, les performances des requêtes uniques se sont améliorées de plus de 3,5 c par rapport à Greenplum 5. Avec cette mise à jour, Greenplum a éliminé une grande partie des verrouiller la concurrence afin que l'utilisation du processeur maître puisse dépasser 90 %, ce qui améliore les performances de la requête en améliorant les performances matérielles du nœud maître.

  • Open Source

    La base de données Greenplum est un projet d'entrepôt de données open source basé sur le noyau open source de PostgreSQL, permettant aux utilisateurs de tirer parti des décennies de développement d'experts derrière PostgreSQL, ainsi que de la personnalisation ciblée de Greenplum pour les applications Big Data. Greenplum peut s'exécuter sur n'importe quel serveur Linux, qu'il soit hébergé dans le cloud ou sur site, et peut s'exécuter dans n'importe quel environnement.

    Bien que Greenplum soit maintenu par une équipe de développeurs disposant de droits d'engagement sur le référentiel principal, ils accueillent avec impatience de nouveaux contributeurs expérimentés avec la base de données pour aider à façonner l'avenir de Greenplum. En savoir plus sur l'implication via la page Greenplum GitHub.

  • Stockage de données polymorphe

    Le stockage de données polymorphe de Greenplum vous permet de contrôler la configuration de votre stockage de table et de partition avec la liberté d'exécuter et de compresser les fichiers qu'il contient à tout moment. Cela vous permettra de concevoir vos tables en fonction de la manière dont vos données spécifiques sont accessibles et d'avoir à leur tour une hiérarchie de stockage orientée ligne ou colonne.

    Lorsque vous créez un tableau dans Greenplum, vous pouvez contrôler l'orientation avec la possibilité de choisir des données orientées colonnes ou orientées lignes. L'orientation des colonnes est généralement meilleure pour les analyses complètes, tandis que l'orientation des lignes est meilleure pour les petites analyses ou les recherches.

Greenplum vous permet même de créer des types de données et des fonctions spécifiques à un domaine. Grâce à l'utilisation de types de données semi-structurés, notamment XML, HStore et JSON, vous avez la possibilité de stocker et d'analyser des données structurées et non structurées dans une base de données.

Qu'est-ce que la base de données Greenplum ? Introduction à la base de données Big DataCliquez pour tweeter

Principaux cas d'utilisation

Greenplum fournit une combinaison puissante de bases de données de traitement massivement parallèles et d'analyses de données avancées qui lui permettent de créer un cadre permettant aux scientifiques et aux architectes de données de prendre des décisions commerciales basées sur les données recueillies par l'intelligence artificielle et l'apprentissage automatique. Passons en revue les principaux cas d'utilisation de Greenplum :

Analytique

Les analyses avancées fournies par Greenplum sont utilisées dans de nombreux secteurs verticaux, y compris la finance, la fabrication, l'automobile, le gouvernement, l'énergie, l'éducation, la vente au détail, etc., pour répondre à une grande variété de problèmes. Certaines des capacités d'analyse de la base de données Greenplum mises en avant par Pivotal incluent la capacité d'analyser une multitude de types de données, d'exploiter les connaissances SQL existantes et de former plus de modèles en moins de temps en utilisant l'architecture MPP.

De plus, Greenplum fournit des analyses de base de données qui vous permettent d'exécuter des analyses directement dans la base de données plutôt que d'exporter et d'exécuter vos données dans un moteur d'analyse externe. En tant que base de données adaptée aux charges de travail d'entreprise, cela offre la capacité nécessaire pour explorer de grands ensembles de données ainsi que les hautes performances obtenues en mettant en parallèle les analyses sur vos hôtes de segment disponibles. Vous pouvez également tirer parti d'une large gamme d'outils d'analyse de puissance avec Greenplum, notamment MADlib, le langage statistique R, SAS et Predictive Modeling Markup Language (PMML).

Par exemple, une société de marketing Internet d'un milliard de dollars utilise l'analyse avancée de Greenplum pour effectuer un profilage d'audience afin de comprendre qui est son audience, ce qu'elle achète, quels réseaux et appareils elle utilise, et où ils sont situés géographiquement afin qu'ils puissent mieux comprendre et servir leur marché.

Apprentissage automatique

Greenplum est une excellente base de données pour l'apprentissage automatique - l'étude des algorithmes informatiques qui s'améliorent automatiquement grâce à l'expérience. Apache MADlib est une bibliothèque d'apprentissage automatique open source basée sur SQL qui s'exécute dans la base de données sur Greenplum, ainsi que sur PostgreSQL. Cette combinaison vous aide à améliorer le parallélisme, l'évolutivité et la précision prédictive de votre déploiement d'apprentissage automatique Greenplum. Des capacités de transformation de données et d'ingénierie de fonctionnalités sont également disponibles via MADlib pour l'apprentissage automatique, y compris les statistiques descriptives et inférentielles, le pivotement, la mise en session et l'encodage de variables catégorielles.

Par exemple, une entreprise gouvernementale de rétention des revenus de la fraude tire parti des capacités d'apprentissage automatique de Greenplum avec GemFire ​​pour effectuer une détection de fraude à grande échelle afin de prévenir le vol d'identité, en détectant et en conservant 5 milliards de dollars par an et en traitant 8 millions de cas par jour.

IA

L'intelligence artificielle (IA), bien que similaire à l'apprentissage automatique, fait référence à l'idée plus large selon laquelle les machines peuvent exécuter des tâches intelligemment. Greenplum est un excellent choix de base de données pour les applications cherchant à imiter les capacités humaines grâce à des machines intelligentes. Avec la capacité de Greenplum à ingérer de gros volumes de données à grande vitesse, cela fait de cette base de données un outil puissant pour les applications intelligentes qui doivent interagir intelligemment en fonction d'un nombre illimité de scénarios uniques.

Par exemple, une entreprise de télécommunications utilise les capacités d'IA de la base de données Greenplum pour ses capteurs intelligents de système de rapport opérationnel IoT afin d'analyser et d'exécuter des événements utilisés pour la maintenance, la sécurité et l'efficacité opérationnelle.

Alors, qui utilise Greenplum aujourd'hui ? Les clients de Greenplum incluent American Express, Walmart, Asurian, Bank of America et bien d'autres sur les marchés de la banque, des services professionnels, des médias, de l'assurance, de la santé, de l'automobile et de la vente au détail.

Comment démarrer

Comme mentionné tout au long de cet article, Greenplum est une base de données open source, la version communautaire est donc absolument gratuite à télécharger et à utiliser. La communauté petite mais active de Greenplum accueille de nouveaux contributeurs, accepte les commentaires et collabore avec les évangélistes de Greenplum pour promouvoir la base de données Big Data.

De nombreuses organisations utilisant Greenplum recherchent une assistance et des outils supplémentaires pour aider leurs DBA à gérer leurs déploiements. Voici les deux différentes options de gestion de base de données et de support disponibles pour Greenplum :

ScaleGrid pour la base de données Greenplum® – Version Open Source

ScaleGrid pour Greenplum® Database est une solution entièrement gérée pour la version open source de Greenplum, lancée en mai 2020. La plate-forme multi-cloud vous permet de déployer et de gérer sur AWS, Plateformes cloud Azure ou Google Cloud (bientôt disponible), ou environnements VMware sur site. ScaleGrid fournit aux utilisateurs de Greenplum les outils de gestion avancés dont ils ont besoin pour se déployer en un seul clic, automatiser les sauvegardes et évoluer de manière dynamique avec la possibilité de conserver tous les privilèges d'administrateur super utilisateur sur leurs déploiements open source.

Pivotal Greenplum – Version commerciale

Pivotal Greenplum, maintenant VMware Tanzu est le créateur de la base de données open source qui propose une version commerciale de la base de données pour vous aider à déployer et à gérer Greenplum dans le cloud et sur site. Pivotal Greenplum offre de nombreux avantages, tels que la possibilité d'optimiser la disponibilité, de protéger l'intégrité des données et de gérer facilement les données en continu et les données cloud.

ScaleGrid et Pivotal Greenplum proposent tous deux des packages de support avancés pour aider vos DBA à optimiser leurs déploiements Greenplum.