HBase
 sql >> Base de données >  >> NoSQL >> HBase

Premiers pas avec la base de données opérationnelle Cloudera Data Platform (COD)

Concepts

Qu'est-ce que la base de données opérationnelle Cloudera (COD) ?

La base de données opérationnelle est une base de données relationnelle et non relationnelle basée sur Apache HBase et conçue pour prendre en charge les applications OLTP, qui utilisent le Big Data.

La base de données opérationnelle de Cloudera Data Platform comprend les composants suivants : 

  • Apache Phoenix fournit un modèle relationnel facilitant une évolutivité massive. Il tire parti de l'évolutivité et de la résilience d'Apache HBase.
  • Apache HBase fournit un modèle non relationnel conçu pour une évolutivité massive, de sorte que vous pouvez stocker des quantités illimitées de données sur une seule plate-forme et gérer les demandes croissantes de diffusion de données.
  • Apache ZooKeeper fournit un service de configuration distribué, un service de synchronisation et un registre de dénomination.
  • Apache Knox Gateway fournit une sécurité périmétrique afin que l'entreprise puisse étendre en toute confiance l'accès à de nouveaux utilisateurs.
  • Apache HDFS est utilisé pour écrire les WAL Apache HBase (et HBase HFiles dans certains cas).
  • Les magasins d'objets tels qu'Amazon S3 et Microsoft ADLS Gen2 sont utilisés pour stocker les HFiles Apache HBase.
  • Shared Data Experience (SDX) est utilisé pour les fonctionnalités de sécurité et de gouvernance. Les politiques de sécurité et de gouvernance sont définies une seule fois et appliquées à toutes les données et charges de travail. Tout comme CDP lui-même, SDX est construit sur des projets open source communautaires avec Apache Ranger et Apache Atlas occupant une place de choix.

Atlas fournit des fonctionnalités ouvertes de gestion et de gouvernance des métadonnées pour créer un catalogue de tous les actifs, ainsi que pour classer et gouverner ces actifs. La couche SDX de CDP exploite le spectre complet d'Atlas pour suivre et contrôler automatiquement tous les actifs de données.

Ranger fournit une gestion des clés de sécurité, avec une connexion distincte pour les administrateurs de clés utilisant le service Ranger KMS. Apache Ranger fournit également des fonctionnalités de sécurité indispensables telles que le masquage de colonnes et le filtrage de lignes prêts à l'emploi. Un autre facteur important est que les politiques d'accès dans Ranger peuvent être personnalisées avec un contexte dynamique en utilisant différents attributs tels que "région géographique" ou "heure de la journée".

  • IDBroker est une API REST intégrée aux services d'authentification d'Apache Knox. Il permet à un utilisateur authentifié et autorisé d'échanger un ensemble d'informations d'identification ou un jeton contre des jetons d'accès de fournisseur cloud.

Service de données de la base de données opérationnelle du CDP

CDP Operational Database (COD) est une base de données opérationnelle à mise à l'échelle automatique en temps réel alimentée par Apache HBase et Apache Phoenix. Il s'agit d'un service de données qui s'exécute sur Cloudera Data Platform (CDP). Vous pouvez accéder à COD directement depuis votre console CDP. COD vous permet de créer une nouvelle base de données opérationnelle en un seul clic et d'évoluer automatiquement en fonction de votre charge de travail.

Voici les étapes clés pour démarrer avec COD :

  • Créez une base de données dans un environnement en un seul clic et une base de données devrait être opérationnelle et disponible en quelques minutes.
  • Configurez votre mot de passe de charge de travail. Pour plus d'informations, cliquez ici.
  • Téléchargez et installez Apache Maven, Java, Python 3.8.
  • Installez le client CDP sur votre machine. Pour plus d'informations, cliquez ici.
  • Suivez les instructions du référentiel d'exemples pour apporter des modifications à vos paramètres maven-security.xml, settings.xml et pom.xml.
  • Créer et exécuter les applications.

Apache HBase

HBase est une architecture de stockage de données orientée colonne qui est formée au-dessus de HDFS pour surmonter ses limites. Il exploite les fonctionnalités de base de HDFS et s'appuie dessus pour fournir une évolutivité en traitant un grand volume de demandes de lecture et d'écriture en temps réel. Bien que l'architecture HBase soit une base de données NoSQL, elle facilite le processus de maintenance des données en les répartissant uniformément sur le cluster. Cela facilite l'accès et la modification des données dans le modèle de données HBase. En savoir plus sur Apache HBase.

Apache Phénix

Apache Phoenix est une interface RDBMS et ANSI SQL. Apache Phoenix met en œuvre des optimisations conformes aux meilleures pratiques pour permettre aux ingénieurs logiciels de développer des applications pilotées par les données de nouvelle génération basées sur HBase. À l'aide de Phoenix, vous pouvez créer et interagir avec des tables sous la forme d'instructions DDL/DML typiques à l'aide de l'API JDBC standard, d'ODBC et de l'API Phoenix DB.

Phénix fournit :

  • Prise en charge des API SQL et JDBC
  • Prise en charge de la liaison tardive, schéma en lecture
  • Accès aux données stockées et produites dans d'autres composants tels qu'Apache Spark et Apache Hive

En savoir plus sur Apache Phoenix.

Procédure

Comment créer une base de données opérationnelle

Vous pouvez créer une base de données opérationnelle dans votre environnement enregistré à l'aide de la base de données opérationnelle CDP (COD).

Pré-requis

  • Vous devez être connecté à l'environnement COD en tant qu'administrateur ODA.
  • Assurez-vous que vous êtes autorisé à créer une base de données.

Étapes

  1. Connectez-vous à l'interface Web du CDP. Par exemple, la console CDP.
  2. Sélectionnez la base de données opérationnelle.
  3. Dans l'interface Web COD, cliquez sur Créer une base de données.
  4. Sélectionnez l'environnement dans la liste dans lequel vous souhaitez avoir la base de données.
  5. Fournissez un nom pour la base de données dans le champ Nom de la base de données.
  6. Cliquez sur Créer une base de données.

Résultat

La page d'informations s'affiche et indique l'état de la base de données. Votre nouvelle base de données est prête à être utilisée dès que son statut devient Disponible.

Démo

Comment gérer une connexion à une base de données

Une fois que vous avez créé une base de données opérationnelle et qu'elle est disponible, vous pouvez gérer les connexions à la base de données.

Pré-requis

  • Assurez-vous qu'une base de données est active et disponible.
  • Vous êtes autorisé à apporter des modifications à la base de données.

Étapes

  1. Dans l'interface Web de COD, sélectionnez la base de données pour laquelle vous souhaitez gérer les connexions.
  2. Sous Connecter, allez dans chaque onglet et modifiez les paramètres.

Références

  • Documentation Cloudera sur la création d'une base de données COD
  • Base de données opérationnelle dans CDP 

Si vous souhaitez essayer CDP Public Cloud et la base de données opérationnelle, essayez notre Test Drive .