HBase
 sql >> Base de données >  >> NoSQL >> HBase

Administration de la base de données opérationnelle

Note de la rédaction, août 2020 :CDP Data Center s'appelle désormais CDP Private Cloud Base. Vous pouvez en savoir plus ici.

Présentation

Ce billet de blog fait partie d'une série sur la base de données opérationnelle (OpDB) de Cloudera dans CDP. Chaque article donne plus de détails sur les nouvelles fonctionnalités et capacités. Commencez par le début de la série avec, Base de données opérationnelle dans CDP.

Cet article de blog vous donne un aperçu des outils et fonctionnalités d'administration de la base de données opérationnelle (OpDB) de la plate-forme de données Cloudera. Il est disponible aujourd'hui sous deux formes :en tant qu'offre entièrement sécurisée et semi-gérée dans CDP Public Cloud - Data Hub et en tant qu'offre entièrement personnalisable dans CDP Data Center (similaire à ce qui est disponible dans CDH et HDP). Pour plus d'informations sur Data Hub, consultez Cloudera Data Hub.

Fig 1 :cluster OpDB Data Hub.

Vous pouvez utiliser les liens de cet article pour obtenir plus d'informations et des instructions sur l'utilisation de ces fonctionnalités.

Création et contrôle de la base de données

Les espaces de noms Apache HBase sont des groupes logiques de tables similaires à une base de données dans un système de base de données relationnelle traditionnel. Les espaces de noms peuvent être créés ou gérés via Apache HBase Shell. Pour plus d'informations sur l'utilisation du shell Apache HBase, consultez Présentation du shell Apache HBase.

Avec Replication Manager &Ranger dans l'image avec CDP, vous ne pouvez créer l'espace de noms et le gérer que dans le shell HBase. Mais les autorisations sont via Ranger et la réplication via Replication Manager.

Tout comme dans une base de données relationnelle, les espaces de noms contiennent des collections de tables et d'autorisations, des paramètres de réplication et l'isolation des ressources. Vous pouvez définir ces configurations au niveau de l'espace de noms. Dans CDP, vous pouvez créer un espace de noms et le gérer à l'aide du shell HBase. Vous pouvez utiliser Apache Ranger pour des politiques d'autorisation et un audit précis. Pour plus d'informations sur la configuration de la sécurité dans CDP, consultez Sécurité à l'aide de Ranger.

Replication Manager vous aide à créer des politiques de réplication HBase. Vous pouvez utiliser Replication Manager pour configurer la réplication entre CDH/HDP ou Apache HBase vers CDP Data Center.

Fig 2 :Création de l'interface utilisateur de la politique de réplication

Fonctionnalité graphique DDL et DCL

Il existe plusieurs outils fournis pour cela, y compris des plugins pour :

  • Cloudera Machine Learning (CML) :CML vous aide à interroger des données à l'aide du client HBase et de Phoenix, et vous aide dans l'exploration, la visualisation, le partage et la collaboration de données interactives. OpDB peut être utilisé pour stocker les résultats de prédiction de session/tâche/modèle pour une interrogation ultérieure par plusieurs utilisateurs différents.

Fig 3 :Interface utilisateur de Cloudera Machine Learning

  • Hue :Hue est un éditeur de requêtes interactif basé sur le Web qui vous permet d'interagir avec des entrepôts de données. Vous pouvez utiliser l'application HBase Browser dans Hue pour créer et parcourir des tables HBase.

Fig 4 :L'interface Hue prend en charge la recherche, l'insertion, la mise à jour, la suppression, le DDL pour HBase

Vous pouvez utiliser l'interface SQL avec Impala ou Hive pour le traitement des requêtes dans Hue.

Fig 5 :Interface SQL avec Impala

Voici un tutoriel pour créer des exemples de tables dans HBase à l'aide de Hue :https://gethue.com/hadoop-tutorial-how-to-create-example-tables-in-hbase/  

  • Eclipse :le formatage du code HBase pour Eclipse est utile lors de la modification du code HBase dans Eclipse. Pour plus d'informations, consultez Création et développement d'Apache HBase.

Des outils tels que Zeppelin et Hue ainsi que leurs plugins sont fournis prêts à l'emploi. Mais vous pouvez également utiliser des utilitaires SQL tiers tels que Toad.

Outils pour la mise à niveau de la version opérationnelle de la base de données

Vous pouvez utiliser Cloudera Manager pour automatiser le processus de mise à niveau de la base de données opérationnelle dans votre Cloudera Data Platform-Data Center (CDP-DC). Les mises à niveau sont fournies via des versions ou des correctifs de maintenance. Cloudera Manager installe les versions et/ou correctifs et gère la configuration ainsi que le processus de redémarrage.

Si vous utilisez CDP sur un cloud public tel qu'Amazon AWS, vous devez créer un nouveau cluster de concentrateur de données pour effectuer la mise à niveau vers les nouvelles versions de divers composants. Pour plus d'informations sur la création d'un nouveau cluster de concentrateur de données de base de données opérationnelle, consultez Premiers pas avec la base de données opérationnelle sur CDP.

L'offre de Cloudera est une offre basée sur un cluster ; les mises à niveau et les correctifs couvrent tous plusieurs nœuds (serveurs) et l'installation, la configuration et le redémarrage sont tous automatisés, y compris les redémarrages progressifs, le cas échéant.

Outils de gestion des correctifs sur plusieurs serveurs

Dans le centre de données CDP, Cloudera Manager installe les versions et gère la configuration. Cloudera Manager effectue également le processus de redémarrage pour chacun des composants concernés.

Application de correctif sans temps d'arrêt

Dans le centre de données CDP, Cloudera Manager vous permet d'appliquer des correctifs sans aucun temps d'arrêt.

Gestion des modifications sur plusieurs serveurs

Vous pouvez effectuer la gestion des modifications sur les schémas de base de données sur plusieurs instances. Par exemple, vous pouvez le faire sur votre environnement de test/développement, de staging ou de production.

Vous pouvez scripter les modifications requises à l'aide du shell HBase, puis les propager aux autres instances.

Pour plus d'informations sur l'utilisation du shell HBase, consultez Shell Apache HBase.

Partitionnement de la charge de travail

Vous pouvez partitionner les charges de travail/applications dans OpDB à l'aide de plusieurs outils en fonction de la nature de l'ensemble de charges de travail et de leurs besoins en données.

Si les applications accèdent toutes à des tables distinctes, les groupes de serveurs de région peuvent être utilisés pour dédier un ensemble de nœuds à un ensemble défini de tables ou d'espaces de noms créant une approche de partitionnement matériel. Pour plus d'informations sur les groupes de serveurs de région, consultez Utilisation du groupement de serveurs de région.

Pour les applications qui utilisent le même ensemble de tables, vous pouvez utiliser la limitation RPC, les quotas d'utilisateurs et les quotas d'espace pour gérer le problème de voisinage bruyant. Voir Gestion des devis HBase pour plus de détails techniques.

Vous pouvez également combiner ces deux ensembles d'options pour obtenir un schéma de partitionnement plus sophistiqué. Utilisez Cloudera Manager pour vous assurer que des services spécifiques sont correctement partitionnés entre les différents nœuds du cluster ; par exemple, vous pouvez décider quels nœuds doivent être utilisés pour la recherche SOLR, etc.  

Partitionnement matériel

Cloudera Manager et YARN exploitent tous deux les groupes de contrôle Linux et la gestion active de la mémoire pour le partitionnement statique et dynamique des ressources matérielles.

Tout d'abord, tous les processus exécutés sur tous les hôtes peuvent être partitionnés en dur avec des cgroups, définis par Cloudera Manager. Deuxièmement, un assistant permet aux utilisateurs de définir la disposition des partitions statiques pour les services en définissant des pourcentages, en traduisant automatiquement l'isolation du processeur et des E/S basée sur les groupes de contrôle, et définit les limites de mémoire en configurant les services eux-mêmes.

Enfin, le gestionnaire de ressources natif fournit un modèle de conteneur pour les charges de travail qui place chaque unité de travail discrète dans un conteneur, en utilisant des cgroups et une gestion active de la mémoire (set, monitor et kill) pour l'isolation des applications.

Hyperviseurs logiciels

Les hyperviseurs logiciels suivants sont pris en charge

  • VMware est pris en charge pour les environnements sur site
  • Environnements virtuels Azure de Microsoft (pile Azure)
  • Amazon Web Services, la virtualisation de Google Compute Platform et Microsoft Azure sont pris en charge sur le cloud.

Prise en charge des conteneurs et de l'orchestration

Cloudera fournit une image Docker sur laquelle Apache HBase, Apache ZooKeeper et Cloudera Manager sont installés. Vous pouvez configurer YARN pour gérer vos conteneurs Docker et soumettre des travaux Apache HBase à YARN sur le même conteneur ou soumettre des travaux à YARN à partir d'un autre conteneur.

Pour plus d'informations, consultez Gérer les conteneurs Docker sur YARN.

Annulation des correctifs ou des mises à jour de version

Cloudera Manager fournit une automatisation pour certains des processus de restauration. Les mises à niveau peuvent parfois impliquer des changements dans les formats de données. Les outils permettant d'annuler les modifications de format ne sont pas pris en charge et vous devez déclencher une restauration des données à partir des sauvegardes afin que la restauration puisse utiliser les anciennes données.

Migration entre plates-formes d'exploitation

Les outils standard de sauvegarde/restauration/récupération de données de Cloudera sont disponibles pour prendre en charge la migration de l'OpDB entre différents systèmes d'exploitation.

Les stratégies de sauvegarde et de reprise après sinistre HBase garantissent que vos données sont sauvegardées pour vous protéger contre la perte de données. L'instantané HBase vous permet de prendre un instantané d'une table sans trop d'impact sur les RegionServers. Également parce que les opérations d'instantané, de clonage et de restauration n'impliquent pas la copie de données.

Pour plus d'informations sur la sauvegarde et le sinistre HBase, voir Stratégies de sauvegarde et de reprise après sinistre HBase.

Outils d'administrateur de base de données (DBA)

De nombreux outils sont inclus pour prendre en charge la gestion de la base de données, notamment :

  • Gestionnaire Cloudera
  • shell HBase
  • Teinte
  • HBCK2 
  • hbtop
  • Ranger 
  • Atlas
  • FreeIPA 
  • navencrypt 
  • Outils HDFS
  • FIL

Ces outils fournissent des métriques et une surveillance, le redémarrage du cluster, l'ajout d'ingestion, la gestion du cycle de vie, les mises à niveau, la sécurité, la configuration de Kerberos et d'autres fonctionnalités.

Fig 6 :Interface Cloudera Manager HBase

Fig 7 :Métriques et surveillance dans Cloudera Manager :

Fig 8 :Redémarrage du cluster dans Cloudera Manager

En plus de ces outils, vous pouvez également utiliser les outils d'administration tiers et open source suivants :

  • rideur
  • HADMIN

Ouvrir des interfaces documentées pour les outils de gestion tiers

Nous fournissons également des API ouvertes pour permettre à d'autres outils d'être utilisés pour gérer OpDB. Par exemple, l'interface JMX peut être utilisée pour s'intégrer à des outils de surveillance tiers tels que Grafana.

Conclusion

Dans cet article de blog, nous avons examiné comment vous pouvez utiliser les divers outils et fonctionnalités d'administration fournis par l'OpDB dans CDP. Dans le prochain article, nous expliquerons comment vous pouvez utiliser les fonctionnalités de gestion d'OpDB, consultez-le ici.