HBase
 sql >> Base de données >  >> NoSQL >> HBase

Le plug-in Cloudera Replication permet la réplication x-platform pour Apache HBase

Cloudera Data Platform (CDP) est la dernière offre Big Data de Cloudera. Il inclut Apache HBase et Phoenix dans le cadre de la plate-forme. Ces deux composants sont fournis dans 3 facteurs de forme :

  1. Pour les déploiements sur site, ils sont disponibles d'une manière similaire à CDH et HDP (au sein de l'offre CDP Private Cloud)
  2. Pour les clients qui souhaitent gérer eux-mêmes la base de données dans AWS et Azure, elle est disponible dans le cadre de l'offre CDP Public Cloud DataHub (avec le modèle de base de données opérationnelle ou en version personnalisée déploiements DataHub)
  3. Il sera bientôt disponible dans le cadre de la base de données opérationnelle Cloudera (COD), qui est une offre entièrement gérée éliminant les frais généraux de gestion liés à l'exploitation d'un déploiement HBase

Les clients Apache HBase de Cloudera exécutent généralement des applications critiques qui ne peuvent se permettre aucun temps d'arrêt. Ils ont besoin d'un moyen de migrer vers un nouveau déploiement sans interruption de production ou, au minimum, avec une petite interruption. Avec ces considérations de mise à niveau à l'esprit, en particulier avec la fin prochaine de la prise en charge de CDH5 et HDP 2, nous avons développé le plug-in de réplication Cloudera OpDB .

De nombreuses entreprises déploient également des clusters HBase basés sur CDH 6, HDP 3 et EMR, mais cherchent à réduire ou à éliminer les frais généraux opérationnels liés à la maintenance des clusters HBase. Pour eux, le plug-in de réplication Cloudera OpDB peut leur permettre de migrer vers DataHub ou COD sans subir de temps d'arrêt ou d'arrêt de production.

Le plug-in de réplication prend en charge la réplication à partir des clusters HBase sources suivants :

  • CDH 5.14
  • CDH 6.3
  • HDP 2.6.5
  • HDP 3.1.5
  • EMR 5.28

Réplication HBase

HBase fournit une capacité de réplication mature et riche en fonctionnalités depuis près d'une décennie. La réplication est l'une des fonctionnalités les plus populaires de HBase car elle fournit une solution de reprise après sinistre (DR) automatique, prend en charge la migration des données, prend en charge le partitionnement de la charge de travail et/ou prend en charge un index secondaire basé sur la recherche via l'intégration avec Apache Solr. Une présentation détaillée du fonctionnement de la réplication HBase et de la configuration de la réplication est expliquée dans le Guide de référence HBase et a été abordée dans de nombreux articles du blog Cloudera. Aujourd'hui, il prend en charge de nombreuses topologies, notamment :

  • Fan-in 
  • Fan-out
  • Cyclique
  • Bidirectionnel

La réplication HBase peut être configurée au niveau de l'espace de noms (c'est-à-dire la base de données) ou au niveau de la table. Bien qu'il fonctionne presque en temps réel, il peut être configuré pour être cohérent à terme ou cohérent dans le temps.

Le plug-in de réplication Cloudera OpDB ne prend en charge qu'un cluster de destination fourni par un cluster CDP DataHub ou par une base de données COD, déployé dans AWS ou Azure.

Établir la confiance

À ce jour, la réplication HBase a exigé que tous les clusters participants aient les mêmes définitions de sécurité, en d'autres termes, tous les clusters doivent soit n'avoir aucune sécurité activée (configuration d'authentification définie sur simple) , ou tous les clusters doivent avoir la sécurité activée avec kerberos (configuration d'authentification définie sur kerberos) .

Lorsque Kerberos est utilisé, tous les principaux kerberos des clusters doivent appartenir au même domaine, ou si dans des domaines différents, ceux-ci doivent être fiables entre eux (communément appelé cross-realm authentification).

Configuration de l'approbation entre domaines avec Kerberos est problématique dans la plupart des organisations, car les politiques de sécurité de l'entreprise l'interdisent généralement. Pour résoudre ce problème, le plug-in Cloudera OpDB Replication étend la réplication HBase pour utiliser une méthode d'authentification alternative, permettant la réplication entre les domaines de sécurité. Le plug-in de réplication permet la réplication 

  • Sur plusieurs domaines Kerberos sans nécessiter d'approbation entre domaines
  • Réplication de clusters sécurisés vers des clusters non sécurisés, et 
  • Réplication de clusters non sécurisés vers des clusters sécurisés.

Pour établir la confiance à partir des clusters CDP pour les clusters qui n'ont aucune configuration de sécurité ou qui sont sécurisés à l'aide de Kerberos, le plug-in de réplication implémente un nouveau mécanisme d'authentification à l'aide d'un secret partagé créé à l'aide d'un outil fourni et stocké dans les clusters source et de destination.

Conclusion

La réplication est un outil précieux pour la mise en œuvre de solutions de migration DR et de centre de données (DC) pour HBase. Il comporte quelques mises en garde, comme indiqué ici lors du traitement des configurations de sécurité des clusters. Avec la fin de vie imminente de CDH 5 et HDP 2, la capacité de migrer les données de ces plates-formes héritées vers CDP est impérative.

Pour les clients disposant de déploiements HBase basés sur HDP3, CDH6 et EMR 5.28, ce plug-in permet à ces clients d'adopter de manière transparente une solution HBase entièrement gérée et de réduire considérablement les frais généraux opérationnels liés à la gestion de HBase.

Contactez votre équipe de compte Cloudera si vous souhaitez déployer le plug-in de réplication Cloudera OpDB dans votre environnement.