HBase
 sql >> Base de données >  >> NoSQL >> HBase

Accessibilité opérationnelle de la base de données

Cet article de blog fait partie d'une série sur la base de données opérationnelle (OpDB) de Cloudera dans CDP. Chaque article donne plus de détails sur les nouvelles fonctionnalités et capacités. Commencez par le début de la série avec, Base de données opérationnelle dans CDP.

OpDB de Cloudera fournit un riche ensemble de fonctionnalités pour stocker et accéder aux données. Dans cet article de blog, nous examinerons les capacités d'accessibilité d'OpDB et comment vous pouvez utiliser ces capacités pour accéder à vos données.

Distribution et partage

La base de données opérationnelle (OpDB) de Cloudera est un système de gestion de base de données (SGBD) évolutif conçu pour évoluer de manière linéaire jusqu'à des pétaoctets de données. Comme tous les SGBD, le scale-out est implémenté via le sharding. Deux politiques de partitionnement différentes sont prises en charge :

  • Sharding automatique
  • Partage prédéfini

Quelle que soit l'approche, il existe des API pour activer le partitionnement basé sur le hachage, la plage de valeurs et la combinaison des deux.

Partage automatique

Lorsque le partitionnement automatique est activé, les tables sont réparties dynamiquement dans le cluster et lorsqu'une taille de partition dépasse la limite configurable, elle est automatiquement divisée et déplacée entre les serveurs d'un cluster.

Un segment de table est divisé en deux au milieu, créant deux moitiés à peu près égales et ces deux moitiés peuvent être servies par différents serveurs.

Le partitionnement automatisé est appliqué quel que soit le réseau utilisé avec l'OpDB (WAN ou local). Les clusters peuvent être configurés pour s'étendre sur un WAN, auquel cas le partage et le déplacement des données se produiraient sur le WAN sans aucune perte de données.

Le système peut être configuré pour savoir quels nœuds se trouvent dans quels centres de données, ce qui offre une résilience supplémentaire pour les fragments, car des copies des fragments peuvent être distribuées sur plusieurs centres de données.

Partage prédéfini

Les fragments peuvent être limités à des sous-ensembles spécifiques de nœuds dans un cluster en fonction de la politique, généralement d'une manière spécifique au locataire. Cela permet la mise en œuvre de politiques basées sur la géographie. Ensuite, les tables peuvent être répliquées entre les clusters et définies par des politiques pour garantir que la réplication des tables et des fragments associés est limitée aux zones géographiques souhaitées.

OpDB de Cloudera fournit une prise en charge native de la souveraineté des données. Si un cluster s'étend sur plusieurs pays, les groupes de serveurs régionaux peuvent être utilisés pour ancrer les données dans des pays spécifiques avec la configuration d'isolation HDFS Rack.

Requêtes

Cloudera fournit trois moteurs de requête optimisés pour différents types de cas d'utilisation, à la fois opérationnels et analytiques, et des interfaces NoSQL pour permettre des performances optimisées couvrant un large éventail de charges de travail opérationnelles et d'entrepôt de données. Cela permet l'exécution de requêtes et de jointures de données sur plusieurs partitions.

OpDB de Cloudera fournit un moteur SQL OLTP natif qui prend en charge l'interrogation de plusieurs modèles de données et d'objets, y compris l'interrogation et la jonction entre eux. Deux de nos moteurs de requête OLAP peuvent être utilisés pour mapper des tables externes qui résident dans notre OpDB (ou dans d'autres emplacements) et peuvent les interroger ou les joindre pour des requêtes analytiques plus complexes typiques de l'entreposage de données

Outils d'intégration de données

Cloudera fournit plusieurs outils pour permettre l'intégration avec l'entreposage de données et le traitement des requêtes fédérées.

Par exemple :

  • L'exportation en masse vers un entrepôt de données est fournie par Flink, Spark, Hive et MapReduce
  • L'exportation en continu vers un entrepôt de données est fournie par Nifi
  • La requête de données in situ dans notre OpDB est fournie par Phoenix, Impala et Hive 
  • Le traitement fédéré des requêtes dans notre OpDB, notre solution d'entrepôt de données et nos solutions d'entrepôt de données tierces est fourni par Hive

Prise en charge des données externes

OpDB de Cloudera comprend de nombreux outils Hadoop et s'intègre à la plupart de l'écosystème Hadoop.

Notre OpDB fournit des interfaces NoSQL et SQL. Il n'y a aucune restriction sur cet interfaçage et il est très bien pris en charge dans la communauté Hadoop.

OpDB mobile

MiNiFi peut être utilisé sur des appareils portables à la périphérie et fournir une connectivité de données avec l'OpDB.

L'éditeur de requêtes HUE peut s'exécuter sur un appareil mobile ou portable.

Connectivité basée sur la norme

Cloudera fournit à la fois des pilotes JDBC et ODBC via nos moteurs SQL, en plus d'un accès API direct à nos magasins de données et à nos outils.

Suivant

Dans cet article de blog, nous avons examiné certaines des fonctionnalités d'accessibilité d'OpDB telles que la requête de données, l'intégration de données et la connectivité. Dans le prochain article, nous expliquerons comment vous pouvez utiliser les fonctionnalités d'administration d'OpDB, retrouvez-les ici.

Pour plus d'informations, veuillez consulter :Premiers pas avec la base de données opérationnelle.