HBase
 sql >> Base de données >  >> NoSQL >> HBase

Joyeux anniversaire Apache HBase ! 10 ans de résilience, de stabilité et de performance

Apache HBase est devenu un projet de haut niveau avec Apache il y a 10 ans et Cloudera a commencé à y contribuer en même temps (2010). Au cours de cette période, il est devenu l'un des outils open source les plus importants et les plus populaires dans le domaine du Big Data et l'une des bases de données NoSQL les plus populaires.

Apache Software Foundation annonce le 10e anniversaire d'Apache HBase

HBase prend en charge à la fois la base de données NoSQL clé-valeur et à colonnes larges et est utilisé par les entreprises du monde entier. Cloudera compte plus de 500 clients en production qui l'utilisent pour des cas d'utilisation allant des applications transactionnelles critiques, de l'entreposage de données, de l'apprentissage automatique et de l'ingénierie des données. Nos clients choisissent HBase en raison de sa résilience (certains clients étant capables de réaliser une disponibilité de 100 % des applications sur de nombreuses années), de sa stabilité, de ses performances et de son faible coût d'exploitation. Les clients de Cloudera le déploient de manière autonome, avec Phoenix qui est une base de données basée sur SQL construite sur HBase et parfois avec Apache Impala et/ou Apache Hive qui leur permet d'exécuter des requêtes OLAP basées sur SQL sur HBase.

Je suis chef de produit pour l'offre de base de données opérationnelle de Cloudera depuis 2018 et j'ai eu l'occasion de rencontrer plusieurs de nos clients. Je suis continuellement impressionné par le large éventail de façons dont les clients utilisent HBase. L'étendue des cas d'utilisation est si vaste et variée qu'elle défie toute segmentation. Après de nombreuses analyses, j'ai abouti à une approche simple pour classer les cas d'utilisation - les clients qui l'utilisent pour prendre en charge des applications critiques et ceux qui ne le font pas. Les applications critiques ont tendance à être de nature transactionnelle et aident nos clients à générer leur chiffre d'affaires et/ou à améliorer leur efficacité opérationnelle. Pour eux, si HBase baisse, le chiffre d'affaires et/ou le résultat sont impactés et, dans le pire des cas, des personnes peuvent mourir.

Exemples de cas d'utilisation critiques :

  • Un fournisseur de logiciels de santé utilise HBase pour alimenter des centaines d'applications. Si ces applications échouent, pour une raison quelconque, des personnes peuvent mourir et les coûts des soins de santé augmentent. Ce client a déployé HBase sur plus de 7 000 nœuds avec plus de 70 Po de données.
  • Un fabricant de téléphones mobiles utilise HBase pour activer un assistant vocal et de nombreux autres cas d'utilisation sur plus de 6 000 nœuds
  • Une maison de médias financiers utilise HBase pour alimenter certaines parties de la plate-forme et permet aux traders et autres de comprendre le contexte pertinent autour des mouvements de cours des actions, des tendances, etc. sur plus de 1 200 nœuds
  • Une plate-forme de marketing par e-mail leader sur le marché exécute HBase sur environ 1 000 nœuds
  • Un fournisseur d'assurance utilise HBase sur environ 1 000 nœuds pour stocker toutes les informations sur les sinistres et les utilise pour gérer ces sinistres tout au long de leur cycle de vie
  • Un fournisseur de services de bibliothèque utilise HBase sur plus de 400 nœuds pour prendre en charge les prêts entre bibliothèques dans le monde 
  • Une entreprise mondiale de distribution d'électricité utilise HBase sur plus de 400 nœuds pour ingérer les lectures de plus de 7 millions de compteurs intelligents et pour effectuer le déploiement automatisé d'équipes de réparation pour le réseau de distribution électrique, les applications de facturation de l'électricité et piloter la formation continue des modèles de machine learning 
  • Le plus grand opérateur de télécommunications indonésien, Telkomsel, avec plus de 170 millions de clients, a migré l'intégralité de son application CRM de l'ancienne base de données MPP vers HBase et Impala et a pu obtenir un temps de réponse inférieur à une seconde sur toutes les requêtes CRM pour les enregistrements d'appels d'utilisateurs individuels, les profils, les recharges, l'utilisation des données, etc.

Exemples de cas d'utilisation non critiques :

  • Un fabricant de produits de soins personnels utilise HBase pour gérer l'ensemble de sa marque de produit et de ses supports marketing 
  • Un fabricant de semi-conducteurs utilise HBase pour stocker les fichiers journaux de ses produits et les extrait vers d'autres systèmes à des fins d'analyse 
  • Un fournisseur de télécommunications utilise HBase pour stocker ses tables de dimensions pour Hive

Ce qui distingue HBase des autres offres NoSQL, c'est son intégration dans l'écosystème Big Data Open Source, qui permet aux clients d'avoir une expérience de bout en bout. Ils peuvent l'utiliser pour des applications qui ont besoin de données en périphérie ou des applications qui doivent fournir des modèles AI/ML à grande échelle ou toute combinaison de ceux-ci.

L'un des tickets d'assistance les plus intéressants que j'ai vus sur Cloudera est celui où un client HBase a déposé un ticket de haute priorité indiquant que son déploiement critique était en panne. Ils n'avaient pas interagi avec nous depuis plus d'un an et je ne savais même pas qu'ils étaient un client important. Ce n'est que, dans ce cas, que j'ai appris qu'ils avaient déployé 1 000 nœuds pour alimenter une plateforme de marketing omnicanal sur HBase. La racine du problème était qu'ils avaient apporté des modifications problématiques à leurs paramètres de configuration 9 mois avant l'incident. Lorsqu'ils ont finalement redémarré, les paramètres de configuration problématiques ont pris effet, les obligeant à demander de l'aide à Cloudera !

Cloudera se soucie profondément de HBase et compte 15 committers et membres PMC sur le projet. Nous investissons également pour le rendre disponible sur le cloud public, avec des facteurs de forme de type PaaS et dbPaaS.

Expériences HBase au fil des ans

Compte tenu de notre engagement de longue date et de notre histoire avec ce projet, nous voulions partager quelques expériences et histoires associées à ce projet au sein de l'équipe Cloudera.

« Il y a des années, j'assistais à une conférence technique axée sur Apache Hadoop. Tard un soir, je rentrais dans ma chambre et j'ai vu un groupe d'individus que j'ai reconnus comme des clients de longue date entassés autour d'une table. Maintenant, c'est un groupe de personnes très compétentes avec qui j'ai déjà travaillé pendant de nombreuses années. Je me suis promené, avec l'intention de lui dire brièvement bonjour et de reprendre la route après une longue journée. Il s'est avéré qu'ils avaient une panne de production sur l'un de leurs systèmes et étaient en train d'essayer de le résoudre. Je me suis assis, j'ai sorti mon ordinateur portable et j'ai passé du temps avec eux pendant les heures suivantes pendant que nous analysions le problème et résolvions les problèmes que nous avions trouvés. La prise en charge d'applications critiques nécessite parfois de l'héroïsme, mais parfois vous trouvez aussi des oiseaux d'une plume en cours de route. »

— Ingénieur principal

« Dans la nature de nombreuses entreprises, il est absolument vital de pouvoir évoluer tout en respectant les exigences de faible latence de leur système critique. Si vous regardez en arrière dans les archives, nos clients ont eu du mal à respecter des normes aussi difficiles. HBase possède les éléments qui permettent de répondre facilement à ces attentes, notamment en minimisant le temps nécessaire pour déclencher la meilleure action suivante. »

— Architecte de solutions principal 

"Il y a trois ans, j'étais un nouveau directeur de l'ingénierie chez Cloudera. Je connaissais l'activité open source de l'entreprise et je suis un utilisateur GNU Linux depuis le lycée, mais utiliser l'open source et en faire partie sont complètement différents.

En tant que nouveau venu dans l'entreprise, je devais comprendre ce que faisait l'équipe. J'ai donc reçu quelques tickets d'assistance qui m'ont été attribués et j'ai commencé à travailler dessus. Je ne connaissais que deux choses, j'ai été développeur Java pendant de nombreuses années, donc je dois être capable de le faire et Hortonworks est notre concurrent le plus difficile, ce qui signifie qu'il pourrait être intéressant de travailler avec eux.

Et puis c'est arrivé, avec mon tout premier ticket Apache HBase, j'ai rencontré Josh Elser - responsable de l'équipe HBase de Hortonworks - qui m'a montré que la mise en œuvre d'une nouvelle tâche peut être plus difficile que prévu (avec les barres de qualité de l'équipe HBase) et que votre concurrent peut être votre meilleur partenaire dans la communauté open source. Au final, il commit mes modifications.

Au cours des trois dernières années, beaucoup de choses ont changé. Cloudera et Hortonworks ont fusionné, nous travaillons maintenant dans la même entreprise mais Apache et HBase sont les mêmes. J'ai un temps limité pour travailler sur le code, mais voyez sa puissance, voyez comment il est utilisé pour des services dont j'ignorais l'existence et je vois comment il permet à des personnes du monde entier de travailler ensemble. Il connecte les gens sur les entreprises, les continents, les cultures."

— Responsable de l'ingénierie

« HBase et Phoenix ont été faciles à apprendre. Data Hub facilite le démarrage et nous attendons maintenant avec impatience que Cloudera Operational Database propulse HBase vers la prochaine décennie."

— Responsable technique de la réussite client

"Au cours des 9 dernières années, j'ai été en première ligne du développement de HBase et j'ai vu l'évolution de la façon dont nos clients utilisent HBase d'un POC à des plates-formes critiques à grande échelle. Le moment le plus remarquable de cette période a eu lieu avant la fusion de Cloudera et Hortonworks, lorsque les équipes des deux sociétés ont travaillé ensemble pour améliorer la fonctionnalité d'une caractéristique essentielle du produit. Finalement, le travail a été présenté à HBaseCon et a reçu une grande reconnaissance par deux des plus grands utilisateurs de HBase. Cette fonctionnalité alimente une fonctionnalité essentielle utilisée par plus de 2 milliards d'appareils mobiles dans le monde".

– Ingénieur principal 

"Un autre grand moment des 10 dernières années de HBase a été lors de la HBaseCon 2015, lorsque Carter Page de Google a reconnu publiquement comment HBase est devenu un projet très solide" 

– Ingénieur principal

"J'ai eu le plaisir d'assister à presque tous les HBaseCons (et de parler à certains d'entre eux). Voici trois de mes souvenirs HBaseCon préférés :(1) La diversité de HBase :l'annonce de HBase 2.0 a mis en évidence non seulement le nombre de JIRA expédiés, mais également le nombre de committers HBase et de membres PMC de l'extérieur des États-Unis, ainsi qu'une femme à la tête de HBase PMC , (2) l'élan de HBase :l'annonce par Facebook qu'ils quittaient leur fork personnalisé pour passer à 100 % en amont d'Apache HBase, et (3) les tremplins de HBase :lors d'une HBaseCon, un développeur Bloomberg a donné une conférence sur les répliques en lecture, puis deux HBaseCons plus tard , un développeur Apple a donné un discours d'ouverture sur HBaseCon sur l'utilisation des répliques en lecture en production."

– Ingénieur principal des systèmes

Chez Cloudera, nous continuons de voir un avenir prometteur pour ce projet et nous nous attendons à ce qu'il évolue pour alimenter les applications de nouvelle génération construites dans le cloud dans des facteurs de forme de type PaaS et dbPaaS ainsi que dans un centre de données avec cloud privé.

Pour un aperçu de ce qui vous attend, consultez Modèle de base de données opérationnelle de CDP Public Cloud .