Database
 sql >> Base de données >  >> RDS >> Database

Pourquoi apprendre Cassandra avec Hadoop ?

« Les entreprises réalisent qu'elles peuvent exploiter une intelligence économique précieuse pour améliorer la prise de décision et gagner un avantage concurrentiel. Des outils tels que Hadoop et Cassandra rendent tout cela possible et à cause de cela, les compétences NoSQL à tous les niveaux sont extrêmement demandées. – Analystes sur TechRepublic

Développé en tant que projet interne chez Facebook pour alimenter leur fonction de recherche dans la boîte de réception, Cassandra est un Système de gestion de bases de données distribuées Open Source . Il a été publié en tant que projet open source sur Google Code en 2008 et est devenu par la suite un projet de haut niveau à la fondation Apache Software depuis 2010.

Cassandra est la prochaine GRANDE chose :

  • Apache Cassandra est conçu pour gérer une énorme quantité de données (en termes de vélocité, de volume et de variété) sur de nombreux serveurs de base assurant une haute disponibilité et ne fournissant aucun SPOF (point de défaillance unique).
  • Cassandra offre également une prise en charge puissante des clusters couvrant plusieurs centres de données. L'absence de "structure maître-esclave", comme les architectures traditionnelles, permet zéro impact sur le système si un nœud particulier tombe en panne.
  • Des chercheurs de l'Université de Toronto effectuant une étude sur les systèmes NoSQL déclarent qu'en termes d'évolutivité et de débit maximal par nœud , Cassandra émerge comme un gagnant clair. L'objectif principal du SGBD NoSQL est d'assurer l'évolutivité , Performances et haute disponibilité. Comme la plupart des SGBD NoSQL, Cassandra peut gérer à la fois des données structurées et non structurées et fonctionne considérablement bien sur les paramètres ci-dessus.
  • Cassandra peut servir à la fois de magasin de données en temps réel ("le système d'enregistrement") pour les applications en ligne/transactionnelles et en tant que base de données à lecture intensive pour les systèmes de Business Intelligence. Lisez notre article de blog sur les différents avantages offerts par Cassandra, pour plus d'informations.

Pourquoi opter pour Hadoop avec Cassandra ?

En termes simples, avoir :

  • Charge de travail unifiée
  • Disponibilité
  • Déploiement simplifié

En ce qui concerne Hadoop, les entreprises ne s'intéressent pas à la structure de stockage sous-jacente d'Hadoop, mais à ses méthodes rentables d'analyse et de traitement de grandes quantités de données. Pouvoir prendre des décisions à partir des résultats de MapReduce, Hive, Pig, Mahout et d'autres opérations est ce qui compte le plus pour ces organisations.

Points clés à retenir :

  • Le système de fichiers distribués Hadoop (HDFS) est l'un des nombreux composants et projets contenus dans l'écosystème Hadoop. Le projet Apache Hadoop définit HDFS comme le système de stockage principal utilisé par les applications Hadoop .HDFS peut stocker d'énormes ensembles de données non structurées distribuées. Les données peuvent être stockées directement dans HDFS, ou elles peuvent être stockées dans un format semi-structuré dans HBase, qui permet un accès rapide aux données au niveau de l'enregistrement et est calqué sur le système BigTable de Google. Cassandra, d'autre part, est un non- système relationnel utilisant le modèle de données BigTable , mais utilise le schéma Dynamo d'Amazon pour la distribution et le clustering des données.
  • Hadoop fait beaucoup de choses formidables, ses principales capacités MapReduce sont très puissantes. Les experts de l'industrie adorent Hive et sa conception de type SQL. Cependant, le système de fichiers HDFS est extrêmement complexe à configurer, présente des points de défaillance uniques et, selon les commentaires des grandes entreprises, n'est tout simplement pas prêt à faire ce qu'ils veulent qu'il fasse . Cassandra, quant à elle, fournit toutes les fonctionnalités du niveau inférieur de la pile Hadoop. Dans le même temps, Cassandra fournit également des fonctionnalités d'application en temps réel à faible latence dans cette même infrastructure.

Comment Cassandra et Hadoop peuvent-ils travailler ensemble ?

Un certain nombre de fournisseurs proposent des alternatives à HDFS. changements de programmation minimaux requis du point de vue du développement, et comment un certain nombre d'avantages peuvent être récoltés dans ce processus. DataStax , l'un des principaux fournisseurs commerciaux de distributions de Cassandra, a combiné Cassandra avec Hadoop et l'a nommé Brisk. Avec Brisk, HDFS est remplacé par Cassandra File System. En savoir plus sur les concepts HDFS. Découvrez ce cours en ligne sur le Big Data , qui a été créé par les meilleurs experts en travail industriel.

Avantage de la combinaison Cassandra – Hadoop :

  • On peut également implémenter Cassandra avec Hadoop sur le même cluster. Cela signifie que vous pouvez avoir le meilleur des deux mondes.
  • Tbasé sur le temps et en temps réel fonctionnant sous Cassandra applications (le temps réel étant la force de Cassandra) tandis que l'analyse par lots et requêtes qui ne nécessitent pas d'horodatage peuvent s'exécuter sur Hadoop. Dans ce type d'écosystème, HDFS est remplacé par Cassandra et cela est invisible pour le développeur. On peut réaffecter dynamiquement les nœuds entre les environnements Cassandra et Hadoop selon les besoins.
  • Le système de fichiers Cassandra supprime les points de défaillance uniques associés à HDFS, à savoir les points de défaillance NameNode et Job Tracker associés à HDFS.

L'idée est donc de combiner Cassandra qui est pionnière elle-même dans le traitement des transactions en temps réel à volume élevé , avec Hadoop qui excelle dans les solutions analytiques plus orientées batch .

Cassandre et les Biggies :

De nombreuses organisations dans les secteurs verticaux de l'industrie adoptent Cassandra pour atteindre divers objectifs commerciaux. Certains principaux sont :

  • Netflix – Utilise Cassandra comme base de données principale pour ses services de streaming.
  • WebEx de Cisco - Utilise Cassandra pour stocker le flux et l'activité des utilisateurs en temps quasi réel.
  • SoundCloud – Utilise Cassandra pour stocker le tableau de bord de ses utilisateurs.
  • IBM – A effectué des recherches sur la création d'un système de messagerie évolutif basé sur Cassandra

Titres de poste impliquant des compétences Hadoop et Cassandra :

Une étude réalisée par Simplyhired montre que les emplois de Cassandra sont en forte demande en raison de son taux d'adoption élevé dans l'industrie, en particulier au cours des deux dernières années. Et l'avenir s'annonce très prometteur.

Regardons quelques-uns des intitulés de postes impliquant des compétences Hadoop-Cassandra et leurs salaires mentionnés dans Indeed.com :

  • Architecte de données : Ce poste rapporte un salaire moyen de 107 000 $. Les architectes de données doivent avoir une certaine expérience dans la création de modèles de données, l'entreposage de données, l'analyse de données et la migration de données
  • Scientifique des données : Ils recueillent des données, les analysent, les présentent visuellement et les utilisent pour faire des prédictions/prévisions. Le salaire moyen d'un data scientist est de 104 000 USD
  • Ingénieur système : Le salaire moyen des ingénieurs système est de 89 000 $.
  • Administrateur de bases de données : Les DBA gagnent en moyenne plus de 100 000 $.
  • Développeur d'applications logicielles : Les développeurs de logiciels gagnent un salaire moyen de 107 000 $ et les développeurs d'applications de 93 000 $. Les personnes possédant ces compétences peuvent obtenir un travail indépendant suffisant ou lancer leur propre startup si elles ont l'esprit d'entreprise.

Messages associés :

Choisir la bonne base de données NoSQL.

Comment ouvrir CQLSH de Cassandra installé sur Windows ?