HBase
 sql >> Base de données >  >> NoSQL >> HBase

Rack Awareness dans Hadoop et ses avantages

Ce tutoriel Hadoop est tout au sujet de Rack Awareness dans Hadoop. Dans ce blog, nous décrirons tout sur Rack Awareness dans HDFS .

Tout d'abord, nous étudierons quelle est la propriété HDFS Rack Awareness, quel est le besoin de Rack Awareness dans Hadoop. Ensuite, nous discuterons du placement des répliques via Rack Awareness dans HDFS.

Enfin, nous aborderons également les différents avantages de Rack Awareness dans le framework Hadoop.

Introduction à la sensibilisation aux racks HDFS

Sensibilisation au rack dans Hadoop est le concept qui choisit des Datanodes plus proches en fonction des informations du rack. Par défaut, l'installation de Hadoop suppose que tous les nœuds appartiennent au même rack.

Pour améliorer le trafic réseau lors de la lecture/écriture de fichiers HDFS dans de grands clusters de Hadoop. NameNode choisit des nœuds de données, qui sont sur le même rack ou sur un rocher à proximité pour lire/écrire les requêtes (nœud client). HDFS Namenode obtient ces informations de rack en conservant les identifiants de rack de chaque nœud de données.

Pourquoi Rack Awareness ?

L'objectif principal de la sensibilisation au rack est de :

  • Améliorer la fiabilité et la disponibilité des données
  • Meilleures performances du cluster.
  • Évite la perte de données en cas de défaillance de l'ensemble du rack.
  • Pour améliorer la bande passante du réseau.
  • Gardez le flux de masse dans le rack lorsque cela est possible.

Placement des répliques via Rack Awareness dans Hadoop

L'objectif principal du placement de répliques via la sensibilisation au rack, la politique est d'améliorer la fiabilité des données, etc.

Une politique simple consiste à placer des répliques sur le rack pour éviter la perte de données en cas de panne d'un rack entier. Et autorisez l'utilisation de la bande passante de plusieurs racks lors de la lecture d'un fichier.

Sur plusieurs clusters de rack, bloquer la réplication suit la politique ci-dessous :

Vous ne devez pas placer plus d'un réplica sur un nœud. Vous ne devez pas non plus placer plus de deux répliques sur le même rack. Cela présente un goulot d'étranglement dans la mesure où le nombre de racks utilisés pour la réplication de blocs doit toujours être inférieur au nombre total de répliques de blocs.

Par exemple ;

  • Lorsqu'un framework Hadoop crée un nouveau bloc, il place le premier réplica sur le nœud local. Et placez-en un deuxième dans un rack différent, et le troisième sur un nœud différent du nœud local.
  • Lors de la re-réplication d'un bloc, si le nombre de répliques existantes est de un, placez la seconde sur un rack différent.
  • Lorsque le nombre de répliques existantes est de deux, si les deux répliques sont dans le même rack, placez la troisième sur un rack différent.

Avantages de la reconnaissance des racks dans Hadoop

Voyons maintenant quelques avantages de Rack Awareness dans Hadoop HDFS-

  • Fournir une bande passante plus élevée et une faible latence :  Cette politique maximise la bande passante du réseau en transférant le bloc dans un rack plutôt qu'entre les racks. Le YARN est capable d'optimiser les performances des tâches MapReduce en attribuant des tâches aux nœuds les plus proches de leurs données en termes de topologie du réseau.
  • Fournit une protection des données contre les pannes de rack :  Namenode attribue les répliques de bloc de 2 et 3 blocs à des nœuds dans un rack différent de la première réplique. Ainsi, il offre une protection des données même contre les pannes de rack. Cependant, cela n'est possible que si Hadoop a été configuré en connaissant la configuration de son rack.
  • Minimiser le coût d'écriture et maximiser la vitesse de lecture –  Prise en compte du rack, la politique place les demandes de lecture/écriture sur les répliques qui se trouvent dans le même rack. Ainsi, cela minimise le coût d'écriture et maximise la vitesse de lecture.

Conclusion

En conclusion, c'est le concept qui choisit des Datanodes plus proches en fonction des informations du rack pour améliorer la fiabilité des données. L'objectif principal de Rack-Awareness est d'empêcher la perte de données en cas de défaillance de l'ensemble du rack. Il améliore également la bande passante du réseau. En savoir plus sur les propriétés HDFS en détail.

Si vous avez des questions concernant Rack Awareness dans Hadoop, n'hésitez pas à nous en faire part dans la section des commentaires. Nous ferons de notre mieux pour vous aider.