20 Différence notable entre Hadoop 2.x et Hadoop 3.x

L'objectif de ce tutoriel Hadoop est de vous fournir une compréhension plus claire entre les différentes versions de Hadoop. Dans ce blog, nous avons couvert les 20 principales différences entre Hadoop 2.x et Hadoop 3.x.

Ce blog couvre la différence entre Hadoop 2 et Hadoop 3 sur la base de différentes fonctionnalités.

Différence entre Hadoop 2.x et Hadoop 3.x

Apache Hadoop est un cadre logiciel open source pour le stockage et le traitement distribués d'une énorme quantité d'ensembles de données.

Hadoop 3.x a été introduit pour surmonter la limitation de Hadoop 2.x. Hadoop 3.x a ajouté quelques nouvelles fonctionnalités, bien que les anciennes fonctionnalités soient toujours utilisées.

Une comparaison détaillée des fonctionnalités entre Hadoop 2.x et Hadoop 3.x est donnée ci-dessous :

un. Licence

Hadoop 2 .x- Apache 2.0, open source
Hadoop 3 .x- Apache 2.0, open source

b. Version minimale de Java prise en charge

Hadoop 2 .x- Java 7.
Hadoop 3 .x- Java 8.

c. Tolérance aux pannes

Hadoop 2.x- Dans cette version, la réplication gère la tolérance aux pannes.
Hadoop 3.x- Dans cette version, le codage d'effacement gère la tolérance aux pannes.

d. Équilibrage des données

Hadoop 2.x- Utilise HDFS Équilibreur pour l'équilibrage des données
Hadoop 3.x- Utilise l'équilibreur de nœud intra-données, qui est appelé via l'interface de ligne de commande de l'équilibreur de disque HDFS.

e. Schéma de stockage

Hadoop 2.x- Utilise le schéma de réplication 3X.
Hadoop 3.x- Utilise le codage d'effacement.

f. Surcharge de stockage

Hadoop 2.x- Dans cette version, HDFS a une surcharge de 200 % dans l'espace de stockage.
Hadoop 3.x- Dans cette version, HDFS a une surcharge de 50 % dans l'espace de stockage.

g. Exemple de surcharge de stockage

Hadoop 2.x- S'il y a 6 blocs et une réplication 3x de chaque bloc, il en résulte 18 blocs. Il occupera 18 blocs d'espace.
Hadoop 3.x- S'il y a 6 blocs, il occupera donc 9 blocs d'espace soit 6 blocs et 3 pour la parité.

h. Service de chronologie YARN

Hadoop 2.x- Utilise l'ancien service de chronologie qui présente des problèmes d'évolutivité.
Hadoop 3.x- Cette version améliore le service de chronologie v2. Il améliore également l'évolutivité et la fiabilité du service de chronologie.

j. Plage de ports par défaut

Hadoop 2.x- Dans cette version, les ports par défaut sont la plage de ports éphémères de Linux. Par conséquent, au moment du démarrage, ils ne parviendront pas à se lier.
Hadoop 3.x- Alors que cette version est sortie de la plage éphémère.

k. Outils

Hadoop 2.x- Hive, pig, Tez, Hama et d'autres outils Hadoop sont également disponibles.
Hadoop 3.x- Dans cette version, Hive, pig, Tez, Hama et d'autres outils Hadoop sont également disponibles.

l. Système de fichiers compatible

Hadoop 2.x- Il prend en charge HDFS (FS par défaut), système de fichiers FTP :il stocke également toutes ses données sur des serveurs FTP accessibles à distance. Il prend également en charge le système de fichiers Amazon S3 (Simple Storage Service) Windows Azure Storage Blobs (WASB).
Hadoop 3.x- Il prend en charge tous les précédents ainsi que le système de fichiers Microsoft Azure Data Lake.

m. Ressources de nœud de données

Hadoop 2.x- Car la ressource MapReduce Datanode n'est pas dédiée. Nous pouvons également l'utiliser pour d'autres applications.
Hadoop 3.x- Dans cette version, la ressource de nœud de données peut également être utilisée pour d'autres applications.

n. Compatibilité de l'API MR

Hadoop 2.x- API MR compatible avec le programme Hadoop 1.x à exécuter sur Hadoop 2.X
Hadoop 3.x- L'API MR est également compatible avec l'exécution de programmes Hadoop 1.x à exécuter sur Hadoop 3.X

o. Prise en charge de Microsoft

Hadoop 2.x- Il peut être déployé sur Windows.
Hadoop 3.x- Il prend également en charge Microsoft Windows.

p. Emplacements/conteneur

Hadoop 2.x- Hadoop 1.x fonctionne sur le concept de slots tandis que Hadoop 2.X fonctionne sur le concept de conteneur.
Hadoop 3.x- Hadoop 3.x fonctionne également sur le concept de conteneur.

q. Point de défaillance unique

Hadoop 2.x- Il a les fonctionnalités pour surmonter SPOF. Ainsi, chaque fois que NameNode échoue, il récupère automatiquement.
Hadoop 3.x- Il a également les fonctionnalités pour surmonter le SPOF. Ainsi, chaque fois que NameNode échoue, il récupère automatiquement sans intervention manuelle.

r. Fédération HDFS

Hadoop 2.x- Dans Hadoop 1.x, un seul NameNode pour gérer tous les espaces de noms. Mais Hadoop 2.x a plusieurs NameNode pour plusieurs Namespace.
Hadoop 3.x- Il a également plusieurs Namenodes pour plusieurs espaces de noms.

s. Évolutivité

Hadoop 2.x- Nous pouvons évoluer jusqu'à 10 000 nœuds par cluster.
Hadoop 3.x- Nous pouvons faire évoluer plus de 10 000 nœuds par cluster.

t. Instantané HDFS

Hadoop 2.x- Il ajoute la prise en charge d'un instantané. Il fournit également une reprise après sinistre et une protection contre les erreurs de l'utilisateur.
Hadoop 3.x- Il prend également en charge la fonctionnalité d'instantané.

u. Plateforme

Hadoop 2.x- Il sert de plate-forme pour une grande variété d'analyses de données. Il est également possible d'exécuter le traitement des événements, la diffusion en continu et les opérations en temps réel.
Hadoop 3.x- Il est également possible d'exécuter le traitement des événements, la diffusion en continu et le fonctionnement en temps réel au-dessus de YARN.

Conclusion

En conclusion, Hadoop 3.0 a ajouté de nouvelles fonctionnalités telles que le codage d'effacement pour gérer la tolérance aux pannes. Hadoop 3.x réduit également la surcharge de stockage de 200 % à 50 %.

Il a également introduit un nouvel outil de ligne de commande appelé Disk balancer. Par conséquent, Hadoop 3.x a amélioré les performances globales.

Si vous trouvez une autre différence entre Hadoop 2.x et Hadoop 3.x, faites-le nous savoir dans la section des commentaires.