Cloudera a récemment lancé CDH 6.2 qui inclut deux nouvelles fonctionnalités clés dans Apache HBase :
- Réplication en série
- Le cache de compartiment prend désormais en charge la mémoire Optane d'Intel
Réplication en série
HBase dispose d'un mécanisme de réplication asynchrone sophistiqué qui prend en charge les topologies complexes d'aujourd'hui, notamment les topologies globales à tour de rôle, bidirectionnelles, étendues d'entrée et de sortie.
Cette capacité de réplication, à ce jour, fournit une cohérence éventuelle, ce qui signifie que l'ordre dans lequel les mises à jour sont répliquées n'est pas nécessairement le même que l'ordre dans lequel elles ont été appliquées à la base de données. Bien que cela ait fonctionné pour de nombreux clients, l'ordre des mises à jour sur le point de terminaison de réplication était important pour de nombreux cas d'utilisation.
La fonctionnalité de réplication en série fournit une cohérence chronologique pour la réplication. En d'autres termes, l'ordre des mises à jour est préservé grâce à la réplication vers le cluster de destination. Il y a un léger coût pour cette cohérence et dans certains cas, les utilisateurs peuvent trouver que la réplication est légèrement plus lente que l'approche de réplication par défaut.
La configuration de cette option est assez simple (définissez l'indicateur SERIAL sur true) et peut être appliquée au moment de la configuration de la réplication ou à tout moment par la suite au niveau de la table, de l'espace de noms ou pour un pair qui réplique toutes les tables dans HBase.
Cache de compartiment HBase
Le cache de compartiment de HBase est un cache à 2 couches conçu pour améliorer les performances prêtes dans une variété de cas d'utilisation. La première couche se trouve dans le tas Java et la deuxième couche du cache peut résider dans un certain nombre d'emplacements différents, notamment :la mémoire hors tas, la mémoire Intel Optane, les disques SSD ou les disques durs.
La configuration recommandée pour la deuxième couche du cache de compartiment pour la plupart des clients est hors tas. Les déploiements dans cette configuration peuvent évoluer jusqu'à des tailles de mémoire beaucoup plus importantes que ce qui est possible avec le cache intégré sur le tas, car le moteur hors tas évite la pression de la récupération de place JVM. La plus grande taille de cache améliore considérablement les performances de lecture de HBase.
À partir de CDH 6.2, Cloudera inclut désormais la possibilité d'utiliser la nouvelle mémoire Optane d'Intel comme destination alternative pour le 2e niveau du cache de compartiment. Cette configuration de déploiement vous permet d'avoir environ 3 fois la taille du cache pour un coût constant (par rapport au cache hors tas sur DRAM). Cela entraîne une latence supplémentaire par rapport à la configuration traditionnelle hors tas, mais nos tests indiquent qu'en autorisant plus (sinon la totalité) de l'ensemble de travail des données à tenir dans le cache, la configuration entraîne une amélioration nette des performances lorsque les données est finalement stocké sur HDFS (à l'aide de disques durs).
Lors du déploiement dans le cloud ou de l'utilisation du stockage d'objets sur site, l'amélioration des performances sera encore meilleure car le stockage d'objets a tendance à être très coûteux pour les lectures aléatoires de petites quantités de données. Le tableau ci-dessous donne une idée du compromis entre le coût, la taille et la latence requis lors de la planification de la configuration du deuxième niveau du cache de compartiment.
Stockage | Coût en $/Go | Taille (coût constant) | Latence |
DRAM hors tas | 35 | 1,0 Go | ~70 ns |
Intel Optane¹ | 13 | 2,7 Go | 180-340 ns |
SSD | 0,15 | 233,3 Go | 10-100 µs |
Disque dur² | 0,027 | 1,3 To | 4-10 ms |
Stockage d'objets³ | 0,006 | 5,8 To | 10-100 ms |
Lisez ce blog pour en savoir plus sur la collaboration entre Intel et Cloudera sur l'utilisation de la mémoire persistante Optane DC pour l'amélioration des performances.
Références :
- Présentation des performances de la mémoire persistante Optane DC (https://www.youtube.com/watch?v=UTVt_AZmWjM) – minute 6:53,
https:// www.pcper.com/news/Storage/Intels-Optane-DC-Persistent-Memory-DIMMs-Push-Latency-Closer-DRAM,
https://www.tomshardware.com/news/intel-optane- dimm-tarification-performance,39007.html - https://www.backblaze.com/blog/hard-drive-cost-per-gigabyte/,
https://www.westerndigital.com/ produits/disques-de-centre-de-données#hard-disk-hdd - https://www.qualeed.com/en/qbackup/cloud-storage-comparison/, https://www.dellemc.com/en-us/collaterals/ unauth/analyst-reports/products/storage/esg-ecnomic-value-audi-dell-emc-elastic-cloud-storage.pdf