J'avais ce dn24 RegionServer marqué comme mort dans HBaseUI mais cette machine a été mise hors service et supprimée du cluster il y a des mois.
Après quelques recherches, il s'avère qu'il se tient ici car il était toujours considéré comme "actif" par HBase, et la raison pour laquelle avait été trouvée dans HDFS :
[root@machine ~]# hdfs dfs -ls /apps/hbase/data/WALs/
drwxrwx--- - hbase hdfs 0 2015-11-08 00:33 /apps/hbase/data/WALs/dn17.test.fr,60020,1446939183416
drwxrwx--- - hbase hdfs 0 2015-11-08 00:33 /apps/hbase/data/WALs/dn18.test.fr,60020,1446939179122
drwxrwx--- - hbase hdfs 0 2015-11-08 00:33 /apps/hbase/data/WALs/dn19.test.fr,60020,1446939182213
drwxrwx--- - hbase hdfs 0 2015-11-08 00:33 /apps/hbase/data/WALs/dn20.test.fr,60020,1446939182925
drwxrwx--- - hbase hdfs 0 2015-11-08 00:33 /apps/hbase/data/WALs/dn21.test.fr,60020,1446939185744
drwxrwx--- - hbase hdfs 0 2015-11-08 00:33 /apps/hbase/data/WALs/dn22.test.fr,60020,1446939173931
drwxrwx--- - hbase hdfs 0 2015-11-08 00:33 /apps/hbase/data/WALs/dn24.test.fr,60020,1409665198801-splitting
drwxrwx--- - hbase hdfs 0 2015-11-08 00:33 /apps/hbase/data/WALs/dn25.test.fr,60020,1446939185856
drwxrwx--- - hbase hdfs 0 2015-11-08 00:33 /apps/hbase/data/WALs/dn26.test.fr,60020,1446939178831
drwxrwx--- - hbase hdfs 0 2015-11-08 00:33 /apps/hbase/data/WALs/dn27.test.fr,60020,1446939183921
drwxrwx--- - hbase hdfs 0 2015-11-08 00:33 /apps/hbase/data/WALs/dn28.test.fr,60020,1446939179838
drwxrwx--- - hbase hdfs 0 2015-11-08 00:33 /apps/hbase/data/WALs/dn29.test.fr,60020,1446939178499
Trouvé ? Le WAL (Write-Ahead Log ) était toujours dans HDFS dans l'état "fractionné", donc du point de vue de HBase, il n'est pas mort.
J'ai supprimé le répertoire dn24 WAL dans HDFS, redémarré HBaseMaster (pas de temps d'arrêt sur HBase lors du redémarrage de HBaseMaster), il a disparu.