Utilisation élevée de l'espace à partir de crfclust.bdb

J'ai un banc d'essai à 2 nœuds exécutant Oracle RAC 11.2.0.4 sur OL6. Pratiquement tout se trouve sur le disque système. Ce n'est qu'un banc d'essai après tout. La partition racine s'est remplie. J'ai reçu une alerte d'EM concernant le problème d'espace disque et je suis entré et j'ai nettoyé certains fichiers journaux. Alors que je nettoyais les anciens fichiers journaux, mon cerveau me disait que l'utilisation de l'espace des fichiers journaux n'était pas hors de contrôle et qu'il devait y avoir un autre problème sous-jacent. Effectivement, trois jours plus tard, j'ai reçu l'alerte que le disque se remplissait à nouveau. Je savais que je devais creuser plus loin. Il doit y avoir un autre fichier ou deux monopolisant l'espace. Après quelques recherches, je suis arrivé à ce répertoire dans mon installation Grid Infrastructure :

[oracle@host01 host01]$ pwd
/u01/app/crs11.2.0.4/crf/db/host01
[oracle@host01 host01]$ ls -l
total 10945448
-rw-r--r-- 1 root root 1773999 Jul 2 13:54 02-JUL-2014-13:54:50.txt
-rw-r--r-- 1 root root 1120665 Jul 2 14:00 02-JUL-2014-14:00:06.txt
-rw-r--r-- 1 root root 16953 Mar 25 2014 25-MAR-2014-19:51:58.txt
-rw-r----- 1 root root 280764416 Nov 13 16:15 crfalert.bdb
-rw-r----- 1 root root 9850126336 Nov 13 16:14 crfclust.bdb
-rw-r----- 1 root root 8192 Jul 2 13:59 crfconn.bdb
-rw-r----- 1 root root 352174080 Nov 13 16:15 crfcpu.bdb
-rw-r----- 1 root root 249356288 Nov 13 16:15 crfhosts.bdb
-rw-r----- 1 root root 265261056 Nov 13 16:14 crfloclts.bdb
-rw-r----- 1 root root 172232704 Nov 13 16:14 crfts.bdb
-rw-r----- 1 root root 24576 Jul 2 13:54 __db.001
-rw-r----- 1 root root 401408 Nov 13 16:15 __db.002
-rw-r----- 1 root root 2629632 Nov 13 16:15 __db.003
-rw-r----- 1 root root 2162688 Nov 13 16:15 __db.004
-rw-r----- 1 root root 1187840 Nov 13 16:15 __db.005
-rw-r----- 1 root root 57344 Nov 13 16:15 __db.006
-rw-r----- 1 root root 16777216 Nov 13 16:06 log.0000008765
-rw-r----- 1 root root 16777216 Nov 13 16:15 log.0000008766
-rw-r--r-- 1 root root 120000000 Jul 2 13:55 host01.ldb
-rw-r----- 1 root root 8192 Jul 2 13:54 repdhosts.bdb

Le fichier crfclust.bdb fait environ 9,8 Go. Mon disque système ne fait que 30 Go, ce fichier occupe donc 33% de l'espace total. Et ça ne cesse de grandir. Pour résoudre le problème, j'ai effectué ces étapes :

[oracle@host01 host01]$ /u01/app/crs11.2.0.4/bin/crsctl stop ressource ora.crf -init
CRS-2673 :Tentative d'arrêt de 'ora.crf' sur 'host01'
CRS-2677 :Arrêt de 'ora.crf' sur 'host01' réussi
[oracle@host01 host01] $ su
Mot de passe :
[root@host01 host01]# rm -rf *
[oracle@host01 host01]$ /u01/app/crs11.2.0.4/bin/crsctl start resource ora.crf -init
CRS-2672 :Tentative de démarrage de "ora.crf" sur "host01"
CRS-2676 :Démarrage de "ora.crf" sur "host01" réussi

Pourquoi cela a-t-il fonctionné ? Ces fichiers sont la base de données Berkeley utilisée pour le Cluster Health Monitor (CHM). L'un des fichiers n'est censé avoir qu'une taille d'environ 1 Go et purge régulièrement les anciennes données. Mais l'étape de purge ne fonctionne pas. En supprimant manuellement les fichiers, je perdrai les données de performances historiques, mais cela me convient à ce stade. Au démarrage, CHM créera à nouveau les fichiers s'ils sont manquants.

Après avoir résolu le problème, j'ai trouvé la note Metalink 1343105.1 qui décrit le problème. Je n'ai pas encore été en mesure de trouver un numéro de bogue spécifique, mais il est clair qu'un bogue existe.