Erreur d'interrogation KGXGN (15)

Lorsque vous essayez de démarrer la deuxième instance dans un cluster RAC à deux nœuds, la deuxième instance ne démarre pas. Si l'instance sur node1 est en cours d'exécution, l'instance sur node2 ne démarrera pas. Si l'instance sur node2 est en cours d'exécution, l'instance sur node1 ne démarrera pas. Le journal des alertes affiche les éléments suivants :

Error: KGXGN polling error (15) Errors in file /u01/app/oracle/diag/rdbms/bsp/bsp1/trace/bsp1_lmon_9151.trc: ORA-29702: error occurred in Cluster Group Service operation LMON (ospid: 9151): terminating the instance due to error 29702

Malheureusement, le fichier de trace LMON ne donne que les mêmes messages d'erreur, donc rien à redire.

Cette erreur se produit en raison d'une mauvaise configuration de l'interconnexion de cluster. Si vous regardez l'OCR pour voir l'interconnexion du cluster, vous pouvez voir que le périphérique NIC est eth4.1338 :

[oracle@myhost bin]$ oifcfg getif -global eth2 192.168.33.0 global public eth4.1338 10.0.0.0 global cluster_interconnect

Sur un nœud, le périphérique eth4 est correct. Cependant, sur le deuxième nœud, le périphérique est eth5.1338 et l'OCR est partagé entre les nœuds. L'OCR s'attend à ce que le périphérique soit eth4.1338. Les deux serveurs ont besoin que l'interconnexion de cluster se trouve sur le même périphérique réseau. La configuration réseau du serveur a été modifiée afin que les deux nœuds soient configurés sur le périphérique eth5.1338. Une fois les serveurs configurés à l'identique, nous avons redéfini la configuration OCR :

[oracle@myhost bin]$ ./oifcfg setif -global eth5.1338/10.0.0.0:cluster_interconnect

En regardant la configuration, nous pouvons voir que eth4 et eth5 sont toujours dans l'OCR :

[oracle@myhost bin]$ ./oifcfg getif -global eth2 192.168.33.0 global public eth4.1338 10.0.0.0 global cluster_interconnect eth5.1338 10.0.0.0 global cluster_interconnect

Nous supprimons donc le périphérique eth4 :

[oracle@myhost bin]$ ./oifcfg delif -global eth4.1338/10.0.0.0

Nous avons maintenant l'OCR reconfiguré. Nous avons redémarré CRS et les deux instances sont apparues sur les deux nœuds !

C'était l'une de ces erreurs où les messages d'erreur n'indiquaient pas vraiment une cause première du problème. Au lieu de cela, j'ai dû fouiller dans les zones qui me semblaient être les coupables les plus probables lorsque j'ai découvert plutôt aveuglément les différences de configuration.