PowerScale (Isilon) : Le processus isi_hangdump enfant ou parent ne s’exécute pas sur un ou plusieurs nœuds. (Gen5, Gen6, Gen6.5)
Shrnutí: Cet article fournit un aperçu de la résolution des problèmes liés aux messages de spam isi_hangdump dans /var/log/messages. Résumé : Le processus isi_hangdump enfant ou parent ne s’exécute pas sur un ou plusieurs nœuds. Pour que le processus isi_hangdump fonctionne correctement, les processus parent et enfant doivent être en cours d’exécution. ...
Příznaky
Plusieurs nœuds signalent des délais d’expiration ping, éventuellement sur un nœud spécifique.
Remarque : cela ne concerne pas les délais d’expiration ping RBM
Un nœud posant problème présente les symptômes d’une boucle isi_hangdump continue.
Des processus isi_hangdumps majeurs se produisent à peu près au même moment toutes les heures.
Cela peut également être à l’origine de problèmes de performances.
Messages similaires dans /var/log/messages :
2021-04-04T01:30:50-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump
2021-04-04T01:30:50-04:00 CLUSTER-24 isi_hangdump: LOCK TIMEOUT AT 1617514250 UTC
2021-04-04T01:30:50-04:00 CLUSTER-24 isi_hangdump: Hangdump after 752602 seconds: Ping timeout
2021-04-04T01:31:00-04:00 CLUSTER-24 isi_hangdump: END OF DUMP AT 1617514250 UTC
2021-04-04T01:31:00-04:00 CLUSTER-24 isi_hangdump: Initiating hangdump on 26 nodes...
2021-04-04T01:31:09-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:32:09-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:35:12-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:36:13-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:52:27-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
2021-04-04T01:53:28-04:00 CLUSTER-24 isi_hangdump: Skipping requested dump(Ping timeout)
Le nœud 2 déclenche le blocage et la différence est d’une heure
2020-08-20T00:53:48-07:00 CLUSTER-2 isi_hangdump: Triggering clusterwide hangdump
2020-08-20T01:53:49-07:00 CLUSTER-2 isi_hangdump: Triggering clusterwide hangdump
2020-08-20T02:53:49-07:00 CLUSTER-2 isi_hangdump: Triggering clusterwide hangdump
ou
Seul le nœud 24 déclenche les blocages et la fréquence est d’une heure :
CLUSTER-24# isi_for_array "grep -i triggering /var/log/messages | grep 2021-04"
CLUSTER-24:2021-04-01T00:30:12-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump
CLUSTER-24:2021-04-01T01:30:12-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump
CLUSTER-24:2021-04-01T02:30:12-04:00 CLUSTER-24 isi_hangdump: Triggering clusterwide hangdump
Le nombre de processus isi_hangdump peut être de 4 ou 1.Le nombre attendu de processus isi_hangdump doit être de 2. Pour afficher le nombre de processus isi_hangdump en cours d’exécution sur chaque nœud, exécutez ce qui suit :
# isi_for_array -s "ps awux | grep '[h]angdump'"
La résolution consiste à redémarrer le service isi_hangdump et à vérifier le nombre de processus isi_hangdump.
S’il n’est pas de 2, redémarrez le nœud.
Příčina
Řešení
Actuellement, la résolution consiste à exécuter « isi_hangdump restart » (comme illustré dans l’exemple ci-dessous).
Si cette solution ne fonctionne pas, redémarrez le nœud de façon inattendue pour obtenir les cœurs et redémarrez le processus isi_hangdump.
CLUSTER-1# ps -auwx | grep -i isi_hangdump
root 1015 0.0 0.6 437876 38928 - S 25Mar21 0:57.01 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump start
root 1016 0.0 0.5 398676 32200 - S 25Mar21 20:05.60 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump start
root 32228 0.0 0.0 12344 2616 0 S+ 20:41 0:00.00 grep -i isi_hangdump
CLUSTER-1# isi_hangdump restart
CLUSTER-1# ps -auwx | grep -i isi_hangdump
root 32253 3.9 0.6 398808 35976 - S 20:41 0:00.01 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump restart
root 1016 0.0 0.5 398676 32200 - S 25Mar21 20:05.61 /usr/libexec/isilon/isi_hangdump /usr/bin/isi_hangdump start
root 32260 0.0 0.0 12344 2616 0 S+ 20:41 0:00.00 grep -i isi_hangdump
En attendant, l’équipe d’ingénierie recherche une solution définitive.