Event: Le nœud a récupéré d’une panique. Les informations relatives au fonctionnement inattendu sont enregistrées dans le fichier suivant : var tmp panic

Table of Contents

Detailed Article

Symptoms

Cause

Resolution

Additional Info

Affected Products

Provide Feedback

Summary: Cet article explique comment les utilisateurs et le support technique doivent gérer les événements ou messages « Le nœud a été récupéré d’un fonctionnement inattendu ». Passez en revue toutes les parties de l’article avant d’agir. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Symptoms

ÉVÉNEMENT
Vous avez reçu une notification d’événements indiquant qu’un ou plusieurs nœuds ont été récupérés à la suite d’une panique. Les informations relatives à l’erreur grave sont enregistrées dans un fichier situé sous /var/tmp/ sur les nœuds concernés.
Exemple:

4.3394   03/12 18:02 W    4    53125     Node 4 has recovered from a panic. Info about panic is recorded in file: /var/tmp/panic.1615590175

Cause

Les causes exactes d’une panique de nœud peuvent varier, mais les causes classiques peuvent être les suivantes :

Défaillance matérielle
Défaillance du code logiciel
Mauvaise configuration

L’analyse des logs du cluster doit être effectuée avec le support PowerScale pour connaître la cause exacte de l’erreur grave.

Resolution

Pour commencer à résoudre le problème, vérifiez d’abord que le nœud a récupéré de l’événement inattendu et qu’il n’est pas arrêté ou hors ligne.

*Pour résoudre le problème, ouvrez une connexion SSH sur le nœud et connectez-vous à l’aide du compte « root ».
Exécutez la commande suivante pour confirmer que le nœud a rejoint le cluster :

# isi status

La commande isi status renvoie un résultat semblable à ce qui suit. Si le nœud a rejoint le cluster, la colonne Health n’affiche pas « D » (bas) :

                   Health  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |  In   Out  Total| Used / Size     |Used / Size
---+---------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.16.141.226  | OK  | 553M| 3.2M| 557M|61.9T/ 106T( 59%)|        L3:  1.5T
  2|10.16.141.227  | OK  | 481M| 96.0| 481M|62.2T/ 106T( 59%)|        L3:  1.5T
  3|10.16.141.228  | OK  | 372k| 332k| 704k|62.3T/ 106T( 59%)|        L3:  1.5T
  4|10.16.141.229  | OK  |10.8M| 941k|11.7M|62.6T/ 106T( 59%)|        L3:  1.5T
  5|10.16.141.230  | OK  | 9.4M| 393k| 9.8M|62.6T/ 106T( 59%)|        L3:  1.5T
  6|10.16.141.231  | OK  | 7.3M|256.0| 7.3M|63.4T/ 106T( 60%)|        L3:  1.5T
---+---------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals:          | 1.1G| 4.9M| 1.1G| 375T/ 634T( 59%)|        L3:  8.7T

     Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only

Rassemblez les logs en exécutant la commande suivante et fournissez le jeu de logs au support technique Isilon pour l’analyse du fonctionnement inattendu :

# isi_gather_info -f /var/tmp/

Remarque : /var/tmp/ Les données d’erreur grave ne sont pas collectées dans une collecte de journaux par défaut, vous devez utiliser isi_gather_info -f /var/tmp/ pour recueillir des informations appropriées sur la panique.

Une fois les journaux reçus, le support technique doit examiner et analyser les détails de la pile d’urgence. Ils déterminent si la pile de panique correspond à un problème connu ou à un article de la base de connaissances. Si les détails de Panic Stack ne correspondent pas à un problème connu ou à un article de la base de connaissances existant, le problème est remonté pour une évaluation plus approfondie. Le support technique détermine les actions nécessaires, telles qu’un remplacement de matériel, un correctif de code, une mise à jour de firmware ou toute autre mesure d’atténuation.

* Si le nœud est toujours arrêté, un dépannage supplémentaire doit être effectué pour le remettre en ligne. Contactez le support technique Isilon si une assistance est nécessaire.

Pour plus d’informations, voir l’article 55936 : Isilon OneFS : Notification d’événements : Nœud hors ligne - ID d’événement : 200010001, 300010003, 399990001, 900160001, 910100006, 400150007

Additional Information

Remarque :

Cette nouvelle notification d’événements est activée dans le cadre des correctifs cumulatifs de mars 2021 pour OneFS v8.1.2.0, v8.2.2.0 et v9.1.0.5. Les clusters exécutant des versions OneFS antérieures au correctif cumulatif (RUP) de mars 2021 ne publient pas cette notification d’événement.
OneFS 9.2, 9.3, 9.4 et les versions ultérieures disposent de cette fonctionnalité.
La mise à jour déclenche un événement si OneFS détecte un redémarrage dû à une erreur grave liée à un nœud.
L’événement peut inclure des informations de base, telles que des en-têtes de vidage mémoire, pour aider à comprendre et à résoudre le problème.
La demande de service d’appel à distance qui en résulte peut inclure les informations supplémentaires dans un format lisible à des fins de tri et d’analyse.

Remarque : Cette fonctionnalité peut provoquer de fausses alarmes en raison d’événements de panique antérieurs, de cœurs ou de minividages qui peuvent se trouver sur le cluster avant l’installation du RUP de mars 2021. OneFS peut continuer à vous alerter pour les anciens fichiers inattendus jusqu’à ce qu’il soit supprimé. Procédez comme suit pour éviter les fausses alarmes.

Nettoyez le journal des messages en forçant la rotation des journaux. Cette fonction ne recherche pas les informations de fonctionnement inattendu dans les journaux soumis à la rotation au sein d’une archive gz, telles que messages.0.gz, messages.1.gz, etc. Exécutez la commande suivante pour faire tourner /var/log/messages chaque fois que des erreurs graves sont détectées :

isi_for_array 'grep "panic @ time" /var/log/messages && newsyslog -F /var/log/messages'.

Consultez le fichier /var/crash Répertoire de chaque nœud pour n’importe quel fichier mémoire ou minidumps. Supprimez-les ou sauvegardez-les après avoir obtenu l’approbation.
Exécutez la commande suivante pour nettoyer vmcore fichiers situés dans /var/crash sur tous les nœuds.

isi_for_array 'find /var/crash/ -name "vmcore*" -delete'

Affected Products

PowerScale OneFS

Products

Isilon

Article Number: 000184828

Article Type: Solution

Last Modified: 18 Sept 2025

Version: 15

Check if your device is covered by Support Services.

Event: Le nœud a récupéré d’une panique. Les informations relatives au fonctionnement inattendu sont enregistrées dans le fichier suivant : var tmp panic

Summary: Cet article explique comment les utilisateurs et le support technique doivent gérer les événements ou messages « Le nœud a été récupéré d’un fonctionnement inattendu ». Passez en revue toutes les parties de l’article avant d’agir. ...

Symptoms

Cause

Resolution

Additional Information

Affected Products

Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Event: Le nœud a récupéré d’une panique. Les informations relatives au fonctionnement inattendu sont enregistrées dans le fichier suivant : var tmp panic

Summary: Cet article explique comment les utilisateurs et le support technique doivent gérer les événements ou messages « Le nœud a été récupéré d’un fonctionnement inattendu ». Passez en revue toutes les parties de l’article avant d’agir. ... View More View Less

Detailed Article

Symptoms

Cause

Resolution

Additional Info

Affected Products

Symptoms

Cause

Resolution

Additional Information

Affected Products

Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Summary: Cet article explique comment les utilisateurs et le support technique doivent gérer les événements ou messages « Le nœud a été récupéré d’un fonctionnement inattendu ». Passez en revue toutes les parties de l’article avant d’agir. ...