Event: Le nœud a récupéré d’une panique. Les informations relatives au fonctionnement inattendu sont enregistrées dans le fichier suivant : var tmp panic
Summary: Cet article explique comment les utilisateurs et le support technique doivent gérer les événements ou messages « Le nœud a été récupéré d’un fonctionnement inattendu ». Passez en revue toutes les parties de l’article avant d’agir. ...
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
ÉVÉNEMENT
Vous avez reçu une notification d’événements indiquant qu’un ou plusieurs nœuds ont été récupérés à la suite d’une panique. Les informations relatives à l’erreur grave sont enregistrées dans un fichier situé sous
Exemple:
Vous avez reçu une notification d’événements indiquant qu’un ou plusieurs nœuds ont été récupérés à la suite d’une panique. Les informations relatives à l’erreur grave sont enregistrées dans un fichier situé sous
/var/tmp/ sur les nœuds concernés.
Exemple:
4.3394 03/12 18:02 W 4 53125 Node 4 has recovered from a panic. Info about panic is recorded in file: /var/tmp/panic.1615590175
Cause
Les causes exactes d’une panique de nœud peuvent varier, mais les causes classiques peuvent être les suivantes :
- Défaillance matérielle
- Défaillance du code logiciel
- Mauvaise configuration
Resolution
Pour commencer à résoudre le problème, vérifiez d’abord que le nœud a récupéré de l’événement inattendu et qu’il n’est pas arrêté ou hors ligne.
*Pour résoudre le problème, ouvrez une connexion SSH sur le nœud et connectez-vous à l’aide du compte « root ».
Exécutez la commande suivante pour confirmer que le nœud a rejoint le cluster :
Une fois les journaux reçus, le support technique doit examiner et analyser les détails de la pile d’urgence. Ils déterminent si la pile de panique correspond à un problème connu ou à un article de la base de connaissances. Si les détails de Panic Stack ne correspondent pas à un problème connu ou à un article de la base de connaissances existant, le problème est remonté pour une évaluation plus approfondie. Le support technique détermine les actions nécessaires, telles qu’un remplacement de matériel, un correctif de code, une mise à jour de firmware ou toute autre mesure d’atténuation.
* Si le nœud est toujours arrêté, un dépannage supplémentaire doit être effectué pour le remettre en ligne. Contactez le support technique Isilon si une assistance est nécessaire.
Pour plus d’informations, voir l’article 55936 : Isilon OneFS : Notification d’événements : Nœud hors ligne - ID d’événement : 200010001, 300010003, 399990001, 900160001, 910100006, 400150007
*Pour résoudre le problème, ouvrez une connexion SSH sur le nœud et connectez-vous à l’aide du compte « root ».
Exécutez la commande suivante pour confirmer que le nœud a rejoint le cluster :
# isi statusLa commande
isi status renvoie un résultat semblable à ce qui suit. Si le nœud a rejoint le cluster, la colonne Health n’affiche pas « D » (bas) :
Health Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR | In Out Total| Used / Size |Used / Size ---+---------------+-----+-----+-----+-----+-----------------+----------------- 1|10.16.141.226 | OK | 553M| 3.2M| 557M|61.9T/ 106T( 59%)| L3: 1.5T 2|10.16.141.227 | OK | 481M| 96.0| 481M|62.2T/ 106T( 59%)| L3: 1.5T 3|10.16.141.228 | OK | 372k| 332k| 704k|62.3T/ 106T( 59%)| L3: 1.5T 4|10.16.141.229 | OK |10.8M| 941k|11.7M|62.6T/ 106T( 59%)| L3: 1.5T 5|10.16.141.230 | OK | 9.4M| 393k| 9.8M|62.6T/ 106T( 59%)| L3: 1.5T 6|10.16.141.231 | OK | 7.3M|256.0| 7.3M|63.4T/ 106T( 60%)| L3: 1.5T ---+---------------+-----+-----+-----+-----+-----------------+----------------- Cluster Totals: | 1.1G| 4.9M| 1.1G| 375T/ 634T( 59%)| L3: 8.7T Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-OnlyRassemblez les logs en exécutant la commande suivante et fournissez le jeu de logs au support technique Isilon pour l’analyse du fonctionnement inattendu :
# isi_gather_info -f /var/tmp/
Remarque :
/var/tmp/ Les données d’erreur grave ne sont pas collectées dans une collecte de journaux par défaut, vous devez utiliser isi_gather_info -f /var/tmp/ pour recueillir des informations appropriées sur la panique.
Une fois les journaux reçus, le support technique doit examiner et analyser les détails de la pile d’urgence. Ils déterminent si la pile de panique correspond à un problème connu ou à un article de la base de connaissances. Si les détails de Panic Stack ne correspondent pas à un problème connu ou à un article de la base de connaissances existant, le problème est remonté pour une évaluation plus approfondie. Le support technique détermine les actions nécessaires, telles qu’un remplacement de matériel, un correctif de code, une mise à jour de firmware ou toute autre mesure d’atténuation.
* Si le nœud est toujours arrêté, un dépannage supplémentaire doit être effectué pour le remettre en ligne. Contactez le support technique Isilon si une assistance est nécessaire.
Pour plus d’informations, voir l’article 55936 : Isilon OneFS : Notification d’événements : Nœud hors ligne - ID d’événement : 200010001, 300010003, 399990001, 900160001, 910100006, 400150007
Additional Information
Remarque :
- Cette nouvelle notification d’événements est activée dans le cadre des correctifs cumulatifs de mars 2021 pour OneFS v8.1.2.0, v8.2.2.0 et v9.1.0.5. Les clusters exécutant des versions OneFS antérieures au correctif cumulatif (RUP) de mars 2021 ne publient pas cette notification d’événement.
- OneFS 9.2, 9.3, 9.4 et les versions ultérieures disposent de cette fonctionnalité.
- La mise à jour déclenche un événement si OneFS détecte un redémarrage dû à une erreur grave liée à un nœud.
- L’événement peut inclure des informations de base, telles que des en-têtes de vidage mémoire, pour aider à comprendre et à résoudre le problème.
- La demande de service d’appel à distance qui en résulte peut inclure les informations supplémentaires dans un format lisible à des fins de tri et d’analyse.
Remarque : Cette fonctionnalité peut provoquer de fausses alarmes en raison d’événements de panique antérieurs, de cœurs ou de minividages qui peuvent se trouver sur le cluster avant l’installation du RUP de mars 2021. OneFS peut continuer à vous alerter pour les anciens fichiers inattendus jusqu’à ce qu’il soit supprimé. Procédez comme suit pour éviter les fausses alarmes.
- Nettoyez le journal des messages en forçant la rotation des journaux. Cette fonction ne recherche pas les informations de fonctionnement inattendu dans les journaux soumis à la rotation au sein d’une archive gz, telles que messages.0.gz, messages.1.gz, etc. Exécutez la commande suivante pour faire tourner /var/log/messages chaque fois que des erreurs graves sont détectées :
isi_for_array 'grep "panic @ time" /var/log/messages && newsyslog -F /var/log/messages'.
- Consultez le fichier
/var/crashRépertoire de chaque nœud pour n’importe quel fichier mémoire ou minidumps. Supprimez-les ou sauvegardez-les après avoir obtenu l’approbation. - Exécutez la commande suivante pour nettoyer
vmcorefichiers situés dans/var/crashsur tous les nœuds.
isi_for_array 'find /var/crash/ -name "vmcore*" -delete'
Affected Products
PowerScale OneFSProducts
IsilonArticle Properties
Article Number: 000184828
Article Type: Solution
Last Modified: 18 Sept 2025
Version: 15
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.