Isilon : OneFS : Comment interpréter les erreurs de surveillance
Summary: La surveillance logicielle est un processus qui surveille le noyau et imprime une pile ou redémarre le nœud lorsque le nœud ne répond pas. Cela protège le cluster des symptômes d’une privation majeure du processeur et permet au support technique Dell d’identifier les problèmes afin de les corriger. ...
Instructions
Introduction
Cet article de la base de connaissances explique comment lire et interpréter une pile créée par le processus swatchdog. La surveillance logicielle est également connue sous le nom de swatchdog ou softwatch.
Détails
Il arrive parfois qu’un nœud écrive une pile dans le fichier /var/log/messages ou redémarre lui-même avec une erreur semblable à celle-ci :
********************************************** Software Watchdog failed (userspace is starved!) ********************************************** ********************************************** Software Watchdog failed on CPU 0 (6353: kt: gmp-split [-]) 0x80bda7b9 -> 0x80bda5dc (fp=0xf734bb78): lk_fail_create_entry_and_owner 0x80bbe950 -> 0x80bbe7e0 (fp=0xf734bbf0): lkf_group_change_save_locks 0x80aa251c -> 0x80aa2268 (fp=0xf734bc2c): rtxn_sync_locks_prepare 0x80aa447d -> 0x80aa4304 (fp=0xf734bcdc): rtxn_split 0x80aac9cf -> 0x80aac8ec (fp=0xf734bcfc): kt_main 0x802a9d43 -> 0x802a9ca8 (fp=0xf734bd14): fork_exit intr counts: irq3: 1382 irq4: 1164845 irq14: 19331 irq17: 10672321 irq18: 11 stray: 1 irq24: 22011026 irq48: 46902637 ********************************************** panic @ time 1257444527.664: Software watchdog timed out Stack: ------------------------------------------------- 0x802e24f0 -> 0x802e24e4 (fp=0xf734ba78): isi_swatchdog_panic 0x802e27d7 -> 0x802e26ac (fp=0xf734ba8c): isi_swatchdog_hardclock 0x80295187 -> 0x80295068 (fp=0xf734bab0): hardclock_process 0x802951ba -> 0x802951a8 (fp=0xf734bac4): hardclock 0x8041d608 -> 0x8041d5b8 (fp=0xf734bad4): lapic_handle_timer 0x804281c3 -> 0x804281a4 (fp=0xf734bb78): bcmp 0x80bbe950 -> 0x80bbe7e0 (fp=0xf734bbf0): lkf_group_change_save_locks 0x80aa251c -> 0x80aa2268 (fp=0xf734bc2c): rtxn_sync_locks_prepare 0x80aa447d -> 0x80aa4304 (fp=0xf734bcdc): rtxn_split 0x80aac9cf -> 0x80aac8ec (fp=0xf734bcfc): kt_main 0x802a9d43 -> 0x802a9ca8 (fp=0xf734bd14): fork_exit ---------------------------------------------------------
Le swatchdog est construit comme suit :
- L’interruption du minuteur de bas niveau se déclenche toutes les 10 secondes.
- Le code général de l’espace utilisateur tente de définir une boîte aux lettres pour l’interruption du minuteur toutes les 5 s.
L’action est effectuée lorsque l’interruption du minuteur de bas niveau ne parvient pas à trouver une note de boîte aux lettres dans l’espace utilisateur, puis la pile est vidée. Après quatre échecs consécutifs, le cluster est redémarré.
Pour obtenir de l’aide sur l’interprétation d’une pile d’erreurs ou d’un redémarrage déclenché par un swatchdog, contactez le support technique Dell.