Isilon: OneFS – Interpretation von Watchdog-Fehlern
Summary: Der Software-Watchdog ist ein Prozess, der den Kernel überwacht und einen Stack ausgibt oder den Node neu startet, wenn der Node nicht reagiert. Dies schützt das Cluster vor Symptomen einer erheblichen CPU-Verknappung und hilft dem technischen Support von Dell, Probleme zu identifizieren und zu beheben. ...
Instructions
Einführung
In diesem Wissensdatenbank-Artikel wird beschrieben, wie Sie einen durch den Swatchdog-Prozess erstellten Stack lesen und interpretieren. Der Software-Watchdog wird auch als Swatchdog oder Softwatch bezeichnet.
Details
Manchmal schreibt ein Node einen Stack in die Datei /var/log/messages oder startet sich selbst mit einem Fehler ähnlich dem folgenden neu:
********************************************** Software Watchdog failed (userspace is starved!) ********************************************** ********************************************** Software Watchdog failed on CPU 0 (6353: kt: gmp-split [-]) 0x80bda7b9 -> 0x80bda5dc (fp=0xf734bb78): lk_fail_create_entry_and_owner 0x80bbe950 -> 0x80bbe7e0 (fp=0xf734bbf0): lkf_group_change_save_locks 0x80aa251c -> 0x80aa2268 (fp=0xf734bc2c): rtxn_sync_locks_prepare 0x80aa447d -> 0x80aa4304 (fp=0xf734bcdc): rtxn_split 0x80aac9cf -> 0x80aac8ec (fp=0xf734bcfc): kt_main 0x802a9d43 -> 0x802a9ca8 (fp=0xf734bd14): fork_exit intr counts: irq3: 1382 irq4: 1164845 irq14: 19331 irq17: 10672321 irq18: 11 stray: 1 irq24: 22011026 irq48: 46902637 ********************************************** panic @ time 1257444527.664: Software watchdog timed out Stack: ------------------------------------------------- 0x802e24f0 -> 0x802e24e4 (fp=0xf734ba78): isi_swatchdog_panic 0x802e27d7 -> 0x802e26ac (fp=0xf734ba8c): isi_swatchdog_hardclock 0x80295187 -> 0x80295068 (fp=0xf734bab0): hardclock_process 0x802951ba -> 0x802951a8 (fp=0xf734bac4): hardclock 0x8041d608 -> 0x8041d5b8 (fp=0xf734bad4): lapic_handle_timer 0x804281c3 -> 0x804281a4 (fp=0xf734bb78): bcmp 0x80bbe950 -> 0x80bbe7e0 (fp=0xf734bbf0): lkf_group_change_save_locks 0x80aa251c -> 0x80aa2268 (fp=0xf734bc2c): rtxn_sync_locks_prepare 0x80aa447d -> 0x80aa4304 (fp=0xf734bcdc): rtxn_split 0x80aac9cf -> 0x80aac8ec (fp=0xf734bcfc): kt_main 0x802a9d43 -> 0x802a9ca8 (fp=0xf734bd14): fork_exit ---------------------------------------------------------
Der Swatchdog ist wie folgt aufgebaut:
- Ein Low-Level-Timer-Interrupt wird alle 10 Sekunden ausgelöst.
- Der allgemeine Userspace-Code versucht, alle 5 Sekunden ein Postfach für den Zeitgeber-Interrupt festzulegen.
Es wird eine Aktion durchgeführt, wenn der Zeitgeber-Interrupt auf niedriger Ebene keine Postfachnotiz aus dem Nutzerbereich findet, woraufhin der Stapel gelöscht wird. Nach vier Fehlern in Folge wird der Cluster neu gestartet.
Wenden Sie sich an den technischen Support von Dell, um Unterstützung bei der Interpretation eines durch einen Fehlerstapel oder Swatchdog ausgelösten Neustarts zu erhalten.