Isilon: OneFS - Watchdogs-fouten interpreteren
Summary: De softwarewaakhond is een proces dat de kernel bewaakt en een stack afdrukt of het knooppunt opnieuw opstart wanneer het knooppunt niet reageert. Dit beschermt het cluster tegen symptomen van ernstig CPU-gebrek en helpt Dell Technische Support problemen te identificeren om ze te verhelpen. ...
Instructions
Inleiding
In dit Knowledge-artikel wordt beschreven hoe u een stapel leest en interpreteert die is gemaakt met het swatchdog-proces. De softwarewaakhond wordt ook wel swatchdog of softwatch genoemd.
Details
Soms schrijft een knooppunt een stack in het /var/log/messages-bestand of start zichzelf opnieuw op met een fout die lijkt op de volgende:
********************************************** Software Watchdog failed (userspace is starved!) ********************************************** ********************************************** Software Watchdog failed on CPU 0 (6353: kt: gmp-split [-]) 0x80bda7b9 -> 0x80bda5dc (fp=0xf734bb78): lk_fail_create_entry_and_owner 0x80bbe950 -> 0x80bbe7e0 (fp=0xf734bbf0): lkf_group_change_save_locks 0x80aa251c -> 0x80aa2268 (fp=0xf734bc2c): rtxn_sync_locks_prepare 0x80aa447d -> 0x80aa4304 (fp=0xf734bcdc): rtxn_split 0x80aac9cf -> 0x80aac8ec (fp=0xf734bcfc): kt_main 0x802a9d43 -> 0x802a9ca8 (fp=0xf734bd14): fork_exit intr counts: irq3: 1382 irq4: 1164845 irq14: 19331 irq17: 10672321 irq18: 11 stray: 1 irq24: 22011026 irq48: 46902637 ********************************************** panic @ time 1257444527.664: Software watchdog timed out Stack: ------------------------------------------------- 0x802e24f0 -> 0x802e24e4 (fp=0xf734ba78): isi_swatchdog_panic 0x802e27d7 -> 0x802e26ac (fp=0xf734ba8c): isi_swatchdog_hardclock 0x80295187 -> 0x80295068 (fp=0xf734bab0): hardclock_process 0x802951ba -> 0x802951a8 (fp=0xf734bac4): hardclock 0x8041d608 -> 0x8041d5b8 (fp=0xf734bad4): lapic_handle_timer 0x804281c3 -> 0x804281a4 (fp=0xf734bb78): bcmp 0x80bbe950 -> 0x80bbe7e0 (fp=0xf734bbf0): lkf_group_change_save_locks 0x80aa251c -> 0x80aa2268 (fp=0xf734bc2c): rtxn_sync_locks_prepare 0x80aa447d -> 0x80aa4304 (fp=0xf734bcdc): rtxn_split 0x80aac9cf -> 0x80aac8ec (fp=0xf734bcfc): kt_main 0x802a9d43 -> 0x802a9ca8 (fp=0xf734bd14): fork_exit ---------------------------------------------------------
De swatchdog is als volgt opgebouwd:
- Timeronderbreking op laag niveau wordt elke 10 seconden geactiveerd.
- User-space code op hoog niveau probeert een postvak in te stellen voor de timeronderbreking elke 5 s.
Er wordt actie ondernomen wanneer de timeronderbreking op laag niveau er niet in slaagt een postvaknotitie uit de gebruikersruimte te vinden, waarna de stapel wordt gedumpt. Na vier opeenvolgende fouten wordt het cluster opnieuw opgestart.
Neem contact op met de Technische support van Dell voor hulp bij het interpreteren van een foutstack of een door een swatchdog geactiveerde herstart.