Isilon: OneFS - Watchdog 오류를 해석하는 방법

Summary: 소프트웨어 워치독은 커널을 모니터링하고 스택을 인쇄하거나 노드가 응답하지 않을 때 노드를 재부팅하는 프로세스입니다. 이를 통해 주요 CPU 부족 증상으로부터 클러스터를 보호하고 Dell 기술 지원 부서에서 문제를 식별하여 해결할 수 있습니다.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

소개

이 지식 문서는 swatchdog 프로세스에 의해 생성된 스택을 읽고 해석하는 방법을 설명합니다. 소프트웨어 워치독은 스와치독(swatchdog) 또는 소프트워치(softwatch)라고도 합니다.

 

세부 정보

경우에 따라 노드는 스택을 /var/log/messages 파일에 쓰거나 다음과 유사한 오류로 재부팅됩니다.

**********************************************
Software Watchdog failed (userspace is starved!)
**********************************************

**********************************************
Software Watchdog failed on CPU 0 (6353: kt: gmp-split [-])
0x80bda7b9 -> 0x80bda5dc (fp=0xf734bb78): lk_fail_create_entry_and_owner
0x80bbe950 -> 0x80bbe7e0 (fp=0xf734bbf0): lkf_group_change_save_locks
0x80aa251c -> 0x80aa2268 (fp=0xf734bc2c): rtxn_sync_locks_prepare
0x80aa447d -> 0x80aa4304 (fp=0xf734bcdc): rtxn_split
0x80aac9cf -> 0x80aac8ec (fp=0xf734bcfc): kt_main
0x802a9d43 -> 0x802a9ca8 (fp=0xf734bd14): fork_exit

intr counts:
irq3: 1382 irq4: 1164845 irq14: 19331 irq17: 10672321 irq18: 11 stray: 1 irq24: 22011026 irq48: 46902637
**********************************************

panic @ time 1257444527.664: Software watchdog timed out

Stack: -------------------------------------------------

0x802e24f0 -> 0x802e24e4 (fp=0xf734ba78): isi_swatchdog_panic
0x802e27d7 -> 0x802e26ac (fp=0xf734ba8c): isi_swatchdog_hardclock
0x80295187 -> 0x80295068 (fp=0xf734bab0): hardclock_process
0x802951ba -> 0x802951a8 (fp=0xf734bac4): hardclock
0x8041d608 -> 0x8041d5b8 (fp=0xf734bad4): lapic_handle_timer
0x804281c3 -> 0x804281a4 (fp=0xf734bb78): bcmp
0x80bbe950 -> 0x80bbe7e0 (fp=0xf734bbf0): lkf_group_change_save_locks
0x80aa251c -> 0x80aa2268 (fp=0xf734bc2c): rtxn_sync_locks_prepare
0x80aa447d -> 0x80aa4304 (fp=0xf734bcdc): rtxn_split
0x80aac9cf -> 0x80aac8ec (fp=0xf734bcfc): kt_main
0x802a9d43 -> 0x802a9ca8 (fp=0xf734bd14): fork_exit

---------------------------------------------------------

스와치독은 다음과 같이 구축됩니다.

  • 낮은 수준의 타이머 인터럽트는 10초마다 트리거됩니다.
  • 상위 수준 사용자 공간 코드는 5초마다 타이머 인터럽트에 대한 사서함을 설정하려고 시도합니다.

하위 수준 타이머 인터럽트가 사용자 공간에서 사서함 메모를 찾지 못하면 작업이 수행된 다음 스택이 덤프됩니다. 장애가 4회 연속으로 발생하면 클러스터가 재부팅됩니다.
오류 스택 또는 스와치독이 트리거한 재부팅을 해석하는 데 도움이 필요한 경우 Dell 기술 지원 부서에 문의하십시오.

Affected Products

Isilon

Products

Isilon, PowerScale OneFS
Article Properties
Article Number: 000018976
Article Type: How To
Last Modified: 10 Jun 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.