PowerScale: 스택으로 인한 노드 패닉: 어설션 실패 커널:pdm_update_membership+0x10b2
Summary: 스택으로 인해 여러 노드 패닉이 발생합니다. 어설션 실패 커널:pdm_update_membership+0x10b2
Symptoms
스택으로 인해 여러 노드 패닉이 발생합니다.
2022-03-03T14:40:11.340255-05:00 <0.7> (id12) /boot/kernel.amd64/kernel: panic @ time 1646335137.652, thread 0xfffffe8ffa3b8080: Assertion Failure
2022-03-03T14:40:11.340297-05:00 <5.3> (id12) syslogd: sendto: Network is unreachable
2022-03-03T14:40:11.340317-05:00 <5.3> syslogd: last message repeated 1 times
2022-03-03T14:40:11.340322-05:00 <0.7> (id12) /boot/kernel.amd64/kernel: time = 1646335137
2022-03-03T14:40:11.340334-05:00 <0.7> (id12) /boot/kernel.amd64/kernel: cpuid = 15, TSC = 0xc868113bb278f
2022-03-03T14:40:11.340340-05:00 <0.7> (id12) /boot/kernel.amd64/kernel: Panic occurred in module kernel loaded at 0xffffffff80200000:
2022-03-03T14:40:11.340347-05:00 <0.7> (id12) /boot/kernel.amd64/kernel:
2022-03-03T14:40:11.340353-05:00 <0.7> (id12) /boot/kernel.amd64/kernel: Stack: --------------------------------------------------
2022-03-03T14:40:11.340359-05:00 <0.7> (id12) /boot/kernel.amd64/kernel: kernel:isi_assert_halt+0x2e
2022-03-03T14:40:11.340365-05:00 <0.7> (id12) /boot/kernel.amd64/kernel: kernel:pdm_update_membership+0x10b2
2022-03-03T14:40:11.340371-05:00 <0.7> (id12) /boot/kernel.amd64/kernel: kernel:pdm_get_painted_domids+0x568
2022-03-03T14:40:11.340377-05:00 <0.7> (id12) /boot/kernel.amd64/kernel: kernel:pdm_member_generate_entry+0xda
2022-03-03T14:40:11.340383-05:00 <0.7> (id12) /boot/kernel.amd64/kernel: kernel:pdm_member_get_membership_entry+0x1b7
2022-03-03T14:40:11.340390-05:00 <0.7> (id12) /boot/kernel.amd64/kernel: kernel:pdm_member_init_operation+0x16d
2022-03-03T14:40:11.340396-05:00 <0.7> (id12) /boot/kernel.amd64/kernel: kernel:ifm_init_operation+0xb7
2022-03-03T14:40:11.340402-05:00 <0.7> (id12) /boot/kernel.amd64/kernel: kernel:txn_i_include_vnode_to_list+0xc0
--
2022-03-03T14:40:11.340440-05:00 <0.7> (id12) /boot/kernel.amd64/kernel: kernel:VOP_RENAME_APV+0x9b
2022-03-03T14:40:11.340446-05:00 <0.7> (id12) /boot/kernel.amd64/kernel: kernel:isi_kern_renameat+0x37e
2022-03-03T14:40:11.340452-05:00 <0.7> (id12) /boot/kernel.amd64/kernel: kernel:sys_enc_renameat+0x27
2022-03-03T14:40:11.340458-05:00 <0.7> (id12) /boot/kernel.amd64/kernel: kernel:amd64_syscall+0x380
2022-03-03T14:40:11.340464-05:00 <0.7> (id12) /boot/kernel.amd64/kernel: --------------------------------------------------
2022-03-03T14:40:11.340471-05:00 <0.3> (id12) /boot/kernel.amd64/kernel: *** FAILED ASSERTION !domid_vec_empty(new_domids) && !pdm_is_non_ifs_vec(new_domids) ==> new_domids->domids[0] == PDM_ROOT_DOMID @ /b/mnt/src/sys/ifs/pdm/pdm_core.c:660: Invalid membership: [ 1.000000074fc.0001 ]
Cause
다음과 같은 결함으로 인해 발생합니다. PSCALE-118595
이 문제는 ADS(Alternate Data Streams) 워크플로와 관련이 있습니다. 대체 데이터 스트림은 파일에 대한 설명과 같은 파일에 대한 메타데이터 형식의 정보를 저장하는 Windows 내에서 사용되는 데이터 구조입니다. FreeBSD(Isilon에서 OneFS의 기본 파일 시스템)에는 없지만 OneFS에서 지원하며 OneFS 내에서 파일로 취급됩니다.
클러스터가 이 문제의 위험에 처해 있는지 확인하는 방법은 무엇입니까?
현장에서 이러한 결함이 발생하는 경우는 드뭅니다.
이 경합 상태가 트리거되려면 다음 조건이 모두 충족되어야 합니다.
클러스터가 9.4.0.0 미만의 OneFS 버전을 실행하고 있습니다.
파일에 둘 이상의 상위 파일(하드 링크 파일)이 있습니다.
파일에 ADS가 첨부되어 있어야 합니다.
파일의 데이터가 클라우드 스토리지에 상주합니다(디스크에 로컬 데이터가 없음).
상위 링크 중 하나의 이름을 다른 도메인(예: 다른 스냅샷 위치)으로 변경합니다.
Resolution
영구 해결책:
수정 사항이 포함된 OneFS 버전 중 하나 이상으로 업그레이드합니다.OneFS 9.4.0.0PATCH: [9.3.0.5_GA-RUP_2022-03] PSP-1956PATCH: [9.2.1.10_GA-RUP_2022-03] PSP-2075PATCH: [9.1.0.14_GA-RUP_2021-12] PSP-1722
이 시나리오의 경우 해결 방법이 까다로울 수 있습니다. 영향을 받는 파일을 CloudPools 로컬에서만 사용할 수 있도록 합니다. 직접 업그레이드하고 문제를 해결하는 것이 좋습니다.