PowerScale OneFS 9.10: SnapshotDelete 작업을 실행할 때 드물게 성능 문제 발생
Summary: OneFS 9.10 또는 9.11로 업그레이드된 클러스터에서 여러 스토리지 풀이 있는 경우 SnapshotDelete 작업을 실행할 때 성능 문제가 발생할 수 있습니다.
Symptoms
OneFS 9.10 이상으로 업그레이드된 2개 이상의 노드 풀이 있는 클러스터는 SnapshotDelete 작업이 실행 중입니다. 일시 중지 SnapshotDelete 작업은 즉각적인 완화를 제공하지만 작업이 재개되면 문제가 다시 발생합니다.
만료 날짜가 긴 스냅샷이 있는 클러스터에서는 OneFS 업그레이드가 완료된 후 몇 주 또는 몇 개월이 지나서야 이 문제가 나타날 수 있습니다.
Logs 및 Hangdumps 작업 엔진(isi_job_d) SnapshotDelete 다음 예와 유사한 스택 추적이 있는 LIN 잠금을 보유하는 작업 스레드:
77886 isi_job_d:
...
thread 100637: je_worker_main at 0xfffffe8b55ea95c0 in state "running":
On cpu 5 for 3 ticks
Stack: --------------------------------------------------
kernel:btree_leaf_check_prefetch+0xde
kernel:btree_leaf_get_entry+0x349
kernel:stf_is_fake_entry+0x41
kernel:stf_iterate_block+0x66
kernel:ifs_snap_get_lins_helper+0xac
kernel:_sys_ifs_snap_get_lins+0x279
kernel:amd64_syscall+0x7b0
--------------------------------------------------
Cause
OneFS 9.10은 스냅샷 추적 파일(STF)에 LIN( Illogical Logical iNode)을 도입했습니다. 이는 새로운 기능인 MetadataIQ를 지원하기 위해 추가되었습니다. STF는 몇 가지 고유한 특성을 가진 특수 파일 형식이며 스냅샷의 생성, 저장, 변경 및 삭제를 포함하여 전체 스냅샷 수명 주기에 관여합니다.
데이터가 서로 다른 풀 간에 마이그레이션되는 경우 비논리적 LIN이 STF에 추가되어 점진적으로 축적될 수 있습니다. 스냅샷이 만료되어 삭제되고 스냅샷의 STF에 비논리적 LIN이 너무 많을 때 성능 문제가 발생합니다.
클러스터가 이 문제의 위험에 처해 있는지 확인하는 방법은 무엇입니까?
다음 기준을 충족하는 클러스터를 OneFS 9.10 또는 9.11로 업그레이드하면 이 문제가 발생할 위험이 더 높습니다.
- SnapshotIQ는 라이선스가 부여되고 활성화됩니다. 클러스터에서 스냅샷이 생성되고 만료되는 중입니다.
- 클러스터에 여러 노드 풀이 포함되어 있습니다.
Resolution
영구 해결책:
수정 사항이 포함된 OneFS 버전 중 하나 이상으로 업그레이드합니다.
- OneFS 9.10.1.4 PSP-4686 MR:[9.10.1.4_GA-MR][다중 사용자 공간 및 커널 수정](2025년 10월)
- OneFS 9.11.0.5 PSP-4681 MR:[9.11.0.5_GA-MR][여러 사용자 공간 및 커널 수정](2025년 9월)
해결 방법:
영구 솔루션이 적용될 때까지 다음 해결 방법을 사용해야 합니다.
다음 설정 변경 사항을 적용하여 클러스터 전체에서 비논리적 LIN을 비활성화합니다.
isi_sysctl_cluster efs.snapshot.stf_populate_illogical_lin_enabled=0
OneFS 9.10으로 업그레이드한 후 성능 문제가 발생하는 클러스터에서 다음을 수행합니다.
Cancel을 클릭하고
SnapshotDelete DU(Data Unavailability) 상황을 방지하기 위한 작업입니다. 그런 다음 Dell 기술 지원 부서에 문의하여 비논리적 LIN이 포함된 스냅샷을 제거하는 데 도움을 받으십시오.
실행 중인 파일을 취소하려면
SnapshotDelete 직업:
isi job cancel snapshotdelete
비활성화하려면 SnapshotDelete 직업:
isi job types modify snapshotdelete --enabled=false
SnapshotDelete 작업을 너무 오랫동안 비활성화하면 디스크 공간 용량 문제가 발생할 수 있습니다. Dell 기술 지원 부서에 문의하여 비논리적 LIN이 포함된 스냅샷을 수동으로 제거하도록 지원해야 합니다. SnapshotDelete 작업이 다시 활성화됩니다.