VxRail: vSAN 오브젝트에 액세스할 수 없음, 디스크 장애, 과도한 I/O 레이턴시, 디스크 전체 상태 빨간색
Summary: 데이터가 손실될 수 있으므로 vSAN 재동기화 중에 디스크를 제거하지 마십시오.
Symptoms
이 문서는 VxRail 7.x 및 VxRail 8.x 버전 모두에 적용됩니다.
vSAN 상태 점검에서 디스크 장애가 발생한 경우 또는 vmware-vsan-health-summary-result.log 찾습니다 physdiskoverall 상태는 빨간색 또는 노란색입니다.
VxRail-Virtual-SAN-Cluster-xxxxxxxxx Overall Health : red Group physicaldisks health : red Test physdiskoverall health : red DisksWithIssues: Host Disk OverallOperationHealth Metadata Operational InCmmds/Vsi OperationalState Recommendation Uuid (Host-10, LocalToshibaDisk(Naa.50000xxxxxxxxxx), Red, Green, Red, Yes/Yes, ImpendingPermanentDiskFailure,EvacuationFailedDueToInaccessibleObjects, PleaseReferTo'Data'HealthCheckAndResolveTheInaccessibleObjects
vsandevicemonitord.log reports:
INFO vsandevicemonitord WARNING - WRITE Average Latency on VSAN device naa.50000xxxxxxxx has exceeded threshold value 2000000 us 2 times. INFO vsandevicemonitord Tier 2 (naa.50000xxxxxxxx) as unhealthy
Cause
vSAN의 DDH(Dying Disk Handling) 기능은 vSAN 디스크에 대한 과도한 I/O 레이턴시 또는 vSAN이 장기간에 걸친 vSAN 디스크 그룹의 로그 누수 문제로 인한 것으로 판단하는 최대 로그 정체를 감지하여 디스크 또는 디스크 그룹 상태를 진단합니다. 비정상 디스크 또는 디스크 그룹은 이와 같이 표시되며 해당 디스크 또는 디스크 그룹은 더 이상 새 데이터 배치에 사용되지 않습니다.
DDH가 모니터링 간격 동안 디스크가 I/O 지연 시간 임계값을 초과했음을 감지하면 vSAN은 VOB(VMkernel Observation)를 생성하고 vsandevicemonitord.log 파일의 /var/run/log 디렉토리에 올바르게 배치되었는지 확인합니다. 아래의 로그 항목은 필요한 데이터 비우기가 완료되고 디스크가 비워진 상태일 때 교체해야 하는 디스크의 예입니다.
WARNING - WRITE Average Latency on VSAN device <NAA disk name> has exceeded threshold value <IO latency threshold for disk> us <# of intervals with excessive IO latency> times.
DDH가 모니터링 간격 동안 캐싱 계층에 과도한 로그 정체가 있음을 감지하면 vSAN은 VOB를 생성하고 vsandevicemonitord.log 요구합니다. 과도한 로그 정체 메시지는 다음 형식으로 표시됩니다.
WARNING - Maximum log congestion on VSAN device <NAA disk name> <current intervals with excessive log congestion>/<intervals required to be unhealthy>
이러한 두 가지 상황에서 vSAN은 영향을 받는 디스크 또는 디스크 그룹에서 일부 또는 모든 데이터의 비우기를 트리거합니다. vSAN 상태 모니터링 UI의 전체 디스크 상태 섹션은 영향을 받는 디스크 또는 디스크 그룹에 대한 다음 작동 상태를 사용자 권장 사항과 함께 보고합니다. 제거가 완료된 후의 권장 사항은 vSAN이 과도한 I/O 지연 시간 또는 과도한 로그 정체를 감지했는지에 따라 달라집니다.
Resolution
VMware 문서 326878, vSAN
에서 DDH(Dying Disk Handling)를 참조하십시오. vSAN 재동기화가 진행 중인 경우 아래와 같은 상황에서는 디스크를 제거하거나 교체하지 마십시오. 이렇게 하면 데이터 손실이 발생할 수 있습니다.
Impending permanent disk failure, data evacuation failed due to insufficient resources (Health state - Red)
또는
Impending permanent disk failure, data evacuation failed due to inaccessible objects (Health state - Red)
오브젝트에 액세스할 수 없는 경우 디스크를 제거하거나 교체하지 마십시오.
오브젝트에 액세스할 수 없다는 것은 오브젝트의 모든 복제본이 누락된 것을 의미합니다. 디스크를 제거하거나 교체하면 데이터가 손실될 수 있습니다.
해결 방법:
- VMware 참여
- 과도한 I/O 레이턴시로 인해 용량 디스크가 비정상 상태가 된 경우 재마운트하여 디스크를 복구합니다. 디스크를 다시 마운트해도 디스크의 vSAN UUID는 변경되지 않습니다.
esxcli vsan storage diskgroup unmount -u <disk group UUID> esxcli vsan storage diskgroup mount -u <disk group UUID>