VxRail: vSAN nesnesine erişilemiyor, Disk hatası, aşırı G/Ç gecikme süresi, diskin genel durumu kırmızı
Summary: Veri kaybına neden olabileceğinden vSAN yeniden senkronizasyonu sırasında diskleri çıkarmayın.
Symptoms
Bu makale hem VxRail 7.x hem de VxRail 8.x sürümleri için geçerlidir.
vSAN sağlık kontrolünde disk arızası bulunur veya vmware-vsan-health-summary-result.log Bulur physdiskoverall Sağlık kırmızı veya sarıdır.
VxRail-Virtual-SAN-Cluster-xxxxxxxxx Overall Health : red Group physicaldisks health : red Test physdiskoverall health : red DisksWithIssues: Host Disk OverallOperationHealth Metadata Operational InCmmds/Vsi OperationalState Recommendation Uuid (Host-10, LocalToshibaDisk(Naa.50000xxxxxxxxxx), Red, Green, Red, Yes/Yes, ImpendingPermanentDiskFailure,EvacuationFailedDueToInaccessibleObjects, PleaseReferTo'Data'HealthCheckAndResolveTheInaccessibleObjects
vsandevicemonitord.log reports:
INFO vsandevicemonitord WARNING - WRITE Average Latency on VSAN device naa.50000xxxxxxxx has exceeded threshold value 2000000 us 2 times. INFO vsandevicemonitord Tier 2 (naa.50000xxxxxxxx) as unhealthy
Cause
vSAN'ın Dying Disk Handling (DDH) özelliği, bir vSAN diski için aşırı G/Ç gecikmesini veya uzun bir süre boyunca vSAN disk grubundaki günlük sızıntısı sorunlarından kaynaklandığını belirlediği maksimum günlük tıkanıklığını algılayarak disk veya disk grubu sağlığını tanılar. Sağlıksız disk veya disk grupları bu şekilde işaretlenir ve disk veya disk grupları artık yeni veri yerleşimi için kullanılmaz.
DDH, izleme aralığı sırasında bir diskin G/Ç gecikme süresi eşiğini aştığını tespit ettiğinde vSAN bir VMkernel Gözlemi (VOB) oluşturur ve şu mesajı kaydeder: vsandevicemonitord.log dosyasındaki /var/run/log dizini. Aşağıdaki günlük girişi, gerekli veri boşaltma işlemi tamamlandıktan ve disk boşaltılmış duruma geçtikten sonra değiştirilmesi gereken bir disk örneğidir:
WARNING - WRITE Average Latency on VSAN device <NAA disk name> has exceeded threshold value <IO latency threshold for disk> us <# of intervals with excessive IO latency> times.
DDH, bir önbellekleme katmanının izleme aralığı sırasında aşırı günlük tıkanıklığı olduğunu tespit ettiğinde vSAN bir VOB oluşturur ve vsandevicemonitord.log dosyasında adlandırma çakışmalarını önlemek üzere hedef sistem için farklı uygulamaların farklı adlar kullanmasını gerekli hale getirme. Aşırı günlük tıkanıklığı mesajları şu biçimdedir:
WARNING - Maximum log congestion on VSAN device <NAA disk name> <current intervals with excessive log congestion>/<intervals required to be unhealthy>
Bu iki durumda da vSAN, etkilenen disk veya disk gruplarındaki verilerin bir kısmının veya tamamının boşaltılmasını tetikler. VSAN durumu izleme kullanıcı arayüzündeki genel disk sağlığı bölümü, etkilenen disk veya disk grupları için aşağıdaki çalışma durumlarından herhangi birini, kullanıcı önerileriyle birlikte bildirir. Tahliye tamamlandıktan sonraki öneriler, vSAN'ın aşırı G/Ç gecikme süreleri veya aşırı günlük tıkanıklığı tespit edip etmemesine bağlı olarak farklılık gösterir.
Resolution
326878 başlıklı VMware makalesine bakın: vSAN'da
Ölmekte Olan Disk İşleme (DDH)vSAN yeniden senkronizasyonu devam ederken aşağıdaki durumlarda diski çıkarmayın veya değiştirmeyin. Bunu yaparsanız Veri Kaybı meydana gelebilir.
Impending permanent disk failure, data evacuation failed due to insufficient resources (Health state - Red)
Veya
Impending permanent disk failure, data evacuation failed due to inaccessible objects (Health state - Red)
Nesneye erişilemezse diski çıkarmayın veya değiştirmeyin.
Object inaccessible, nesnenin tüm kopyalarının eksik olduğu anlamına gelir. Bir diski çıkarır veya değiştirirseniz bu, veri kaybına neden olabilir.
Geçici çözüm:
- VMware ile Etkileşime Geçin
- Aşırı G/Ç gecikmesi kapasite diskinin iyi durumda olmamasına neden olduysa diski yeniden bağlayarak kurtarın. Diskin yeniden takılması diskin vSAN UUID sini değiştirmez.
esxcli vsan storage diskgroup unmount -u <disk group UUID> esxcli vsan storage diskgroup mount -u <disk group UUID>