VxRail: niedostępny obiekt vSAN, awaria dysku, nadmierne opóźnienie we/wy, czerwony czerwony stan dysku
Summary: Nie należy wyjmować dysków podczas ponownej synchronizacji vSAN, ponieważ może to spowodować utratę danych.
Symptoms
Ten artykuł dotyczy zarówno wersji VxRail 7.x, jak i VxRail 8.x.
Kontrola poprawności działania vSAN wykryła awarię dysku lub vmware-vsan-health-summary-result.log Znajdzie physdiskoverall Zdrowie jest czerwone lub żółte.
VxRail-Virtual-SAN-Cluster-xxxxxxxxx Overall Health : red Group physicaldisks health : red Test physdiskoverall health : red DisksWithIssues: Host Disk OverallOperationHealth Metadata Operational InCmmds/Vsi OperationalState Recommendation Uuid (Host-10, LocalToshibaDisk(Naa.50000xxxxxxxxxx), Red, Green, Red, Yes/Yes, ImpendingPermanentDiskFailure,EvacuationFailedDueToInaccessibleObjects, PleaseReferTo'Data'HealthCheckAndResolveTheInaccessibleObjects
vsandevicemonitord.log reports:
INFO vsandevicemonitord WARNING - WRITE Average Latency on VSAN device naa.50000xxxxxxxx has exceeded threshold value 2000000 us 2 times. INFO vsandevicemonitord Tier 2 (naa.50000xxxxxxxx) as unhealthy
Cause
Funkcja Dying Disk Handling (DDH) vSAN diagnozuje stan dysku lub grupy dysków, wykrywając nadmierne opóźnienie we/wy dla dysku vSAN lub maksymalne przeciążenie dziennika, które vSAN określa jako spowodowane problemami z wyciekiem dzienników w grupie dysków vSAN przez dłuższy czas. Dyski lub grupy dysków w złej kondycji są oznaczane jako takie, a dyski lub grupy dysków nie są już używane do umieszczania nowych danych.
Gdy DDH wykryje, że dysk przekroczył próg opóźnienia we/wy w okresie monitorowania, vSAN generuje obserwację VMkernel (VOB) i rejestruje komunikat w vsandevicemonitord.log plik w pliku /var/run/log katalog. Poniższy wpis dziennika jest przykładem dysku, który musi zostać wymieniony po zakończeniu wymaganej ewakuacji danych, gdy dysk jest w stanie opróżnienia:
WARNING - WRITE Average Latency on VSAN device <NAA disk name> has exceeded threshold value <IO latency threshold for disk> us <# of intervals with excessive IO latency> times.
Gdy DDH wykryje, że warstwa buforowania ma nadmierne przeciążenie dziennika w okresie monitorowania, vSAN generuje VOB i loguje go do vsandevicemonitord.log . Komunikaty o przeciążeniach dzienników mają format:
WARNING - Maximum log congestion on VSAN device <NAA disk name> <current intervals with excessive log congestion>/<intervals required to be unhealthy>
W obu tych sytuacjach vSAN wyzwala ewakuację niektórych lub wszystkich danych z dysku lub grup dysków, których dotyczy problem. Sekcja ogólnej kondycji dysków w interfejsie użytkownika monitorowania kondycji vSAN zgłasza dowolny z poniższych stanów operacyjnych dysku lub grup dysków, których dotyczy problem, wraz z zaleceniami dla użytkownika. Zalecenia po zakończeniu ewakuacji różnią się w zależności od tego, czy vSAN wykryła nadmierne opóźnienia we/wy, czy nadmierne przeciążenie dzienników.
Resolution
Zapoznaj się z artykułem firmy VMware 326878, Dying Disk Handling (DDH) in vSAN
Nie wyjmuj ani nie wymieniaj dysku w poniższych sytuacjach, gdy trwa ponowna synchronizacja vSAN. Jeśli to zrobisz, może to spowodować utratę danych.
Impending permanent disk failure, data evacuation failed due to insufficient resources (Health state - Red)
Lub
Impending permanent disk failure, data evacuation failed due to inaccessible objects (Health state - Red)
Nie wyjmuj ani nie wymieniaj dysku, gdy obiekt jest niedostępny.
Obiekt niedostępny oznacza, że brakuje wszystkich kopii obiektu. Usunięcie lub wymiana dysku może spowodować utratę danych.
Obejście problemu:
- Zaangażuj VMware
- Jeśli nadmierne opóźnienie we/wy spowodowało nieprawidłowy stan dysku pojemności, przywróć dysk, ponownie montując. Ponowny montaż dysku nie zmienia identyfikatora UUID vSAN dysku.
esxcli vsan storage diskgroup unmount -u <disk group UUID> esxcli vsan storage diskgroup mount -u <disk group UUID>