VxRail: vSAN-objekt utilgængeligt, diskfejl, kraftig I/O-ventetid, diskens generelle tilstand rød
Summary: Fjern ikke diske under vSAN-gensynkronisering, da det kan medføre datatab.
Symptoms
Denne artikel gælder for både VxRail 7.x- og VxRail 8.x-versioner.
vSAN-tilstandskontrol finder diskfejl, eller vmware-vsan-health-summary-result.log Finder physdiskoverall Sundhed er rød eller gul.
VxRail-Virtual-SAN-Cluster-xxxxxxxxx Overall Health : red Group physicaldisks health : red Test physdiskoverall health : red DisksWithIssues: Host Disk OverallOperationHealth Metadata Operational InCmmds/Vsi OperationalState Recommendation Uuid (Host-10, LocalToshibaDisk(Naa.50000xxxxxxxxxx), Red, Green, Red, Yes/Yes, ImpendingPermanentDiskFailure,EvacuationFailedDueToInaccessibleObjects, PleaseReferTo'Data'HealthCheckAndResolveTheInaccessibleObjects
vsandevicemonitord.log reports:
INFO vsandevicemonitord WARNING - WRITE Average Latency on VSAN device naa.50000xxxxxxxx has exceeded threshold value 2000000 us 2 times. INFO vsandevicemonitord Tier 2 (naa.50000xxxxxxxx) as unhealthy
Cause
Dying Disk Handling (DDH)-funktionen i vSAN diagnosticerer disk- eller diskgruppetilstanden ved at registrere enten overdreven I/O-ventetid for en vSAN-disk eller maksimal overbelastning af loggen, som vSAN vurderer skyldes problemer med loglækage i en vSAN-diskgruppe over en længere periode. Usunde disk- eller diskgrupper markeres som sådan, og disken eller diskgrupperne bruges ikke længere til ny dataplacering.
Når Hedeselskabet registrerer, at en disk har overskredet I/O-ventetidstærsklen i overvågningsintervallet, genererer vSAN en VMkernel Observation (VOB) og logger en meddelelse til vsandevicemonitord.log fil i /var/run/log mappe. Logfilen nedenfor er et eksempel på en disk, der skal udskiftes, når den nødvendige dataevakuering er fuldført, og disken er i evakueret tilstand:
WARNING - WRITE Average Latency on VSAN device <NAA disk name> has exceeded threshold value <IO latency threshold for disk> us <# of intervals with excessive IO latency> times.
Når DDH registrerer, at et cachelagringsniveau har for stor overbelastning af logfiler i overvågningsintervallet, genererer vSAN en VOB og logger til vsandevicemonitord.log fil. Meddelelser om overdreven overbelastning af logfiler er i dette format:
WARNING - Maximum log congestion on VSAN device <NAA disk name> <current intervals with excessive log congestion>/<intervals required to be unhealthy>
I begge disse situationer udløser vSAN evakuering af nogle eller alle data fra den eller de berørte diskgrupper. Det overordnede afsnit om diskenes tilstand i brugergrænsefladen til vSAN-tilstandsovervågning rapporterer en af følgende driftstilstande for den eller de berørte diskgrupper sammen med anbefalinger til brugeren. Anbefalingerne, når evakueringen er fuldført, varierer afhængigt af, om vSAN registrerede for lange I/O-ventetider eller for stor overbelastning af logfilerne.
Resolution
Se VMware-artikel 326878, Dying Disk Handling (DDH) in vSAN
Fjern eller udskift ikke disk i nedenstående situationer, hvor vSAN-gensynkronisering er i gang. Hvis du gør det, kan der opstå datatab.
Impending permanent disk failure, data evacuation failed due to insufficient resources (Health state - Red)
Eller
Impending permanent disk failure, data evacuation failed due to inaccessible objects (Health state - Red)
Fjern eller udskift ikke en disk, når objektet ikke er tilgængeligt.
Objekt utilgængeligt betyder, at alle kopier af objektet mangler. Hvis du fjerner eller udskifter en disk, kan det medføre tab af data.
Løsning:
- Engager VMware
- Hvis overdreven I/O-ventetid forårsagede, at kapacitetsdisken var usund status, skal du gendanne disken ved at tilslutte den igen. Genmontering af disken ændrer ikke diskens vSAN UUID.
esxcli vsan storage diskgroup unmount -u <disk group UUID> esxcli vsan storage diskgroup mount -u <disk group UUID>