VxRail: vSAN-objekt utilgjengelig, diskfeil, overdreven I/O-ventetid, generell tilstand for disk rød
Summary: Ikke fjern disker under ny vSAN-synkronisering, da det kan føre til tap av data.
Symptoms
Denne artikkelen gjelder for både VxRail 7.x- og VxRail 8.x-versjoner.
vSAN-tilstandskontroll finner diskfeil, eller vmware-vsan-health-summary-result.log Finner physdiskoverall Helsen er rød eller gul.
VxRail-Virtual-SAN-Cluster-xxxxxxxxx Overall Health : red Group physicaldisks health : red Test physdiskoverall health : red DisksWithIssues: Host Disk OverallOperationHealth Metadata Operational InCmmds/Vsi OperationalState Recommendation Uuid (Host-10, LocalToshibaDisk(Naa.50000xxxxxxxxxx), Red, Green, Red, Yes/Yes, ImpendingPermanentDiskFailure,EvacuationFailedDueToInaccessibleObjects, PleaseReferTo'Data'HealthCheckAndResolveTheInaccessibleObjects
vsandevicemonitord.log reports:
INFO vsandevicemonitord WARNING - WRITE Average Latency on VSAN device naa.50000xxxxxxxx has exceeded threshold value 2000000 us 2 times. INFO vsandevicemonitord Tier 2 (naa.50000xxxxxxxx) as unhealthy
Cause
Funksjonen Dying Disk Handling (DDH) i vSAN diagnostiserer disk- eller diskgruppetilstanden ved å oppdage enten overdreven I/O-ventetid for en vSAN-disk eller maksimal loggbelastning som vSAN fastslår skyldes problemer med logglekkasje i en vSAN-diskgruppe over en lengre periode. Usunne disk- eller diskgrupper er merket som sådan, og disk- eller diskgruppene brukes ikke lenger til ny dataplassering.
Når DDH oppdager at en disk har overskredet terskelen for I/O-ventetid under overvåkingsintervallet, genererer vSAN en VMkernel Observation (VOB) og logger en melding til vsandevicemonitord.log -filen i /var/run/log adressebok. Loggoppføringen nedenfor er et eksempel på en disk som må byttes ut når den nødvendige dataevakueringen er fullført og disken er i evakuert tilstand:
WARNING - WRITE Average Latency on VSAN device <NAA disk name> has exceeded threshold value <IO latency threshold for disk> us <# of intervals with excessive IO latency> times.
Når DDH oppdager at et hurtigbufringsnivå har for stor loggbelastning under overvåkingsintervallet, genererer vSAN en VOB og logger til vsandevicemonitord.log fil. For mye antall meldinger om overbelastning av loggen er i dette formatet:
WARNING - Maximum log congestion on VSAN device <NAA disk name> <current intervals with excessive log congestion>/<intervals required to be unhealthy>
I begge disse situasjonene utløser vSAN evakuering av noen eller alle data fra den berørte disken eller diskgruppene. Delen generell disktilstand i vSAN-tilstandsovervåkingsgrensesnittet rapporterer følgende driftstilstander for den berørte disken eller diskgruppene sammen med anbefalinger for brukeren. Anbefalingene etter at evakueringen er fullført, varierer avhengig av om vSAN oppdaget for lang ventetid på I/O eller for store køer i tømmerstokken.
Resolution
Se VMware-artikkelen 326878, Dying Disk Handling (DDH) in vSANIkke ta ut eller bytt ut disken
i situasjoner nedenfor når vSAN resync pågår. Hvis du gjør det, kan det oppstå tap av data.
Impending permanent disk failure, data evacuation failed due to insufficient resources (Health state - Red)
Eller
Impending permanent disk failure, data evacuation failed due to inaccessible objects (Health state - Red)
Ikke fjern eller bytt ut en disk når objektet ikke er tilgjengelig.
Objekt utilgjengelig betyr at alle kopier av objektet mangler. Hvis du fjerner eller bytter ut en disk, kan dette føre til tap av data.
Løsning:
- Engasjer VMware
- Hvis overdreven I/O-ventetid førte til at kapasitetsdisken ble usunn status, gjenoppretter du disken ved å montere den på nytt. Montering av disken endrer ikke vSAN UUID på disken.
esxcli vsan storage diskgroup unmount -u <disk group UUID> esxcli vsan storage diskgroup mount -u <disk group UUID>