VxRail: oåtkomligt vSAN-objekt, diskfel, överdriven I/O-latens, diskens allmänna hälsotillstånd rött
Summary: Ta inte bort diskar under vSAN-omsynkronisering eftersom det kan leda till dataförlust.
Symptoms
Den här artikeln gäller både VxRail 7.x- och VxRail 8.x-versioner.
vSAN-hälsokontrollen hittar diskfel, eller vmware-vsan-health-summary-result.log Finner physdiskoverall Hälsan är röd eller gul.
VxRail-Virtual-SAN-Cluster-xxxxxxxxx Overall Health : red Group physicaldisks health : red Test physdiskoverall health : red DisksWithIssues: Host Disk OverallOperationHealth Metadata Operational InCmmds/Vsi OperationalState Recommendation Uuid (Host-10, LocalToshibaDisk(Naa.50000xxxxxxxxxx), Red, Green, Red, Yes/Yes, ImpendingPermanentDiskFailure,EvacuationFailedDueToInaccessibleObjects, PleaseReferTo'Data'HealthCheckAndResolveTheInaccessibleObjects
vsandevicemonitord.log reports:
INFO vsandevicemonitord WARNING - WRITE Average Latency on VSAN device naa.50000xxxxxxxx has exceeded threshold value 2000000 us 2 times. INFO vsandevicemonitord Tier 2 (naa.50000xxxxxxxx) as unhealthy
Cause
Funktionen Dying Disk Handling (DDH) i vSAN diagnostiserar diskens eller diskgruppens hälsa genom att detektera antingen överdriven I/O-latens för en vSAN-disk eller maximal loggstockning som vSAN bedömer beror på loggläckageproblem i en vSAN-diskgrupp under en längre period. Disk- eller diskgrupper med feltillstånd markeras som sådana och disken eller diskgrupperna används inte längre för ny dataplacering.
När DDH upptäcker att en disk har överskridit I/O-latenströskeln under övervakningsintervallet genererar vSAN en VMkernel Observation (VOB) och loggar ett meddelande till vsandevicemonitord.log filen i /var/run/log katalog. Loggposten nedan är ett exempel på en disk som måste bytas ut när den nödvändiga dataevakueringen är klar och disken är i ett evakuerat tillstånd:
WARNING - WRITE Average Latency on VSAN device <NAA disk name> has exceeded threshold value <IO latency threshold for disk> us <# of intervals with excessive IO latency> times.
När DDH upptäcker att en cachelagringsnivå har för hög loggöverbelastning under övervakningsintervallet genererar vSAN en VOB och logg till vsandevicemonitord.log fil. Överdrivna loggöverbelastningsmeddelanden har det här formatet:
WARNING - Maximum log congestion on VSAN device <NAA disk name> <current intervals with excessive log congestion>/<intervals required to be unhealthy>
I båda dessa situationer utlöser vSAN evakuering av vissa eller alla data från den berörda disken eller diskgrupperna. Avsnittet om övergripande diskhälsa i användargränssnittet för vSAN-hälsoövervakning rapporterar något av följande drifttillstånd för den berörda disken eller diskgrupperna tillsammans med rekommendationer för användaren. Rekommendationerna när evakueringen är klar varierar beroende på om vSAN har identifierat överdrivna I/O-svarstider eller stor loggstockning.
Resolution
Se VMware-artikel 326878, Dying Disk Handling (DDH) i vSAN
Ta inte bort eller byt ut disken under nedanstående situationer när vSAN-omsynkronisering pågår. Om du gör det kan dataförlust uppstå.
Impending permanent disk failure, data evacuation failed due to insufficient resources (Health state - Red)
Eller
Impending permanent disk failure, data evacuation failed due to inaccessible objects (Health state - Red)
Ta inte bort eller byt ut en disk när objektet inte är tillgängligt.
Att objektet inte är tillgängligt innebär att alla kopior av objektet saknas. Om du tar bort eller byter ut en disk kan det leda till dataförlust.
Lösning:
- Engagera VMware
- Om överdriven I/O-latens orsakade att kapacitetsdisken inte är felfri återställer du disken genom att återmontera. När du monterar om disken ändras inte diskens vSAN UUID.
esxcli vsan storage diskgroup unmount -u <disk group UUID> esxcli vsan storage diskgroup mount -u <disk group UUID>