VxRail: Nepřístupný objekt vSAN, selhání disku, nadměrná latence I/O, celkový stav disku červený
Summary: Během opětovné synchronizace sítě vSAN neodebírejte disky, protože by mohlo dojít ke ztrátě dat.
Symptoms
Tento článek platí pro verze VxRail 7.x i VxRail 8.x.
Kontrola stavu vSAN zjistí selhání disku nebo vmware-vsan-health-summary-result.log nalézá physdiskoverall Zdraví je červené nebo žluté.
VxRail-Virtual-SAN-Cluster-xxxxxxxxx Overall Health : red Group physicaldisks health : red Test physdiskoverall health : red DisksWithIssues: Host Disk OverallOperationHealth Metadata Operational InCmmds/Vsi OperationalState Recommendation Uuid (Host-10, LocalToshibaDisk(Naa.50000xxxxxxxxxx), Red, Green, Red, Yes/Yes, ImpendingPermanentDiskFailure,EvacuationFailedDueToInaccessibleObjects, PleaseReferTo'Data'HealthCheckAndResolveTheInaccessibleObjects
vsandevicemonitord.log reports:
INFO vsandevicemonitord WARNING - WRITE Average Latency on VSAN device naa.50000xxxxxxxx has exceeded threshold value 2000000 us 2 times. INFO vsandevicemonitord Tier 2 (naa.50000xxxxxxxx) as unhealthy
Cause
Funkce DDH (Dying Disk Handling) úložiště vSAN diagnostikuje stav disku nebo skupiny disků zjištěním nadměrné latence I/O disku vSAN nebo maximálního zahlcení protokolu, které vSAN vyhodnotí jako důsledek problémů s únikem protokolů ve skupině disků vSAN za delší období. Disk nebo skupiny disků, které nejsou v pořádku, jsou takto označeny a disky nebo skupiny disků se již nepoužívají pro umístění nových dat.
Když DDH zjistí, že disk překročil prahovou hodnotu latence I/O během intervalu monitorování, vSAN vygeneruje VMkernel Observation (VOB) a zaprotokoluje zprávu do vsandevicemonitord.log souboru v adresáři /var/run/log adresáře. Níže uvedená položka protokolu uvádí příklad disku, který je nutné vyměnit, jakmile proběhne požadovaná evakuace dat a disk je ve stavu evakuace:
WARNING - WRITE Average Latency on VSAN device <NAA disk name> has exceeded threshold value <IO latency threshold for disk> us <# of intervals with excessive IO latency> times.
Když nástroj DDH zjistí, že u vrstvy mezipaměti dochází během intervalu monitorování k nadměrnému zahlcení protokolu, síť vSAN vygeneruje VOB a zapíše se do vsandevicemonitord.log . Zprávy o zahlcení protokolu jsou v následujícím formátu:
WARNING - Maximum log congestion on VSAN device <NAA disk name> <current intervals with excessive log congestion>/<intervals required to be unhealthy>
V obou těchto situacích spustí síť vSAN evakuaci některých nebo všech dat z dotčeného disku nebo skupin disků. Část Total disks health monitoring UI (Celkový stav disků) v uživatelském rozhraní pro monitorování stavu vSAN uvádí některý z následujících provozních stavů dotčeného disku nebo skupin disků spolu s doporučeními pro uživatele. Doporučení po dokončení evakuace se liší podle toho, jestli síť vSAN zjistila nadměrné latence I/O nebo nadměrné zahlcení protokolů.
Resolution
Přečtěte si článek společnosti VMware 326878 "Dying Disk Handling (DDH) v úložišti vSAN
"Nevyjímejte ani nevyměňujte disk v níže uvedených situacích, kdy probíhá opětovná synchronizace vSAN. Pokud tak učiníte, může dojít ke ztrátě dat.
Impending permanent disk failure, data evacuation failed due to insufficient resources (Health state - Red)
Nebo
Impending permanent disk failure, data evacuation failed due to inaccessible objects (Health state - Red)
Nevyjímejte ani nevyměňujte disk, je-li objekt nepřístupný.
Nepřístupný objekt znamená, že chybí všechny jeho kopie. Pokud disk vyjmete nebo vyměníte, může dojít ke ztrátě dat.
Alternativní řešení:
- Zapojte společnost VMware
- Pokud nadměrná latence I/O způsobila, že kapacitní disk není v pořádku, obnovte disk opětovným připojením. Opětovné připojení disku nezmění identifikátor vSAN UUID disku.
esxcli vsan storage diskgroup unmount -u <disk group UUID> esxcli vsan storage diskgroup mount -u <disk group UUID>