VxRail: oggetto vSAN inaccessibile, guasto del disco, latenza I/O eccessiva, rosso stato generale del disco
Summary: Non rimuovere i dischi durante la risincronizzazione di vSAN in quanto potrebbe causare una perdita di dati.
Symptoms
Questo articolo è applicabile alle versioni VxRail 7.x e VxRail 8.x.
Il controllo integrità di vSAN rileva un guasto del disco o vmware-vsan-health-summary-result.log Trova physdiskoverall La salute è rossa o gialla.
VxRail-Virtual-SAN-Cluster-xxxxxxxxx Overall Health : red Group physicaldisks health : red Test physdiskoverall health : red DisksWithIssues: Host Disk OverallOperationHealth Metadata Operational InCmmds/Vsi OperationalState Recommendation Uuid (Host-10, LocalToshibaDisk(Naa.50000xxxxxxxxxx), Red, Green, Red, Yes/Yes, ImpendingPermanentDiskFailure,EvacuationFailedDueToInaccessibleObjects, PleaseReferTo'Data'HealthCheckAndResolveTheInaccessibleObjects
vsandevicemonitord.log reports:
INFO vsandevicemonitord WARNING - WRITE Average Latency on VSAN device naa.50000xxxxxxxx has exceeded threshold value 2000000 us 2 times. INFO vsandevicemonitord Tier 2 (naa.50000xxxxxxxx) as unhealthy
Cause
La funzionalità DDH (Dying Disk Handling) di vSAN diagnostica lo stato di integrità del disco o del gruppo di dischi rilevando una latenza di I/O eccessiva per un disco vSAN o una congestione massima dei registri che vSAN determina essere dovuta a problemi di perdita dei registri in un gruppo di dischi vSAN per un periodo prolungato. I dischi o i gruppi di dischi non integri vengono contrassegnati come tali e i dischi o i gruppi di dischi non vengono più utilizzati per il nuovo posizionamento dei dati.
Quando DDH rileva che un disco ha superato la soglia di latenza di I/O durante l'intervallo di monitoraggio, vSAN genera un'osservazione VMkernel (VOB) e registra un messaggio in vsandevicemonitord.log nel file /var/run/log . La voce di registro riportata di seguito è un esempio di un disco che deve essere sostituito una volta completata l'evacuazione dei dati richiesta e il disco si trova in uno stato di evacuazione:
WARNING - WRITE Average Latency on VSAN device <NAA disk name> has exceeded threshold value <IO latency threshold for disk> us <# of intervals with excessive IO latency> times.
Quando DDH rileva che un tier di caching presenta un'eccessiva congestione dei registri durante l'intervallo di monitoraggio, vSAN genera un VOB e registra il log in vsandevicemonitord.log . I messaggi di congestione del registro eccessivi sono in questo formato:
WARNING - Maximum log congestion on VSAN device <NAA disk name> <current intervals with excessive log congestion>/<intervals required to be unhealthy>
In entrambe queste situazioni, vSAN attiva l'evacuazione di alcuni o tutti i dati dal disco o dai gruppi di dischi interessati. La sezione relativa allo stato generale dei dischi nell'interfaccia utente di monitoraggio dello stato di vSAN riporta uno dei seguenti stati operativi per il disco o i gruppi di dischi interessati, insieme a suggerimenti per l'utente. Le raccomandazioni al termine dell'evacuazione variano a seconda che vSAN abbia rilevato latenze di I/O eccessive o congestione dei log eccessiva.
Resolution
Consultare l'articolo VMware 326878 Dying Disk Handling (DDH) in vSAN
Non rimuovere o sostituire il disco nelle situazioni seguenti quando è in corso la risincronizzazione vSAN. In tal caso, potrebbe verificarsi una perdita di dati.
Impending permanent disk failure, data evacuation failed due to insufficient resources (Health state - Red)
Oppure
Impending permanent disk failure, data evacuation failed due to inaccessible objects (Health state - Red)
Non rimuovere o sostituire un disco quando l'oggetto è inaccessibile.
Object inaccessible significa che mancano tutte le copie dell'oggetto. La rimozione o la sostituzione di un disco potrebbe causare la perdita di dati.
Soluzione alternativa:
- Coinvolgi VMware
- Se un'eccessiva latenza di I/O ha causato uno stato non integro del disco con capacità, ripristinare il disco eseguendo un nuovo mount. Il nuovo mounting del disco non modifica l'UUID vSAN del disco.
esxcli vsan storage diskgroup unmount -u <disk group UUID> esxcli vsan storage diskgroup mount -u <disk group UUID>