VxRail: Zugriff auf vSAN-Objekt nicht möglich, Festplattenausfall, übermäßige I/O-Latenz, Gesamtintegrität der Festplatte rot
Summary: Entfernen Sie keine Festplatten während der vSAN-Neusynchronisierung, da dies zu Datenverlust führen kann.
Symptoms
Dieser Artikel gilt sowohl für VxRail 7.x- als auch für VxRail 8.x-Versionen.
Bei der vSAN-Integritätsprüfung wird ein Festplattenfehler festgestellt oder vmware-vsan-health-summary-result.log findet physdiskoverall Gesundheit ist rot oder gelb.
VxRail-Virtual-SAN-Cluster-xxxxxxxxx Overall Health : red Group physicaldisks health : red Test physdiskoverall health : red DisksWithIssues: Host Disk OverallOperationHealth Metadata Operational InCmmds/Vsi OperationalState Recommendation Uuid (Host-10, LocalToshibaDisk(Naa.50000xxxxxxxxxx), Red, Green, Red, Yes/Yes, ImpendingPermanentDiskFailure,EvacuationFailedDueToInaccessibleObjects, PleaseReferTo'Data'HealthCheckAndResolveTheInaccessibleObjects
vsandevicemonitord.log reports:
INFO vsandevicemonitord WARNING - WRITE Average Latency on VSAN device naa.50000xxxxxxxx has exceeded threshold value 2000000 us 2 times. INFO vsandevicemonitord Tier 2 (naa.50000xxxxxxxx) as unhealthy
Cause
Die Funktion "Dying Disk Handling" (DDH) von vSAN diagnostiziert die Integrität von Festplatten oder Festplattengruppen, indem entweder eine übermäßige I/O-Latenz für eine vSAN-Festplatte oder eine maximale Protokollüberlastung erkannt wird, die vSAN als Folge von Protokollverlustproblemen in einer vSAN-Festplattengruppe über einen längeren Zeitraum festlegt. Fehlerhafte Festplatten oder Festplattengruppen werden als solche markiert und die Festplatten oder Festplattengruppen werden nicht mehr für die neue Datenplatzierung verwendet.
Wenn DDH erkennt, dass eine Festplatte den I/O-Latenzschwellenwert während des Monitoringintervalls überschritten hat, erzeugt vSAN eine VMkernel-Beobachtung (VOB) und protokolliert eine Meldung im vsandevicemonitord.log Datei im Ordner /var/run/log . Der folgende Protokolleintrag ist ein Beispiel für eine Festplatte, die ersetzt werden muss, sobald die erforderliche Datenevakuierung abgeschlossen ist und sich die Festplatte in einem evakuierten Zustand befindet:
WARNING - WRITE Average Latency on VSAN device <NAA disk name> has exceeded threshold value <IO latency threshold for disk> us <# of intervals with excessive IO latency> times.
Wenn DDH erkennt, dass ein Caching-Tier während des Monitoringintervalls eine übermäßige Protokollüberlastung aufweist, erzeugt vSAN ein VOB und ein Protokoll im vsandevicemonitord.log Datei. Meldungen über übermäßige Protokollüberlastung werden in diesem Format angezeigt:
WARNING - Maximum log congestion on VSAN device <NAA disk name> <current intervals with excessive log congestion>/<intervals required to be unhealthy>
In beiden Situationen löst vSAN die Evakuierung einiger oder aller Daten von den betroffenen Festplatten oder Festplattengruppen aus. Der Abschnitt " Gesamtintegrität der Festplatten" in der Benutzeroberfläche für die Überwachung der vSAN-Integrität meldet einen der folgenden Betriebsstatus für die betroffenen Festplatten oder Festplattengruppen sowie Empfehlungen für den Nutzer. Die Empfehlungen nach Abschluss der Evakuierung unterscheiden sich je nachdem, ob vSAN übermäßige I/O-Latenzen oder eine übermäßige Protokollüberlastung erkannt hat.
Resolution
Weitere Informationen finden Sie im VMware-Artikel 326878, Dying Disk Handling (DDH) in vSAN
.Entfernen oder ersetzen Sie keine Festplatten während der folgenden Situationen, wenn eine vSAN-Neusynchronisierung im Gange ist. Wenn Sie dies tun, kann es zu Datenverlust kommen.
Impending permanent disk failure, data evacuation failed due to insufficient resources (Health state - Red)
Oder
Impending permanent disk failure, data evacuation failed due to inaccessible objects (Health state - Red)
Entfernen oder ersetzen Sie keine Festplatte, wenn auf das Objekt nicht zugegriffen werden kann.
"Objekt unzugänglich" bedeutet, dass alle Kopien des Objekts fehlen. Wenn Sie eine Festplatte entfernen oder ersetzen, kann dies zu Datenverlust führen.
Problemumgehung:
- Einbinden von VMware
- Wenn eine übermäßige I/O-Latenz den fehlerhaften Status der Kapazitätsfestplatte verursacht hat, stellen Sie die Festplatte durch erneutes Mounten wieder her. Beim erneuten Mounten der Festplatte wird die vSAN-UUID der Festplatte nicht geändert.
esxcli vsan storage diskgroup unmount -u <disk group UUID> esxcli vsan storage diskgroup mount -u <disk group UUID>