Ein Laufwerk muss möglicherweise aufgrund von I/O-Fehlern ausgetauscht werden oder wenn Software Defined Storage das Laufwerk als fehlerhaft oder unbrauchbar markiert
Summary: Nutzer können anfordern, dass ein Laufwerk aufgrund von I/O-Fehlern ersetzt wird oder wenn das Laufwerk von der SDS-Lösung (Software Defined Storage) als "fehlerhaft" oder "unbrauchbar" gekennzeichnet ist. ...
Instructions
Es gibt verschiedene SDS-Lösungen wie Ceph (Linux), vSAN (VMware), Nutanix usw. Mehrere identisch konfigurierte Server werden über ein Netzwerk zu einem Storage-Cluster zusammengefügt. Die Server werden mit einem Hostbusadapter (HBA) anstelle eines PERC konfiguriert, sodass die Laufwerke dem Betriebssystem unverändert zur Verfügung gestellt werden. Das Betriebssystem verwaltet alle Laufwerke in jedem Server direkt ohne Intervention des HBA. Das Laufwerk wird in Dell Überwachungstools (wie iDRAC und OMSA) und ePSA-Offlinediagnose als "fehlerfrei" aufgeführt. Die SMARTCTL-Daten für das Laufwerk können unkorrigierte Lese- und Schreibfehler aufweisen. Die SMART-Tests (kurz, lang und erweitert) sind erfolgreich und das Laufwerk wird als "fehlerfrei" aufgeführt.
Bei Software-Defined-Storage-Lösungen (SDS) werden alle Storage-bezogenen Steuerungen von der Hardware auf die Software verlagert, wobei Host-Bus-Adapter (HBA) verwendet werden, um die physische Konnektivität zu den Laufwerken bereitzustellen.
Der RAID-Controller (PERC) ist für die Durchführung mehrerer proaktiver Wartungsaktivitäten auf den Laufwerken verantwortlich, einschließlich Patrol Read und Konsistenzprüfungen auf virtuellen Laufwerken. Da SDS-Lösungen Hostbusadapter (HBA) anstelle von PERC verwenden, führt die Software jetzt alle diese proaktiven Wartungsaktivitäten durch.
Nutzer können berichten, dass SDS ein Laufwerk als "fehlerhaft oder unbrauchbar" markiert oder I/O-Fehler auf einem Laufwerk auflistet. Dell Überwachungstools wie iDRAC und OMSA melden das Laufwerk als fehlerfrei und betriebsbereit.
Tools wie "SMARTMON" oder "SMARTCTL" listen möglicherweise Fehler auf einem oder mehreren angegebenen Laufwerken auf, aber der Gesamtzustand des Laufwerks wird als "fehlerfrei" oder "OK" aufgeführt.
Diese Diskrepanz ist auf folgende Faktoren zurückzuführen:
- iDRAC zeigt den Funktionszustand der Komponente an. Wenn die Laufwerksfirmware meldet, dass sie fehlerfrei ist, gibt der iDRAC dies wieder. Wenn die Laufwerksfirmware angibt, dass sie sich im Zustand "Vorhergesagter Fehler" befindet, gibt der iDRAC dasselbe wieder.
- Alle Laufwerke können fehlerhafte Blöcke oder nicht korrigierbare Fehler tolerieren und funktionieren weiterhin ohne funktionale Auswirkungen. Der Schwellenwert für ungültige Blöcke wird vom Laufwerkshersteller in der Laufwerksfirmware programmiert und ist keine Standardzahl oder ein Standardprozentsatz.
- Laufwerke bleiben so lange betriebsbereit, bis die Gesamtzahl der ungültigen Blöcke oder nicht korrigierbaren Fehler auf dem Laufwerk den Schwellenwert für prognostizierte oder fehlerhafte Fehler überschreitet.
- Eine Offset-Adresse auf dem Laufwerk wird als ungültiger Block markiert und die Daten werden NUR verlagert, wenn ein WRITE-Vorgang an dieser bestimmten Adresse fehlschlägt. Die Laufwerksfirmware berücksichtigt keine READ-Fehler zum Markieren von Sektoren als ungültige Blöcke.
- I/O-Fehler, die auf Betriebssystemebene protokolliert werden, werden möglicherweise nicht in den Lifecycle-Protokollen widergespiegelt.
In einem solchen Szenario sind die Laufwerke funktionsfähig und liegen innerhalb ihrer Betriebsparameter. Sie sind weder für einen Hardwareaustausch qualifiziert noch erforderlich. Der empfohlene Aktionsplan besteht darin, die erforderlichen Wartungsaktivitäten auf der Softwareebene durchzuführen, um das Problem zu beheben.
Erfassen Sie in einem solchen Fall ein vollständiges Betriebssystemprotokoll-Bundle oder Berichte von einem oder mehreren betroffenen Servern. Wenden Sie sich zur Überprüfung des Protokolls an Dell SST (falls durch eine Servicevereinbarung abgedeckt) oder an den Betriebssystemanbieter, da diese über die nächsten Korrekturschritte beraten müssen.
Dell SST oder der Betriebssystemanbieter bestimmt die folgenden Details:
- Gesamtanzahl der I/O-Fehler, die vom Betriebssystem-Kernel aufgezeichnet wurden (falls vorhanden).
- Für welche Geräte (eines oder mehrere) die Fehler protokolliert werden.
- Art der Beschädigung: Datei- oder Metadatenlevel (falls vorhanden)
- Ist der Storage-Service abgestürzt? Wenn ja, warum?
- Korrekturmaßnahmen sind im SDS verfügbar, um solche Fehler zu beheben.