Ein Laufwerk muss möglicherweise aufgrund von I/O-Fehlern ausgetauscht werden oder wenn Software Defined Storage das Laufwerk als fehlerhaft oder unbrauchbar markiert

Summary: Nutzer können anfordern, dass ein Laufwerk aufgrund von I/O-Fehlern ersetzt wird oder wenn das Laufwerk von der SDS-Lösung (Software Defined Storage) als "fehlerhaft" oder "unbrauchbar" gekennzeichnet ist. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Es gibt verschiedene SDS-Lösungen wie Ceph (Linux), vSAN (VMware), Nutanix usw. Mehrere identisch konfigurierte Server werden über ein Netzwerk zu einem Storage-Cluster zusammengefügt. Die Server werden mit einem Hostbusadapter (HBA) anstelle eines PERC konfiguriert, sodass die Laufwerke dem Betriebssystem unverändert zur Verfügung gestellt werden. Das Betriebssystem verwaltet alle Laufwerke in jedem Server direkt ohne Intervention des HBA. Das Laufwerk wird in Dell Überwachungstools (wie iDRAC und OMSA) und ePSA-Offlinediagnose als "fehlerfrei" aufgeführt. Die SMARTCTL-Daten für das Laufwerk können unkorrigierte Lese- und Schreibfehler aufweisen. Die SMART-Tests (kurz, lang und erweitert) sind erfolgreich und das Laufwerk wird als "fehlerfrei" aufgeführt.

 

Bei Software-Defined-Storage-Lösungen (SDS) werden alle Storage-bezogenen Steuerungen von der Hardware auf die Software verlagert, wobei Host-Bus-Adapter (HBA) verwendet werden, um die physische Konnektivität zu den Laufwerken bereitzustellen.

 

Der RAID-Controller (PERC) ist für die Durchführung mehrerer proaktiver Wartungsaktivitäten auf den Laufwerken verantwortlich, einschließlich Patrol Read und Konsistenzprüfungen auf virtuellen Laufwerken. Da SDS-Lösungen Hostbusadapter (HBA) anstelle von PERC verwenden, führt die Software jetzt alle diese proaktiven Wartungsaktivitäten durch.

 

Nutzer können berichten, dass SDS ein Laufwerk als "fehlerhaft oder unbrauchbar" markiert oder I/O-Fehler auf einem Laufwerk auflistet. Dell Überwachungstools wie iDRAC und OMSA melden das Laufwerk als fehlerfrei und betriebsbereit.

 

Tools wie "SMARTMON" oder "SMARTCTL" listen möglicherweise Fehler auf einem oder mehreren angegebenen Laufwerken auf, aber der Gesamtzustand des Laufwerks wird als "fehlerfrei" oder "OK" aufgeführt.

 

 

Diese Diskrepanz ist auf folgende Faktoren zurückzuführen:

  • iDRAC zeigt den Funktionszustand der Komponente an. Wenn die Laufwerksfirmware meldet, dass sie fehlerfrei ist, gibt der iDRAC dies wieder. Wenn die Laufwerksfirmware angibt, dass sie sich im Zustand "Vorhergesagter Fehler" befindet, gibt der iDRAC dasselbe wieder.
  • Alle Laufwerke können fehlerhafte Blöcke oder nicht korrigierbare Fehler tolerieren und funktionieren weiterhin ohne funktionale Auswirkungen. Der Schwellenwert für ungültige Blöcke wird vom Laufwerkshersteller in der Laufwerksfirmware programmiert und ist keine Standardzahl oder ein Standardprozentsatz.
  • Laufwerke bleiben so lange betriebsbereit, bis die Gesamtzahl der ungültigen Blöcke oder nicht korrigierbaren Fehler auf dem Laufwerk den Schwellenwert für prognostizierte oder fehlerhafte Fehler überschreitet.
  • Eine Offset-Adresse auf dem Laufwerk wird als ungültiger Block markiert und die Daten werden NUR verlagert, wenn ein WRITE-Vorgang an dieser bestimmten Adresse fehlschlägt. Die Laufwerksfirmware berücksichtigt keine READ-Fehler zum Markieren von Sektoren als ungültige Blöcke.
  • I/O-Fehler, die auf Betriebssystemebene protokolliert werden, werden möglicherweise nicht in den Lifecycle-Protokollen widergespiegelt.

 

In einem solchen Szenario sind die Laufwerke funktionsfähig und liegen innerhalb ihrer Betriebsparameter. Sie sind weder für einen Hardwareaustausch qualifiziert noch erforderlich. Der empfohlene Aktionsplan besteht darin, die erforderlichen Wartungsaktivitäten auf der Softwareebene durchzuführen, um das Problem zu beheben.

 

Erfassen Sie in einem solchen Fall ein vollständiges Betriebssystemprotokoll-Bundle oder Berichte von einem oder mehreren betroffenen Servern. Wenden Sie sich zur Überprüfung des Protokolls an Dell SST (falls durch eine Servicevereinbarung abgedeckt) oder an den Betriebssystemanbieter, da diese über die nächsten Korrekturschritte beraten müssen.

 

Dell SST oder der Betriebssystemanbieter bestimmt die folgenden Details:

  • Gesamtanzahl der I/O-Fehler, die vom Betriebssystem-Kernel aufgezeichnet wurden (falls vorhanden).
  • Für welche Geräte (eines oder mehrere) die Fehler protokolliert werden.
  • Art der Beschädigung: Datei- oder Metadatenlevel (falls vorhanden)
  • Ist der Storage-Service abgestürzt? Wenn ja, warum?
  • Korrekturmaßnahmen sind im SDS verfügbar, um solche Fehler zu beheben.

 

HINWEIS: Die oben genannten Punkte für den Dell SST- oder Betriebssystemanbieter sind keine allumfassende Liste. Es kann mehrere andere Referenzen oder Datenpunkte in ihrer Untersuchung geben.

 

Affected Products

Rack Servers
Article Properties
Article Number: 000219050
Article Type: How To
Last Modified: 17 Jun 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.