PowerFlex 5.X: Auf Gerät gemeldete Latenz
Summary: Eine Warnmeldung wird ausgelöst, wenn der Latenzschwellenwert eines Geräts überschritten wird.
Symptoms
Warnmeldung
Warnung
A Device on Storage Node <Node Name> (ID: <Node ID>), Device: <Device Path> has crossed the warning threshold for acceptable latency
Fehler
A Device on Storage Node <Node Name> (ID: <Node ID>), Device: <Device Path> has crossed the error threshold for acceptable latency
Alarmschwellen
Warnung – 10 Sekunden
Fehler – 20 Sekunden
Auswirkungen
Die Gerätelatenz kann zu wiederholten Ausfällen der DGWT, zu I/O-Fehlern und zum Fehlerstatus einer Metadateneinheit (MU) führen.
Cause
Mehrere Faktoren tragen zur Gerätelatenz bei oder verursachen diese. Ein Problem kann mit dem Betriebssystem (OS), dem PowerFlex-Code, der Firmware (FW), der Hardware (HW) usw. zusammenhängen.
Resolution
Validieren Sie den Status und die Integrität des Geräts und ersetzen Sie es, falls erforderlich.
Zur Bewertung der Latenz können I/O-Tools wie dd, fio oder vdbench verwendet werden. Außerdem kann die Geräteintegrität mithilfe von Linux-Dienstprogrammen (sar, smartctl) oder der PowerFlex-SCLI validiert werden.
Mögliches Szenario:
- Das Gerät weist aufgrund einer intensiven Workload eine hohe Ressourcenauslastung auf
- Das Gerät verfügt über einen nicht unterstützten HW-Typ
- Das Gerät verfügt über eine nicht unterstützte FW-Version
- Das Gerät hat tatsächlich ein Hardwareproblem – fehlerhafte Sektoren, Fehlerstatus usw.
Verwenden von PowerFlex SCLI zur Validierung des Gerätestatus und verschiedener Informationen:
# scli --query_device --device_id bb5e945300050009
Device ID: bb5e945300050009 Name: DGWT_Node6--0000:e4:00.0-nvme-1
Path: /dev/disk/by-path/pci-0000:e4:00.0-nvme-1
Capacity: 3.5 TB (3576 GB)
DGWT Id: c14bba1400000005
Node Id: b8ad8a9800000005
Device Group Id: 2e16482200000000
Current Path: /dev/disk/by-path/pci-0000:e4:00.0-nvme-1
Error: No
Bandwidth:
Primary-reads 0 IOPS 0 Bytes per second
Primary-writes 0 IOPS 0 Bytes per second
Secondary-reads 0 IOPS 0 Bytes per second
Secondary-writes 0 IOPS 0 Bytes per second
Backward-rebuild-reads 0 IOPS 0 Bytes per second
Backward-rebuild-writes 0 IOPS 0 Bytes per second
Forward-rebuild-reads 0 IOPS 0 Bytes per second
Forward-rebuild-writes 0 IOPS 0 Bytes per second
Rebalance-reads 0 IOPS 0 Bytes per second
Rebalance-writes 0 IOPS 0 Bytes per second
Volume-migration-reads 0 IOPS 0 Bytes per second
Volume-migration-writes 0 IOPS 0 Bytes per second
Enter-protected-maintenance-mode-reads 0 IOPS 0 Bytes per second
Enter-protected-maintenance-mode-writes 0 IOPS 0 Bytes per second
Exit-protected-maintenance-mode-reads 0 IOPS 0 Bytes per second
Exit-protected-maintenance-mode-writes 0 IOPS 0 Bytes per second
State: Normal
Device HW checks enabled: TRUE
Physical Device Information:
Device Type: UNKNOWN
Media Type: SSD
Vendor Name: N/A
Model Name: N/A
Serial Number: N/A
Slot Number: N/A
Firmware Version: N/A
Cache Look-ahead: not Active
Write Cache: not Active
ATA Security: not Active
Logical Sector Size: 0 B
Physical Sector Size: 0 B
Capacity: 0 GB
LED Setting: OFF
SMART Information:
Aggregated State: NEVER_FAILED
Temperature State: NEVER_FAILED
Current Value: 0 Worst Value: 0 Threshold: 0
Media Wearout Indicator State: NEVER_FAILED
Current Value: 0 Worst Value: 0 Threshold: 0
RAID Controller Information:
Serial Number: N/A
RAID vDisk status: N/A
RAID vDisk Type: N/A
RAID vDisk Cache: N/A
Verwenden von smartctl zum Validieren des Gerätestatus und verschiedener Informationen:
sudo smartctl -i /dev/<device>
Suchen Sie für HW- und FW-Details in der Ausgabe nach den folgenden Schlüsselattributen:
- Produkt: Die HW-Kennung des Laufwerks
- Hersteller: Zeigt den Hardwarehersteller an. Einige Geräte zeigen dies explizit an. andere nur durch Produktbenennung.
- Revision – Die auf dem Laufwerk ausgeführte FW-Version
- Gerätetyp: Gibt an, ob es sich bei dem Gerät um ein HDD-, SSD- oder NVMe-Gerät handelt.
Suchen Sie bei ungültigen Sektoren in der Ausgabe nach den folgenden Schlüsselattributen:
- Reallocated_Sector_Ct – Zeigt die Anzahl der fehlerhaften Sektoren an, die durch Ersatzsektoren ersetzt wurden.
- Ein Wert ungleich Null weist darauf hin, dass das Laufwerk auf fehlerhafte Sektoren gestoßen ist.
- Current_Pending_Sector – Sektoren, die darauf warten, erneut getestet oder neu zugewiesen zu werden.
- Ein Wert ungleich Null weist darauf hin, dass das Laufwerk möglicherweise noch unlesbare Sektoren aufweist.
- Offline_Uncorrectable – Anzahl der Sektoren, die während des Offline-Scans nicht korrigiert werden konnten.
- Ein hoher Wert ist hier eine rote Fahne.
Suchen Sie im schreibgeschütztenoder fehlgeschlagenen Status nach den folgenden Erwähnungen in der Ausgabe:
- Schreibgeschützter Modus: Enabled
- SMART-Testergebnis zur Selbsteinschätzung des Gesamtgesundheitszustands: FAILED → kann auf "Forced Read Only" hinweisen
Betroffene Versionen
PowerFlex 5.x