PowerFlex 5.X: Latenza segnalata sul dispositivo
Summary: Viene generato un avviso quando viene superata la soglia di latenza di un dispositivo.
Symptoms
Messaggio di avviso
Warning
A Device on Storage Node <Node Name> (ID: <Node ID>), Device: <Device Path> has crossed the warning threshold for acceptable latency
Errore
A Device on Storage Node <Node Name> (ID: <Node ID>), Device: <Device Path> has crossed the error threshold for acceptable latency
Soglie di avviso
Avviso - 10 secondi
Errore - 20 secondi
Impatto
La latenza del dispositivo può causare ripetuti guasti al DGWT, errori di I/O e uno stato di errore dell'unità di metadati (MU).
Cause
Diversi fattori contribuiscono o causano la latenza del dispositivo. Un problema potrebbe essere correlato al sistema operativo (OS), al codice PowerFlex, al firmware (FW), all'hardware (HW) e così via.
Resolution
Convalidare lo stato e l'integrità del dispositivo e, se necessario, sostituirlo.
Per valutare la latenza è possibile utilizzare strumenti di I/O, ad esempio dd,fio o vdbench. Inoltre, lo stato del dispositivo può essere convalidato utilizzando utilità Linux (sar, smartctl) o PowerFlex SCLI.
Scenario possibile:
- Il dispositivo riscontra un elevato utilizzo delle risorse a causa di un carico di lavoro intensivo
- Il dispositivo ha un tipo di hardware non supportato
- Il dispositivo dispone di una versione del firmware non supportata
- Il dispositivo presenta un problema HW effettivo: settori danneggiati, stato di errore, ecc.
Utilizzo della SCLI PowerFlex per convalidare lo stato del dispositivo e varie informazioni:
# scli --query_device --device_id bb5e945300050009
Device ID: bb5e945300050009 Name: DGWT_Node6--0000:e4:00.0-nvme-1
Path: /dev/disk/by-path/pci-0000:e4:00.0-nvme-1
Capacity: 3.5 TB (3576 GB)
DGWT Id: c14bba1400000005
Node Id: b8ad8a9800000005
Device Group Id: 2e16482200000000
Current Path: /dev/disk/by-path/pci-0000:e4:00.0-nvme-1
Error: No
Bandwidth:
Primary-reads 0 IOPS 0 Bytes per second
Primary-writes 0 IOPS 0 Bytes per second
Secondary-reads 0 IOPS 0 Bytes per second
Secondary-writes 0 IOPS 0 Bytes per second
Backward-rebuild-reads 0 IOPS 0 Bytes per second
Backward-rebuild-writes 0 IOPS 0 Bytes per second
Forward-rebuild-reads 0 IOPS 0 Bytes per second
Forward-rebuild-writes 0 IOPS 0 Bytes per second
Rebalance-reads 0 IOPS 0 Bytes per second
Rebalance-writes 0 IOPS 0 Bytes per second
Volume-migration-reads 0 IOPS 0 Bytes per second
Volume-migration-writes 0 IOPS 0 Bytes per second
Enter-protected-maintenance-mode-reads 0 IOPS 0 Bytes per second
Enter-protected-maintenance-mode-writes 0 IOPS 0 Bytes per second
Exit-protected-maintenance-mode-reads 0 IOPS 0 Bytes per second
Exit-protected-maintenance-mode-writes 0 IOPS 0 Bytes per second
State: Normal
Device HW checks enabled: TRUE
Physical Device Information:
Device Type: UNKNOWN
Media Type: SSD
Vendor Name: N/A
Model Name: N/A
Serial Number: N/A
Slot Number: N/A
Firmware Version: N/A
Cache Look-ahead: not Active
Write Cache: not Active
ATA Security: not Active
Logical Sector Size: 0 B
Physical Sector Size: 0 B
Capacity: 0 GB
LED Setting: OFF
SMART Information:
Aggregated State: NEVER_FAILED
Temperature State: NEVER_FAILED
Current Value: 0 Worst Value: 0 Threshold: 0
Media Wearout Indicator State: NEVER_FAILED
Current Value: 0 Worst Value: 0 Threshold: 0
RAID Controller Information:
Serial Number: N/A
RAID vDisk status: N/A
RAID vDisk Type: N/A
RAID vDisk Cache: N/A
Utilizzo di smartctl per convalidare lo stato del dispositivo e varie informazioni:
sudo smartctl -i /dev/<device>
Per i dettagli su HW e FW, cercare i seguenti attributi chiave nell'output:
- Product: l'ID HW dell'unità
- Vendor: indica il fornitore dell'hardware. Alcuni dispositivi lo mostrano esplicitamente; altri solo attraverso la denominazione del prodotto.
- Revision: la versione del firmware in esecuzione sull'unità.
- Device Type: indica se il dispositivo è HDD, SSD o NVMe.
Per i settori danneggiati, cercare i seguenti attributi chiave nell'output:
- Reallocated_Sector_Ct: indica il numero di settori danneggiati che sono stati sostituiti con settori di riserva.
- Un valore diverso da zero suggerisce che l'unità ha riscontrato settori danneggiati.
- Current_Pending_Sector - Settori in attesa di essere ritestati o riallocati.
- Un valore diverso da zero suggerisce che l'unità potrebbe comunque avere settori illeggibili.
- Offline_Uncorrectable - Numero di settori che non è stato possibile correggere durante la scansione offline.
- Un valore elevato in questo caso è un campanello d'allarme.
Per lo stato read-only o failed, cercare le seguenti menzioni nell'output:
- Modalità read-only: Enabled
- Risultato del test di autovalutazione della salute generale SMART: FAILED → può indicare un'operazione read-only forzata
Versioni interessate
PowerFlex 5.x