PowerFlex 5.X: Latence hlášená na zařízení
Summary: Při překročení prahové hodnoty latence zařízení se zobrazí výstraha.
Symptoms
Výstraha
Warning
A Device on Storage Node <Node Name> (ID: <Node ID>), Device: <Device Path> has crossed the warning threshold for acceptable latency
Chyba
A Device on Storage Node <Node Name> (ID: <Node ID>), Device: <Device Path> has crossed the error threshold for acceptable latency
Prahové hodnoty výstrah
Varování – 10 sekund
Chyba - 20 sekund
Důsledky
Latence zařízení může způsobit opakované selhání DGWT, vstupně-výstupní chyby a stav selháníjednotky metadat (MU).
Cause
K latenci zařízení přispívá nebo ji způsobuje více faktorů. Problém může souviset s operačním systémem (OS), kódem PowerFlex, firmwarem (FW), hardwarem (hardwarem) atd.
Resolution
Ověřte stav a stav zařízení a v případě potřeby je vyměňte.
K vyhodnocení latence je možné použít nástroje I/O, například dd, fio nebo vdbench. Stav zařízení lze také ověřit pomocí nástrojů pro Linux (sar, smartctl) nebo PowerFlex SCLI.
Možný scénář:
- V zařízení dochází k vysokému využití zdrojů kvůli intenzivnímu pracovnímu zatížení
- Zařízení má nepodporovaný typ HW
- Zařízení má nepodporovanou verzi firmwaru.
- Zařízení má aktuální HW problém - vadné sektory, chybové stavy atd.
Použití PowerFlex SCLI k ověření stavu zařízení a různých informací:
# scli --query_device --device_id bb5e945300050009
Device ID: bb5e945300050009 Name: DGWT_Node6--0000:e4:00.0-nvme-1
Path: /dev/disk/by-path/pci-0000:e4:00.0-nvme-1
Capacity: 3.5 TB (3576 GB)
DGWT Id: c14bba1400000005
Node Id: b8ad8a9800000005
Device Group Id: 2e16482200000000
Current Path: /dev/disk/by-path/pci-0000:e4:00.0-nvme-1
Error: No
Bandwidth:
Primary-reads 0 IOPS 0 Bytes per second
Primary-writes 0 IOPS 0 Bytes per second
Secondary-reads 0 IOPS 0 Bytes per second
Secondary-writes 0 IOPS 0 Bytes per second
Backward-rebuild-reads 0 IOPS 0 Bytes per second
Backward-rebuild-writes 0 IOPS 0 Bytes per second
Forward-rebuild-reads 0 IOPS 0 Bytes per second
Forward-rebuild-writes 0 IOPS 0 Bytes per second
Rebalance-reads 0 IOPS 0 Bytes per second
Rebalance-writes 0 IOPS 0 Bytes per second
Volume-migration-reads 0 IOPS 0 Bytes per second
Volume-migration-writes 0 IOPS 0 Bytes per second
Enter-protected-maintenance-mode-reads 0 IOPS 0 Bytes per second
Enter-protected-maintenance-mode-writes 0 IOPS 0 Bytes per second
Exit-protected-maintenance-mode-reads 0 IOPS 0 Bytes per second
Exit-protected-maintenance-mode-writes 0 IOPS 0 Bytes per second
State: Normal
Device HW checks enabled: TRUE
Physical Device Information:
Device Type: UNKNOWN
Media Type: SSD
Vendor Name: N/A
Model Name: N/A
Serial Number: N/A
Slot Number: N/A
Firmware Version: N/A
Cache Look-ahead: not Active
Write Cache: not Active
ATA Security: not Active
Logical Sector Size: 0 B
Physical Sector Size: 0 B
Capacity: 0 GB
LED Setting: OFF
SMART Information:
Aggregated State: NEVER_FAILED
Temperature State: NEVER_FAILED
Current Value: 0 Worst Value: 0 Threshold: 0
Media Wearout Indicator State: NEVER_FAILED
Current Value: 0 Worst Value: 0 Threshold: 0
RAID Controller Information:
Serial Number: N/A
RAID vDisk status: N/A
RAID vDisk Type: N/A
RAID vDisk Cache: N/A
Použití smartctl k ověření stavu zařízení a různých informací:
sudo smartctl -i /dev/<device>
Podrobnosti o hardwaru a firmwaru najdete ve výstupu následujících klíčových atributů:
- Produkt – HW identifikátor jednotky
- Dodavatel – označuje dodavatele hardwaru. Některá zařízení to ukazují explicitně; ostatní pouze prostřednictvím pojmenování produktu.
- Revize – verze firmwaru běžícího na disku
- Typ zařízení – označuje, zda se jedná o pevný disk, disk SSD nebo NVMe.
V případě chybných sektorů vyhledejte ve výstupu následující klíčové atributy:
- Reallocated_Sector_Ct – Udává počet vadných sektorů, které byly nahrazeny náhradními sektory.
- Nenulová hodnota znamená, že na disku došlo k chybným sektorům.
- Current_Pending_Sector – Sektory, které čekají na opětovné otestování nebo přerozdělení.
- Nenulová hodnota znamená, že jednotka může stále obsahovat nečitelné sektory.
- Offline_Uncorrectable – počet sektorů, které nebylo možné opravit při offline kontrole.
- Vysoká hodnota je zde varovným signálem.
V případě stavujen pro čtení nebo selhání vyhledejte ve výstupu následující zmínky:
- Režim pouze pro čtení: Enabled
- Výsledek testu SMART celkového zdravotního stavu: FAILED → může znamenat vynucený přístup pouze ke čtení
Dotčené verze
PowerFlex 5.x