PowerFlex 5.X: Ventetid rapporteret på enhed
Summary: Der vises en advarsel, når en enheds ventetidsgrænse overskrides.
Symptoms
Advarselsmeddelelse
Advarsel
A Device on Storage Node <Node Name> (ID: <Node ID>), Device: <Device Path> has crossed the warning threshold for acceptable latency
Fejl
A Device on Storage Node <Node Name> (ID: <Node ID>), Device: <Device Path> has crossed the error threshold for acceptable latency
Tærskelværdier for advarsler
Advarsel – 10 sekunder
Fejl - 20 sekunder
Påvirkning
Enhedens ventetid kan forårsage gentagne fejl i DGWT, I/O-fejl og en mislykket tilstandfor metadataenheden (MU).
Cause
Flere faktorer bidrager til eller forårsager enhedens ventetid. Et problem kan være relateret til operativsystemet (OS), PowerFlex-koden, firmware (FW), hardware (HW) osv.
Resolution
Godkend enhedens tilstand og sundhed, og udskift den om nødvendigt.
I/O-værktøjer kan bruges til at vurdere ventetid, f.eks. dd, fio eller vdbench. Enhedens tilstand kan også valideres ved hjælp af Linux-hjælpeprogrammer (sar, smartctl) eller PowerFlex SCLI.
Muligt scenarie:
- Enheden oplever høj ressourceudnyttelse på grund af en intensiv arbejdsbelastning
- Enheden har en ikke-understøttet HW-type
- Enheden har en ikke-understøttet FW-version
- Enheden har et faktisk HW-problem - dårlige sektorer, fejltilstand osv.
Brug af PowerFlex SCLI til at validere enhedens tilstand og forskellige oplysninger:
# scli --query_device --device_id bb5e945300050009
Device ID: bb5e945300050009 Name: DGWT_Node6--0000:e4:00.0-nvme-1
Path: /dev/disk/by-path/pci-0000:e4:00.0-nvme-1
Capacity: 3.5 TB (3576 GB)
DGWT Id: c14bba1400000005
Node Id: b8ad8a9800000005
Device Group Id: 2e16482200000000
Current Path: /dev/disk/by-path/pci-0000:e4:00.0-nvme-1
Error: No
Bandwidth:
Primary-reads 0 IOPS 0 Bytes per second
Primary-writes 0 IOPS 0 Bytes per second
Secondary-reads 0 IOPS 0 Bytes per second
Secondary-writes 0 IOPS 0 Bytes per second
Backward-rebuild-reads 0 IOPS 0 Bytes per second
Backward-rebuild-writes 0 IOPS 0 Bytes per second
Forward-rebuild-reads 0 IOPS 0 Bytes per second
Forward-rebuild-writes 0 IOPS 0 Bytes per second
Rebalance-reads 0 IOPS 0 Bytes per second
Rebalance-writes 0 IOPS 0 Bytes per second
Volume-migration-reads 0 IOPS 0 Bytes per second
Volume-migration-writes 0 IOPS 0 Bytes per second
Enter-protected-maintenance-mode-reads 0 IOPS 0 Bytes per second
Enter-protected-maintenance-mode-writes 0 IOPS 0 Bytes per second
Exit-protected-maintenance-mode-reads 0 IOPS 0 Bytes per second
Exit-protected-maintenance-mode-writes 0 IOPS 0 Bytes per second
State: Normal
Device HW checks enabled: TRUE
Physical Device Information:
Device Type: UNKNOWN
Media Type: SSD
Vendor Name: N/A
Model Name: N/A
Serial Number: N/A
Slot Number: N/A
Firmware Version: N/A
Cache Look-ahead: not Active
Write Cache: not Active
ATA Security: not Active
Logical Sector Size: 0 B
Physical Sector Size: 0 B
Capacity: 0 GB
LED Setting: OFF
SMART Information:
Aggregated State: NEVER_FAILED
Temperature State: NEVER_FAILED
Current Value: 0 Worst Value: 0 Threshold: 0
Media Wearout Indicator State: NEVER_FAILED
Current Value: 0 Worst Value: 0 Threshold: 0
RAID Controller Information:
Serial Number: N/A
RAID vDisk status: N/A
RAID vDisk Type: N/A
RAID vDisk Cache: N/A
Brug af smartctl til at validere enhedens tilstand og forskellige oplysninger:
sudo smartctl -i /dev/<device>
Du kan finde oplysninger om HW og FW ved at kigge efter følgende nøgleattributter i outputtet:
- Produkt: Harddiskens HW-id
- Leverandør – Angiver hardwareleverandøren. Nogle enheder viser dette eksplicit; andre kun gennem produktnavngivning.
- Revision – Den version af firmwaren, der kører på drevet
- Enhedstype – Angiver, om enheden er en HDD, SSD eller NVMe.
For dårlige sektorer skal du kigge efter følgende nøgleattributter i outputtet:
- Reallocated_Sector_Ct - Angiver antallet af dårlige sektorer, der er blevet erstattet med reservesektorer.
- En værdi, der ikke er nul, antyder, at drevet er stødt på dårlige sektorer.
- Current_Pending_Sector - Sektorer, der venter på at blive testet igen eller omfordelt.
- En værdi, der ikke er nul, antyder, at drevet stadig kan have ulæselige sektorer.
- Offline_Uncorrectable – Antal sektorer, der ikke kunne rettes under offlinescanning.
- En høj værdi her er et rødt flag.
For skrivebeskyttet eller mislykket tilstand skal du kigge efter følgende omtaler i outputtet:
- Skrivebeskyttet tilstand: Aktiveret
- SMART overordnet sundhedstestresultat: MISLYKKET → kan indikere tvungen skrivebeskyttet
Påvirkede versioner
PowerFlex 5.x