PowerFlex 5.X: Затримка, зафіксована на пристрої
Summary: Сповіщення підвищується, коли пристрій перевищує поріг затримки.
Symptoms
Повідомлення-сповіщення
Увага
A Device on Storage Node <Node Name> (ID: <Node ID>), Device: <Device Path> has crossed the warning threshold for acceptable latency
Помилка
A Device on Storage Node <Node Name> (ID: <Node ID>), Device: <Device Path> has crossed the error threshold for acceptable latency
Пороги тривоги
Увага — 10 секунд
Помилка — 20 секунд
Вплив
Затримка пристрою може спричиняти повторні збої DGWT, помилки введення/виведення та стан відмовиMetadata Unit (MU).
Cause
Кілька факторів впливають або спричиняють затримку пристрою. Проблема може стосуватися операційної системи (ОС), коду PowerFlex, прошивки (FW), апаратного забезпечення (HW) тощо.
Resolution
Перевірте стан і стан пристрою і, якщо потрібно, замініть його.
Інструменти введення/виведення можуть використовуватися для оцінки затримки, такі як dd, fio або vdbench. Також здоров'я пристрою можна перевірити за допомогою утиліт Linux (sar, smartctl) або PowerFlex SCLI.
Можливий сценарій:
- Пристрій зазнає високого використання ресурсів через інтенсивне навантаження
- Пристрій має непідтримуваний тип HW
- Пристрій має непідтримувану версію FW
- У пристрою є справжня проблема з апаратним живленням — погані сектори, стан помилок тощо.
Використання PowerFlex SCLI для перевірки стану пристрою та різноманітної інформації:
# scli --query_device --device_id bb5e945300050009
Device ID: bb5e945300050009 Name: DGWT_Node6--0000:e4:00.0-nvme-1
Path: /dev/disk/by-path/pci-0000:e4:00.0-nvme-1
Capacity: 3.5 TB (3576 GB)
DGWT Id: c14bba1400000005
Node Id: b8ad8a9800000005
Device Group Id: 2e16482200000000
Current Path: /dev/disk/by-path/pci-0000:e4:00.0-nvme-1
Error: No
Bandwidth:
Primary-reads 0 IOPS 0 Bytes per second
Primary-writes 0 IOPS 0 Bytes per second
Secondary-reads 0 IOPS 0 Bytes per second
Secondary-writes 0 IOPS 0 Bytes per second
Backward-rebuild-reads 0 IOPS 0 Bytes per second
Backward-rebuild-writes 0 IOPS 0 Bytes per second
Forward-rebuild-reads 0 IOPS 0 Bytes per second
Forward-rebuild-writes 0 IOPS 0 Bytes per second
Rebalance-reads 0 IOPS 0 Bytes per second
Rebalance-writes 0 IOPS 0 Bytes per second
Volume-migration-reads 0 IOPS 0 Bytes per second
Volume-migration-writes 0 IOPS 0 Bytes per second
Enter-protected-maintenance-mode-reads 0 IOPS 0 Bytes per second
Enter-protected-maintenance-mode-writes 0 IOPS 0 Bytes per second
Exit-protected-maintenance-mode-reads 0 IOPS 0 Bytes per second
Exit-protected-maintenance-mode-writes 0 IOPS 0 Bytes per second
State: Normal
Device HW checks enabled: TRUE
Physical Device Information:
Device Type: UNKNOWN
Media Type: SSD
Vendor Name: N/A
Model Name: N/A
Serial Number: N/A
Slot Number: N/A
Firmware Version: N/A
Cache Look-ahead: not Active
Write Cache: not Active
ATA Security: not Active
Logical Sector Size: 0 B
Physical Sector Size: 0 B
Capacity: 0 GB
LED Setting: OFF
SMART Information:
Aggregated State: NEVER_FAILED
Temperature State: NEVER_FAILED
Current Value: 0 Worst Value: 0 Threshold: 0
Media Wearout Indicator State: NEVER_FAILED
Current Value: 0 Worst Value: 0 Threshold: 0
RAID Controller Information:
Serial Number: N/A
RAID vDisk status: N/A
RAID vDisk Type: N/A
RAID vDisk Cache: N/A
Використання smartctl для перевірки стану пристрою та різної інформації:
sudo smartctl -i /dev/<device>
Для деталей HW та FW зверніть увагу на такі ключові атрибути у вихідному матеріалі:
- Продукт — ідентифікатор HW приводу
- Постачальник — вказує на виробника апаратного забезпечення. Деякі пристрої це чітко показують; інші — лише через назву продукту.
- Ревізія — версія FW, що працює на диску
- Тип пристрою — вказує, чи є пристрій HDD, SSD або NVMe.
Для поганих секторів зверніть увагу на такі ключові характеристики у результатах:
- Reallocated_Sector_Ct - Вказує на кількість поганих секторів, які були замінені запасними.
- Ненульове значення свідчить, що диск зіткнувся з поганими секторами.
- Current_Pending_Sector - Сектори, які чекають на повторне тестування або перерозподіл.
- Ненульове значення свідчить, що диск все ще може мати нечитабельні сектори.
- Offline_Uncorrectable - Кількість секторів, які не вдалося виправити під час офлайн-сканування.
- Висока цінність тут — це тривожний сигнал.
Для стану лише читання або невдачі звертайте увагу на такі згадки у результаті:
- Режим лише для читання: Увімкнено
- Результати загальної самооцінки здоров'я SMART: FAIL → може вказувати на примусове читання
Впливові версії
PowerFlex 5.x