PowerFlex 5.X: Latencia informada en el dispositivo
Summary: Se genera una alerta cuando se supera el umbral de latencia de un dispositivo.
Symptoms
Mensaje de alerta
Advertencia
A Device on Storage Node <Node Name> (ID: <Node ID>), Device: <Device Path> has crossed the warning threshold for acceptable latency
Error
A Device on Storage Node <Node Name> (ID: <Node ID>), Device: <Device Path> has crossed the error threshold for acceptable latency
Umbrales de alerta
Advertencia: 10 segundos
Error: 20 segundos
Impacto
La latencia del dispositivo puede causar fallas repetidas en el DGWT, errores de I/O y un estado fallido de la unidad de metadatos (MU).
Cause
Hay varios factores que contribuyen a la latencia del dispositivo o la causan. Un problema puede estar relacionado con el sistema operativo (SO), el código de PowerFlex, el firmware (FW), el hardware (HW), etc.
Resolution
Valide el estado del dispositivo y, si es necesario, reemplácelo.
Se pueden usar herramientas de I/O para evaluar la latencia, como dd, fio o vdbench. Además, el estado del dispositivo se puede validar mediante las utilidades de Linux (sar, smartctl) o la SCLI de PowerFlex.
Escenario posible:
- El dispositivo está experimentando una alta utilización de recursos debido a una carga de trabajo intensiva
- El dispositivo tiene un tipo de hardware no soportado
- El dispositivo tiene una versión de firmware no compatible
- El dispositivo tiene un problema de hardware real: sectores defectuosos, estado de error, etc.
Uso de la SCLI de PowerFlex para validar el estado del dispositivo y diversa información:
# scli --query_device --device_id bb5e945300050009
Device ID: bb5e945300050009 Name: DGWT_Node6--0000:e4:00.0-nvme-1
Path: /dev/disk/by-path/pci-0000:e4:00.0-nvme-1
Capacity: 3.5 TB (3576 GB)
DGWT Id: c14bba1400000005
Node Id: b8ad8a9800000005
Device Group Id: 2e16482200000000
Current Path: /dev/disk/by-path/pci-0000:e4:00.0-nvme-1
Error: No
Bandwidth:
Primary-reads 0 IOPS 0 Bytes per second
Primary-writes 0 IOPS 0 Bytes per second
Secondary-reads 0 IOPS 0 Bytes per second
Secondary-writes 0 IOPS 0 Bytes per second
Backward-rebuild-reads 0 IOPS 0 Bytes per second
Backward-rebuild-writes 0 IOPS 0 Bytes per second
Forward-rebuild-reads 0 IOPS 0 Bytes per second
Forward-rebuild-writes 0 IOPS 0 Bytes per second
Rebalance-reads 0 IOPS 0 Bytes per second
Rebalance-writes 0 IOPS 0 Bytes per second
Volume-migration-reads 0 IOPS 0 Bytes per second
Volume-migration-writes 0 IOPS 0 Bytes per second
Enter-protected-maintenance-mode-reads 0 IOPS 0 Bytes per second
Enter-protected-maintenance-mode-writes 0 IOPS 0 Bytes per second
Exit-protected-maintenance-mode-reads 0 IOPS 0 Bytes per second
Exit-protected-maintenance-mode-writes 0 IOPS 0 Bytes per second
State: Normal
Device HW checks enabled: TRUE
Physical Device Information:
Device Type: UNKNOWN
Media Type: SSD
Vendor Name: N/A
Model Name: N/A
Serial Number: N/A
Slot Number: N/A
Firmware Version: N/A
Cache Look-ahead: not Active
Write Cache: not Active
ATA Security: not Active
Logical Sector Size: 0 B
Physical Sector Size: 0 B
Capacity: 0 GB
LED Setting: OFF
SMART Information:
Aggregated State: NEVER_FAILED
Temperature State: NEVER_FAILED
Current Value: 0 Worst Value: 0 Threshold: 0
Media Wearout Indicator State: NEVER_FAILED
Current Value: 0 Worst Value: 0 Threshold: 0
RAID Controller Information:
Serial Number: N/A
RAID vDisk status: N/A
RAID vDisk Type: N/A
RAID vDisk Cache: N/A
Uso de smartctl para validar el estado del dispositivo y diversa información:
sudo smartctl -i /dev/<device>
Para obtener detalles de hardware y firmware, busque los siguientes atributos clave en la salida:
- Producto: el identificador de hardware de la unidad
- Vendor: indica el proveedor de hardware. Algunos dispositivos lo muestran explícitamente; otros solo a través de la denominación del producto.
- Revisión: la versión del firmware que se ejecuta en la unidad
- Tipo de dispositivo: indica si el dispositivo es un HDD, SSD o NVMe.
Para los sectores defectuosos, busque los siguientes atributos clave en el resultado:
- Reallocated_Sector_Ct: indica la cantidad de sectores defectuosos que se reemplazaron por sectores de repuesto.
- Un valor distinto de cero sugiere que la unidad encontró sectores defectuosos.
- Current_Pending_Sector - Sectores que están a la espera de ser reprobados o reasignados.
- Un valor distinto de cero sugiere que la unidad aún puede tener sectores ilegibles.
- Offline_Uncorrectable - Número de sectores que no se han podido corregir durante el análisis offline.
- Un valor alto aquí es una señal de alerta.
Para el estado de solo lectura o fallido, busque las siguientes menciones en el resultado:
- Modo de solo lectura: Habilitado
- Resultado de la prueba de autoevaluación de salud general SMART: FAILED → puede indicar que es de solo lectura forzada
Versiones afectadas
PowerFlex 5.x