El dispositivo PowerFlex tiene errores de lectura corregidos
Summary: Los dispositivos SDS tienen errores que indican "El dispositivo ha solucionado errores de lectura".
Symptoms
Situación
Esto puede ocurrir cuando un dispositivo SDS tiene errores de lectura corregidos por el SDS.
Esto puede ocurrir cuando el escáner en segundo plano está deshabilitado o habilitado.
Síntomas
Los errores corregidos en un dispositivo se pueden mostrar en los siguientes lugares:
-
La GUI muestra un error:
-
El resultado "--query_sds --sds_id <SDS_ID>" muestra un contador por cada dispositivo con errores de lectura corregidos:
15: Name: /dev/sdr Path: /dev/sdr Original-path: /dev/sdr ID: 2d63f7c80003000e
Storage Pool: SAS_pool1, Capacity: 1116 GB Error-fixes: 6 scanned 0 MB, Compare errors: 0 State: Normal
El counters_dump.txt en getInfoDump de MDM muestra el FIXED_READ_ERROR_COUNT en diferentes objetos:
ID: df7700a600120012 DEVICE_TYPE READ_ERR FIXED_READ_ERROR_COUNT 1 ID: 1d1e4e5500000012 SDS_TYPE READ_ERR FIXED_READ_ERROR_COUNT 1 ID: 1c34e1f700000007 STORAGE_POOL_TYPE READ_ERR FIXED_READ_ERROR_COUNT 1 ID: b9b286df00000001 PROTECTION_DOMAIN_TYPE READ_ERR FIXED_READ_ERROR_COUNT 1 ID: 49b6b8057d1fc84b SYSTEM_TYPE READ_ERR FIXED_READ_ERROR_COUNT 1
Otros síntomas posibles: Es posible que el dispositivo esté en un estado de error. Es posible que haya errores en el dispositivo de bloques en los mensajes del sistema o syslog:
blk_update_request: critical medium error, dev sdr, sector 94390272 sd 0:2:15:0: [sdr] tag#1 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE sd 0:2:15:0: [sdr] tag#1 Sense Key : Medium Error [current] sd 0:2:15:0: [sdr] tag#1 Add. Sense: Unrecovered read error
Es posible que haya mensajes de I/O en tránsito largos en trc de SDS:
contDevMngr_HandleLongInflightIoViolation:02998: IO on devId: 2d63f7c80003000e (/dev/sdr) took too long, Low threshold exceeded - waited for reaper 12250 millis contDevMngr_HandleLongInflightIoViolation:02998: IO on devId: 2d63f7c80003000e (/dev/sdr) took too long, Low threshold exceeded - waited for reaper 13250 millis contDevMngr_HandleLongInflightIoViolation:02998: IO on devId: 2d63f7c80003000e (/dev/sdr) took too long, Low threshold exceeded - waited for reaper 14250 millis
Es posible que haya errores en los contadores de I/O del dispositivo en el sdbg_out.txt de SDS:
13: Dev path:/dev/sdr Size(lbs):0 Time grn:520577464
Io Counters:
GENERAL
Writes: 4852 Lbs: 2160443 MBs: 1054 Errors: 0
Reads: 49283 Lbs: 111376 MBs: 54 Errors: 12744
BM
Writes: 0 Lbs: 0 MBs: 0 Errors: 0
Reads: 0 Lbs: 0 MBs: 0 Errors: 0
COMB_MAP
Writes: 5 Lbs: 1390 MBs: 0 Errors: 2
Reads: 0 Lbs: 0 MBs: 0 Errors: 0
TOOTH_MAP
Writes: 426 Lbs: 688528 MBs: 336 Errors: 424
Reads: 0 Lbs: 0 MBs: 0 Errors: 0
IO
Writes: 4319 Lbs: 603064 MBs: 294 Errors: 16
Reads: 2076 Lbs: 16608 MBs: 8 Errors: 22
La latencia del dispositivo puede ser alta según counters_dump.txt:
ID: 2d63f7c60003000c DEVICE_TYPE DEV_LATENCY AVG_WRITE_LATENCY_IN_MICROSEC 0 ID: 2d63f7c70003000d DEVICE_TYPE DEV_LATENCY AVG_WRITE_LATENCY_IN_MICROSEC 0 ID: 2d63f7c80003000e DEVICE_TYPE DEV_LATENCY AVG_WRITE_LATENCY_IN_MICROSEC 11424 ID: 2d63f7c90003000f DEVICE_TYPE DEV_LATENCY AVG_WRITE_LATENCY_IN_MICROSEC 0 ID: 2d63f7ca00030010 DEVICE_TYPE DEV_LATENCY AVG_WRITE_LATENCY_IN_MICROSEC 0
Impacto
El contador "Errores de lectura corregidos" no tiene ningún impacto directo en el sistema.
Sin embargo, puede indicar una condición subyacente que podría causar desconexiones de SDS, actividades de reconstrucción, etc.
Cause
Esto se puede ver cuando un dispositivo SDS tiene errores de lectura que se han corregido o corregido mediante la copia espejeada. La corrección puede ocurrir en los siguientes casos:
- El escáner en segundo plano no lee una copia de los datos y utiliza la otra copia para sobrescribirla.
- Un SDS no puede atender las solicitudes de lectura de un SDC debido a una falla en la lectura del disco y utiliza la copia secundaria para atender la I/O y sobrescribir los datos locales.
La advertencia indica que es posible que el disco se esté ralentizando, que se estropee o que tenga bloques dañados. Los mecanismos descritos anteriormente reescriben los bloques, lo que puede corregir los bloques defectuosos "blandos".
Resolution
- Examine el disco. Si es necesario, póngase en contacto con el proveedor de hardware para reemplazarlo.
Por lo general, el contador indica una condición subyacente y el disco se está rompiendo. La acción del SDS explicada anteriormente es un intento de corregir los bloques dañados suaves, pero es posible que no tenga éxito en todas las situaciones.
-
Despeje el contador.
scli --reset_scanner_error_counters --protection_domain_id <pd id> --storage_pool_id <sp id> --reset_corrected_read_error_counter