PowerFlex: muchos errores de lectura corregidos después de un arranque en frío del servidor SDS

Summary: Después de un ciclo de apagado y encendido inesperado del servidor SDS, el MDM informa muchos errores de lectura corregidos. Sistema PowerFlex que utiliza un pool de almacenamiento de granularidad media (MG) y tiene habilitada la función de suma de comprobación persistente. Dispositivos de más de 2 TB. Un único servidor SDS experimenta inesperadamente un ciclo de apagado y encendido (arranque en frío). Dos o más servidores SDS experimentan inesperadamente un ciclo de apagado y encendido (arranque en frío). Confirmamos que este problema surge de la característica de suma de comprobación persistente (PC) con dispositivos de más de 2 TB, especialmente cuando se combina con un arranque en frío de un servidor SDS. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Situación

Sistema PowerFlex que utiliza un pool de almacenamiento de granularidad media y tiene habilitada la función de suma de comprobación persistente. 

Dispositivos de más de 2 TB.

Un único servidor SDS experimenta inesperadamente un ciclo de apagado y encendido (arranque en frío).

Dos o más servidores SDS experimentan inesperadamente un ciclo de apagado y encendido (arranque en frío).

Síntomas


Los registros de eventos de MDM informan muchos errores de lectura corregidos:

2023-12-05 12:01:42.634000:0031658:SCANNER_NEW_FIXED_ERRORS__INFO   INFO     SDS <name> encountered one or more read errors on device /dev/disk/by-id/scsi-<id>, and they were all fixed (Found: 29443, Fixed: 29443)
...


Los registros de seguimiento de SDS muestran incompatibilidades en las sumas de comprobación:

2023/12/05 12:01:39.643280 7ff09dd3ddb0:mosT10Dif_VerifyContT10DIFBuffer:00381: (T10DIF) DIF Verification Failed: blk=0, blkSize=8, pData=0x7fedddbff000, pDif=0x7ff09dd38820, computed_guard=b5c2, DIF_guard=58e1, difGranularity=8  
2023/12/05 12:01:39.643288 7ff09dd3ddb0:mgPhyDevPersChksm_IO_ReadValidate:03647: data Validation (state: PROTECTED) failed, devId 0xddd77b550046000e, combId 4716801282c6, combOffsetInLbs 16609280, dataOffsetInLbs 4306157568, dataSizeInLbs 2048, chksmRelativeOffsetBytes 1075099648, chksmSizeBytes 512, rc IO_ERR_PERS_CHECKSUM_MISMATCH (Pers. Checksum)
2023/12/05 12:01:39.643298 7ff09dd3ddb0:mgStorageRegion_ReadSync:03646: Reading tooth data failed: IO_ERR_PERS_CHECKSUM_MISMATCH. combId:4716801282c6,vTree:0xda6ddd6400000022,offsetVol:0x374ba9000,offsetInComb:16609280,sizeInLbs:2048,phyToothIdx:2101592,srcToothIdx:inv,dstToothIdx:inv New:(0,0) Requested:(37,1) volId:0  
2023/12/05 12:01:39.643372 7ff09dd3ddb0:mgPhyDev_IncreaseInaccessibleCapacity:06587: PDE - devId ddd77b550046000e toothIndex 2101592 Increased inaccessible capacity to 1 
2023/12/05 12:01:39.643383 7ff09dd3ddb0:raidComb_ReportCorruptionIfShould:19441: PDE - Comb 4716801282c6 Reported CORRUPT integrity result SUCCESS combId:4716801282c6,vTree:0xda6ddd6400000022,offsetVol:0x374ba9000,offsetInComb:16609280,sizeInLbs:2048,phyToothIdx:2101592,srcToothIdx:inv,dstToothIdx:inv New:(0,0) Requested:(37,1) volId:0 
2023/12/05 12:01:39.643390 7ff09dd3ddb0:ioh_NewRequest:10209: Check for scan error on comb 4716801282c6 - Done rc is IO_ERR_PERS_CHECKSUM_MISMATCH (Lba 16609280 2048) (0 ms) 
2023/12/05 12:01:39.647175 7ff098be4db0:storageRegion_PostIntegrityCorrection:04647: PDE - Clearing corruption in comb 4716801282c6 offsetInComb 16609280 extentSize 2048 after raidComb_WriteCombLocal combId:4716801282c6,vTree:0xda6ddd6400000022,offsetVol:0x374ba9000,offsetInComb:16609280,sizeInLbs:2048,phyToothIdx:2101592,srcToothIdx:inv,dstToothIdx:inv New:(0,0) Requested:(37,1) volId:0
2023/12/05 12:01:39.647259 7ff098be4db0:mgPhyDev_DecreaseInaccessibleCapacity:06604: PDE - devId ddd77b550046000e toothIndex 2101592 Decreased inaccessible capacity to 0 
2023/12/05 12:01:39.647350 7ff098be4db0:ioh_NewRequest:09688: comb:4716801282c6,vTree:0x0,offsetVol:0xffffffffffffffff,offsetTooth:0x0, Succeeded to fix comb 4716801282c6, offset 16609280, by its primary

Si varios SDS experimentan un arranque en frío, es posible que se observe una capacidad inaccesible. Esto se puede ver en la query_all:

Number of devices with inaccessible capacity: 367

 


Impacto: 

Alertas de MDM que indican errores de lectura corregidos por la copia espejeada.
Los registros de eventos de MDM se llenan de eventos sobre los errores de lectura corregidos.

Cause

Después de un arranque en frío en un servidor SDS, hay un problema de código de software que impide la reconstrucción completa de sumas de comprobación persistentes en dispositivos de más de 2 TB. La función de escáner en segundo plano (BGS) detecta discrepancias entre las copias primaria y secundaria de los datos debido a la suma de comprobación faltante, y las marca como errores de lectura corregidos. Es importante tener en cuenta que no hay riesgo de pérdida o integridad de datos. La función BGS corrige automáticamente las diferencias identificadas mediante la rectificación de las sumas de comprobación. Como resultado, los errores de lectura fijos observados son un subproducto de este proceso, con la seguridad de que la integridad de los datos permanece intacta.

Resolution

Estos eventos y alertas se pueden ignorar de manera segura. Los eventos y las alertas desaparecerán una vez que BGS pase por todos los dispositivos. 
Si los eventos y las alertas de MDM son problemáticos, el SDS que experimentó un arranque en frío se puede quitar del sistema y volver a agregar.
 

Si varios SDS experimentan un arranque en frío y se observa una capacidad inaccesible, la suma de comprobación persistente se debe deshabilitar temporalmente.

Para deshabilitar la función de suma de comprobación persistente, BGS se debe deshabilitar primero:

1) Conéctese al servidor MDM principal.

2) Deshabilite BGS:

scli --disable_background_device_scanner --protection_domain_name <pd> --storage_pool_name <sp>

 

3) Deshabilite la suma de comprobación persistente:

scli --disable_persistent_checksum --protection_domain_name <pd> --storage_pool_name <sp>

Las zonas inaccesibles deberían dejar de aumentar y empezar a disminuir. Es posible que esto tarde algún tiempo. En ocasiones, la ejecución del comando de test_inaccessible_capoacity SCLI para cada dispositivo afectado puede ayudar a acelerar este proceso.

4) Si las áreas inaccesibles no disminuyen con respecto a las acciones anteriores, coloque los SDS marcados con PDE en IMM y reinicie el servicio SDS. 

 

Una vez que se haya eliminado toda la capacidad inaccesible, habilite la suma de comprobación persistente y BGS.

1) Habilite la suma de comprobación persistente:

scli --enable_persistent_checksum --protection_domain_name <pd> --storage_pool_name <sp>

Esto puede tardar mucho tiempo, ya que se deben reconstruir todas las sumas de comprobación de todos los datos. El progreso de esto se puede rastrear mediante el comando SCLI query_all. Una vez que las sumas de comprobación persistentes se calculan y protegen, solo entonces se puede habilitar BGS.

2) Habilite BGS:

scli --enable_background_device_scanner --protection_domain_name <pd> --storage_pool_name <sp>

Additional Information

Versiones afectadas

PowerFlex 3.x
PowerFlex 4.x

Problema corregido en la versión

PowerFlex 3.6.3
PowerFlex 4.5.2

Affected Products

PowerFlex rack, ScaleIO
Article Properties
Article Number: 000220798
Article Type: Solution
Last Modified: 10 Feb 2025
Version:  7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.