Nombreuses erreurs de lecture résolues de PowerFlex après un démarrage à froid du serveur SDS

Summary: Après un cycle d’alimentation inattendu du serveur SDS, le MDM signale de nombreuses erreurs de lecture corrigées. Système PowerFlex qui utilise un pool de stockage à granularité moyenne (MG) et dont la fonction de somme de contrôle persistante est activée. Périphériques de plus de 2 To. Un seul serveur SDS subit un cycle d’alimentation inattendu (redémarrage à froid). Au moins deux serveurs SDS subissent un cycle d’alimentation inattendu (redémarrage à froid). Nous avons confirmé que ce problème se produit avec la fonctionnalité de somme de contrôle persistante (PC) avec des périphériques de plus de 2 To, en particulier lorsqu’ils sont associés à un démarrage à froid d’un serveur SDS. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Scénario

Système PowerFlex qui utilise un pool de stockage à granularité moyenne et dont la fonction de somme de contrôle persistante est activée. 

Périphériques de plus de 2 To.

Un seul serveur SDS subit un cycle d’alimentation inattendu (redémarrage à froid).

Au moins deux serveurs SDS subissent un cycle d’alimentation inattendu (redémarrage à froid).

Symptômes


Les journaux d’événements MDM signalent de nombreuses erreurs de lecture corrigées :

2023-12-05 12:01:42.634000:0031658:SCANNER_NEW_FIXED_ERRORS__INFO   INFO     SDS <name> encountered one or more read errors on device /dev/disk/by-id/scsi-<id>, and they were all fixed (Found: 29443, Fixed: 29443)
...


Les journaux de suivi SDS affichent des incompatibilités de somme de contrôle :

2023/12/05 12:01:39.643280 7ff09dd3ddb0:mosT10Dif_VerifyContT10DIFBuffer:00381: (T10DIF) DIF Verification Failed: blk=0, blkSize=8, pData=0x7fedddbff000, pDif=0x7ff09dd38820, computed_guard=b5c2, DIF_guard=58e1, difGranularity=8  
2023/12/05 12:01:39.643288 7ff09dd3ddb0:mgPhyDevPersChksm_IO_ReadValidate:03647: data Validation (state: PROTECTED) failed, devId 0xddd77b550046000e, combId 4716801282c6, combOffsetInLbs 16609280, dataOffsetInLbs 4306157568, dataSizeInLbs 2048, chksmRelativeOffsetBytes 1075099648, chksmSizeBytes 512, rc IO_ERR_PERS_CHECKSUM_MISMATCH (Pers. Checksum)
2023/12/05 12:01:39.643298 7ff09dd3ddb0:mgStorageRegion_ReadSync:03646: Reading tooth data failed: IO_ERR_PERS_CHECKSUM_MISMATCH. combId:4716801282c6,vTree:0xda6ddd6400000022,offsetVol:0x374ba9000,offsetInComb:16609280,sizeInLbs:2048,phyToothIdx:2101592,srcToothIdx:inv,dstToothIdx:inv New:(0,0) Requested:(37,1) volId:0  
2023/12/05 12:01:39.643372 7ff09dd3ddb0:mgPhyDev_IncreaseInaccessibleCapacity:06587: PDE - devId ddd77b550046000e toothIndex 2101592 Increased inaccessible capacity to 1 
2023/12/05 12:01:39.643383 7ff09dd3ddb0:raidComb_ReportCorruptionIfShould:19441: PDE - Comb 4716801282c6 Reported CORRUPT integrity result SUCCESS combId:4716801282c6,vTree:0xda6ddd6400000022,offsetVol:0x374ba9000,offsetInComb:16609280,sizeInLbs:2048,phyToothIdx:2101592,srcToothIdx:inv,dstToothIdx:inv New:(0,0) Requested:(37,1) volId:0 
2023/12/05 12:01:39.643390 7ff09dd3ddb0:ioh_NewRequest:10209: Check for scan error on comb 4716801282c6 - Done rc is IO_ERR_PERS_CHECKSUM_MISMATCH (Lba 16609280 2048) (0 ms) 
2023/12/05 12:01:39.647175 7ff098be4db0:storageRegion_PostIntegrityCorrection:04647: PDE - Clearing corruption in comb 4716801282c6 offsetInComb 16609280 extentSize 2048 after raidComb_WriteCombLocal combId:4716801282c6,vTree:0xda6ddd6400000022,offsetVol:0x374ba9000,offsetInComb:16609280,sizeInLbs:2048,phyToothIdx:2101592,srcToothIdx:inv,dstToothIdx:inv New:(0,0) Requested:(37,1) volId:0
2023/12/05 12:01:39.647259 7ff098be4db0:mgPhyDev_DecreaseInaccessibleCapacity:06604: PDE - devId ddd77b550046000e toothIndex 2101592 Decreased inaccessible capacity to 0 
2023/12/05 12:01:39.647350 7ff098be4db0:ioh_NewRequest:09688: comb:4716801282c6,vTree:0x0,offsetVol:0xffffffffffffffff,offsetTooth:0x0, Succeeded to fix comb 4716801282c6, offset 16609280, by its primary

Si plusieurs SDS font l’expérience d’un démarrage à froid, une capacité inaccessible peut être observée. C’est ce que l’on peut constater sur la query_all :

Number of devices with inaccessible capacity: 367

 


Impact : 

Alertes MDM indiquant les erreurs de lecture corrigées par la copie miroir.
Les journaux d’événements MDM se remplissent d’événements relatifs aux erreurs de lecture résolues.

Cause

Après un démarrage à froid sur un serveur SDS, il existe un problème de code logiciel qui empêche la reconstruction complète des sommes de contrôle persistantes sur les périphériques de plus de 2 To. Le scanner en arrière-plan (BGS) détecte les divergences entre les copies primaire et secondaire des données en raison de l’absence de somme de contrôle, et les marque comme des erreurs de lecture résolues. Il est important de noter qu’il n’existe aucun risque d’intégrité ou de perte de données. La fonction BGS corrige automatiquement les différences identifiées en rectifiant les sommes de contrôle. Par conséquent, les erreurs de lecture résolues observées sont un sous-produit de ce processus, avec l’assurance que l’intégrité des données reste intacte.

Resolution

Ces événements et alertes peuvent être ignorés en toute sécurité. Les événements et les alertes finiront par disparaître une fois que BGS aura traversé tous les appareils. 
Si les alertes et événements MDM posent problème, le SDS qui a connu un démarrage à froid peut être supprimé du système et rajouté.
 

Si plusieurs SDS effectuent un démarrage à froid et qu’une capacité inaccessible est constatée, la somme de contrôle persistante doit être temporairement désactivée.

Pour désactiver la fonction de somme de contrôle persistante, BGS doit d’abord être désactivé :

1) Connectez-vous au serveur MDM principal.

2) Désactivez BGS :

scli --disable_background_device_scanner --protection_domain_name <pd> --storage_pool_name <sp>

 

3) Désactivez la somme de contrôle persistante :

scli --disable_persistent_checksum --protection_domain_name <pd> --storage_pool_name <sp>

Les zones inaccessibles doivent cesser d’augmenter et commencer à diminuer. Cette opération peut prendre un certain temps. Parfois, l’exécution de la commande SCLI de test_inaccessible_capoacity pour chaque appareil concerné peut aider à accélérer ce processus.

4) Si les zones inaccessibles ne diminuent pas suite aux actions ci-dessus, placez les SDS marqués d’un PDE dans IMM et redémarrez le service SDS. 

 

Une fois que toute la capacité inaccessible a disparu, activez la somme de contrôle persistante et BGS.

1) Activez la somme de contrôle persistante :

scli --enable_persistent_checksum --protection_domain_name <pd> --storage_pool_name <sp>

Cette opération peut prendre beaucoup de temps, car vous devez reconstruire toutes les sommes de contrôle de toutes les données. Vous pouvez suivre la progression à l’aide de la commande SCLI query_all. Ce n’est qu’une fois que les sommes de contrôle persistantes sont calculées et protégées que BGS peut être activé.

2) Activez BGS :

scli --enable_background_device_scanner --protection_domain_name <pd> --storage_pool_name <sp>

Additional Information

Versions affectées

PowerFlex 3.x
PowerFlex 4.x

Problème résolu dans la version

PowerFlex 3.6.3
PowerFlex 4.5.2

Affected Products

PowerFlex rack, ScaleIO
Article Properties
Article Number: 000220798
Article Type: Solution
Last Modified: 10 Feb 2025
Version:  7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.