PowerFlex många åtgärdade läsfel efter kallstart av en SDS-server

Summary: Efter en oväntad strömcykel till SDS-servern rapporterar MDM-enheten många åtgärdade fel. PowerFlex-system som använder en lagringspool med medelstor granularitet (MG) och har funktionen för beständig kontrollsumma aktiverad. Enheter som är större än 2 TB. En enda SDS-server drabbas oväntat av en kall omstart (kallstart). Två eller flera SDS-servrar upplever oväntat en strömcykel (kallstart). Vi har bekräftat att det här problemet uppstår på grund av PC-funktionen (Persistent Checksum) med enheter som är större än 2 TB, särskilt i kombination med kallstart av en SDS-server. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Scenario

PowerFlex-system som använder en lagringspool med medelstor granularitet och har funktionen för beständig kontrollsumma aktiverad. 

Enheter som är större än 2 TB.

En enda SDS-server drabbas oväntat av en kall omstart (kallstart).

Två eller flera SDS-servrar upplever oväntat en strömcykel (kallstart).

Symptom


MDM-händelseloggar rapporterar många åtgärdade läsfel:

2023-12-05 12:01:42.634000:0031658:SCANNER_NEW_FIXED_ERRORS__INFO   INFO     SDS <name> encountered one or more read errors on device /dev/disk/by-id/scsi-<id>, and they were all fixed (Found: 29443, Fixed: 29443)
...


SDS-spårningsloggar visar matchningsfel för kontrollsummor:

2023/12/05 12:01:39.643280 7ff09dd3ddb0:mosT10Dif_VerifyContT10DIFBuffer:00381: (T10DIF) DIF Verification Failed: blk=0, blkSize=8, pData=0x7fedddbff000, pDif=0x7ff09dd38820, computed_guard=b5c2, DIF_guard=58e1, difGranularity=8  
2023/12/05 12:01:39.643288 7ff09dd3ddb0:mgPhyDevPersChksm_IO_ReadValidate:03647: data Validation (state: PROTECTED) failed, devId 0xddd77b550046000e, combId 4716801282c6, combOffsetInLbs 16609280, dataOffsetInLbs 4306157568, dataSizeInLbs 2048, chksmRelativeOffsetBytes 1075099648, chksmSizeBytes 512, rc IO_ERR_PERS_CHECKSUM_MISMATCH (Pers. Checksum)
2023/12/05 12:01:39.643298 7ff09dd3ddb0:mgStorageRegion_ReadSync:03646: Reading tooth data failed: IO_ERR_PERS_CHECKSUM_MISMATCH. combId:4716801282c6,vTree:0xda6ddd6400000022,offsetVol:0x374ba9000,offsetInComb:16609280,sizeInLbs:2048,phyToothIdx:2101592,srcToothIdx:inv,dstToothIdx:inv New:(0,0) Requested:(37,1) volId:0  
2023/12/05 12:01:39.643372 7ff09dd3ddb0:mgPhyDev_IncreaseInaccessibleCapacity:06587: PDE - devId ddd77b550046000e toothIndex 2101592 Increased inaccessible capacity to 1 
2023/12/05 12:01:39.643383 7ff09dd3ddb0:raidComb_ReportCorruptionIfShould:19441: PDE - Comb 4716801282c6 Reported CORRUPT integrity result SUCCESS combId:4716801282c6,vTree:0xda6ddd6400000022,offsetVol:0x374ba9000,offsetInComb:16609280,sizeInLbs:2048,phyToothIdx:2101592,srcToothIdx:inv,dstToothIdx:inv New:(0,0) Requested:(37,1) volId:0 
2023/12/05 12:01:39.643390 7ff09dd3ddb0:ioh_NewRequest:10209: Check for scan error on comb 4716801282c6 - Done rc is IO_ERR_PERS_CHECKSUM_MISMATCH (Lba 16609280 2048) (0 ms) 
2023/12/05 12:01:39.647175 7ff098be4db0:storageRegion_PostIntegrityCorrection:04647: PDE - Clearing corruption in comb 4716801282c6 offsetInComb 16609280 extentSize 2048 after raidComb_WriteCombLocal combId:4716801282c6,vTree:0xda6ddd6400000022,offsetVol:0x374ba9000,offsetInComb:16609280,sizeInLbs:2048,phyToothIdx:2101592,srcToothIdx:inv,dstToothIdx:inv New:(0,0) Requested:(37,1) volId:0
2023/12/05 12:01:39.647259 7ff098be4db0:mgPhyDev_DecreaseInaccessibleCapacity:06604: PDE - devId ddd77b550046000e toothIndex 2101592 Decreased inaccessible capacity to 0 
2023/12/05 12:01:39.647350 7ff098be4db0:ioh_NewRequest:09688: comb:4716801282c6,vTree:0x0,offsetVol:0xffffffffffffffff,offsetTooth:0x0, Succeeded to fix comb 4716801282c6, offset 16609280, by its primary

Om flera SDS:er drabbas av kallstart kan oåtkomlig kapacitet observeras. Detta kan ses från query_all:

Number of devices with inaccessible capacity: 367

 


Påverkan: 

MDM-varningar som indikerar åtgärdade läsfel som korrigerades av den speglade kopian.
MDM-händelseloggar fylls med händelser om de åtgärdade läsfelen.

Cause

Efter kallstart till en SDS-server uppstår ett programkodsproblem som förhindrar fullständig återuppbyggnad av beständiga kontrollsummor på enheter som är större än 2 TB. BGS-funktionen (Background Scanner) upptäcker avvikelser mellan de primära och sekundära kopiorna av data på grund av den saknade kontrollsumman, och markerar dem som fasta läsfel. Det är viktigt att notera att det inte finns någon risk för dataintegritet eller förlust. BGS-funktionen korrigerar automatiskt de identifierade skillnaderna genom att korrigera kontrollsummorna. Som ett resultat är observerade fasta läsfel en biprodukt av denna process, med försäkran om att dataintegriteten förblir intakt.

Resolution

Dessa händelser och varningar kan ignoreras på ett säkert sätt. Händelserna och varningarna försvinner så småningom när BGS har gått igenom alla enheter. 
Om MDM-varningar och händelser är problematiska kan SDS-enheten som drabbades av en kallstart tas bort från systemet och läggas till igen.
 

Om flera SDS:er drabbas av kallstart och en otillgänglig kapacitet ses måste den beständiga kontrollsumman inaktiveras tillfälligt.

Om du vill inaktivera funktionen för beständiga kontrollsummor måste BGS först inaktiveras:

1) Anslut till den primära MDM-servern.

2) Inaktivera BGS:

scli --disable_background_device_scanner --protection_domain_name <pd> --storage_pool_name <sp>

 

3) Inaktivera beständig kontrollsumma:

scli --disable_persistent_checksum --protection_domain_name <pd> --storage_pool_name <sp>

De otillgängliga områdena bör sluta öka och börja minska. Det kan ta lite tid. Ibland kan SCLI-kommandot för test_inaccessible_capoacity för varje enhet som påverkas hjälpa till att snabba upp processen.

4) Om de otillgängliga områdena inte minskar från ovanstående åtgärder, placera de SDS:er som är flaggade med PDE i IMM och starta om SDS-tjänsten. 

 

När all otillgänglig kapacitet är borta aktiverar du beständig kontrollsumma och BGS.

1) Aktivera beständig kontrollsumma:

scli --enable_persistent_checksum --protection_domain_name <pd> --storage_pool_name <sp>

Detta kan ta lång tid eftersom alla kontrollsummor för alla data måste återskapas. Förloppet för detta kan spåras med kommandot SCLI query_all. Först när de beständiga kontrollsummorna har beräknats och skyddats kan BGS aktiveras.

2) Aktivera BGS:

scli --enable_background_device_scanner --protection_domain_name <pd> --storage_pool_name <sp>

Additional Information

Versioner som påverkas

PowerFlex 3.x
PowerFlex 4.x

Åtgärdat i version

PowerFlex 3.6.3
PowerFlex 4.5.2

Affected Products

PowerFlex rack, ScaleIO
Article Properties
Article Number: 000220798
Article Type: Solution
Last Modified: 10 Feb 2025
Version:  7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.