PowerFlex Mange rettede læsefejl efter koldstart af en SDS-server

Summary: Efter en uventet SDS-serverstrømcyklus rapporterer MDM mange faste læsefejl. PowerFlex-system, der bruger en lagerpulje med medium granularitet (MG) og har funktionen vedvarende kontrolsum aktiveret. Enheder, der er større end 2 TB. En enkelt SDS-server oplever uventet en strømcyklus (koldstart). To eller flere SDS-servere oplever uventet en strømcyklus (koldstart). Vi bekræftede, at dette problem opstår fra funktionen Persistent Checksum (PC) med enheder, der er større end 2 TB, især når de kombineres med en kold opstart af en SDS-server. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Scenarie

PowerFlex-system, der bruger en lagerpulje med medium granularitet og har funktionen vedvarende kontrolsum aktiveret. 

Enheder, der er større end 2 TB.

En enkelt SDS-server oplever uventet en strømcyklus (koldstart).

To eller flere SDS-servere oplever uventet en strømcyklus (koldstart).

Symptomer


MDM-hændelseslogfiler rapporterer mange rettede læsefejl:

2023-12-05 12:01:42.634000:0031658:SCANNER_NEW_FIXED_ERRORS__INFO   INFO     SDS <name> encountered one or more read errors on device /dev/disk/by-id/scsi-<id>, and they were all fixed (Found: 29443, Fixed: 29443)
...


SDS-sporingslogfiler viser uoverensstemmelser i kontrolsummen:

2023/12/05 12:01:39.643280 7ff09dd3ddb0:mosT10Dif_VerifyContT10DIFBuffer:00381: (T10DIF) DIF Verification Failed: blk=0, blkSize=8, pData=0x7fedddbff000, pDif=0x7ff09dd38820, computed_guard=b5c2, DIF_guard=58e1, difGranularity=8  
2023/12/05 12:01:39.643288 7ff09dd3ddb0:mgPhyDevPersChksm_IO_ReadValidate:03647: data Validation (state: PROTECTED) failed, devId 0xddd77b550046000e, combId 4716801282c6, combOffsetInLbs 16609280, dataOffsetInLbs 4306157568, dataSizeInLbs 2048, chksmRelativeOffsetBytes 1075099648, chksmSizeBytes 512, rc IO_ERR_PERS_CHECKSUM_MISMATCH (Pers. Checksum)
2023/12/05 12:01:39.643298 7ff09dd3ddb0:mgStorageRegion_ReadSync:03646: Reading tooth data failed: IO_ERR_PERS_CHECKSUM_MISMATCH. combId:4716801282c6,vTree:0xda6ddd6400000022,offsetVol:0x374ba9000,offsetInComb:16609280,sizeInLbs:2048,phyToothIdx:2101592,srcToothIdx:inv,dstToothIdx:inv New:(0,0) Requested:(37,1) volId:0  
2023/12/05 12:01:39.643372 7ff09dd3ddb0:mgPhyDev_IncreaseInaccessibleCapacity:06587: PDE - devId ddd77b550046000e toothIndex 2101592 Increased inaccessible capacity to 1 
2023/12/05 12:01:39.643383 7ff09dd3ddb0:raidComb_ReportCorruptionIfShould:19441: PDE - Comb 4716801282c6 Reported CORRUPT integrity result SUCCESS combId:4716801282c6,vTree:0xda6ddd6400000022,offsetVol:0x374ba9000,offsetInComb:16609280,sizeInLbs:2048,phyToothIdx:2101592,srcToothIdx:inv,dstToothIdx:inv New:(0,0) Requested:(37,1) volId:0 
2023/12/05 12:01:39.643390 7ff09dd3ddb0:ioh_NewRequest:10209: Check for scan error on comb 4716801282c6 - Done rc is IO_ERR_PERS_CHECKSUM_MISMATCH (Lba 16609280 2048) (0 ms) 
2023/12/05 12:01:39.647175 7ff098be4db0:storageRegion_PostIntegrityCorrection:04647: PDE - Clearing corruption in comb 4716801282c6 offsetInComb 16609280 extentSize 2048 after raidComb_WriteCombLocal combId:4716801282c6,vTree:0xda6ddd6400000022,offsetVol:0x374ba9000,offsetInComb:16609280,sizeInLbs:2048,phyToothIdx:2101592,srcToothIdx:inv,dstToothIdx:inv New:(0,0) Requested:(37,1) volId:0
2023/12/05 12:01:39.647259 7ff098be4db0:mgPhyDev_DecreaseInaccessibleCapacity:06604: PDE - devId ddd77b550046000e toothIndex 2101592 Decreased inaccessible capacity to 0 
2023/12/05 12:01:39.647350 7ff098be4db0:ioh_NewRequest:09688: comb:4716801282c6,vTree:0x0,offsetVol:0xffffffffffffffff,offsetTooth:0x0, Succeeded to fix comb 4716801282c6, offset 16609280, by its primary

Hvis flere SDS er koldstarter, kan der observeres utilgængelig kapacitet. Dette fremgår af query_all:

Number of devices with inaccessible capacity: 367

 


Påvirkning: 

MDM-advarsler, der angiver rettede læsefejl, som blev rettet af den spejlede kopi.
MDM-hændelseslogfiler fyldes op med hændelser om de rettede læsefejl.

Cause

Efter en koldstart til en SDS-server er der et softwarekodeproblem, der forhindrer fuld genopbygning af vedvarende kontrolsummer på enheder, der er større end 2 TB. Baggrundsscannerfunktionen (BGS) registrerer uoverensstemmelser mellem de primære og sekundære kopier af data på grund af den manglende kontrolsum og markerer dem som faste læsefejl. Det er vigtigt at bemærke, at der ikke er nogen risiko for dataintegritet eller tab. BGS-funktionen korrigerer automatisk de identificerede forskelle ved at rette kontrolsummerne. Som følge heraf er observerede faste læsefejl et biprodukt af denne proces med sikkerhed for, at dataintegriteten forbliver intakt.

Resolution

Disse hændelser og advarsler kan ignoreres sikkert. Begivenhederne og alarmerne forsvinder til sidst, når BGS kommer igennem alle enhederne. 
Hvis MDM-advarslerne og -hændelserne er problematiske, kan det sikkerhedsdatakort, der oplevede en koldstart, fjernes fra systemet og sættes ind igen.
 

Hvis flere SDS'er oplever en koldstart, og der ses en utilgængelig kapacitet, skal den vedvarende kontrolsum deaktiveres midlertidigt.

For at deaktivere funktionen vedvarende kontrolsum skal BGS først deaktiveres:

1) Opret forbindelse til den primære MDM-server.

2) Deaktiver BGS:

scli --disable_background_device_scanner --protection_domain_name <pd> --storage_pool_name <sp>

 

3) Deaktiver vedvarende kontrolsum:

scli --disable_persistent_checksum --protection_domain_name <pd> --storage_pool_name <sp>

De utilgængelige områder bør holde op med at stige og begynde at falde. Dette kan tage noget tid. Nogle gange kan udførelse af SCLI-kommandoen på test_inaccessible_capoacity for hver berørt enhed hjælpe med at fremskynde denne proces.

4) Hvis de utilgængelige områder ikke falder fra ovenstående handlinger, skal du placere SDS'erne, der er markeret med PDE, i IMM og genstarte SDS-tjenesten. 

 

Når al den utilgængelige kapacitet er væk, skal du aktivere vedvarende kontrolsum og BGS.

1) Aktivér vedvarende kontrolsum:

scli --enable_persistent_checksum --protection_domain_name <pd> --storage_pool_name <sp>

Dette kan tage lang tid, da alle kontrolsummer for alle data skal genopbygges. Fremskridt for dette kan spores ved hjælp af SCLI query_all-kommandoen. Når de vedvarende kontrolsummer er beregnet og beskyttet, kan BGS kun aktiveres.

2) Aktivér BGS:

scli --enable_background_device_scanner --protection_domain_name <pd> --storage_pool_name <sp>

Additional Information

Påvirkede versioner

PowerFlex 3.x
PowerFlex 4.x

Fast i version

PowerFlex 3.6.3
PowerFlex 4.5.2

Affected Products

PowerFlex rack, ScaleIO
Article Properties
Article Number: 000220798
Article Type: Solution
Last Modified: 10 Feb 2025
Version:  7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.