PowerFlex veel vaste leesfouten na een koude start van een SDS-server

Summary: Na een onverwachte stroomcyclus van de SDS-server rapporteert de MDM een groot aantal vaste leesfouten. PowerFlex-systeem dat gebruikmaakt van een MG-storagepool (Medium Granularity) en de functie persistente checksum heeft ingeschakeld. Apparaten die groter zijn dan 2 TB. Een enkele SDS-server ervaart onverwacht een stroomcyclus (koude start). Twee of meer SDS-servers krijgen onverwacht te maken met een stroomcyclus (koud opstarten). We hebben bevestigd dat dit probleem wordt veroorzaakt door de functie Persistent Checksum (PC) bij apparaten groter dan 2 TB, met name in combinatie met een koude start van een SDS-server. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Scenario

PowerFlex-systeem dat gebruikmaakt van een storagepool met gemiddelde granulariteit en de functie persistente checksum heeft ingeschakeld. 

Apparaten die groter zijn dan 2 TB.

Een enkele SDS-server ervaart onverwacht een stroomcyclus (koude start).

Twee of meer SDS-servers krijgen onverwacht te maken met een stroomcyclus (koud opstarten).

Symptomen


MDM-gebeurtenislogboeken rapporteren veel vaste leesfouten:

2023-12-05 12:01:42.634000:0031658:SCANNER_NEW_FIXED_ERRORS__INFO   INFO     SDS <name> encountered one or more read errors on device /dev/disk/by-id/scsi-<id>, and they were all fixed (Found: 29443, Fixed: 29443)
...


SDS-traceringslogboeken tonen checksum mismatches:

2023/12/05 12:01:39.643280 7ff09dd3ddb0:mosT10Dif_VerifyContT10DIFBuffer:00381: (T10DIF) DIF Verification Failed: blk=0, blkSize=8, pData=0x7fedddbff000, pDif=0x7ff09dd38820, computed_guard=b5c2, DIF_guard=58e1, difGranularity=8  
2023/12/05 12:01:39.643288 7ff09dd3ddb0:mgPhyDevPersChksm_IO_ReadValidate:03647: data Validation (state: PROTECTED) failed, devId 0xddd77b550046000e, combId 4716801282c6, combOffsetInLbs 16609280, dataOffsetInLbs 4306157568, dataSizeInLbs 2048, chksmRelativeOffsetBytes 1075099648, chksmSizeBytes 512, rc IO_ERR_PERS_CHECKSUM_MISMATCH (Pers. Checksum)
2023/12/05 12:01:39.643298 7ff09dd3ddb0:mgStorageRegion_ReadSync:03646: Reading tooth data failed: IO_ERR_PERS_CHECKSUM_MISMATCH. combId:4716801282c6,vTree:0xda6ddd6400000022,offsetVol:0x374ba9000,offsetInComb:16609280,sizeInLbs:2048,phyToothIdx:2101592,srcToothIdx:inv,dstToothIdx:inv New:(0,0) Requested:(37,1) volId:0  
2023/12/05 12:01:39.643372 7ff09dd3ddb0:mgPhyDev_IncreaseInaccessibleCapacity:06587: PDE - devId ddd77b550046000e toothIndex 2101592 Increased inaccessible capacity to 1 
2023/12/05 12:01:39.643383 7ff09dd3ddb0:raidComb_ReportCorruptionIfShould:19441: PDE - Comb 4716801282c6 Reported CORRUPT integrity result SUCCESS combId:4716801282c6,vTree:0xda6ddd6400000022,offsetVol:0x374ba9000,offsetInComb:16609280,sizeInLbs:2048,phyToothIdx:2101592,srcToothIdx:inv,dstToothIdx:inv New:(0,0) Requested:(37,1) volId:0 
2023/12/05 12:01:39.643390 7ff09dd3ddb0:ioh_NewRequest:10209: Check for scan error on comb 4716801282c6 - Done rc is IO_ERR_PERS_CHECKSUM_MISMATCH (Lba 16609280 2048) (0 ms) 
2023/12/05 12:01:39.647175 7ff098be4db0:storageRegion_PostIntegrityCorrection:04647: PDE - Clearing corruption in comb 4716801282c6 offsetInComb 16609280 extentSize 2048 after raidComb_WriteCombLocal combId:4716801282c6,vTree:0xda6ddd6400000022,offsetVol:0x374ba9000,offsetInComb:16609280,sizeInLbs:2048,phyToothIdx:2101592,srcToothIdx:inv,dstToothIdx:inv New:(0,0) Requested:(37,1) volId:0
2023/12/05 12:01:39.647259 7ff098be4db0:mgPhyDev_DecreaseInaccessibleCapacity:06604: PDE - devId ddd77b550046000e toothIndex 2101592 Decreased inaccessible capacity to 0 
2023/12/05 12:01:39.647350 7ff098be4db0:ioh_NewRequest:09688: comb:4716801282c6,vTree:0x0,offsetVol:0xffffffffffffffff,offsetTooth:0x0, Succeeded to fix comb 4716801282c6, offset 16609280, by its primary

Als meerdere SDS-exemplaren koud opstarten, kan worden waargenomen dat er ontoegankelijke capaciteit is. Dit is te zien aan de query_all:

Number of devices with inaccessible capacity: 367

 


Impact: 

MDM-waarschuwingen die wijzen op opgeloste leesfouten die zijn gecorrigeerd door de gespiegelde kopie.
MDM-gebeurtenislogboeken vullen zich met gebeurtenissen over de opgeloste leesfouten.

Cause

Na een koude start naar een SDS-server is er een probleem met de softwarecode waardoor de persistente checksums op apparaten groter dan 2 TB niet volledig opnieuw kunnen worden opgebouwd. De functie achtergrondscanner (BGS) detecteert discrepanties tussen de primaire en secundaire kopieën van data vanwege de ontbrekende checksum, en markeert ze als vaste leesfouten. Het is belangrijk op te merken dat er geen risico is op data-integriteit of -verlies. De BGS-functie corrigeert automatisch de geïdentificeerde verschillen door de checksums te corrigeren. Als gevolg hiervan zijn waargenomen vaste leesfouten een bijproduct van dit proces, met de zekerheid dat de data-integriteit intact blijft.

Resolution

Deze gebeurtenissen en waarschuwingen kunnen veilig worden genegeerd. De gebeurtenissen en waarschuwingen zullen uiteindelijk verdwijnen zodra BGS door alle apparaten is gekomen. 
Als de MDM-waarschuwingen en -gebeurtenissen problematisch zijn, kan de SDS die koud opstart worden verwijderd, uit het systeem worden verwijderd en weer worden toegevoegd.
 

Als meerdere SDS-servers koud opstarten en een ontoegankelijke capaciteit wordt weergegeven, moet de permanente checksum tijdelijk worden uitgeschakeld.

Als u de permanente checksumfunctie wilt uitschakelen, moet BGS eerst worden uitgeschakeld:

1) Maak verbinding met de primaire MDM-server.

2) Schakel BGS uit:

scli --disable_background_device_scanner --protection_domain_name <pd> --storage_pool_name <sp>

 

3) Schakel permanente checksum uit:

scli --disable_persistent_checksum --protection_domain_name <pd> --storage_pool_name <sp>

De ontoegankelijke gebieden moeten stoppen met toenemen en beginnen af te nemen. Dit kan een tijdje duren. Soms kan het uitvoeren van de SCLI-opdracht van test_inaccessible_capoacity voor elk getroffen apparaat helpen om dit proces te versnellen.

4) Als het aantal ontoegankelijke gebieden niet afneemt door de bovenstaande acties, plaatst u de SDS-exemplaren die zijn gemarkeerd met PDE in IMM en start u de SDS-service opnieuw. 

 

Zodra alle ontoegankelijke capaciteit verdwenen is, schakelt u de permanente checksum en BGS in.

1) Schakel permanente checksum in:

scli --enable_persistent_checksum --protection_domain_name <pd> --storage_pool_name <sp>

Dit kan lang duren omdat alle checksums voor alle data opnieuw moeten worden opgebouwd. De voortgang hiervan kan worden bijgehouden met behulp van de SCLI query_all-opdracht. Pas als de permanente checksums zijn berekend en beschermd, kan BGS worden ingeschakeld.

2) Schakel BGS in:

scli --enable_background_device_scanner --protection_domain_name <pd> --storage_pool_name <sp>

Additional Information

Versies waarop dit van toepassing is

PowerFlex 3.x
PowerFlex 4.x

Opgelost in versie

PowerFlex 3.6.3
PowerFlex 4.5.2

Affected Products

PowerFlex rack, ScaleIO
Article Properties
Article Number: 000220798
Article Type: Solution
Last Modified: 10 Feb 2025
Version:  7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.