Mnoho opravených chyb čtení PowerFlex po úplném spuštění serveru SDS

Summary: Po neočekávaném vypnutí a zapnutí serveru SDS hlásí uzel MDM mnoho opravených chyb čtení. Systém PowerFlex, který používá fond úložišť střední granularity (MG) a má povolenou funkci trvalého kontrolního součtu. Zařízení, která jsou větší než 2 TB. U jednoho serveru SDS dojde neočekávaně k vypnutí a zapnutí napájení (studený start). U dvou nebo více serverů SDS dojde neočekávaně k vypnutí a zapnutí napájení (studený start). Potvrdili jsme, že k tomuto problému dochází v důsledku funkce Persistent Checksum (PC) u zařízení větších než 2 TB, zejména ve spojení se studeným restartem serveru SDS. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Scénář

Systém PowerFlex, který používá fond úložišť se střední členitostí a má povolenou funkci trvalého kontrolního součtu. 

Zařízení, která jsou větší než 2 TB.

U jednoho serveru SDS dojde neočekávaně k vypnutí a zapnutí napájení (studený start).

U dvou nebo více serverů SDS dojde neočekávaně k vypnutí a zapnutí napájení (studený start).

Příznaky


Protokoly událostí MDM hlásí mnoho opravených chyb čtení:

2023-12-05 12:01:42.634000:0031658:SCANNER_NEW_FIXED_ERRORS__INFO   INFO     SDS <name> encountered one or more read errors on device /dev/disk/by-id/scsi-<id>, and they were all fixed (Found: 29443, Fixed: 29443)
...


Protokoly trasování SDS zobrazují neshody kontrolních součtů:

2023/12/05 12:01:39.643280 7ff09dd3ddb0:mosT10Dif_VerifyContT10DIFBuffer:00381: (T10DIF) DIF Verification Failed: blk=0, blkSize=8, pData=0x7fedddbff000, pDif=0x7ff09dd38820, computed_guard=b5c2, DIF_guard=58e1, difGranularity=8  
2023/12/05 12:01:39.643288 7ff09dd3ddb0:mgPhyDevPersChksm_IO_ReadValidate:03647: data Validation (state: PROTECTED) failed, devId 0xddd77b550046000e, combId 4716801282c6, combOffsetInLbs 16609280, dataOffsetInLbs 4306157568, dataSizeInLbs 2048, chksmRelativeOffsetBytes 1075099648, chksmSizeBytes 512, rc IO_ERR_PERS_CHECKSUM_MISMATCH (Pers. Checksum)
2023/12/05 12:01:39.643298 7ff09dd3ddb0:mgStorageRegion_ReadSync:03646: Reading tooth data failed: IO_ERR_PERS_CHECKSUM_MISMATCH. combId:4716801282c6,vTree:0xda6ddd6400000022,offsetVol:0x374ba9000,offsetInComb:16609280,sizeInLbs:2048,phyToothIdx:2101592,srcToothIdx:inv,dstToothIdx:inv New:(0,0) Requested:(37,1) volId:0  
2023/12/05 12:01:39.643372 7ff09dd3ddb0:mgPhyDev_IncreaseInaccessibleCapacity:06587: PDE - devId ddd77b550046000e toothIndex 2101592 Increased inaccessible capacity to 1 
2023/12/05 12:01:39.643383 7ff09dd3ddb0:raidComb_ReportCorruptionIfShould:19441: PDE - Comb 4716801282c6 Reported CORRUPT integrity result SUCCESS combId:4716801282c6,vTree:0xda6ddd6400000022,offsetVol:0x374ba9000,offsetInComb:16609280,sizeInLbs:2048,phyToothIdx:2101592,srcToothIdx:inv,dstToothIdx:inv New:(0,0) Requested:(37,1) volId:0 
2023/12/05 12:01:39.643390 7ff09dd3ddb0:ioh_NewRequest:10209: Check for scan error on comb 4716801282c6 - Done rc is IO_ERR_PERS_CHECKSUM_MISMATCH (Lba 16609280 2048) (0 ms) 
2023/12/05 12:01:39.647175 7ff098be4db0:storageRegion_PostIntegrityCorrection:04647: PDE - Clearing corruption in comb 4716801282c6 offsetInComb 16609280 extentSize 2048 after raidComb_WriteCombLocal combId:4716801282c6,vTree:0xda6ddd6400000022,offsetVol:0x374ba9000,offsetInComb:16609280,sizeInLbs:2048,phyToothIdx:2101592,srcToothIdx:inv,dstToothIdx:inv New:(0,0) Requested:(37,1) volId:0
2023/12/05 12:01:39.647259 7ff098be4db0:mgPhyDev_DecreaseInaccessibleCapacity:06604: PDE - devId ddd77b550046000e toothIndex 2101592 Decreased inaccessible capacity to 0 
2023/12/05 12:01:39.647350 7ff098be4db0:ioh_NewRequest:09688: comb:4716801282c6,vTree:0x0,offsetVol:0xffffffffffffffff,offsetTooth:0x0, Succeeded to fix comb 4716801282c6, offset 16609280, by its primary

Pokud dojde ke studenému restartu více SDS, může být pozorována nedostupná kapacita. To je patrné z query_all:

Number of devices with inaccessible capacity: 367

 


Dopad: 

Výstrahy MDM označující opravené chyby čtení, které byly opraveny zrcadlenou kopií.
Protokoly událostí MDM se zaplní událostmi o opravených chybách čtení.

Cause

Po studeném restartu serveru SDS dojde k problému se softwarovým kódem, který brání úplnému obnovení trvalých kontrolních součtů na zařízeních větších než 2 TB. Funkce skeneru na pozadí (BGS) detekuje nesrovnalosti mezi primárními a sekundárními kopiemi dat kvůli chybějícímu kontrolnímu součtu a označí je jako opravené chyby čtení. Je důležité si uvědomit, že nehrozí žádné riziko integrity nebo ztráty dat. Funkce BGS automaticky opravuje zjištěné rozdíly opravou kontrolních součtů. Výsledkem je, že zaznamenané pevné chyby čtení jsou vedlejším produktem tohoto procesu s jistotou, že integrita dat zůstane nedotčena.

Resolution

Tyto události a výstrahy lze bezpečně ignorovat. Události a výstrahy nakonec zmizí, jakmile BGS projde všemi zařízeními. 
Pokud jsou výstrahy a události MDM problematické, lze SDS, u kterého došlo ke studenému restartu, ze systému odebrat a znovu přidat.
 

Pokud u více SDS dojde ke studenému restartu a zobrazí se nedostupná kapacita, je nutné dočasně zakázat trvalý kontrolní součet.

Chcete-li zakázat funkci trvalého kontrolního součtu, je třeba nejprve zakázat BGS:

1) Připojte se k primárnímu MDM serveru.

2) Zakažte BGS:

scli --disable_background_device_scanner --protection_domain_name <pd> --storage_pool_name <sp>

 

3) Zakažte trvalý kontrolní součet:

scli --disable_persistent_checksum --protection_domain_name <pd> --storage_pool_name <sp>

Nepřístupné oblasti by se měly přestat zvětšovat a začít se zmenšovat. To může nějakou dobu trvat. Někdy může tento proces urychlit provedení příkazu SCLI test_inaccessible_capoacity pro každé dotčené zařízení.

4) Pokud se nepřístupné oblasti nezmenšují z výše uvedených akcí, umístěte SDS označené PDE do IMM a restartujte službu SDS. 

 

Po vyčerpání veškeré nedostupné kapacity povolte trvalý kontrolní součet a BGS.

1) Povolte trvalý kontrolní součet:

scli --enable_persistent_checksum --protection_domain_name <pd> --storage_pool_name <sp>

To může trvat dlouho, protože všechny kontrolní součty pro všechna data musí být znovu vytvořeny. Postup lze sledovat pomocí příkazu SCLI query_all. Jakmile jsou trvalé kontrolní součty vypočítány a chráněny, teprve poté lze BGS povolit.

2) Povolte BGS:

scli --enable_background_device_scanner --protection_domain_name <pd> --storage_pool_name <sp>

Additional Information

Dotčené verze

PowerFlex 3.x
PowerFlex 4.x

Opraveno ve verzi

PowerFlex 3.6.3
PowerFlex 4.5.2

Affected Products

PowerFlex rack, ScaleIO
Article Properties
Article Number: 000220798
Article Type: Solution
Last Modified: 10 Feb 2025
Version:  7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.