PowerFlex: wiele naprawionych błędów odczytu po zimnym rozruchu serwera SDS

Summary: Po nieoczekiwanym wyłączeniu i włączeniu zasilania serwera SDS MDM zgłasza wiele naprawionych błędów odczytu. System PowerFlex korzystający z puli pamięci masowej o średnim stopniu ziarnistości (MG) z włączoną funkcją trwałej sumy kontrolnej. Urządzenia o pojemności większej niż 2 TB. Pojedynczy serwer SDS nieoczekiwanie zostaje wyłączony i ponownie uruchomiony (zimny rozruch). Co najmniej dwa serwery SDS nieoczekiwanie zostają wyłączone i ponownie włączone (zimny rozruch). Potwierdziliśmy, że ten problem wynika z funkcji trwałej sumy kontrolnej (PC) w przypadku urządzeń o pojemności większej niż 2 TB, szczególnie w połączeniu z zimnym rozruchem serwera SDS. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Scenariusz

System PowerFlex korzystający z puli pamięci masowej o średnim stopniu szczegółowości z włączoną funkcją trwałej sumy kontrolnej. 

Urządzenia o pojemności większej niż 2 TB.

Pojedynczy serwer SDS nieoczekiwanie zostaje wyłączony i ponownie uruchomiony (zimny rozruch).

Co najmniej dwa serwery SDS nieoczekiwanie zostają wyłączone i ponownie włączone (zimny rozruch).

Objawy


Dzienniki zdarzeń MDM zgłaszają wiele naprawionych błędów odczytu:

2023-12-05 12:01:42.634000:0031658:SCANNER_NEW_FIXED_ERRORS__INFO   INFO     SDS <name> encountered one or more read errors on device /dev/disk/by-id/scsi-<id>, and they were all fixed (Found: 29443, Fixed: 29443)
...


Dzienniki śledzenia SDS pokazują niezgodność sum kontrolnych:

2023/12/05 12:01:39.643280 7ff09dd3ddb0:mosT10Dif_VerifyContT10DIFBuffer:00381: (T10DIF) DIF Verification Failed: blk=0, blkSize=8, pData=0x7fedddbff000, pDif=0x7ff09dd38820, computed_guard=b5c2, DIF_guard=58e1, difGranularity=8  
2023/12/05 12:01:39.643288 7ff09dd3ddb0:mgPhyDevPersChksm_IO_ReadValidate:03647: data Validation (state: PROTECTED) failed, devId 0xddd77b550046000e, combId 4716801282c6, combOffsetInLbs 16609280, dataOffsetInLbs 4306157568, dataSizeInLbs 2048, chksmRelativeOffsetBytes 1075099648, chksmSizeBytes 512, rc IO_ERR_PERS_CHECKSUM_MISMATCH (Pers. Checksum)
2023/12/05 12:01:39.643298 7ff09dd3ddb0:mgStorageRegion_ReadSync:03646: Reading tooth data failed: IO_ERR_PERS_CHECKSUM_MISMATCH. combId:4716801282c6,vTree:0xda6ddd6400000022,offsetVol:0x374ba9000,offsetInComb:16609280,sizeInLbs:2048,phyToothIdx:2101592,srcToothIdx:inv,dstToothIdx:inv New:(0,0) Requested:(37,1) volId:0  
2023/12/05 12:01:39.643372 7ff09dd3ddb0:mgPhyDev_IncreaseInaccessibleCapacity:06587: PDE - devId ddd77b550046000e toothIndex 2101592 Increased inaccessible capacity to 1 
2023/12/05 12:01:39.643383 7ff09dd3ddb0:raidComb_ReportCorruptionIfShould:19441: PDE - Comb 4716801282c6 Reported CORRUPT integrity result SUCCESS combId:4716801282c6,vTree:0xda6ddd6400000022,offsetVol:0x374ba9000,offsetInComb:16609280,sizeInLbs:2048,phyToothIdx:2101592,srcToothIdx:inv,dstToothIdx:inv New:(0,0) Requested:(37,1) volId:0 
2023/12/05 12:01:39.643390 7ff09dd3ddb0:ioh_NewRequest:10209: Check for scan error on comb 4716801282c6 - Done rc is IO_ERR_PERS_CHECKSUM_MISMATCH (Lba 16609280 2048) (0 ms) 
2023/12/05 12:01:39.647175 7ff098be4db0:storageRegion_PostIntegrityCorrection:04647: PDE - Clearing corruption in comb 4716801282c6 offsetInComb 16609280 extentSize 2048 after raidComb_WriteCombLocal combId:4716801282c6,vTree:0xda6ddd6400000022,offsetVol:0x374ba9000,offsetInComb:16609280,sizeInLbs:2048,phyToothIdx:2101592,srcToothIdx:inv,dstToothIdx:inv New:(0,0) Requested:(37,1) volId:0
2023/12/05 12:01:39.647259 7ff098be4db0:mgPhyDev_DecreaseInaccessibleCapacity:06604: PDE - devId ddd77b550046000e toothIndex 2101592 Decreased inaccessible capacity to 0 
2023/12/05 12:01:39.647350 7ff098be4db0:ioh_NewRequest:09688: comb:4716801282c6,vTree:0x0,offsetVol:0xffffffffffffffff,offsetTooth:0x0, Succeeded to fix comb 4716801282c6, offset 16609280, by its primary

W przypadku zimnego rozruchu wielu dysków SDS można zaobserwować niedostępną pojemność. Widać to na query_all:

Number of devices with inaccessible capacity: 367

 


Skutek: 

Alerty MDM wskazujące naprawione błędy odczytu, które zostały skorygowane przez kopię lustrzaną.
Dzienniki zdarzeń MDM zapełniają się zdarzeniami dotyczącymi naprawionych błędów odczytu.

Cause

Po wykonaniu zimnego rozruchu serwera SDS występuje problem z kodem oprogramowania, który uniemożliwia pełną odbudowę trwałych sum kontrolnych na urządzeniach większych niż 2 TB. Funkcja skanera w tle (BGS) wykrywa rozbieżności między pierwotnymi i dodatkowymi kopiami danych z powodu brakującej sumy kontrolnej, oznaczając je jako stałe błędy odczytu. Należy pamiętać, że nie ma ryzyka integralności lub utraty danych. Funkcja BGS automatycznie koryguje zidentyfikowane różnice, korygując sumy kontrolne. W rezultacie zaobserwowane naprawione błędy odczytu są produktem ubocznym tego procesu, z zapewnieniem, że integralność danych pozostaje nienaruszona.

Resolution

Te zdarzenia i alerty można bezpiecznie zignorować. Zdarzenia i alerty w końcu znikną, gdy BGS przejdzie przez wszystkie urządzenia. 
Jeśli alerty i zdarzenia MDM są problematyczne, serwer SDS, który doświadczył zimnego rozruchu, można usunąć z systemu i dodać ponownie.
 

Jeśli w przypadku zimnego rozruchu wielu serwerów SDS jest niedostępna pojemność, należy tymczasowo wyłączyć trwałą sumę kontrolną.

Aby wyłączyć funkcję trwałej sumy kontrolnej, należy najpierw wyłączyć BGS:

1) Połącz się z głównym serwerem MDM.

2) Wyłącz BGS:

scli --disable_background_device_scanner --protection_domain_name <pd> --storage_pool_name <sp>

 

3) Wyłącz trwałą sumę kontrolną:

scli --disable_persistent_checksum --protection_domain_name <pd> --storage_pool_name <sp>

Niedostępne obszary powinny przestać się powiększać i zacząć się zmniejszać. Może to zająć trochę czasu. Czasami wykonanie polecenia SCLI test_inaccessible_capoacity dla każdego urządzenia, którego dotyczy problem, może pomóc w przyspieszeniu tego procesu.

4) Jeśli liczba niedostępnych obszarów nie zmniejsza się po wykonaniu powyższych czynności, umieść serwery SDS oznaczone jako PDE w IMM i uruchom ponownie usługę SDS. 

 

Gdy cała niedostępna pojemność zniknie, włącz trwałą sumę kontrolną i BGS.

1) Włącz trwałą sumę kontrolną:

scli --enable_persistent_checksum --protection_domain_name <pd> --storage_pool_name <sp>

Może to zająć dużo czasu, ponieważ wszystkie sumy kontrolne dla wszystkich danych muszą zostać odbudowane. Postęp można śledzić za pomocą polecenia SCLI query_all. Po obliczeniu i ochronie trwałych sum kontrolnych dopiero wtedy można włączyć BGS.

2) Włącz usługę BGS:

scli --enable_background_device_scanner --protection_domain_name <pd> --storage_pool_name <sp>

Additional Information

Wersje, których dotyczy problem

PowerFlex 3.x
, PowerFlex 4.x

Naprawiono w wersji

PowerFlex 3.6.3
, PowerFlex 4.5.2

Affected Products

PowerFlex rack, ScaleIO
Article Properties
Article Number: 000220798
Article Type: Solution
Last Modified: 10 Feb 2025
Version:  7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.