PowerFlex Monet korjatut lukuvirheet SDS-palvelimen kylmäkäynnistyksen jälkeen

Summary: SDS-palvelimen odottamattoman virtajakson jälkeen MDM ilmoittaa monista kiinteistä lukuvirheistä. PowerFlex-järjestelmä, joka käyttää MG (Medium Granularity) -tallennusvarantoa ja jossa on käytössä pysyvä tarkistussummaominaisuus. Laitteet, jotka ovat suurempia kuin 2 Tt. Yksittäinen SDS-palvelin kokee odottamatta virtajakson (kylmäkäynnistyksen). Vähintään kaksi SDS-palvelinta käynnistyy odottamatta (kylmäkäynnistys). Vahvistimme, että tämä ongelma johtuu Persistent Checksum (PC) -ominaisuudesta laitteissa, joiden koko on yli 2 Tt, erityisesti silloin, kun siihen liittyy SDS-palvelimen kylmäkäynnistys. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Tilanne

PowerFlex-järjestelmä, joka käyttää keskitason rakeisuustallennusvarantoa ja jossa on käytössä pysyvä tarkistussummaominaisuus. 

Laitteet, jotka ovat suurempia kuin 2 Tt.

Yksittäinen SDS-palvelin kokee odottamatta virtajakson (kylmäkäynnistyksen).

Vähintään kaksi SDS-palvelinta käynnistyy odottamatta (kylmäkäynnistys).

Oireet


MDM-tapahtumalokit raportoivat monista korjatuista lukuvirheistä:

2023-12-05 12:01:42.634000:0031658:SCANNER_NEW_FIXED_ERRORS__INFO   INFO     SDS <name> encountered one or more read errors on device /dev/disk/by-id/scsi-<id>, and they were all fixed (Found: 29443, Fixed: 29443)
...


SDS-jäljityslokit näyttävät tarkistussummien ristiriidat:

2023/12/05 12:01:39.643280 7ff09dd3ddb0:mosT10Dif_VerifyContT10DIFBuffer:00381: (T10DIF) DIF Verification Failed: blk=0, blkSize=8, pData=0x7fedddbff000, pDif=0x7ff09dd38820, computed_guard=b5c2, DIF_guard=58e1, difGranularity=8  
2023/12/05 12:01:39.643288 7ff09dd3ddb0:mgPhyDevPersChksm_IO_ReadValidate:03647: data Validation (state: PROTECTED) failed, devId 0xddd77b550046000e, combId 4716801282c6, combOffsetInLbs 16609280, dataOffsetInLbs 4306157568, dataSizeInLbs 2048, chksmRelativeOffsetBytes 1075099648, chksmSizeBytes 512, rc IO_ERR_PERS_CHECKSUM_MISMATCH (Pers. Checksum)
2023/12/05 12:01:39.643298 7ff09dd3ddb0:mgStorageRegion_ReadSync:03646: Reading tooth data failed: IO_ERR_PERS_CHECKSUM_MISMATCH. combId:4716801282c6,vTree:0xda6ddd6400000022,offsetVol:0x374ba9000,offsetInComb:16609280,sizeInLbs:2048,phyToothIdx:2101592,srcToothIdx:inv,dstToothIdx:inv New:(0,0) Requested:(37,1) volId:0  
2023/12/05 12:01:39.643372 7ff09dd3ddb0:mgPhyDev_IncreaseInaccessibleCapacity:06587: PDE - devId ddd77b550046000e toothIndex 2101592 Increased inaccessible capacity to 1 
2023/12/05 12:01:39.643383 7ff09dd3ddb0:raidComb_ReportCorruptionIfShould:19441: PDE - Comb 4716801282c6 Reported CORRUPT integrity result SUCCESS combId:4716801282c6,vTree:0xda6ddd6400000022,offsetVol:0x374ba9000,offsetInComb:16609280,sizeInLbs:2048,phyToothIdx:2101592,srcToothIdx:inv,dstToothIdx:inv New:(0,0) Requested:(37,1) volId:0 
2023/12/05 12:01:39.643390 7ff09dd3ddb0:ioh_NewRequest:10209: Check for scan error on comb 4716801282c6 - Done rc is IO_ERR_PERS_CHECKSUM_MISMATCH (Lba 16609280 2048) (0 ms) 
2023/12/05 12:01:39.647175 7ff098be4db0:storageRegion_PostIntegrityCorrection:04647: PDE - Clearing corruption in comb 4716801282c6 offsetInComb 16609280 extentSize 2048 after raidComb_WriteCombLocal combId:4716801282c6,vTree:0xda6ddd6400000022,offsetVol:0x374ba9000,offsetInComb:16609280,sizeInLbs:2048,phyToothIdx:2101592,srcToothIdx:inv,dstToothIdx:inv New:(0,0) Requested:(37,1) volId:0
2023/12/05 12:01:39.647259 7ff098be4db0:mgPhyDev_DecreaseInaccessibleCapacity:06604: PDE - devId ddd77b550046000e toothIndex 2101592 Decreased inaccessible capacity to 0 
2023/12/05 12:01:39.647350 7ff098be4db0:ioh_NewRequest:09688: comb:4716801282c6,vTree:0x0,offsetVol:0xffffffffffffffff,offsetTooth:0x0, Succeeded to fix comb 4716801282c6, offset 16609280, by its primary

Jos useat SDS:t käynnistyvät kylmästi, kapasiteettia ei ehkä voi käyttää. Tämä näkyy query_all:

Number of devices with inaccessible capacity: 367

 


Vaikutus: 

MDM-hälytykset ilmaisevat peilatun kopion korjaamat korjatut lukuvirheet.
MDM-tapahtumalokit täyttyvät tapahtumista, jotka liittyvät korjattuihin lukuvirheisiin.

Cause

SDS-palvelimen kylmäkäynnistyksen jälkeen ilmenee ohjelmistokoodin ongelma, joka estää pysyvien tarkistussummien täydellisen uudelleenrakentamisen laitteissa, joiden koko on yli 2 Tt. Taustaskanneri (BGS) -ominaisuus havaitsee tietojen ensisijaisen ja toissijaisen kopion väliset erot puuttuvan tarkistussumman vuoksi ja merkitsee ne kiinteiksi lukuvirheiksi. On tärkeää huomata, että tietojen eheyden tai menetyksen riskiä ei ole. BGS-toiminto korjaa tunnistetut erot automaattisesti korjaamalla tarkistussummat. Tämän seurauksena havaitut kiinteät lukuvirheet ovat tämän prosessin sivutuote, jolla varmistetaan, että tietojen eheys pysyy ennallaan.

Resolution

Nämä tapahtumat ja hälytykset voidaan turvallisesti ohittaa. Tapahtumat ja hälytykset poistuvat lopulta, kun BGS pääsee kaikkien laitteiden läpi. 
Jos MDM-hälytykset ja -tapahtumat ovat ongelmallisia, kylmäkäynnistyksen kokenut SDS voidaan poistaa järjestelmästä ja lisätä takaisin.
 

Jos useat SDS:t käynnistyvät kylmästi ja kapasiteettia ei voi käyttää, pysyvä tarkistussumma on poistettava tilapäisesti käytöstä.

Jos haluat poistaa pysyvän tarkistussummaominaisuuden käytöstä, BGS on ensin poistettava käytöstä:

1) Muodosta yhteys ensisijaiseen MDM-palvelimeen.

2) Poista BGS käytöstä:

scli --disable_background_device_scanner --protection_domain_name <pd> --storage_pool_name <sp>

 

3) Poista pysyvä tarkistussumma käytöstä:

scli --disable_persistent_checksum --protection_domain_name <pd> --storage_pool_name <sp>

Vaikeapääsyisten alueiden pitäisi pysähtyä ja alkaa vähentyä. Tämä voi kestää jonkin aikaa. Joskus test_inaccessible_capoacity:n SCLI-komennon suorittaminen kaikissa niissä laitteissa, joihin tämä vaikuttaa, voi auttaa nopeuttamaan tätä prosessia.

4) Jos saavuttamattomat alueet eivät vähene yllä olevista toimista, aseta PDE: llä merkityt SDS: t IMM: ään ja käynnistä SDS-palvelu uudelleen. 

 

Kun kaikki saavuttamaton kapasiteetti on poistettu, ota pysyvä tarkistussumma ja BGS käyttöön.

1) Ota pysyvä tarkistussumma käyttöön:

scli --enable_persistent_checksum --protection_domain_name <pd> --storage_pool_name <sp>

Tämä voi kestää kauan, koska kaikkien tietojen kaikki tarkistussummat on rakennettava uudelleen. Tämän edistymistä voidaan seurata SCLI query_all -komennolla. Kun pysyvät tarkistussummat on laskettu ja suojattu, vasta sitten BGS voidaan ottaa käyttöön.

2) Ota BGS käyttöön:

scli --enable_background_device_scanner --protection_domain_name <pd> --storage_pool_name <sp>

Additional Information

Versiot, joita ongelma koskee

PowerFlex 3.x
PowerFlex 4.x

Korjattu versiossa

PowerFlex 3.6.3
, PowerFlex 4.5.2

Affected Products

PowerFlex rack, ScaleIO
Article Properties
Article Number: 000220798
Article Type: Solution
Last Modified: 10 Feb 2025
Version:  7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.