Viele behobene Lesefehler bei PowerFlex nach einem Kaltstart eines SDS-Servers

Summary: Nach einem unerwarteten Aus- und Einschalten des SDS-Servers meldet der MDM viele behobene Lesefehler. Ein PowerFlex-System, das einen Storage-Pool mit mittlerer Granularität (MG) verwendet und bei dem die persistente Prüfsummenfunktion aktiviert ist. Geräte, die größer als 2 TB sind. Bei einem einzelnen SDS-Server kommt es unerwartet zu einem Aus- und Einschalten (Kaltstart). Bei zwei oder mehr SDS-Servern kommt es unerwartet zu einem Aus- und Einschalten (Kaltstart). Wir haben bestätigt, dass dieses Problem durch die persistente Prüfsummenfunktion (PC) bei Geräten mit mehr als 2 TB entsteht, insbesondere in Verbindung mit einem Kaltstart eines SDS-Servers. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Beispiel

PowerFlex-System, das einen Storage-Pool mit mittlerer Granularität verwendet und bei dem die Funktion für die persistente Prüfsumme aktiviert ist. 

Geräte, die größer als 2 TB sind.

Bei einem einzelnen SDS-Server kommt es unerwartet zu einem Aus- und Einschalten (Kaltstart).

Bei zwei oder mehr SDS-Servern kommt es unerwartet zu einem Aus- und Einschalten (Kaltstart).

Problem


MDM-Ereignisprotokolle melden viele korrigierte Lesefehler:

2023-12-05 12:01:42.634000:0031658:SCANNER_NEW_FIXED_ERRORS__INFO   INFO     SDS <name> encountered one or more read errors on device /dev/disk/by-id/scsi-<id>, and they were all fixed (Found: 29443, Fixed: 29443)
...


In den SDS-Ablaufverfolgungsprotokollen werden Nichtübereinstimmungen bei der Prüfsumme angezeigt:

2023/12/05 12:01:39.643280 7ff09dd3ddb0:mosT10Dif_VerifyContT10DIFBuffer:00381: (T10DIF) DIF Verification Failed: blk=0, blkSize=8, pData=0x7fedddbff000, pDif=0x7ff09dd38820, computed_guard=b5c2, DIF_guard=58e1, difGranularity=8  
2023/12/05 12:01:39.643288 7ff09dd3ddb0:mgPhyDevPersChksm_IO_ReadValidate:03647: data Validation (state: PROTECTED) failed, devId 0xddd77b550046000e, combId 4716801282c6, combOffsetInLbs 16609280, dataOffsetInLbs 4306157568, dataSizeInLbs 2048, chksmRelativeOffsetBytes 1075099648, chksmSizeBytes 512, rc IO_ERR_PERS_CHECKSUM_MISMATCH (Pers. Checksum)
2023/12/05 12:01:39.643298 7ff09dd3ddb0:mgStorageRegion_ReadSync:03646: Reading tooth data failed: IO_ERR_PERS_CHECKSUM_MISMATCH. combId:4716801282c6,vTree:0xda6ddd6400000022,offsetVol:0x374ba9000,offsetInComb:16609280,sizeInLbs:2048,phyToothIdx:2101592,srcToothIdx:inv,dstToothIdx:inv New:(0,0) Requested:(37,1) volId:0  
2023/12/05 12:01:39.643372 7ff09dd3ddb0:mgPhyDev_IncreaseInaccessibleCapacity:06587: PDE - devId ddd77b550046000e toothIndex 2101592 Increased inaccessible capacity to 1 
2023/12/05 12:01:39.643383 7ff09dd3ddb0:raidComb_ReportCorruptionIfShould:19441: PDE - Comb 4716801282c6 Reported CORRUPT integrity result SUCCESS combId:4716801282c6,vTree:0xda6ddd6400000022,offsetVol:0x374ba9000,offsetInComb:16609280,sizeInLbs:2048,phyToothIdx:2101592,srcToothIdx:inv,dstToothIdx:inv New:(0,0) Requested:(37,1) volId:0 
2023/12/05 12:01:39.643390 7ff09dd3ddb0:ioh_NewRequest:10209: Check for scan error on comb 4716801282c6 - Done rc is IO_ERR_PERS_CHECKSUM_MISMATCH (Lba 16609280 2048) (0 ms) 
2023/12/05 12:01:39.647175 7ff098be4db0:storageRegion_PostIntegrityCorrection:04647: PDE - Clearing corruption in comb 4716801282c6 offsetInComb 16609280 extentSize 2048 after raidComb_WriteCombLocal combId:4716801282c6,vTree:0xda6ddd6400000022,offsetVol:0x374ba9000,offsetInComb:16609280,sizeInLbs:2048,phyToothIdx:2101592,srcToothIdx:inv,dstToothIdx:inv New:(0,0) Requested:(37,1) volId:0
2023/12/05 12:01:39.647259 7ff098be4db0:mgPhyDev_DecreaseInaccessibleCapacity:06604: PDE - devId ddd77b550046000e toothIndex 2101592 Decreased inaccessible capacity to 0 
2023/12/05 12:01:39.647350 7ff098be4db0:ioh_NewRequest:09688: comb:4716801282c6,vTree:0x0,offsetVol:0xffffffffffffffff,offsetTooth:0x0, Succeeded to fix comb 4716801282c6, offset 16609280, by its primary

Wenn bei mehreren SDSs ein Kaltstart auftritt, kann die Kapazität nicht zugänglich sein. Dies lässt sich an der query_all ablesen:

Number of devices with inaccessible capacity: 367

 


Auswirkungen: 

MDM-Warnmeldungen, die auf behobene Lesefehler hinweisen, die durch die gespiegelte Kopie korrigiert wurden.
MDM-Ereignisprotokolle füllen sich mit Ereignissen über die behobenen Lesefehler.

Cause

Nach einem Kaltstart auf einem SDS-Server tritt ein Softwarecodeproblem auf, das die vollständige Neuerstellung persistenter Prüfsummen auf Geräten mit mehr als 2 TB verhindert. Die Hintergrundscannerfunktion (BGS) erkennt Diskrepanzen zwischen den primären und sekundären Kopien von Daten aufgrund der fehlenden Prüfsumme und markiert sie als korrigierte Lesefehler. Es ist wichtig zu beachten, dass kein Risiko der Datenintegrität oder des Datenverlusts besteht. Die BGS-Funktion korrigiert die erkannten Differenzen automatisch, indem sie die Prüfsummen korrigiert. Daher sind beobachtete feste Lesefehler ein Nebenprodukt dieses Prozesses, mit der Gewissheit, dass die Datenintegrität intakt bleibt.

Resolution

Diese Ereignisse und Warnmeldungen können bedenkenlos ignoriert werden. Die Ereignisse und Warnmeldungen verschwinden schließlich, sobald BGS alle Geräte durchlaufen hat. 
Wenn die MDM-Warnmeldungen und -Ereignisse problematisch sind, kann der SDS, bei dem ein Kaltstart durchgeführt wurde, aus dem System entfernt und wieder hinzugefügt werden.
 

Wenn bei mehreren SDSs ein Kaltstart auftritt und eine nicht zugängliche Kapazität angezeigt wird, muss die persistente Prüfsumme vorübergehend deaktiviert werden.

Um die persistente Prüfsummenfunktion zu deaktivieren, muss BGS zuerst deaktiviert werden:

1) Stellen Sie eine Verbindung zum primären MDM-Server her.

2) Deaktivieren Sie BGS:

scli --disable_background_device_scanner --protection_domain_name <pd> --storage_pool_name <sp>

 

3) Deaktivieren Sie die persistente Prüfsumme:

scli --disable_persistent_checksum --protection_domain_name <pd> --storage_pool_name <sp>

Die unzugänglichen Bereiche sollten aufhören, sich zu vermehren, und anfangen, abzunehmen. This may take some time. Manchmal kann das Ausführen des SCLI-Befehls test_inaccessible_capoacity für jedes betroffene Gerät dazu beitragen, diesen Prozess zu beschleunigen.

4) Wenn die Anzahl der nicht zugänglichen Bereiche durch die oben genannten Aktionen nicht verringert wird, platzieren Sie die SDS, die mit PDE gekennzeichnet sind, im IMM und starten Sie den SDS-Service neu. 

 

Sobald alle nicht zugänglichen Kapazitäten verschwunden sind, aktivieren Sie die persistente Prüfsumme und BGS.

1) Aktivieren Sie die persistente Prüfsumme:

scli --enable_persistent_checksum --protection_domain_name <pd> --storage_pool_name <sp>

Dies kann viel Zeit in Anspruch nehmen, da alle Prüfsummen für alle Daten neu erstellt werden müssen. Der Fortschritt dazu kann mit dem Befehl SCLI query_all verfolgt werden. Erst wenn die persistenten Prüfsummen berechnet und geschützt sind, kann BGS aktiviert werden.

2) BGS aktivieren:

scli --enable_background_device_scanner --protection_domain_name <pd> --storage_pool_name <sp>

Additional Information

Betroffene Versionen

PowerFlex 3.x
PowerFlex 4.x

Behoben in Version

PowerFlex 3.6.3
PowerFlex 4.5.2

Affected Products

PowerFlex rack, ScaleIO
Article Properties
Article Number: 000220798
Article Type: Solution
Last Modified: 10 Feb 2025
Version:  7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.