PowerFlex: исправлены многие ошибки чтения после холодной загрузки сервера SDS

Summary: После непредвиденного цикла выключения и выключения сервера SDS MDM сообщает о множестве исправленных ошибок чтения. Система PowerFlex, использующая пул хранения данных со средней степенью детализации (MG) и включенной функцией постоянной контрольной суммы. Устройства емкостью более 2 Тбайт. На одном сервере SDS неожиданно происходит выключение и включение питания (холодная загрузка). На двух или более серверах SDS неожиданно происходит выключение и включение питания (холодная загрузка). Подтверждено, что эта проблема возникает из-за функции постоянной контрольной суммы (ПК) на устройствах емкостью более 2 Тбайт, особенно в сочетании с холодной загрузкой сервера SDS. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Сценарий

Система PowerFlex, использующая пул хранения данных со средней степенью детализации и включенной функцией постоянной контрольной суммы. 

Устройства емкостью более 2 Тбайт.

На одном сервере SDS неожиданно происходит выключение и включение питания (холодная загрузка).

На двух или более серверах SDS неожиданно происходит выключение и включение питания (холодная загрузка).

Симптомы


Журналы событий MDM сообщают о множестве исправленных ошибок чтения:

2023-12-05 12:01:42.634000:0031658:SCANNER_NEW_FIXED_ERRORS__INFO   INFO     SDS <name> encountered one or more read errors on device /dev/disk/by-id/scsi-<id>, and they were all fixed (Found: 29443, Fixed: 29443)
...


Журналы трассировки SDS показывают несоответствия контрольной суммы:

2023/12/05 12:01:39.643280 7ff09dd3ddb0:mosT10Dif_VerifyContT10DIFBuffer:00381: (T10DIF) DIF Verification Failed: blk=0, blkSize=8, pData=0x7fedddbff000, pDif=0x7ff09dd38820, computed_guard=b5c2, DIF_guard=58e1, difGranularity=8  
2023/12/05 12:01:39.643288 7ff09dd3ddb0:mgPhyDevPersChksm_IO_ReadValidate:03647: data Validation (state: PROTECTED) failed, devId 0xddd77b550046000e, combId 4716801282c6, combOffsetInLbs 16609280, dataOffsetInLbs 4306157568, dataSizeInLbs 2048, chksmRelativeOffsetBytes 1075099648, chksmSizeBytes 512, rc IO_ERR_PERS_CHECKSUM_MISMATCH (Pers. Checksum)
2023/12/05 12:01:39.643298 7ff09dd3ddb0:mgStorageRegion_ReadSync:03646: Reading tooth data failed: IO_ERR_PERS_CHECKSUM_MISMATCH. combId:4716801282c6,vTree:0xda6ddd6400000022,offsetVol:0x374ba9000,offsetInComb:16609280,sizeInLbs:2048,phyToothIdx:2101592,srcToothIdx:inv,dstToothIdx:inv New:(0,0) Requested:(37,1) volId:0  
2023/12/05 12:01:39.643372 7ff09dd3ddb0:mgPhyDev_IncreaseInaccessibleCapacity:06587: PDE - devId ddd77b550046000e toothIndex 2101592 Increased inaccessible capacity to 1 
2023/12/05 12:01:39.643383 7ff09dd3ddb0:raidComb_ReportCorruptionIfShould:19441: PDE - Comb 4716801282c6 Reported CORRUPT integrity result SUCCESS combId:4716801282c6,vTree:0xda6ddd6400000022,offsetVol:0x374ba9000,offsetInComb:16609280,sizeInLbs:2048,phyToothIdx:2101592,srcToothIdx:inv,dstToothIdx:inv New:(0,0) Requested:(37,1) volId:0 
2023/12/05 12:01:39.643390 7ff09dd3ddb0:ioh_NewRequest:10209: Check for scan error on comb 4716801282c6 - Done rc is IO_ERR_PERS_CHECKSUM_MISMATCH (Lba 16609280 2048) (0 ms) 
2023/12/05 12:01:39.647175 7ff098be4db0:storageRegion_PostIntegrityCorrection:04647: PDE - Clearing corruption in comb 4716801282c6 offsetInComb 16609280 extentSize 2048 after raidComb_WriteCombLocal combId:4716801282c6,vTree:0xda6ddd6400000022,offsetVol:0x374ba9000,offsetInComb:16609280,sizeInLbs:2048,phyToothIdx:2101592,srcToothIdx:inv,dstToothIdx:inv New:(0,0) Requested:(37,1) volId:0
2023/12/05 12:01:39.647259 7ff098be4db0:mgPhyDev_DecreaseInaccessibleCapacity:06604: PDE - devId ddd77b550046000e toothIndex 2101592 Decreased inaccessible capacity to 0 
2023/12/05 12:01:39.647350 7ff098be4db0:ioh_NewRequest:09688: comb:4716801282c6,vTree:0x0,offsetVol:0xffffffffffffffff,offsetTooth:0x0, Succeeded to fix comb 4716801282c6, offset 16609280, by its primary

Если несколько SDS перезагружаются «холодно», может наблюдаться недоступность емкости. Это видно из query_all:

Number of devices with inaccessible capacity: 367

 


Воздействие: 

Оповещения MDM с исправленными ошибками чтения, которые были исправлены зеркальной копией.
Журналы событий MDM заполняются событиями об исправленных ошибках чтения.

Cause

После «холодной» загрузки на сервер SDS возникает проблема программного кода, которая не позволяет полностью восстановить постоянные контрольные суммы на устройствах емкостью более 2 Тбайт. Функция фонового сканера (BGS) обнаруживает расхождения между первичной и вторичной копиями данных из-за отсутствия контрольной суммы и помечает их как исправленные ошибки чтения. Важно отметить, что нет никакого риска целостности или потери данных. Функция BGS автоматически исправляет выявленные различия путем выпрямления контрольных сумм. В результате, наблюдаемые фиксированные ошибки чтения являются побочным продуктом этого процесса, при этом гарантируется, что целостность данных не нарушается.

Resolution

Эти события и оповещения можно игнорировать. События и оповещения в конечном итоге исчезнут, как только BGS пройдет через все устройства. 
Если оповещения и события MDM проблематичны, SDS, на котором произошла «холодная» загрузка, можно удалить из системы и добавить обратно.
 

Если несколько SDS сталкиваются с «холодной» загрузкой и обнаруживается недоступная емкость, постоянную контрольную сумму необходимо временно отключить.

Чтобы отключить функцию постоянной контрольной суммы, необходимо сначала отключить BGS:

1) Подключитесь к основному серверу MDM.

2) Отключите BGS:

scli --disable_background_device_scanner --protection_domain_name <pd> --storage_pool_name <sp>

 

3) Отключите постоянную контрольную сумму:

scli --disable_persistent_checksum --protection_domain_name <pd> --storage_pool_name <sp>

Недоступные участки должны перестать увеличиваться и начать уменьшаться. Это может занять некоторое время. Иногда выполнение команды SCLI test_inaccessible_capoacity для каждого затронутого устройства может помочь ускорить этот процесс.

4. Если после описанных выше действий недоступные области не уменьшаются, поместите SDS, помеченные PDE, в IMM и перезапустите службу SDS. 

 

После удаления всей недоступной емкости включите постоянную контрольную сумму и BGS.

1) Включите постоянную контрольную сумму:

scli --enable_persistent_checksum --protection_domain_name <pd> --storage_pool_name <sp>

Это может занять много времени, так как все контрольные суммы для всех данных должны быть восстановлены. Ход выполнения можно отслеживать с помощью команды SCLI query_all. После того, как постоянные контрольные суммы рассчитаны и защищены, только после этого BGS может быть включен.

2) Включите BGS:

scli --enable_background_device_scanner --protection_domain_name <pd> --storage_pool_name <sp>

Additional Information

Затронутые версии

PowerFlex 3.xPowerFlex
4.x

Исправлено в версии

PowerFlex 3.6.3
PowerFlex 4.5.2

Affected Products

PowerFlex rack, ScaleIO
Article Properties
Article Number: 000220798
Article Type: Solution
Last Modified: 10 Feb 2025
Version:  7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.