SDS 서버 콜드 부팅 후 PowerFlex의 많은 읽기 오류 수정

Summary: 예기치 않은 SDS 서버 전원 주기 후 MDM이 많은 수정된 읽기 오류를 보고합니다. MG(Medium Granularity) 스토리지 풀을 사용하고 영구 체크섬 기능이 활성화된 PowerFlex 시스템입니다. 2TB보다 큰 디바이스 단일 SDS 서버에서 예기치 않게 전원 주기(콜드 부팅)가 발생합니다. 두 개 이상의 SDS 서버에서 예기치 않게 전원 주기(콜드 부팅)가 발생합니다. 이 문제는 특히 SDS 서버의 콜드 부팅과 결합될 때 2TB보다 큰 디바이스의 PC(Persistent Checksum) 기능에서 발생하는 것으로 확인되었습니다. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

시나리오

중간 세분성 스토리지 풀을 사용하고 영구 체크섬 기능이 활성화된 PowerFlex 시스템입니다. 

2TB보다 큰 디바이스

단일 SDS 서버에서 예기치 않게 전원 주기(콜드 부팅)가 발생합니다.

두 개 이상의 SDS 서버에서 예기치 않게 전원 주기(콜드 부팅)가 발생합니다.

증상


MDM 이벤트 로그는 다음과 같은 여러 가지 수정된 읽기 오류를 보고합니다.

2023-12-05 12:01:42.634000:0031658:SCANNER_NEW_FIXED_ERRORS__INFO   INFO     SDS <name> encountered one or more read errors on device /dev/disk/by-id/scsi-<id>, and they were all fixed (Found: 29443, Fixed: 29443)
...


SDS 추적 로그에 체크섬 불일치가 표시됩니다.

2023/12/05 12:01:39.643280 7ff09dd3ddb0:mosT10Dif_VerifyContT10DIFBuffer:00381: (T10DIF) DIF Verification Failed: blk=0, blkSize=8, pData=0x7fedddbff000, pDif=0x7ff09dd38820, computed_guard=b5c2, DIF_guard=58e1, difGranularity=8  
2023/12/05 12:01:39.643288 7ff09dd3ddb0:mgPhyDevPersChksm_IO_ReadValidate:03647: data Validation (state: PROTECTED) failed, devId 0xddd77b550046000e, combId 4716801282c6, combOffsetInLbs 16609280, dataOffsetInLbs 4306157568, dataSizeInLbs 2048, chksmRelativeOffsetBytes 1075099648, chksmSizeBytes 512, rc IO_ERR_PERS_CHECKSUM_MISMATCH (Pers. Checksum)
2023/12/05 12:01:39.643298 7ff09dd3ddb0:mgStorageRegion_ReadSync:03646: Reading tooth data failed: IO_ERR_PERS_CHECKSUM_MISMATCH. combId:4716801282c6,vTree:0xda6ddd6400000022,offsetVol:0x374ba9000,offsetInComb:16609280,sizeInLbs:2048,phyToothIdx:2101592,srcToothIdx:inv,dstToothIdx:inv New:(0,0) Requested:(37,1) volId:0  
2023/12/05 12:01:39.643372 7ff09dd3ddb0:mgPhyDev_IncreaseInaccessibleCapacity:06587: PDE - devId ddd77b550046000e toothIndex 2101592 Increased inaccessible capacity to 1 
2023/12/05 12:01:39.643383 7ff09dd3ddb0:raidComb_ReportCorruptionIfShould:19441: PDE - Comb 4716801282c6 Reported CORRUPT integrity result SUCCESS combId:4716801282c6,vTree:0xda6ddd6400000022,offsetVol:0x374ba9000,offsetInComb:16609280,sizeInLbs:2048,phyToothIdx:2101592,srcToothIdx:inv,dstToothIdx:inv New:(0,0) Requested:(37,1) volId:0 
2023/12/05 12:01:39.643390 7ff09dd3ddb0:ioh_NewRequest:10209: Check for scan error on comb 4716801282c6 - Done rc is IO_ERR_PERS_CHECKSUM_MISMATCH (Lba 16609280 2048) (0 ms) 
2023/12/05 12:01:39.647175 7ff098be4db0:storageRegion_PostIntegrityCorrection:04647: PDE - Clearing corruption in comb 4716801282c6 offsetInComb 16609280 extentSize 2048 after raidComb_WriteCombLocal combId:4716801282c6,vTree:0xda6ddd6400000022,offsetVol:0x374ba9000,offsetInComb:16609280,sizeInLbs:2048,phyToothIdx:2101592,srcToothIdx:inv,dstToothIdx:inv New:(0,0) Requested:(37,1) volId:0
2023/12/05 12:01:39.647259 7ff098be4db0:mgPhyDev_DecreaseInaccessibleCapacity:06604: PDE - devId ddd77b550046000e toothIndex 2101592 Decreased inaccessible capacity to 0 
2023/12/05 12:01:39.647350 7ff098be4db0:ioh_NewRequest:09688: comb:4716801282c6,vTree:0x0,offsetVol:0xffffffffffffffff,offsetTooth:0x0, Succeeded to fix comb 4716801282c6, offset 16609280, by its primary

여러 SDS에 콜드 부팅이 발생하는 경우 액세스할 수 없는 용량이 관찰될 수 있습니다. 이것은 query_all에서 볼 수 있습니다.

Number of devices with inaccessible capacity: 367

 


영향: 

미러링된 복제본에 의해 수정된, 수정된 읽기 오류를 나타내는 MDM 알림입니다.
MDM 이벤트 로그는 수정된 읽기 오류에 대한 이벤트로 채워집니다.

Cause

SDS 서버로의 콜드 부팅 후 2TB보다 큰 디바이스에서 영구 체크섬의 전체 재구축을 방해하는 소프트웨어 코드 문제가 발생합니다. BGS(Background Scanner) 기능은 체크섬 누락으로 인한 데이터의 주 복제본과 보조 복제본 간의 불일치를 감지하여 수정된 읽기 오류로 표시합니다. 데이터 무결성이나 손실의 위험이 없다는 점에 유의하는 것이 중요합니다. BGS 기능은 체크섬을 수정하여 식별된 차이점을 자동으로 수정합니다. 결과적으로 관찰된 고정 읽기 오류는 데이터 무결성이 그대로 유지되도록 보장하는 이 프로세스의 부산물입니다.

Resolution

이러한 이벤트 및 경고는 무시해도 됩니다. 이벤트와 경고는 BGS가 모든 장치를 통과하면 결국 사라집니다. 
MDM 알림 및 이벤트에 문제가 있는 경우 콜드 부팅이 발생한 SDS를 시스템에서 제거하고 다시 추가할 수 있습니다.
 

여러 SDS에서 콜드 부팅이 발생하고 액세스할 수 없는 용량이 표시되는 경우 영구 체크섬을 일시적으로 비활성화해야 합니다.

영구 체크섬 기능을 비활성화하려면 먼저 BGS를 비활성화해야 합니다.

1) 주 MDM 서버에 연결합니다.

2) BGS 비활성화:

scli --disable_background_device_scanner --protection_domain_name <pd> --storage_pool_name <sp>

 

3) 영구 체크섬 비활성화:

scli --disable_persistent_checksum --protection_domain_name <pd> --storage_pool_name <sp>

접근할 수 없는 영역은 증가를 멈추고 감소하기 시작해야 합니다. 약간의 시간이 걸릴 수 있습니다. 경우에 따라 영향을 받는 모든 디바이스에 대해 test_inaccessible_capoacity의 SCLI 명령을 수행하면 이 프로세스의 속도를 높이는 데 도움이 될 수 있습니다.

4) 위의 작업에서 액세스할 수 없는 영역이 감소하지 않는 경우 PDE로 플래그가 지정된 SDS를 IMM에 배치하고 SDS 서비스를 재시작합니다. 

 

액세스할 수 없는 용량이 모두 소진되면 영구 체크섬 및 BGS를 활성화합니다.

1) 영구 체크섬을 활성화합니다.

scli --enable_persistent_checksum --protection_domain_name <pd> --storage_pool_name <sp>

모든 데이터에 대한 모든 체크섬을 재구축해야 하므로 시간이 오래 걸릴 수 있습니다. 이에 대한 진행 상황은 SCLI query_all 명령을 사용하여 추적할 수 있습니다. 영구 체크섬을 계산하고 보호한 후에만 BGS를 활성화할 수 있습니다.

2) BGS 활성화:

scli --enable_background_device_scanner --protection_domain_name <pd> --storage_pool_name <sp>

Additional Information

영향을 받는 버전

PowerFlex 3.xPowerFlex
4.x

수정된 버전

PowerFlex 3.6.3PowerFlex
4.5.2

Affected Products

PowerFlex rack, ScaleIO
Article Properties
Article Number: 000220798
Article Type: Solution
Last Modified: 10 Feb 2025
Version:  7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.