Data Domain: HA 시스템 페일오버 중 여러 드라이브 장애 발생 | CA01 CA02 FW 문제
요약: Data Domain HA(High Availability)에서는 알려진 드라이브 펌웨어 문제로 인해 HA 페일오버 중에 드라이브 장애가 발생할 수 있습니다. 일부 시스템에서는 페일오버 또는 재부팅 후 파일 시스템이 시작되지 않을 수 있습니다.
증상
구성 요소 장애는 CA01 및 CA02 펌웨어 개정 버전이 있는 8TB 드라이브로 제한됩니다. 일반적으로 여러 RAID 그룹(디스크 그룹)이 영향을 받습니다. 단일 성능 저하(1회 장애) 또는 이중 성능 저하(2회 디스크 장애)일 수 있습니다.
여러 디스크 재구축이 진행 중이거나 보류 중이므로 파일 시스템 중단이 발생하지 않고 자체적으로 복구해야 합니다. 재부팅되는 시스템의 경우 페일오버가 강제로 수행되어 시작하는 동안 파일 시스템이 중단될 수 있습니다.
적용 대상:
- DD9400 및 DD9900 모델만 해당
- FW(Firmware) 버전 CA01 또는 CA02가 있는 외장형 스토리지 인클로저의 8TB 하드 드라이브
디스크 장애 증상:
- 디스크 로그 보고서
sense key 4/0x29/0xcd감지 키를 SCSI WRITEcdb 0x8a,하나의 쓰기 명령 오류로 인해 DD_RAID 모듈에 의한 디스크 장애가 발생합니다.
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
- DD_RAID는 "WRITE I/O" 오류로 인해 디스크에 장애를 일으킵니다.
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16
DDFS를 시작할 수 없는 증상:
- 에
ddfs.info, 아래 메시지는 DDFS 시작 중에 오랫동안 나타납니다. DDFS 프로세스가 종료되어 피어 노드로 페일오버를 강제로 수행할 때까지 진행되지 않습니다.
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) =====
09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) =====
09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
...
09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub원인
해결
수정:
- 수정된 DDOS 버전: DDOS 7.11.x, 7.10.1.0 및 7.7.5.1 이상에는 CA04 펌웨어가 내장되어 있습니다.
- 최신 DDOS 버전으로 업그레이드
- MDU(Minimal Disruptive Upgrade)는 다른 모든 DDOS 7.x 버전에서 사용할 수 있습니다.
- MDU 링크: 추가 정보 + 다운로드: DDOS 7.X 하드 드라이브 펌웨어 MDU(Minimal Disruptive Upgrade) 패키지 - 2022년 11월(문서를 보려면 등록된 Dell 지원 사용자로 로그인 필요)
-
MDU 패키지를 적용하려면 다음을 수행합니다.
- HA 시스템의 활성 노드에 연결합니다. 패시브 또는 대기 노드에서는 업데이트가 작동하지 않습니다.
- FW 업데이트 중에 DDFS를 비활성화해야 하므로 사용자와 함께 다운타임을 예약합니다. 다음 명령을 실행하여 현재 알림을 확인하고 필요에 따라 해결합니다. 실행 중인 경우 정리 프로세스를 중지합니다. 다음을 수행하여 파일 시스템을 비활성화합니다.
# alerts show current# filesys clean status# filesys clean stop# filesys disable - 스토리지 마이그레이션을 수행하지 않은 시스템에 대해 >=dg2의 일부인 CA01/CA02 디스크에 대한 자동 지원을 확인합니다. 스토리지 마이그레이션을 진행한 시스템의 경우 ext3 어레이가 있는 디스크 그룹이 dg2가 아닐 수 있습니다.
ext3를 검색합니다. dgXX에 대한 DD_RAID 히스토그램을 표시하며, 여기서 XX는 DG 번호입니다. 아래에서 "추가 정보" 섹션의 예시를 참조하십시오. dg2/dgXX 디스크에 CA01/C02 펌웨어가 있는 경우 MDU 업그레이드 프로세스 중에 어레이를 일시적으로 중단해야 합니다. 그렇지 않으면 디스크 그룹의 모든 I/O 작업이 일시 중단되지 않으면 또 다른 장애가 트리거될 수 있습니다. 디스크 그룹 일시 중단에 대한 지원을 받으려면 지원 케이스를 엽니다. dg2/dgXX에 CA01/CA02 디스크가 포함되지 않은 경우 지원 케이스가 필요하지 않습니다. 4단계로 이동합니다. - 업로드
drive-firmware-CA04.rpmDD System Manager UI에서. - 디스크를 업그레이드합니다. 다음 명령을 실행하고 완료될 때까지 기다립니다.
# system upgrade start drive-firmware-CA04.rpm" - 10분간 기다립니다.
- 모든 디스크가 업그레이드되었는지 확인합니다. 디스크가 여전히 CA01/CA02 펌웨어와 함께 표시되는 경우 5단계와 6단계를 반복합니다.
# disk show hardware - 현재 디스크 상태를 확인합니다. 여러 디스크 장애가 발생한 경우 지원 부서에 문의하여 지원을 받으십시오. 단일 디스크 장애의 경우 디스크에서 오류 기록을 확인하고 오류가 없으면 디스크의 장애를 해제합니다.
# disk unfail <disk.id> - 알림을 확인하고 DDFS를 활성화합니다.
# alerts show current# filesys enable
해결 방법
- 재부팅 또는 페일오버가 발생한 경우:
- 장애가 발생한 드라이브를 페일백할 DD_RAID 없습니다.
- 기존 패리티 기반 디스크 재구축이 완료될 때까지 기다립니다.
- 모든 재구축이 완료될 때까지 GC 를 비활성화합니다.
- 파일 시스템을 시작하지 못한 경우 DDFS TSE에게 문의하십시오.
- 재부팅 또는 페일오버가 발생하지 않은 경우:
- DD_RAID TSE는 다음을 사용하여 디스크를 수동으로 페일백할 수 있습니다.
dd_raidtool. - 장애가 발생한 디스크 슬롯의 전원을 껐다가 켜야 합니다(Dell 지원에 문의).
- 페일백 재구성으로 전환하기 전에 재구축이 50% 이상 완료되도록 합니다.
- 재구축 후 슬롯의 전원이 껐다가 켜진 경우 디스크는 "장애 해제" 상태가 될 수 있습니다.
- DD_RAID TSE는 다음을 사용하여 디스크를 수동으로 페일백할 수 있습니다.
추가 정보
FAQ
Q: Data Domain 파일 시스템이 온라인 상태일 때 펌웨어 업그레이드를 수행할 수 있습니까?
ᅡ: 아니요. 펌웨어 업그레이드 중에 DDFS를 비활성화 해야 합니다.
Q: 펌웨어 업데이트를 적용한 후 시스템을 재부팅해야 합니까?
ᅡ: 아니요. 재부팅할 필요가 없습니다.
Q: 패시브 노드에 펌웨어를 적용할 수 있습니까?
ᅡ: 아니요. 업데이트는 활성 노드에서만 수행해야 합니다.
Q: 180–240개 드라이브(DS60 셸프 4개)의 펌웨어 업그레이드는 얼마나 걸립니까?
ᅡ: 업그레이드는 병렬 모드로 실행되며 문제가 없는 경우 일반적으로 10-15분 내에 완료됩니다.
Q: 일부 드라이브가 업데이트되지 않으면 시스템이 자동으로 업데이트를 다시 시도합니까?
ᅡ: 아니요. 업데이트를 수동으로 다시 실행 하거나 나머지 드라이브에 대해 반복해야 합니다. 수동 업데이트 단계는 "추가 정보"를 참조하십시오.
Q: 비HA Data Domain 시스템에도 펌웨어 패치를 적용해야 합니까?
ᅡ: 예. 이전 펌웨어를 실행하는 8TB 드라이브가 있는 모든 시스템에 drive-firmware-CA04.RPM 패치를 적용하는 것이 좋습니다.
Q: 업데이트 중에 드라이브에 장애가 발생한 경우 복구할 수 있습니까?
ᅡ:
- 디스크에 오류 기록이 표시되는 경우(
disk show reliability-data) 실패한 상태로 유지되고 교체되어야 합니다. - 오류가 없는 경우 다음을 실행합니다.
그러면 디스크가 스페어로 표시됩니다.disk unfail <disk.id> - 교체 드라이브에 이전 CA01/CA02 펌웨어가 있는 경우 수동으로 업데이트해야 합니다. 추가 정보에서 "교체용 드라이브를 수동으로 업데이트하는 방법"을 참조하십시오.
Q: DDFS가 비활성화된 경우에도 디스크 그룹 2(dg2)의 활동을 일시 중지해야 하는 이유는 무엇입니까?
ᅡ: DDOS는 dg2의 EXT3 마운트에 계속 액세스합니다. I/O 작업을 일시 중단하면 업그레이드 중에 추가 장애가 발생하는 것을 방지할 수 있습니다.
Q: ext3 어레이가 있고 CA01/CA02 펌웨어가 포함된 dg2/dgXX 디스크를 확인하는 방법
ᅡ: 스토리지 마이그레이션 이외의 시스템의 경우 dg2에는 ext3 어레이가 있습니다.
다음 줄에 대한 자동 지원을 검색합니다. (굵은 글씨)
- DD_RAID 히스토그램
DD_RAID Histogram for dg2 0xafc318cb033dc226
DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0
Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary
Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
- Storage Show All(이 명령은 DD CLI에서도 실행할 수 있음)
dg2 2.1-2.3, 2.13-2.15, 2.25-2.27, 14 7.2 TiB
2.37-2.39, 2.49-2.50
- Disk Show Hardware(이 명령은 DD CLI에서 실행할 수 있음)
2.1 A0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R8GS 7.2 TiB SASe DG118000919
2.2 A1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REMW 7.2 TiB SASe DG118000919
2.3 A2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LM5C 7.2 TiB SASe DG118000919
2.13 B0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHX 7.2 TiB SASe DG118000919
2.14 B1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RF04 7.2 TiB SASe DG118000919
2.15 B2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHQE 7.2 TiB SASe DG118000919
2.25 C0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RE9Y 7.2 TiB SASe DG118000919
2.26 C1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LMME 7.2 TiB SASe DG118000919
2.27 C2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REW8 7.2 TiB SASe DG118000919
2.37 D0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHM 7.2 TiB SASe DG118000919
2.38 D1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHWR 7.2 TiB SASe DG118000919
2.39 D2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R862 7.2 TiB SASe DG118000919
2.49 E0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SSKK 7.2 TiB SASe DG118000919
2.50 E1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SV53 7.2 TiB SASe DG118000919
2.51 E2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R944 7.2 TiB SASe DG118000919
위의 예에서 드라이브에는 CA01 펌웨어가 있습니다. Dell Technologies가 MDU 업그레이드를 적용하기 전에 ext3 어레이가 포함된 디스크 그룹(dg2)의 일시 중단을 지원할 수 있도록 지원 케이스를 열어야 합니다.
스토리지 마이그레이션 시스템의 경우 ext3가 포함된 어레이는 dg2가 아닐 수 있습니다. 자동 지원에서 다음 줄을 검색합니다. (굵은 글씨)
Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)
Licenses
--------
System locking-id: APX00123456789
Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode
Capacity licenses:
## Feature Shelf Model Capacity Type State Expiration Date Note
-- --------------- ------------ ----------- --------- ------ --------------- ----
1 CAPACITY-ACTIVE HIGH_DENSITY 1396.98 TiB permanent active n/a
-- --------------- ------------ ----------- --------- ------ --------------- ----
Licensed Active Tier capacity: 1396.98 TiB*
* Depending on the hardware platform, usable filesystem capacities may vary.
Feature licenses:
## Feature Count Type State Expiration Date Note
-- ---------------------------------------- ----- ---------- ------ --------------- ---------------
1 REPLICATION 1 permanent active n/a
2 VTL 1 permanent active n/a
3 DDBOOST 1 permanent active n/a
4 RETENTION-LOCK-GOVERNANCE 1 permanent active n/a
5 ENCRYPTION 1 permanent active n/a
6 I/OS 1 permanent active n/a
7 RETENTION-LOCK-COMPLIANCE 1 permanent active n/a
8 STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS 6 evaluation grace 2023-11-20
-- ---------------------------------------- ----- ---------- ------ --------------- ---------------
License file last modified at : 2022/08/29 11:02:13.
- DD_RAID 히스토그램
DD_RAID Histogram for dg23 0x323d6b863ae21b8f
DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0
Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary
Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
Storage Show All (This command can be ran on the DD CLI)
dg23 6.1-6.3, 6.13-6.15, 6.25-6.27, 14 7.2 TiB
6.37-6.39, 6.49-6.50
Disk Show Hardware (This command can be ran on the DD CLI)
6.1 A0 HITACHI H04728T8CLAR8000 A430 VYH2S3SS 7.2 TiB SASe DG118000785
6.2 A1 HITACHI H04728T8CLAR8000 A430 VYH2RVSS 7.2 TiB SASe DG118000785
6.3 A2 HITACHI H04728T8CLAR8000 A430 VYH2K9KS 7.2 TiB SASe DG118000785
6.13 B0 HITACHI H04728T8CLAR8000 A430 VYH2JJBS 7.2 TiB SASe DG118000785
6.14 B1 HITACHI H04728T8CLAR8000 A430 VYH1Y83S 7.2 TiB SASe DG118000785
6.15 B2 HITACHI H04728T8CLAR8000 A430 VYH2RNGS 7.2 TiB SASe DG118000785
6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785
6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785
6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785
6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785
6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785
6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785
6.47 D10 HITACHI H04728T8CLAR8000 A430 VYH1XGJS 7.2 TiB SASe DG118000785
6.48 D11 HITACHI H04728T8CLAR8000 A430 VYH20VHS 7.2 TiB SASe DG118000785
6.49 E0 HITACHI H04728T8CLAR8000 A430 VYH2G5XS 7.2 TiB SASe DG118000785
드라이브에 CA01 및 CA02 펌웨어가 없으므로 지원 케이스가 필요하지 않습니다. 위의 "Resolution" 섹션에서 MDU 업그레이드 단계의 3단계로 이동합니다.