Data Domain: HA 시스템 페일오버 중 여러 드라이브 장애 발생 | CA01 CA02 FW 문제

요약: Data Domain HA(High Availability)에서는 알려진 드라이브 펌웨어 문제로 인해 HA 페일오버 중에 드라이브 장애가 발생할 수 있습니다. 일부 시스템에서는 페일오버 또는 재부팅 후 파일 시스템이 시작되지 않을 수 있습니다.

이 문서는 다음에 적용됩니다. 이 문서는 다음에 적용되지 않습니다. 이 문서는 특정 제품과 관련이 없습니다. 모든 제품 버전이 이 문서에 나와 있는 것은 아닙니다.

증상

구성 요소 장애는 CA01 및 CA02 펌웨어 개정 버전이 있는 8TB 드라이브로 제한됩니다. 일반적으로 여러 RAID 그룹(디스크 그룹)이 영향을 받습니다. 단일 성능 저하(1회 장애) 또는 이중 성능 저하(2회 디스크 장애)일 수 있습니다.

여러 디스크 재구축이 진행 중이거나 보류 중이므로 파일 시스템 중단이 발생하지 않고 자체적으로 복구해야 합니다. 재부팅되는 시스템의 경우 페일오버가 강제로 수행되어 시작하는 동안 파일 시스템이 중단될 수 있습니다.

적용 대상:

  • DD9400 및 DD9900 모델만 해당
  • FW(Firmware) 버전 CA01 또는 CA02가 있는 외장형 스토리지 인클로저의 8TB 하드 드라이브

디스크 장애 증상:

  • 디스크 로그 보고서 sense key 4/0x29/0xcd 감지 키를 SCSI WRITE cdb 0x8a, 하나의 쓰기 명령 오류로 인해 DD_RAID 모듈에 의한 디스크 장애가 발생합니다.
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
  • DD_RAID는 "WRITE I/O" 오류로 인해 디스크에 장애를 일으킵니다.
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16

DDFS를 시작할 수 없는 증상:

  • ddfs.info, 아래 메시지는 DDFS 시작 중에 오랫동안 나타납니다. DDFS 프로세스가 종료되어 피어 노드로 페일오버를 강제로 수행할 때까지 진행되지 않습니다.
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) =====
09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) =====

09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
...
09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub

원인

랜덤 I/O 워크로드에서 드라이브의 DRAM 캐시 버퍼에 잘못된 데이터 무결성 오류가 발생합니다. 이렇게 하면 디스크 장애가 트리거됩니다.
드라이브 제조업체에서 이 문제를 해결하기 위한 펌웨어 수정 사항을 제공했습니다.

해결

수정:

  • 수정된 DDOS 버전: DDOS 7.11.x, 7.10.1.0 및 7.7.5.1 이상에는 CA04 펌웨어가 내장되어 있습니다.
  • MDU(Minimal Disruptive Upgrade)는 다른 모든 DDOS 7.x 버전에서 사용할 수 있습니다.
    • MDU 링크: 추가 정보 + 다운로드: DDOS 7.X 하드 드라이브 펌웨어 MDU(Minimal Disruptive Upgrade) 패키지 - 2022년 11월(문서를 보려면 등록된 Dell 지원 사용자로 로그인 필요)
    • MDU 패키지를 적용하려면 다음을 수행합니다.

      1. HA 시스템의 활성 노드에 연결합니다. 패시브 또는 대기 노드에서는 업데이트가 작동하지 않습니다.
      2. FW 업데이트 중에 DDFS를 비활성화해야 하므로 사용자와 함께 다운타임을 예약합니다. 다음 명령을 실행하여 현재 알림을 확인하고 필요에 따라 해결합니다. 실행 중인 경우 정리 프로세스를 중지합니다. 다음을 수행하여 파일 시스템을 비활성화합니다. 
                    # alerts show current
              # filesys clean status
              # filesys clean stop
              # filesys disable
      3. 스토리지 마이그레이션을 수행하지 않은 시스템에 대해 >=dg2의 일부인 CA01/CA02 디스크에 대한 자동 지원을 확인합니다. 스토리지 마이그레이션을 진행한 시스템의 경우 ext3 어레이가 있는 디스크 그룹이 dg2가 아닐 수 있습니다. 
        ext3를 검색합니다. dgXX에 대한 DD_RAID 히스토그램을 표시하며, 여기서 XX는 DG 번호입니다. 아래에서 "추가 정보" 섹션의 예시를 참조하십시오. dg2/dgXX 디스크에 CA01/C02 펌웨어가 있는 경우 MDU 업그레이드 프로세스 중에 어레이를 일시적으로 중단해야 합니다. 그렇지 않으면 디스크 그룹의 모든 I/O 작업이 일시 중단되지 않으면 또 다른 장애가 트리거될 수 있습니다. 디스크 그룹 일시 중단에 대한 지원을 받으려면 지원 케이스를 엽니다. dg2/dgXX에 CA01/CA02 디스크가 포함되지 않은 경우 지원 케이스가 필요하지 않습니다. 4단계로 이동합니다.
      4. 업로드 drive-firmware-CA04.rpm DD System Manager UI에서.
      5. 디스크를 업그레이드합니다. 다음 명령을 실행하고 완료될 때까지 기다립니다. 
                   # system upgrade start drive-firmware-CA04.rpm"
      6. 10분간 기다립니다.
      7. 모든 디스크가 업그레이드되었는지 확인합니다. 디스크가 여전히 CA01/CA02 펌웨어와 함께 표시되는 경우 5단계와 6단계를 반복합니다. 
                   # disk show hardware
      8. 현재 디스크 상태를 확인합니다. 여러 디스크 장애가 발생한 경우 지원 부서에 문의하여 지원을 받으십시오. 단일 디스크 장애의 경우 디스크에서 오류 기록을 확인하고 오류가 없으면 디스크의 장애를 해제합니다. 
                  # disk unfail <disk.id>
      9. 알림을 확인하고 DDFS를 활성화합니다. 
                  # alerts show current
                  # filesys enable
참고: MDU를 적용할 때 파일 시스템을 비활성화해야 합니다.

해결 방법

  • 재부팅 또는 페일오버가 발생한 경우:
    • 장애가 발생한 드라이브를 페일백할 DD_RAID 없습니다.
    • 기존 패리티 기반 디스크 재구축이 완료될 때까지 기다립니다.
    • 모든 재구축이 완료될 때까지 GC 를 비활성화합니다.
    • 파일 시스템을 시작하지 못한 경우 DDFS TSE에게 문의하십시오.
  • 재부팅 또는 페일오버가 발생하지 않은 경우:
    • DD_RAID TSE는 다음을 사용하여 디스크를 수동으로 페일백할 수 있습니다. dd_raidtool.
    • 장애가 발생한 디스크 슬롯의 전원을 껐다가 켜야 합니다(Dell 지원에 문의).
    • 페일백 재구성으로 전환하기 전에 재구축이 50% 이상 완료되도록 합니다.
    • 재구축 후 슬롯의 전원이 껐다가 켜진 경우 디스크는 "장애 해제" 상태가 될 수 있습니다.

추가 정보

FAQ

Q: Data Domain 파일 시스템이 온라인 상태일 때 펌웨어 업그레이드를 수행할 수 있습니까?
ᅡ: 아니요. 펌웨어 업그레이드 중에 DDFS를 비활성화 해야 합니다.


Q: 펌웨어 업데이트를 적용한 후 시스템을 재부팅해야 합니까?
ᅡ: 아니요. 재부팅할 필요가 없습니다.


Q: 패시브 노드에 펌웨어를 적용할 수 있습니까?
ᅡ: 아니요. 업데이트는 활성 노드에서만 수행해야 합니다.


Q: 180–240개 드라이브(DS60 셸프 4개)의 펌웨어 업그레이드는 얼마나 걸립니까?
ᅡ: 업그레이드는 병렬 모드로 실행되며 문제가 없는 경우 일반적으로 10-15분 내에 완료됩니다.


Q: 일부 드라이브가 업데이트되지 않으면 시스템이 자동으로 업데이트를 다시 시도합니까?
ᅡ: 아니요. 업데이트를 수동으로 다시 실행 하거나 나머지 드라이브에 대해 반복해야 합니다. 수동 업데이트 단계는 "추가 정보"를 참조하십시오.


Q: 비HA Data Domain 시스템에도 펌웨어 패치를 적용해야 합니까?
ᅡ: 예. 이전 펌웨어를 실행하는 8TB 드라이브가 있는 모든 시스템에 drive-firmware-CA04.RPM 패치를 적용하는 것이 좋습니다.


Q: 업데이트 중에 드라이브에 장애가 발생한 경우 복구할 수 있습니까?
ᅡ:

  • 디스크에 오류 기록이 표시되는 경우( disk show reliability-data) 실패한 상태로 유지되고 교체되어야 합니다.
  • 오류가 없는 경우 다음을 실행합니다.
    disk unfail <disk.id>
    
    그러면 디스크가 스페어로 표시됩니다.
  • 교체 드라이브에 이전 CA01/CA02 펌웨어가 있는 경우 수동으로 업데이트해야 합니다. 추가 정보에서 "교체용 드라이브를 수동으로 업데이트하는 방법"을 참조하십시오.

Q: DDFS가 비활성화된 경우에도 디스크 그룹 2(dg2)의 활동을 일시 중지해야 하는 이유는 무엇입니까?
ᅡ: DDOS는 dg2의 EXT3 마운트에 계속 액세스합니다. I/O 작업을 일시 중단하면 업그레이드 중에 추가 장애가 발생하는 것을 방지할 수 있습니다.


Q: ext3 어레이가 있고 CA01/CA02 펌웨어가 포함된 dg2/dgXX 디스크를 확인하는 방법
ᅡ: 스토리지 마이그레이션 이외의 시스템의 경우 dg2에는 ext3 어레이가 있습니다.

다음 줄에 대한 자동 지원을 검색합니다. (굵은 글씨)

  • DD_RAID 히스토그램
DD_RAID Histogram for dg2 0xafc318cb033dc226
DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
  • Storage Show All(이 명령은 DD CLI에서도 실행할 수 있음)
dg2       2.1-2.3, 2.13-2.15, 2.25-2.27,     14      7.2 TiB               
          2.37-2.39, 2.49-2.50
  • Disk Show Hardware(이 명령은 DD CLI에서 실행할 수 있음)
2.1          A0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R8GS       7.2 TiB    SASe      DG118000919             
2.2          A1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REMW       7.2 TiB    SASe      DG118000919             
2.3          A2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LM5C       7.2 TiB    SASe      DG118000919      
2.13         B0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHX       7.2 TiB    SASe      DG118000919             
2.14         B1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RF04       7.2 TiB    SASe      DG118000919             
2.15         B2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHQE       7.2 TiB    SASe      DG118000919    
2.25         C0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RE9Y       7.2 TiB    SASe      DG118000919             
2.26         C1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LMME       7.2 TiB    SASe      DG118000919             
2.27         C2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REW8       7.2 TiB    SASe      DG118000919
2.37         D0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHM       7.2 TiB    SASe      DG118000919             
2.38         D1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHWR       7.2 TiB    SASe      DG118000919             
2.39         D2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R862       7.2 TiB    SASe      DG118000919     
2.49         E0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SSKK       7.2 TiB    SASe      DG118000919             
2.50         E1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SV53       7.2 TiB    SASe      DG118000919             
2.51         E2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R944       7.2 TiB    SASe      DG118000919

위의 예에서 드라이브에는 CA01 펌웨어가 있습니다. Dell Technologies가 MDU 업그레이드를 적용하기 전에 ext3 어레이가 포함된 디스크 그룹(dg2)의 일시 중단을 지원할 수 있도록 지원 케이스를 열어야 합니다. 

스토리지 마이그레이션 시스템의 경우 ext3가 포함된 어레이는 dg2가 아닐 수 있습니다. 자동 지원에서 다음 줄을 검색합니다. (굵은 글씨)

  • Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)

 

Licenses
--------
System locking-id: APX00123456789
Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode
Capacity licenses:
##   Feature           Shelf Model    Capacity      Type        State    Expiration Date   Note
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
1    CAPACITY-ACTIVE   HIGH_DENSITY   1396.98 TiB   permanent   active   n/a                   
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
Licensed Active Tier capacity: 1396.98 TiB*
* Depending on the hardware platform, usable filesystem capacities may vary.
Feature licenses:
##   Feature                                    Count   Type         State    Expiration Date   Note           
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
1    REPLICATION                                    1   permanent    active   n/a                              
2    VTL                                            1   permanent    active   n/a                              
3    DDBOOST                                        1   permanent    active   n/a                              
4    RETENTION-LOCK-GOVERNANCE                      1   permanent    active   n/a                              
5    ENCRYPTION                                     1   permanent    active   n/a                              
6    I/OS                                           1   permanent    active   n/a                              
7    RETENTION-LOCK-COMPLIANCE                      1   permanent    active   n/a                              
8    STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS       6   evaluation   grace    2023-11-20        
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
License file last modified at : 2022/08/29 11:02:13.
  • DD_RAID 히스토그램
DD_RAID Histogram for dg23 0x323d6b863ae21b8f
DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
  • Storage Show All (This command can be ran on the DD CLI)
dg23      6.1-6.3, 6.13-6.15, 6.25-6.27,     14      7.2 TiB               
          6.37-6.39, 6.49-6.50

 

  • Disk Show Hardware (This command can be ran on the DD CLI)
6.1          A0     HITACHI H04728T8CLAR8000   A430       VYH2S3SS         7.2 TiB    SASe      DG118000785             
6.2          A1     HITACHI H04728T8CLAR8000   A430       VYH2RVSS         7.2 TiB    SASe      DG118000785             
6.3          A2     HITACHI H04728T8CLAR8000   A430       VYH2K9KS         7.2 TiB    SASe      DG118000785          
6.13         B0     HITACHI H04728T8CLAR8000   A430       VYH2JJBS         7.2 TiB    SASe      DG118000785             
6.14         B1     HITACHI H04728T8CLAR8000   A430       VYH1Y83S         7.2 TiB    SASe      DG118000785             
6.15         B2     HITACHI H04728T8CLAR8000   A430       VYH2RNGS         7.2 TiB    SASe      DG118000785    
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785  
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785           
6.47         D10    HITACHI H04728T8CLAR8000   A430       VYH1XGJS         7.2 TiB    SASe      DG118000785             
6.48         D11    HITACHI H04728T8CLAR8000   A430       VYH20VHS         7.2 TiB    SASe      DG118000785             
6.49         E0     HITACHI H04728T8CLAR8000   A430       VYH2G5XS         7.2 TiB    SASe      DG118000785


드라이브에 CA01 및 CA02 펌웨어가 없으므로 지원 케이스가 필요하지 않습니다. 위의 "Resolution" 섹션에서 MDU 업그레이드 단계의 3단계로 이동합니다.

해당 제품

Data Domain, DD9400 Appliance, DD9900 Appliance

제품

DD OS 7.11
문서 속성
문서 번호: 000204252
문서 유형: Solution
마지막 수정 시간: 16 12월 2025
버전:  20
다른 Dell 사용자에게 질문에 대한 답변 찾기
지원 서비스
디바이스에 지원 서비스가 적용되는지 확인하십시오.