Data Domain: HA 시스템 페일오버 중 여러 드라이브 장애 발생 | CA01 CA02 FW 문제

Summary: Data Domain HA(High Availability)에서는 알려진 드라이브 펌웨어 문제로 인해 HA 페일오버 중에 드라이브 장애가 발생할 수 있습니다. 일부 시스템에서는 페일오버 또는 재부팅 후 파일 시스템이 시작되지 않을 수 있습니다.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

구성 요소 장애는 CA01 및 CA02 펌웨어 개정 버전이 있는 8TB 드라이브로 제한됩니다. 일반적으로 여러 RAID 그룹(디스크 그룹)이 영향을 받습니다. 단일 성능 저하(한 번의 장애) 또는 이중 성능 저하(두 번의 디스크 장애)가 발생할 수 있습니다.

재부팅되지 않는 시스템은 파일 시스템 중단이 발생하지만 자체적으로 복구해야 합니다. 여러 디스크 재구축이 진행 중이며 보류 중입니다. 재부팅되는 시스템의 경우 페일오버가 강제로 발생하여 시작 중에 파일 시스템이 중단될 수 있습니다.

적용 대상:

  • DD9400 및 DD9900 모델만 해당
  • FW(Firmware) 버전 CA01 또는 CA02가 있는 외장형 스토리지 인클로저의 8TB 하드 드라이브

수정:


참고: MDU를 적용할 때 파일 시스템을 비활성화해야 합니다.


디스크 장애 증상:

  • 디스크 로그에서는 4/0x29/0xcd 감지 키를 SCSI WRITE cdb 0x8a명령을 수행할 때 보고하며, 쓰기 명령 오류 한 번으로 인해 DD_raid 모듈에서 디스크 장애가 발생합니다.
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
  • DD_RAID는 "WRITE I/O" 오류로 인해 디스크에 장애를 일으킵니다.
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16

DDFS를 시작할 수 없는 증상:

  • ddfs.info에서는 DDFS 시작 중에 아래 메시지가 오랫동안 표시됩니다. DDFS 프로세스가 종료되어 피어 노드로 페일오버를 강제로 수행할 때까지 진행되지 않습니다.
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) =====
09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) =====

09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
...
09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub

Cause

디스크 장애 상태의 근본 원인:
랜덤 I/O 워크로드에서 드라이브의 DRAM 캐시 버퍼에 잘못된 데이터 무결성 오류가 발생합니다. 드라이브 제조업체에서 이 문제를 해결하기 위한 펌웨어 수정 사항을 제공했습니다.

Resolution

해결 방법

재부팅 또는 페일오버가 발생한 경우 DD_RAID가 "failback" 장애 드라이브로 전환하는 기능은 옵션이 아닙니다. 이 경우 기존 디스크 재구축(패리티)을 완료할 수 있습니다. 모든 디스크 재구축이 완료될 때까지 GC를 비활성화합니다. 재부팅 또는 페일오버 후 파일 시스템을 시작하는 데 문제가 있는 경우 DDFS 프로세스를 종료하기 전에 DDFS TSE에 문의하십시오.

재부팅 또는 페일오버가 발생하지 않은 경우 DD_RAID는 "failback" 장애가 발생한 디스크를 재구축합니다. 이것은 "dd_raidtool"을(를) bash에서 사용한 수동 작업입니다. 디스크 "페일백"을 시작하기 전에 장애가 발생한 디스크 슬롯의 전원을 껐다가 켜야 합니다. 이 작업을 완료하려면 Dell 기술 지원 부서에 문의하십시오.

실제 경험에 따르면 페일백 재구축으로 전환하지 않고 50% 이상의 디스크 재구축을 완료할 수 있습니다.

모든 재구축이 완료된 후에도 여전히 장애가 발생한 드라이브는 "unfailed"(으)로 표시될 수 있습니다(해당 슬롯의 전원을 껐다가 켜는 경우). 


수정

디스크 펌웨어 버전 CA04는 이제 DDOS 업그레이드 패키지 형태의 MDU 패치로 사용할 수 있습니다. RPM 복사본은 지원 부서에 문의하십시오. 에 위치하고 있습니다. /auto/cores/drive-firmware-rpm/drive-firmware-CA04.rpm명령을 수행할 수 있는 충분한 공간이 있어야 합니다.


FAQ 

  1. Data Domain 파일 시스템을 온라인으로 업그레이드할 수 있습니까?
    아니요. FW 업그레이드 중에는 DDFS를 오프라인으로 설정하거나 비활성화해야 합니다.
  2. 재부팅이 필요합니까?
    아니요. 재부팅이 필요하지 않습니다.
  3. 패시브 노드에 FW를 적용할 수 있습니까?
    아니요. 패시브 노드에는 적용할 수 없습니다. 액티브 노드에서만 실행해야 합니다.
  4. 180-240(4-DS60) 드라이브에 대한 FW 드라이브 펌웨어 CA04.RPM 업그레이드는 얼마나 걸립니까?
    업그레이드는 병렬 모드이며 문제가 없는 경우 10~15분이 소요됩니다.
  5. 모든 드라이브가 업데이트되지 않은 경우 시스템이 CA04가 아닌 드라이브를 자동으로 업데이트합니까?
    아니요. 업데이트를 다시 실행하거나 수동으로 수행해야 합니다. 아래에서 "추가 정보"를 참조하십시오.
  6. 이전 FW에도 드라이브가 있을 수 있으므로 이 FW drive-firmware-CA04?RPM 패치를 다른 HA가 아닌 DD에도 적용해야 합니까?
    8TB 드라이브가 있는 HA가 아닌 DD에도 FW drive-firmware-CA04.RPM을 적용하는 것이 좋습니다.
  7. 업데이트 중에 드라이브에 장애가 발생한 경우 장애 취소가 가능합니까?
    FW 업데이트 전 또는 업데이트 중에 드라이브에 장애가 발생하면 디스크에서 오류 기록을 확인합니다(예: "disk show reliability-data"). 디스크에 오류가 있는 경우 장애가 발생한 상태로 유지하고 교체해야 합니다. 디스크에 오류가 없는 경우 "disk unfail <disk.id>" 명령을 실행하여 드라이브의 장애를 해제하고 스페어로 만듭니다. 장애가 발생한 드라이브를 이전 CA01/CA02 드라이브 펌웨어가 있는 드라이브로 교체하는 경우 드라이브를 수동으로 업데이트해야 합니다. 아래의 추가 섹션에서 아래의 "교체 드라이브를 수동으로 업데이트하는 방법"을 참조하십시오.
  8. DDFS가 다운된 경우에도 디스크 그룹 2(dg2)에서 작업을 일시 중단해야 하는 이유는 무엇입니까?
    DDOS는 dg2에 있는 EXT3 마운트에 계속 액세스할 수 있습니다.


MDU 패키지를 적용하려면 다음을 수행합니다.

  1. HA 시스템의 활성 노드에 연결합니다. 패시브 또는 대기 노드에서는 업데이트가 작동하지 않습니다.
  2. FW 업데이트 중에 DDFS를 비활성화해야 하므로 사용자와 함께 다운타임을 예약합니다. 다음 명령을 실행하여 현재 알림을 확인하고 필요에 따라 해결합니다. 실행 중인 경우 정리 프로세스를 중지합니다. 다음을 수행하여 파일 시스템을 비활성화합니다. 
                # alerts show current
          # filesys clean status
          # filesys clean stop
          # filesys disable
  3. 스토리지 마이그레이션을 수행하지 않은 시스템에 대해 >=dg2의 일부인 CA01/CA02 디스크에 대한 자동 지원을 확인합니다. 스토리지 마이그레이션을 진행한 시스템의 경우 ext3 어레이가 있는 디스크 그룹이 dg2가 아닐 수 있습니다. 
    ext3를 검색합니다. dgXX에 대한 DD_RAID 히스토그램을 표시하며, 여기서 XX는 DG 번호입니다. 아래에서 "추가 정보" 섹션의 예시를 참조하십시오. dg2/dgXX 디스크에 CA01/C02 펌웨어가 있는 경우 MDU 업그레이드 프로세스 중에 어레이를 일시적으로 중단해야 합니다. 그렇지 않으면 디스크 그룹의 모든 I/O 작업이 일시 중단되지 않으면 또 다른 장애가 트리거될 수 있습니다. 디스크 그룹 일시 중단에 대한 지원을 받으려면 지원 케이스를 엽니다. dg2/dgXX에 CA01/CA02 디스크가 포함되지 않은 경우 지원 케이스가 필요하지 않습니다. 4단계로 이동합니다.
  4. 업로드 drive-firmware-CA04.rpm DD System Manager UI에서.
  5. 디스크를 업그레이드합니다. 다음 명령을 실행하고 완료될 때까지 기다립니다. 
               # system upgrade start drive-firmware-CA04.rpm"
  6. 10분간 기다립니다.
  7. 모든 디스크가 업그레이드되었는지 확인합니다. 디스크가 여전히 CA01/CA02 펌웨어와 함께 표시되는 경우 5단계와 6단계를 반복합니다. 
               # disk show hardware
  8. 현재 디스크 상태를 확인합니다. 여러 디스크 장애가 발생한 경우 지원 부서에 문의하여 지원을 받으십시오. 단일 디스크 장애의 경우 디스크에서 오류 기록을 확인하고 오류가 없으면 디스크의 장애를 해제합니다. 
              # disk unfail <disk.id>
  9. 알림을 확인하고 DDFS를 활성화합니다. 
              # alerts show current
              # filesys enable

Additional Information

ext3 어레이가 있고 CA01/CA02 펌웨어가 포함된 dg2/dgXX 디스크를 확인하는 방법
스토리지가 마이그레이션되지 않은 시스템의 경우 dg2에는 ext3 어레이가 있습니다.

자동 지원에서 다음 줄을 검색합니다. (굵은 글씨)

  • DD_RAID 히스토그램
DD_RAID Histogram for dg2 0xafc318cb033dc226
DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
  • Storage Show All(이 명령은 DD CLI에서도 실행할 수 있음)
dg2       2.1-2.3, 2.13-2.15, 2.25-2.27,     14      7.2 TiB               
          2.37-2.39, 2.49-2.50
  • Disk Show Hardware(이 명령은 DD CLI에서 실행할 수 있음)
2.1          A0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R8GS       7.2 TiB    SASe      DG118000919             
2.2          A1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REMW       7.2 TiB    SASe      DG118000919             
2.3          A2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LM5C       7.2 TiB    SASe      DG118000919      
2.13         B0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHX       7.2 TiB    SASe      DG118000919             
2.14         B1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RF04       7.2 TiB    SASe      DG118000919             
2.15         B2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHQE       7.2 TiB    SASe      DG118000919    
2.25         C0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RE9Y       7.2 TiB    SASe      DG118000919             
2.26         C1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LMME       7.2 TiB    SASe      DG118000919             
2.27         C2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REW8       7.2 TiB    SASe      DG118000919
2.37         D0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHM       7.2 TiB    SASe      DG118000919             
2.38         D1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHWR       7.2 TiB    SASe      DG118000919             
2.39         D2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R862       7.2 TiB    SASe      DG118000919     
2.49         E0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SSKK       7.2 TiB    SASe      DG118000919             
2.50         E1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SV53       7.2 TiB    SASe      DG118000919             
2.51         E2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R944       7.2 TiB    SASe      DG118000919

 

위의 예에서 드라이브에는 CA01 펌웨어가 있습니다. Dell Technologies가 MDU 업그레이드를 적용하기 전에 ext3 어레이가 포함된 디스크 그룹(dg2)의 일시 중단을 지원할 수 있도록 지원 케이스를 열어야 합니다. 

스토리지 마이그레이션 시스템의 경우 ext3가 포함된 어레이는 dg2가 아닐 수 있습니다. 자동 지원에서 다음 줄을 검색합니다. (굵은 글씨)

  • Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)

 

Licenses
--------
System locking-id: APX00123456789
Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode
Capacity licenses:
##   Feature           Shelf Model    Capacity      Type        State    Expiration Date   Note
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
1    CAPACITY-ACTIVE   HIGH_DENSITY   1396.98 TiB   permanent   active   n/a                   
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
Licensed Active Tier capacity: 1396.98 TiB*
* Depending on the hardware platform, usable filesystem capacities may vary.
Feature licenses:
##   Feature                                    Count   Type         State    Expiration Date   Note           
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
1    REPLICATION                                    1   permanent    active   n/a                              
2    VTL                                            1   permanent    active   n/a                              
3    DDBOOST                                        1   permanent    active   n/a                              
4    RETENTION-LOCK-GOVERNANCE                      1   permanent    active   n/a                              
5    ENCRYPTION                                     1   permanent    active   n/a                              
6    I/OS                                           1   permanent    active   n/a                              
7    RETENTION-LOCK-COMPLIANCE                      1   permanent    active   n/a                              
8    STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS       6   evaluation   grace    2023-11-20        
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
License file last modified at : 2022/08/29 11:02:13.
  • DD_RAID 히스토그램
DD_RAID Histogram for dg23 0x323d6b863ae21b8f
DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
  • Storage Show All (This command can be ran on the DD CLI)
dg23      6.1-6.3, 6.13-6.15, 6.25-6.27,     14      7.2 TiB               
          6.37-6.39, 6.49-6.50

 

  • Disk Show Hardware (This command can be ran on the DD CLI)
6.1          A0     HITACHI H04728T8CLAR8000   A430       VYH2S3SS         7.2 TiB    SASe      DG118000785             
6.2          A1     HITACHI H04728T8CLAR8000   A430       VYH2RVSS         7.2 TiB    SASe      DG118000785             
6.3          A2     HITACHI H04728T8CLAR8000   A430       VYH2K9KS         7.2 TiB    SASe      DG118000785          
6.13         B0     HITACHI H04728T8CLAR8000   A430       VYH2JJBS         7.2 TiB    SASe      DG118000785             
6.14         B1     HITACHI H04728T8CLAR8000   A430       VYH1Y83S         7.2 TiB    SASe      DG118000785             
6.15         B2     HITACHI H04728T8CLAR8000   A430       VYH2RNGS         7.2 TiB    SASe      DG118000785    
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785  
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785           
6.47         D10    HITACHI H04728T8CLAR8000   A430       VYH1XGJS         7.2 TiB    SASe      DG118000785             
6.48         D11    HITACHI H04728T8CLAR8000   A430       VYH20VHS         7.2 TiB    SASe      DG118000785             
6.49         E0     HITACHI H04728T8CLAR8000   A430       VYH2G5XS         7.2 TiB    SASe      DG118000785


드라이브에 CA01 및 CA02 펌웨어가 없으므로 지원 케이스가 필요하지 않습니다. 위의 "Resolution" 섹션에서 MDU 업그레이드 단계의 3단계로 이동합니다.

Affected Products

Data Domain, DD9400 Appliance, DD9900 Appliance

Products

DD OS 7.11
Article Properties
Article Number: 000204252
Article Type: Solution
Last Modified: 30 Oct 2025
Version:  19
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.