Data Domain:在 HA 系统的故障切换期间多个驱动器出现故障 |CA01 和 CA02 固件问题

Summary: 由于一个已知的驱动器固件问题,Data Domain High Availability (HA) 在高可用性故障切换期间可能会遇到驱动器故障。某些系统可能会遇到文件系统在故障切换或重新启动后无法启动的情况。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

组件故障仅限于具有 CA01 和 CA02 固件版本的 8 TB 驱动器。通常会有多个 RAID 组(磁盘组)受到影响。它可以是单降级(一个故障)或双重降级(两个磁盘故障)。

未重新启动的系统遇到文件系统中断,但应自行恢复;多个磁盘重建正在进行和挂起。对于重新启动的系统,将强制执行故障切换,这可能会导致文件系统在启动期间卡住。

适用于:

  • 仅限 DD9400 和 DD9900 型号
  • 外部存储机柜中固件 (FW) 版本为 CA01 或 CA02 的 8 TB 硬盘

磁盘故障症状:

  • 磁盘日志报告 sense key 4/0x29/0xcd (在执行 SCSI WRITE cdb 0x8a, 一个写入命令错误会导致DD_RAID模块出现磁盘故障。
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
  • 由于“WRITE I/O”错误,DD_RAID 使磁盘变为故障状态。
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16

DDFS 无法启动症状:

  • ddfs.info,以下消息在 DDFS 启动期间会持续很长时间。它一直不会前进,直至 DDFS 进程终止并强制故障切换到对等节点。
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) =====
09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) =====

09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
...
09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub

Cause

在随机 I/O 工作负载下,驱动器的 DRAM 缓存缓冲区遇到 误报数据完整性错误 。这会触发磁盘故障。
驱动器制造商提供了固件修复来解决此问题。

Resolution

修复:

  • 已修复的 DDOS 版本:DDOS 7.11.x、7.10.1.0 和 7.7.5.1 及更高版本具有内置 CA04 固件。
    • 升级到较新的 DDOS 版本
  • 为所有其他 DDOS 7.x 版本提供最小中断升级 (MDU)。
    • MDU 链接:Read me + Download:DDOS 7.X 硬盘固件最小中断升级 (MDU) 软件包 — 2022 年 11 月(需要以注册的戴尔支持用户身份登录才能查看文档)
    • 应用 MDU 包:

      1. 连接到 HA 系统的主动节点。被动或备用节点无法进行更新。
      2. 与用户一起计划停机时间,因为在固件更新期间必须禁用 DDFS。运行以下命令以检查当前警报,如有需要,解决警报中的相应问题。如果正在运行,请停止清理进程。禁用文件系统。 
                    # alerts show current
              # filesys clean status
              # filesys clean stop
              # filesys disable
      3. 对于未进行存储迁移的系统,检查属于 >=dg2 的 CA01/CA02 磁盘的自动支持。对于已进行存储迁移的系统,具有 ext3 阵列的磁盘组可能不是 dg2。
        搜索 ext3。它显示 dgXX DD_RAID直方图,其中 XX 是 DG 编号。请参阅下面“其他信息”部分中的示例。如果 dg2/dgXX 磁盘具有 CA01/C02 固件,则必须在 MDU 升级过程中临时暂停阵列。如果磁盘组中的所有 I/O 活动未挂起,否则可能会触发另一个故障。提交支持案例以获得关于暂停磁盘组的帮助。如果 dg2/dgXX 不包含 CA01/CA02 磁盘,则无需提交支持案例。转至步骤 4。
      4. 上传 drive-firmware-CA04.rpm 从 DD System Manager UI 进行验证。
      5. 升级磁盘。运行以下命令并等待它完成。 
                   # system upgrade start drive-firmware-CA04.rpm"
      6. 等待大约 10 分钟。
      7. 验证所有磁盘都已升级。如果磁盘仍显示为 CA01/CA02 固件,请重复步骤 5 和 6。 
                   # disk show hardware
      8. 检查当前磁盘状态。如果有多磁盘故障,请联系支持部门寻求帮助。如果有单磁盘故障,请检查磁盘是否有任何错误历史记录,如果没有错误,则将磁盘恢复正常状态。 
                  # disk unfail <disk.id>
      9. 验证警报并启用 DDFS。 
                  # alerts show current
                  # filesys enable
提醒:应用 MDU 时,应禁用文件系统。

解决方法

  • 如果 发生重新启动或故障切换
    • DD_RAID无法对发生故障的驱动器进行故障恢复。
    • 允许完成基于奇偶校验的传统磁盘重建。
    • 禁用 GC ,直到所有重建完成。
    • 如果文件系统无法启动,请咨询 DDFS TSE
  • 如果 未进行重新启动或故障切换
    • DD_RAID TSE 可以使用以下命令手动回切磁盘: dd_raidtool
    • 发生故障的磁盘插槽必须重启(联系戴尔支持)。
    • 在切换到故障恢复重建之前,允许重建完成超过 50%。
    • 重建后,如果关闭然后重新打开插槽电源,磁盘可以“恢复原状”。

Additional Information

常见问题解答

问:是否可以在 Data Domain 文件系统联机时执行固件升级?
一个:不。在固件升级期间,必须 禁用 DDFS。


问:应用固件更新后是否需要重新启动系统?
一个:不。 无需重新启动。


问:固件是否可以应用于被动节点?
一个:不。必须 仅在活动节点上执行更新。


问:180–240 个驱动器(4 个 DS60 盘架)的固件升级需要多长时间?
一个:升级在 并行模式下 运行,如果没有问题,通常会在 10-15 分钟内完成。


问:如果某些驱动器未更新,系统会自动重试更新吗?
一个:不。必须 手动重新运行 更新,或者为其余驱动器重复更新。有关手动更新步骤,请参阅“其他信息”。


问:固件修补程序是否也应用于非 HA Data Domain 系统?
一个:可以。建议将 drive-firmware-CA04.RPM 修补程序应用于配备 8 TB 驱动器且运行较低固件的所有系统。


问:如果驱动器在更新过程中出现故障,是否可以恢复?
一个:

  • 如果磁盘显示错误历史记录(使用 disk show reliability-data),它必须保持故障状态并被替换。
  • 如果未出现错误,请运行:
    disk unfail <disk.id>
    
    这会将磁盘标记为备盘。
  • 如果更换驱动器具有较旧的 CA01/CA02 固件,则必须手动更新。请参阅“其他信息”中的“如何手动更新更换驱动器”。

问:为什么即使禁用了 DDFS,仍需要暂停磁盘组 2 (dg2) 中的活动?
一个:DDOS 继续访问 dg2 中的 EXT3 装载 。暂停 I/O 活动可防止升级期间出现其他故障。


问:如何检查具有 ext3 阵列并包含 CA01/CA02 固件的 dg2/dgXX 磁盘。
一个:对于未迁移存储的系统,dg2 具有 ext3 阵列。

在自动支持中搜索以下行。(粗体)

  • DD_RAID 直方图
DD_RAID Histogram for dg2 0xafc318cb033dc226
DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
  • Storage Show All(也可在 DD CLI 上运行此命令)
dg2       2.1-2.3, 2.13-2.15, 2.25-2.27,     14      7.2 TiB               
          2.37-2.39, 2.49-2.50
  • Disk Show Hardware(可在 DD CLI 上运行此命令)
2.1          A0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R8GS       7.2 TiB    SASe      DG118000919             
2.2          A1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REMW       7.2 TiB    SASe      DG118000919             
2.3          A2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LM5C       7.2 TiB    SASe      DG118000919      
2.13         B0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHX       7.2 TiB    SASe      DG118000919             
2.14         B1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RF04       7.2 TiB    SASe      DG118000919             
2.15         B2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHQE       7.2 TiB    SASe      DG118000919    
2.25         C0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RE9Y       7.2 TiB    SASe      DG118000919             
2.26         C1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LMME       7.2 TiB    SASe      DG118000919             
2.27         C2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REW8       7.2 TiB    SASe      DG118000919
2.37         D0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHM       7.2 TiB    SASe      DG118000919             
2.38         D1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHWR       7.2 TiB    SASe      DG118000919             
2.39         D2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R862       7.2 TiB    SASe      DG118000919     
2.49         E0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SSKK       7.2 TiB    SASe      DG118000919             
2.50         E1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SV53       7.2 TiB    SASe      DG118000919             
2.51         E2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R944       7.2 TiB    SASe      DG118000919

在上面的示例中,驱动器具有 CA01 固件。必须创建支持案例,以便 Dell Technologies 可以在应用 MDU 升级之前协助挂起包含 ext3 阵列的磁盘组 (dg2)。

对于迁移了存储的系统,包含 ext3 的阵列可能不是 dg2。在自动支持中搜索以下行。(粗体)

  • Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)

 

Licenses
--------
System locking-id: APX00123456789
Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode
Capacity licenses:
##   Feature           Shelf Model    Capacity      Type        State    Expiration Date   Note
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
1    CAPACITY-ACTIVE   HIGH_DENSITY   1396.98 TiB   permanent   active   n/a                   
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
Licensed Active Tier capacity: 1396.98 TiB*
* Depending on the hardware platform, usable filesystem capacities may vary.
Feature licenses:
##   Feature                                    Count   Type         State    Expiration Date   Note           
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
1    REPLICATION                                    1   permanent    active   n/a                              
2    VTL                                            1   permanent    active   n/a                              
3    DDBOOST                                        1   permanent    active   n/a                              
4    RETENTION-LOCK-GOVERNANCE                      1   permanent    active   n/a                              
5    ENCRYPTION                                     1   permanent    active   n/a                              
6    I/OS                                           1   permanent    active   n/a                              
7    RETENTION-LOCK-COMPLIANCE                      1   permanent    active   n/a                              
8    STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS       6   evaluation   grace    2023-11-20        
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
License file last modified at : 2022/08/29 11:02:13.
  • DD_RAID 直方图
DD_RAID Histogram for dg23 0x323d6b863ae21b8f
DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
  • Storage Show All (This command can be ran on the DD CLI)
dg23      6.1-6.3, 6.13-6.15, 6.25-6.27,     14      7.2 TiB               
          6.37-6.39, 6.49-6.50

 

  • Disk Show Hardware (This command can be ran on the DD CLI)
6.1          A0     HITACHI H04728T8CLAR8000   A430       VYH2S3SS         7.2 TiB    SASe      DG118000785             
6.2          A1     HITACHI H04728T8CLAR8000   A430       VYH2RVSS         7.2 TiB    SASe      DG118000785             
6.3          A2     HITACHI H04728T8CLAR8000   A430       VYH2K9KS         7.2 TiB    SASe      DG118000785          
6.13         B0     HITACHI H04728T8CLAR8000   A430       VYH2JJBS         7.2 TiB    SASe      DG118000785             
6.14         B1     HITACHI H04728T8CLAR8000   A430       VYH1Y83S         7.2 TiB    SASe      DG118000785             
6.15         B2     HITACHI H04728T8CLAR8000   A430       VYH2RNGS         7.2 TiB    SASe      DG118000785    
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785  
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785           
6.47         D10    HITACHI H04728T8CLAR8000   A430       VYH1XGJS         7.2 TiB    SASe      DG118000785             
6.48         D11    HITACHI H04728T8CLAR8000   A430       VYH20VHS         7.2 TiB    SASe      DG118000785             
6.49         E0     HITACHI H04728T8CLAR8000   A430       VYH2G5XS         7.2 TiB    SASe      DG118000785


由于驱动器没有 CA01 和 CA02 固件,因此不需要支持案例。转至上文“解决方案”部分中 MDU 升级步骤的步骤 3。

Affected Products

Data Domain, DD9400 Appliance, DD9900 Appliance

Products

DD OS 7.11
Article Properties
Article Number: 000204252
Article Type: Solution
Last Modified: 16 ديسمبر 2025
Version:  20
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.