Data Domain:在 HA 系统的故障切换期间多个驱动器出现故障 |CA01 和 CA02 固件问题
Summary: 由于一个已知的驱动器固件问题,Data Domain High Availability (HA) 在高可用性故障切换期间可能会遇到驱动器故障。某些系统可能会遇到文件系统在故障切换或重新启动后无法启动的情况。
Symptoms
组件故障仅限于具有 CA01 和 CA02 固件版本的 8 TB 驱动器。通常会有多个 RAID 组(磁盘组)受到影响。它可以是单降级(一个故障)或双重降级(两个磁盘故障)。
未重新启动的系统遇到文件系统中断,但应自行恢复;多个磁盘重建正在进行和挂起。对于重新启动的系统,将强制执行故障切换,这可能会导致文件系统在启动期间卡住。
适用于:
- 仅限 DD9400 和 DD9900 型号
- 外部存储机柜中固件 (FW) 版本为 CA01 或 CA02 的 8 TB 硬盘
磁盘故障症状:
- 磁盘日志报告
sense key 4/0x29/0xcd(在执行 SCSI WRITEcdb 0x8a,一个写入命令错误会导致DD_RAID模块出现磁盘故障。
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
- 由于“WRITE I/O”错误,DD_RAID 使磁盘变为故障状态。
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16
DDFS 无法启动症状:
- 在
ddfs.info,以下消息在 DDFS 启动期间会持续很长时间。它一直不会前进,直至 DDFS 进程终止并强制故障切换到对等节点。
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) =====
09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) =====
09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
...
09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrubCause
Resolution
修复:
- 已修复的 DDOS 版本:DDOS 7.11.x、7.10.1.0 和 7.7.5.1 及更高版本具有内置 CA04 固件。
- 升级到较新的 DDOS 版本
- 为所有其他 DDOS 7.x 版本提供最小中断升级 (MDU)。
- MDU 链接:Read me + Download:DDOS 7.X 硬盘固件最小中断升级 (MDU) 软件包 — 2022 年 11 月(需要以注册的戴尔支持用户身份登录才能查看文档)
-
应用 MDU 包:
- 连接到 HA 系统的主动节点。被动或备用节点无法进行更新。
- 与用户一起计划停机时间,因为在固件更新期间必须禁用 DDFS。运行以下命令以检查当前警报,如有需要,解决警报中的相应问题。如果正在运行,请停止清理进程。禁用文件系统。
# alerts show current# filesys clean status# filesys clean stop# filesys disable - 对于未进行存储迁移的系统,检查属于 >=dg2 的 CA01/CA02 磁盘的自动支持。对于已进行存储迁移的系统,具有 ext3 阵列的磁盘组可能不是 dg2。
搜索 ext3。它显示 dgXX DD_RAID直方图,其中 XX 是 DG 编号。请参阅下面“其他信息”部分中的示例。如果 dg2/dgXX 磁盘具有 CA01/C02 固件,则必须在 MDU 升级过程中临时暂停阵列。如果磁盘组中的所有 I/O 活动未挂起,否则可能会触发另一个故障。提交支持案例以获得关于暂停磁盘组的帮助。如果 dg2/dgXX 不包含 CA01/CA02 磁盘,则无需提交支持案例。转至步骤 4。 - 上传
drive-firmware-CA04.rpm从 DD System Manager UI 进行验证。 - 升级磁盘。运行以下命令并等待它完成。
# system upgrade start drive-firmware-CA04.rpm" - 等待大约 10 分钟。
- 验证所有磁盘都已升级。如果磁盘仍显示为 CA01/CA02 固件,请重复步骤 5 和 6。
# disk show hardware - 检查当前磁盘状态。如果有多磁盘故障,请联系支持部门寻求帮助。如果有单磁盘故障,请检查磁盘是否有任何错误历史记录,如果没有错误,则将磁盘恢复正常状态。
# disk unfail <disk.id> - 验证警报并启用 DDFS。
# alerts show current# filesys enable
解决方法
- 如果 发生重新启动或故障切换:
- DD_RAID无法对发生故障的驱动器进行故障恢复。
- 允许完成基于奇偶校验的传统磁盘重建。
- 禁用 GC ,直到所有重建完成。
- 如果文件系统无法启动,请咨询 DDFS TSE。
- 如果 未进行重新启动或故障切换:
- DD_RAID TSE 可以使用以下命令手动回切磁盘:
dd_raidtool。 - 发生故障的磁盘插槽必须重启(联系戴尔支持)。
- 在切换到故障恢复重建之前,允许重建完成超过 50%。
- 重建后,如果关闭然后重新打开插槽电源,磁盘可以“恢复原状”。
- DD_RAID TSE 可以使用以下命令手动回切磁盘:
Additional Information
常见问题解答
问:是否可以在 Data Domain 文件系统联机时执行固件升级?
一个:不。在固件升级期间,必须 禁用 DDFS。
问:应用固件更新后是否需要重新启动系统?
一个:不。 无需重新启动。
问:固件是否可以应用于被动节点?
一个:不。必须 仅在活动节点上执行更新。
问:180–240 个驱动器(4 个 DS60 盘架)的固件升级需要多长时间?
一个:升级在 并行模式下 运行,如果没有问题,通常会在 10-15 分钟内完成。
问:如果某些驱动器未更新,系统会自动重试更新吗?
一个:不。必须 手动重新运行 更新,或者为其余驱动器重复更新。有关手动更新步骤,请参阅“其他信息”。
问:固件修补程序是否也应用于非 HA Data Domain 系统?
一个:可以。建议将 drive-firmware-CA04.RPM 修补程序应用于配备 8 TB 驱动器且运行较低固件的所有系统。
问:如果驱动器在更新过程中出现故障,是否可以恢复?
一个:
- 如果磁盘显示错误历史记录(使用
disk show reliability-data),它必须保持故障状态并被替换。 - 如果未出现错误,请运行:
这会将磁盘标记为备盘。disk unfail <disk.id> - 如果更换驱动器具有较旧的 CA01/CA02 固件,则必须手动更新。请参阅“其他信息”中的“如何手动更新更换驱动器”。
问:为什么即使禁用了 DDFS,仍需要暂停磁盘组 2 (dg2) 中的活动?
一个:DDOS 继续访问 dg2 中的 EXT3 装载 。暂停 I/O 活动可防止升级期间出现其他故障。
问:如何检查具有 ext3 阵列并包含 CA01/CA02 固件的 dg2/dgXX 磁盘。
一个:对于未迁移存储的系统,dg2 具有 ext3 阵列。
在自动支持中搜索以下行。(粗体)
- DD_RAID 直方图
DD_RAID Histogram for dg2 0xafc318cb033dc226
DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0
Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary
Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
- Storage Show All(也可在 DD CLI 上运行此命令)
dg2 2.1-2.3, 2.13-2.15, 2.25-2.27, 14 7.2 TiB
2.37-2.39, 2.49-2.50
- Disk Show Hardware(可在 DD CLI 上运行此命令)
2.1 A0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R8GS 7.2 TiB SASe DG118000919
2.2 A1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REMW 7.2 TiB SASe DG118000919
2.3 A2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LM5C 7.2 TiB SASe DG118000919
2.13 B0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHX 7.2 TiB SASe DG118000919
2.14 B1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RF04 7.2 TiB SASe DG118000919
2.15 B2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHQE 7.2 TiB SASe DG118000919
2.25 C0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RE9Y 7.2 TiB SASe DG118000919
2.26 C1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LMME 7.2 TiB SASe DG118000919
2.27 C2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REW8 7.2 TiB SASe DG118000919
2.37 D0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHM 7.2 TiB SASe DG118000919
2.38 D1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHWR 7.2 TiB SASe DG118000919
2.39 D2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R862 7.2 TiB SASe DG118000919
2.49 E0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SSKK 7.2 TiB SASe DG118000919
2.50 E1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SV53 7.2 TiB SASe DG118000919
2.51 E2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R944 7.2 TiB SASe DG118000919
在上面的示例中,驱动器具有 CA01 固件。必须创建支持案例,以便 Dell Technologies 可以在应用 MDU 升级之前协助挂起包含 ext3 阵列的磁盘组 (dg2)。
对于迁移了存储的系统,包含 ext3 的阵列可能不是 dg2。在自动支持中搜索以下行。(粗体)
Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)
Licenses
--------
System locking-id: APX00123456789
Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode
Capacity licenses:
## Feature Shelf Model Capacity Type State Expiration Date Note
-- --------------- ------------ ----------- --------- ------ --------------- ----
1 CAPACITY-ACTIVE HIGH_DENSITY 1396.98 TiB permanent active n/a
-- --------------- ------------ ----------- --------- ------ --------------- ----
Licensed Active Tier capacity: 1396.98 TiB*
* Depending on the hardware platform, usable filesystem capacities may vary.
Feature licenses:
## Feature Count Type State Expiration Date Note
-- ---------------------------------------- ----- ---------- ------ --------------- ---------------
1 REPLICATION 1 permanent active n/a
2 VTL 1 permanent active n/a
3 DDBOOST 1 permanent active n/a
4 RETENTION-LOCK-GOVERNANCE 1 permanent active n/a
5 ENCRYPTION 1 permanent active n/a
6 I/OS 1 permanent active n/a
7 RETENTION-LOCK-COMPLIANCE 1 permanent active n/a
8 STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS 6 evaluation grace 2023-11-20
-- ---------------------------------------- ----- ---------- ------ --------------- ---------------
License file last modified at : 2022/08/29 11:02:13.
- DD_RAID 直方图
DD_RAID Histogram for dg23 0x323d6b863ae21b8f
DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0
Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary
Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
Storage Show All (This command can be ran on the DD CLI)
dg23 6.1-6.3, 6.13-6.15, 6.25-6.27, 14 7.2 TiB
6.37-6.39, 6.49-6.50
Disk Show Hardware (This command can be ran on the DD CLI)
6.1 A0 HITACHI H04728T8CLAR8000 A430 VYH2S3SS 7.2 TiB SASe DG118000785
6.2 A1 HITACHI H04728T8CLAR8000 A430 VYH2RVSS 7.2 TiB SASe DG118000785
6.3 A2 HITACHI H04728T8CLAR8000 A430 VYH2K9KS 7.2 TiB SASe DG118000785
6.13 B0 HITACHI H04728T8CLAR8000 A430 VYH2JJBS 7.2 TiB SASe DG118000785
6.14 B1 HITACHI H04728T8CLAR8000 A430 VYH1Y83S 7.2 TiB SASe DG118000785
6.15 B2 HITACHI H04728T8CLAR8000 A430 VYH2RNGS 7.2 TiB SASe DG118000785
6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785
6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785
6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785
6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785
6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785
6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785
6.47 D10 HITACHI H04728T8CLAR8000 A430 VYH1XGJS 7.2 TiB SASe DG118000785
6.48 D11 HITACHI H04728T8CLAR8000 A430 VYH20VHS 7.2 TiB SASe DG118000785
6.49 E0 HITACHI H04728T8CLAR8000 A430 VYH2G5XS 7.2 TiB SASe DG118000785
由于驱动器没有 CA01 和 CA02 固件,因此不需要支持案例。转至上文“解决方案”部分中 MDU 升级步骤的步骤 3。