Data Domain:在 HA 系统的故障切换期间多个驱动器出现故障 |CA01 和 CA02 固件问题
Summary: 由于一个已知的驱动器固件问题,Data Domain High Availability (HA) 在高可用性故障切换期间可能会遇到驱动器故障。某些系统可能会遇到文件系统在故障切换或重新启动后无法启动的情况。
Symptoms
组件故障仅限于具有 CA01 和 CA02 固件版本的 8 TB 驱动器。通常会有多个 RAID 组(磁盘组)受到影响。它可以是单降级(一个故障)或双降级(两个磁盘故障)。
没有重新启动的系统遇到文件系统中断,但应自行恢复,并且有多个磁盘重建正在进行和挂起。对于重新启动的系统,将强制执行故障切换,这可能导致文件系统在启动期间卡住。
适用于:
- 仅限 DD9400 和 DD9900 型号
- 外部存储机柜中固件 (FW) 版本为 CA01 或 CA02 的 8 TB 硬盘
修复:
- 已修复的 DDOS 版本:DDOS 7.11.x、7.10.1.0 和 7.7.5.1 及更高版本具有内置 CA04 固件。
- 为所有其他 DDOS 7.x 版本提供最小中断升级 (MDU)。
- MDU 链接:Read me + Download:DDOS 7.X 硬盘固件最小中断升级 (MDU) 软件包 — 2022 年 11 月(需要以注册的戴尔支持用户身份登录才能查看文档)
提醒:应用 MDU 时,应禁用文件系统。
磁盘故障症状:
- 磁盘日志报告感知键
4/0x29/0xcd(在执行 SCSI WRITEcdb 0x8a时),一个写入命令错误导致 DD_RAID 模块使磁盘变为故障状态。
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
- 由于“WRITE I/O”错误,DD_RAID 使磁盘变为故障状态。
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16
DDFS 无法启动症状:
- 在 ddfs.info 中,以下消息在 DDFS 启动期间持续很长时间。它一直不会前进,直至 DDFS 进程终止并强制故障切换到对等节点。
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) ===== 09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) ===== 09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub ... 09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
Cause
磁盘故障情况的根本原因:
在随机 I/O 工作负载下,驱动器的 DRAM 缓存缓冲区遇到误报的数据完整性错误。驱动器制造商提供了固件修复来解决此问题。
Resolution
解决方法
如果发生了重新启动或故障切换,DD_RAID 将无法“failback”故障驱动器。在这种情况下,允许传统磁盘重建(奇偶校验)完成。禁用 GC,直到所有磁盘重建完成。如果在重新启动或故障切换后,文件系统在启动时出现问题,请在终止 DDFS 进程之前咨询 DDFS TSE。
如果未发生重新启动或故障切换,DD_RAID 可以“failback”故障磁盘的重建。这是在 bash 模式下使用“dd_raidtool”执行的手动操作。在启动磁盘“故障恢复”之前,必须重启故障磁盘插槽的电源;请联系 戴尔技术支持 以完成此作。
根据实际经验,允许磁盘重建完成 50% 以上,而不是切换到故障恢复重建。
所有重建完成后,对于仍然出现故障的驱动器,如果其对应的插槽已进行断电重启,则可以“unfailed”。
修复
磁盘固件版本 CA04 现在以 DDOS 升级包的形式作为 MDU 补丁程序提供。请联系支持部门获取 RPM。它位于 /auto/cores/drive-firmware-rpm/drive-firmware-CA04.rpm。
常见问题解答:
- 是否可以在 Data Domain 文件系统在线状态下完成升级?
否,在固件升级期间,DDFS 必须处于离线|禁用状态。 - 是否需要重新启动?
否,不需要重新启动。 - 是否可以在被动节点上应用固件?
否,它不能应用于被动节点。必须仅在主动节点上运行。 - 完成 180-240(4-DS60) 驱动器的固件 drive-firmware-CA04.RPM 升级需要多长时间?
升级以并行模式进行,如果没有问题,需要 10-15 分钟。 - 如果未更新所有驱动器,系统是否会自动更新非 CA04 驱动器?
否,必须重新运行更新,或者也可以手动完成。请参阅下文的“其它信息”。 - 由于其他非 HA DD 的驱动器可能使用旧版固件,是否也必须在这些 DD 上应用此固件 drive-firmware-CA04.RPM 补丁程序?
建议也将固件 drive-firmware-CA04.RPM 应用于具有 8 TB 驱动器的非 HA DD。 - 如果驱动器在更新过程中出现故障,它是否可以不发生故障?
如果驱动器在固件更新之前或期间出现故障,请检查磁盘的错误历史记录(例如“disk show reliability-data”)。如果磁盘有任何错误,则必须保持故障状态,并且必须进行更换。如果磁盘没有任何错误,请运行命令“disk unfail <disk.id>”,以使驱动器恢复正常状态并成为备用驱动器。如果将故障驱动器更换为具有旧版 CA01/CA02 驱动器固件的驱动器,则必须手动更新驱动器。请参阅下文其他信息部分中的“如何手动更新更换驱动器”。 - 为什么即使 DDFS 关闭,仍需要暂停磁盘组 2 (dg2) 中的活动?
DDOS 仍可继续访问 dg2 中存在的 EXT3 装载。
应用 MDU 包:
- 连接到 HA 系统的主动节点。被动或备用节点无法进行更新。
- 与用户一起计划停机时间,因为在固件更新期间必须禁用 DDFS。运行以下命令以检查当前警报,如有需要,解决警报中的相应问题。如果正在运行,请停止清理进程。禁用文件系统。
# alerts show current# filesys clean status# filesys clean stop# filesys disable - 对于未进行存储迁移的系统,检查属于 >=dg2 的 CA01/CA02 磁盘的自动支持。对于已进行存储迁移的系统,具有 ext3 阵列的磁盘组可能不是 dg2。
搜索 ext3。它显示 dgXX DD_RAID直方图,其中 XX 是 DG 编号。请参阅下面“其他信息”部分中的示例。如果 dg2/dgXX 磁盘具有 CA01/C02 固件,则必须在 MDU 升级过程中临时暂停阵列。如果磁盘组中的所有 I/O 活动未挂起,否则可能会触发另一个故障。提交支持案例以获得关于暂停磁盘组的帮助。如果 dg2/dgXX 不包含 CA01/CA02 磁盘,则无需提交支持案例。转至步骤 4。 - 上传
drive-firmware-CA04.rpm从 DD System Manager UI 进行验证。 - 升级磁盘。运行以下命令并等待它完成。
# system upgrade start drive-firmware-CA04.rpm" - 等待大约 10 分钟。
- 验证所有磁盘都已升级。如果磁盘仍显示为 CA01/CA02 固件,请重复步骤 5 和 6。
# disk show hardware - 检查当前磁盘状态。如果有多磁盘故障,请联系支持部门寻求帮助。如果有单磁盘故障,请检查磁盘是否有任何错误历史记录,如果没有错误,则将磁盘恢复正常状态。
# disk unfail <disk.id> - 验证警报并启用 DDFS。
# alerts show current# filesys enable
Additional Information
如何检查具有 ext3 阵列并包含 CA01/CA02 固件的 dg2/dgXX 磁盘。
对于未迁移存储的系统,dg2 具有 ext3 阵列。
在自动支持中搜索以下行。(粗体)
- DD_RAID 直方图
DD_RAID Histogram for dg2 0xafc318cb033dc226 DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0 Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0 Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9] Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
- Storage Show All(也可在 DD CLI 上运行此命令)
dg2 2.1-2.3, 2.13-2.15, 2.25-2.27, 14 7.2 TiB 2.37-2.39, 2.49-2.50
- Disk Show Hardware(可在 DD CLI 上运行此命令)
2.1 A0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R8GS 7.2 TiB SASe DG118000919 2.2 A1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REMW 7.2 TiB SASe DG118000919 2.3 A2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LM5C 7.2 TiB SASe DG118000919 2.13 B0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHX 7.2 TiB SASe DG118000919 2.14 B1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RF04 7.2 TiB SASe DG118000919 2.15 B2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHQE 7.2 TiB SASe DG118000919 2.25 C0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RE9Y 7.2 TiB SASe DG118000919 2.26 C1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LMME 7.2 TiB SASe DG118000919 2.27 C2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REW8 7.2 TiB SASe DG118000919 2.37 D0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHM 7.2 TiB SASe DG118000919 2.38 D1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHWR 7.2 TiB SASe DG118000919 2.39 D2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R862 7.2 TiB SASe DG118000919 2.49 E0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SSKK 7.2 TiB SASe DG118000919 2.50 E1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SV53 7.2 TiB SASe DG118000919 2.51 E2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R944 7.2 TiB SASe DG118000919
在上面的示例中,驱动器具有 CA01 固件。必须创建支持案例,以便 Dell Technologies 可以在应用 MDU 升级之前协助挂起包含 ext3 阵列的磁盘组 (dg2)。
对于迁移了存储的系统,包含 ext3 的阵列可能不是 dg2。在自动支持中搜索以下行。(粗体)
Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)
Licenses -------- System locking-id: APX00123456789 Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode Capacity licenses: ## Feature Shelf Model Capacity Type State Expiration Date Note -- --------------- ------------ ----------- --------- ------ --------------- ---- 1 CAPACITY-ACTIVE HIGH_DENSITY 1396.98 TiB permanent active n/a -- --------------- ------------ ----------- --------- ------ --------------- ---- Licensed Active Tier capacity: 1396.98 TiB* * Depending on the hardware platform, usable filesystem capacities may vary. Feature licenses: ## Feature Count Type State Expiration Date Note -- ---------------------------------------- ----- ---------- ------ --------------- --------------- 1 REPLICATION 1 permanent active n/a 2 VTL 1 permanent active n/a 3 DDBOOST 1 permanent active n/a 4 RETENTION-LOCK-GOVERNANCE 1 permanent active n/a 5 ENCRYPTION 1 permanent active n/a 6 I/OS 1 permanent active n/a 7 RETENTION-LOCK-COMPLIANCE 1 permanent active n/a 8 STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS 6 evaluation grace 2023-11-20 -- ---------------------------------------- ----- ---------- ------ --------------- --------------- License file last modified at : 2022/08/29 11:02:13.
- DD_RAID 直方图
DD_RAID Histogram for dg23 0x323d6b863ae21b8f DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0 Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0 Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf] Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
Storage Show All (This command can be ran on the DD CLI)
dg23 6.1-6.3, 6.13-6.15, 6.25-6.27, 14 7.2 TiB 6.37-6.39, 6.49-6.50
Disk Show Hardware (This command can be ran on the DD CLI)
6.1 A0 HITACHI H04728T8CLAR8000 A430 VYH2S3SS 7.2 TiB SASe DG118000785 6.2 A1 HITACHI H04728T8CLAR8000 A430 VYH2RVSS 7.2 TiB SASe DG118000785 6.3 A2 HITACHI H04728T8CLAR8000 A430 VYH2K9KS 7.2 TiB SASe DG118000785 6.13 B0 HITACHI H04728T8CLAR8000 A430 VYH2JJBS 7.2 TiB SASe DG118000785 6.14 B1 HITACHI H04728T8CLAR8000 A430 VYH1Y83S 7.2 TiB SASe DG118000785 6.15 B2 HITACHI H04728T8CLAR8000 A430 VYH2RNGS 7.2 TiB SASe DG118000785 6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785 6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785 6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785 6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785 6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785 6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785 6.47 D10 HITACHI H04728T8CLAR8000 A430 VYH1XGJS 7.2 TiB SASe DG118000785 6.48 D11 HITACHI H04728T8CLAR8000 A430 VYH20VHS 7.2 TiB SASe DG118000785 6.49 E0 HITACHI H04728T8CLAR8000 A430 VYH2G5XS 7.2 TiB SASe DG118000785
由于驱动器没有 CA01 和 CA02 固件,因此不需要支持案例。转至上文“解决方案”部分中 MDU 升级步骤的步骤 3。