Data Domain:在 HA 系統故障轉移期間,多個驅動器發生故障 |CA01 CA02 韌體問題
Summary: 由於已知的磁碟機韌體問題,Data Domain High Availability (HA) 可能會在 HA 容錯移轉期間發生磁碟機故障。某些系統可能會在容錯移轉或重新開機後遇到檔案系統無法啟動的情況。
Symptoms
元件故障僅限於具有 CA01 和 CA02 韌體修訂版的 8 TB 磁碟機。通常會有多個 RAID 群組 (磁碟群組) 受到影響。它可以是單一降級 (一個故障) 或雙重降級 (兩個磁碟故障)。
未重新開機的系統發生檔案系統中斷,但應自行還原;多個磁碟重建正在進行,且在擱置中。針對重新開機的系統,容錯移轉會強制進行,這可能會導致檔案系統在啟動期間停滯。
適用於:
- 僅限 DD9400 和 DD9900 型號
- 8 TB 硬碟 (位於外部儲存機櫃),搭配韌體 (FW) 版本 CA01 或 CA02
修正:
- 已修正 DDOS 版本:DDOS 7.11.x、7.10.1.0 和 7.7.5.1 及更新版本均內建 CA04 韌體。
- 所有其他 DDOS 7.x 版本均可使用最小破壞式升級 (MDU)。
- 連結到 MDU:讀我 + 下載:DDOS 7.X 硬碟韌體最小破壞性升級 (MDU) 套裝 - 2022 年 11 月 (需要以已註冊 Dell 支援使用者身分登入才能檢視文件)
注意:套用 MDU 時,應停用檔案系統。
磁碟作業失敗症狀:
- 磁碟記錄報告感應金鑰
4/0x29/0xcd執行 SCSI WRITE 時cdb 0x8a,一個寫入命令錯誤會導致 DD_RAID 模組磁碟故障。
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
- DD_RAID 會因為「WRITE I/O」錯誤而使磁碟故障。
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16
DDFS 無法啟動症狀:
- 在 ddfs.info 中,以下訊息會在 DDFS 啟動期間持續很長一段時間。在 DDFS 程序終止強制容錯移轉至對等節點之前,它無法繼續進行。
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) ===== 09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) ===== 09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub ... 09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
Cause
磁碟作業失敗狀況的根本原因:
磁碟的 DRAM 快取緩衝區在隨機 I/O 工作負載下遇到錯誤的資料完整性錯誤。磁碟機製造商已提供韌體修正以解決此問題。
Resolution
因應措施
如果發生重新開機或容錯移轉,DD_RAID「failback」故障的磁碟機的功能將不適用。在這種情況下,請允許完成傳統磁碟重建 (同位)。停用 GC,直到完成所有磁碟重建。如果檔案系統在重新開機或容錯移轉後發生啟動問題,請先參閱 DDFS TSE,再終止 DDFS 程序。
如果沒有重新開機或容錯移轉,DD_RAID 可以「failback」重建故障的磁碟。這是手動作業,使用「dd_raidtool」在 Bash 下運作。在啟動磁碟「故障回復」之前,必須重新啟動故障的磁碟插槽;請聯絡 Dell 技術支援部門 以完成此作業。
根據實務經驗,允許磁碟重建超過 50% 以完成重建,而不是切換到故障復原重建。
完成所有重建後,仍有故障的磁碟機可能是「unfailed」(如果其各自的插槽已重新啟動電源)。
修正
磁碟韌體版本 CA04 現在以 DDOS 升級套件的形式作為 MDU 修補程式提供。請聯絡支援部門以取得 RPM 的複本。它位於 /auto/cores/drive-firmware-rpm/drive-firmware-CA04.rpm。
常見問答集:
- 是否可以使用線上的 Data Domain 檔案系統進行升級?
否,DDFS 在韌體升級期間必須離線|停用。 - 是否需要重新開機?
否,不需要重新開機。 - 韌體是否可以套用至被動節點?
否,它不能應用於被動節點。它必須僅在使用中節點上執行。 - 完成 180-240(4-DS60) 磁碟機的韌體 drive-firmware-CA04.RPM 升級需要多少時間?
升級處於平行模式,如果沒有問題的話,則需要 10 至 15 分鐘。 - 如果未更新所有磁碟機,系統會自動更新非 CA04 磁碟機嗎?
否,更新必須再次重新執行,也可以手動完成。請參閱下方「其他資訊」。 - 是否必須將此韌體 drive-firmware-CA04?RPM 修補程式也套用至其他非 HA DD 上,因為這些磁碟機在舊版韌體上可能也有磁碟機?
建議您也將韌體 drive-firmware-CA04.RPM 套用至具有 8 TB 磁碟機的非 HA DD。 - 如果磁碟機在更新期間故障,是否可以取消故障?
如果在韌體更新之前或期間磁碟機故障,請檢查磁碟的錯誤歷程記錄 (例如「磁碟顯示可靠性資料」)。如果磁碟有任何錯誤,則必須維持其故障狀態,並將其更換。如果磁碟沒有任何錯誤,請執行命令「disk unfail <disk.id>」使磁碟機取消故障,並將其設為備援。如果將故障的磁碟機更換為具有舊版 CA01/CA02 磁碟機韌體的磁碟機,則必須手動更新該磁碟機。請參閱下方其他章節中的「如何手動更新更換磁碟機」。 - 為什麼即使 DDFS 關閉,仍必須暫停磁碟群組 2 (dg2) 中的活動?
DDOS 仍可存取存在於 dg2 中的 EXT3 掛接。
套用 MDU 套件:
- 連線至 HA 系統的使用中節點。更新無法從被動或備用節點運作。
- 與使用者一起安排停機時間,因為在韌體更新期間必須停用 DDFS。執行下列命令以檢查目前的警示,並視需要加以解決。如果清理程序正在執行中,請將其停止。停用檔案系統。
# alerts show current# filesys clean status# filesys clean stop# filesys disable - 針對未進行儲存遷移的系統,檢查屬於 >=dg2 的 CA01/CA02 磁碟是否有自動支援。若為已進行儲存遷移的系統,具有 ext3 陣列的磁碟群組可能不是 dg2。
搜尋 ext3。顯示 dgXX 的DD_RAID方圖,其中 XX 為 DG 編號。請參閱下方「額外資訊」一節中的範例。如果 dg2/dgXX 磁碟具有 CA01/C02 韌體,則必須在 MDU 升級程序期間暫時暫停陣列。如果磁碟群組中的所有 I/O 活動未暫停,否則可能會觸發另一次故障。開啟支援案例,以取得暫停磁碟群組的協助。如果 dg2/dgXX 不包含 CA01/CA02 磁碟,則不需要支援案例。前往步驟 4。 - 上傳
drive-firmware-CA04.rpm從 DD System Manager UI。 - 升級磁碟。執行下列命令,並等待其完成。
# system upgrade start drive-firmware-CA04.rpm" - 等待約 10 分鐘。
- 確認所有磁碟均已升級。如果磁碟仍顯示 CA01/CA02 韌體,請重複步驟 5 和 6。
# disk show hardware - 檢查目前的磁碟狀態。如果有多個磁碟作業失敗,請連絡支援部門以取得協助。如果是單一磁碟故障,請檢查磁碟是否有任何錯誤歷程記錄,如果沒有錯誤,請將磁碟取消故障。
# disk unfail <disk.id> - 確認警示並啟用 DDFS。
# alerts show current# filesys enable
Additional Information
如何檢查具有 ext3 陣列且包含 CA01/CA02 韌體的 dg2/dgXX 磁碟。
若為非儲存遷移系統,dg2 具有 ext3 陣列。
搜尋下列行中的自動支援。(粗體)
- DD_RAID 直方圖
DD_RAID Histogram for dg2 0xafc318cb033dc226 DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0 Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0 Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9] Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
- Storage Show All (此命令也可在 DD CLI 上執行)
dg2 2.1-2.3, 2.13-2.15, 2.25-2.27, 14 7.2 TiB 2.37-2.39, 2.49-2.50
- Disk Show Hardware (此命令可在 DD CLI 上執行)
2.1 A0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R8GS 7.2 TiB SASe DG118000919 2.2 A1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REMW 7.2 TiB SASe DG118000919 2.3 A2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LM5C 7.2 TiB SASe DG118000919 2.13 B0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHX 7.2 TiB SASe DG118000919 2.14 B1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RF04 7.2 TiB SASe DG118000919 2.15 B2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHQE 7.2 TiB SASe DG118000919 2.25 C0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RE9Y 7.2 TiB SASe DG118000919 2.26 C1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LMME 7.2 TiB SASe DG118000919 2.27 C2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REW8 7.2 TiB SASe DG118000919 2.37 D0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHM 7.2 TiB SASe DG118000919 2.38 D1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHWR 7.2 TiB SASe DG118000919 2.39 D2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R862 7.2 TiB SASe DG118000919 2.49 E0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SSKK 7.2 TiB SASe DG118000919 2.50 E1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SV53 7.2 TiB SASe DG118000919 2.51 E2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R944 7.2 TiB SASe DG118000919
在上述範例中,磁碟機具有 CA01 韌體。必須開啟支援案例,Dell Technologies 才能協助暫停包含 ext3 陣列的磁碟群組 (dg2),然後再套用 MDU 升級。
對於儲存遷移的系統,包含 ext3 的陣列不可以是 dg2。搜尋下列行中的自動支援。(粗體)
Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)
Licenses -------- System locking-id: APX00123456789 Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode Capacity licenses: ## Feature Shelf Model Capacity Type State Expiration Date Note -- --------------- ------------ ----------- --------- ------ --------------- ---- 1 CAPACITY-ACTIVE HIGH_DENSITY 1396.98 TiB permanent active n/a -- --------------- ------------ ----------- --------- ------ --------------- ---- Licensed Active Tier capacity: 1396.98 TiB* * Depending on the hardware platform, usable filesystem capacities may vary. Feature licenses: ## Feature Count Type State Expiration Date Note -- ---------------------------------------- ----- ---------- ------ --------------- --------------- 1 REPLICATION 1 permanent active n/a 2 VTL 1 permanent active n/a 3 DDBOOST 1 permanent active n/a 4 RETENTION-LOCK-GOVERNANCE 1 permanent active n/a 5 ENCRYPTION 1 permanent active n/a 6 I/OS 1 permanent active n/a 7 RETENTION-LOCK-COMPLIANCE 1 permanent active n/a 8 STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS 6 evaluation grace 2023-11-20 -- ---------------------------------------- ----- ---------- ------ --------------- --------------- License file last modified at : 2022/08/29 11:02:13.
- DD_RAID 直方圖
DD_RAID Histogram for dg23 0x323d6b863ae21b8f DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0 Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0 Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf] Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
Storage Show All (This command can be ran on the DD CLI)
dg23 6.1-6.3, 6.13-6.15, 6.25-6.27, 14 7.2 TiB 6.37-6.39, 6.49-6.50
Disk Show Hardware (This command can be ran on the DD CLI)
6.1 A0 HITACHI H04728T8CLAR8000 A430 VYH2S3SS 7.2 TiB SASe DG118000785 6.2 A1 HITACHI H04728T8CLAR8000 A430 VYH2RVSS 7.2 TiB SASe DG118000785 6.3 A2 HITACHI H04728T8CLAR8000 A430 VYH2K9KS 7.2 TiB SASe DG118000785 6.13 B0 HITACHI H04728T8CLAR8000 A430 VYH2JJBS 7.2 TiB SASe DG118000785 6.14 B1 HITACHI H04728T8CLAR8000 A430 VYH1Y83S 7.2 TiB SASe DG118000785 6.15 B2 HITACHI H04728T8CLAR8000 A430 VYH2RNGS 7.2 TiB SASe DG118000785 6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785 6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785 6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785 6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785 6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785 6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785 6.47 D10 HITACHI H04728T8CLAR8000 A430 VYH1XGJS 7.2 TiB SASe DG118000785 6.48 D11 HITACHI H04728T8CLAR8000 A430 VYH20VHS 7.2 TiB SASe DG118000785 6.49 E0 HITACHI H04728T8CLAR8000 A430 VYH2G5XS 7.2 TiB SASe DG118000785
由於磁碟機沒有 CA01 和 CA02 韌體,因此不需要支援案例。前往上方「解決方案」一節中 MDU 升級步驟的步驟 3。