Data Domain:在 HA 系統故障轉移期間,多個驅動器發生故障 |CA01 CA02 韌體問題
摘要: 由於已知的磁碟機韌體問題,Data Domain High Availability (HA) 可能會在 HA 容錯移轉期間發生磁碟機故障。某些系統可能會在容錯移轉或重新開機後遇到檔案系統無法啟動的情況。
症狀
元件故障僅限於具有 CA01 和 CA02 韌體修訂版的 8 TB 磁碟機。通常會有多個 RAID 群組 (磁碟群組) 受到影響。它可以是單一降級(一個故障)或雙重降級(兩個磁碟故障)。
未重新開機的系統會遇到檔案系統中斷,但應自行還原;有多個磁碟重建正在進行中和擱置中。針對重新開機的系統,會強制進行容錯移轉,這可能會導致檔案系統在啟動期間停滯。
適用於:
- 僅限 DD9400 和 DD9900 型號
- 8 TB 硬碟 (位於外部儲存機櫃),搭配韌體 (FW) 版本 CA01 或 CA02
磁碟作業失敗症狀:
- 磁碟記錄報告
sense key 4/0x29/0xcd執行 SCSI WRITE 時cdb 0x8a,一個寫入命令錯誤會導致 DD_RAID 模組發生磁碟故障。
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
- DD_RAID 會因為「WRITE I/O」錯誤而使磁碟故障。
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16
DDFS 無法啟動症狀:
- 在
ddfs.info,以下訊息會在 DDFS 啟動期間持續很長時間。在 DDFS 程序終止強制容錯移轉至對等節點之前,它無法繼續進行。
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) =====
09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) =====
09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
...
09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub原因
解析度
修正:
- 已修正 DDOS 版本:DDOS 7.11.x、7.10.1.0 和 7.7.5.1 及更新版本均內建 CA04 韌體。
- 升級至較新的 DDOS 版本
- 所有其他 DDOS 7.x 版本均可使用最小破壞式升級 (MDU)。
- 連結到 MDU:讀我 + 下載:DDOS 7.X 硬碟韌體最小破壞性升級 (MDU) 套裝 - 2022 年 11 月 (需要以已註冊 Dell 支援使用者身分登入才能檢視文件)
-
套用 MDU 套件:
- 連線至 HA 系統的使用中節點。更新無法從被動或備用節點運作。
- 與使用者一起安排停機時間,因為在韌體更新期間必須停用 DDFS。執行下列命令以檢查目前的警示,並視需要加以解決。如果清理程序正在執行中,請將其停止。停用檔案系統。
# alerts show current# filesys clean status# filesys clean stop# filesys disable - 針對未進行儲存遷移的系統,檢查屬於 >=dg2 的 CA01/CA02 磁碟是否有自動支援。若為已進行儲存遷移的系統,具有 ext3 陣列的磁碟群組可能不是 dg2。
搜尋 ext3。顯示 dgXX 的DD_RAID方圖,其中 XX 為 DG 編號。請參閱下方「額外資訊」一節中的範例。如果 dg2/dgXX 磁碟具有 CA01/C02 韌體,則必須在 MDU 升級程序期間暫時暫停陣列。如果磁碟群組中的所有 I/O 活動未暫停,否則可能會觸發另一次故障。開啟支援案例,以取得暫停磁碟群組的協助。如果 dg2/dgXX 不包含 CA01/CA02 磁碟,則不需要支援案例。前往步驟 4。 - 上傳
drive-firmware-CA04.rpm從 DD System Manager UI。 - 升級磁碟。執行下列命令,並等待其完成。
# system upgrade start drive-firmware-CA04.rpm" - 等待約 10 分鐘。
- 確認所有磁碟均已升級。如果磁碟仍顯示 CA01/CA02 韌體,請重複步驟 5 和 6。
# disk show hardware - 檢查目前的磁碟狀態。如果有多個磁碟作業失敗,請連絡支援部門以取得協助。如果是單一磁碟故障,請檢查磁碟是否有任何錯誤歷程記錄,如果沒有錯誤,請將磁碟取消故障。
# disk unfail <disk.id> - 確認警示並啟用 DDFS。
# alerts show current# filesys enable
因應措施
- 如果 發生重新開機或容錯移轉:
- DD_RAID無法對故障的磁碟機進行故障復原。
- 允許完成傳統的同位檢查磁碟重建。
- 停用 GC ,直到所有重建完成。
- 如果檔案系統無法啟動,請參閱 DDFS TSE。
- 如果未進行 重新開機或容錯移轉:
- DD_RAID TSE 可透過以下方式手動進行磁碟故障復原:
dd_raidtool。 - 故障的磁碟插槽必須重新啟動電源 (請聯絡 Dell 支援)。
- 請等到重建超過 50% 後,再切換至故障復原重建。
- 重建後,如果插槽已重新啟動電源,則磁碟可能「未故障」。
- DD_RAID TSE 可透過以下方式手動進行磁碟故障復原:
其他資訊
常見問答集
問:是否可以在 Data Domain 檔案系統連線時執行韌體升級?
一個:沒有。在韌體升級期間,DDFS 必須 停用 。
問:套用韌體更新後,是否需要將系統重新開機?
一個:沒有。 不需要重新開機。
問:韌體是否可以套用至被動節點?
一個:沒有。 更新必須僅在主動節點上執行。
問:180 至 240 個磁碟機 (4 個 DS60 分層架) 的韌體升級需要多久時間?
一個:升級以 並行模式 執行,通常會在 10 至 15 分鐘內完成 (前提是沒有問題)。
問:如果某些磁碟機未更新,系統會自動重試更新嗎?
一個:沒有。必須 手動重新執行 更新,或為剩餘的磁碟機重複執行更新。如需手動更新步驟,請參閱「其他資訊」。
問:是否也應將韌體修補程式套用至非 HA Data Domain 系統?
一個:可以。建議將 磁碟機-韌體-CA04.RPM 修補程式套用至所有執行舊版韌體的 8 TB 磁碟機系統。
問:如果磁碟機在更新期間故障,是否可以復原?
一個:
- 如果磁碟顯示錯誤歷程記錄 (請檢查
disk show reliability-data),它必須保持故障並進行更換。 - 如果沒有錯誤,請執行:
這會將磁碟標記為備援磁碟。disk unfail <disk.id> - 如果更換的磁碟機使用舊版 CA01/CA02 韌體,則必須手動更新。請參閱其他資訊中的「如何手動更新更換的磁碟機」。
問:為什麼即使停用 DDFS,仍必須暫停磁碟群組 2 (dg2) 中的活動?
一個:DDOS 會繼續存取 dg2 中的 EXT3 掛接 。暫停 I/O 活動可防止升級期間發生其他故障。
問:如何檢查具有 ext3 陣列且包含 CA01/CA02 韌體的 dg2/dgXX 磁碟。
一個:若為非儲存遷移系統,dg2 具有 ext3 陣列。
在自動支援中搜尋下列行。(粗體)
- DD_RAID 直方圖
DD_RAID Histogram for dg2 0xafc318cb033dc226
DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0
Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary
Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
- Storage Show All (此命令也可在 DD CLI 上執行)
dg2 2.1-2.3, 2.13-2.15, 2.25-2.27, 14 7.2 TiB
2.37-2.39, 2.49-2.50
- Disk Show Hardware (此命令可在 DD CLI 上執行)
2.1 A0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R8GS 7.2 TiB SASe DG118000919
2.2 A1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REMW 7.2 TiB SASe DG118000919
2.3 A2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LM5C 7.2 TiB SASe DG118000919
2.13 B0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHX 7.2 TiB SASe DG118000919
2.14 B1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RF04 7.2 TiB SASe DG118000919
2.15 B2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHQE 7.2 TiB SASe DG118000919
2.25 C0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RE9Y 7.2 TiB SASe DG118000919
2.26 C1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LMME 7.2 TiB SASe DG118000919
2.27 C2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REW8 7.2 TiB SASe DG118000919
2.37 D0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHM 7.2 TiB SASe DG118000919
2.38 D1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHWR 7.2 TiB SASe DG118000919
2.39 D2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R862 7.2 TiB SASe DG118000919
2.49 E0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SSKK 7.2 TiB SASe DG118000919
2.50 E1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SV53 7.2 TiB SASe DG118000919
2.51 E2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R944 7.2 TiB SASe DG118000919
在上述範例中,磁碟機具有 CA01 韌體。必須開啟支援案例,Dell Technologies 才能協助暫停包含 ext3 陣列的磁碟群組 (dg2),然後再套用 MDU 升級。
對於儲存遷移的系統,包含 ext3 的陣列不可以是 dg2。搜尋下列行中的自動支援。(粗體)
Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)
Licenses
--------
System locking-id: APX00123456789
Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode
Capacity licenses:
## Feature Shelf Model Capacity Type State Expiration Date Note
-- --------------- ------------ ----------- --------- ------ --------------- ----
1 CAPACITY-ACTIVE HIGH_DENSITY 1396.98 TiB permanent active n/a
-- --------------- ------------ ----------- --------- ------ --------------- ----
Licensed Active Tier capacity: 1396.98 TiB*
* Depending on the hardware platform, usable filesystem capacities may vary.
Feature licenses:
## Feature Count Type State Expiration Date Note
-- ---------------------------------------- ----- ---------- ------ --------------- ---------------
1 REPLICATION 1 permanent active n/a
2 VTL 1 permanent active n/a
3 DDBOOST 1 permanent active n/a
4 RETENTION-LOCK-GOVERNANCE 1 permanent active n/a
5 ENCRYPTION 1 permanent active n/a
6 I/OS 1 permanent active n/a
7 RETENTION-LOCK-COMPLIANCE 1 permanent active n/a
8 STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS 6 evaluation grace 2023-11-20
-- ---------------------------------------- ----- ---------- ------ --------------- ---------------
License file last modified at : 2022/08/29 11:02:13.
- DD_RAID 直方圖
DD_RAID Histogram for dg23 0x323d6b863ae21b8f
DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0
Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary
Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
Storage Show All (This command can be ran on the DD CLI)
dg23 6.1-6.3, 6.13-6.15, 6.25-6.27, 14 7.2 TiB
6.37-6.39, 6.49-6.50
Disk Show Hardware (This command can be ran on the DD CLI)
6.1 A0 HITACHI H04728T8CLAR8000 A430 VYH2S3SS 7.2 TiB SASe DG118000785
6.2 A1 HITACHI H04728T8CLAR8000 A430 VYH2RVSS 7.2 TiB SASe DG118000785
6.3 A2 HITACHI H04728T8CLAR8000 A430 VYH2K9KS 7.2 TiB SASe DG118000785
6.13 B0 HITACHI H04728T8CLAR8000 A430 VYH2JJBS 7.2 TiB SASe DG118000785
6.14 B1 HITACHI H04728T8CLAR8000 A430 VYH1Y83S 7.2 TiB SASe DG118000785
6.15 B2 HITACHI H04728T8CLAR8000 A430 VYH2RNGS 7.2 TiB SASe DG118000785
6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785
6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785
6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785
6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785
6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785
6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785
6.47 D10 HITACHI H04728T8CLAR8000 A430 VYH1XGJS 7.2 TiB SASe DG118000785
6.48 D11 HITACHI H04728T8CLAR8000 A430 VYH20VHS 7.2 TiB SASe DG118000785
6.49 E0 HITACHI H04728T8CLAR8000 A430 VYH2G5XS 7.2 TiB SASe DG118000785
由於磁碟機沒有 CA01 和 CA02 韌體,因此不需要支援案例。前往上方「解決方案」一節中 MDU 升級步驟的步驟 3。