Data Domain:在 HA 系統故障轉移期間,多個驅動器發生故障 |CA01 CA02 韌體問題

Summary: 由於已知的磁碟機韌體問題,Data Domain High Availability (HA) 可能會在 HA 容錯移轉期間發生磁碟機故障。某些系統可能會在容錯移轉或重新開機後遇到檔案系統無法啟動的情況。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

元件故障僅限於具有 CA01 和 CA02 韌體修訂版的 8 TB 磁碟機。通常會有多個 RAID 群組 (磁碟群組) 受到影響。它可以是單一降級 (一個故障) 或雙重降級 (兩個磁碟故障)。

未重新開機的系統發生檔案系統中斷,但應自行還原;多個磁碟重建正在進行,且在擱置中。針對重新開機的系統,容錯移轉會強制進行,這可能會導致檔案系統在啟動期間停滯。

適用於:

  • 僅限 DD9400 和 DD9900 型號
  • 8 TB 硬碟 (位於外部儲存機櫃),搭配韌體 (FW) 版本 CA01 或 CA02

修正:


注意:套用 MDU 時,應停用檔案系統。


磁碟作業失敗症狀:

  • 磁碟記錄報告感應金鑰 4/0x29/0xcd 執行 SCSI WRITE 時 cdb 0x8a,一個寫入命令錯誤會導致 DD_RAID 模組磁碟故障。
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
  • DD_RAID 會因為「WRITE I/O」錯誤而使磁碟故障。
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16

DDFS 無法啟動症狀:

  • 在 ddfs.info 中,以下訊息會在 DDFS 啟動期間持續很長一段時間。在 DDFS 程序終止強制容錯移轉至對等節點之前,它無法繼續進行。
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) =====
09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) =====

09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
...
09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub

Cause

磁碟作業失敗狀況的根本原因:
磁碟的 DRAM 快取緩衝區在隨機 I/O 工作負載下遇到錯誤的資料完整性錯誤。磁碟機製造商已提供韌體修正以解決此問題。

Resolution

因應措施

如果發生重新開機或容錯移轉,DD_RAID「failback」故障的磁碟機的功能將不適用。在這種情況下,請允許完成傳統磁碟重建 (同位)。停用 GC,直到完成所有磁碟重建。如果檔案系統在重新開機或容錯移轉後發生啟動問題,請先參閱 DDFS TSE,再終止 DDFS 程序。

如果沒有重新開機或容錯移轉,DD_RAID 可以「failback」重建故障的磁碟。這是手動作業,使用「dd_raidtool」在 Bash 下運作。在啟動磁碟「故障回復」之前,必須重新啟動故障的磁碟插槽;請聯絡 Dell 技術支援部門 以完成此作業。

根據實務經驗,允許磁碟重建超過 50% 以完成重建,而不是切換到故障復原重建。

完成所有重建後,仍有故障的磁碟機可能是「unfailed」(如果其各自的插槽已重新啟動電源)。 


修正

磁碟韌體版本 CA04 現在以 DDOS 升級套件的形式作為 MDU 修補程式提供。請聯絡支援部門以取得 RPM 的複本。它位於 /auto/cores/drive-firmware-rpm/drive-firmware-CA04.rpm


常見問答集: 

  1. 是否可以使用線上的 Data Domain 檔案系統進行升級?
    否,DDFS 在韌體升級期間必須離線|停用。
  2. 是否需要重新開機?
    否,不需要重新開機。
  3. 韌體是否可以套用至被動節點?
    否,它不能應用於被動節點。它必須僅在使用中節點上執行。
  4. 完成 180-240(4-DS60) 磁碟機的韌體 drive-firmware-CA04.RPM 升級需要多少時間?
    升級處於平行模式,如果沒有問題的話,則需要 10 至 15 分鐘。
  5. 如果未更新所有磁碟機,系統會自動更新非 CA04 磁碟機嗎?
    否,更新必須再次重新執行,也可以手動完成。請參閱下方「其他資訊」。
  6. 是否必須將此韌體 drive-firmware-CA04?RPM 修補程式也套用至其他非 HA DD 上,因為這些磁碟機在舊版韌體上可能也有磁碟機?
    建議您也將韌體 drive-firmware-CA04.RPM 套用至具有 8 TB 磁碟機的非 HA DD。
  7. 如果磁碟機在更新期間故障,是否可以取消故障?
    如果在韌體更新之前或期間磁碟機故障,請檢查磁碟的錯誤歷程記錄 (例如「磁碟顯示可靠性資料」)。如果磁碟有任何錯誤,則必須維持其故障狀態,並將其更換。如果磁碟沒有任何錯誤,請執行命令「disk unfail <disk.id>」使磁碟機取消故障,並將其設為備援。如果將故障的磁碟機更換為具有舊版 CA01/CA02 磁碟機韌體的磁碟機,則必須手動更新該磁碟機。請參閱下方其他章節中的「如何手動更新更換磁碟機」。
  8. 為什麼即使 DDFS 關閉,仍必須暫停磁碟群組 2 (dg2) 中的活動?
    DDOS 仍可存取存在於 dg2 中的 EXT3 掛接。


套用 MDU 套件:

  1. 連線至 HA 系統的使用中節點。更新無法從被動或備用節點運作。
  2. 與使用者一起安排停機時間,因為在韌體更新期間必須停用 DDFS。執行下列命令以檢查目前的警示,並視需要加以解決。如果清理程序正在執行中,請將其停止。停用檔案系統。 
                # alerts show current
          # filesys clean status
          # filesys clean stop
          # filesys disable
  3. 針對未進行儲存遷移的系統,檢查屬於 >=dg2 的 CA01/CA02 磁碟是否有自動支援。若為已進行儲存遷移的系統,具有 ext3 陣列的磁碟群組可能不是 dg2。
    搜尋 ext3。顯示 dgXX 的DD_RAID方圖,其中 XX 為 DG 編號。請參閱下方「額外資訊」一節中的範例。如果 dg2/dgXX 磁碟具有 CA01/C02 韌體,則必須在 MDU 升級程序期間暫時暫停陣列。如果磁碟群組中的所有 I/O 活動未暫停,否則可能會觸發另一次故障。開啟支援案例,以取得暫停磁碟群組的協助。如果 dg2/dgXX 不包含 CA01/CA02 磁碟,則不需要支援案例。前往步驟 4。
  4. 上傳 drive-firmware-CA04.rpm 從 DD System Manager UI。
  5. 升級磁碟。執行下列命令,並等待其完成。 
               # system upgrade start drive-firmware-CA04.rpm"
  6. 等待約 10 分鐘。
  7. 確認所有磁碟均已升級。如果磁碟仍顯示 CA01/CA02 韌體,請重複步驟 5 和 6。 
               # disk show hardware
  8. 檢查目前的磁碟狀態。如果有多個磁碟作業失敗,請連絡支援部門以取得協助。如果是單一磁碟故障,請檢查磁碟是否有任何錯誤歷程記錄,如果沒有錯誤,請將磁碟取消故障。 
              # disk unfail <disk.id>
  9. 確認警示並啟用 DDFS。 
              # alerts show current
              # filesys enable

Additional Information

如何檢查具有 ext3 陣列且包含 CA01/CA02 韌體的 dg2/dgXX 磁碟。
若為非儲存遷移系統,dg2 具有 ext3 陣列。

搜尋下列行中的自動支援。(粗體)

  • DD_RAID 直方圖
DD_RAID Histogram for dg2 0xafc318cb033dc226
DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
  • Storage Show All (此命令也可在 DD CLI 上執行)
dg2       2.1-2.3, 2.13-2.15, 2.25-2.27,     14      7.2 TiB               
          2.37-2.39, 2.49-2.50
  • Disk Show Hardware (此命令可在 DD CLI 上執行)
2.1          A0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R8GS       7.2 TiB    SASe      DG118000919             
2.2          A1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REMW       7.2 TiB    SASe      DG118000919             
2.3          A2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LM5C       7.2 TiB    SASe      DG118000919      
2.13         B0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHX       7.2 TiB    SASe      DG118000919             
2.14         B1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RF04       7.2 TiB    SASe      DG118000919             
2.15         B2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHQE       7.2 TiB    SASe      DG118000919    
2.25         C0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RE9Y       7.2 TiB    SASe      DG118000919             
2.26         C1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LMME       7.2 TiB    SASe      DG118000919             
2.27         C2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REW8       7.2 TiB    SASe      DG118000919
2.37         D0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHM       7.2 TiB    SASe      DG118000919             
2.38         D1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHWR       7.2 TiB    SASe      DG118000919             
2.39         D2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R862       7.2 TiB    SASe      DG118000919     
2.49         E0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SSKK       7.2 TiB    SASe      DG118000919             
2.50         E1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SV53       7.2 TiB    SASe      DG118000919             
2.51         E2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R944       7.2 TiB    SASe      DG118000919

 

在上述範例中,磁碟機具有 CA01 韌體。必須開啟支援案例,Dell Technologies 才能協助暫停包含 ext3 陣列的磁碟群組 (dg2),然後再套用 MDU 升級。

對於儲存遷移的系統,包含 ext3 的陣列不可以是 dg2。搜尋下列行中的自動支援。(粗體)

  • Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)

 

Licenses
--------
System locking-id: APX00123456789
Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode
Capacity licenses:
##   Feature           Shelf Model    Capacity      Type        State    Expiration Date   Note
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
1    CAPACITY-ACTIVE   HIGH_DENSITY   1396.98 TiB   permanent   active   n/a                   
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
Licensed Active Tier capacity: 1396.98 TiB*
* Depending on the hardware platform, usable filesystem capacities may vary.
Feature licenses:
##   Feature                                    Count   Type         State    Expiration Date   Note           
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
1    REPLICATION                                    1   permanent    active   n/a                              
2    VTL                                            1   permanent    active   n/a                              
3    DDBOOST                                        1   permanent    active   n/a                              
4    RETENTION-LOCK-GOVERNANCE                      1   permanent    active   n/a                              
5    ENCRYPTION                                     1   permanent    active   n/a                              
6    I/OS                                           1   permanent    active   n/a                              
7    RETENTION-LOCK-COMPLIANCE                      1   permanent    active   n/a                              
8    STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS       6   evaluation   grace    2023-11-20        
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
License file last modified at : 2022/08/29 11:02:13.
  • DD_RAID 直方圖
DD_RAID Histogram for dg23 0x323d6b863ae21b8f
DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
  • Storage Show All (This command can be ran on the DD CLI)
dg23      6.1-6.3, 6.13-6.15, 6.25-6.27,     14      7.2 TiB               
          6.37-6.39, 6.49-6.50

 

  • Disk Show Hardware (This command can be ran on the DD CLI)
6.1          A0     HITACHI H04728T8CLAR8000   A430       VYH2S3SS         7.2 TiB    SASe      DG118000785             
6.2          A1     HITACHI H04728T8CLAR8000   A430       VYH2RVSS         7.2 TiB    SASe      DG118000785             
6.3          A2     HITACHI H04728T8CLAR8000   A430       VYH2K9KS         7.2 TiB    SASe      DG118000785          
6.13         B0     HITACHI H04728T8CLAR8000   A430       VYH2JJBS         7.2 TiB    SASe      DG118000785             
6.14         B1     HITACHI H04728T8CLAR8000   A430       VYH1Y83S         7.2 TiB    SASe      DG118000785             
6.15         B2     HITACHI H04728T8CLAR8000   A430       VYH2RNGS         7.2 TiB    SASe      DG118000785    
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785  
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785           
6.47         D10    HITACHI H04728T8CLAR8000   A430       VYH1XGJS         7.2 TiB    SASe      DG118000785             
6.48         D11    HITACHI H04728T8CLAR8000   A430       VYH20VHS         7.2 TiB    SASe      DG118000785             
6.49         E0     HITACHI H04728T8CLAR8000   A430       VYH2G5XS         7.2 TiB    SASe      DG118000785


由於磁碟機沒有 CA01 和 CA02 韌體,因此不需要支援案例。前往上方「解決方案」一節中 MDU 升級步驟的步驟 3。

Affected Products

Data Domain, DD9400 Appliance, DD9900 Appliance

Products

DD OS 7.11
Article Properties
Article Number: 000204252
Article Type: Solution
Last Modified: 30 Oct 2025
Version:  19
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.