Data Domain:在 HA 系統故障轉移期間,多個驅動器發生故障 |CA01 CA02 韌體問題

摘要: 由於已知的磁碟機韌體問題,Data Domain High Availability (HA) 可能會在 HA 容錯移轉期間發生磁碟機故障。某些系統可能會在容錯移轉或重新開機後遇到檔案系統無法啟動的情況。

本文章適用於 本文章不適用於 本文無關於任何特定產品。 本文未識別所有產品版本。

症狀

元件故障僅限於具有 CA01 和 CA02 韌體修訂版的 8 TB 磁碟機。通常會有多個 RAID 群組 (磁碟群組) 受到影響。它可以是單一降級(一個故障)或雙重降級(兩個磁碟故障)。

未重新開機的系統會遇到檔案系統中斷,但應自行還原;有多個磁碟重建正在進行中和擱置中。針對重新開機的系統,會強制進行容錯移轉,這可能會導致檔案系統在啟動期間停滯。

適用於:

  • 僅限 DD9400 和 DD9900 型號
  • 8 TB 硬碟 (位於外部儲存機櫃),搭配韌體 (FW) 版本 CA01 或 CA02

磁碟作業失敗症狀:

  • 磁碟記錄報告 sense key 4/0x29/0xcd 執行 SCSI WRITE 時 cdb 0x8a, 一個寫入命令錯誤會導致 DD_RAID 模組發生磁碟故障。
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
  • DD_RAID 會因為「WRITE I/O」錯誤而使磁碟故障。
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16

DDFS 無法啟動症狀:

  • ddfs.info,以下訊息會在 DDFS 啟動期間持續很長時間。在 DDFS 程序終止強制容錯移轉至對等節點之前,它無法繼續進行。
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) =====
09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) =====

09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
...
09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub

原因

磁碟機的 DRAM 快取緩衝區在隨機 I/O 工作負載下遇到 錯誤的資料完整性錯誤 。這會觸發磁碟作業失敗。
磁碟機製造商已提供韌體修正以解決此問題。

解析度

修正:

  • 已修正 DDOS 版本:DDOS 7.11.x、7.10.1.0 和 7.7.5.1 及更新版本均內建 CA04 韌體。
    • 升級至較新的 DDOS 版本
  • 所有其他 DDOS 7.x 版本均可使用最小破壞式升級 (MDU)。
    • 連結到 MDU:讀我 + 下載:DDOS 7.X 硬碟韌體最小破壞性升級 (MDU) 套裝 - 2022 年 11 月 (需要以已註冊 Dell 支援使用者身分登入才能檢視文件)
    • 套用 MDU 套件:

      1. 連線至 HA 系統的使用中節點。更新無法從被動或備用節點運作。
      2. 與使用者一起安排停機時間,因為在韌體更新期間必須停用 DDFS。執行下列命令以檢查目前的警示,並視需要加以解決。如果清理程序正在執行中,請將其停止。停用檔案系統。 
                    # alerts show current
              # filesys clean status
              # filesys clean stop
              # filesys disable
      3. 針對未進行儲存遷移的系統,檢查屬於 >=dg2 的 CA01/CA02 磁碟是否有自動支援。若為已進行儲存遷移的系統,具有 ext3 陣列的磁碟群組可能不是 dg2。
        搜尋 ext3。顯示 dgXX 的DD_RAID方圖,其中 XX 為 DG 編號。請參閱下方「額外資訊」一節中的範例。如果 dg2/dgXX 磁碟具有 CA01/C02 韌體,則必須在 MDU 升級程序期間暫時暫停陣列。如果磁碟群組中的所有 I/O 活動未暫停,否則可能會觸發另一次故障。開啟支援案例,以取得暫停磁碟群組的協助。如果 dg2/dgXX 不包含 CA01/CA02 磁碟,則不需要支援案例。前往步驟 4。
      4. 上傳 drive-firmware-CA04.rpm 從 DD System Manager UI。
      5. 升級磁碟。執行下列命令,並等待其完成。 
                   # system upgrade start drive-firmware-CA04.rpm"
      6. 等待約 10 分鐘。
      7. 確認所有磁碟均已升級。如果磁碟仍顯示 CA01/CA02 韌體,請重複步驟 5 和 6。 
                   # disk show hardware
      8. 檢查目前的磁碟狀態。如果有多個磁碟作業失敗,請連絡支援部門以取得協助。如果是單一磁碟故障,請檢查磁碟是否有任何錯誤歷程記錄,如果沒有錯誤,請將磁碟取消故障。 
                  # disk unfail <disk.id>
      9. 確認警示並啟用 DDFS。 
                  # alerts show current
                  # filesys enable
注意:套用 MDU 時,應停用檔案系統。

因應措施

  • 如果 發生重新開機或容錯移轉
    • DD_RAID無法對故障的磁碟機進行故障復原。
    • 允許完成傳統的同位檢查磁碟重建。
    • 停用 GC ,直到所有重建完成。
    • 如果檔案系統無法啟動,請參閱 DDFS TSE
  • 如果未進行 重新開機或容錯移轉
    • DD_RAID TSE 可透過以下方式手動進行磁碟故障復原: dd_raidtool
    • 故障的磁碟插槽必須重新啟動電源 (請聯絡 Dell 支援)。
    • 請等到重建超過 50% 後,再切換至故障復原重建。
    • 重建後,如果插槽已重新啟動電源,則磁碟可能「未故障」。

其他資訊

常見問答集

問:是否可以在 Data Domain 檔案系統連線時執行韌體升級?
一個:沒有。在韌體升級期間,DDFS 必須 停用


問:套用韌體更新後,是否需要將系統重新開機?
一個:沒有。 不需要重新開機。


問:韌體是否可以套用至被動節點?
一個:沒有。 更新必須僅在主動節點上執行。


問:180 至 240 個磁碟機 (4 個 DS60 分層架) 的韌體升級需要多久時間?
一個:升級以 並行模式 執行,通常會在 10 至 15 分鐘內完成 (前提是沒有問題)。


問:如果某些磁碟機未更新,系統會自動重試更新嗎?
一個:沒有。必須 手動重新執行 更新,或為剩餘的磁碟機重複執行更新。如需手動更新步驟,請參閱「其他資訊」。


問:是否也應將韌體修補程式套用至非 HA Data Domain 系統?
一個:可以。建議將 磁碟機-韌體-CA04.RPM 修補程式套用至所有執行舊版韌體的 8 TB 磁碟機系統。


問:如果磁碟機在更新期間故障,是否可以復原?
一個:

  • 如果磁碟顯示錯誤歷程記錄 (請檢查 disk show reliability-data),它必須保持故障並進行更換。
  • 如果沒有錯誤,請執行:
    disk unfail <disk.id>
    
    這會將磁碟標記為備援磁碟。
  • 如果更換的磁碟機使用舊版 CA01/CA02 韌體,則必須手動更新。請參閱其他資訊中的「如何手動更新更換的磁碟機」。

問:為什麼即使停用 DDFS,仍必須暫停磁碟群組 2 (dg2) 中的活動?
一個:DDOS 會繼續存取 dg2 中的 EXT3 掛接 。暫停 I/O 活動可防止升級期間發生其他故障。


問:如何檢查具有 ext3 陣列且包含 CA01/CA02 韌體的 dg2/dgXX 磁碟。
一個:若為非儲存遷移系統,dg2 具有 ext3 陣列。

在自動支援中搜尋下列行。(粗體)

  • DD_RAID 直方圖
DD_RAID Histogram for dg2 0xafc318cb033dc226
DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
  • Storage Show All (此命令也可在 DD CLI 上執行)
dg2       2.1-2.3, 2.13-2.15, 2.25-2.27,     14      7.2 TiB               
          2.37-2.39, 2.49-2.50
  • Disk Show Hardware (此命令可在 DD CLI 上執行)
2.1          A0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R8GS       7.2 TiB    SASe      DG118000919             
2.2          A1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REMW       7.2 TiB    SASe      DG118000919             
2.3          A2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LM5C       7.2 TiB    SASe      DG118000919      
2.13         B0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHX       7.2 TiB    SASe      DG118000919             
2.14         B1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RF04       7.2 TiB    SASe      DG118000919             
2.15         B2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHQE       7.2 TiB    SASe      DG118000919    
2.25         C0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RE9Y       7.2 TiB    SASe      DG118000919             
2.26         C1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LMME       7.2 TiB    SASe      DG118000919             
2.27         C2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REW8       7.2 TiB    SASe      DG118000919
2.37         D0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHM       7.2 TiB    SASe      DG118000919             
2.38         D1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHWR       7.2 TiB    SASe      DG118000919             
2.39         D2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R862       7.2 TiB    SASe      DG118000919     
2.49         E0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SSKK       7.2 TiB    SASe      DG118000919             
2.50         E1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SV53       7.2 TiB    SASe      DG118000919             
2.51         E2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R944       7.2 TiB    SASe      DG118000919

在上述範例中,磁碟機具有 CA01 韌體。必須開啟支援案例,Dell Technologies 才能協助暫停包含 ext3 陣列的磁碟群組 (dg2),然後再套用 MDU 升級。

對於儲存遷移的系統,包含 ext3 的陣列不可以是 dg2。搜尋下列行中的自動支援。(粗體)

  • Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)

 

Licenses
--------
System locking-id: APX00123456789
Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode
Capacity licenses:
##   Feature           Shelf Model    Capacity      Type        State    Expiration Date   Note
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
1    CAPACITY-ACTIVE   HIGH_DENSITY   1396.98 TiB   permanent   active   n/a                   
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
Licensed Active Tier capacity: 1396.98 TiB*
* Depending on the hardware platform, usable filesystem capacities may vary.
Feature licenses:
##   Feature                                    Count   Type         State    Expiration Date   Note           
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
1    REPLICATION                                    1   permanent    active   n/a                              
2    VTL                                            1   permanent    active   n/a                              
3    DDBOOST                                        1   permanent    active   n/a                              
4    RETENTION-LOCK-GOVERNANCE                      1   permanent    active   n/a                              
5    ENCRYPTION                                     1   permanent    active   n/a                              
6    I/OS                                           1   permanent    active   n/a                              
7    RETENTION-LOCK-COMPLIANCE                      1   permanent    active   n/a                              
8    STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS       6   evaluation   grace    2023-11-20        
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
License file last modified at : 2022/08/29 11:02:13.
  • DD_RAID 直方圖
DD_RAID Histogram for dg23 0x323d6b863ae21b8f
DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
  • Storage Show All (This command can be ran on the DD CLI)
dg23      6.1-6.3, 6.13-6.15, 6.25-6.27,     14      7.2 TiB               
          6.37-6.39, 6.49-6.50

 

  • Disk Show Hardware (This command can be ran on the DD CLI)
6.1          A0     HITACHI H04728T8CLAR8000   A430       VYH2S3SS         7.2 TiB    SASe      DG118000785             
6.2          A1     HITACHI H04728T8CLAR8000   A430       VYH2RVSS         7.2 TiB    SASe      DG118000785             
6.3          A2     HITACHI H04728T8CLAR8000   A430       VYH2K9KS         7.2 TiB    SASe      DG118000785          
6.13         B0     HITACHI H04728T8CLAR8000   A430       VYH2JJBS         7.2 TiB    SASe      DG118000785             
6.14         B1     HITACHI H04728T8CLAR8000   A430       VYH1Y83S         7.2 TiB    SASe      DG118000785             
6.15         B2     HITACHI H04728T8CLAR8000   A430       VYH2RNGS         7.2 TiB    SASe      DG118000785    
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785  
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785           
6.47         D10    HITACHI H04728T8CLAR8000   A430       VYH1XGJS         7.2 TiB    SASe      DG118000785             
6.48         D11    HITACHI H04728T8CLAR8000   A430       VYH20VHS         7.2 TiB    SASe      DG118000785             
6.49         E0     HITACHI H04728T8CLAR8000   A430       VYH2G5XS         7.2 TiB    SASe      DG118000785


由於磁碟機沒有 CA01 和 CA02 韌體,因此不需要支援案例。前往上方「解決方案」一節中 MDU 升級步驟的步驟 3。

受影響的產品

Data Domain, DD9400 Appliance, DD9900 Appliance

產品

DD OS 7.11
文章屬性
文章編號: 000204252
文章類型: Solution
上次修改時間: 16 12月 2025
版本:  20
向其他 Dell 使用者尋求您問題的答案
支援服務
檢查您的裝置是否在支援服務的涵蓋範圍內。