「Data Domain:HAシステムのフェイルオーバー中に複数のドライブに障害が発生する |CA01 CA02 FWの問題

Summary: Data Domain High Availability (HA)では、ドライブ ファームウェアの既知の問題により、HAフェールオーバー中にドライブ障害が発生する可能性があります。一部のシステムでは、フェールオーバーまたは再起動後にファイル システムを起動できない場合があります。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

コンポーネント障害は、ファームウェア リビジョンCA01およびCA02の8 TBドライブに限定されています。通常、複数のRAIDグループ(ディスク グループ)が影響を受けます。単一の縮退(1つの障害)または二重の縮退(2つのディスク障害)の可能性があります。

再起動しないシステムでは、ファイル システムが中断されますが、自動的に回復するはずです。複数のディスク再構築が進行中および保留中です。再起動するシステムでは、フェールオーバーが強制され、起動中にファイル システムがスタックする可能性があります。

適用対象:

  • DD9400およびDD9900モデルのみ
  • ファームウェア(FW)バージョンCA01またはCA02を搭載した外部ストレージ エンクロージャ内の8 TBハードドライブ

Fix:


注:MDUを適用する場合は、ファイルシステムを無効にする必要があります。


ディスク障害の症状:

  • ディスク ログはセンス キー 4/0x29/0xcd を報告し(SCSI WRITE cdb 0x8aの実行時)、1つの書き込みコマンド エラーがDD_RAIDモジュールによるディスク障害を引き起こします。
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
  • 「書き込みI/O」エラーにより、DD_RAIDがディスクに障害を発生させます。
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16

DDFSを起動できない症状:

  • ddfs.infoでは、DDFSの起動中に以下のメッセージが長時間表示されます。DDFSプロセスが終了してピアー ノードへのフェールオーバーが強制されるまで、処理は進行しません。
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) =====
09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) =====

09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
...
09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub

Cause

ディスク障害状態の根本原因:
ドライブのDRAMキャッシュ バッファーで、ランダムI/Oワークロードの下で誤ったデータ整合性エラーが発生します。ドライブの製造元は、この問題を解決するためのファームウェア修正を提供しています。

Resolution

対策

再起動またはフェールオーバーが発生した場合、障害が発生したドライブを「failback」するDD_RAIDの機能はオプションではありません。この場合は、従来のディスクの再構築(パリティー)を完了させます。すべてのディスクの再構築が完了するまで、GCを無効にします。再起動またはフェールオーバー後にファイル システムの起動に問題がある場合は、DDFSプロセスを終了する前にDDFS TSEに相談してください。

再起動またはフェールオーバーが発生していない場合は、DD_RAIDは障害が発生したディスクを「failback」および再構築することができます。この処理は、bashで「dd_raidtool」を使用して手動で行います。ディスクの「フェールバック」を開始する前に、障害が発生したディスク スロットの電源を入れ直す必要があります。これを実行するには 、Dellテクニカル サポート にお問い合わせください。

実践的な経験に基づいて、フェールバック再構築に切り替えるのではなく、50%を超えるディスク再構築を完了させます。

すべての再構築が完了した後、各スロットの電源が再投入されていれば、まだ障害が発生しているドライブを「unfailed」することができます。 


修正

ディスク ファームウェア バージョンCA04は、DDOSアップグレード パッケージの形式でMDUパッチとして利用できるようになりました。RPMのコピーについては、サポートにお問い合わせください。場所は /auto/cores/drive-firmware-rpm/drive-firmware-CA04.rpmの詳細を確認してください。


よくある質問: 

  1. Data Domainファイル システムをオンラインにしたままアップグレードを実行できますか?
    いいえ、FWアップグレードは、DDFSがオフライン(無効)の状態で実行する必要があります。
  2. 再起動は必要ですか?
    いいえ。再起動する必要はありません。
  3. FWはパッシブ ノードに適用できますか
    いいえ。パッシブ ノードには適用できません。アクティブ ノードでのみ実行する必要があります。
  4. 180-240 (4-DS60)ドライブのファームウェアdrive-firmware-CA04.RPMのアップグレードが完了するまでにどのくらい時間がかかりますか?
    アップグレードは並列モードで、問題がなければ10~15分かかります。
  5. すべてのドライブがアップデートされていない場合、システムはCA04以外のドライブを自動的にアップデートしますか?
    いいえ、アップデートは再度実行するか、手動で実行する必要があります。以下の「追加情報」を参照してください。
  6. 古いFWのドライブを搭載している可能性があるため、このファームウェアdrive-firmware-CA04.RPMパッチを他の非HA DDにも適用する必要がありますか?
    8TBドライブを搭載した非HA DDにもファームウェアdrive-firmware-CA04.RPMを適用することをお勧めします。
  7. アップデート中にドライブに障害が発生した場合、障害を解除できますか
    FWアップデートの前または最中にドライブに障害が発生した場合は、ディスクのエラー履歴を確認します(「disk show reliability-data」など)。ディスクにエラーがある場合は、障害状態のままとなり、交換する必要があります。ディスクにエラーがない場合は、「disk unfail <disk.id>」コマンドを実行してドライブの障害を解除し、スペアにします。障害が発生したドライブを古いCA01/CA02ドライブ ファームウェアを搭載したドライブと交換する場合は、ドライブを手動でアップデートする必要があります。以下の追加セクションの「交換用ドライブを手動でアップデートする方法」を参照してください。
  8. DDFSがダウンしている場合でも、ディスク グループ2 (dg2)のアクティビティーを一時停止する必要があるのはなぜですか?
    DDOSは、dg2に存在するEXT3マウントに引き続きアクセスできます。


MDUパッケージの適用:

  1. HAシステムのアクティブ ノードに接続します。アップデートは、パッシブ ノードまたはスタンバイ ノードからは機能しません。
  2. ファームウェア アップデート中にDDFSを無効にする必要があるため、ユーザーのダウンタイムをスケジュールします。次のコマンドを実行して現在のアラートを確認し、必要に応じて対処します。クリーニング プロセスを実行中の場合は、それを停止します。ファイル システムを無効にします。 
                # alerts show current
          # filesys clean status
          # filesys clean stop
          # filesys disable
  3. ストレージ移行が行われていないシステムのdg2(以上)の一部であるCA01/CA02ディスクの自動サポートを確認します。ストレージ移行を行ったシステムでは、ext3アレイを持つディスク グループがdg2ではない可能性があります。
    ext3を検索します。dgXXのヒストグラムDD_RAID表示され、XXはDG番号です。以下の「追加情報」セクションの例を参照してください。dg2/dgXXディスクにCA01/C02ファームウェアがある場合は、MDUアップグレード プロセス中にアレイを一時的に一時停止する必要があります。これを怠ると、ディスク グループのすべてのI/Oアクティビティが一時停止されていない場合に、別の障害が発生する可能性があります。ディスク グループの一時停止に関するサポートが必要な場合は、サポート ケースを開いてください。dg2/dgXXにCA01/CA02ディスクが含まれていない場合、サポート ケースは必要ありません。手順4に進みます。
  4. [Updates]を drive-firmware-CA04.rpm DD System Manager UIを使用する。
  5. ディスクをアップグレードします。次のコマンドを実行し、終了するまで待ちます。 
               # system upgrade start drive-firmware-CA04.rpm"
  6. 10分ほど待ちます。
  7. すべてのディスクがアップグレードされていることを確認します。ディスクが引き続きCA01/CA02ファームウェアで表示される場合は、手順5と6を繰り返します。 
               # disk show hardware
  8. 現在のディスク状態を確認します。複数のディスクに障害が発生している場合は、サポートにお問い合わせください。単一ディスク障害の場合は、ディスクにエラー履歴がないかチェックします。エラーがなければディスクの障害を解除します。 
              # disk unfail <disk.id>
  9. アラートを確認し、DDFSを有効にします。 
              # alerts show current
              # filesys enable

Additional Information

ext3アレイを有し、CA01/CA02ファームウェアを含むdg2/dgXXディスクを確認する方法
ストレージが移行されていないシステムの場合、dg2にはext3アレイがあります。

自動サポートで次の行を検索します(太字部分)。

  • DD_RAID Histogram
DD_RAID Histogram for dg2 0xafc318cb033dc226
DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
  • Storage Show All(このコマンドはDD CLIでも実行できます)
dg2       2.1-2.3, 2.13-2.15, 2.25-2.27,     14      7.2 TiB               
          2.37-2.39, 2.49-2.50
  • Disk Show Hardware(このコマンドはDD CLIで実行できます)
2.1          A0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R8GS       7.2 TiB    SASe      DG118000919             
2.2          A1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REMW       7.2 TiB    SASe      DG118000919             
2.3          A2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LM5C       7.2 TiB    SASe      DG118000919      
2.13         B0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHX       7.2 TiB    SASe      DG118000919             
2.14         B1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RF04       7.2 TiB    SASe      DG118000919             
2.15         B2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHQE       7.2 TiB    SASe      DG118000919    
2.25         C0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4RE9Y       7.2 TiB    SASe      DG118000919             
2.26         C1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4LMME       7.2 TiB    SASe      DG118000919             
2.27         C2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4REW8       7.2 TiB    SASe      DG118000919
2.37         D0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SMHM       7.2 TiB    SASe      DG118000919             
2.38         D1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4QHWR       7.2 TiB    SASe      DG118000919             
2.39         D2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R862       7.2 TiB    SASe      DG118000919     
2.49         E0     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SSKK       7.2 TiB    SASe      DG118000919             
2.50         E1     SEAGATE STCRSEI1CLAR8000   CA01       WSD4SV53       7.2 TiB    SASe      DG118000919             
2.51         E2     SEAGATE STCRSEI1CLAR8000   CA01       WSD4R944       7.2 TiB    SASe      DG118000919

 

上記の例では、ドライブにCA01ファームウェアがあります。MDUアップグレードが適用される前に、デル・テクノロジーズがext3アレイを含むディスク グループ(dg2)を一時停止できるように、サポート ケースを開く必要があります。

ストレージが移行されたシステムの場合、ext3を含むアレイはdg2ではない可能性があります。自動サポートで次の行を検索します(太字部分)。

  • Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)

 

Licenses
--------
System locking-id: APX00123456789
Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode
Capacity licenses:
##   Feature           Shelf Model    Capacity      Type        State    Expiration Date   Note
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
1    CAPACITY-ACTIVE   HIGH_DENSITY   1396.98 TiB   permanent   active   n/a                   
--   ---------------   ------------   -----------   ---------   ------   ---------------   ----
Licensed Active Tier capacity: 1396.98 TiB*
* Depending on the hardware platform, usable filesystem capacities may vary.
Feature licenses:
##   Feature                                    Count   Type         State    Expiration Date   Note           
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
1    REPLICATION                                    1   permanent    active   n/a                              
2    VTL                                            1   permanent    active   n/a                              
3    DDBOOST                                        1   permanent    active   n/a                              
4    RETENTION-LOCK-GOVERNANCE                      1   permanent    active   n/a                              
5    ENCRYPTION                                     1   permanent    active   n/a                              
6    I/OS                                           1   permanent    active   n/a                              
7    RETENTION-LOCK-COMPLIANCE                      1   permanent    active   n/a                              
8    STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS       6   evaluation   grace    2023-11-20        
--   ----------------------------------------   -----   ----------   ------   ---------------   ---------------
License file last modified at : 2022/08/29 11:02:13.
  • DD_RAID Histogram
DD_RAID Histogram for dg23 0x323d6b863ae21b8f
DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0
    Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary
    Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0
Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf]
Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
  • Storage Show All (This command can be ran on the DD CLI)
dg23      6.1-6.3, 6.13-6.15, 6.25-6.27,     14      7.2 TiB               
          6.37-6.39, 6.49-6.50

 

  • Disk Show Hardware (This command can be ran on the DD CLI)
6.1          A0     HITACHI H04728T8CLAR8000   A430       VYH2S3SS         7.2 TiB    SASe      DG118000785             
6.2          A1     HITACHI H04728T8CLAR8000   A430       VYH2RVSS         7.2 TiB    SASe      DG118000785             
6.3          A2     HITACHI H04728T8CLAR8000   A430       VYH2K9KS         7.2 TiB    SASe      DG118000785          
6.13         B0     HITACHI H04728T8CLAR8000   A430       VYH2JJBS         7.2 TiB    SASe      DG118000785             
6.14         B1     HITACHI H04728T8CLAR8000   A430       VYH1Y83S         7.2 TiB    SASe      DG118000785             
6.15         B2     HITACHI H04728T8CLAR8000   A430       VYH2RNGS         7.2 TiB    SASe      DG118000785    
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785  
6.25         C0     HITACHI H04728T8CLAR8000   A430       VYH1DN8S         7.2 TiB    SASe      DG118000785             
6.26         C1     HITACHI H04728T8CLAR8000   A430       VYH2124S         7.2 TiB    SASe      DG118000785             
6.27         C2     HITACHI H04728T8CLAR8000   A430       VYH0ZM6S         7.2 TiB    SASe      DG118000785           
6.47         D10    HITACHI H04728T8CLAR8000   A430       VYH1XGJS         7.2 TiB    SASe      DG118000785             
6.48         D11    HITACHI H04728T8CLAR8000   A430       VYH20VHS         7.2 TiB    SASe      DG118000785             
6.49         E0     HITACHI H04728T8CLAR8000   A430       VYH2G5XS         7.2 TiB    SASe      DG118000785


ドライブにはCA01およびCA02ファームウェアがないため、サポート ケースは必要ありません。前述の「解決方法」セクションのMDUアップグレード手順の手順3に進みます。

Affected Products

Data Domain, DD9400 Appliance, DD9900 Appliance

Products

DD OS 7.11
Article Properties
Article Number: 000204252
Article Type: Solution
Last Modified: 30 Oct 2025
Version:  19
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.