「Data Domain:HAシステムのフェイルオーバー中に複数のドライブに障害が発生する |CA01 CA02 FWの問題
Summary: Data Domain High Availability (HA)では、ドライブ ファームウェアの既知の問題により、HAフェールオーバー中にドライブ障害が発生する可能性があります。一部のシステムでは、フェールオーバーまたは再起動後にファイル システムを起動できない場合があります。
Symptoms
コンポーネント障害は、ファームウェア リビジョンCA01およびCA02の8 TBドライブに限定されています。通常、複数のRAIDグループ(ディスク グループ)が影響を受けます。単一の縮退(1つの障害)または二重の縮退(2つのディスク障害)の可能性があります。
再起動しないシステムでは、ファイル システムが中断されますが、自動的に回復するはずです。複数のディスク再構築が進行中および保留中です。再起動するシステムでは、フェールオーバーが強制され、起動中にファイル システムがスタックする可能性があります。
適用対象:
- DD9400およびDD9900モデルのみ
- ファームウェア(FW)バージョンCA01またはCA02を搭載した外部ストレージ エンクロージャ内の8 TBハードドライブ
Fix:
- 修正済みDDOSバージョン:DDOS 7.11.x、7.10.1.0、7.7.5.1以降には、CA04ファームウェアが組み込まれています。
- Minimal Disruptive Upgrade (MDU)は、他のすべてのDDOS 7.xバージョンで使用できます。
- MDUへのリンク: 私を読む+ダウンロード: DDOS 7.Xハード ドライブ ファームウェア Minimally Disruptive Upgrade (MDU)パッケージ - 2022年11月(ドキュメントを表示するには、登録済みのDellサポート ユーザーとしてログインする必要があります)
注:MDUを適用する場合は、ファイルシステムを無効にする必要があります。
ディスク障害の症状:
- ディスク ログはセンス キー
4/0x29/0xcdを報告し(SCSI WRITEcdb 0x8aの実行時)、1つの書き込みコマンド エラーがDD_RAIDモジュールによるディスク障害を引き起こします。
Sep 16 06:17:59 DD9900 kernel: [11647695.019070] (E4)scsi16: (ffff88fe1522d800) (0/5/10000) chnl/tgt/lun 0/232/0 result 0x2, cdb 0x8a:00000001498b4728:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able Sep 16 06:20:58 DD9900 kernel: [11647874.161940] (E4)scsi16: (ffff88b96b72cc00) (1/5/10000) chnl/tgt/lun 0/246/0 result 0x2, cdb 0x8a:0000000149adb300:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able Sep 16 06:20:58 DD9900 kernel: [11647874.161997] (E4)scsi16: (ffff88b946a08e00) (1/5/10000) chnl/tgt/lun 0/237/0 result 0x2, cdb 0x8a:000000014a777478:00000308, sense 4/0x29/0xcd - Unit Attention Retry-able
- 「書き込みI/O」エラーにより、DD_RAIDがディスクに障害を発生させます。
Sep 16 06:17:59 DD9900 kernel: [11647695.020655] (E4)DD_RAID: Failing working disk [6.35 dm-27p3 WSD48SRA 254:3635] from DiskGroup dg19
Sep 16 06:20:59 DD9900 kernel: [11647875.122961] (E4)DD_RAID: Failing working disk [2.32 dm-25p3 WSD49GCR 254:403] from DiskGroup dg4
Sep 16 06:21:54 DD9900 kernel: [11647930.659786] (E4)DD_RAID: Failing working disk [2.39 dm-46p3 WSD48TEG 254:739] from DiskGroup dg2
Sep 16 06:21:58 DD9900 kernel: [11647934.612549] (E4)DD_RAID: Failing working disk [{*}6.43{*} dm-233p3 WSD49GG6 254:3731] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.363248] (E4)DD_RAID: Failing working disk [{*}6.21{*} dm-219p3 WSD47KYS 254:3507] from DiskGroup dg18
Sep 16 06:22:04 DD9900 kernel: [11647940.477630] (E4)DD_RAID: Failing working disk [{*}6.5{*} dm-242p3 WSD4B13V 254:3875] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.651261] (E4)DD_RAID: Failing working disk [{*}6.18{*} dm-259p3 WSD47EWA 254:4147] from DiskGroup dg17
Sep 16 06:22:04 DD9900 kernel: [11647940.726575] (E4)DD_RAID: Failing working disk [{*}6.15{*} dm-265p3 WSD49BGL 254:4243] from DiskGroup dg16
Sep 16 06:22:05 DD9900 kernel: [11647941.100980] (E4)DD_RAID: Failing working disk [{*}6.26{*} dm-257p3 WSD49ART 254:4115] from DiskGroup dg16
DDFSを起動できない症状:
- ddfs.infoでは、DDFSの起動中に以下のメッセージが長時間表示されます。DDFSプロセスが終了してピアー ノードへのフェールオーバーが強制されるまで、処理は進行しません。
09/15 21:49:21.962018 [a0cc980] SYSTEM_STARTUP: ===== completed <SegStore> - time (1663292961) ===== 09/15 21:49:21.962028 [a0cc980] SYSTEM_STARTUP: ===== starting <CC-Agent> - time (1663292961) ===== 09/15 21:57:11.699754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/15 21:59:11.819754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/15 22:01:11.939754 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub ... 09/16 02:01:26.339755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/16 02:03:26.459755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub 09/16 02:05:26.579755 [7fc335f111f0] cp_scrub_partitions: cc is not initialized yet,Skipping scheduling of CP to scrub
Cause
ディスク障害状態の根本原因:
ドライブのDRAMキャッシュ バッファーで、ランダムI/Oワークロードの下で誤ったデータ整合性エラーが発生します。ドライブの製造元は、この問題を解決するためのファームウェア修正を提供しています。
Resolution
対策
再起動またはフェールオーバーが発生した場合、障害が発生したドライブを「failback」するDD_RAIDの機能はオプションではありません。この場合は、従来のディスクの再構築(パリティー)を完了させます。すべてのディスクの再構築が完了するまで、GCを無効にします。再起動またはフェールオーバー後にファイル システムの起動に問題がある場合は、DDFSプロセスを終了する前にDDFS TSEに相談してください。
再起動またはフェールオーバーが発生していない場合は、DD_RAIDは障害が発生したディスクを「failback」および再構築することができます。この処理は、bashで「dd_raidtool」を使用して手動で行います。ディスクの「フェールバック」を開始する前に、障害が発生したディスク スロットの電源を入れ直す必要があります。これを実行するには 、Dellテクニカル サポート にお問い合わせください。
実践的な経験に基づいて、フェールバック再構築に切り替えるのではなく、50%を超えるディスク再構築を完了させます。
すべての再構築が完了した後、各スロットの電源が再投入されていれば、まだ障害が発生しているドライブを「unfailed」することができます。
修正
ディスク ファームウェア バージョンCA04は、DDOSアップグレード パッケージの形式でMDUパッチとして利用できるようになりました。RPMのコピーについては、サポートにお問い合わせください。場所は /auto/cores/drive-firmware-rpm/drive-firmware-CA04.rpmの詳細を確認してください。
よくある質問:
- Data Domainファイル システムをオンラインにしたままアップグレードを実行できますか?
いいえ、FWアップグレードは、DDFSがオフライン(無効)の状態で実行する必要があります。 - 再起動は必要ですか?
いいえ。再起動する必要はありません。 - FWはパッシブ ノードに適用できますか
いいえ。パッシブ ノードには適用できません。アクティブ ノードでのみ実行する必要があります。 - 180-240 (4-DS60)ドライブのファームウェアdrive-firmware-CA04.RPMのアップグレードが完了するまでにどのくらい時間がかかりますか?
アップグレードは並列モードで、問題がなければ10~15分かかります。 - すべてのドライブがアップデートされていない場合、システムはCA04以外のドライブを自動的にアップデートしますか?
いいえ、アップデートは再度実行するか、手動で実行する必要があります。以下の「追加情報」を参照してください。 - 古いFWのドライブを搭載している可能性があるため、このファームウェアdrive-firmware-CA04.RPMパッチを他の非HA DDにも適用する必要がありますか?
8TBドライブを搭載した非HA DDにもファームウェアdrive-firmware-CA04.RPMを適用することをお勧めします。 - アップデート中にドライブに障害が発生した場合、障害を解除できますか
FWアップデートの前または最中にドライブに障害が発生した場合は、ディスクのエラー履歴を確認します(「disk show reliability-data」など)。ディスクにエラーがある場合は、障害状態のままとなり、交換する必要があります。ディスクにエラーがない場合は、「disk unfail <disk.id>」コマンドを実行してドライブの障害を解除し、スペアにします。障害が発生したドライブを古いCA01/CA02ドライブ ファームウェアを搭載したドライブと交換する場合は、ドライブを手動でアップデートする必要があります。以下の追加セクションの「交換用ドライブを手動でアップデートする方法」を参照してください。 - DDFSがダウンしている場合でも、ディスク グループ2 (dg2)のアクティビティーを一時停止する必要があるのはなぜですか?
DDOSは、dg2に存在するEXT3マウントに引き続きアクセスできます。
MDUパッケージの適用:
- HAシステムのアクティブ ノードに接続します。アップデートは、パッシブ ノードまたはスタンバイ ノードからは機能しません。
- ファームウェア アップデート中にDDFSを無効にする必要があるため、ユーザーのダウンタイムをスケジュールします。次のコマンドを実行して現在のアラートを確認し、必要に応じて対処します。クリーニング プロセスを実行中の場合は、それを停止します。ファイル システムを無効にします。
# alerts show current# filesys clean status# filesys clean stop# filesys disable - ストレージ移行が行われていないシステムのdg2(以上)の一部であるCA01/CA02ディスクの自動サポートを確認します。ストレージ移行を行ったシステムでは、ext3アレイを持つディスク グループがdg2ではない可能性があります。
ext3を検索します。dgXXのヒストグラムDD_RAID表示され、XXはDG番号です。以下の「追加情報」セクションの例を参照してください。dg2/dgXXディスクにCA01/C02ファームウェアがある場合は、MDUアップグレード プロセス中にアレイを一時的に一時停止する必要があります。これを怠ると、ディスク グループのすべてのI/Oアクティビティが一時停止されていない場合に、別の障害が発生する可能性があります。ディスク グループの一時停止に関するサポートが必要な場合は、サポート ケースを開いてください。dg2/dgXXにCA01/CA02ディスクが含まれていない場合、サポート ケースは必要ありません。手順4に進みます。 - [Updates]を
drive-firmware-CA04.rpmDD System Manager UIを使用する。 - ディスクをアップグレードします。次のコマンドを実行し、終了するまで待ちます。
# system upgrade start drive-firmware-CA04.rpm" - 10分ほど待ちます。
- すべてのディスクがアップグレードされていることを確認します。ディスクが引き続きCA01/CA02ファームウェアで表示される場合は、手順5と6を繰り返します。
# disk show hardware - 現在のディスク状態を確認します。複数のディスクに障害が発生している場合は、サポートにお問い合わせください。単一ディスク障害の場合は、ディスクにエラー履歴がないかチェックします。エラーがなければディスクの障害を解除します。
# disk unfail <disk.id> - アラートを確認し、DDFSを有効にします。
# alerts show current# filesys enable
Additional Information
ext3アレイを有し、CA01/CA02ファームウェアを含むdg2/dgXXディスクを確認する方法
ストレージが移行されていないシステムの場合、dg2にはext3アレイがあります。
自動サポートで次の行を検索します(太字部分)。
- DD_RAID Histogram
DD_RAID Histogram for dg2 0xafc318cb033dc226 DG:dg2 UUID:0xafc318cb033dc226 MajorNr:61 MajorNrEx:62 GrpNr:10 State:Complete Status:Reassembled Index:0 Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:148681617408 Options:0x10000100 Type:StandAlone Primary Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS300198000G MG UUID:0x0 Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0xb6fbb5a5a61ecf9] Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [148681617408 sectors] ID[0xfb32c1339fafc87b]
- Storage Show All(このコマンドはDD CLIでも実行できます)
dg2 2.1-2.3, 2.13-2.15, 2.25-2.27, 14 7.2 TiB 2.37-2.39, 2.49-2.50
- Disk Show Hardware(このコマンドはDD CLIで実行できます)
2.1 A0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R8GS 7.2 TiB SASe DG118000919 2.2 A1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REMW 7.2 TiB SASe DG118000919 2.3 A2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LM5C 7.2 TiB SASe DG118000919 2.13 B0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHX 7.2 TiB SASe DG118000919 2.14 B1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RF04 7.2 TiB SASe DG118000919 2.15 B2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHQE 7.2 TiB SASe DG118000919 2.25 C0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4RE9Y 7.2 TiB SASe DG118000919 2.26 C1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4LMME 7.2 TiB SASe DG118000919 2.27 C2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4REW8 7.2 TiB SASe DG118000919 2.37 D0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SMHM 7.2 TiB SASe DG118000919 2.38 D1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4QHWR 7.2 TiB SASe DG118000919 2.39 D2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R862 7.2 TiB SASe DG118000919 2.49 E0 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SSKK 7.2 TiB SASe DG118000919 2.50 E1 SEAGATE STCRSEI1CLAR8000 CA01 WSD4SV53 7.2 TiB SASe DG118000919 2.51 E2 SEAGATE STCRSEI1CLAR8000 CA01 WSD4R944 7.2 TiB SASe DG118000919
上記の例では、ドライブにCA01ファームウェアがあります。MDUアップグレードが適用される前に、デル・テクノロジーズがext3アレイを含むディスク グループ(dg2)を一時停止できるように、サポート ケースを開く必要があります。
ストレージが移行されたシステムの場合、ext3を含むアレイはdg2ではない可能性があります。自動サポートで次の行を検索します(太字部分)。
Licenses (STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS)
Licenses -------- System locking-id: APX00123456789 Licensing scheme: EMC Electronic License Management System (ELMS) node-locked mode Capacity licenses: ## Feature Shelf Model Capacity Type State Expiration Date Note -- --------------- ------------ ----------- --------- ------ --------------- ---- 1 CAPACITY-ACTIVE HIGH_DENSITY 1396.98 TiB permanent active n/a -- --------------- ------------ ----------- --------- ------ --------------- ---- Licensed Active Tier capacity: 1396.98 TiB* * Depending on the hardware platform, usable filesystem capacities may vary. Feature licenses: ## Feature Count Type State Expiration Date Note -- ---------------------------------------- ----- ---------- ------ --------------- --------------- 1 REPLICATION 1 permanent active n/a 2 VTL 1 permanent active n/a 3 DDBOOST 1 permanent active n/a 4 RETENTION-LOCK-GOVERNANCE 1 permanent active n/a 5 ENCRYPTION 1 permanent active n/a 6 I/OS 1 permanent active n/a 7 RETENTION-LOCK-COMPLIANCE 1 permanent active n/a 8 STORAGE-MIGRATION-FOR-DATADOMAIN-SYSTEMS 6 evaluation grace 2023-11-20 -- ---------------------------------------- ----- ---------- ------ --------------- --------------- License file last modified at : 2022/08/29 11:02:13.
- DD_RAID Histogram
DD_RAID Histogram for dg23 0x323d6b863ae21b8f DG:dg23 UUID:0x323d6b863ae21b8f MajorNr:61 MajorNrEx:62 GrpNr:18 State:Complete Status:Reassembled Index:0 Total Disks:14 Working Disks:14 Max Disk Failures:2 Sectors:161373947904 Options:0x10000100 Type:StandAlone Primary Pool UUID:0x0:0 Tier Type:0x2 Host SN:CNWS30021O001N MG UUID:0x0 Array [ext3] (active): [raid-type 0] [(0x0, 0x0) options] [NVR:N/N] [256KB stripe] [117458432 sectors] ID[0x16222e80737dc6bf] Array [ppart] (active): [raid-type 6] [(0x10, 0x3) options] [NVR:N/N] [4608KB stripe] [161373947904 sectors] ID[0x8febacd8140b2c05]
Storage Show All (This command can be ran on the DD CLI)
dg23 6.1-6.3, 6.13-6.15, 6.25-6.27, 14 7.2 TiB 6.37-6.39, 6.49-6.50
Disk Show Hardware (This command can be ran on the DD CLI)
6.1 A0 HITACHI H04728T8CLAR8000 A430 VYH2S3SS 7.2 TiB SASe DG118000785 6.2 A1 HITACHI H04728T8CLAR8000 A430 VYH2RVSS 7.2 TiB SASe DG118000785 6.3 A2 HITACHI H04728T8CLAR8000 A430 VYH2K9KS 7.2 TiB SASe DG118000785 6.13 B0 HITACHI H04728T8CLAR8000 A430 VYH2JJBS 7.2 TiB SASe DG118000785 6.14 B1 HITACHI H04728T8CLAR8000 A430 VYH1Y83S 7.2 TiB SASe DG118000785 6.15 B2 HITACHI H04728T8CLAR8000 A430 VYH2RNGS 7.2 TiB SASe DG118000785 6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785 6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785 6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785 6.25 C0 HITACHI H04728T8CLAR8000 A430 VYH1DN8S 7.2 TiB SASe DG118000785 6.26 C1 HITACHI H04728T8CLAR8000 A430 VYH2124S 7.2 TiB SASe DG118000785 6.27 C2 HITACHI H04728T8CLAR8000 A430 VYH0ZM6S 7.2 TiB SASe DG118000785 6.47 D10 HITACHI H04728T8CLAR8000 A430 VYH1XGJS 7.2 TiB SASe DG118000785 6.48 D11 HITACHI H04728T8CLAR8000 A430 VYH20VHS 7.2 TiB SASe DG118000785 6.49 E0 HITACHI H04728T8CLAR8000 A430 VYH2G5XS 7.2 TiB SASe DG118000785
ドライブにはCA01およびCA02ファームウェアがないため、サポート ケースは必要ありません。前述の「解決方法」セクションのMDUアップグレード手順の手順3に進みます。