「IDPA：DP4400ディスクエラーによるData Domainファイルシステムの不安定性

Resumen: 過剰なエラーをログに記録しているDP4400内のディスクドライブは、Data Domainファイルシステム(FS)が再起動して不安定になる原因となる可能性があります。

Productos afectados

Este artículo se aplica a Este artículo no se aplica a Este artículo no está vinculado a ningún producto específico. No se identifican todas las versiones del producto en este artículo.

Consulte estos recursos

Síntomas

次の現象が発生する可能性があります。

Data Domainファイルシステムが使用不可と報告されるか、再起動が繰り返し発生することがある
Data Domain内のログとアラートで「vol1が使用不可」と報告されることがある
MSG_ERR_DDR_ERRORが原因でAvamarメンテナンスサービスが失敗する
AvamarのメンテナンスまたはData Domainクリーニングの繰り返しの失敗により、予期せず高容量が使用されている
iDRACではすべてのディスクが正常であると表示される場合がありますが、コントローラーログにはそうではないと表示される場合があります

例:
Data Domainは、次のようなアラートをログに記録する場合があります。

ALERT Filesystem EVT-FILESYS-00002: Problem is preventing filesystem from running.
EVT-STORAGE-00020: The Active tier is unavailable.
EVT-FILESYS-00011: DDFS process died; restarting

ログファイル内 /ddr/var/log/debug/ddfs.infoでは、次のようなエラーが表示されることがあります。

Jun 30 11:48:28 idpa-dd ddfs[8504]: ERROR: MSG-SL-00004: Volume vol1 is unavailable. err:Missing storage device.
Jun 30 11:58:20 idpa-dd ddfs[15962]: ERROR: MSG-SL-00004: Volume vol1 is unavailable. err:Missing storage device.

ログファイル /ddr/var/log/debug/kern.info 次のようなディスクグループエラーが報告される場合があります。

Jun 30  18:51:08 idpa-dd kernel: [10002271.298276] (E4)DD_RAID: Array [dg2/ppart14] encountered READ I/O errors [57.57 dm-10p5 6000c290ea0836a3178bab0785368300] [dev idx: 0] [stripe: 516562] [gs:ffff880ce56ed210, request:ffff880ce9ebeb40] faults:1
Jun 30  18:51:08 idpa-dd kernel: [10002271.298302] (E4)ERROR: dd_dgrp.c:5731 dd_dgrp_array_internal_notification:: Too many disks failed [1, 14, 0]
Jun 30  18:51:08 idpa-dd kernel: [10002271.298305] (E4)DD_RAID: DiskGroup [dg2] has total failure!

または、次のような追加のエラー:

idpa-dd kernel: [56127713.299919] (E4)sd 2:0:1:0: [sds] tag#0 Sense Key : Medium Error [current]
idpa-dd kernel: [56127713.299921] (E4)sd 2:0:1:0: [sds] tag#0 Add. Sense: No additional sense information
idpa-dd kernel: [56127713.299924] (E4)sd 2:0:1:0: [sds] tag#0 CDB: Read(16) 88 00 00 00 00 01 ed 7c 57 42 00 00 02 01 00 00
idpa-dd kernel: [56127713.299926] (E4)dd_blk_update_request: I/O error, dev sds, sector 8279316290
idpa-dd kernel: [56127713.299949] (E4)DEBUG: dd_array_error.c:512 dd_array_handle_fault:: nr_faults:1 array->level_info.nr_disks:1
idpa-dd kernel: [56127713.299956] (E4)DD_RAID: Array [dg2/ppart8] encountered READ I/O errors  [57.57 dm-18p5 6000c2963d6777f9dc56d52993b4f044] [dev idx: 0] [stripe: 806949] [gs:ffff880c10e92220, request:ffff880ce4ec4ca8] faults:1
idpa-dd kernel: [56128442.963940] (E4)DD_RAID: DiskGroup [dg2] has total failure!
idpa-dd kernel: [56128442.963964] (E4)DD_RAID: Array [dg2/ext3]: Suspended
idpa-dd kernel: [56128442.963988] (E4)DD_RAID: Array [dg2/ext3_1]: Suspended

Causa

IDPA DP4400では、Data Domain仮想マシンは、アプライアンス内のボリュームとディスクドライブで構成されるデータストアを使用します。VD02またはVD03のディスクドライブで高レートでエラーが記録されている場合、データストアのパフォーマンスが十分に低下するため、DDOSはボリュームを使用不可としてマークし、ファイルシステムの再起動を試みます。

DP4400のディスクからボリュームへの詳細なマッピングは次のとおりです。

仮想ディスク	RAIDレベル	物理ディスク	データストア名	説明
VD01	RAID 1	ディスク00:01:00および00:01:01(ディスク0および1)	DP-アプライアンス-データストア	VMのデータストアの場所
VD02	RAID 6	ディスク 00:01:02 から 01:09 (ディスク 2 から 9)	DP-アプライアンス-ddve1	DDVEファイルシステムのDDVE1データストアの場所(DP4400SおよびDP4400モデルに搭載)
VD03の	RAID 6	ディスク 00:01:10 から 01:17 (ディスク 10 - 17)	DP-アプライアンス-ddve2	DDVEファイルシステムのDDVE2データストアの場所(DP4400モデルのみ)

Resolución

次のいずれかのオプションを使用して、RAIDコントローラー(PERC)からログを収集します。

- DP4400 iDRACにアクセスし、ストレージサブシステムの正常性を表示する
  - ボリュームと各物理ディスクのコンポーネントステータスの表示
  - イベントログとLifecycle Controllerログを表示して、ディスクメッセージが繰り返されている兆候がないか確認します。
  - TSR収集を実行し、必ずストレージログを選択してください。「Data Domain：PowerProtect DD3300、DD6900、DD9400、DD9900、DP4400でTSRログを収集する方法
- SSHを使用してACMにアクセスし、次のコマンドを実行します。

各ディスクのステータスを表示します。

```
Idpa-acm# showfru disk
```
次の手順で、ACMからPERCログを収集します。

Idpa-acm# dpacli -host 192.168.100.101 -logs Perc -output perc_logs.tgz

CLIを使用してESXiホストにアクセスし、次のコマンドを実行します。

Idpa-esx# perccli /c0 show termlog > /tmp/ttylog.txt

Idpa-esx# perccli /c0 show events > /tmp/events.txt

これらのログから、次の例に示すようなイベントを確認できます。

06/17/23 5:02:22: C0:EVT#97309-06/17/23 5:02:22: 113=Unexpected sense: PD 03(e0x20/s3) Path 50000399c882671a, CDB: 88 00 00 00 00 00 7e b4 72 29 00 00 01 d7 00 00, Sense: 3/11/01 06/17/23 5:02:22: C0:Raw Sense for PD 3: 72 03 11 01 00 00 00 34 00 0a 80 00 00 00 00 00 7e b4 72 29 02 06 00 00 80 00 3f 00 80 1e 00 88 81 07 02 0f 01 13 00 00 7f cd 01 38 00 02 00 22 1a 40 00 14 c0 c0 0f 00 7f d2 ff ff 06/17/23 5:02:22: C0:DM_PerformSenseDataRecovery:Medium Error DevId[3] devHandle d RDM=40d47600 retries=0 callback=c0358e30 06/17/23 5:02:22: C0:DM_PerformSenseDataRecovery: Medium Error is for: cmdId=427, ld=1, src=7, cmd=2, lba=2f83aac00, cnt=400, rmwOp=0

06/21/23 5:30:01: C0:EVT#97500-06/21/23 5:30:01: 110=Corrected medium error during recovery on PD 03(e0x20/s3) at d05a2e0a 06/21/23 5:30:01: C0:Issuing write verify pd=03 physArm=1 span=0 startBlk=d05a2e13 numBlks=1 06/21/23 5:30:01: C0:EVT#97501-06/21/23 5:30:01: 110=Corrected medium error during recovery on PD 03(e0x20/s3) at d05a2e13 06/21/23 5:30:01: C0:Issuing write verify pd=03 physArm=1 span=0 startBlk=d05a2e14 numBlks=1


seqNum: 0x00002999
Time: Mon Mar 20 17:53:50 2023

Code: 0x0000005d
Class: 0
Locale: 0x02
Event Description: Patrol Read corrected medium error on PD 0a(e0x20/s10) at 8912fa1c
Event Data:
===========
Device ID: 10
Enclosure Index: 32
Slot Number: 10
LBA: 2299722268


seqNum: 0x0000299a
Time: Mon Mar 20 17:53:50 2023

Code: 0x00000071
Class: 0
Locale: 0x02
Event Description: Unexpected sense: PD 0a(e0x20/s10) Path 50000399e8429da2, CDB: 8f 00 00 00 00 00 89 12 fa 1d 00 00 10 00 00 00, Sense: 3/11/01
Event Data:
===========
Device ID: 10
Enclosure Index: 32
Slot Number: 10
CDB Length: 16
CDB Data:
008f 0000 0000 0000 0000 0000 0089 0012 00fa 001d 0000 0000 0010 0000 0000 0000 Sense Length: 60
Sense Data:
0072 0003 0011 0001 0000 0000 0000 0034 0000 000a 0080 0000 0000 0000 0000 0000 0089 0012 00fa 001d 0002 0006 0000 0000 0080 0000 0000 0000 0080 001e 0000 008f 0081 0007 0002 000a 0000 00d6 0000 0000 008d 003e 0000 00ef 0000 0002 0000 0022 001f 0040 0000 0000 00fd 00fd 000a 0000 008d 003e 00ff 00ff 0000 0000 0000 0000

パターンや繰り返し発生するエラーを確認します。1台のドライブから多数のイベントが記録される場合があります。これは、どのデバイスが問題を引き起こしているかを示しています。

$ grep -i "medium error" ttylog.txt
05/08/23 17:30:18: C0:DM_PerformSenseDataRecovery:Medium Error DevId[b] devHandle 15 RDM=40da6800 retries=0 callback=c0358e2c
05/08/23 17:30:18: C0:DM_PerformSenseDataRecovery: Medium Error is for: cmdId=ae, ld=2, src=1, cmd=1, lba=26ca06f8b, cnt=200, rmwOp=0
05/08/23 17:30:21: C0:DM_PerformSenseDataRecovery:Medium Error DevId[b] devHandle 15 RDM=40da6800 retries=0 callback=c0358e2c
05/08/23 17:30:21: C0:DM_PerformSenseDataRecovery: Medium Error is for: cmdId=ae, ld=2, src=1, cmd=1, lba=26ca06f8b, cnt=200, rmwOp=0
05/08/23 17:30:24: C0:DM_PerformSenseDataRecovery:Medium Error DevId[b] devHandle 15 RDM=40da6800 retries=0 callback=c0358e2c
05/08/23 17:30:24: C0:DM_PerformSenseDataRecovery: Medium Error is for: cmdId=ae, ld=2, src=1, cmd=1, lba=26ca06f8b, cnt=200, rmwOp=0
05/08/23 17:30:26: C0:DM_PerformSenseDataRecovery:Medium Error DevId[b] devHandle 15 RDM=40da6800 retries=0 callback=c0358e2c
05/08/23 17:30:26: C0:DM_PerformSenseDataRecovery: Medium Error is for: cmdId=ae, ld=2, src=1, cmd=1, lba=26ca06f8b, cnt=200, rmwOp=0
05/08/23 17:30:28: C0:DM_PerformSenseDataRecovery:Medium Error DevId[b] devHandle 15 RDM=40da6800 retries=0 callback=c0358e2c
05/08/23 17:30:28: C0:DM_PerformSenseDataRecovery: Medium Error is for: cmdId=ae, ld=2, src=1, cmd=1, lba=26ca06f8b, cnt=200, rmwOp=0
05/08/23 17:30:31: C0:DM_PerformSenseDataRecovery:Medium Error DevId[b] devHandle 15 RDM=40da6800 retries=0 callback=c0358e2c
05/08/23 17:30:31: C0:DM_PerformSenseDataRecovery: Medium Error is for: cmdId=ae, ld=2, src=1, cmd=1, lba=26ca06f8b, cnt=200, rmwOp=0
.
.
$ grep -i "medium error" ttylog.txt | wc -l
2168


$ grep -i "command timeout" ttylog.txt
05/16/23  5:36:54: C0:EVT#06386-05/16/23  5:36:54: 267=Command timeout on PD 0b(e0x20/s11) Path 5000039aa853e82e, CDB: 88 00 00 00 00 03 7b 82 d6 49 00 00 00 68 00 00
05/16/23  5:36:54: C0:EVT#06387-05/16/23  5:36:54: 267=Command timeout on PD 0b(e0x20/s11) Path 5000039aa853e82e, CDB: 88 00 00 00 00 02 e9 7e 90 f2 00 00 00 3f 00 00
05/16/23  5:36:54: C0:EVT#06388-05/16/23  5:36:54: 267=Command timeout on PD 0b(e0x20/s11) Path 5000039aa853e82e, CDB: 88 00 00 00 00 02 e9 7e 8e 7e 00 00 00 6d 00 00
05/16/23  5:36:54: C0:EVT#06389-05/16/23  5:36:54: 267=Command timeout on PD 0b(e0x20/s11) Path 5000039aa853e82e, CDB: 88 00 00 00 00 03 7b 82 d9 5e 00 00 00 61 00 00
05/16/23  5:36:54: C0:EVT#06390-05/16/23  5:36:54: 267=Command timeout on PD 0b(e0x20/s11) Path 5000039aa853e82e, CDB: 88 00 00 00 00 03 7b 82 d9 33 00 00 00 2b 00 00
05/16/23  5:36:54: C0:EVT#06391-05/16/23  5:36:54: 267=Command timeout on PD 0b(e0x20/s11) Path 5000039aa853e82e, CDB: 88 00 00 00 00 03 7b 82 e6 c3 00 00 00 70 00 00
05/16/23  5:36:54: C0:EVT#06392-05/16/23  5:36:54: 267=Command timeout on PD 0b(e0x20/s11) Path 5000039aa853e82e, CDB: 88 00 00 00 00 03 7b 82 e5 55 00 00 00 60 00 00
05/16/23  5:36:54: C0:EVT#06393-05/16/23  5:36:54: 267=Command timeout on PD 0b(e0x20/s11) Path 5000039aa853e82e, CDB: 88 00 00 00 00 02 e9 7e 8e f0 00 00 00 7f 00 00
05/16/23  5:36:54: C0:EVT#06394-05/16/23  5:36:54: 267=Command timeout on PD 0b(e0x20/s11) Path 5000039aa853e82e, CDB: 88 00 00 00 00 03 81 91 08 00 00 00 00 4e 00 00
.
.
$ grep -i "command timeout" ttylog.txt |wc -l
58

上記の例では、スロット11のディスク(devID b)がメディアエラーとタイムアウトエラーを高い割合でログに記録していることがわかります。

注： PERCログ内では、DevIDは16進数形式で表示されます。DevID「0b」は10進数で「11」であるため、これはスロット11を指します。

次の例は、コントローラーによって記録されるディスクリセットなど、ディスクドライブに関する問題を示しています

この例は、ドライブが絶えずリセットされ、影響を受ける仮想ディスクで問題を引き起こすために発生する問題を示しています。

2022-01-21 01:58:39 PDR87 Disk 12 in Backplane 1 of Integrated RAID Controller 1 was reset. 
2022-01-21 01:58:39 LOG007 The previous log entry was repeated 27 times. 
2022-01-21 01:56:05 PDR87 Disk 12 in Backplane 1 of Integrated RAID Controller 1 was reset. 
2022-01-21 01:56:05 LOG007 The previous log entry was repeated 988 times.
.
.
2022-01-21 04:00:36 545196 PDR87 Disk 12 in Backplane 1 of Integrated RAID Controller 1 was reset.
2022-01-21 03:58:39 545193 PDR87 Disk 12 in Backplane 1 of Integrated RAID Controller 1 was reset.
2022-01-21 03:56:05 545190 PDR87 Disk 12 in Backplane 1 of Integrated RAID Controller 1 was reset.
.
.
2022-01-25 19:21:49 545547 PDR3 Disk 12 in Backplane 1 of Integrated RAID Controller 1 is not functioning correctly.
2022-01-25 19:21:49 545548 VDR56 Redundancy of Virtual Disk 1 on Integrated RAID Controller 1 has been degraded.
2022-01-25 19:21:49 545549 PDR87 Disk 12 in Backplane 1 of Integrated RAID Controller 1 was reset.

予測障害としてマークされたドライブも、次のような問題を引き起こす可能性があります。

2022-09-05 23:01:56 11008 PDR87 Disk 1 in Backplane 1 of RAID Controller in Slot 8 was reset.
2022-09-05 22:55:28 11003 PDR87 Disk 1 in Backplane 1 of RAID Controller in Slot 8 was reset
2022-09-05 23:02:23 11010 PDR87 Disk 1 in Backplane 1 of RAID Controller in Slot 8 was reset.
2022-09-05 23:01:56 11009 PDR16 Predictive failure reported for Disk 1 in Backplane 1 of RAID Controller in Slot 8.
2022-09-05 23:03:28 11012 PDR54 A disk media error on Disk 1 in Backplane 1 of RAID Controller in Slot 8 was corrected during recovery.
2022-09-05 23:02:28 11011 PDR16 Predictive failure reported for Disk 1 in Backplane 1 of RAID Controller in Slot 8.
2022-09-06 10:22:26 11034 PDR54 A disk media error on Disk 1 in Backplane 1 of RAID Controller in Slot 8 was corrected during recovery.
2022-09-06 00:11:27 11029 PDR54 A disk media error on Disk 1 in Backplane 1 of RAID Controller in Slot 8 was corrected during recovery.
2022-09-05 23:18:32 11015 PDR54 A disk media error on Disk 1 in Backplane 1 of RAID Controller in Slot 8 was corrected during recovery.
2022-09-05 23:06:26 11014 PDR16 Predictive failure reported for Disk 1 in Backplane 1 of RAID Controller in Slot 8.

次のいずれかの方法を使用して、アプライアンスディスクの詳細を表示および識別します。

iDRACまたはTSRデータを使用して、ドライブの詳細を表示します
ACM OSから、次のコマンドを使用してディスクの詳細を表示します:showfru disk

Dellサポートに連絡してサービスリクエストを作成し、ディスク交換の確認についてこの記事を参照してください。

注：さらなる問題のリスクを軽減するために、ディスクが交換されるまでData Domainファイルシステムを無効にすることをお勧めします。

これを行うには、Data Domain CLIから次のコマンドを実行します。

filesys disable

警告：複数のディスクドライブで障害が発生しているか、または過剰なエラーが発生していると表示されている場合は、Dellサポートが対応するまで、ディスクをプロアクティブに交換しないでください。過度のディスク障害は、データ損失を引き起こす可能性があります。

Información adicional

警告：ログの取得または解釈に関する疑問や質問は、統合データ保護アプライアンスSYSチームまたはPowerEdgeサーバーチームに問い合わせる必要があります。

メモ: 問題がディスクドライブの障害であることが確認され、この原因でData Domainファイルシステムが起動しない場合は、回避策として、障害が発生したディスクをスロットから物理的に取り外すか取り外します。もう1つのオプションは、 perccli ユーティリティーを使用してディスクをオフラインにしてみることです。これにより、コントローラーが欠落としてマークするため、過剰なエラーログが停止し、Data Domainファイルシステムが安定するようになります

ディスクをオフラインにする手順:

rootユーザーとしてESXiホストにログインします
コマンドを実行します: perccli /c0 show
この出力内で、影響を受けるドライブを特定し、エンクロージャとスロットのIDをメモします
上記の出力の値を使用して、次のコマンドを実行してドライブをオフラインに設定します。 perccli /c0[/ex]/sx set offline
たとえば、e32のスロット2のディスクをオフラインにするには、「perccli /c0/e32/s2 set offline」と入力します。
ディスクを交換すると、ドライブは自動的に再びオンラインとしてマークされます。

ディスクはできるだけ早く交換する必要がありますが、交換することで、パーツを配送して交換する時間を確保しながら、安定性を確保してサービスを再開できます。

Productos afectados

PowerProtect Data Protection Appliance, PowerProtect DP4400, Integrated Data Protection Appliance Family, PowerProtect Data Protection Hardware, Integrated Data Protection Appliance Software

Número del artículo: 000216674

Tipo de artículo: Solution

Última modificación: 07 may 2026

Versión: 3

Compruebe si el dispositivo está cubierto por los servicios de soporte.

「IDPA：DP4400ディスクエラーによるData Domainファイルシステムの不安定性

Resumen: 過剰なエラーをログに記録しているDP4400内のディスクドライブは、Data Domainファイルシステム(FS)が再起動して不安定になる原因となる可能性があります。

Síntomas

Causa

Resolución

Información adicional

Productos afectados

Síntomas

Causa

Resolución

Información adicional

Productos afectados

Propiedades del artículo

Encuentre respuestas a sus preguntas de otros usuarios de Dell

Servicios de soporte

Propiedades del artículo

Encuentre respuestas a sus preguntas de otros usuarios de Dell

Servicios de soporte

「IDPA：DP4400ディスク エラーによるData Domainファイルシステムの不安定性

Resumen: 過剰なエラーをログに記録しているDP4400内のディスク ドライブは、Data Domainファイル システム(FS)が再起動して不安定になる原因となる可能性があります。

Artículo detallado

Síntomas

Causa

Resolución

Información adicional

Productos afectados

Síntomas

Causa

Resolución

Información adicional

Productos afectados

Propiedades del artículo

Encuentre respuestas a sus preguntas de otros usuarios de Dell

Servicios de soporte

Propiedades del artículo

Encuentre respuestas a sus preguntas de otros usuarios de Dell

Servicios de soporte

「IDPA：DP4400ディスクエラーによるData Domainファイルシステムの不安定性

Resumen: 過剰なエラーをログに記録しているDP4400内のディスクドライブは、Data Domainファイルシステム(FS)が再起動して不安定になる原因となる可能性があります。