IDPA: DP4400 디스크 오류로 인해 Data Domain 파일 시스템 불안정 발생

Resumen: DP4400 내에서 디스크 드라이브가 과도한 오류를 기록하면 Data Domain FS(File System)가 재시작되고 불안정해질 수 있습니다.

Este artículo se aplica a Este artículo no se aplica a Este artículo no está vinculado a ningún producto específico. No se identifican todas las versiones del producto en este artículo.

Síntomas

다음과 같은 증상이 나타날 수 있습니다.

  • Data Domain Filesystem이 사용할 수 없는 것으로 보고되거나 반복적으로 재시작될 수 있음
  • Data Domain 내의 로그 및 알림에서 "vol1을 사용할 수 없음"을 보고할 수 있음
  • MSG_ERR_DDR_ERROR로 인해 Avamar 유지 보수 서비스가 실패합니다.
  • Avamar 유지 보수 또는 Data Domain 정리의 반복적인 실패로 인해 예기치 않은 대용량 사용
  • iDRAC에 모든 디스크가 정상이라고 표시되지만 컨트롤러 로그에는 그렇지 않을 수 있습니다


예:
Data Domain은 다음과 같은 알림을 기록할 수 있습니다. 

ALERT Filesystem EVT-FILESYS-00002: Problem is preventing filesystem from running.
EVT-STORAGE-00020: The Active tier is unavailable.
EVT-FILESYS-00011: DDFS process died; restarting


로그 파일 내 /ddr/var/log/debug/ddfs.info다음과 같은 오류가 표시될 수 있습니다.

Jun 30 11:48:28 idpa-dd ddfs[8504]: ERROR: MSG-SL-00004: Volume vol1 is unavailable. err:Missing storage device.
Jun 30 11:58:20 idpa-dd ddfs[15962]: ERROR: MSG-SL-00004: Volume vol1 is unavailable. err:Missing storage device.



로그 파일 /ddr/var/log/debug/kern.info 다음과 같은 디스크 그룹 오류를 보고할 수 있습니다.

Jun 30  18:51:08 idpa-dd kernel: [10002271.298276] (E4)DD_RAID: Array [dg2/ppart14] encountered READ I/O errors [57.57 dm-10p5 6000c290ea0836a3178bab0785368300] [dev idx: 0] [stripe: 516562] [gs:ffff880ce56ed210, request:ffff880ce9ebeb40] faults:1
Jun 30  18:51:08 idpa-dd kernel: [10002271.298302] (E4)ERROR: dd_dgrp.c:5731 dd_dgrp_array_internal_notification:: Too many disks failed [1, 14, 0]
Jun 30  18:51:08 idpa-dd kernel: [10002271.298305] (E4)DD_RAID: DiskGroup [dg2] has total failure!



또는 다음과 같은 추가 오류 :

idpa-dd kernel: [56127713.299919] (E4)sd 2:0:1:0: [sds] tag#0 Sense Key : Medium Error [current]
idpa-dd kernel: [56127713.299921] (E4)sd 2:0:1:0: [sds] tag#0 Add. Sense: No additional sense information
idpa-dd kernel: [56127713.299924] (E4)sd 2:0:1:0: [sds] tag#0 CDB: Read(16) 88 00 00 00 00 01 ed 7c 57 42 00 00 02 01 00 00
idpa-dd kernel: [56127713.299926] (E4)dd_blk_update_request: I/O error, dev sds, sector 8279316290
idpa-dd kernel: [56127713.299949] (E4)DEBUG: dd_array_error.c:512 dd_array_handle_fault:: nr_faults:1 array->level_info.nr_disks:1
idpa-dd kernel: [56127713.299956] (E4)DD_RAID: Array [dg2/ppart8] encountered READ I/O errors  [57.57 dm-18p5 6000c2963d6777f9dc56d52993b4f044] [dev idx: 0] [stripe: 806949] [gs:ffff880c10e92220, request:ffff880ce4ec4ca8] faults:1
idpa-dd kernel: [56128442.963940] (E4)DD_RAID: DiskGroup [dg2] has total failure!
idpa-dd kernel: [56128442.963964] (E4)DD_RAID: Array [dg2/ext3]: Suspended
idpa-dd kernel: [56128442.963988] (E4)DD_RAID: Array [dg2/ext3_1]: Suspended

Causa

IDPA DP4400에서 Data Domain 가상 머신은 어플라이언스 내의 볼륨 및 디스크 드라이브로 구성된 데이터 저장소를 사용합니다. VD02 또는 VD03의 디스크 드라이브가 높은 비율로 오류를 기록하는 경우 DDOS가 볼륨을 사용할 수 없는 것으로 표시하고 파일 시스템을 재시작하려고 시도할 정도로 데이터스토어 성능이 저하될 수 있습니다. 

DP4400의 볼륨에 대한 수동디스크 매핑은 다음과 같습니다.

가상 디스크 RAID 레벨 물리적 디스크 데이터 저장소 이름 설명
VD01 RAID 1 디스크 00:01:00 및 00:01:01(디스크 0 및 1) DP-어플라이언스-데이터 저장소 VM 데이터 저장소의 위치
VD02 RAID 6 디스크 00:01:02 - 01:09(디스크 2 - 9) DP 어플라이언스-ddve1 DDVE 파일 시스템용 DDVE1 데이터 저장소 위치(DP4400S 및 DP4400 모델에 있음)
VD03 RAID 6 디스크 00:01:10 - 01:17(디스크 10 - 17) DP-어플라이언스-ddve2 DDVE 파일 시스템의 DDVE2 데이터 저장소 위치(DP4400 모델에만 있음)

 

Resolución

  1. 다음 옵션 중 하나를 사용하여 RAID 컨트롤러(PERC)에서 로그를 수집합니다.
    • DP4400 iDRAC에 액세스하여 스토리지 서브시스템의 상태를 확인합니다.
    • SSH를 사용하여 ACM에 액세스하고 다음 명령을 실행합니다.

각 디스크의 상태를 표시합니다. 

      • Idpa-acm# showfru disk
        다음과 같이 ACM에서 PERC 로그를 수집합니다.
      • Idpa-acm# dpacli -host 192.168.100.101 -logs Perc -output perc_logs.tgz
    • CLI를 사용하여 ESXi 호스트에 액세스하고 다음을 실행합니다.
      • Idpa-esx# perccli /c0 show termlog > /tmp/ttylog.txt
      • Idpa-esx# perccli /c0 show events > /tmp/events.txt
  1. 이러한 로그에서 다음 예와 같은 이벤트를 검토할 수 있습니다.
06/17/23 5:02:22: C0:EVT#97309-06/17/23 5:02:22: 113=Unexpected sense: PD 03(e0x20/s3) Path 50000399c882671a, CDB: 88 00 00 00 00 00 7e b4 72 29 00 00 01 d7 00 00, Sense: 3/11/01 06/17/23 5:02:22: C0:Raw Sense for PD 3: 72 03 11 01 00 00 00 34 00 0a 80 00 00 00 00 00 7e b4 72 29 02 06 00 00 80 00 3f 00 80 1e 00 88 81 07 02 0f 01 13 00 00 7f cd 01 38 00 02 00 22 1a 40 00 14 c0 c0 0f 00 7f d2 ff ff 06/17/23 5:02:22: C0:DM_PerformSenseDataRecovery:Medium Error DevId[3] devHandle d RDM=40d47600 retries=0 callback=c0358e30 06/17/23 5:02:22: C0:DM_PerformSenseDataRecovery: Medium Error is for: cmdId=427, ld=1, src=7, cmd=2, lba=2f83aac00, cnt=400, rmwOp=0

06/21/23 5:30:01: C0:EVT#97500-06/21/23 5:30:01: 110=Corrected medium error during recovery on PD 03(e0x20/s3) at d05a2e0a 06/21/23 5:30:01: C0:Issuing write verify pd=03 physArm=1 span=0 startBlk=d05a2e13 numBlks=1 06/21/23 5:30:01: C0:EVT#97501-06/21/23 5:30:01: 110=Corrected medium error during recovery on PD 03(e0x20/s3) at d05a2e13 06/21/23 5:30:01: C0:Issuing write verify pd=03 physArm=1 span=0 startBlk=d05a2e14 numBlks=1


seqNum: 0x00002999
Time: Mon Mar 20 17:53:50 2023

Code: 0x0000005d
Class: 0
Locale: 0x02
Event Description: Patrol Read corrected medium error on PD 0a(e0x20/s10) at 8912fa1c
Event Data:
===========
Device ID: 10
Enclosure Index: 32
Slot Number: 10
LBA: 2299722268


seqNum: 0x0000299a
Time: Mon Mar 20 17:53:50 2023

Code: 0x00000071
Class: 0
Locale: 0x02
Event Description: Unexpected sense: PD 0a(e0x20/s10) Path 50000399e8429da2, CDB: 8f 00 00 00 00 00 89 12 fa 1d 00 00 10 00 00 00, Sense: 3/11/01
Event Data:
===========
Device ID: 10
Enclosure Index: 32
Slot Number: 10
CDB Length: 16
CDB Data:
008f 0000 0000 0000 0000 0000 0089 0012 00fa 001d 0000 0000 0010 0000 0000 0000 Sense Length: 60
Sense Data:
0072 0003 0011 0001 0000 0000 0000 0034 0000 000a 0080 0000 0000 0000 0000 0000 0089 0012 00fa 001d 0002 0006 0000 0000 0080 0000 0000 0000 0080 001e 0000 008f 0081 0007 0002 000a 0000 00d6 0000 0000 008d 003e 0000 00ef 0000 0002 0000 0022 001f 0040 0000 0000 00fd 00fd 000a 0000 008d 003e 00ff 00ff 0000 0000 0000 0000

 

패턴 및 반복적인 오류를 확인합니다. 단일 드라이브에서 많은 이벤트가 기록될 수 있으며, 이는 문제를 일으키는 디바이스가 있음을 나타냅니다.

$ grep -i "medium error" ttylog.txt
05/08/23 17:30:18: C0:DM_PerformSenseDataRecovery:Medium Error DevId[b] devHandle 15 RDM=40da6800 retries=0 callback=c0358e2c
05/08/23 17:30:18: C0:DM_PerformSenseDataRecovery: Medium Error is for: cmdId=ae, ld=2, src=1, cmd=1, lba=26ca06f8b, cnt=200, rmwOp=0
05/08/23 17:30:21: C0:DM_PerformSenseDataRecovery:Medium Error DevId[b] devHandle 15 RDM=40da6800 retries=0 callback=c0358e2c
05/08/23 17:30:21: C0:DM_PerformSenseDataRecovery: Medium Error is for: cmdId=ae, ld=2, src=1, cmd=1, lba=26ca06f8b, cnt=200, rmwOp=0
05/08/23 17:30:24: C0:DM_PerformSenseDataRecovery:Medium Error DevId[b] devHandle 15 RDM=40da6800 retries=0 callback=c0358e2c
05/08/23 17:30:24: C0:DM_PerformSenseDataRecovery: Medium Error is for: cmdId=ae, ld=2, src=1, cmd=1, lba=26ca06f8b, cnt=200, rmwOp=0
05/08/23 17:30:26: C0:DM_PerformSenseDataRecovery:Medium Error DevId[b] devHandle 15 RDM=40da6800 retries=0 callback=c0358e2c
05/08/23 17:30:26: C0:DM_PerformSenseDataRecovery: Medium Error is for: cmdId=ae, ld=2, src=1, cmd=1, lba=26ca06f8b, cnt=200, rmwOp=0
05/08/23 17:30:28: C0:DM_PerformSenseDataRecovery:Medium Error DevId[b] devHandle 15 RDM=40da6800 retries=0 callback=c0358e2c
05/08/23 17:30:28: C0:DM_PerformSenseDataRecovery: Medium Error is for: cmdId=ae, ld=2, src=1, cmd=1, lba=26ca06f8b, cnt=200, rmwOp=0
05/08/23 17:30:31: C0:DM_PerformSenseDataRecovery:Medium Error DevId[b] devHandle 15 RDM=40da6800 retries=0 callback=c0358e2c
05/08/23 17:30:31: C0:DM_PerformSenseDataRecovery: Medium Error is for: cmdId=ae, ld=2, src=1, cmd=1, lba=26ca06f8b, cnt=200, rmwOp=0
.
.
$ grep -i "medium error" ttylog.txt | wc -l
2168


$ grep -i "command timeout" ttylog.txt
05/16/23  5:36:54: C0:EVT#06386-05/16/23  5:36:54: 267=Command timeout on PD 0b(e0x20/s11) Path 5000039aa853e82e, CDB: 88 00 00 00 00 03 7b 82 d6 49 00 00 00 68 00 00
05/16/23  5:36:54: C0:EVT#06387-05/16/23  5:36:54: 267=Command timeout on PD 0b(e0x20/s11) Path 5000039aa853e82e, CDB: 88 00 00 00 00 02 e9 7e 90 f2 00 00 00 3f 00 00
05/16/23  5:36:54: C0:EVT#06388-05/16/23  5:36:54: 267=Command timeout on PD 0b(e0x20/s11) Path 5000039aa853e82e, CDB: 88 00 00 00 00 02 e9 7e 8e 7e 00 00 00 6d 00 00
05/16/23  5:36:54: C0:EVT#06389-05/16/23  5:36:54: 267=Command timeout on PD 0b(e0x20/s11) Path 5000039aa853e82e, CDB: 88 00 00 00 00 03 7b 82 d9 5e 00 00 00 61 00 00
05/16/23  5:36:54: C0:EVT#06390-05/16/23  5:36:54: 267=Command timeout on PD 0b(e0x20/s11) Path 5000039aa853e82e, CDB: 88 00 00 00 00 03 7b 82 d9 33 00 00 00 2b 00 00
05/16/23  5:36:54: C0:EVT#06391-05/16/23  5:36:54: 267=Command timeout on PD 0b(e0x20/s11) Path 5000039aa853e82e, CDB: 88 00 00 00 00 03 7b 82 e6 c3 00 00 00 70 00 00
05/16/23  5:36:54: C0:EVT#06392-05/16/23  5:36:54: 267=Command timeout on PD 0b(e0x20/s11) Path 5000039aa853e82e, CDB: 88 00 00 00 00 03 7b 82 e5 55 00 00 00 60 00 00
05/16/23  5:36:54: C0:EVT#06393-05/16/23  5:36:54: 267=Command timeout on PD 0b(e0x20/s11) Path 5000039aa853e82e, CDB: 88 00 00 00 00 02 e9 7e 8e f0 00 00 00 7f 00 00
05/16/23  5:36:54: C0:EVT#06394-05/16/23  5:36:54: 267=Command timeout on PD 0b(e0x20/s11) Path 5000039aa853e82e, CDB: 88 00 00 00 00 03 81 91 08 00 00 00 00 4e 00 00
.
.
$ grep -i "command timeout" ttylog.txt |wc -l
58


위의 예에서 슬롯 11(devID b)의 디스크가 높은 비율로 중간 및 시간 초과 오류를 기록하고 있음을 확인할 수 있습니다.

참고:  PERC 로그 내에서 DevID는 16진수 형식으로 표시됩니다. DevID "0b"는 십진수로 "11"이므로 슬롯 11을 나타냅니다.


다음 예는 컨트롤러에서 기록한 디스크 재설정과 같은 디스크 드라이브의 문제를 보여줍니다.

이 예시는 영향을 받는 가상 디스크에서 지속적으로 재설정되고 문제를 일으키는 드라이브로 인해 발생하는 문제를 보여줍니다.

2022-01-21 01:58:39 PDR87 Disk 12 in Backplane 1 of Integrated RAID Controller 1 was reset. 
2022-01-21 01:58:39 LOG007 The previous log entry was repeated 27 times. 
2022-01-21 01:56:05 PDR87 Disk 12 in Backplane 1 of Integrated RAID Controller 1 was reset. 
2022-01-21 01:56:05 LOG007 The previous log entry was repeated 988 times.
.
.
2022-01-21 04:00:36 545196 PDR87 Disk 12 in Backplane 1 of Integrated RAID Controller 1 was reset.
2022-01-21 03:58:39 545193 PDR87 Disk 12 in Backplane 1 of Integrated RAID Controller 1 was reset.
2022-01-21 03:56:05 545190 PDR87 Disk 12 in Backplane 1 of Integrated RAID Controller 1 was reset.
.
.
2022-01-25 19:21:49 545547 PDR3 Disk 12 in Backplane 1 of Integrated RAID Controller 1 is not functioning correctly.
2022-01-25 19:21:49 545548 VDR56 Redundancy of Virtual Disk 1 on Integrated RAID Controller 1 has been degraded.
2022-01-25 19:21:49 545549 PDR87 Disk 12 in Backplane 1 of Integrated RAID Controller 1 was reset.

 

예측 장애로 표시된 드라이브도 문제를 일으킬 수 있습니다.

2022-09-05 23:01:56 11008 PDR87 Disk 1 in Backplane 1 of RAID Controller in Slot 8 was reset.
2022-09-05 22:55:28 11003 PDR87 Disk 1 in Backplane 1 of RAID Controller in Slot 8 was reset
2022-09-05 23:02:23 11010 PDR87 Disk 1 in Backplane 1 of RAID Controller in Slot 8 was reset.
2022-09-05 23:01:56 11009 PDR16 Predictive failure reported for Disk 1 in Backplane 1 of RAID Controller in Slot 8.
2022-09-05 23:03:28 11012 PDR54 A disk media error on Disk 1 in Backplane 1 of RAID Controller in Slot 8 was corrected during recovery.
2022-09-05 23:02:28 11011 PDR16 Predictive failure reported for Disk 1 in Backplane 1 of RAID Controller in Slot 8.
2022-09-06 10:22:26 11034 PDR54 A disk media error on Disk 1 in Backplane 1 of RAID Controller in Slot 8 was corrected during recovery.
2022-09-06 00:11:27 11029 PDR54 A disk media error on Disk 1 in Backplane 1 of RAID Controller in Slot 8 was corrected during recovery.
2022-09-05 23:18:32 11015 PDR54 A disk media error on Disk 1 in Backplane 1 of RAID Controller in Slot 8 was corrected during recovery.
2022-09-05 23:06:26 11014 PDR16 Predictive failure reported for Disk 1 in Backplane 1 of RAID Controller in Slot 8.

 

  1. 다음 방법 중 하나를 사용하여 어플라이언스 디스크 세부 정보를 보고 식별합니다.
  • iDRAC 또는 TSR 데이터를 사용하여 드라이브 세부 정보를 봅니다.
  • ACM OS에서 다음 명령을 사용하여 디스크 세부 정보를 표시합니다. showfru disk
    1. Dell 지원 부서에 문의하여 서비스 요청을 생성하고 디스크 교체를 확인하려면 이 문서를 참조하십시오.

     

    참고: 추가 문제의 위험을 줄이려면 디스크를 교체할 때까지 Data Domain 파일 시스템을 비활성화하는 것이 좋습니다.

      이 작업은 Data Domain CLI에서 다음 명령을 실행하여 수행합니다. 

    filesys disable

     

    주의: 여러 디스크 드라이브에 장애가 발생했거나 과도한 오류가 발생한 것으로 표시되는 경우 Dell 지원이 시작될 때까지 디스크를 사전 예방적으로 교체하지 마십시오. 과도한 디스크 장애로 인해 데이터가 손실될 수 있습니다.

    Información adicional

    주의: 로그를 얻거나 해석하는 것과 관련하여 의문 사항이나 질문이 있는 경우 Integration Data Protection Appliance SYS 팀 또는 PowerEdge 서버 팀에 문의해야 합니다.
     
    참고: 문제가 장애가 발생한 디스크 드라이브로 확인되고 이로 인해 Data Domain 파일 시스템이 시작되지 않는 경우 장애가 발생한 디스크를 해당 슬롯에서 물리적으로 제거하거나 분리하는 것이 해결 방법일 수 있습니다.  또 다른 옵션은 perccli 유틸리티를 사용하여 디스크를 오프라인으로 시도하는 것입니다. 이로 인해 컨트롤러가 이를 누락으로 표시하므로 과도한 오류 로깅이 중지되고 Data Domain 파일 시스템이 안정화됩니다.

    디스크를 오프라인으로 전환하는 단계:
    • 루트 사용자로 ESXi 호스트에 로그인합니다.
    • perccli /c0 show 명령을 실행합니다.
    • 이 출력 내에서 영향을 받는 드라이브를 찾고 인클로저 및 슬롯 ID를 기록합니다
    • 다음 명령을 실행하여 위 출력의 값을 사용하여 드라이브를 오프라인으로 설정합니다. perccli /c0[/ex]/sx set offline
    • 예를 들어 e32의 경우 슬롯 2의 디스크를 오프라인으로 전환: perccli /c0/e32/s2 set offline
    • 디스크를 교체하면 드라이브가 자동으로 다시 온라인 상태로 표시됩니다.
    디스크는 가능한 한 빨리 교체해야 하지만, 이렇게 하면 안정성을 확보하고 서비스를 재개하면서 부품을 배송 및 교체할 시간을 벌 수 있습니다.

    Productos afectados

    PowerProtect Data Protection Appliance, PowerProtect DP4400, Integrated Data Protection Appliance Family, PowerProtect Data Protection Hardware, Integrated Data Protection Appliance Software
    Propiedades del artículo
    Número del artículo: 000216674
    Tipo de artículo: Solution
    Última modificación: 07 may 2026
    Versión:  3
    Encuentre respuestas a sus preguntas de otros usuarios de Dell
    Servicios de soporte
    Compruebe si el dispositivo está cubierto por los servicios de soporte.