PowerFlex: 디바이스가 여전히 사용 중이고 정상인데도 SDS 디바이스가 오류를 보고함
요약: MDM이 SDS의 디바이스 오류를 보고하지만 문제의 SDS 또는 DAX 디바이스가 클러스터에서 사용되고 있으며 정상 상태입니다.
증상
MDM이 S.M.A.R.T. 속성을 기반으로 SDS 또는 DAX 디바이스 오류를 보고합니다. I/O 문제가 발생할 때까지 드라이브가 배출되지 않습니다.
MDM events.txt
SDS 디바이스의 예:
2018-06-18 14:16:10.290 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR Device failure state reported on SDS: SIO-NODE3, Device: /dev/sdu
DAX 디바이스 예제:
2021-06-06 21:11:25.765 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax1.0. 2021-06-06 21:11:25.784 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax0.0. 2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax3.0. 2021-06-06 21:11:25.786 SDS_DEV_MOVED_TO_FAILURE_STATE ERROR A device failure state exists on SDS: SIO-NODE3, Device: /dev/dax2.0.
SDS는 I/O 문제가 발생하면 드라이브를 꺼냅니다. 아래에서 유사한 오류를 볼 수 있습니다.
2018-06-19 01:28:38.662 SDS_DEV_ERROR_REPORT ERROR Device error reported on SDS: SIO-NODE3, Device: /dev/sdb. 2018-06-19 01:28:38.962 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.
오류 메시지의 차이에 유의하십시오.
- SDS_DEV_MOVED_TO_FAILURE_STATE <<<--- device not failed - SDS_DEV_ERROR_REPORT <<<--- device failed
시스템은 특정 디바이스에 대한 I/O 폐기/오류를 표시하고 DATA_DEGRADED로 이동하여 재구축을 수행합니다.
iDRAC에서 호스트의 하드웨어 진단을 확인하면 디스크에 다음과 같은 예측 장애가 있음을 알 수 있습니다.
이러한 영향은 외관상의 문제(MDM 이벤트 채우기)부터 재구축을 유발하는 드라이브 장애까지 다양할 수 있습니다.
원인
SDS 노드의 LIA 에이전트는 SDS에 사용되는 스토리지 디바이스의 S.M.A.R.T. 속성을 샘플링합니다. MDM은 이 데이터를 MDM에 전달한 다음 발견된 모든 문제를 보고하지만 데이터에 대해 조치를 취하지는 않습니다.
S.M.A.R.T. 상태는 다음 두 가지 값만 제공하므로 아무 작업도 수행되지 않습니다. "threshold not exceeded" 및 "threshold exceeded." 이는 각각 "드라이브 정상" 또는 "드라이브 장애"로 표시되는 경우가 많습니다.
"임계값 초과" 값은 향후 드라이브에 장애가 발생할 가능성이 높다는 것을 나타냅니다. 특정 섹터에 쓸 수 없거나 제조업체가 주장하는 것보다 성능이 느린 것과 같이 치명적이거나 미묘할 수 있습니다.
해결
수동 하드웨어 진단을 실행하여 문제가 있는 SDS 또는 DAX 디바이스를 교체해야 하는지 확인합니다. 필요에 따라 하드웨어 공급업체에 문의하십시오.
영향을 받는 버전
ScaleIO 2.x.x
VxFlex OS 3.0.x
PowerFlex 3.5.x
PowerFlex 3.6.0.x-3.6.1.x
수정된 버전
PowerFlex 3.6.0.3에서는 LIA 샘플링 설계가 개선되었습니다.
거짓 양성 MDM 이벤트는 PowerFlex 3.6.2에서 해결되었습니다.