I/O 오류 또는 소프트웨어 정의 스토리지가 드라이브를 장애 또는 사용 불가로 표시하는 경우 드라이브를 교체해야 할 수 있습니다
Summary: 사용자는 I/O 오류로 인해 또는 드라이브가 SDS(Software-Defined Storage) 솔루션에 의해 "장애" 또는 "사용 불가"로 표시된 경우 드라이브 교체를 요청할 수 있습니다.
Instructions
Ceph(Linux), vSAN(VMware), Nutanix 등과 같은 여러 SDS 솔루션이 있습니다. 동일하게 구성된 여러 서버가 네트워크를 통해 함께 결합되어 스토리지 클러스터를 생성합니다. 서버는 PERC 대신 HBA(Host Bus Adapter)로 구성되어 드라이브가 운영 체제에 "있는 그대로" 표시됩니다. 운영 체제는 HBA의 개입 없이 각 서버의 모든 드라이브를 직접 관리합니다. 드라이브가 Dell 모니터링 툴(예: iDRAC 및 OMSA) 및 ePSA 오프라인 진단에서 "정상"으로 나열됩니다. 드라이브의 SMARTCTL 데이터에는 수정되지 않은 읽기 및 쓰기 오류가 있을 수도 있고 없을 수도 있습니다. SMART 테스트(짧음, 길음, 확장)를 통과하고 드라이브가 "정상"으로 표시됩니다.
SDS(Software-Defined-Storage Solution)는 HBA(Host Bus Adapter)를 사용하여 드라이브에 물리적 연결을 제공하는 방식으로 모든 스토리지 관련 제어를 하드웨어에서 소프트웨어로 전환합니다.
RAID 컨트롤러(PERC)는 순회 읽기 및 가상 디스크에 대한 일관성 검사를 포함하여 드라이브에 대한 몇 가지 사전 예방적 유지 보수 작업을 수행합니다. SDS 솔루션은 PERC 대신 HBA(Host Bus Adapter)를 사용하기 때문에 소프트웨어가 이러한 모든 사전 예방적 유지 보수 작업을 수행합니다.
사용자가 SDS가 드라이브를 "실패 또는 사용 불가"로 표시한다고 보고하거나 드라이브의 I/O 오류를 나열할 수 있습니다. iDRAC 및 OMSA와 같은 Dell 모니터링 툴이 드라이브를 정상 및 작동 중인 것으로 보고합니다.
"SMARTMON" 또는 "SMARTCTL"과 같은 툴은 하나 이상의 표시된 드라이브에 대한 일부 오류를 나열할 수 있지만 전체 드라이브 상태는 "정상" 또는 "정상"으로 나열됩니다.
이러한 차이는 다음과 같은 요인으로 인해 발생합니다.
- iDRAC는 구성 요소의 상태를 표시합니다. 드라이브 펌웨어가 정상이라고 보고하는 경우 iDRAC에도 동일하게 반영됩니다. 드라이브 펌웨어에 예측된 장애 상태가 표시되면 iDRAC에도 동일한 내용이 반영됩니다.
- 모든 드라이브는 일부 불량 블록 또는 수정할 수 없는 오류를 허용할 수 있으며 기능에 영향을 주지 않고 계속 작동합니다. 불량 블록의 임계값은 드라이브 제조업체에 의해 드라이브 펌웨어에 프로그래밍되며 표준 개수 또는 비율이 아닙니다.
- 드라이브는 드라이브의 불량 블록 또는 수정할 수 없는 오류의 총 수가 예측 장애 또는 장애 임계값을 위반할 때까지 작동 상태를 유지합니다.
- 드라이브의 오프셋 주소는 불량 블록으로 표시되고 해당 특정 주소에서 쓰기 작업이 실패하는 경우에만 데이터가 재배치됩니다. 드라이브 펌웨어는 섹터를 불량 블록으로 표시한 읽기 오류를 고려하지 않습니다.
- 운영 체제 수준에서 기록된 I/O 오류가 수명주기 로그에 반영되지 않을 수 있습니다.
이러한 시나리오에서 드라이브는 작동 매개변수 내에서 작동합니다. 하드웨어 교체에 해당하지도 않고 교체할 필요도 없습니다. 여기서 권장되는 작업 계획은 소프트웨어 계층에서 필요한 유지 보수 작업을 수행하여 문제를 해결하는 것입니다.
이러한 시나리오에서는 영향을 받는 하나 이상의 서버에서 전체 운영 체제 로그 번들 또는 보고서를 캡처합니다. Dell SST(보증 계약이 적용되는 경우) 또는 운영 체제 공급업체에 로그 검토를 요청하십시오. 다음 수정 단계에 대한 조언을 받아야 합니다.
Dell SST 또는 운영 체제 공급업체는 다음 세부 정보를 확인합니다.
- 운영 체제 커널(있는 경우)에 의해 기록된 총 I/O 오류입니다.
- 오류가 기록된 디바이스(하나 이상)
- 손상 유형: 파일 또는 메타데이터 수준(있는 경우)
- 스토리지 서비스가 충돌했나요? 그렇다면 그 이유는 무엇입니까?
- SDS에서 이러한 오류를 해결하기 위한 개선 조치를 사용할 수 있습니다.