Avamar: Avamar에서 일시 중단된 파티션, 스트라이프 및 hfscheck 장애

Summary: 이 문서에서는 Avamar의 일시 중단된 파티션, 스트라이프 및 Hfscheck 실패(증상 코드 22632)에 대해 설명합니다.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

1. Avamar Administrator 서버 UI에 다음 오류가 나타날 수 있습니다. 메시지는 Dial Home SR(Service Request)을 생성할 수 있습니다.

Symptom Code: 22632, Desc: A server disk has become suspended.
 

2. 관련된 WARN 메시지 perfbeat 스레드는 의 데이터 스토리지 노드에 보고됩니다. /data01/cur/gsan.log:

WARN: <0968> perfbeat::outoftolerance mbpersec=0.31 average=5.66
WARN: <1051> tperfstatechanger::execute server_exception(MSG_ERR_UNNECESSARY) diskid=0 newstate=suspended
WARN: <1084> changing disk 0 on node 0.3 to suspended state
 

3. 이 status.dpn 디스크에 스트라이프가 일시 중단된
것으로 출력됩니다(이 출력은 "WARN <1084>"가 발생하는 경우에만 생성됨).

예:

0.8 10.10.10.10 7.3.1-125 ONLINE fullaccess mhpu+0hpu+0hpu 1 false 7.36 16350564 3401334 56.0% 66%(onl:1,SUS:2374) 50%(onl:2439) 50%(onl:2433) 

이 출력은 2374개의 일시 중단된 스트라이프가 있음을 보여줍니다.

4. 이 hfschec파티션이 일시 중단되면 k가 실패하고 hfscheck 실행 중입니다. 오류의 예 /data01/hfscheck/err.log 또는 /data01/cur/err.log 다음과 같습니다. 

ERROR: <0001> indexstripe::hfschecksweepbody stripe=0.0-1209 proxy=0.0-1209 indexelem([hash=ee9b2fe66b4bd472e28c4f41c5097dbeaba7131a stripe=0.1-DF8 offset=1285]) goodowner=true goodelem=false

 

Cause

주기적으로, 기본적으로 5분마다 gsan "테스트" I/O 데이터 파티션에서 작은 읽기를 수행하여 서브시스템.

읽기 성능이 정상 성능의 10%인지 확인합니다.

 

아래 예에서 이 메시지는 경고 메시지를 생성한 특정 노드에서 장시간 시행 횟수 동안의 평균 읽기 성능을 나타내는 반면 hfscheck 실행 중인 것은 약 54.03MB/초입니다. 그러나 이 특정 테스트에서 실제 성능은 0.57MB/초로 평균값의 10% 또는 5.4029MB/초의 "제한" 미만입니다.

Event Summary = perfbeat::outoftolerance mask=[hfscheck] average=54.03 limit=5.4029 mbpersec=0.57
 

이 테스트의 원래 목적은 몇 가지 문제가 있음을 경고하는 것이었습니다. I/O 읽기 성능을 과도하게 저하시키는 하위 시스템입니다. 

이 경우 "평균" 디스크의 10%보다 느립니다. I/O 공연.

perftriallimit 이전 허용 오차를 벗어나야 하는 연속 디스크 읽기 테스트 수를 지정합니다. perfbeat 디스크의 성능이 저하될 수 있다고 의심합니다.

perfinterval (기본값: 300초 또는 5분) 각 노드 사이의 대기 시간을 지정합니다. perftriallimit 테스트.

 

날짜 perfbeat 디스크 성능이 저하된 것으로 의심되면 gsan 콜드 상태에 도달합니다(모든 디스크 관련 작업 중지). 

최대 20분(유선) 동안 대기합니다. gsan 시간 초과되고 디스크를 일시 중단하지 않기 전에 이 상태에 도달합니다.

콜드 상태에 도달하면 perfbeat 수행 perfcoldtriallimit (기본값 4) 더 많은 읽기 테스트 간격 perfcoldinterval (기본값: 30)초 간격.

이러한 모든 테스트가 디스크가 여전히 성능 저하 상태임을 나타내는 경우에만 디스크가 일시 중단됩니다.

 

일시 중단된 디스크의 가능한 원인은 다음과 같습니다.

  • 콜드 상태에 도달하려고 할 때 gsan은 항상 최소 1분 동안 대기합니다(하드와이어링). 또한 보류 중인 모든 gsan 디스크를 대기합니다 I/O 작업을 완료하거나 일시 중단하기 위한 관련 활동. 그러나 콜드 상태에 도달한 후에도 운영 체제에서 디스크 작업을 계속 수행 중일 수 있습니다 I/O, 예: 캐시 플러시 등. 이 플러시 작업은 디스크가 불필요하게 일시 중단되는 이유에 대한 가능한 설명 중 하나입니다. 메모리 양이 많을수록 플러시할 캐시 데이터가 훨씬 더 많아질 수 있습니다.

  • 또 다른 가능한 설명은 성능 기록 정보가 다양한 작업 중에 예상되는 디스크 읽기 성능을 정확하게 예측하지 못한다는 것입니다. gsan 활동 때문에 gsan's 동작이 너무 빨리 변경되어 기록에 반영되지 않습니다(기록은 지난 10일 동안의 성능 측정의 평균).

  • 또 다른 가능한 설명은 모든 것을 기다리지 않는 것과 같은 문제가 있을 수 있다는 것입니다 gsan 디스크 I/O 콜드 상태에 도달하기 전에 작업을 완료하거나 일시 중단하는 활동입니다.

또한, 연구에 따르면 hfscheck "indexsweep" 단계(인덱스 스트라이프의 모든 해시를 읽은 다음 많은 DRL(Data Referenced Log) 파일에 대한 대규모 임의 쓰기를 수행하는 경우) 테스트된 I/O 성능이 상당 기간 저하됩니다.

Avamar Data Store Gen4, Gen4s 및 Gen4T에서는 쓰기 작업이 읽기 작업보다 우선시되었으며 I/O 하위 시스템이 훨씬 낮습니다. 또한 일부 드라이브(예: Seagate Megalodon 드라이브)는 드라이브의 테스트에 의해 수행되는 테스트를 혼동할 수 있는 몇 가지 다른 기술을 사용합니다. perfbeat 스레드.

Resolution

배경:

일반적으로 다음과 같은 세 가지 경고 메시지가 표시됩니다. gsan 로그:

WARN: <0968> perfbeat::outoftolerance mbpersec=0.31 average=5.66

경고 <0968> 은 개인이 있었음을 나타냅니다. gsan I/O 느린 테스트.

이 메시지는 무시해도 안전합니다.

 
WARN: <1051> tperfstatechanger::execute server_exception(MSG_ERR_UNNECESSARY) diskid=0 newstate=suspended

경고 <1051> 은 느린 읽기가 충분히 있음을 나타냅니다. gsan 는 데이터 파티션을 일시중단 상태로 두는 것으로 고려되었으나 그렇게 하지 않기로 결정했습니다. 그것이 MSG_ERR_UNNECESSARY 가리키는 것입니다.

이 메시지는 무시해도 안전합니다.

 
WARN: <1084> changing disk 0 on node 0.3 to suspended state

경고 <1084> 는 gsan이 데이터 파티션을 "일시 중단 상태"로 전환했음을 나타냅니다.

이 메시지를 무시해서는 안 됩니다.

 
 

해결 방법:

스트라이프가 일시 중단 상태가 되면 다음 지침을 사용하여 다음 시나리오를 조사하고 수정하십시오.

일시 중단된 파티션의 위치를 식별하려면 다음을 수행합니다.

1. Avamar Utility Node에 관리자로 로그인합니다.

2. 루트 권한으로 상승합니다.

3. Avamar당 루트 키를 로드합니다. Avamar Server에 로그인하고 다양한 키를 로드하는 방법

4. 다음 명령을 실행하여 일시 중단된 파티션의 위치를 식별합니다.

mapall --noerror 'grep -i "suspended" /data01/cur/err.log'
 

5. 위의 결과와 관련된 시나리오를 검토합니다.

시나리오# 1: 서로 다른 스토리지 노드에서 임의의 부분이 일시 중지 상태로 설정되었습니다.
    • 작업이 필요하지 않습니다. 스트라이프는 자동으로 온라인 상태로 돌아갑니다. 그럴 가능성이 매우 높습니다. hfscheck 달리고 있었다. 
 
시나리오# 2: 동일한 스토리지 노드에서 동일한 파티션이 일시 중지 상태가 된 경우:
    • 스트라이프가 자동으로 온라인 상태로 반환되면 가비지 컬렉션 또는 hfscheck 달리고 있었다.
    • 중요: 이는 디스크 문제 또는 일부 근본적인 문제를 나타낼 수 있습니다.
    • 드라이브에서 아직 장애가 발생하지는 않았지만 여전히 아래 단계를 사용하여 확인해야 합니다.

1. Avamar가 일시 중단한 디스크와 연결된 물리적 디스크를 확인합니다. 가상 디스크 일시 중단 내의 물리적 디스크 문제는 일시 중단의 근본 원인입니다.

avsysreport pdisk vdisk=x 

여기서 x는 일시 중단된 가상 디스크(데이터 파티션)의 번호입니다. 예를 들어, 첫 번째 데이터 파티션이 일시 중단된 스트라이프를 표시하는 경우 vdis=0.

 

2. 물리적 디스크 수준에서 디스크 장애, 예측된 장애 또는 기타 오류가 없는지 확인합니다.

3. 해당되는 노드의 가상 디스크를 나타내는 물리적 디스크에 SCSI 오류가 없는지 확인합니다(1단계에서 결정됨). 

grep -i "MRMON\|scsi|Adaptec" /var/log/messages
 

4. 연속 기입 모드의 가상 디스크는 디스크 디스크 디스크 부족으로 인해 일시 중단될 수 있습니다. I/O. 컨트롤러에서 쓰기 정책을 확인합니다.

mapall --noerror --all+ 'avsysreport vdisk | grep "Write Policy"'  
 

2-4단계에서 문제가 감지되면 추가 조사를 위해 Dell Technologies Avamar 지원을 통해 SR을 개설하십시오.

 

시나리오# 3: 기본값 검토 perftriallimit 설정:

1. 폴더 perftriallimit 가 0으로 설정된 경우:

avmaint config --ava | grep perftriallimit 
perftriallimit="0"
 

2. 만일 perftriallimit 0이 아닌 경우:

a. 다음 명령을 실행하여 업데이트합니다.

avmaint config --ava perftriallimit=0

b. 변경 사항을 확인합니다.

avmaint config --ava | grep perftriallimit 
perftriallimit="0"
 

 

 

Affected Products

Avamar

Products

Avamar, Avamar Server
Article Properties
Article Number: 000061342
Article Type: Solution
Last Modified: 17 Jun 2025
Version:  10
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.