NetWorker: Red Had Enterprise Linux Pacemaker 페일오버 클러스터에 구축된 NetWorker 서버는 모니터링 간격을 튜닝할 방법이 없습니다.
Summary: 짧은 모니터링 중단으로 인해 대규모 클러스터 환경에서 간헐적으로 NetWorker 운영 중단이 관찰되었습니다. 기본적으로 모니터 기능은 세 번 재시도됩니다. 사용할 수 있는 "재시도 개수" 매개변수는 없습니다. 이 KB는 잠재적인 해결 방법 및 NetWorker 개선 기회에 대한 RFE 세부 정보를 정의합니다.
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
- NetWorker 서버는 Red Hat Pacemaker(pcs) 페일오버 클러스터에 설치됩니다.
- NetWorker 서버의 Pacemaker(pcs) 리소스가 잠깐 중단되어 NetWorker에 간헐적인 운영 중단이 발생합니다(기본값은 nws).
Cause
클러스터 운영 중단의 원인은 다를 수 있습니다. 이 섹션에서는 NetWorker 클러스터 모니터 기능을 수행하는 데 사용되는 기능을 정의합니다.
기본적으로 NetWorker의 Pacemaker 리소스에는 "모니터" 작업이 있습니다. 이 작업에는 초기 NetWorker 클러스터 구성 중에 클러스터 관리자가 구성하는 "간격" 및 "시간 초과" 설정이 있습니다.
참고: 모니터 장애는 정상적인 상황에서 기술적으로 발생하지 않아야 하며 복구할 수 없는 오류를 표시해야 합니다. 그러나 일부 대규모 환경에서는 일시적으로만 페이스 메이커의 모니터 테스트에서 nsradmin이 실패하고, 이로 인해 Pacemaker가 완전히 중단되는 간헐적인 문제가 발생할 수 있습니다.
기본적으로 NetWorker의 Pacemaker 리소스에는 "모니터" 작업이 있습니다. 이 작업에는 초기 NetWorker 클러스터 구성 중에 클러스터 관리자가 구성하는 "간격" 및 "시간 초과" 설정이 있습니다.
root@NWrhelNodeA:~# pcs resource * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started NWrhelNodeA.emclab.local * ip (ocf::heartbeat:IPaddr): Started NWrhelNodeA.emclab.local * nws (ocf::EMC_NetWorker:Server): Started NWrhelNodeA.emclab.local root@NWrhelNodeA:~# pcs resource config nws Resource: nws (class=ocf provider=EMC_NetWorker type=Server) Meta Attrs: is-managed=true Operations: meta-data interval=0 timeout=10 (nws-meta-data-interval-0) migrate_from interval=0 timeout=120 (nws-migrate_from-interval-0) migrate_to interval=0 timeout=60 (nws-migrate_to-interval-0) start interval=0 timeout=300 (nws-start-interval-0) stop interval=0s timeout=300 (nws-stop-interval-0s) validate-all interval=0 timeout=10 (nws-validate-all-interval-0) monitor interval=120s timeout=300 (nws-monitor-interval-120s)
NetWorker는 OCF(Open Cluster Framework)를 사용하도록 구성됩니다. 모니터링 기능은 /usr/lib/ocf/resource.d/EMC_NetWorker/Server에 정의되어 있습니다.
NWServer_monitor() {
local count
# exit immediately if configuration is not valid
NWServer_validate_all || exit $?
quick_monitor
if [ $? -eq 0 ]; then
count=0
while [ $count -lt 3 ]; do
echo "q" | nsradmin -s ${NSR_SERVERHOST} -i - > /dev/null 2>&1
if [ $? -eq 0 ]; then
return $OCF_SUCCESS
else
count=`expr ${count} + 1`
sleep 1
fi
done
else
return $OCF_NOT_RUNNING
fi
return $OCF_NOT_RUNNING
}
참고: 모니터 장애는 정상적인 상황에서 기술적으로 발생하지 않아야 하며 복구할 수 없는 오류를 표시해야 합니다. 그러나 일부 대규모 환경에서는 일시적으로만 페이스 메이커의 모니터 테스트에서 nsradmin이 실패하고, 이로 인해 Pacemaker가 완전히 중단되는 간헐적인 문제가 발생할 수 있습니다.
Resolution
클러스터 관리자는 모든 클러스터 중단 문제를 조사해야 합니다. 클러스터 로그를 검토하여 중단에 대한 세부 정보를 확인할 수 있습니다.
- /var/log/pcsd/pcsd.log
- /var/log/pacemaker/pacemaker.log
- /var/log/messages
- /nsr_share/nsr/logs/daemon.log
nsr_render_log /nsr_share/nsr/logs/daemon.raw > /nsr_share/nsr/logs/daemon_`date -I`.log
클러스터 관리자는 NetWorker 서버 pcs 리소스에 대한 모니터 간격 및 시간 초과 값을 늘릴 수 있습니다. Pacemaker 명령이 Pacemaker 버전에서 변경 될 수 있으므로 시간 초과 값 변경에 대한 지침은 Red Hat Pacemaker 설명서를 참조하십시오.
기본적으로 Pacemaker는 모니터 기능을 세 번 재시도합니다. 경우에 따라 이것으로는 충분하지 않을 수 있습니다. NetWorker에 대해 RFE(Request for Enhancement) NW-I-2171이 열립니다. RFE의 의도는 NWServer_monitor 대해 사용자가 튜닝할 수 있는 "재시도 개수" 변수를 도입하는 것입니다. NetWorker 관리자가 새 재시도 횟수를 정의하면 모니터 함수는 정의된 재시도 금액이 완료될 때까지 기다린 후 페일오버를 일으킵니다. 이 RFE를 추적하려면 DELL 사이트 계정 관리자 또는 영업 담당자에게 RFE 번호 NW-I-2171로 문의하십시오.
Additional Information
클러스터 관리자가 /usr/lib/ocf/resource.d/EMC_NetWorker/Server nsr_monitor 함수를 수정하여 추가 기능을 포함할 수 있습니다. 그러나 이 스크립팅은 NetWorker 지원 범위를 벗어나는 것입니다. 이러한 스크립트에 대한 변경 사항은 NetWorker 서버 업그레이드 중에 제거됩니다.
Affected Products
NetWorkerProducts
NetWorker Family, NetWorker SeriesArticle Properties
Article Number: 000216735
Article Type: Solution
Last Modified: 28 Mar 2025
Version: 5
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.