NetWorker: Red Had Enterprise Linux Pacemaker yük devretme kümesine dağıtılan NetWorker sunucusunun izleme aralığını ayarlama yöntemi yok.
Summary: Kısa bir izleme kesintileri nedeniyle büyük küme ortamlarında aralıklı NetWorker kesintileri gözlemlendi. Varsayılan olarak, monitör işlevi üç kez yeniden denener. "Retry count" (yeniden deneme sayısı) parametresi yok. Bu KB, NetWorker geliştirme fırsatı için olası geçici çözümleri ve RFE ayrıntılarını tanımlar. ...
Symptoms
- NetWorker sunucusu, Red Hat Pacemaker (pcs) yük devretme kümesine kurulur.
- NetWorker sunucusu için Pacemaker (pcs) kaynağında kısa kesintiler nedeniyle NetWorker'de kesintiler meydana gelir (varsayılan nws'tir)
Cause
Varsayılan olarak NetWorker için Pacemaker kaynağında bir "monitör" işlemi var. İşlem, ilk NetWorker küme yapılandırması sırasında küme yöneticisi tarafından yapılandırılan "aralık" ve "zaman aşımı" ayarlarına sahip.
root@NWrhelNodeA:~# pcs resource * Resource Group: NW_group: * fs (ocf::heartbeat:Filesystem): Started NWrhelNodeA.emclab.local * ip (ocf::heartbeat:IPaddr): Started NWrhelNodeA.emclab.local * nws (ocf::EMC_NetWorker:Server): Started NWrhelNodeA.emclab.local root@NWrhelNodeA:~# pcs resource config nws Resource: nws (class=ocf provider=EMC_NetWorker type=Server) Meta Attrs: is-managed=true Operations: meta-data interval=0 timeout=10 (nws-meta-data-interval-0) migrate_from interval=0 timeout=120 (nws-migrate_from-interval-0) migrate_to interval=0 timeout=60 (nws-migrate_to-interval-0) start interval=0 timeout=300 (nws-start-interval-0) stop interval=0s timeout=300 (nws-stop-interval-0s) validate-all interval=0 timeout=10 (nws-validate-all-interval-0) monitor interval=120s timeout=300 (nws-monitor-interval-120s)
NetWorker, Open Cluster Framework'i (OCF) kullanmak üzere yapılandırılmıştır. İzleme işlevi /usr/lib/ocf/resource.d/EMC_NetWorker/Server'da tanımlanır:
NWServer_monitor() {
local count
# exit immediately if configuration is not valid
NWServer_validate_all || exit $?
quick_monitor
if [ $? -eq 0 ]; then
count=0
while [ $count -lt 3 ]; do
echo "q" | nsradmin -s ${NSR_SERVERHOST} -i - > /dev/null 2>&1
if [ $? -eq 0 ]; then
return $OCF_SUCCESS
else
count=`expr ${count} + 1`
sleep 1
fi
done
else
return $OCF_NOT_RUNNING
fi
return $OCF_NOT_RUNNING
}
NOT: Monitör arızası, teknik olarak normal koşullarda asla ortaya çıkarılmamalıdır ve kurtarılamaz bir hatanın göstergesidir. Ancak bazı büyük ortamlar, nsradmin'in bir Pacemaker'ın monitör testinde başarısız olması durumunda geçici olarak bile kesintili sorunlar gözlemler ve bu durum, Pacemaker'ın tamamen kesintiye neden olmasıyla sonuçlanabilir.
Resolution
Küme yöneticisi tüm küme outage sorunlarını araştırmalı. Küme günlükleri, kesintiler hakkında herhangi bir ayrıntı için ince olabilir:
- /var/log/pcsd/pcsd.log
- /var/log/pacemaker/pacemaker.log
- /var/log/messages
- /nsr_share/nsr/logs/daemon.log
nsr_render_log /nsr_share/nsr/logs/daemon.raw > /nsr_share/nsr/logs/daemon_`date -I`.log
Küme yöneticisi, NetWorker sunucu pcs kaynağı için izleme aralığını ve zaman aşımı değerlerini artırabilirsiniz. Pacemaker komutları, Pacemaker sürümlerinde değişebilirken zaman aşımı değerlerini değiştirmeyle ilgili talimatlar için Red Hat Pacemaker belgelerine bakın.
Varsayılan olarak Pacemaker, monitörün işlevini üç kez yeniden denentir. Bazı durumlarda bu yeterli olmayabilir. NetWorker'a karşı Bir İyileştirme İsteği (RFE) NW-I-2171 açıldı. RFE'nin amacı, kullanıcı tarafından ayarlanabilir bir "yeniden deneme sayısı" değişkeninin kullanıma NWServer_monitor. NetWorker yöneticisi yeni bir yeniden deneme sayısı tanımlarsa, monitör işlevi yük devretmeye neden olarak tanımlı yeniden deneme miktarının tamamlanmasına kadar bekler. Bu RFE'yi takip etmek istiyorsanız Dell Site Hesap Yöneticinize veya satış temsilcinize NW-I-2171 rfE numarasıyla başvurun.