ECS: xDoctor: RAP081: Belirti Kodu: 2048: HATA eşiğinin üzerindeki sistem saati farkı
Summary: xDoctor bir Ağ Zaman Protokolü (NTP) daemon sorunu tespit etti.
Symptoms
ECS rafındaki tüm düğümlerde NTP daemon çalıştırılmalı ve yapılandırılan NTP sunucuları saati senkronize edebilmelidir. Aksi takdirde bu, ön uç veri alımıyla ilgili sorunlara yol açabilir.
| Belirti |
Mesaj |
|---|---|
| ERROR (Hata) eşik değeri üzerinde sistem zamanı farkı |
Mesaj = HATA Eşiği üzerindeki sistem saati farkı |
Cause
Yukarıdaki belirtiler 24 saat içinde ortaya çıkmazsa UYARI olarak kalır.
24 saat sonra, bu devam ederse önem derecesi bir HATA'ya yükseltilir ve bir RAP081 bildirilir.
Resolution
Düğümlerdeki ntpd hizmeti tarafından her saat güncellenen NTP kayması dosyası nedeniyle düğüm zaman farkı. Bu sorun, daha önce bir düğümde bir ağ sorunu oluştuğunda ortaya çıkabilir. Ağ yeniden katıldıktan sonra yanlış bir kayma dosyası oluşturur ve düğümler arasında zaman farkı oluşmasına neden olur.
Bir düğüm bir sorundan sonra ağa yeniden katıldığında, NTP sunucusundaki NTP saatiyle eşleşmesi için geçici olarak bir kayma dosyası oluşturabilir. Bu geçici olacaktır, ancak ntpd dosyayı kaldıramazsa, kayma dosyalarını silebilir ve geri yüklemek için hizmeti yeniden başlatabiliriz.
Doğrulama:
Tüm NTP sunucularının ping gönderip gönderemediğini kontrol edin.
1. Compliance öğesinin etkin olup olmadığını onaylayın.
Komut:
# domulti 'cat /opt/emc/caspian/fabric/agent/conf/agent_customize.conf | grep compliance_enabled'
admin@node1:~> domulti 'cat /opt/emc/caspian/fabric/agent/conf/agent_customize.conf | grep compliance_enabled' 192.168.219.1 ======================================== compliance_enabled = true 192.168.219.2 ======================================== compliance_enabled = true 192.168.219.3 ======================================== compliance_enabled = true 192.168.219.4 ======================================== compliance_enabled = true
2. Kümenin uyumlu olup olmadığını belirlemek için ECS'yi kontrol edin.
# viprexec -i "/opt/emc/caspian/fabric/cli/bin/fcli lifecycle cluster.compliance"
admin@node1:~> viprexec -i "/opt/emc/caspian/fabric/cli/bin/fcli lifecycle cluster.compliance"
Output from host : 192.168.219.1
{
"compliance": "NON_COMPLIANT",
"status": "OK",
"etag": 22527
}
Output from host : 192.168.219.2
{
"compliance": "NON_COMPLIANT",
"status": "OK",
"etag": 22527
}
Output from host : 192.168.219.3
{
"compliance": "NON_COMPLIANT",
"status": "OK",
"etag": 22527
}
Output from host : 192.168.219.4
{
"compliance": "NON_COMPLIANT",
"status": "OK",
"etag": 22527
}
Beklenen çıktı UYUMLUDUR. NON_COMPLIANT görürsek, nedenini araştırmalıyız.
3. ECS kontrolünün uyumsuzluk göstermesine neden olabilecek uyumlu olmayan düğümleri belirlemek için her düğümde uyumluluk denetimi komut dosyasını çalıştırın.
Tüm düğümlerde uyumluluk komut dosyasını çalıştırın. "NTP eşleri senkronize değil" olan düğümlerin bazı düğümlerinde NTP kayma dosyası sorunu olabilir. Checking compliance ..." Hata çıktısı olmayan bir düğümde, kontrolün herhangi bir sorun bulunmadan geçtiği anlamına gelir.
# domulti /opt/emc/caspian/fabric/agent/conf/compliance_check.sh
admin@node1:~> domulti /opt/emc/caspian/fabric/agent/conf/compliance_check.sh
192.168.219.1
========================================
Checking compliance...
NTP peers out of sync
192.168.219.2
========================================
Checking compliance...
192.168.219.3
========================================
Checking compliance...
NTP peers out of sync
192.168.219.4
========================================
Checking compliance...
NTP peers out of sync
NTP eşleri senkronize değil" çıktısı varsa aşağıdaki "eşler senkronize değil" bölümüne gidin.
Çözünürlük:
1. Uyumluluk uyarısına neden olabilecek bir NTP ofsetinin 10'un (+/-) üzerinde olup olmadığını kontrol edin.
# viprexec -i "ntpq -nc peers"
admin@node1:~> viprexec -i "ntpq -nc peers" Output from host : 169.254.1.1 remote refid st t when poll reach delay offset jitter ============================================================================== *10.xxx.xxx.16 .GPSs. 1 u 31 64 377 0.103 -367.66 44.909 +10.xxx.xxx.33 .GPSs. 1 u 32 64 377 0.097 -368.68 44.341 +10.xxx.xxx.35 .GPSs. 1 u 16 64 377 0.107 -338.96 69.736 Output from host : 169.254.1.2 remote refid st t when poll reach delay offset jitter ============================================================================== +10.xxx.xxx.16 .GPSs. 1 u 26 64 377 0.089 8.566 0.746 *10.xxx.xxx.33 .GPSs. 1 u 26 64 377 0.100 8.585 0.739 +10.xxx.xxx.35 .GPSs. 1 u 23 64 377 0.104 8.888 0.592 Output from host : 169.254.1.3 remote refid st t when poll reach delay offset jitter ============================================================================== *10.xxx.xxx.16 .GPSs. 1 u 31 64 377 0.101 -354.40 52.444 +10.xxx.xxx.33 .GPSs. 1 u 29 64 377 0.101 -338.84 63.750 +10.xxx.xxx.35 .GPSs. 1 u 39 64 377 0.106 -387.28 44.286 Output from host : 169.254.1.4 remote refid st t when poll reach delay offset jitter ============================================================================== *10.xxx.xxx.16 .GPSs. 1 u 26 64 377 0.084 72.675 9.200 +10.xxx.xxx.33 .GPSs. 1 u 37 64 377 0.107 65.047 14.913 +10.xxx.xxx.35 .GPSs. 1 u 33 64 377 0.103 87.374 13.435 Output from host : 169.254.1.5 remote refid st t when poll reach delay offset jitter ============================================================================== *10.xxx.xxx.16 .GPSs. 1 u 27 64 377 0.094 352.741 54.056 +10.xxx.xxx.33 .GPSs. 1 u 26 64 377 0.103 413.893 43.770 +10.xxx.xxx.35 .GPSs. 1 u 33 64 377 0.101 334.493 69.059 Output from host : 169.254.1.6 remote refid st t when poll reach delay offset jitter ============================================================================== +10.xxx.xxx.16 .GPSs. 1 u 27 64 377 0.101 -428.51 54.955 +10.xxx.xxx.33 .GPSs. 1 u 26 64 377 0.097 -326.21 91.208 *10.xxx.xxx.35 .GPSs. 1 u 32 64 377 0.098 -349.00 70.110
ntpd hizmetini yeniden başlatırsak, viprexec -i "ntpq -nc peers" birkaç dakika için 10'un altında bir ofset elde ederiz ve ardından tekrar 100'ün üzerine çıkarız.
2. ntpd hizmeti yeniden başlatıldıktan sonra bir düğümün ntp.drift dosyasının yanlış bir ofseti yeniden uygulaması şu soruna neden olabilir:
# viprexec -i "cat /var/lib/ntp/drift/ntp.drift"
admin@node1:~> viprexec -i "cat /var/lib/ntp/drift/ntp.drift" Output from host : 169.254.1.1 500.000 Output from host : 169.254.1.2 -14.212 Output from host : 169.254.1.3 500.000 Output from host : 169.254.1.4 -102.474 Output from host : 169.254.1.5 -500.000 Output from host : 169.254.1.6 500.000
Bu uzaklık boyutunda bir NTP kayma dosyası, geçici bir ağ sorunu nedeniyle otomatik olarak oluşturulabilir. NTP hizmetiyle bağlantıyı yeniden kuran bir düğüm, doğru zamanda olmadığını fark eder ve kendini düzeltmek için dosyayı oluşturur. Birkaç dakika sonra sürüklenme dosyası gerekli değildir ve kaldırılabilir. Bu nedenle, aşağıdakiler yapılmalıdır.
Not: ntpd.service, etkilenmeyen bir hizmettir.
Komutlar:
# viprexec -i "systemctl stop ntpd" # viprexec -i "cat /var/lib/ntp/drift/ntp.drift # viprexec -i "rm -f /var/lib/ntp/drift/ntp.drift" # viprexec -i "ntpd -gq" # viprexec -i "systemctl start ntpd" # viprexec -i "ntpq -p"
Uyumluluk denetimi komut dosyasını yeniden çalıştırın: viprexec -i "/opt/emc/caspian/fabric/agent/conf/compliance_check.sh"
NTP kayma dosyaları sıfırsa NTP'de tarih kayması olup olmadığını kontrol edin ve ntpd hizmetini yeniden başlatın.
# viprexec "date +%s" 2>&1 | grep "^15"
admin@node1:~> viprexec "date +%s" 2>&1 | grep "^15" 1554470147 1554470111 1554470096 1554470142 1554470144 1554470109 1554470124 1554470140
Düğümler arasındaki fark, ntpd hizmetinin yeniden başlatılması ile bir NTP kaymasının gerekli olduğunu gösterir. Ntpd hizmet durumunu kontrol edin ve ardından hizmeti yeniden başlatın. (Durum açık ve çalışıyor olsa bile yeniden başlatma işlemine devam edin.) Not: ntpd.service, etkilenmeyen bir hizmettir.
# viprexec systemctl status ntpd.service | grep Active:
admin@node1:~> viprexec systemctl status ntpd.service | grep Active: Active: active (running) since Tue 2019-08-06 02:49:06 UTC; 1 day 18h ago Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago Active: active (running) since Wed 2019-08-07 20:13:27 UTC; 58min ago Active: active (running) since Tue 2019-08-06 02:49:06 UTC; 1 day 18h ago Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago
# viprexec -i "systemctl restart ntpd.service"
admin@node1:~> viprexec systemctl restart ntpd.service Output from host : 192.168.219.1 Output from host : 192.168.219.2 Output from host : 192.168.219.3 Output from host : 192.168.219.4 Output from host : 192.168.219.5 Output from host : 192.168.219.6 Output from host : 192.168.219.7 Output from host : 192.168.219.8
NTP kayması şu şekilde çözülmelidir:
# viprexec -i "date +%s" 2>&1 | grep "^15"
admin@node1:~> viprexec -i "date +%s" 2>&1 | grep "^15" 1585746672 1585746672 1585746672 1585746672 1585746672 1585746672 1585746672 1585746672
Sorun devam ederse veya yukarıdaki sorunla eşleşmiyorsa ECS teknik destek ekibiyle iletişime geçin.
Additional Information
Yukarıdaki çözüm işe yaramazsa NTP sorununu çözmek için müşterinin ağ ekibi devreye girmelidir.
'NTP daemon çalışmıyor' (NTPD_NOT_RUNNING) belirtisi için şu bilgi makalesine bakın:
ECS: xDoctor: RAP081: Belirti Kodu: 2048: NTP daemon çalışmıyor
'Tüm NTP sunucuları eşitleme için uygun DEĞİLDİR' (NTP_NOT_SUITABLE_ERROR) belirtisi için şu bilgi makalesine bakın:
ECS: xDoctor: RAP081: Belirti Kodu: 2048: Tüm NTP sunucuları senkronizasyon için uygun DEĞİLDİR.
'Tüm NTP sunucuları hata eşiğinden daha yüksek bir uzaklık ayarlıyor' (NTP_ERROR_OFFSET_ERROR) belirtisi için şu bilgi makalesine bakın:
ECS: xDoctor: RAP081: Belirti Kodu: 2048: Tüm NTP sunucuları, hata eşiğinden daha yüksek bir uzaklık ayarlar.