ECS: xDoctor: RAP081: Symptomkode: 2048: Systemtidsforskel over ERROR-tærsklen
Summary: xDoctor opdagede et problem med NTP-dæmonen (Network Time Protocol).
Symptoms
Alle noder i et ECS-rack skal have NTP-dæmonen kørende, og de konfigurerede NTP-servere skal være i stand til at synkronisere tiden. Hvis ikke, kan dette medføre problemer med frontend-dataindtagelse.
| Symptom |
Meddelelse |
|---|---|
| Systemets tidsforskel overstiger FEJL-tærskel |
Message = Systemtidsforskel over ERROR Threshold |
Cause
Ovenstående symptomer forbliver som en ADVARSEL, hvis det ikke forekommer inden for 24 timer.
Hvis dette fortsætter efter 24 timer, øges alvorligheden til en FEJL, og der rapporteres en RAP081.
Resolution
Nodetidsforskel på grund af NTP-driftsfil, der opdateres hver time af ntpd-tjenesten på noderne. Dette problem kan opstå, når der tidligere er opstået et netværksproblem på en node. Når den tilsluttes igen, opretter netværket en forkert driftfil, der håndhæver en tidsforskel mellem noderne.
Når en node har tilsluttet sig netværket igen efter et problem, kan den midlertidigt oprette en driftfil, der svarer til NTP-tiden på NTP-serveren. Dette bør være midlertidigt, men hvis ntpd ikke kan fjerne filen, kan vi slette afvigelsesfilerne og genstarte tjenesten for at gendanne den.
Kontrol:
Kontroller, om alle NTP-servere kan pinge.
1. Bekræft, om Overholdelse er aktiveret.
Kommando:
# domulti 'cat /opt/emc/caspian/fabric/agent/conf/agent_customize.conf | grep compliance_enabled'
admin@node1:~> domulti 'cat /opt/emc/caspian/fabric/agent/conf/agent_customize.conf | grep compliance_enabled' 192.168.219.1 ======================================== compliance_enabled = true 192.168.219.2 ======================================== compliance_enabled = true 192.168.219.3 ======================================== compliance_enabled = true 192.168.219.4 ======================================== compliance_enabled = true
2. Kontroller ECS for at afgøre, om klyngen er kompatibel eller ej.
# viprexec -i "/opt/emc/caspian/fabric/cli/bin/fcli lifecycle cluster.compliance"
admin@node1:~> viprexec -i "/opt/emc/caspian/fabric/cli/bin/fcli lifecycle cluster.compliance"
Output from host : 192.168.219.1
{
"compliance": "NON_COMPLIANT",
"status": "OK",
"etag": 22527
}
Output from host : 192.168.219.2
{
"compliance": "NON_COMPLIANT",
"status": "OK",
"etag": 22527
}
Output from host : 192.168.219.3
{
"compliance": "NON_COMPLIANT",
"status": "OK",
"etag": 22527
}
Output from host : 192.168.219.4
{
"compliance": "NON_COMPLIANT",
"status": "OK",
"etag": 22527
}
Det forventede output er KOMPATIBELT. Hvis vi ser NON_COMPLIANT, må vi undersøge hvorfor.
3. Kør scriptet til kontrol af overholdelse på hver node for at identificere eventuelle ikke-kompatible noder, hvilket kan resultere i, at ECS-kontrollen viser manglende overholdelse.
Kør overholdelsesscriptet på alle noder, noder med "NTP-peers ikke synkroniseret" kan have problemer med NTP-driftfilen på nogle noder. Et output af "Kontrol af overholdelse ..." På en node uden fejl betyder output, at kontrollen er bestået uden nogen problemer fundet.
# domulti /opt/emc/caspian/fabric/agent/conf/compliance_check.sh
admin@node1:~> domulti /opt/emc/caspian/fabric/agent/conf/compliance_check.sh
192.168.219.1
========================================
Checking compliance...
NTP peers out of sync
192.168.219.2
========================================
Checking compliance...
192.168.219.3
========================================
Checking compliance...
NTP peers out of sync
192.168.219.4
========================================
Checking compliance...
NTP peers out of sync
Hvis der er et output af "NTP-peers ikke synkroniseret", skal du gå til afsnittet "peers out of sync" nedenfor.
Opløsning:
1. Kontroller, om NTP-forskydningen er over 10 (+/-), hvilket kan forårsage overholdelsesadvarslen.
# viprexec -i "ntpq -nc peers"
admin@node1:~> viprexec -i "ntpq -nc peers" Output from host : 169.254.1.1 remote refid st t when poll reach delay offset jitter ============================================================================== *10.xxx.xxx.16 .GPSs. 1 u 31 64 377 0.103 -367.66 44.909 +10.xxx.xxx.33 .GPSs. 1 u 32 64 377 0.097 -368.68 44.341 +10.xxx.xxx.35 .GPSs. 1 u 16 64 377 0.107 -338.96 69.736 Output from host : 169.254.1.2 remote refid st t when poll reach delay offset jitter ============================================================================== +10.xxx.xxx.16 .GPSs. 1 u 26 64 377 0.089 8.566 0.746 *10.xxx.xxx.33 .GPSs. 1 u 26 64 377 0.100 8.585 0.739 +10.xxx.xxx.35 .GPSs. 1 u 23 64 377 0.104 8.888 0.592 Output from host : 169.254.1.3 remote refid st t when poll reach delay offset jitter ============================================================================== *10.xxx.xxx.16 .GPSs. 1 u 31 64 377 0.101 -354.40 52.444 +10.xxx.xxx.33 .GPSs. 1 u 29 64 377 0.101 -338.84 63.750 +10.xxx.xxx.35 .GPSs. 1 u 39 64 377 0.106 -387.28 44.286 Output from host : 169.254.1.4 remote refid st t when poll reach delay offset jitter ============================================================================== *10.xxx.xxx.16 .GPSs. 1 u 26 64 377 0.084 72.675 9.200 +10.xxx.xxx.33 .GPSs. 1 u 37 64 377 0.107 65.047 14.913 +10.xxx.xxx.35 .GPSs. 1 u 33 64 377 0.103 87.374 13.435 Output from host : 169.254.1.5 remote refid st t when poll reach delay offset jitter ============================================================================== *10.xxx.xxx.16 .GPSs. 1 u 27 64 377 0.094 352.741 54.056 +10.xxx.xxx.33 .GPSs. 1 u 26 64 377 0.103 413.893 43.770 +10.xxx.xxx.35 .GPSs. 1 u 33 64 377 0.101 334.493 69.059 Output from host : 169.254.1.6 remote refid st t when poll reach delay offset jitter ============================================================================== +10.xxx.xxx.16 .GPSs. 1 u 27 64 377 0.101 -428.51 54.955 +10.xxx.xxx.33 .GPSs. 1 u 26 64 377 0.097 -326.21 91.208 *10.xxx.xxx.35 .GPSs. 1 u 32 64 377 0.098 -349.00 70.110
Hvis vi genstarter ntpd-tjenesten, viprexec -i "ntpq -nc peers", har vi en forskydning på under 10 i et øjeblik og stiger derefter tilbage til over 100.
2. En nodes ntp.drift-fil, der genanvender en forkert forskydning efter genstart af ntpd-tjenesten, kan medføre dette problem:
# viprexec -i "cat /var/lib/ntp/drift/ntp.drift"
admin@node1:~> viprexec -i "cat /var/lib/ntp/drift/ntp.drift" Output from host : 169.254.1.1 500.000 Output from host : 169.254.1.2 -14.212 Output from host : 169.254.1.3 500.000 Output from host : 169.254.1.4 -102.474 Output from host : 169.254.1.5 -500.000 Output from host : 169.254.1.6 500.000
En NTP-driftfil med denne forskudte størrelse kan genereres automatisk på grund af et midlertidigt netværksproblem. Når en node, der genopretter en forbindelse til NTP-tjenesten, finder sig selv væk fra det korrekte tidspunkt og genererer filen for at rette sig selv igen. Efter et øjeblik er driftfilen ikke nødvendig og kan blive fjernet. Derfor bør følgende udføres.
Bemærk: ntpd.service er en ikke-påvirket tjeneste.
Kommandoer:
# viprexec -i "systemctl stop ntpd" # viprexec -i "cat /var/lib/ntp/drift/ntp.drift # viprexec -i "rm -f /var/lib/ntp/drift/ntp.drift" # viprexec -i "ntpd -gq" # viprexec -i "systemctl start ntpd" # viprexec -i "ntpq -p"
Kør overholdelseskontrolscript igen: viprexec -i "/opt/emc/caspian/fabric/agent/conf/compliance_check.sh"
Hvis NTP-driftsfilerne er nul, skal du kontrollere, om der er nogen datodrift i NTP, og genstarte ntpd-tjenesten.
# viprexec "date +%s" 2>&1 | grep "^15"
admin@node1:~> viprexec "date +%s" 2>&1 | grep "^15" 1554470147 1554470111 1554470096 1554470142 1554470144 1554470109 1554470124 1554470140
Forskellen mellem noderne indikerer, at der kræves en NTP-drift med en genstart af ntpd-tjenesten. Se efter status for ntpd-tjenesten, og genstart så tjenesten. (Selvom status kører, skal du fortsætte med genstarten.) Bemærk: ntpd.service er en ikke-påvirket tjeneste.
# viprexec systemctl status ntpd.service | grep Active:
admin@node1:~> viprexec systemctl status ntpd.service | grep Active: Active: active (running) since Tue 2019-08-06 02:49:06 UTC; 1 day 18h ago Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago Active: active (running) since Wed 2019-08-07 20:13:27 UTC; 58min ago Active: active (running) since Tue 2019-08-06 02:49:06 UTC; 1 day 18h ago Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago
# viprexec -i "systemctl restart ntpd.service"
admin@node1:~> viprexec systemctl restart ntpd.service Output from host : 192.168.219.1 Output from host : 192.168.219.2 Output from host : 192.168.219.3 Output from host : 192.168.219.4 Output from host : 192.168.219.5 Output from host : 192.168.219.6 Output from host : 192.168.219.7 Output from host : 192.168.219.8
NTP-drift skal løses:
# viprexec -i "date +%s" 2>&1 | grep "^15"
admin@node1:~> viprexec -i "date +%s" 2>&1 | grep "^15" 1585746672 1585746672 1585746672 1585746672 1585746672 1585746672 1585746672 1585746672
Hvis problemet stadig eksisterer eller ikke svarer til ovenstående problem, skal du kontakte ECS tekniske support.
Additional Information
Hvis ovenstående løsning ikke virker, skal kundens netværksteam inddrages for at løse NTP-problemet.
For symptom 'NTP-dæmon kører ikke' (NTPD_NOT_RUNNING), se vidensartikel:
ECS: xDoctor: RAP081: Symptomkode: 2048: NTP-dæmon kører
ikkeFor symptom 'Alle NTP-servere er IKKE egnede til synkronisering' (NTP_NOT_SUITABLE_ERROR), se vidensartikel:
ECS: xDoctor: RAP081: Symptomkode: 2048: Alle NTP-servere er IKKE egnede til synkronisering.
For symptom 'Alle NTP-servere justerer en forskydning, der er højere end fejltærsklen' (NTP_ERROR_OFFSET_ERROR), se vidensartikel:
ECS: xDoctor: RAP081: Symptomkode: 2048: Alle NTP-servere justerer en forskydning, der er højere end fejlgrænsen.