ECS: xDoctor: RAP081: Symptomkode: 2048: Systemtidsforskjell over ERROR-terskelen
Summary: xDoctor oppdaget en Network Time Protocol (NTP) daemon problem.
Symptoms
Alle noder i et ECS-rack skal ha NTP-daemonen kjørende, og de konfigurerte NTP-serverne skal være i stand til å synkronisere tiden. Hvis ikke, kan dette føre til problemer med frontend datainntak.
| Symptom |
Melding |
|---|---|
| Systemtidsforskjell over feilterskelen |
Melding = Systemtidsforskjell over FEILTERSKEL |
Cause
Symptomene ovenfor forblir som en ADVARSEL hvis det ikke forekommer innen 24 timer.
Etter 24 timer, hvis dette vedvarer, vil alvorlighetsgraden økes til en FEIL, og en RAP081 rapporteres.
Resolution
Node tidsforskjell på grunn av NTP-driftfil som oppdateres hver time av ntpd-tjenesten på nodene. Dette problemet kan oppstå når det tidligere oppstod et nettverksproblem på en node. Etter at den kobles til igjen, oppretter nettverket en feil driftfil, noe som tvinger en tidsforskjell mellom nodene.
Når en node har sluttet seg til nettverket igjen etter et problem, kan den midlertidig opprette en drift-fil som samsvarer med NTP-tiden på NTP-serveren. Dette skal være midlertidig, men hvis ntpd ikke kan fjerne filen, kan vi slette driftfilene og starte tjenesten på nytt for å gjenopprette den.
Verifikasjon:
Sjekk om alle NTP-servere kan pinge.
1. Bekreft om overholdelse er aktivert.
Kommando:
# domulti 'cat /opt/emc/caspian/fabric/agent/conf/agent_customize.conf | grep compliance_enabled'
admin@node1:~> domulti 'cat /opt/emc/caspian/fabric/agent/conf/agent_customize.conf | grep compliance_enabled' 192.168.219.1 ======================================== compliance_enabled = true 192.168.219.2 ======================================== compliance_enabled = true 192.168.219.3 ======================================== compliance_enabled = true 192.168.219.4 ======================================== compliance_enabled = true
2. Kontroller ECS for å finne ut om klyngen er kompatibel eller ikke.
# viprexec -i "/opt/emc/caspian/fabric/cli/bin/fcli lifecycle cluster.compliance"
admin@node1:~> viprexec -i "/opt/emc/caspian/fabric/cli/bin/fcli lifecycle cluster.compliance"
Output from host : 192.168.219.1
{
"compliance": "NON_COMPLIANT",
"status": "OK",
"etag": 22527
}
Output from host : 192.168.219.2
{
"compliance": "NON_COMPLIANT",
"status": "OK",
"etag": 22527
}
Output from host : 192.168.219.3
{
"compliance": "NON_COMPLIANT",
"status": "OK",
"etag": 22527
}
Output from host : 192.168.219.4
{
"compliance": "NON_COMPLIANT",
"status": "OK",
"etag": 22527
}
Forventet utdata er KOMPATIBEL. Hvis vi ser NON_COMPLIANT, må vi undersøke hvorfor.
3. Kjør samsvarskontrollskriptet på hver node for å identifisere noder som ikke samsvarer, noe som kan føre til at ECS-kontrollen viser manglende samsvar.
Kjør samsvarsskriptet på alle noder, noder med "NTP-jevnaldrende ute av synkronisering", kan ha NTP-driftfilproblemet på noen noder. Resultatet av "Checking compliance ..." På en node uten feilutgang betyr at sjekken er bestått uten at noen problemer blir funnet.
# domulti /opt/emc/caspian/fabric/agent/conf/compliance_check.sh
admin@node1:~> domulti /opt/emc/caspian/fabric/agent/conf/compliance_check.sh
192.168.219.1
========================================
Checking compliance...
NTP peers out of sync
192.168.219.2
========================================
Checking compliance...
192.168.219.3
========================================
Checking compliance...
NTP peers out of sync
192.168.219.4
========================================
Checking compliance...
NTP peers out of sync
Hvis det er en utgang av "NTP-jevnaldrende ute av synkronisering", gå til "jevnaldrende ute av synkronisering" -delen nedenfor.
Resolusjon:
1. Sjekk om en NTP-forskyvning er over 10 (+/-), noe som kan forårsake samsvarsvarselet.
# viprexec -i "ntpq -nc peers"
admin@node1:~> viprexec -i "ntpq -nc peers" Output from host : 169.254.1.1 remote refid st t when poll reach delay offset jitter ============================================================================== *10.xxx.xxx.16 .GPSs. 1 u 31 64 377 0.103 -367.66 44.909 +10.xxx.xxx.33 .GPSs. 1 u 32 64 377 0.097 -368.68 44.341 +10.xxx.xxx.35 .GPSs. 1 u 16 64 377 0.107 -338.96 69.736 Output from host : 169.254.1.2 remote refid st t when poll reach delay offset jitter ============================================================================== +10.xxx.xxx.16 .GPSs. 1 u 26 64 377 0.089 8.566 0.746 *10.xxx.xxx.33 .GPSs. 1 u 26 64 377 0.100 8.585 0.739 +10.xxx.xxx.35 .GPSs. 1 u 23 64 377 0.104 8.888 0.592 Output from host : 169.254.1.3 remote refid st t when poll reach delay offset jitter ============================================================================== *10.xxx.xxx.16 .GPSs. 1 u 31 64 377 0.101 -354.40 52.444 +10.xxx.xxx.33 .GPSs. 1 u 29 64 377 0.101 -338.84 63.750 +10.xxx.xxx.35 .GPSs. 1 u 39 64 377 0.106 -387.28 44.286 Output from host : 169.254.1.4 remote refid st t when poll reach delay offset jitter ============================================================================== *10.xxx.xxx.16 .GPSs. 1 u 26 64 377 0.084 72.675 9.200 +10.xxx.xxx.33 .GPSs. 1 u 37 64 377 0.107 65.047 14.913 +10.xxx.xxx.35 .GPSs. 1 u 33 64 377 0.103 87.374 13.435 Output from host : 169.254.1.5 remote refid st t when poll reach delay offset jitter ============================================================================== *10.xxx.xxx.16 .GPSs. 1 u 27 64 377 0.094 352.741 54.056 +10.xxx.xxx.33 .GPSs. 1 u 26 64 377 0.103 413.893 43.770 +10.xxx.xxx.35 .GPSs. 1 u 33 64 377 0.101 334.493 69.059 Output from host : 169.254.1.6 remote refid st t when poll reach delay offset jitter ============================================================================== +10.xxx.xxx.16 .GPSs. 1 u 27 64 377 0.101 -428.51 54.955 +10.xxx.xxx.33 .GPSs. 1 u 26 64 377 0.097 -326.21 91.208 *10.xxx.xxx.35 .GPSs. 1 u 32 64 377 0.098 -349.00 70.110
Hvis vi starter ntpd tjenesten, viprexec -i "ntpq-nc jevnaldrende" vi har en forskyvning på under 10 for en liten stund, og deretter øker tilbake til over 100.
2. En nodes ntp.drift-fil som bruker feil forskyvning på nytt etter omstart av ntpd-tjenesten, kan føre til dette problemet:
# viprexec -i "cat /var/lib/ntp/drift/ntp.drift"
admin@node1:~> viprexec -i "cat /var/lib/ntp/drift/ntp.drift" Output from host : 169.254.1.1 500.000 Output from host : 169.254.1.2 -14.212 Output from host : 169.254.1.3 500.000 Output from host : 169.254.1.4 -102.474 Output from host : 169.254.1.5 -500.000 Output from host : 169.254.1.6 500.000
En NTP-driftfil med denne forskyvningsstørrelsen kan genereres automatisk på grunn av et midlertidig nettverksproblem. Når en node gjenoppretter en forbindelse til NTP-tjenesten, befinner seg utenfor riktig tid, og genererer filen for å rette seg på nytt. Etter en liten stund er ikke avvikingsfilen nødvendig, og den kan fjernes. Derfor bør følgende utføres.
Merk: ntpd.service er en ikke-innvirkningstjeneste.
Kommandoer:
# viprexec -i "systemctl stop ntpd" # viprexec -i "cat /var/lib/ntp/drift/ntp.drift # viprexec -i "rm -f /var/lib/ntp/drift/ntp.drift" # viprexec -i "ntpd -gq" # viprexec -i "systemctl start ntpd" # viprexec -i "ntpq -p"
Kjør samsvarskontrollskript på nytt: viprexec -i "/ opt / emc / caspian / fabric / agent / conf / compliance_check.sh"
Hvis NTP-driftfilene er null, sjekk om det er noen datodrift i NTP, og start ntpd-tjenesten på nytt.
# viprexec "date +%s" 2>&1 | grep "^15"
admin@node1:~> viprexec "date +%s" 2>&1 | grep "^15" 1554470147 1554470111 1554470096 1554470142 1554470144 1554470109 1554470124 1554470140
Forskjellen mellom nodene indikerer at en NTP-drift med en ntpd-tjeneste starter på nytt. Se etter statusen til ntpd-tjenesten, og start deretter tjenesten på nytt. (Selv om statusen er oppe og går, fortsett med omstarten.) Merk: ntpd.service er en ikke-innvirkningstjeneste.
# viprexec systemctl status ntpd.service | grep Active:
admin@node1:~> viprexec systemctl status ntpd.service | grep Active: Active: active (running) since Tue 2019-08-06 02:49:06 UTC; 1 day 18h ago Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago Active: active (running) since Wed 2019-08-07 20:13:27 UTC; 58min ago Active: active (running) since Tue 2019-08-06 02:49:06 UTC; 1 day 18h ago Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago
# viprexec -i "systemctl restart ntpd.service"
admin@node1:~> viprexec systemctl restart ntpd.service Output from host : 192.168.219.1 Output from host : 192.168.219.2 Output from host : 192.168.219.3 Output from host : 192.168.219.4 Output from host : 192.168.219.5 Output from host : 192.168.219.6 Output from host : 192.168.219.7 Output from host : 192.168.219.8
NTP-drift bør løses:
# viprexec -i "date +%s" 2>&1 | grep "^15"
admin@node1:~> viprexec -i "date +%s" 2>&1 | grep "^15" 1585746672 1585746672 1585746672 1585746672 1585746672 1585746672 1585746672 1585746672
Hvis problemet vedvarer eller ikke samsvarer med problemet ovenfor, kan du kontakte teknisk støtte for ECS.
Additional Information
Hvis oppløsningen ovenfor ikke fungerer, må kundens nettverksteam engasjeres for å løse NTP-problemet.
For symptom 'NTP daemon not running' (NTPD_NOT_RUNNING), se kunnskapsartikkel:
ECS: xDoctor: RAP081: Symptomkode: 2048: NTP-bakgrunnsprosessen kjører
ikkeFor symptom «Alle NTP-tjenere er IKKE egnet for synkronisering» (NTP_NOT_SUITABLE_ERROR), se kunnskapsartikkel:
ECS: xDoctor: RAP081: Symptomkode: 2048: Alle NTP-servere er IKKE egnet for synkronisering.
For symptom 'Alle NTP-servere justerer en forskyvning høyere enn feilterskelen' (NTP_ERROR_OFFSET_ERROR), se kunnskapsartikkel:
ECS: xDoctor: RAP081: Symptomkode: 2048: Alle NTP-servere justerer en forskyvning høyere enn feilterskelen.