ECS: xDoctor: RAP081: Symptomkode: 2048: Systemtidsforskel over ERROR-tærsklen

Summary: xDoctor opdagede et problem med NTP-dæmonen (Network Time Protocol).

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Alle noder i et ECS-rack skal have NTP-dæmonen kørende, og de konfigurerede NTP-servere skal være i stand til at synkronisere tiden. Hvis ikke, kan dette medføre problemer med frontend-dataindtagelse.

Symptom

Meddelelse

Systemets tidsforskel overstiger FEJL-tærskel

Message = Systemtidsforskel over ERROR Threshold
Extra = [Liste over noder]

Cause

Ovenstående symptomer forbliver som en ADVARSEL, hvis det ikke forekommer inden for 24 timer.
Hvis dette fortsætter efter 24 timer, øges alvorligheden til en FEJL, og der rapporteres en RAP081.

Resolution

Nodetidsforskel på grund af NTP-driftsfil, der opdateres hver time af ntpd-tjenesten på noderne. Dette problem kan opstå, når der tidligere er opstået et netværksproblem på en node. Når den tilsluttes igen, opretter netværket en forkert driftfil, der håndhæver en tidsforskel mellem noderne. 

Når en node har tilsluttet sig netværket igen efter et problem, kan den midlertidigt oprette en driftfil, der svarer til NTP-tiden på NTP-serveren. Dette bør være midlertidigt, men hvis ntpd ikke kan fjerne filen, kan vi slette afvigelsesfilerne og genstarte tjenesten for at gendanne den.

Kontrol:
Kontroller, om alle NTP-servere kan pinge.
1. Bekræft, om Overholdelse er aktiveret.

Kommando:

# domulti 'cat /opt/emc/caspian/fabric/agent/conf/agent_customize.conf | grep compliance_enabled'
Eksempel:
admin@node1:~> domulti 'cat /opt/emc/caspian/fabric/agent/conf/agent_customize.conf | grep compliance_enabled'

192.168.219.1
========================================
compliance_enabled = true

192.168.219.2
========================================
compliance_enabled = true

192.168.219.3
========================================
compliance_enabled = true

192.168.219.4
========================================
compliance_enabled = true

2. Kontroller ECS for at afgøre, om klyngen er kompatibel eller ej. 

Kommando: 
# viprexec -i "/opt/emc/caspian/fabric/cli/bin/fcli lifecycle cluster.compliance"
Eksempel:
admin@node1:~> viprexec -i "/opt/emc/caspian/fabric/cli/bin/fcli lifecycle cluster.compliance"

Output from host : 192.168.219.1
{
  "compliance": "NON_COMPLIANT",
  "status": "OK",
  "etag": 22527
}

Output from host : 192.168.219.2
{
  "compliance": "NON_COMPLIANT",
  "status": "OK",
  "etag": 22527
}

Output from host : 192.168.219.3
{
  "compliance": "NON_COMPLIANT",
  "status": "OK",
  "etag": 22527
}

Output from host : 192.168.219.4
{
  "compliance": "NON_COMPLIANT",
  "status": "OK",
  "etag": 22527
}

Det forventede output er KOMPATIBELT. Hvis vi ser NON_COMPLIANT, må vi undersøge hvorfor.

3. Kør scriptet til kontrol af overholdelse på hver node for at identificere eventuelle ikke-kompatible noder, hvilket kan resultere i, at ECS-kontrollen viser manglende overholdelse.

Kør overholdelsesscriptet på alle noder, noder med "NTP-peers ikke synkroniseret" kan have problemer med NTP-driftfilen på nogle noder. Et output af "Kontrol af overholdelse ..." På en node uden fejl betyder output, at kontrollen er bestået uden nogen problemer fundet.

Kommando:
# domulti /opt/emc/caspian/fabric/agent/conf/compliance_check.sh
Eksempel:
admin@node1:~> domulti /opt/emc/caspian/fabric/agent/conf/compliance_check.sh
 
192.168.219.1
========================================
Checking compliance...
    NTP peers out of sync
 
192.168.219.2
========================================
Checking compliance...
   
 
192.168.219.3
========================================
Checking compliance...
    NTP peers out of sync
 
192.168.219.4
========================================
Checking compliance...
    NTP peers out of sync

Hvis der er et output af "NTP-peers ikke synkroniseret", skal du gå til afsnittet "peers out of sync" nedenfor.

Opløsning:
1. Kontroller, om NTP-forskydningen er over 10 (+/-), hvilket kan forårsage overholdelsesadvarslen.

Kommando:
# viprexec -i "ntpq -nc peers"
Eksempel: (Bemærk: Der er tre NTP-servere pr. nodeeksempel.)
admin@node1:~> viprexec -i "ntpq -nc peers"

Output from host : 169.254.1.1  
remote refid st t when poll reach delay offset jitter
==============================================================================
*10.xxx.xxx.16 .GPSs. 1 u 31 64 377 0.103 -367.66 44.909
+10.xxx.xxx.33 .GPSs. 1 u 32 64 377 0.097 -368.68 44.341
+10.xxx.xxx.35 .GPSs. 1 u 16 64 377 0.107 -338.96 69.736

Output from host : 169.254.1.2 
remote refid st t when poll reach delay offset jitter
==============================================================================
+10.xxx.xxx.16 .GPSs. 1 u 26 64 377 0.089 8.566 0.746
*10.xxx.xxx.33 .GPSs. 1 u 26 64 377 0.100 8.585 0.739
+10.xxx.xxx.35 .GPSs. 1 u 23 64 377 0.104 8.888 0.592

Output from host : 169.254.1.3 
remote refid st t when poll reach delay offset jitter
==============================================================================
*10.xxx.xxx.16 .GPSs. 1 u 31 64 377 0.101 -354.40 52.444
+10.xxx.xxx.33 .GPSs. 1 u 29 64 377 0.101 -338.84 63.750
+10.xxx.xxx.35 .GPSs. 1 u 39 64 377 0.106 -387.28 44.286


Output from host : 169.254.1.4 
remote refid st t when poll reach delay offset jitter
==============================================================================
*10.xxx.xxx.16 .GPSs. 1 u 26 64 377 0.084 72.675 9.200
+10.xxx.xxx.33 .GPSs. 1 u 37 64 377 0.107 65.047 14.913
+10.xxx.xxx.35 .GPSs. 1 u 33 64 377 0.103 87.374 13.435

Output from host : 169.254.1.5 
remote refid st t when poll reach delay offset jitter
==============================================================================
*10.xxx.xxx.16 .GPSs. 1 u 27 64 377 0.094 352.741 54.056
+10.xxx.xxx.33 .GPSs. 1 u 26 64 377 0.103 413.893 43.770
+10.xxx.xxx.35 .GPSs. 1 u 33 64 377 0.101 334.493 69.059

Output from host : 169.254.1.6 
remote refid st t when poll reach delay offset jitter
==============================================================================
+10.xxx.xxx.16 .GPSs. 1 u 27 64 377 0.101 -428.51 54.955
+10.xxx.xxx.33 .GPSs. 1 u 26 64 377 0.097 -326.21 91.208
*10.xxx.xxx.35 .GPSs. 1 u 32 64 377 0.098 -349.00 70.110

Hvis vi genstarter ntpd-tjenesten, viprexec -i "ntpq -nc peers", har vi en forskydning på under 10 i et øjeblik og stiger derefter tilbage til over 100.

2. En nodes ntp.drift-fil, der genanvender en forkert forskydning efter genstart af ntpd-tjenesten, kan medføre dette problem:

Kommando:
# viprexec -i "cat /var/lib/ntp/drift/ntp.drift"
Eksempel:
admin@node1:~> viprexec -i "cat /var/lib/ntp/drift/ntp.drift"

Output from host : 169.254.1.1 
500.000

Output from host : 169.254.1.2 
-14.212

Output from host : 169.254.1.3 
500.000

Output from host : 169.254.1.4 
-102.474

Output from host : 169.254.1.5 
-500.000

Output from host : 169.254.1.6 
500.000

En NTP-driftfil med denne forskudte størrelse kan genereres automatisk på grund af et midlertidigt netværksproblem. Når en node, der genopretter en forbindelse til NTP-tjenesten, finder sig selv væk fra det korrekte tidspunkt og genererer filen for at rette sig selv igen. Efter et øjeblik er driftfilen ikke nødvendig og kan blive fjernet. Derfor bør følgende udføres. 

1. ntpd-tjenesten skal stoppes.
2. Filen ntp.drift fjernes.
3. ntpd-tjenesten startede op igen.

Bemærk: ntpd.service er en ikke-påvirket tjeneste.


Kommandoer:
# viprexec -i "systemctl stop ntpd"
# viprexec -i "cat /var/lib/ntp/drift/ntp.drift
# viprexec -i "rm -f /var/lib/ntp/drift/ntp.drift"
# viprexec -i "ntpd -gq"
# viprexec -i "systemctl start ntpd"
# viprexec -i "ntpq -p"

Kør overholdelseskontrolscript igen: viprexec -i "/opt/emc/caspian/fabric/agent/conf/compliance_check.sh"

Hvis NTP-driftsfilerne er nul, skal du kontrollere, om der er nogen datodrift i NTP, og genstarte ntpd-tjenesten. 

Kommando:
# viprexec "date +%s" 2>&1 | grep "^15"
Eksempel:
admin@node1:~> viprexec "date +%s" 2>&1 | grep "^15"
1554470147
1554470111
1554470096
1554470142
1554470144
1554470109
1554470124
1554470140

Forskellen mellem noderne indikerer, at der kræves en NTP-drift med en genstart af ntpd-tjenesten. Se efter status for ntpd-tjenesten, og genstart så tjenesten. (Selvom status kører, skal du fortsætte med genstarten.) Bemærk: ntpd.service er en ikke-påvirket tjeneste.

Kommando:
# viprexec systemctl status ntpd.service | grep Active:
Eksempel:
admin@node1:~> viprexec systemctl status ntpd.service | grep Active:
   Active: active (running) since Tue 2019-08-06 02:49:06 UTC; 1 day 18h ago
   Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago
   Active: active (running) since Wed 2019-08-07 20:13:27 UTC; 58min ago
   Active: active (running) since Tue 2019-08-06 02:49:06 UTC; 1 day 18h ago
   Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago
   Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago
   Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago
   Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago
Kommando:
# viprexec -i "systemctl restart ntpd.service"
Eksempel:
admin@node1:~> viprexec systemctl restart ntpd.service
Output from host : 192.168.219.1
Output from host : 192.168.219.2
Output from host : 192.168.219.3
Output from host : 192.168.219.4
Output from host : 192.168.219.5
Output from host : 192.168.219.6
Output from host : 192.168.219.7
Output from host : 192.168.219.8

NTP-drift skal løses:

Kommando:
# viprexec -i "date +%s" 2>&1 | grep "^15"
Eksempel:
admin@node1:~> viprexec -i "date +%s" 2>&1 | grep "^15"
1585746672
1585746672
1585746672
1585746672
1585746672
1585746672
1585746672
1585746672

Hvis problemet stadig eksisterer eller ikke svarer til ovenstående problem, skal du kontakte ECS tekniske support.

Additional Information

Hvis ovenstående løsning ikke virker, skal kundens netværksteam inddrages for at løse NTP-problemet.

For symptom 'NTP-dæmon kører ikke' (NTPD_NOT_RUNNING), se vidensartikel:
ECS: xDoctor: RAP081: Symptomkode: 2048: NTP-dæmon kører

ikkeFor symptom 'Alle NTP-servere er IKKE egnede til synkronisering' (NTP_NOT_SUITABLE_ERROR), se vidensartikel:
ECS: xDoctor: RAP081: Symptomkode: 2048: Alle NTP-servere er IKKE egnede til synkronisering.

For symptom 'Alle NTP-servere justerer en forskydning, der er højere end fejltærsklen' (NTP_ERROR_OFFSET_ERROR), se vidensartikel:
ECS: xDoctor: RAP081: Symptomkode: 2048: Alle NTP-servere justerer en forskydning, der er højere end fejlgrænsen.

Affected Products

ECS

Products

ECS Appliance, ECS Appliance Gen 1, ECS Appliance Gen 2, ECS Appliance Gen 3, ECS Software
Article Properties
Article Number: 000230636
Article Type: Solution
Last Modified: 03 Oct 2024
Version:  2
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.