ECS: xDoctor: RAP081: Symptomkod: 2048: Systemets tidsskillnad över FELTRÖSKELN

Summary: xDoctor upptäckte ett problem med Network Time Protocol (NTP) daemon.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Alla noder i ett ECS-rack ska ha NTP-daemonen igång och de konfigurerade NTP-servrarna ska kunna synkronisera tiden. Om inte, kan detta leda till problem med inmatning av frontend-data.

Symptom

Meddelande

Systemtidsskillnad över feltröskelvärdet

Meddelande = Systemets tidsskillnad över FEL-tröskeln Extra
= [Lista över noder]

Cause

Ovanstående symtom kvarstår som en VARNING om det inte inträffar inom 24 timmar.
Efter 24 timmar, om detta kvarstår, kommer allvarlighetsgraden att ökas till ett FEL och en RAP081 rapporteras.

Resolution

Nodtidsskillnad på grund av NTP-driftsfil som uppdateras varje timme av ntpd-tjänsten på noderna. Det här problemet kan uppstå när ett nätverksproblem tidigare har inträffat på en nod. När det ansluter igen skapar nätverket en felaktig driftsfil, vilket framtvingar en tidsskillnad mellan noderna. 

När en nod har återanslutit till nätverket efter ett problem kan den tillfälligt skapa en driftsfil för att matcha NTP-tiden på NTP-servern. Detta bör vara tillfälligt, men om ntpd inte kan ta bort filen kan vi ta bort driftsfilerna och starta om tjänsten för att återställa den.

Kontroll:
Kontrollera om alla NTP-servrar kan pinga.
1. Bekräfta om Överensstämmelse är aktiverat.

Kommando:

# domulti 'cat /opt/emc/caspian/fabric/agent/conf/agent_customize.conf | grep compliance_enabled'
Exempel:
admin@node1:~> domulti 'cat /opt/emc/caspian/fabric/agent/conf/agent_customize.conf | grep compliance_enabled'

192.168.219.1
========================================
compliance_enabled = true

192.168.219.2
========================================
compliance_enabled = true

192.168.219.3
========================================
compliance_enabled = true

192.168.219.4
========================================
compliance_enabled = true

2. Kontrollera ECS för att avgöra om klustret är kompatibelt eller inte. 

Kommando: 
# viprexec -i "/opt/emc/caspian/fabric/cli/bin/fcli lifecycle cluster.compliance"
Exempel:
admin@node1:~> viprexec -i "/opt/emc/caspian/fabric/cli/bin/fcli lifecycle cluster.compliance"

Output from host : 192.168.219.1
{
  "compliance": "NON_COMPLIANT",
  "status": "OK",
  "etag": 22527
}

Output from host : 192.168.219.2
{
  "compliance": "NON_COMPLIANT",
  "status": "OK",
  "etag": 22527
}

Output from host : 192.168.219.3
{
  "compliance": "NON_COMPLIANT",
  "status": "OK",
  "etag": 22527
}

Output from host : 192.168.219.4
{
  "compliance": "NON_COMPLIANT",
  "status": "OK",
  "etag": 22527
}

Förväntade utdata är COMPLIANT. Om vi ser NON_COMPLIANT måste vi undersöka varför.

3. Kör skriptet för kompatibilitetskontroll på varje nod för att identifiera eventuella icke-kompatibla noder, vilket kan leda till att ECS-kontrollen visar inkompatibilitet

.Kör kompatibilitetsskriptet på alla noder, noder med "NTP-peers är inte synkroniserade" kan ha problem med NTP-driftsfilen på vissa noder. Utdata från "Kontrollerar överensstämmelse..." På en nod utan felutdata innebär det att kontrollen godkändes utan att några problem hittades.

Kommando:
# domulti /opt/emc/caspian/fabric/agent/conf/compliance_check.sh
Exempel:
admin@node1:~> domulti /opt/emc/caspian/fabric/agent/conf/compliance_check.sh
 
192.168.219.1
========================================
Checking compliance...
    NTP peers out of sync
 
192.168.219.2
========================================
Checking compliance...
   
 
192.168.219.3
========================================
Checking compliance...
    NTP peers out of sync
 
192.168.219.4
========================================
Checking compliance...
    NTP peers out of sync

Om det finns utdata från "NTP-peers som inte är synkroniserade" går du till avsnittet "peers out of sync" nedan.

Resolution:
1. Kontrollera om det finns en NTP-förskjutning som är över 10 (+/-), vilket kan orsaka efterlevnadsvarningen.

Kommando:
# viprexec -i "ntpq -nc peers"
Exempel: (Obs! Det finns tre NTP-servrar per nodexempel.)
admin@node1:~> viprexec -i "ntpq -nc peers"

Output from host : 169.254.1.1  
remote refid st t when poll reach delay offset jitter
==============================================================================
*10.xxx.xxx.16 .GPSs. 1 u 31 64 377 0.103 -367.66 44.909
+10.xxx.xxx.33 .GPSs. 1 u 32 64 377 0.097 -368.68 44.341
+10.xxx.xxx.35 .GPSs. 1 u 16 64 377 0.107 -338.96 69.736

Output from host : 169.254.1.2 
remote refid st t when poll reach delay offset jitter
==============================================================================
+10.xxx.xxx.16 .GPSs. 1 u 26 64 377 0.089 8.566 0.746
*10.xxx.xxx.33 .GPSs. 1 u 26 64 377 0.100 8.585 0.739
+10.xxx.xxx.35 .GPSs. 1 u 23 64 377 0.104 8.888 0.592

Output from host : 169.254.1.3 
remote refid st t when poll reach delay offset jitter
==============================================================================
*10.xxx.xxx.16 .GPSs. 1 u 31 64 377 0.101 -354.40 52.444
+10.xxx.xxx.33 .GPSs. 1 u 29 64 377 0.101 -338.84 63.750
+10.xxx.xxx.35 .GPSs. 1 u 39 64 377 0.106 -387.28 44.286


Output from host : 169.254.1.4 
remote refid st t when poll reach delay offset jitter
==============================================================================
*10.xxx.xxx.16 .GPSs. 1 u 26 64 377 0.084 72.675 9.200
+10.xxx.xxx.33 .GPSs. 1 u 37 64 377 0.107 65.047 14.913
+10.xxx.xxx.35 .GPSs. 1 u 33 64 377 0.103 87.374 13.435

Output from host : 169.254.1.5 
remote refid st t when poll reach delay offset jitter
==============================================================================
*10.xxx.xxx.16 .GPSs. 1 u 27 64 377 0.094 352.741 54.056
+10.xxx.xxx.33 .GPSs. 1 u 26 64 377 0.103 413.893 43.770
+10.xxx.xxx.35 .GPSs. 1 u 33 64 377 0.101 334.493 69.059

Output from host : 169.254.1.6 
remote refid st t when poll reach delay offset jitter
==============================================================================
+10.xxx.xxx.16 .GPSs. 1 u 27 64 377 0.101 -428.51 54.955
+10.xxx.xxx.33 .GPSs. 1 u 26 64 377 0.097 -326.21 91.208
*10.xxx.xxx.35 .GPSs. 1 u 32 64 377 0.098 -349.00 70.110

Om vi startar om ntpd-tjänsten, viprexec -i "ntpq -nc peers" har vi en förskjutning på under 10 under några ögonblick, och ökar sedan tillbaka till över 100.

2. En nods ntp.drift-fil som tillämpar en felaktig förskjutning igen efter omstarten av ntpd-tjänsten kan leda till det här problemet:

Kommando:
# viprexec -i "cat /var/lib/ntp/drift/ntp.drift"
Exempel:
admin@node1:~> viprexec -i "cat /var/lib/ntp/drift/ntp.drift"

Output from host : 169.254.1.1 
500.000

Output from host : 169.254.1.2 
-14.212

Output from host : 169.254.1.3 
500.000

Output from host : 169.254.1.4 
-102.474

Output from host : 169.254.1.5 
-500.000

Output from host : 169.254.1.6 
500.000

En NTP-driftsfil av den här förskjutningsstorleken kan genereras automatiskt på grund av ett tillfälligt nätverksproblem. När en nod återupprättar en anslutning till NTP-tjänsten befinner sig utanför rätt tid och genererar filen för att korrigera sig själv. Efter en liten stund behövs inte driftfilen och kan tas bort. Därför bör följande utföras. 

1. Stoppa ntpd-tjänsten.
2. Filen ntp.drift tas bort.
3. Starta ntpd-tjänsten igen.

ntpd.service är en tjänst utan påverkan.


Kommandon:
# viprexec -i "systemctl stop ntpd"
# viprexec -i "cat /var/lib/ntp/drift/ntp.drift
# viprexec -i "rm -f /var/lib/ntp/drift/ntp.drift"
# viprexec -i "ntpd -gq"
# viprexec -i "systemctl start ntpd"
# viprexec -i "ntpq -p"

Kör kontrollskript för överensstämmelse igen: viprexec -i "/opt/emc/caspian/fabric/agent/conf/compliance_check.sh"

Om NTP-driftsfilerna är noll, kontrollera om det finns någon datumavvikelse i NTP och starta om ntpd-tjänsten. 

Kommando:
# viprexec "date +%s" 2>&1 | grep "^15"
Exempel:
admin@node1:~> viprexec "date +%s" 2>&1 | grep "^15"
1554470147
1554470111
1554470096
1554470142
1554470144
1554470109
1554470124
1554470140

Skillnaden mellan noderna anger att en NTP-drift med en omstart av ntpd-tjänsten krävs. Kontrollera status för ntpd-tjänsten och starta sedan om tjänsten. (Även om statusen är igång fortsätter du med omstarten.) ntpd.service är en tjänst utan påverkan.

Kommando:
# viprexec systemctl status ntpd.service | grep Active:
Exempel:
admin@node1:~> viprexec systemctl status ntpd.service | grep Active:
   Active: active (running) since Tue 2019-08-06 02:49:06 UTC; 1 day 18h ago
   Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago
   Active: active (running) since Wed 2019-08-07 20:13:27 UTC; 58min ago
   Active: active (running) since Tue 2019-08-06 02:49:06 UTC; 1 day 18h ago
   Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago
   Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago
   Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago
   Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago
Kommando:
# viprexec -i "systemctl restart ntpd.service"
Exempel:
admin@node1:~> viprexec systemctl restart ntpd.service
Output from host : 192.168.219.1
Output from host : 192.168.219.2
Output from host : 192.168.219.3
Output from host : 192.168.219.4
Output from host : 192.168.219.5
Output from host : 192.168.219.6
Output from host : 192.168.219.7
Output from host : 192.168.219.8

NTP-drift bör lösas:

Kommando:
# viprexec -i "date +%s" 2>&1 | grep "^15"
Exempel:
admin@node1:~> viprexec -i "date +%s" 2>&1 | grep "^15"
1585746672
1585746672
1585746672
1585746672
1585746672
1585746672
1585746672
1585746672

Om problemet fortfarande kvarstår eller inte stämmer överens med ovanstående problem kontaktar du ECS tekniska support.

Additional Information

Om ovanstående lösning inte fungerar måste kundens nätverksteam engageras för att lösa NTP-problemet.

För symptomet "NTP-demonen körs inte" (NTPD_NOT_RUNNING), se kunskapsartikel:
ECS: xDoctor: RAP081: Symptomkod: 2048: NTP-daemonen körs

inteFör symptomet "Alla NTP-servrar är INTE lämpliga för synkronisering" (NTP_NOT_SUITABLE_ERROR), se kunskapsartikel:
ECS: xDoctor: RAP081: Symptomkod: 2048: Alla NTP-servrar är INTE lämpliga för synkronisering.

För symptomet "Alla NTP-servrar justerar en förskjutning som är högre än feltröskeln" (NTP_ERROR_OFFSET_ERROR), se kunskapsartikel:
ECS: xDoctor: RAP081: Symptomkod: 2048: Alla NTP-servrar justerar en förskjutning som är högre än feltröskeln.

Affected Products

ECS

Products

ECS Appliance, ECS Appliance Gen 1, ECS Appliance Gen 2, ECS Appliance Gen 3, ECS Software
Article Properties
Article Number: 000230636
Article Type: Solution
Last Modified: 03 Oct 2024
Version:  2
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.