ECS: xDoctor: RAP081: Symptomkod: 2048: Systemets tidsskillnad över FELTRÖSKELN
Summary: xDoctor upptäckte ett problem med Network Time Protocol (NTP) daemon.
Symptoms
Alla noder i ett ECS-rack ska ha NTP-daemonen igång och de konfigurerade NTP-servrarna ska kunna synkronisera tiden. Om inte, kan detta leda till problem med inmatning av frontend-data.
| Symptom |
Meddelande |
|---|---|
| Systemtidsskillnad över feltröskelvärdet |
Meddelande = Systemets tidsskillnad över FEL-tröskeln Extra |
Cause
Ovanstående symtom kvarstår som en VARNING om det inte inträffar inom 24 timmar.
Efter 24 timmar, om detta kvarstår, kommer allvarlighetsgraden att ökas till ett FEL och en RAP081 rapporteras.
Resolution
Nodtidsskillnad på grund av NTP-driftsfil som uppdateras varje timme av ntpd-tjänsten på noderna. Det här problemet kan uppstå när ett nätverksproblem tidigare har inträffat på en nod. När det ansluter igen skapar nätverket en felaktig driftsfil, vilket framtvingar en tidsskillnad mellan noderna.
När en nod har återanslutit till nätverket efter ett problem kan den tillfälligt skapa en driftsfil för att matcha NTP-tiden på NTP-servern. Detta bör vara tillfälligt, men om ntpd inte kan ta bort filen kan vi ta bort driftsfilerna och starta om tjänsten för att återställa den.
Kontroll:
Kontrollera om alla NTP-servrar kan pinga.
1. Bekräfta om Överensstämmelse är aktiverat.
Kommando:
# domulti 'cat /opt/emc/caspian/fabric/agent/conf/agent_customize.conf | grep compliance_enabled'
admin@node1:~> domulti 'cat /opt/emc/caspian/fabric/agent/conf/agent_customize.conf | grep compliance_enabled' 192.168.219.1 ======================================== compliance_enabled = true 192.168.219.2 ======================================== compliance_enabled = true 192.168.219.3 ======================================== compliance_enabled = true 192.168.219.4 ======================================== compliance_enabled = true
2. Kontrollera ECS för att avgöra om klustret är kompatibelt eller inte.
# viprexec -i "/opt/emc/caspian/fabric/cli/bin/fcli lifecycle cluster.compliance"
admin@node1:~> viprexec -i "/opt/emc/caspian/fabric/cli/bin/fcli lifecycle cluster.compliance"
Output from host : 192.168.219.1
{
"compliance": "NON_COMPLIANT",
"status": "OK",
"etag": 22527
}
Output from host : 192.168.219.2
{
"compliance": "NON_COMPLIANT",
"status": "OK",
"etag": 22527
}
Output from host : 192.168.219.3
{
"compliance": "NON_COMPLIANT",
"status": "OK",
"etag": 22527
}
Output from host : 192.168.219.4
{
"compliance": "NON_COMPLIANT",
"status": "OK",
"etag": 22527
}
Förväntade utdata är COMPLIANT. Om vi ser NON_COMPLIANT måste vi undersöka varför.
3. Kör skriptet för kompatibilitetskontroll på varje nod för att identifiera eventuella icke-kompatibla noder, vilket kan leda till att ECS-kontrollen visar inkompatibilitet
.Kör kompatibilitetsskriptet på alla noder, noder med "NTP-peers är inte synkroniserade" kan ha problem med NTP-driftsfilen på vissa noder. Utdata från "Kontrollerar överensstämmelse..." På en nod utan felutdata innebär det att kontrollen godkändes utan att några problem hittades.
# domulti /opt/emc/caspian/fabric/agent/conf/compliance_check.sh
admin@node1:~> domulti /opt/emc/caspian/fabric/agent/conf/compliance_check.sh
192.168.219.1
========================================
Checking compliance...
NTP peers out of sync
192.168.219.2
========================================
Checking compliance...
192.168.219.3
========================================
Checking compliance...
NTP peers out of sync
192.168.219.4
========================================
Checking compliance...
NTP peers out of sync
Om det finns utdata från "NTP-peers som inte är synkroniserade" går du till avsnittet "peers out of sync" nedan.
Resolution:
1. Kontrollera om det finns en NTP-förskjutning som är över 10 (+/-), vilket kan orsaka efterlevnadsvarningen.
# viprexec -i "ntpq -nc peers"
admin@node1:~> viprexec -i "ntpq -nc peers" Output from host : 169.254.1.1 remote refid st t when poll reach delay offset jitter ============================================================================== *10.xxx.xxx.16 .GPSs. 1 u 31 64 377 0.103 -367.66 44.909 +10.xxx.xxx.33 .GPSs. 1 u 32 64 377 0.097 -368.68 44.341 +10.xxx.xxx.35 .GPSs. 1 u 16 64 377 0.107 -338.96 69.736 Output from host : 169.254.1.2 remote refid st t when poll reach delay offset jitter ============================================================================== +10.xxx.xxx.16 .GPSs. 1 u 26 64 377 0.089 8.566 0.746 *10.xxx.xxx.33 .GPSs. 1 u 26 64 377 0.100 8.585 0.739 +10.xxx.xxx.35 .GPSs. 1 u 23 64 377 0.104 8.888 0.592 Output from host : 169.254.1.3 remote refid st t when poll reach delay offset jitter ============================================================================== *10.xxx.xxx.16 .GPSs. 1 u 31 64 377 0.101 -354.40 52.444 +10.xxx.xxx.33 .GPSs. 1 u 29 64 377 0.101 -338.84 63.750 +10.xxx.xxx.35 .GPSs. 1 u 39 64 377 0.106 -387.28 44.286 Output from host : 169.254.1.4 remote refid st t when poll reach delay offset jitter ============================================================================== *10.xxx.xxx.16 .GPSs. 1 u 26 64 377 0.084 72.675 9.200 +10.xxx.xxx.33 .GPSs. 1 u 37 64 377 0.107 65.047 14.913 +10.xxx.xxx.35 .GPSs. 1 u 33 64 377 0.103 87.374 13.435 Output from host : 169.254.1.5 remote refid st t when poll reach delay offset jitter ============================================================================== *10.xxx.xxx.16 .GPSs. 1 u 27 64 377 0.094 352.741 54.056 +10.xxx.xxx.33 .GPSs. 1 u 26 64 377 0.103 413.893 43.770 +10.xxx.xxx.35 .GPSs. 1 u 33 64 377 0.101 334.493 69.059 Output from host : 169.254.1.6 remote refid st t when poll reach delay offset jitter ============================================================================== +10.xxx.xxx.16 .GPSs. 1 u 27 64 377 0.101 -428.51 54.955 +10.xxx.xxx.33 .GPSs. 1 u 26 64 377 0.097 -326.21 91.208 *10.xxx.xxx.35 .GPSs. 1 u 32 64 377 0.098 -349.00 70.110
Om vi startar om ntpd-tjänsten, viprexec -i "ntpq -nc peers" har vi en förskjutning på under 10 under några ögonblick, och ökar sedan tillbaka till över 100.
2. En nods ntp.drift-fil som tillämpar en felaktig förskjutning igen efter omstarten av ntpd-tjänsten kan leda till det här problemet:
# viprexec -i "cat /var/lib/ntp/drift/ntp.drift"
admin@node1:~> viprexec -i "cat /var/lib/ntp/drift/ntp.drift" Output from host : 169.254.1.1 500.000 Output from host : 169.254.1.2 -14.212 Output from host : 169.254.1.3 500.000 Output from host : 169.254.1.4 -102.474 Output from host : 169.254.1.5 -500.000 Output from host : 169.254.1.6 500.000
En NTP-driftsfil av den här förskjutningsstorleken kan genereras automatiskt på grund av ett tillfälligt nätverksproblem. När en nod återupprättar en anslutning till NTP-tjänsten befinner sig utanför rätt tid och genererar filen för att korrigera sig själv. Efter en liten stund behövs inte driftfilen och kan tas bort. Därför bör följande utföras.
ntpd.service är en tjänst utan påverkan.
Kommandon:
# viprexec -i "systemctl stop ntpd" # viprexec -i "cat /var/lib/ntp/drift/ntp.drift # viprexec -i "rm -f /var/lib/ntp/drift/ntp.drift" # viprexec -i "ntpd -gq" # viprexec -i "systemctl start ntpd" # viprexec -i "ntpq -p"
Kör kontrollskript för överensstämmelse igen: viprexec -i "/opt/emc/caspian/fabric/agent/conf/compliance_check.sh"
Om NTP-driftsfilerna är noll, kontrollera om det finns någon datumavvikelse i NTP och starta om ntpd-tjänsten.
# viprexec "date +%s" 2>&1 | grep "^15"
admin@node1:~> viprexec "date +%s" 2>&1 | grep "^15" 1554470147 1554470111 1554470096 1554470142 1554470144 1554470109 1554470124 1554470140
Skillnaden mellan noderna anger att en NTP-drift med en omstart av ntpd-tjänsten krävs. Kontrollera status för ntpd-tjänsten och starta sedan om tjänsten. (Även om statusen är igång fortsätter du med omstarten.) ntpd.service är en tjänst utan påverkan.
# viprexec systemctl status ntpd.service | grep Active:
admin@node1:~> viprexec systemctl status ntpd.service | grep Active: Active: active (running) since Tue 2019-08-06 02:49:06 UTC; 1 day 18h ago Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago Active: active (running) since Wed 2019-08-07 20:13:27 UTC; 58min ago Active: active (running) since Tue 2019-08-06 02:49:06 UTC; 1 day 18h ago Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago
# viprexec -i "systemctl restart ntpd.service"
admin@node1:~> viprexec systemctl restart ntpd.service Output from host : 192.168.219.1 Output from host : 192.168.219.2 Output from host : 192.168.219.3 Output from host : 192.168.219.4 Output from host : 192.168.219.5 Output from host : 192.168.219.6 Output from host : 192.168.219.7 Output from host : 192.168.219.8
NTP-drift bör lösas:
# viprexec -i "date +%s" 2>&1 | grep "^15"
admin@node1:~> viprexec -i "date +%s" 2>&1 | grep "^15" 1585746672 1585746672 1585746672 1585746672 1585746672 1585746672 1585746672 1585746672
Om problemet fortfarande kvarstår eller inte stämmer överens med ovanstående problem kontaktar du ECS tekniska support.
Additional Information
Om ovanstående lösning inte fungerar måste kundens nätverksteam engageras för att lösa NTP-problemet.
För symptomet "NTP-demonen körs inte" (NTPD_NOT_RUNNING), se kunskapsartikel:
ECS: xDoctor: RAP081: Symptomkod: 2048: NTP-daemonen körs
inteFör symptomet "Alla NTP-servrar är INTE lämpliga för synkronisering" (NTP_NOT_SUITABLE_ERROR), se kunskapsartikel:
ECS: xDoctor: RAP081: Symptomkod: 2048: Alla NTP-servrar är INTE lämpliga för synkronisering.
För symptomet "Alla NTP-servrar justerar en förskjutning som är högre än feltröskeln" (NTP_ERROR_OFFSET_ERROR), se kunskapsartikel:
ECS: xDoctor: RAP081: Symptomkod: 2048: Alla NTP-servrar justerar en förskjutning som är högre än feltröskeln.