ECS: xDoctor: RAP081: Symptom Code: 2048: Systeemtijdsverschil boven ERROR-drempel
Summary: xDoctor detecteerde een probleem met een Network Time Protocol (NTP)-daemon.
Symptoms
Op alle knooppunten in een ECS-rack moet de NTP-daemon actief zijn en de geconfigureerde NTP-servers moeten de tijd kunnen synchroniseren. Als dit niet het geval is, kan dit leiden tot problemen met de opname van frontend-gegevens.
| Symptoom |
Bericht |
|---|---|
| Systeemtijdverschil boven foutdrempel |
Bericht = Systeemtijdsverschil boven ERROR-drempel |
Cause
De bovenstaande symptomen blijven als een WAARSCHUWING als het niet binnen 24 uur optreedt.
Als dit na 24 uur aanhoudt, wordt de ernst verhoogd tot een ERROR en wordt een RAP081 gemeld.
Resolution
Tijdsverschil knooppuntknooppunt als gevolg van NTP-afwijkbestand dat elk uur wordt bijgewerkt door de ntpd-service op de knooppunten. Dit probleem kan zich voordoen wanneer zich eerder een netwerkprobleem heeft voorgedaan op een knooppunt. Nadat het netwerk weer verbinding heeft gemaakt, wordt er een onjuist driftbestand gemaakt, waardoor een tijdsverschil tussen de knooppunten wordt afgedwongen.
Wanneer een knooppunt na een probleem opnieuw verbinding heeft gemaakt met het netwerk, kan het tijdelijk een driftbestand maken dat overeenkomt met de NTP-tijd op de NTP-server. Dit zou tijdelijk moeten zijn, maar als ntpd het bestand niet kan verwijderen, kunnen we de driftbestanden verwijderen en de service opnieuw starten om het te herstellen.
Verificatie:
Controleer of alle NTP-servers kunnen pingen.
1. Controleer of de Compliance is ingeschakeld.
Opdracht:
# domulti 'cat /opt/emc/caspian/fabric/agent/conf/agent_customize.conf | grep compliance_enabled'
admin@node1:~> domulti 'cat /opt/emc/caspian/fabric/agent/conf/agent_customize.conf | grep compliance_enabled' 192.168.219.1 ======================================== compliance_enabled = true 192.168.219.2 ======================================== compliance_enabled = true 192.168.219.3 ======================================== compliance_enabled = true 192.168.219.4 ======================================== compliance_enabled = true
2. Controleer het ECS om te bepalen of het cluster compatibel is of niet.
# viprexec -i "/opt/emc/caspian/fabric/cli/bin/fcli lifecycle cluster.compliance"
admin@node1:~> viprexec -i "/opt/emc/caspian/fabric/cli/bin/fcli lifecycle cluster.compliance"
Output from host : 192.168.219.1
{
"compliance": "NON_COMPLIANT",
"status": "OK",
"etag": 22527
}
Output from host : 192.168.219.2
{
"compliance": "NON_COMPLIANT",
"status": "OK",
"etag": 22527
}
Output from host : 192.168.219.3
{
"compliance": "NON_COMPLIANT",
"status": "OK",
"etag": 22527
}
Output from host : 192.168.219.4
{
"compliance": "NON_COMPLIANT",
"status": "OK",
"etag": 22527
}
De verwachte output is COMPLIANT. Als we NON_COMPLIANT zien, dan moeten we onderzoeken waarom.
3. Voer het script voor nalevingscontrole uit op elk knooppunt om eventuele niet-compatibele knooppunten te identificeren, wat ertoe kan leiden dat de ECS-controle niet-naleving aantoont.
Voer het nalevingsscript uit op alle knooppunten. Bij knooppunten met 'NTP-peers niet gesynchroniseerd' kan het probleem met het NTP-driftbestand op sommige knooppunten optreden. Een output van "Checking compliance..." Een knooppunt zonder foutuitvoer betekent dat de controle is geslaagd zonder dat er problemen zijn gevonden.
# domulti /opt/emc/caspian/fabric/agent/conf/compliance_check.sh
admin@node1:~> domulti /opt/emc/caspian/fabric/agent/conf/compliance_check.sh
192.168.219.1
========================================
Checking compliance...
NTP peers out of sync
192.168.219.2
========================================
Checking compliance...
192.168.219.3
========================================
Checking compliance...
NTP peers out of sync
192.168.219.4
========================================
Checking compliance...
NTP peers out of sync
Als er een uitvoer is van "NTP-peers niet gesynchroniseerd", gaat u naar het gedeelte "peers niet gesynchroniseerd" hieronder.
Resolutie:
1. Controleer of een NTP-offset meer dan 10 (+/-) is, wat de nalevingswaarschuwing kan veroorzaken.
# viprexec -i "ntpq -nc peers"
admin@node1:~> viprexec -i "ntpq -nc peers" Output from host : 169.254.1.1 remote refid st t when poll reach delay offset jitter ============================================================================== *10.xxx.xxx.16 .GPSs. 1 u 31 64 377 0.103 -367.66 44.909 +10.xxx.xxx.33 .GPSs. 1 u 32 64 377 0.097 -368.68 44.341 +10.xxx.xxx.35 .GPSs. 1 u 16 64 377 0.107 -338.96 69.736 Output from host : 169.254.1.2 remote refid st t when poll reach delay offset jitter ============================================================================== +10.xxx.xxx.16 .GPSs. 1 u 26 64 377 0.089 8.566 0.746 *10.xxx.xxx.33 .GPSs. 1 u 26 64 377 0.100 8.585 0.739 +10.xxx.xxx.35 .GPSs. 1 u 23 64 377 0.104 8.888 0.592 Output from host : 169.254.1.3 remote refid st t when poll reach delay offset jitter ============================================================================== *10.xxx.xxx.16 .GPSs. 1 u 31 64 377 0.101 -354.40 52.444 +10.xxx.xxx.33 .GPSs. 1 u 29 64 377 0.101 -338.84 63.750 +10.xxx.xxx.35 .GPSs. 1 u 39 64 377 0.106 -387.28 44.286 Output from host : 169.254.1.4 remote refid st t when poll reach delay offset jitter ============================================================================== *10.xxx.xxx.16 .GPSs. 1 u 26 64 377 0.084 72.675 9.200 +10.xxx.xxx.33 .GPSs. 1 u 37 64 377 0.107 65.047 14.913 +10.xxx.xxx.35 .GPSs. 1 u 33 64 377 0.103 87.374 13.435 Output from host : 169.254.1.5 remote refid st t when poll reach delay offset jitter ============================================================================== *10.xxx.xxx.16 .GPSs. 1 u 27 64 377 0.094 352.741 54.056 +10.xxx.xxx.33 .GPSs. 1 u 26 64 377 0.103 413.893 43.770 +10.xxx.xxx.35 .GPSs. 1 u 33 64 377 0.101 334.493 69.059 Output from host : 169.254.1.6 remote refid st t when poll reach delay offset jitter ============================================================================== +10.xxx.xxx.16 .GPSs. 1 u 27 64 377 0.101 -428.51 54.955 +10.xxx.xxx.33 .GPSs. 1 u 26 64 377 0.097 -326.21 91.208 *10.xxx.xxx.35 .GPSs. 1 u 32 64 377 0.098 -349.00 70.110
Als we de ntpd-service, viprexec -i "ntpq -nc peers" opnieuw opstarten, hebben we een offset van minder dan 10 gedurende enkele ogenblikken, en neemt dan weer toe tot meer dan 100.
2. Het ntp.drift-bestand van een knooppunt dat opnieuw een onjuiste offset toepast nadat de ntpd-service opnieuw is opgestart, kan tot dit probleem leiden:
# viprexec -i "cat /var/lib/ntp/drift/ntp.drift"
admin@node1:~> viprexec -i "cat /var/lib/ntp/drift/ntp.drift" Output from host : 169.254.1.1 500.000 Output from host : 169.254.1.2 -14.212 Output from host : 169.254.1.3 500.000 Output from host : 169.254.1.4 -102.474 Output from host : 169.254.1.5 -500.000 Output from host : 169.254.1.6 500.000
Een NTP-driftbestand van deze offsetgrootte kan automatisch worden gegenereerd als gevolg van een tijdelijk netwerkprobleem. Wanneer een knooppunt dat opnieuw een verbinding met de NTP-service tot stand brengt, niet op het juiste moment is en het bestand wordt gegenereerd om zichzelf opnieuw te corrigeren. Na enkele ogenblikken is het driftbestand niet meer nodig en kan het worden verwijderd. Daarom moet het volgende worden uitgevoerd.
Opmerking: ntpd.service is een service zonder impact.
Opdrachten:
# viprexec -i "systemctl stop ntpd" # viprexec -i "cat /var/lib/ntp/drift/ntp.drift # viprexec -i "rm -f /var/lib/ntp/drift/ntp.drift" # viprexec -i "ntpd -gq" # viprexec -i "systemctl start ntpd" # viprexec -i "ntpq -p"
Voer het script voor nalevingscontrole opnieuw uit: viprexec -i "/opt/emc/caspian/fabric/agent/conf/compliance_check.sh"
Als de NTP-driftbestanden nul zijn, controleert u of er sprake is van datumdrift in NTP en start u de ntpd-service opnieuw.
# viprexec "date +%s" 2>&1 | grep "^15"
admin@node1:~> viprexec "date +%s" 2>&1 | grep "^15" 1554470147 1554470111 1554470096 1554470142 1554470144 1554470109 1554470124 1554470140
Het verschil tussen de knooppunten geeft aan dat een NTP-afwijking met een herstart van de ntpd-service vereist is. Controleer de status van de ntpd-service en start de service opnieuw. (Zelfs als de status actief is, gaat u verder met het opnieuw opstarten.) Opmerking: ntpd.service is een service zonder impact.
# viprexec systemctl status ntpd.service | grep Active:
admin@node1:~> viprexec systemctl status ntpd.service | grep Active: Active: active (running) since Tue 2019-08-06 02:49:06 UTC; 1 day 18h ago Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago Active: active (running) since Wed 2019-08-07 20:13:27 UTC; 58min ago Active: active (running) since Tue 2019-08-06 02:49:06 UTC; 1 day 18h ago Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago
# viprexec -i "systemctl restart ntpd.service"
admin@node1:~> viprexec systemctl restart ntpd.service Output from host : 192.168.219.1 Output from host : 192.168.219.2 Output from host : 192.168.219.3 Output from host : 192.168.219.4 Output from host : 192.168.219.5 Output from host : 192.168.219.6 Output from host : 192.168.219.7 Output from host : 192.168.219.8
NTP-drift moet worden opgelost:
# viprexec -i "date +%s" 2>&1 | grep "^15"
admin@node1:~> viprexec -i "date +%s" 2>&1 | grep "^15" 1585746672 1585746672 1585746672 1585746672 1585746672 1585746672 1585746672 1585746672
Als het probleem zich blijft voordoen of niet overeenkomt met het bovenstaande probleem, neem dan contact op met de technische support van ECS.
Additional Information
Als de bovenstaande oplossing niet werkt, moet het netwerkteam van de klant worden ingeschakeld om het NTP-probleem op te lossen.
Voor symptoom 'NTP daemon not running' (NTPD_NOT_RUNNING), zie knowledge article:
ECS: xDoctor: RAP081: Symptom Code: 2048: NTP-daemon wordt niet uitgevoerd
Voor het symptoom 'Alle NTP-servers zijn NIET geschikt voor synchronisatie' (NTP_NOT_SUITABLE_ERROR), zie knowledge article:
ECS: xDoctor: RAP081: Symptom Code: 2048: Geen enkele NTP-server is geschikt voor synchronisatie.
Voor het symptoom 'Alle NTP-servers passen een offset aan die hoger is dan de foutdrempel' (NTP_ERROR_OFFSET_ERROR), zie knowledge article:
ECS: xDoctor: RAP081: Symptom Code: 2048: Alle NTP-servers passen een offset aan die hoger is dan de foutdrempelwaarde.