ECS: xDoctor: RAP081: Código de sintoma: 2048: Todos os servidores NTP NÃO são adequados para sincronização
Summary: O xDoctor detectou um problema de daemon NTP (Network Time Protocol).
Symptoms
Todos os nós de um rack ECS devem ter o daemon NTP em execução, e os servidores NTP configurados devem ser capazes de sincronizar o tempo. Caso contrário, isso pode levar a problemas com a ingestão de dados de front-end.
| Sintoma |
Mensagem |
|---|---|
| NTP_NOT_SUITABLE_ERROR |
Mensagem = Todos os servidores NTP NÃO são adequados para sincronização. |
Cause
Os sintomas acima permanecem como um AVISO se não ocorrerem dentro de 24 horas.
Após 24 horas, se isso persistir, a severidade será aumentada para um ERRO e um RAP081 será relatado.
Resolution
Isso significa que cada nó listado no campo "Extra" não pode ser sincronizado com o servidor NTP.
Verificação:
1. Obtenha a lista de servidores NTP em cada um dos nós listados:
Comando:
# getrackinfo -r | NTP grep
Exemplo:
admin@node1:~> getrackinfo -r | grep NTP
NTPServer = xxx.xxx.xxx.xxx
2. Para cada servidor NTP listado na etapa 1, teste se ele é capaz de sincronizar a hora.
Comando:
# sudo ntpdate -p 2 -d <Endereço IP NTP / NTP FQDN>
Ou
# sudo ntpdate -p 2 -d 'getrackinfo -r | grep NTP |grep -oP "(?:[0-9]{1,3}\.) {3} [0-9] {1,3}"'
Exemplo (capaz de sincronizar a hora):
admin@node1:~> sudo ntpdate -p 2 -d xxx.xxx.xxx.xxx
22 Fev 13:47:48 ntpdate[110901]: ntpdate 4.2.8p11@1.3728-o Thu Jun 14 09:26:52 UTC 2018 (1)
Looking for host <NTP IP Address> and service ntp
<NTP IP Address> reverse to <NTP hostname>
host found : <Nome do host>
NTP transmitir(<Endereço> IP NTP)
receber(<Endereço> IP NTP)
transmitir(<Endereço> IP NTP)
receber(<Endereço IP NTP>)
servidor <Endereço> IP NTP, porta 123
estrato 2, precisão -24, salto 00, confiança 000
refid [<endereço IP NTP>], atraso 0,02615, dispersão 0,00003
transmitido 2, no tempo de referência do filtro 2
: e01a7b0d.af9e6616 Fri, Feb 22 2019 13:43:41.686
originate timestamp: e01a7c06.748e0c65 Fri, Feb 22 2019 13:47:50.455
transmit timestamp: e01a7c06.7478b000 Fri, Feb 22 2019 13:47:50.454
filter delay: 0,02635 0,02615 0,00000 0,00000
0,00000 0,00000 0,00000 0,00000
Deslocamento do filtro: 0,000043 -0,00002 0,000000 0,000000
0,000000 0,000000 0,000000 0,000000
Atraso 0,02615, dispersão 0,00003
Deslocamento -0,000022
22 Fev 13:47:50 ntpdate[110901]: ajuste o deslocamento do endereço> IP NTP do servidor <de tempo -0,000022 seg
Exemplo: (o que é exibido se não for capaz de sincronizar o horário)
admin@node1:~> sudo ntpdate -p 2 -d xxx.xxx.xxx.xxx
22 Fev 13:47:48 ntpdate[110901]: ntpdate 4.2.8p11@1.3728-o Thu Jun 14 09:26:52 UTC 2018 (1)
Looking for host <NTP IP Address> and service ntp
<NTP IP Address> reverse to <NTP hostname>
host found : <Nome do host>
NTPtransmit(<NTP IP Address>)
transmit(<NTP IP Address>)
transmit(<NTP IP Address>)
server <NTP IP Address>, port 123
stratum 2, precision -24, leap 00, trust 000
refid [<NTP IP Address>], delay 0,02615, dispersion 0,00003
transmitted 2, in filter 2
reference time: e01a7b0d.af9e6616 Fri, Feb 22 2019 13:43:41.686
originate timestamp: e01a7c06.748e0c65 Fri, Feb 22 2019 13:47:50.455
transmit timestamp: e01a7c06.7478b000 Fri, Feb 22 2019 13:47:50.454
filter delay: 0,02635 0,02615 0,00000 0,00000
0,00000 0,00000 0,00000 0,00000
Deslocamento do filtro: 0,000043 -0,00002 0,000000 0,000000
0,000000 0,000000 0,000000 0,000000
Atraso 0,02615, dispersão 0,00003
Deslocamento -0,000022
22 Fev 13:47:50 ntpdate[112232]: nenhum servidor adequado para sincronização encontrado
3. Adicione o FQDN à seção NTP no resultado getrackinfo -r.
Comando:
# sudo setrackinfo -a NTPServer < NTP FQDN >
4. Verifique a separação da rede e as rotas estáticas, pois o NTP enviado da interface de gerenciamento pelo roteamento baseado em política pode causar o problema.
Comando:
# getrackinfo -n; getrackinfo -t
Exemplo:
admin@node1:~>getrackinfo -n; getrackinfo -t
Redes
nomeadas==============
ID do nó Endereço IP da rede Máscara de rede Interface
VLAN do gateway Lista de rotas
estáticas=================
ID do nó Interface de gateway de máscara de rede
5. Confirme se há escuta dos servidores NTP no ambiente e se há um firewall que bloqueia a porta.
Comando:
# sudo ntpq -c como
Exemplo: (Abaixo, vemos um servidor NTP que não está acessível e o outro está bloqueando, provavelmente devido a uma ACL)
admin@node1:~> sudo ntpq -c as
ind assid status conf reach auth condition last_event cnt
===========================================================
1 56633 8011 yes no none reject mobilize 1
6. Verifique se há descompasso de data no NTP.
Comando:
# viprexec "data +%s" 2>&1 | grep "^15"
Exemplo:
admin@node1:~>viprexec "date +%s" 2>&1 | grep "^15"
1554470147
1554470111
1554470096
1554470142
1554470144
1554470109
1554470124
1554470140
7. Verifique o status do serviço ntpd e, em seguida, reinicie o serviço. (Mesmo que o status esteja ativo e em execução, prossiga com a reinicialização.)
Nota: O ntpd.service é um serviço sem impacto.
Comando:
# viprexec systemctl status ntpd.service | grep Active:
Exemplo:
admin@node1:~> status do viprexec systemctl ntpd.service | grep ativo:
Ativo: ativo (em execução) desde Tue 2019-08-06 02:49:06 UTC; 1 dia 18h atrás
Ativo: ativo (em execução) desde Ter 2019-08-06 02:49:07 UTC; 1 dia 18h atrás
Ativo: ativo (em execução) desde Qua 2019-08-07 20:13:27 UTC; Há 58min Ativo
: ativo (em execução) desde Ter 2019-08-06 02:49:06 UTC; 1 dia 18h atrás
Ativo: ativo (em execução) desde Ter 2019-08-06 02:49:07 UTC; 1 dia 18h atrás
Ativo: ativo (em execução) desde Ter 2019-08-06 02:49:07 UTC; 1 dia 18h atrás
Ativo: ativo (em execução) desde Ter 2019-08-06 02:49:07 UTC; 1 dia 18h atrás
Ativo: ativo (em execução) desde Ter 2019-08-06 02:49:07 UTC; 1 dia 18h atrás
Comando:
# viprexec systemctl reiniciar ntpd.service
Exemplo:
admin@node1:~> viprexec systemctl restart ntpd.service
Saída do host: 192.168.219.8
Saída do host : 192.168.219.7
Saída do host : 192.168.219.6
Saída do host : 192.168.219.4
Saída do host : 192.168.219.3
Saída do host : 192.168.219.2
Saída do host : 192.168.219.5
Saída do host : 192.168.219.1
8. Verifique o arquivo md5sum ntp.conf em todos os nós.
Comando:
# viprexec "sudo md5sum /etc/ntp.conf"
Exemplo:
admin@node1:~> viprexec "sudo md5sum /etc/ntp.conf"
Saída do host: 192.168.219.2
741f0abb12ac82a21f150004bd407334 /etc/ntp.conf
Saída do host: 192.168.219.5
741f0abb12ac82a21f150004bd407334 /etc/ntp.conf
Saída do host: 192.168.219.4
741f0abb12ac82a21f150004bd407334 /etc/ntp.conf
Saída do host: 192.168.219.1
7da6eb8009abc18ed1875f1f15ade72a/etc/ntp.conf
Saída do host: 192.168.219.3
741f0abb12ac82a21f150004bd407334 /etc/ntp.conf
Saída do host: 192.168.219.8
741f0abb12ac82a21f150004bd407334 /etc/ntp.conf
Saída do host: 192.168.219.6
741f0abb12ac82a21f150004bd407334 /etc/ntp.conf
Saída do host: 192.168.219.7
741f0abb12ac82a21f150004bd407334 /etc/ntp.conf
Nota: Isso talvez se deva ao fato de ter interfaces públicas e de gerenciamento, e os nós estarem todos configurados para sair do público de acordo com a última configuração fornecida. Em versões mais antigas do ECS, o PBR pode ficar preso onde um nó é válido e o restante dos nós parece estar atrás de um firewall.
9. Adicione 123 a ns_mgmt no resultado de getrackinfo -r e, em seguida, verifique se o NTP começou a transmitir e receber.
Comando:
# sudo setrackinfo -a ns_mgmt 123
Exemplo:
admin@node1:~>sudo setrackinfo -a ns_mgmt 123
Se o erro ainda persistir, coloque a porta 123 de volta na interface pública e verifique novamente a sincronização.
Comando:
# sudo setrackinfo -d ns_mgmt 123
Exemplo:
admin@node1:~> sudo setrackinfo -d ns_mgmt 123
Verifique o status da sincronização do NTP depois de executar cada uma das etapas acima.
Resolução:
Isso significa que o servidor configurado não é um servidor NTP ou que não está funcionando conforme o esperado. A equipe de rede do cliente deve ser envolvida para resolver o problema de NTP.
Additional Information
Para ver o sintoma "O daemon NTP não está em execução" (NTPD_NOT_RUNNING), consulte o artigo de conhecimento:
ECS: xDoctor: RAP081: Código de sintoma: 2048: O daemon NTP não está em execução
Para o sintoma "Todos os servidores NTP ajustam um deslocamento maior que o limite de erro" (NTP_ERROR_OFFSET_ERROR), consulte o artigo de conhecimento:
ECS: xDoctor: RAP081: Código de sintoma: 2048: Todos os servidores NTP ajustam uma compensação maior que o limite
de erroPara ver o sintoma "System time difference above ERROR Threshold", consulte o artigo de conhecimento:
ECS: xDoctor: RAP081: Código de sintoma: 2048: Diferença de hora do sistema acima do limite de ERRO