Avamar : Le point de contrôle a échoué avec le résultat « MSG_ERR_BADTIMESYNC ».
Summary: Les points de contrôle échouent avec le résultat « MSG_ERR_BADTIMESYNC »
Symptoms
Le point de contrôle a échoué avec le résultat "MSG_ERR_BADTIMESYNC»
L’option «avmaint cpstatus" affiche l’erreur suivante :
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<cpstatus
generation-time="1663935384"
tag="cp.20220923121551"
status="error"
stripes-completed="0"
stripes-total="0"
start-time="1663935351"
end-time="1663935351"
result="MSG_ERR_BADTIMESYNC"
refcount="1"/>
L’option «mapall --parallel 'date'" indique qu’un nœud est désynchronisé :
(Pour exécuter la commande mapall, les clés doivent être chargées par Avamar : Comment se connecter à une instance d’Avamar Server et charger différentes clés
admin@utility:~/>: mapall --parallel 'date'
Using /usr/local/avamar/var/probe.xml
(0.0) ssh -q -x -o GSSAPIAuthentication=no admin@192.168.255.2 'date'
(0.1) ssh -q -x -o GSSAPIAuthentication=no admin@192.168.255.3 'date'
(0.2) ssh -q -x -o GSSAPIAuthentication=no admin@192.168.255.4 'date'
(0.3) ssh -q -x -o GSSAPIAuthentication=no admin@192.168.255.5 'date'
(0.4) ssh -q -x -o GSSAPIAuthentication=no admin@192.168.255.6 'date'
(0.7) ssh -q -x -o GSSAPIAuthentication=no admin@192.168.255.9 'date'
(0.6) ssh -q -x -o GSSAPIAuthentication=no admin@192.168.255.8 'date'
(0.5) ssh -q -x -o GSSAPIAuthentication=no admin@192.168.255.7 'date'
Fri Sep 23 13:05:21 UTC 2022
Fri Sep 23 13:05:21 UTC 2022
Fri Sep 23 13:07:17 UTC 2022 <---- out of sync node
Fri Sep 23 13:05:20 UTC 2022
Fri Sep 23 13:05:22 UTC 2022
Fri Sep 23 13:05:20 UTC 2022
Fri Sep 23 13:05:22 UTC 2022
Fri Sep 23 13:05:21 UTC 2022
Vérification du protocole NTP (Network Time Protocol) à l’aide de l’option «ntpq -pn« affiche le message « Connexion refusée » sur le nœud suspect :
(Sortie modifiée pour afficher uniquement le nœud affecté)
admin@utility:~/>: mapall --noerror '/usr/sbin/ntpq -pn'
Using /usr/local/avamar/var/probe.xml
...
(0.3) ssh -q -x -o GSSAPIAuthentication=no admin@192.168.255.5 '/usr/sbin/ntpq -pn'
/usr/sbin/ntpq: read: Connection refused
...
Lors de la vérification de l’état directement en tant qu’utilisateur root sur le nœud concerné, le « processus NTPD (Network Time Protocol Daemon) » affiche « Active : activating (auto-restart) (Result : resources) » :
root@node03:~/>: systemctl status ntpd
● ntpd.service - NTP Server Daemon
Loaded: loaded (/usr/lib/systemd/system/ntpd.service; enabled; vendor preset: disabled)
Drop-In: /run/systemd/generator/ntpd.service.d
└─50-insserv.conf-$time.conf
Active: activating (auto-restart) (Result: resources) since Fri 2022-09-23 13:22:35 UTC; 1min 58s ago
L’état doit indiquer Actif : actif (en cours d’exécution) :
● ntpd.service - NTP Server Daemon
Loaded: loaded (/usr/lib/systemd/system/ntpd.service; enabled; vendor preset: disabled)
Drop-In: /run/systemd/generator/ntpd.service.d
└─50-insserv.conf-$time.conf
Active: active (running) since Fri 2022-09-23 14:04:37 UTC; 26s ago
La tentative de démarrage de NTPD échoue :
root@node03:~/#: systemctl start ntpd.service
Job for ntpd.service failed because a configured resource limit was exceeded. See "systemctl status ntpd.service" and "journalctl -xe" for details.
La sortie de l’erreur «journalctl -xe» signale les messages « No space left on the device ».
L’option «df" indique que /var est à 100 % :
df -kh
Filesystem Size Used Avail Use% Mounted on
devtmpfs 16G 8.0K 16G 1% /dev
tmpfs 16G 0 16G 0% /dev/shm
tmpfs 16G 50M 16G 1% /run
tmpfs 16G 0 16G 0% /sys/fs/cgroup
/dev/sda5 9.8G 2.4G 7.0G 26% /
/dev/sdg1 183G 8.3G 165G 5% /ssd01
/dev/sda1 979M 50M 878M 6% /boot
/dev/sdd1 1.9T 236G 1.6T 13% /data04
/dev/sdc1 1.9T 240G 1.6T 13% /data03
/dev/sde1 1.9T 236G 1.6T 13% /data05
/dev/sdf1 1.9T 238G 1.6T 13% /data06
/dev/sdb1 1.9T 238G 1.6T 13% /data02
/dev/sda7 2.0G 2.0G 0 100% /var <------- 100% Use
/dev/sda3 1.8T 267G 1.6T 15% /data01Cause
NTPD s’appuie sur /var/lib/ntp/drift/ntp.drift qui contient la dernière estimation de l’erreur de fréquence d’horloge.
si /var est rempli à 100 %, NTPD ne peut pas mettre à jour ou créer le ntp.drift fichier et NTP ne fonctionnent pas correctement.
Resolution
1. Sur le nœud concerné, examinez et résolvez 100 % de l’utilisation de /vaR.
2. Une fois corrigé :
Un. Redémarrez NTPD :
root@node03:~/#: systemctl restart ntpd
B. Vérifiez l’état de ntpd :
root@node03:~/#: systemctl status ntpd
Des résultats similaires à ce qui suit devraient être observés :
● ntpd.service - NTP Server Daemon
Loaded: loaded (/usr/lib/systemd/system/ntpd.service; enabled; vendor preset: disabled)
Active: active (running) since Tue 2022-09-27 21:21:42 UTC; 37s ago
Docs: man:ntpd(1)
Process: 29442 ExecStart=/usr/sbin/start-ntpd start (code=exited, status=0/SUCCESS)
Main PID: 29463 (ntpd)
Tasks: 2
CGroup: /system.slice/ntpd.service
├─29463 /usr/sbin/ntpd -p /var/run/ntp/ntpd.pid -g -u ntp:ntp -c /etc/ntp.conf
└─29464 ntpd: asynchronous dns resolver
Sep 27 21:21:42 node03 ntpd[29463]: Listen normally on 3 bond0 10.n.n.52:123
Sep 27 21:21:42 node03 ntpd[29463]: Listen normally on 4 bond1 192.168.255.22:123
Sep 27 21:21:42 node03 ntpd[29463]: Listen normally on 5 lo [::1]:123
Sep 27 21:21:42 node03 ntpd[29463]: Listen normally on 6 bond0 [fe80::260:16ff:feaa:2a10%11]:123
Sep 27 21:21:42 node03 ntpd[29463]: Listen normally on 7 bond1 [fe80::260:16ff:fea9:b182%12]:123
Sep 27 21:21:42 node03 ntpd[29463]: Listening on routing socket on fd #24 for interface updates
Sep 27 21:21:42 node03 start-ntpd[29442]: Starting network time protocol daemon (NTPD)
Sep 27 21:21:42 node03 systemd[1]: Started NTP Server Daemon.
c. Vérifiez le NTP avec ntpq:
root@node03:~/#: /usr/sbin/ntpq -pn
Des résultats similaires à ce qui suit devraient être observés :
remote refid st t when poll reach delay offset jitter
==============================================================================
*10.241.216.209 10.233.131.242 2 u 966 1024 377 0.558 1.559 0.600
+192.168.255.21 10.241.216.209 3 u 401 1024 377 0.152 0.521 0.420
3. Confirmez la résolution en exécutant un point de contrôle manuel à partir d’Avamar Utility Node.