VxRail:如何对 VxRail 群集中的 NTP 进行故障处理
Summary: 如何对网络时间协议 (NTP) 问题进行故障处理。
Instructions
/etc/ntp.conf 径直。要在主机上配置 NTP,请参阅: https://knowledge.broadcom.com/external/article/313808
使用 ntpq 要从 VxRail Manager 检查同步状态,请执行以下作:
vrm:~ # ntpq -c assoc ind assid status conf reach auth condition last_event cnt =========================================================== 1 3898 961a yes yes none sys.peer sys_peer 1
提醒:如果 NTP 工作正常,结果应为 reach=yes开始, condition=sys.peer。
ntpq> rv 3898 associd=3898 status=961a conf, reach, sel_sys.peer, 1 event, sys_peer, srcadr=10.XX.1XX.1X0, srcport=123, dstadr=10.XX.1XX.1X1, dstport=123, leap=00, stratum=12, precision=-6, rootdelay=31.250, rootdisp=64.575, refid=10.62.68.236, reftime=e0d00ab8.2af01902 Wed, Jul 10 2019 6:56:56.167, rec=e0d00c5e.d78d706e Wed, Jul 10 2019 7:03:58.842, reach=377,
如果 到达范围不是“是”,并且条件不是 sys.peer(这意味着时间同步有问题),请检查本地时间和 NTP 服务器时间。如果本地时间大于或小于 1000 秒,ntpd 将不会设置时钟。必须手动设置时间。
以下状态显示异常同步状态:
vrm:~ # ntpq -c assoc ind assid status conf reach auth condition last_event cnt =========================================================== 1 58280 8011 yes no none reject mobilize 1
而 reach=no 表示 NTP 服务器不响应请求或网络不可用。对网络和 NTP 服务器进行故障处理。
情况 1:网络问题:
使用 ping 检查 NTP 服务器是否可访问,并按照网络故障处理进行检查。确认网络问题后,请用户联系网络团队并确认网络问题已解决。
情况 2:错误的 NTP IP 或服务问题:
如果 NTP 服务器可 ping,则可能是用户输入了错误的 NTP IP 或 NTP 服务遇到问题。与用户确认 NTP IP 地址是否正确,或者使用另一个 NTP 服务器(如果用户有一个 NTP 服务器,并请求用户联系其管理团队进行检查)。有时重新启动服务器可以解决问题,因此我们可以尝试该路由(如果用户可以接受)。
情况 3:Windows NTP 服务器:
Windows 时间服务实施非全功能 NTP。如果用户使用 Windows Server 作为 NTP 服务器,则 rootdisp 可能高于 1000。在这种情况下,请配置 Windows NTP 服务器以同步可靠的外部 NTP 服务器。
如果必须恢复 reach=yes但 condition=reject用 ntpq 与 assoc 和 rv 要检查 flash code开始, dispersion以及 rootdisp。
vrm:~ # ntpq -c assoc ind assid status conf reach auth condition last_event cnt =========================================================== 1 3898 9014 yes yes none reject reachable 1
提醒:而 assoc 选项可以显示 assid 这是必需的 rv 后。
使用 rv 命令来获取 flash code开始, dispersion以及 rootdisp。
运行 ntpq 命令输入 ntpq shell,然后使用 rv assid 以获取详细信息。
ntpq ntpq> rv 3898 associd=3898 status=9014 conf, reach, sel_reject, 1 event, reachable, srcadr=10.XX.1XX.1X0, srcport=123, dstadr=10.XX.1XX.1X1, dstport=123, leap=00, stratum=12, precision=-6, rootdelay=31.250, rootdisp=1814.209, refid=10.XX.XX.2X6, reftime=e0cff348.12fb407d Wed, Jul 10 2019 5:16:56.074, rec=e0cff42b.60680b73 Wed, Jul 10 2019 5:20:43.376, reach=377, unreach=0, hmode=3, pmode=4, hpoll=6, ppoll=6, headway=50, flash=400 peer_dist, keyid=0, offset=-2536.264, delay=0.354, dispersion=16.515, jitter=4.414, xleave=0.038, filtdelay= 0.35 0.29 0.32 0.26 0.28 3.22 0.28 0.35, filtoffset= -2536.2 -2538.2 -2529.4 -2536.2 -2541.6 -2530.0 -2532.5 -2538.1, filtdisp= 15.63 16.63 17.59 18.55 19.53 20.53 21.52 22.50 flash=400 peer_dist #reject reason dispersion=16.515 #it presents the error/variance between that NTP server and client rootdisp=1814.209 #it presents the total amount of error/variance from the root NTP server to client
flash=400 peer_dist 表示到根 NTP 服务器的距离太长。它不适合同步。
从以下链接查找有关 Flash 代码的更多信息:
https://www.eecis.udel.edu/~mills/ntp/html/decode.html#flash一般 dispersion 高于 1000 被视为不适合 NTP 服务器。如果 Windows NTP 服务器配置为与自身同步时间,或者未正确配置参数,则 rootdisp 高于 1000,并且必须更正 Windows Server 中的 NTP 配置。
请参阅以下 Microsoft 知识库文章以配置 Windows 时间服务器。
https://support.microsoft.com/en-us/help/816042/how-to-configure-an-authoritative-time-server-in-windows-server注意:改变 MaxPosPhaseCorrection开始, MaxNegPhaseCorrection 和 SpecialPollInterval 到 300 秒
情景 4:NTP 服务器和外部 NTP 服务器之间的网络不稳定:
按照网络故障处理检查网络,可以使用 ping 来检查是否存在高延迟。