VxRail:如何針對 VxRail 叢集中的 NTP 進行故障診斷
Summary: 如何針對網路時間通訊協定 (NTP) 問題進行故障診斷。
Instructions
/etc/ntp.conf 直接。若要在主機上設定 NTP,請參閱: https://knowledge.broadcom.com/external/article/313808
使用 ntpq 若要從 VxRail Manager 檢查同步處理狀態:
vrm:~ # ntpq -c assoc ind assid status conf reach auth condition last_event cnt =========================================================== 1 3898 961a yes yes none sys.peer sys_peer 1
注意:如果 NTP 運作正常,則結果應為 reach=yes小 condition=sys.peer。
ntpq> rv 3898 associd=3898 status=961a conf, reach, sel_sys.peer, 1 event, sys_peer, srcadr=10.XX.1XX.1X0, srcport=123, dstadr=10.XX.1XX.1X1, dstport=123, leap=00, stratum=12, precision=-6, rootdelay=31.250, rootdisp=64.575, refid=10.62.68.236, reftime=e0d00ab8.2af01902 Wed, Jul 10 2019 6:56:56.167, rec=e0d00c5e.d78d706e Wed, Jul 10 2019 7:03:58.842, reach=377,
如果 覆蓋範圍不是“是”,且條件不是 sys.peer (這意味著時間同步發生問題),請檢查當地時間和 NTP 伺服器時間。如果本地時間大於或小於 1000 秒,ntpd 將不會設置時鐘。時間必須手動設定。
下列狀態顯示異常同步狀態:
vrm:~ # ntpq -c assoc ind assid status conf reach auth condition last_event cnt =========================================================== 1 58280 8011 yes no none reject mobilize 1
可使用 reach=no 表示 NTP 伺服器不回應請求或網路不可用。故障診斷網路和 NTP 伺服器。
案例 1:網路問題:
使用 ping 檢查 NTP 伺服器是否可以連線,然後按照網路故障診斷進行檢查。確認網路問題後,請使用者接洽網路團隊,確認網路問題已修復。
案例 2:錯誤的 NTP IP 或服務問題:
如果 NTP 伺服器可 ping,則可能是使用者輸入錯誤的 NTP IP,或是 NTP 服務發生問題。向使用者確認 NTP IP 位址正確無誤,或者如果使用者有其他 NTP 伺服器,請使用其他 NTP 伺服器,並要求使用者聯絡其管理員團隊檢查。有時伺服器重新開機可以解決問題,因此,如果使用者可以接受,我們可以嘗試該路由。
案例 3:Windows NTP 伺服器:
Windows 時間服務會實作非完整功能的 NTP。如果使用者使用 Windows Server 作為 NTP 伺服器,則 rootdisp 可能高於 1000。在這種情況下,請設定 Windows NTP 伺服器,以同步可靠的外部 NTP 伺服器。
如果 reach=yes卻 condition=reject用 ntpq 含 assoc 和 rv 若要檢查 flash code小 dispersion和 rootdisp。
vrm:~ # ntpq -c assoc ind assid status conf reach auth condition last_event cnt =========================================================== 1 3898 9014 yes yes none reject reachable 1
注意:可使用 assoc 選項可以顯示 assid 這是需要的 rv 㱖。
使用 rv 命令以取得 flash code小 dispersion和 rootdisp。
執行 ntpq 命令以輸入 ntpq 外殼,然後使用 rv assid 以獲取詳細資訊。
ntpq ntpq> rv 3898 associd=3898 status=9014 conf, reach, sel_reject, 1 event, reachable, srcadr=10.XX.1XX.1X0, srcport=123, dstadr=10.XX.1XX.1X1, dstport=123, leap=00, stratum=12, precision=-6, rootdelay=31.250, rootdisp=1814.209, refid=10.XX.XX.2X6, reftime=e0cff348.12fb407d Wed, Jul 10 2019 5:16:56.074, rec=e0cff42b.60680b73 Wed, Jul 10 2019 5:20:43.376, reach=377, unreach=0, hmode=3, pmode=4, hpoll=6, ppoll=6, headway=50, flash=400 peer_dist, keyid=0, offset=-2536.264, delay=0.354, dispersion=16.515, jitter=4.414, xleave=0.038, filtdelay= 0.35 0.29 0.32 0.26 0.28 3.22 0.28 0.35, filtoffset= -2536.2 -2538.2 -2529.4 -2536.2 -2541.6 -2530.0 -2532.5 -2538.1, filtdisp= 15.63 16.63 17.59 18.55 19.53 20.53 21.52 22.50 flash=400 peer_dist #reject reason dispersion=16.515 #it presents the error/variance between that NTP server and client rootdisp=1814.209 #it presents the total amount of error/variance from the root NTP server to client
flash=400 peer_dist 表示與根 NTP 伺服器的距離太長。不適合同步。
從以下連結尋找有關閃爍代碼的更多資訊:
https://www.eecis.udel.edu/~mills/ntp/html/decode.html#flash概 dispersion 高於 1000 則視為不適合的 NTP 伺服器。如果 Windows NTP 伺服器設定為與自身同步時間,或參數未正確設定,則 rootdisp 高於 1000,且必須修正 Windows Server 中的 NTP 組態。
請參閱下列 Microsoft KB 文章,以設定 Windows 時間伺服器。
https://support.microsoft.com/en-us/help/816042/how-to-configure-an-authoritative-time-server-in-windows-server便條:變 MaxPosPhaseCorrection小 MaxNegPhaseCorrection 和 SpecialPollInterval 到 300 秒
場景 4:NTP 伺服器和外部 NTP 伺服器之間的網路不穩定:
按照網路排查檢查網路,可以使用ping來檢查是否存在高延遲。