ECS:OBS: xDoctor:RAP099:xDoctor 未在所有節點上統一
Summary: 本知識文章說明為何報告XDR_OBS_099原因是 xDoctor 在所有節點上都不統一。
Symptoms
xDoctor 是一種支援和診斷工具,旨在識別並幫助解決可能對 ECS 和 OBS 系統產生負面影響的已知配置、軟體和硬體問題。重要功能包括:
- 故障診斷:協助支援團隊和客戶識別 ECS 和 OBS 問題的根本原因。
- 主動式監控:偵測問題的早期跡象
- 支援參與:某些動作和解決方案需要 Dell 的支持參與。
xDoctor 回報以下錯誤:
------------------------------------------------------
ERROR - xDoctor not uniform across all nodes
------------------------------------------------------
Extra = Not allowed to use the SYSTEM scope, use LOCAL scope instead or reinstall xDoctor -> xdr_versions={'4.8-85.0': ['169.254.1.3'], '4.8-100.1': ['169.254.1.4', '169.254.1.2', '169.254.1.1']}
RAP = RAP099
Solution = KB 91703
Timestamp = 2025-10-09_120102
PSNT = CKM00000000000 @ 4.8-100.1
因此,ECS 診斷僅限於本機範圍。這意味著只能測試一小部分癥狀檢測器,並且並非所有遙測報告都可以收集併發回家。
若要確認 xDoctor 版本是否統一, SSH 到節點進行驗證,如下所示:
# sudo xdoctor -s xDoctor not uniform across all nodes ... Trying xDoctor Resync ... Resync failed: No xDoctor package found for re-installation [4.8-85.0] -> ['169.254.1.3'] [4.8-100.1] -> ['169.254.1.4', '169.254.1.2', '169.254.1.1']
在上述範例中,節點 3 執行 xDoctor 4.8-85.0,而節點 1、2 和 4 執行 xDoctor 4.8-100.1。
Cause
- 節點在 xDoctor 更新期間重新安裝或處於離線狀態。
- 更換節點後,新節點 xDoctor 版本與其他節點不一致。
- 使用具有舊版 xDoctor 的新節點進行容量擴充
Resolution
強烈建議解決此問題,因為這會導致安裝基礎的拓撲檢視不完整,並且不知道已知的症狀。
雖然同步節點是解決方案,但最好的建議是將所有節點上的 xDoctor 升級到啟用了所有症狀偵測器和自動修復程式的最新版本。在後來的 xDoctor 版本中引入了自動修復程式。
請注意,下載 xDoctor 套件時,這取決於您在 ECS 和 OBS 中的代碼版本,並請記下以下檔案格式:
- ECS (3.8 及以下版本):xDoctor 套件從 4.x 開始。(範例:4.8-105.0) - ECS 產品支援網頁 (需要登入才能下載套件)
- OBS (3.9 及以上版本):xDoctor 套件從 5.x 開始 (例如:5.1-105.0) - OBS產品支援網頁(需要登錄才能下載套件)
|
若要將 xDoctor 升級至最新版本,請依照 KB ECS 中的步驟 操作:OBS: xDoctor:手動升級程序:
請參閱「其他資訊」一節中的範例 1,以將 xDoctor 升級至最新版本。 |
|
如果將 xDoctor 更新至最新版本有任何限制,我們可以在本機系統上同步最新版本。請按照 KB ECS 中的步驟操作:OBS: xDoctor:手動升級程序:
請參閱「其他資訊」一節中的範例 2,使所有節點 xDoctor 與最新版本保持一致。 |
xDoctor 升級至最新版本後,請確認機架中所有節點的 xDoctor 版本皆一致:
# sudo xdoctor -s xDoctor Uniform on all nodes: 4.8-105.0.
如果在執行上述步驟時需要任何協助,請參考本 KB 文章,聯絡 Dell 技術支援 部門。
Additional Information
以下是根據解決方案區段提供的範例:
範例 1 - 將 xDoctor 升級至最新版本
確認所有節點上的 xDoctor 不統一的症狀 - 以下節點 1-5 位於 xDoctor 4.8-102.0,而節點 6-10 則位於 4.8-95.0:
# sudo xdoctor -s xDoctor not uniform across all nodes ... Trying xDoctor Resync ... Resync failed: No xDoctor package found for re-installation [4.8-102.0] -> ['169.254.2.1', '169.254.2.2', '169.254.2.3', '169.254.2.4', '169.254.2.5'] [4.8-95.0] -> ['169.254.2.10', '169.254.2.11', '169.254.2.8', '169.254.2.9', '169.254.2.6', '169.254.2.7']
在節點 1 上上傳最新版本的 xDoctor 至 /home/admin,確認其存在:
# ls -l /home/admin | grep xDoctor -rw-r--r-- 1 admin users 43793804 Apr 14 08:21 xDoctor4ECS-4.8-102.0.noarch.rpm -rw-r--r-- 1 root root 121382804 Oct 9 11:34 xDoctor4ECS-4.8-105.0.noarch.rpm
將 xDoctor 升級至最新版本,並啟用所有自動修復程式:
# sudo xdoctor --upgrade --local=/home/admin/xDoctor4ECS-4.8-105.0.noarch.rpm
This new xDoctor RPM has the following Auto Healers:
┌──────────────┐
│ Auto Healers │
└───┬──────────┘
│
│ time_zone = Enabled
│ pmon_crontab_check = Disabled
│ pmon_swapiness_check = Disabled
│ rsyslogd_check = Disabled
│ task_md_cleanup_status = Disabled
│ ntpd_not_running (New) = Disabled
│ cron_not_running (New) = Disabled
│ machines_file_error (New) = Disabled
│ non_uniform_psnt (New) = Disabled
│ racadm_stale_pid (New) = Disabled
│ obj_control_svc_check (New) = Disabled
In order to have them active, they need to be enabled ...
You can do this during this upgrade or later post upgrade via `xdoctor --config`
Would you like to enable (A)ll, only the (N)ew ones or (I)gnore them [I]: A
2025-10-09 11:36:15,663: xDoctor_4.8-102.0 - INFO : User selected to enable all Auto Healers ...
2025-10-09 11:36:15,663: xDoctor_4.8-102.0 - INFO : Local Upgrade (/home/admin/xDoctor4ECS-4.8-105.0.noarch.rpm)
2025-10-09 11:36:15,696: xDoctor_4.8-102.0 - INFO : Current Installed xDoctor version is 4.8-102.0
2025-10-09 11:36:15,712: xDoctor_4.8-102.0 - INFO : Requested package version is 4.8-105.0
2025-10-09 11:36:15,713: xDoctor_4.8-102.0 - INFO : Updating xDoctor RPM Package (RPM)
2025-10-09 11:36:15,935: xDoctor_4.8-102.0 - INFO : - Distribute package
2025-10-09 11:36:17,402: xDoctor_4.8-102.0 - INFO : - Install new rpm package
2025-10-09 11:36:33,562: xDoctor_4.8-102.0 - INFO : Enabling Auto Healer: pmon_crontab_check ...
2025-10-09 11:36:33,563: xDoctor_4.8-102.0 - INFO : Enabling Auto Healer: pmon_swapiness_check ...
2025-10-09 11:36:33,563: xDoctor_4.8-102.0 - INFO : Enabling Auto Healer: rsyslogd_check ...
2025-10-09 11:36:33,563: xDoctor_4.8-102.0 - INFO : Enabling Auto Healer: task_md_cleanup_status ...
2025-10-09 11:36:33,563: xDoctor_4.8-102.0 - INFO : Enabling Auto Healer: ntpd_not_running ...
2025-10-09 11:36:33,563: xDoctor_4.8-102.0 - INFO : Enabling Auto Healer: cron_not_running ...
2025-10-09 11:36:33,563: xDoctor_4.8-102.0 - INFO : Enabling Auto Healer: machines_file_error ...
2025-10-09 11:36:33,563: xDoctor_4.8-102.0 - INFO : Enabling Auto Healer: non_uniform_psnt ...
2025-10-09 11:36:33,563: xDoctor_4.8-102.0 - INFO : Enabling Auto Healer: racadm_stale_pid ...
2025-10-09 11:36:33,563: xDoctor_4.8-102.0 - INFO : Enabling Auto Healer: obj_control_svc_check ...
2025-10-09 11:36:33,828: xDoctor_4.8-102.0 - INFO : Auto Healer Settings saved and distributed ...
┌──────────────────────┐
│ Updated Auto Healers │
└───┬──────────────────┘
│
│ time_zone = Enabled
│ pmon_crontab_check = Enabled
│ pmon_swapiness_check = Enabled
│ rsyslogd_check = Enabled
│ task_md_cleanup_status = Enabled
│ ntpd_not_running (New) = Enabled
│ cron_not_running (New) = Enabled
│ machines_file_error (New) = Enabled
│ non_uniform_psnt (New) = Enabled
│ racadm_stale_pid (New) = Enabled
│ obj_control_svc_check (New) = Enabled
2025-10-09 11:36:33,829: xDoctor_4.8-102.0 - INFO : xDoctor successfully updated to version 4.8-105.0
確認 xDoctor 現在在所有節點上皆統一:
# sudo xdoctor -s xDoctor Uniform on all nodes: 4.8-105.0
範例 2 - 使所有節點 xDoctor 與本機系統上的最後一個版本一致。
確認所有節點上的 xDoctor 不統一的症狀 - 以下節點 1、2 和 4 位於 xDoctor 4.8-100.1,而節點 3 則位於 4.8-85.0:
# sudo xdoctor -s xDoctor not uniform across all nodes ... Trying xDoctor Resync ... Resync failed: No xDoctor package found for re-installation [4.8-85.0] -> ['169.254.1.3'] [4.8-100.1] -> ['169.254.1.4', '169.254.1.2', '169.254.1.1']
在節點 1 (最好)、2 或 4 上,確認 xDoctor 4.8-100.1 套件存在於 /home/admin:
# ls -l /home/admin | grep xDoctor -rw-r--r-- 1 admin users 43793804 Mar 4 08:21 xDoctor4ECS-4.8-99.0.noarch.rpm -rw-r--r-- 1 root root 121382804 Sep 2 11:34 xDoctor4ECS-4.8-100.1.noarch.rpm
重新安裝 xDoctor 套裝:
sudo xdoctor --upgrade --local=/home/admin/xDoctor4ECS-4.8-100.1.noarch.rpm --reinstall 2025-10-09 12:24:19,996: xDoctor_4.8-100.1 - INFO : Local Upgrade (/home/admin/xDoctor4ECS-4.8-100.1.noarch.rpm) 2025-10-09 12:24:20,029: xDoctor_4.8-100.1 - INFO : Current Installed xDoctor version is 4.8-100.1 2025-10-09 12:24:20,046: xDoctor_4.8-100.1 - INFO : Requested package version is 4.8-100.1 2025-10-09 12:24:20,046: xDoctor_4.8-100.1 - WARNING : (Re)installing requested xDoctor package ... 2025-10-09 12:24:20,046: xDoctor_4.8-100.1 - INFO : Updating xDoctor RPM Package (RPM) 2025-10-09 12:24:20,176: xDoctor_4.8-100.1 - INFO : - Distribute package 2025-10-09 12:24:21,745: xDoctor_4.8-100.1 - INFO : - Install new rpm package 2025-10-09 12:24:37,095: xDoctor_4.8-100.1 - INFO : xDoctor successfully updated to version 4.8-100.1
確認 xDoctor 現在在所有節點上皆統一:
sudo -i xdoctor -s xDoctor Uniform on all nodes: 4.8-100.1