PowerScale:OneFS:當 AD 網域顯示「離線」時,用戶端無法驗證或連線至節點
Summary: 離線 Active Directory 提供者會影響使用它進行身份驗證的任何用戶端,無論協定如何。當 AD 顯示離線時,解決叢集節點認證問題的故障診斷步驟如下。
Symptoms
用戶端無法驗證叢集中的部分或所有節點,導致間歇性或完全的資料不可用性 (DU)。如果使用者依賴於離線 AD 提供程式,則通過任何協定的訪問都會受到影響,儘管我們看到的最常見的是 SMB。有許多情況可能會導致這種情況,無論是在整個叢集範圍,或是在特定節點的基礎上。當本地安全機構子系統服務 (LSASS) 失去與域控制器的連接時,SMB 用戶端無法連接到群集中的節點。
當 LSASS 失去與網域控制站的連線時, /var/log/lsassd.log 檔案中會出現類似以下的錯誤:
2012-06-11T12:58:42-07:00 <30.6> cluster1-13(id13) lsassd[66251]: 0x28f016a0:Domain 'domain.com' is now online
2012-06-11T13:03:57-07:00 <30.6> cluster1-13(id13) lsassd[66251]: 0x28f016a0:Domain 'domain.com' is now offline
2012-06-12T21:05:03-07:00 <30.6> cluster1-13(id13) lsassd[66251]: 0x28f016a0:Domain 'domain.com' is now online
2012-06-13T16:35:03-07:00 <30.6> cluster1-13(id13) lsassd[66251]: 0x28f016a0:Domain 'domain.com' is now offline
2012-06-13T16:40:03-07:00 <30.6> cluster1-13(id13) lsassd[66251]: 0x28f016a0:Domain 'domain.com' is now online
或者,如果以 isi auth 狀態檢閱 Active Directory 的狀態,可能會出現類似的輸出:
testcluster-1# isi auth status
ID Active Server Status
-----------------------------------------------------------------------
lsa-activedirectory-provider:TESTDOMAIN.COM dc1.testdomain.com offline
lsa-local-provider:System - active
lsa-file-provider:System - active
-----------------------------------------------------------------------
Total: 3
使用與現有叢集相同的機器帳戶,將不同的叢集新增至相同的 AD 網域:
如果新集群最近加入了同一域,請驗證新集群是否未使用與原始集群相同的計算機帳戶。在新叢集上執行下列命令 (並顯示網域線上),以驗證主機名稱和機器帳戶:
# isi auth ads view <domain>
(Relevant output)
Hostname: isitest.example.lab.com
<snipped>
Machine Account: ISITEST$
從 AD 刪除的電腦帳戶密碼/帳戶:
如果叢集已加入 Active Directory,但現在並未顯示任何 isi auth 狀態 ( lsa-activedirectory 未顯示任何內容),請檢查是否已在 Active Directory 端刪除機器帳戶。叢集可以重新加入網域,以在 Active Directory 中建立新的機器帳戶並還原驗證。
DNS 拒絕 SRV 查詢。如果發生這種情況,請驗證 DNS 是否配置為接受來自相關節點 IP 的查詢。
dig @<DNS IP> SRV _ldap._tcp.dc._msdcs.domain.com
; <<>> DiG 9.10.0-P2 <<>> @<DNS IP> SRV _ldap._tcp.dc._msdcs.<domain>
; (1 server found)
;; global options: +cmd
;; Got answer:
;; ->>HEADER<<- opcode: QUERY, status: REFUSED, id: 52396
;; flags: qr rd ra; QUERY: 1, ANSWER: 0, AUTHORITY: 0, ADDITIONAL: 1
;; OPT PSEUDOSECTION:
; EDNS: version: 0, flags:; udp: 4096
;; QUESTION SECTION:
;_ldap._tcp.dc._msdcs.<domain>. IN SRV
;; Query time: 0 msec
;; SERVER: <IP>#53(<IP>)
;; WHEN: <date>
;; MSG SIZE rcvd: 59
Cause
由於硬體問題、連接問題或 DNS 快取中毒,本地安全機構子系統服務 (LSASS)
可能會失去與連接的域控制器的連接。或者,也可能發生這種情況,因為某個節點已新增至叢集,但該節點沒有網路連線能力。如果域控制器因任何原因不可用,則在重新啟動節點或重新啟動 LSASS 時,某些域資訊可能保持未填充。通常,主域的域 GUID 保持未填充狀態。這會導致連接到該節點的使用者無法完成身份驗證。
Resolution
因應措施 1 - 調查硬體連線問題:
- 在 /var/log/messages 檔案中尋找硬體連線問題。日誌檔中的消息指示節點網路埠是否處於「Up」狀態。查看叢集其他節點上的 /var/log/messages 檔案,判斷網路連線問題是否發生在叢集範圍。
- 查看域控制器中的系統和應用程式事件日誌。這些紀錄檔可能包含與網路連線中斷相關的驅動程式或硬體問題相關錯誤。
因應措施 2 - 調查 DNS 快取中毒:
如果網路連接問題與硬體無關,則應檢查 Active Directory 域的_mscds DNS 區域的服務 (SRV) 記錄。從群集到 DNS 伺服器的 DNS 請求的數據包跟蹤顯示不正確或缺失的資訊。如果在 SRV 記錄中註冊了不正確的資訊,或者如果域控制器 沒有 _mscds DNS 區域中的所有記錄,則群集中的節點在嘗試聯繫域控制器時會報告域處於離線狀態。使用目前資訊更新 SRV 記錄或變更為不同的 DNS 伺服器應可解決 DNS 快取中毒問題。
例 1
此資料包跟蹤顯示返回到群集中節點的 DNS 伺服器和 SRV 記錄的清單。SRV 記錄資訊無法 dc2.domain.com 使用。
不。時間源目標協定長度資訊
5 16:40:19.061003 1.1.1.1 1.1.2 DNS 110 標準查詢 SRV _ldap._tcp.dc._msdcs.domain.com
6 16:40:19.062626 1.1.1.2 1.1.1.1 DNS 1270 標準查詢回應 SRV 0 100 389 dc1.domain.com SRV 0 100 389 dc2.domain.com SRV 0 100 389 SRV 0 100 389 dc3.domain.com
7 16:40:19.063146 1.1.1.1 1.1.2 DNS 87 標準查詢 A dc2.domain.com
8 16:40:20.797403 1.1.1.2 1.1.1.1 DNS 146 標準查詢回應, 沒有此類名稱
例 2
在此數據包跟蹤中,節點查找 SRV 記錄以查找 _ldap._tcp.dc._msdcs.domain.com,但不會向用戶端返回任何資訊。
不。時間源目標協定長度資訊
15 16:40:21.458636 1.1.1.1 1.1.1.2 DNS 100 標準查詢 SRV _ldap._tcp.dc._msdcs.domain.com
16 16:40:21.783630 1.1.1.2 1.1.1.1 DNS 100 標準查詢回應, 沒有此類名稱
在這種情況下,請與您的網路和 Active Directory 團隊合作,確保 DNS SRV 記錄準確無誤,並解析至網域控制站。
因應措施 3 - 重新整理 LSASS:
- 開啟與節點的 SSH 連線,並使用「root」帳戶登入。
- 確認認證精靈未連線到 AD,其中 <nodeID> 是最近新增節點的節點編號:
isi_for_array -n <nodeID> 'isi auth ads list'
如果節點已加入網域,則會顯示類似以下內容的輸出:
cluster-1: Name Authentication Status DC Name Site
cluster-1: --------------------------------------------------------------------
cluster-1: LAB.EXAMPLE.COM Yes online - Default-First-Site-Name
cluster-1: --------------------------------------------------------------------
cluster-1: Total: 1
- 確認未填入網域 GUID。如果 lsass 未正確擷取其組態,則不會填入網域 GUID 值:
isi_for_array -n <nodeID> /usr/likewise/bin/lw-lsa get-status | egrep -A 12 "Domain:" | egrep "Domain (SID|GUID)"
將顯示類似於以下內容的輸出:
cluster-1: Domain SID: S-1-5-21-584721463-3180705917-972194821
cluster-1: Domain SID: S-1-5-21-584721463-3180705917-972194821
cluster-1: Domain GUID:
- 在新新增的節點上執行下列命令:
isi_for_array -n < node_range> /usr/likewise/bin/lwsm refresh lsass
- 驗證新節點是否報告它已連接到 AD 提供程式。
isi_for_array -n < node_range> 'isi auth ads list -v'
- 確定顯示 GUID 值:
isi_for_array -n <node_range> /usr/likewise/bin/lw-lsa get-status | egrep -A 12 "Domain:" | egrep "Domain (SID|GUID)"
將顯示類似於以下內容的輸出:
cluster-1: Domain SID: S-1-5-21-584721463-3180705917-972194821
cluster-1: Domain SID: S-1-5-21-584721463-3180705917-972194821
cluster-1: Domain GUID: 61b2a8c6-af25-1941-8d57-59073b7ceb19
- 在 Windows 用戶端上,透過對應磁碟機,指定新增節點的 IP 位址,確認使用者是否可以驗證至叢集。
因應措施 4 - 重新啟動 LSASS:
1.開啟與最近新增節點的 SSH 連線,然後使用「root」帳戶登入。
2.列出可用的網域控制站,其中 <domain_name> 是叢集加入的網域的完整網域名稱 (FQDN):isi auth ads trusts controllers list --provider=<domain_name> -v
3.強制連線至網域控制站,其中 <domain_name> 是叢集加入網域的 FQDN,dc_name<>是網域控制站的 FQDN:isi auth ads modify <domain_name> --domain-controller <dc_name> --v
4.重新整理 AD 狀態:isi_classic auth ads status --refresh --all
狀態應變更為線上,如下所示:
Active Directory Services Status:
Mode: unprovisioned
Status: online
Primary Domain: LAB.EXAMPLE.COM
NetBios Domain: LAB
Domain Controller: dc1.lab.example.com
Hostname: cluster.lab.example.com
Machine Account: CLUSTER$
5.如果狀態仍顯示為離線,請重新啟動身份驗證守護程式(請注意,這會中斷對節點的身份驗證長達一分鐘。 Single node:
pkill -f 'lw-container lsass'
Multiple nodes (nodes 1-3 here as an example):
isi_for_array -n1-3 'pkill -f "lw-container\ lsass"'
6.重複步驟 4。
7.在 Windows 用戶端上,請確認使用者可以對應磁碟機,並指定 LSASS 重新開機的節點 IP 位址,以驗證使用者是否可以驗證至叢集。
Additional Information
網域連線能力問題的故障診斷注意事項:
如果您離開並重新加入網域,請確認重新加入後,Active Directory 提供者會出現在相關區域的驗證提供者清單中。
對於此 example.com 域,必須重新添加它,因為它已從「身份驗證提供者」部分中刪除:
isi zone zones list -v:
Name: accesszonedev1
Path: /ifs/accesszone1
Groupnet: groupnet0
Map Untrusted: -
Auth Providers: lsa-ldap-provider:Primary, lsa-file-provider:System, lsa-local-provider:accesszone1 **No Active Directory Provider** <<<<<<<<<<<<<
NetBIOS Name: -
User Mapping Rules:
Home Directory Umask: 0077
Skeleton Directory: /usr/share/skel
Cache Entry Expiry: 4H
Negative Cache Entry Expiry: 1m
Zone ID: 2
WebUI 可能是將其添加回來並確保按所需順序搜索的最簡單方法。請參閱根據您的 OneFS 版本適用的管理指南。PowerScale OneFS 資訊中心