PowerScale:OneFS:當 AD 網域顯示「離線」時,用戶端無法驗證或連線至節點

Summary: 離線 Active Directory 提供者會影響使用它進行身份驗證的任何用戶端,無論協定如何。當 AD 顯示離線時,解決叢集節點認證問題的故障診斷步驟如下。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms



用戶端無法驗證叢集中的部分或所有節點,導致間歇性或完全的資料不可用性 (DU)。如果使用者依賴於離線 AD 提供程式,則通過任何協定的訪問都會受到影響,儘管我們看到的最常見的是 SMB。有許多情況可能會導致這種情況,無論是在整個叢集範圍,或是在特定節點的基礎上。當本地安全機構子系統服務 (LSASS)此超連結會帶您前往 Dell Technologies 以外的網站。 失去與域控制器的連接時,SMB 用戶端無法連接到群集中的節點。

當 LSASS 失去與網域控制站的連線時, /var/log/lsassd.log 檔案中會出現類似以下的錯誤:

2012-06-11T12:58:42-07:00 <30.6> cluster1-13(id13) lsassd[66251]: 0x28f016a0:Domain 'domain.com' is now online
2012-06-11T13:03:57-07:00 <30.6> cluster1-13(id13) lsassd[66251]: 0x28f016a0:Domain 'domain.com' is now offline
2012-06-12T21:05:03-07:00 <30.6> cluster1-13(id13) lsassd[66251]: 0x28f016a0:Domain 'domain.com' is now online
2012-06-13T16:35:03-07:00 <30.6> cluster1-13(id13) lsassd[66251]: 0x28f016a0:Domain 'domain.com' is now offline
2012-06-13T16:40:03-07:00 <30.6> cluster1-13(id13) lsassd[66251]: 0x28f016a0:Domain 'domain.com' is now online

 

或者,如果以 isi auth 狀態檢閱 Active Directory 的狀態,可能會出現類似的輸出:

testcluster-1# isi auth status
ID                                           Active Server      Status
-----------------------------------------------------------------------
lsa-activedirectory-provider:TESTDOMAIN.COM dc1.testdomain.com offline
lsa-local-provider:System                    -                  active
lsa-file-provider:System                     -                  active
-----------------------------------------------------------------------
Total: 3
 
 
 
下面是導致離線 AD 提供程式的一些常見情況範例,以及如何識別和解決的步驟。
 

使用與現有叢集相同的機器帳戶,將不同的叢集新增至相同的 AD 網域:
如果新集群最近加入了同一域,請驗證新集群是否未使用與原始集群相同的計算機帳戶。在新叢集上執行下列命令 (並顯示網域線上),以驗證主機名稱和機器帳戶:
 
# isi auth ads view <domain>

(Relevant output)
Hostname: isitest.example.lab.com
<snipped>
Machine Account: ISITEST$

 
如果新集群使用原始集群的計算機帳戶(兩者都使用 ISITEST 且具有相同的主機名),請從新集群中保留域,然後從舊集群重新加入域。然後重新加入新群集,確保未指定相同的計算機帳戶名稱。如果有問題,請聯絡支援部門。
 

從 AD 刪除的電腦帳戶密碼/帳戶:
如果叢集已加入 Active Directory,但現在並未顯示任何 isi auth 狀態 ( lsa-activedirectory 未顯示任何內容),請檢查是否已在 Active Directory 端刪除機器帳戶。叢集可以重新加入網域,以在 Active Directory 中建立新的機器帳戶並還原驗證。
 

DNS 拒絕 SRV 查詢。如果發生這種情況,請驗證 DNS 是否配置為接受來自相關節點 IP 的查詢。
dig @<DNS IP> SRV _ldap._tcp.dc._msdcs.domain.com

; <<>> DiG 9.10.0-P2 <<>> @<DNS IP> SRV _ldap._tcp.dc._msdcs.<domain>
; (1 server found)
;; global options: +cmd
;; Got answer:
;; ->>HEADER<<- opcode: QUERY, status: REFUSED, id: 52396
;; flags: qr rd ra; QUERY: 1, ANSWER: 0, AUTHORITY: 0, ADDITIONAL: 1

;; OPT PSEUDOSECTION:
; EDNS: version: 0, flags:; udp: 4096
;; QUESTION SECTION:
;_ldap._tcp.dc._msdcs.<domain>. IN SRV

;; Query time: 0 msec
;; SERVER: <IP>#53(<IP>)
;; WHEN: <date>
;; MSG SIZE rcvd: 59
 

 

Cause

由於硬體問題、連接問題或 DNS 快取中毒此超連結會帶您前往 Dell Technologies 以外的網站。本地安全機構子系統服務 (LSASS)此超連結會帶您前往 Dell Technologies 以外的網站。 可能會失去與連接的域控制器的連接。或者,也可能發生這種情況,因為某個節點已新增至叢集,但該節點沒有網路連線能力。如果域控制器因任何原因不可用,則在重新啟動節點或重新啟動 LSASS 時,某些域資訊可能保持未填充。通常,主域的域 GUID 保持未填充狀態。這會導致連接到該節點的使用者無法完成身份驗證。

Resolution

因應措施 1 - 調查硬體連線問題:

  • 在 /var/log/messages 檔案中尋找硬體連線問題。日誌檔中的消息指示節點網路埠是否處於「Up」狀態。查看叢集其他節點上的 /var/log/messages 檔案,判斷網路連線問題是否發生在叢集範圍。
  • 查看域控制器中的系統和應用程式事件日誌。這些紀錄檔可能包含與網路連線中斷相關的驅動程式或硬體問題相關錯誤。


因應措施 2 - 調查 DNS 快取中毒:

如果網路連接問題與硬體無關,則應檢查 Active Directory 域的_mscds DNS 區域的服務 (SRV) 記錄。從群集到 DNS 伺服器的 DNS 請求的數據包跟蹤顯示不正確或缺失的資訊。如果在 SRV 記錄中註冊了不正確的資訊,或者如果域控制器 沒有 _mscds DNS 區域中的所有記錄,則群集中的節點在嘗試聯繫域控制器時會報告域處於離線狀態。使用目前資訊更新 SRV 記錄或變更為不同的 DNS 伺服器應可解決 DNS 快取中毒問題。

例 1

此資料包跟蹤顯示返回到群集中節點的 DNS 伺服器和 SRV 記錄的清單。SRV 記錄資訊無法 dc2.domain.com 使用。

不。時間源目標協定長度資訊
5 16:40:19.061003 1.1.1.1 1.1.2 DNS 110 標準查詢 SRV _ldap._tcp.dc._msdcs.domain.com
6 16:40:19.062626 1.1.1.2 1.1.1.1 DNS 1270 標準查詢回應 SRV 0 100 389 dc1.domain.com SRV 0 100 389 dc2.domain.com SRV 0 100 389 SRV 0 100 389 dc3.domain.com
7 16:40:19.063146 1.1.1.1 1.1.2 DNS 87 標準查詢 A dc2.domain.com
8 16:40:20.797403 1.1.1.2 1.1.1.1 DNS 146 標準查詢回應, 沒有此類名稱
例 2

在此數據包跟蹤中,節點查找 SRV 記錄以查找 _ldap._tcp.dc._msdcs.domain.com,但不會向用戶端返回任何資訊。

不。時間源目標協定長度資訊
15 16:40:21.458636 1.1.1.1 1.1.1.2 DNS 100 標準查詢 SRV _ldap._tcp.dc._msdcs.domain.com
16 16:40:21.783630 1.1.1.2 1.1.1.1 DNS 100 標準查詢回應, 沒有此類名稱


在這種情況下,請與您的網路和 Active Directory 團隊合作,確保 DNS SRV 記錄準確無誤,並解析至網域控制站。

因應措施 3 - 重新整理 LSASS:

  1. 開啟與節點的 SSH 連線,並使用「root」帳戶登入。
  2.  確認認證精靈未連線到 AD,其中 <nodeID> 是最近新增節點的節點編號:

    isi_for_array -n <nodeID> 'isi auth ads list'

    如果節點已加入網域,則會顯示類似以下內容的輸出:
     
    cluster-1: Name            Authentication Status DC Name Site
    cluster-1: --------------------------------------------------------------------
    cluster-1: LAB.EXAMPLE.COM Yes            online -       Default-First-Site-Name
    cluster-1: --------------------------------------------------------------------
    cluster-1: Total: 1

     
  3.  確認未填入網域 GUID。如果 lsass 未正確擷取其組態,則不會填入網域 GUID 值:

    isi_for_array -n <nodeID> /usr/likewise/bin/lw-lsa get-status | egrep -A 12 "Domain:" | egrep "Domain (SID|GUID)"

    將顯示類似於以下內容的輸出:
     
    cluster-1:   Domain SID: S-1-5-21-584721463-3180705917-972194821
    cluster-1:   Domain SID: S-1-5-21-584721463-3180705917-972194821
    cluster-1:   Domain GUID:

     
  4. 在新新增的節點上執行下列命令:

    isi_for_array -n < node_range> /usr/likewise/bin/lwsm refresh lsass
     
  5. 驗證新節點是否報告它已連接到 AD 提供程式。

    isi_for_array -n < node_range> 'isi auth ads list -v'
     
  6.  確定顯示 GUID 值:

    isi_for_array -n <node_range> /usr/likewise/bin/lw-lsa get-status | egrep -A 12 "Domain:" | egrep "Domain (SID|GUID)"

    將顯示類似於以下內容的輸出:
     
    cluster-1:   Domain SID: S-1-5-21-584721463-3180705917-972194821
    cluster-1:   Domain SID: S-1-5-21-584721463-3180705917-972194821
    cluster-1:   Domain GUID: 61b2a8c6-af25-1941-8d57-59073b7ceb19

     
  7. 在 Windows 用戶端上,透過對應磁碟機,指定新增節點的 IP 位址,確認使用者是否可以驗證至叢集。

因應措施 4 - 重新啟動 LSASS:

1.開啟與最近新增節點的 SSH 連線,然後使用「root」帳戶登入。
2.列出可用的網域控制站,其中 <domain_name> 是叢集加入的網域的完整網域名稱 (FQDN):

isi auth ads trusts controllers list --provider=<domain_name> -v

3.強制連線至網域控制站,其中 <domain_name> 是叢集加入網域的 FQDN,dc_name<>是網域控制站的 FQDN:

isi auth ads modify <domain_name> --domain-controller <dc_name> --v

4.重新整理 AD 狀態:

isi_classic auth ads status --refresh --all

狀態應變更為線上,如下所示:
 

Active Directory Services Status:
Mode:                unprovisioned
Status:              online
Primary Domain:      LAB.EXAMPLE.COM
NetBios Domain:      LAB
Domain Controller:   dc1.lab.example.com
Hostname:            cluster.lab.example.com
Machine Account:     CLUSTER$

 

5.如果狀態仍顯示為離線,請重新啟動身份驗證守護程式(請注意,這會中斷對節點的身份驗證長達一分鐘。 

Single node:
pkill -f 'lw-container lsass'
Multiple nodes (nodes 1-3 here as an example):
isi_for_array -n1-3 'pkill -f "lw-container\ lsass"'


6.重複步驟 4。
7.在 Windows 用戶端上,請確認使用者可以對應磁碟機,並指定 LSASS 重新開機的節點 IP 位址,以驗證使用者是否可以驗證至叢集。

Additional Information

網域連線能力問題的故障診斷注意事項:
如果您離開並重新加入網域,請確認重新加入後,Active Directory 提供者會出現在相關區域的驗證提供者清單中。

對於此 example.com 域,必須重新添加它,因為它已從「身份驗證提供者」部分中刪除:

isi zone zones list -v:

                       Name: accesszonedev1
                       Path: /ifs/accesszone1
                   Groupnet: groupnet0
              Map Untrusted: -
             Auth Providers:  lsa-ldap-provider:Primary, lsa-file-provider:System, lsa-local-provider:accesszone1 **No Active Directory Provider** <<<<<<<<<<<<<
               NetBIOS Name: -
         User Mapping Rules:
       Home Directory Umask: 0077
         Skeleton Directory: /usr/share/skel
         Cache Entry Expiry: 4H
Negative Cache Entry Expiry: 1m
                    Zone ID: 2


WebUI 可能是將其添加回來並確保按所需順序搜索的最簡單方法。請參閱根據您的 OneFS 版本適用的管理指南。PowerScale OneFS 資訊中心

Affected Products

Isilon, PowerScale OneFS
Article Properties
Article Number: 000055836
Article Type: Solution
Last Modified: 16 Oct 2024
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.