PowerScale: OneFS: Clients können sich nicht authentifizieren oder eine Verbindung zu Nodes herstellen, wenn die AD-Domain als "Offline" angezeigt wird
Summary: Ein Active Directory-Offlineanbieter wirkt sich unabhängig vom Protokoll auf jeden Client aus, der ihn für die Authentifizierung verwendet. Schritte zur Fehlerbehebung zum Auflösen der Authentifizierung auf Cluster-Nodes, wenn AD als offline angezeigt wird, sind unten aufgeführt. ...
Symptoms
Clients können sich nicht bei einigen oder allen Nodes im Cluster authentifizieren, was zu zeitweiliger oder vollständiger Nichtverfügbarkeit von Daten (DU) führt. Der Zugriff über ein beliebiges Protokoll wird beeinträchtigt, wenn der Benutzer auf einen Offline-AD-Anbieter angewiesen ist, obwohl der häufigste SMB-Anbieter ist. Es gibt viele Umstände, die potenziell zu diesem Szenario führen können, entweder clusterweit oder auf Node-spezifischer Basis. SMB-Clients können keine Verbindung zu Nodes im Cluster herstellen, wenn der Local Security Authority Subsystem Service (LSASS) die Verbindung mit dem Domain Controller verliert.
Wenn LSASS die Verbindung mit dem Domain Controller verliert, werden in der Datei /var/log/lsassd.log Fehler ähnlich dem folgenden angezeigt:
2012-06-11T12:58:42-07:00 <30.6> cluster1-13(id13) lsassd[66251]: 0x28f016a0:Domain 'domain.com' is now online
2012-06-11T13:03:57-07:00 <30.6> cluster1-13(id13) lsassd[66251]: 0x28f016a0:Domain 'domain.com' is now offline
2012-06-12T21:05:03-07:00 <30.6> cluster1-13(id13) lsassd[66251]: 0x28f016a0:Domain 'domain.com' is now online
2012-06-13T16:35:03-07:00 <30.6> cluster1-13(id13) lsassd[66251]: 0x28f016a0:Domain 'domain.com' is now offline
2012-06-13T16:40:03-07:00 <30.6> cluster1-13(id13) lsassd[66251]: 0x28f016a0:Domain 'domain.com' is now online
Alternativ, wenn der Status von Active Directory mit isi auth status überprüft wird, kann eine ähnliche Ausgabe angezeigt werden:
testcluster-1# isi auth status
ID Active Server Status
-----------------------------------------------------------------------
lsa-activedirectory-provider:TESTDOMAIN.COM dc1.testdomain.com offline
lsa-local-provider:System - active
lsa-file-provider:System - active
-----------------------------------------------------------------------
Total: 3
Anderer Cluster, der derselben AD-Domain mit demselben Maschinenkonto wie das vorhandene Cluster hinzugefügt wird:
Wenn ein neuer Cluster kürzlich derselben Domain hinzugefügt wurde, stellen Sie sicher, dass der neue Cluster nicht dasselbe Computerkonto wie der ursprüngliche Cluster verwendet. Führen Sie den folgenden Befehl auf dem neuen Cluster (mit Online-Domain) aus, um den Hostnamen und das Maschinenkonto zu überprüfen:
# isi auth ads view <domain>
(Relevant output)
Hostname: isitest.example.lab.com
<snipped>
Machine Account: ISITEST$
Kennwort des Computerkontos/aus AD gelöschtes Konto:
Wenn das Cluster Active Directory hinzugefügt wurde, aber jetzt nichts im isi auth status angezeigt wird (für lsa-activedirectory wurde nichts angezeigt), überprüfen Sie, ob das Maschinenkonto auf der Active Directory-Seite gelöscht wurde. Der Cluster kann erneut mit der Domain verbunden werden, um ein neues Maschinenkonto in Active Directory zu erstellen und die Authentifizierung wiederherzustellen.
Der DNS lehnt die SRV-Suche ab. Überprüfen Sie in diesem Fall, ob DNS so konfiguriert ist, dass Abfragen von den entsprechenden Node-IPs akzeptiert werden.
dig @<DNS IP> SRV _ldap._tcp.dc._msdcs.domain.com
; <<>> DiG 9.10.0-P2 <<>> @<DNS IP> SRV _ldap._tcp.dc._msdcs.<domain>
; (1 server found)
;; global options: +cmd
;; Got answer:
;; ->>HEADER<<- opcode: QUERY, status: REFUSED, id: 52396
;; flags: qr rd ra; QUERY: 1, ANSWER: 0, AUTHORITY: 0, ADDITIONAL: 1
;; OPT PSEUDOSECTION:
; EDNS: version: 0, flags:; udp: 4096
;; QUESTION SECTION:
;_ldap._tcp.dc._msdcs.<domain>. IN SRV
;; Query time: 0 msec
;; SERVER: <IP>#53(<IP>)
;; WHEN: <date>
;; MSG SIZE rcvd: 59
Cause
Der Local Security Authority Subsystem Service (LSASS) kann seine Verbindung zum verbundenen Domänencontroller aufgrund von Hardwareproblemen, Verbindungsproblemen oder aufgrund von DNS-Cache-Poisoning
verlieren. Alternativ kann dies passieren, weil dem Cluster ein Node hinzugefügt wurde und der Node keine Netzwerkverbindung hatte. Wenn der Domain Controller aus irgendeinem Grund nicht verfügbar ist und ein Node neu gestartet oder LSASS neu gestartet wird, werden einige Domaininformationen möglicherweise nicht ausgefüllt. In der Regel bleibt die Domain-GUID für die primäre Domain unbefüllt. Dies führt dazu, dass die Authentifizierung für Nutzer, die eine Verbindung zu diesem Node herstellen, nicht abgeschlossen werden kann.
Resolution
Problemumgehung 1: Untersuchen Sie Hardwarekonnektivitätsprobleme:
- Suchen Sie in der Datei /var/log/messages nach Hardwarekonnektivitätsproblemen. Meldungen in der Protokolldatei zeigen an, ob sich der Node-Netzwerkport im Status "Aktiv" befindet oder nicht. Sehen Sie sich die Datei /var/log/messages auf anderen Nodes im Cluster an, um festzustellen, ob das Problem mit der Netzwerkverbindung clusterweit auftritt.
- Sehen Sie sich die System- und Anwendungsereignisprotokolle im Domain Controller an. Diese Protokolldateien können Fehler zu Treiber- oder Hardwareproblemen enthalten, die mit dem Verlust der Netzwerkverbindung zusammenhängen.
Problemumgehung 2: Untersuchen Sie DNS-Cache-Poisoning:
Wenn das Problem mit der Netzwerkverbindung nicht hardwarebezogen ist, sollten Sie die Serviceeinträge (SRV) für die _mscds DNS-Zone für die Active Directory-Domains überprüfen. Eine Paketablaufverfolgung der DNS-Anforderung vom Cluster an den DNS-Server zeigt falsche oder fehlende Informationen an. Wenn falsche Informationen in den SRV-Datensätzen registriert sind oder wenn die Domaincontroller nicht über alle Datensätze in der _mscds DNS-Zone verfügen, melden die Nodes im Cluster, dass die Domain offline ist, wenn sie versuchen, den Domain Controller zu kontaktieren. Das Aktualisieren der SRV-Einträge mit aktuellen Informationen oder der Wechsel zu einem anderen DNS-Server sollte DNS-Cache-Poisoning beheben.
Beispiel 1
Diese Paketablaufverfolgung zeigt die Liste der DNS-Server und SRV-Einträge an, die an die Nodes im Cluster zurückgegeben wurden. Informationen zum SRV-Datensatz waren für dc2.domain.com nicht verfügbar.
Nein. Zeitquelle Ziel Protokolllänge Info
5 16:40:19.061003 1.1.1.1 1.1.1.2 DNS 110 Standardabfrage SRV _ldap._tcp.dc._msdcs.domain.com
6 16:40:19.062626 1.1.1.2 1.1.1.1 DNS 1270 Standard-Abfrageantwort SRV 0 100 389 dc1.domain.com SRV 0 100 389 dc2.domain.com SRV 0 100 389 SRV 0 100 389 dc3.domain.com
7 16:40:19.063146 1.1.1.1 1.1.1.2 DNS 87 Standardabfrage A dc2.domain.com
8 16:40:20.797403 1.1.1.2 1.1.1.1 DNS 146 Standard-Abfrageantwort, kein solcher Name
Beispiel 2
In dieser Paketablaufverfolgung sucht ein Node den SRV-Datensatz für _ldap._tcp.dc._msdcs.domain.com, es werden jedoch keine Informationen an den Client zurückgegeben.
Nein.
15 16:40:21.458636 1.1.1.1 1.1.1.2 DNS 100 Standardabfrage SRV _ldap._tcp.dc._msdcs.domain.com
16 16:40:21.783630 1.1.1.2 1.1.1.1 DNS 100 Standard-Abfrageantwort, kein solcher Name
Arbeiten Sie in diesem Fall mit Ihrem Netzwerk- und Active Directory-Team zusammen, um sicherzustellen, dass die DNS-SRV-Einträge korrekt sind und zum Domain Controller aufgelöst werden.
Problemumgehung 3 – Aktualisieren Sie LSASS:
- Öffnen Sie eine SSH-Verbindung zum Node und melden Sie sich mit dem Konto "root" an.
- Vergewissern Sie sich, dass der Authentifizierungs-Daemon nicht mit AD verbunden ist, wobei <nodeID die Node-Nummer> des kürzlich hinzugefügten Node ist:
isi_for_array -n <nodeID> 'isi auth ads list'
Wenn der Node mit der Domain verbunden ist, wird eine Ausgabe ähnlich der folgenden angezeigt:
cluster-1: Name Authentication Status DC Name Site
cluster-1: --------------------------------------------------------------------
cluster-1: LAB.EXAMPLE.COM Yes online - Default-First-Site-Name
cluster-1: --------------------------------------------------------------------
cluster-1: Total: 1
- Stellen Sie sicher, dass die Domänen-GUID nicht ausgefüllt ist. Wenn lsass seine Konfiguration nicht korrekt abruft, wird kein Domain-GUID-Wert ausgefüllt:
isi_for_array -n <nodeID> /usr/likewise/bin/lw-lsa get-status | egrep -A 12 "Domain:" | egrep "Domain (SID|GUID)"
Es erscheint eine Ausgabe ähnlich der folgenden:
cluster-1: Domain SID: S-1-5-21-584721463-3180705917-972194821
cluster-1: Domain SID: S-1-5-21-584721463-3180705917-972194821
cluster-1: Domain GUID:
- Führen Sie den folgenden Befehl auf dem neu hinzugefügten Node aus:
isi_for_array -n < node_range> /usr/likewise/bin/lwsm refresh lsass
- Überprüfen Sie, ob der neue Node meldet, dass er mit einem AD-Anbieter verbunden ist.
isi_for_array -n < node_range> 'isi auth ads list -v'
- Stellen Sie sicher, dass der GUID-Wert angezeigt wird:
isi_for_array -n <node_range> /usr/likewise/bin/lw-lsa get-status | egrep -A 12 "Domain:" | egrep "Domain (SID|GUID)"
Es erscheint eine Ausgabe ähnlich der folgenden:
cluster-1: Domain SID: S-1-5-21-584721463-3180705917-972194821
cluster-1: Domain SID: S-1-5-21-584721463-3180705917-972194821
cluster-1: Domain GUID: 61b2a8c6-af25-1941-8d57-59073b7ceb19
- Überprüfen Sie auf dem Windows-Client, ob sich der Nutzer beim Cluster authentifizieren kann, indem er ein Laufwerk zuordnet und die IP-Adresse des neu hinzugefügten Node angibt.
Problemumgehung 4: Starten Sie LSASS neu:
1. Öffnen Sie eine SSH-Verbindung zu dem kürzlich hinzugefügten Node und melden Sie sich mit dem Konto "root" an.
2. Listet verfügbare Domain Controller auf, wobei <domain_name> der vollständig qualifizierte Domainname (FQDN) der Domain ist, der der Cluster beigetreten ist:isi auth ads trusts controllers list --provider=<domain_name> -v
3. Erzwingen Sie die Verbindung zu einem Domain Controller, wobei <domain_name> der FQDN der Domäne ist, der das Cluster beigetreten ist, und <dc_name> der FQDN des Domain Controllers ist:isi auth ads modify <domain_name> --domain-controller <dc_name> --v
4. AD-Status aktualisieren:isi_classic auth ads status --refresh --all
Der Status sollte sich wie unten gezeigt in online ändern:
Active Directory Services Status:
Mode: unprovisioned
Status: online
Primary Domain: LAB.EXAMPLE.COM
NetBios Domain: LAB
Domain Controller: dc1.lab.example.com
Hostname: cluster.lab.example.com
Machine Account: CLUSTER$
5. Wenn der Status weiterhin als offline angezeigt wird, starten Sie den Authentifizierungs-Daemon neu (beachten Sie, dass dadurch die Authentifizierung beim Node bis zu einer Minute unterbrochen wird): Single node:
pkill -f 'lw-container lsass'
Multiple nodes (nodes 1-3 here as an example):
isi_for_array -n1-3 'pkill -f "lw-container\ lsass"'
6. Wiederholen Sie Schritt 4.
7. Überprüfen Sie auf dem Windows-Client, ob sich der Nutzer beim Cluster authentifizieren kann, indem er ein Laufwerk zuordnet und die IP-Adresse des Node angibt, auf dem LSASS neu gestartet wurde.
Additional Information
Hinweis zum Troubleshooting bei Domainkonnektivitätsproblemen:
Wenn Sie die Domain verlassen und wieder beitreten, vergewissern Sie sich, dass der Active Directory-Anbieter nach dem erneuten Beitritt in der Liste der Authentifizierungsanbieter für die entsprechende Zone angezeigt wird.
Für diese example.com Domain muss sie erneut hinzugefügt werden, da sie aus dem Abschnitt Auth Providers entfernt wurde:
isi zone zones list -v:
Name: accesszonedev1
Path: /ifs/accesszone1
Groupnet: groupnet0
Map Untrusted: -
Auth Providers: lsa-ldap-provider:Primary, lsa-file-provider:System, lsa-local-provider:accesszone1 **No Active Directory Provider** <<<<<<<<<<<<<
NetBIOS Name: -
User Mapping Rules:
Home Directory Umask: 0077
Skeleton Directory: /usr/share/skel
Cache Entry Expiry: 4H
Negative Cache Entry Expiry: 1m
Zone ID: 2
Die WebUI ist möglicherweise der einfachste Weg, um sie wieder hinzuzufügen und sicherzustellen, dass sie in der gewünschten Reihenfolge durchsucht wird. Weitere Informationen finden Sie im entsprechenden Administrationshandbuch für Ihre OneFS-Version. PowerScale OneFS Info Hubs