Isilon: Gen6 DE-Peer-Node-Paar (H400, A200, A2000) erzeugt Ereignisse und Konsolenmeldungen, die auf Probleme mit der NTB-Verbindung nach einem Austausch oder einer Verschiebung des Rechnermoduls hinweisen

Summary: Ein Gen6 DE-Peer-Node-Paar (H400, A200, A2000) kann manchmal damit beginnen, Fehlermeldungen zu erzeugen, die auf Probleme mit der NTB-Verbindung hinweisen. Fehler können wiederholte "NTB-Link-up/Down"-Meldungen und Verbindungsgeschwindigkeitsverhandlungsfehler umfassen. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Ein Gen6 DE-Peer-Node-Paar (H400, A200, A2000) kann manchmal damit beginnen, Fehlermeldungen zu erzeugen, die auf Probleme mit der NTB-Verbindung hinweisen. Fehler können wiederholte "Link up/down"-Meldungen sowie Fehler bei der Verhandlung der Verbindungsgeschwindigkeit umfassen, z. B.:
 
mnv0: HW link down event
mnv0: HW link up event
mnv0: Failed to negotiate PCIe lane speed; expected 3 lane speed, got 2.
mnv0: transport link up
mnv0: peer up


Alternativ können die Protokolle und/oder konsolen einfach den NTB-Link als inaktiv und nicht verfügbar anzeigen. Es scheint derzeit mehrere mögliche Ursachen für dieses Problem zu geben, von denen einige noch untersucht werden. Wenn ein oder beide betroffene Nodes kürzlich in einen anderen Gehäusesteckplatz verschoben wurden oder das Rechnermodul ausgetauscht wurde, können das in diesem Wissensdatenbankartikel dokumentierte Problem und die lösungslösend sein. Dieses Problem hat keine Auswirkungen auf EP-Nodes (F800, H600, H500).  

Cause

Peer-Nodes kommunizieren miteinander über einen speziellen Kommunikationskanal namens NonTransparent Bridge (NTB), der in die Gehäuserückwandplatine eingebettet ist. Im Normalbetrieb müssen beide Nodes in einem Peer-Paar einen anderen PPD-Wert haben, um über die NTB miteinander kommunizieren zu können. PPD-Werte werden basierend auf der Steckplatz-ID des Node im Gehäuse zugewiesen. Dieses Problem wird dadurch verursacht, dass das BIOS des Node die alte Steckplatz-ID des Node beibehält, wenn ein Node oder ein Compute-Modul in einen anderen Steckplatz getauscht wird, als er ursprünglich stammt, anstatt die neue Steckplatz-ID zu erkennen. Dies kann dazu führen, dass der PPD-Wert falsch festgelegt wird, was zu einem Konflikt führt, der verhindert, dass die Nodes eine NTB-Verbindung herstellen.

Resolution

Führen Sie den folgenden Befehl auf beiden Nodes im betroffenen Peer-Paar aus, um zu überprüfen, ob das in diesem Wissensdatenbank-Artikel dokumentierte Problem zutrifft:
# sysctl dev.ntb_hw.0.debug_info.ppd

Jeder Node antwortet entweder mit:

dev.ntb_hw.0.debug_info.ppd:
73

Oder:
dev.ntb_hw.0.debug_info.ppd: 93

- Wenn ein Node in einem Paar mit 73 antwortet und der andere mit 93 antwortet, sind diese Nodes derzeit nicht von dem in diesem Wissensdatenbankartikel dokumentierten Problem betroffen.
Wenden Sie sich an den technischen Support von EMC Isilon, um weitere Unterstützung zu erhalten.

- Wenn beide Nodes mit derselben Zahl reagieren, unabhängig davon, ob es sich um 73 oder 93 handelt, sind sie von dem in diesem Wissensdatenbankartikel dokumentierten Problem betroffen. Dieses Problem wurde in aktualisierter Node-Firmware behoben, die im Node-Firmwarepaket 10.1.6 und höher sowie in einer Codekorrektur in OneFS 8.1.0.4 und höher enthalten ist. Während jedes Update das Problem einzeln behebt, enthalten beide Versionen andere wichtige Korrekturen, daher wird empfohlen, beide zu installieren.

Affected Products

Isilon, Isilon Gen6
Article Properties
Article Number: 000056963
Article Type: Solution
Last Modified: 28 Jun 2023
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.