Isilon: Gen6 DE-peer-nodepar (H400, A200, A2000) genererer hændelser og konsolmeddelelser, der angiver problemer med deres NTB-link efter udskiftning eller flytning af et beregningsmodul

Summary: Et Gen6 DE-peer-nodepar (H400, A200, A2000) kan nogle gange begynde at generere fejlmeddelelser, der angiver problemer med deres NTB-link. Fejlene kan omfatte gentagne "NTB link up/down"-meddelelser og fejl ved forhandling af forbindelseshastighed. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Et Peer Node-par af Gen6 DE (H400, A200, A2000) kan nogle gange begynde at generere fejlmeddelelser, der angiver problemer med deres NTB-link. Fejlene kan omfatte gentagne "link op/ned"-meddelelser samt fejl ved forhandling af forbindelseshastighed, f.eks.:
 
mnv0: HW link down event
mnv0: HW link up event
mnv0: Failed to negotiate PCIe lane speed; expected 3 lane speed, got 2.
mnv0: transport link up
mnv0: peer up


Alternativt kan logfilerne og/eller konsollen blot vise NTB-linket som nede og ikke kommer op. Der ser ud til at være flere mulige årsager til dette problem, hvoraf nogle stadig undersøges. Hvis en eller begge berørte noder for nylig er blevet flyttet til en anden kabinetplads eller har fået udskiftet deres beregningsmodul, kan problemet og løsningen dokumenteret i denne KB være gældende. Dette problem påvirker ikke EP-noder (F800, H600, H500).  

Cause

Peer-noder kommunikerer med hinanden via en særlig kommunikationskanal kaldet NonTransparent Bridge (NTB), som er indlejret i kabinettets backplane. Under normal drift skal begge noder i et peer-par have en anden PPD-værdi for at kunne kommunikere med hinanden via NTB. PPD-værdier tildeles baseret på nodens stik-id i kabinettet. Dette problem skyldes, at nodens BIOS bevarer nodens gamle stik-id, når en node eller et beregningsmodul skiftes til en anden port end den oprindeligt kom fra, i stedet for at det nye stik-id registreres. Dette kan medføre, at PPD-værdien indstilles forkert, hvilket medfører en konflikt, der forhindrer noderne i at oprette et NTB-link.

Resolution

Kør følgende kommando på begge noder i det berørte peer-par for at kontrollere, om problemet, der er dokumenteret i denne KB, er relevant:
# sysctl dev.ntb_hw.0.debug_info.ppd

Hver node vil reagere med enten:

dev.ntb_hw.0.debug_info.ppd:
73

Eller:
dev.ntb_hw.0.debug_info.ppd: 93

- Hvis en node i et par reagerer med 73, og den anden reagerer med 93, påvirkes disse noder ikke i øjeblikket af det problem, der er beskrevet i denne KB.
Kontakt EMC Isilons tekniske support for at få yderligere hjælp.

- Hvis begge noder reagerer med det samme tal, hvad enten det er 73 eller 93, er de berørt af problemet, der er dokumenteret i denne KB. Dette problem er løst i opdateret nodefirmware inkluderet i nodefirmwarepakke 10.1.6 og nyere samt i en koderettelse inkluderet i OneFS 8.1.0.4 og nyere. Mens hver enkelt opdatering afhjælper problemet, indeholder begge udgivelser andre vigtige rettelser, så det anbefales at installere begge.

Affected Products

Isilon, Isilon Gen6
Article Properties
Article Number: 000056963
Article Type: Solution
Last Modified: 28 Jun 2023
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.