Isilon : La paire de nœuds homologues Gen6 DE (H400, A200, A2000) génère des événements et des messages de console indiquant des problèmes avec leur liaison NTB après le remplacement ou le déplacement d’un module de calcul

Summary: Une paire de nœuds homologues Gen6 DE (H400, A200, A2000) peut parfois commencer à générer des messages d’erreur indiquant des problèmes avec leur liaison NTB. Les erreurs peuvent inclure des messages répétés « NTB link up/down » et des erreurs de négociation de la vitesse de liaison. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Une paire de nœuds homologues Gen6 DE (H400, A200, A2000) peut parfois commencer à générer des messages d’erreur indiquant des problèmes avec leur liaison NTB. Les erreurs peuvent inclure des messages répétés « link up/down » ainsi que des erreurs de négociation de la vitesse de liaison, par exemple :
 
mnv0: HW link down event
mnv0: HW link up event
mnv0: Failed to negotiate PCIe lane speed; expected 3 lane speed, got 2.
mnv0: transport link up
mnv0: peer up


Sinon, les logs et/ou la console peuvent simplement afficher le lien NTB comme étant arrêté et ne pas s’afficher. Il semble qu’il existe actuellement plusieurs causes possibles à ce problème, dont certaines sont encore en cours d’enquête. Si un ou les deux nœuds concernés ont été récemment déplacés dans un autre logement de châssis ou si leur module de calcul a été remplacé, le problème et la résolution documentés dans cet article de KB peuvent s’appliquer. Ce problème n’affecte pas les nœuds EP (F800, H600, H500).  

Cause

Les nœuds homologues communiquent les uns avec les autres via un canal de communication spécial appelé NonTransparent Bridge (NTB) intégré dans le fond de panier du châssis. En fonctionnement normal, les deux nœuds d’une paire homologue doivent avoir une valeur PPD différente pour pouvoir communiquer les uns avec les autres via le NTB. Les valeurs PPD sont attribuées en fonction de l’ID de logement du nœud dans le châssis. Ce problème est dû au FAIT que le BIOS du nœud conserve l’ancien ID de logement du nœud lorsqu’un nœud ou un module de calcul est permuté dans un logement différent de celui d’origine, plutôt que de détecter le nouvel ID de logement. Cela peut entraîner une définition incorrecte de la valeur PPD, ce qui entraîne un conflit qui empêche les nœuds d’établir une liaison NTB.

Resolution

Exécutez la commande suivante sur les deux nœuds de la paire homologue concernée pour vérifier si le problème documenté dans cet article de la base de connaissances est applicable :
# sysctl dev.ntb_hw.0.debug_info.ppd

Chaque nœud répondra avec :

dev.ntb_hw.0.debug_info.ppd :
73

Ou :
dev.ntb_hw.0.debug_info.ppd : 93

- Si un nœud d’une paire répond avec 73 et que l’autre répond avec 93, ces nœuds ne sont pas actuellement affectés par le problème documenté dans cet article de la base de connaissances.
Veuillez contacter le support technique EMC Isilon pour obtenir de l’aide.

- Si les deux nœuds répondent avec le même numéro, qu’il s’agisse de 73 ou 93, ils sont affectés par le problème documenté dans cet article de la base de connaissances. Ce problème est résolu dans le firmware du nœud mis à jour inclus dans node Firmware Package 10.1.6 et versions ultérieures, ainsi que dans un correctif de code inclus dans OneFS 8.1.0.4 et versions supérieures. Bien que chaque mise à jour corrige individuellement le problème, les deux versions contiennent d’autres correctifs importants, il est donc recommandé d’installer les deux.

Affected Products

Isilon, Isilon Gen6
Article Properties
Article Number: 000056963
Article Type: Solution
Last Modified: 28 Jun 2023
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.