Isilon: El par de nodos pares Gen6 DE (H400, A200, A2000) genera eventos y mensajes de consola que indican problemas con su vínculo NTB después de reemplazar o mover un módulo de procesamiento

Summary: A veces, un par de nodos pares Gen6 DE (H400, A200, A2000) puede comenzar a generar mensajes de error que indican problemas con su vínculo NTB. Los errores pueden incluir mensajes repetidos de "vínculo NTB activo/inactivo" y errores de negociación de velocidad de vínculo. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

En ocasiones, un par de nodos pares Gen6 DE (H400, A200, A2000) puede comenzar a generar mensajes de error que indican problemas con su vínculo NTB. Los errores pueden incluir mensajes repetidos de "vínculo activo/inactivo", así como errores de negociación de velocidad de enlace, por ejemplo:
 
mnv0: HW link down event
mnv0: HW link up event
mnv0: Failed to negotiate PCIe lane speed; expected 3 lane speed, got 2.
mnv0: transport link up
mnv0: peer up


Como alternativa, los registros o la consola pueden simplemente mostrar el vínculo NTB como inactivo y no aparece. Actualmente, parece haber varias causas posibles para este problema, algunas de las cuales aún están en investigación. Si uno o ambos nodos afectados se transfirieron recientemente a una ranura de chasis diferente o se reemplazó su módulo de procesamiento, es posible que se aplique el problema y la resolución documentados en esta KB. Este problema no afecta a los nodos EP (F800, H600, H500).  

Cause

Los nodos pares se comunican entre sí a través de un canal de comunicación especial llamado puente no transparente (NTB) integrado en el backplane del chasis. En un funcionamiento normal, ambos nodos en un par par deben tener un valor PPD diferente para poder comunicarse entre sí a través del NTB. Los valores PPD se asignan en función del ID de ranura del nodo en el chasis. Este problema se debe a que el BIOS del nodo conserva el ID de ranura anterior del nodo cuando un nodo o un módulo de procesamiento se intercambian en una ranura diferente de la que provenía originalmente, en lugar de detectar el nuevo ID de ranura. Esto puede hacer que el valor PPD se configure incorrectamente, lo que provoca un conflicto que impide que los nodos establezcan un vínculo NTB.

Resolution

Ejecute el siguiente comando en ambos nodos del par par afectado para verificar si el problema documentado en este artículo de la base de conocimientos es aplicable:
# sysctl dev.ntb_hw.0.debug_info.ppd

Cada nodo responderá con cualquiera de las siguientes opciones:

dev.ntb_hw.0.debug_info.ppd:
73

O:
dev.ntb_hw.0.debug_info.ppd: 93

- Si un nodo de un par responde con 73 y el otro responde con 93, estos nodos no se ven afectados actualmente por el problema documentado en este artículo de la base de conocimientos.
Comuníquese con el soporte técnico de EMC Isilon para obtener más ayuda.

- Si ambos nodos responden con el mismo número, ya sea 73 o 93, se ven afectados por el problema documentado en este artículo de la base de conocimientos. Este problema se resuelve en el firmware actualizado del nodo incluido en el paquete de firmware del nodo 10.1.6 y versiones posteriores, así como en una corrección de código incluida en OneFS 8.1.0.4 y versiones posteriores. Aunque cada actualización corregirá individualmente el problema, ambas versiones contienen otras correcciones importantes, por lo que se recomienda instalar ambas.

Affected Products

Isilon, Isilon Gen6
Article Properties
Article Number: 000056963
Article Type: Solution
Last Modified: 28 Jun 2023
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.