Dell Mellanox ConnectX-6 Dx : Bits à correction élevée sur les cartes NIC PAM4

Résumé: La carte d’interface réseau (NIC) Dell Mellanox ConnectX-6 Dx 100 Go signale des rx_corrected_bits_phy élevés en raison de la technique de transmission des données PAM4, ce qui est normal et attendu. ...

Cet article concerne Cet article ne concerne pas Cet article n’est associé à aucun produit spécifique. Toutes les versions du produit ne sont pas identifiées dans cet article.

Symptômes

Aucun problème n’a été rencontré, mais après examen des statistiques dans l’environnement, tous les hôtes signalent des erreurs de bits.

  • Nombre élevé de rx_corrected_bits_phy
  • Nombre élevé de rx_err_lane_0_phy
  • Nombre élevé de rx_err_lane_1_phy
  • Nombre élevé de rx_err_lane_2_phy
  • Nombre élevé de rx_err_lane_3_phy
user@hostname:~$ sudo ethtool -S enp139s0f1np1 | grep -E "correc|rx_err"
    rx_corrected_bits_phy: 153303800
    rx_err_lane_0_phy: 74171021
    rx_err_lane_1_phy: 79132779
    rx_err_lane_2_phy: 0
    rx_err_lane_3_phy: 0

user@hostname:~$ sudo ethtool -S lan0
    rx_corrected_bits_phy: 191025837
    rx_err_lane_0_phy: 759699
    rx_err_lane_1_phy: 190266147

Cause

Le problème est lié à la technique de transmission de données PAM4 utilisée par la carte réseau Mellanox ConnectX-6 Dx.

  • La technique PAM4 utilise quatre niveaux (00, 01, 10, 11) pour représenter les données, qui peuvent transmettre deux fois plus de données dans la même bande passante que la technologie précédemment utilisée, le non-retour à zéro (NRZ).
  • Cependant, PAM4 est plus complexe, sensible au bruit et aux erreurs, et nécessite une meilleure correction des erreurs.
  • L’utilisation de signaux électriques modulés PAM4 nécessite l’exécution obligatoire de la technique RS544 FEC pour détecter et corriger les erreurs dans la transmission des données.
  • Les normes IEEE exigent que toutes les liaisons impliquant 50G/100G PAM4 atteignent un taux d’erreur binaire (BER) pré-FEC de 2.4E-04 ou supérieur.
  • Lorsque le FEC RS544 est activé et en cours d’exécution, une liaison devrait atteindre un BER de 1E-12 ou mieux.

Mécanisme de correction d’erreurs

La technique FEC RS544 introduit 16 bacs pour le comptage d’erreurs. Dans ce système, bin-0 pour compter les paquets reçus avec une erreur nulle, bin-1 compte les paquets reçus avec une erreur de 1 bit, et ainsi de suite.

Bin0                   5540265380              11          0:00:04 ago
Bin1                   4420085                11          0:00:04 ago
Bin2                   578175                 11          0:00:04 ago
Bin3                   11808                  11          0:00:04 ago
Bin4                   1071                   11          0:00:04 ago
Bin5                    63                    11          0:00:04 ago
Bin6                    6                     6          0:00:04 ago
Bin7                    3                     2          0:01:02 ago
Bin8                    1                     1          0:00:04 ago
Bin9                    0                     0          never
Bin10                   0                     0          never
Bin11                   0                     0          never
Bin12                   0                     0          never
Bin13                   0                     0          never
Bin14                   0                     0          never
Bin15                   0                     0          never
Bin16+                  0                     0          never

Exigences relatives au port BER

Le BER physique effectif indique dans quelle mesure le FEC fonctionne pour corriger les erreurs et garantir une transmission fiable des données.

La liaison devrait atteindre un BER de 1E-12 ou mieux avec le FEC RS544 activé et en cours d’exécution.

Résolution

Le rx_corrected_bits_phy observés sont normaux et attendus sur une liaison qui utilise la technique de transmission de données PAM4. La FEC utilisée sur le lien corrige les bits en erreur, ce qui garantit une liaison fiable.

Étapes de vérification

Pour vérifier que le problème a bien été résolu, procédez comme suit :

  • Consultez le fichier rx_corrected_bits_phy valeur de compteur à l’aide de la commande sudo ethtool -S enp139s0f1np1 | grep -E "correc|rx_err" ou sudo ethtool -S lan0 .
  • Vérifiez que la valeur du compteur est comprise dans la plage attendue pour un lien fiable.
  • Vérifiez l’affichage du nombre de fichiers à l’aide de la commande Symbol Errors Per Codeword Codewords Changes Last Change pour s’assurer que le nombre de bacs ne dépasse pas 8.

Outils et ressources

Les outils et ressources suivants peuvent vous aider à résoudre le problème :

  • ethtool Utilitaire de ligne de commande
  • sudo Commande permettant d’exécuter des commandes avec des privilèges élevés

Précautions et avertissements

Attention : Assurez-vous que l’option rx_corrected_bits_phy La valeur de compteur est comprise dans la plage attendue pour un lien fiable afin d’éviter les problèmes potentiels.
Remarque : La technique FEC utilisée sur le lien corrige les bits erronés, ce qui permet d’obtenir un lien fiable.

Produits concernés

OEMR R640, OEMR R6515, OEMR R6525, OEMR R660, OEMR R6615, OEMR R6625, OEMR R740, OEMR R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R7525, OEMR R760, OEMR R760xa, OEMR R760XD2, OEMR R7615, OEMR R7625, OEMR R840, OEMR R860, OEMR R940, OEMR R940xa , OEMR R960, OEMR XR12, OEMR XR5610, OEMR XR7620, OEMR XR8610t, OEMR XR8620t, PowerEdge C6520, PowerEdge C6525, PowerEdge MX740C, PowerEdge R640, PowerEdge R6515, PowerEdge R6525, PowerEdge R660, PowerEdge R6615, PowerEdge R6625, PowerEdge R670, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R7525, PowerEdge R760, PowerEdge R760XA, PowerEdge R760xd2, PowerEdge R7615, PowerEdge R7625, PowerEdge R770, PowerEdge R840, PowerEdge R860, PowerEdge R940, PowerEdge R940xa, PowerEdge R960, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680, PowerEdge XR12, PowerEdge XR5610, PowerEdge XR7620, PowerEdge XR8610t, PowerEdge XR8620t ...
Propriétés de l’article
Numéro d’article: 000286734
Type d’article: Solution
Dernière modification: 01 juil. 2025
Version:  3
Trouvez des réponses à vos questions auprès d’autres utilisateurs Dell
Services de support
Vérifiez si votre appareil est couvert par les services de support.