Dell Mellanox ConnectX-6 Dx : Bits à correction élevée sur les cartes NIC PAM4
Résumé: La carte d’interface réseau (NIC) Dell Mellanox ConnectX-6 Dx 100 Go signale des rx_corrected_bits_phy élevés en raison de la technique de transmission des données PAM4, ce qui est normal et attendu. ...
Symptômes
Aucun problème n’a été rencontré, mais après examen des statistiques dans l’environnement, tous les hôtes signalent des erreurs de bits.
- Nombre élevé de rx_corrected_bits_phy
- Nombre élevé de rx_err_lane_0_phy
- Nombre élevé de rx_err_lane_1_phy
- Nombre élevé de rx_err_lane_2_phy
- Nombre élevé de rx_err_lane_3_phy
user@hostname:~$ sudo ethtool -S enp139s0f1np1 | grep -E "correc|rx_err"
rx_corrected_bits_phy: 153303800
rx_err_lane_0_phy: 74171021
rx_err_lane_1_phy: 79132779
rx_err_lane_2_phy: 0
rx_err_lane_3_phy: 0
user@hostname:~$ sudo ethtool -S lan0
rx_corrected_bits_phy: 191025837
rx_err_lane_0_phy: 759699
rx_err_lane_1_phy: 190266147
Cause
Le problème est lié à la technique de transmission de données PAM4 utilisée par la carte réseau Mellanox ConnectX-6 Dx.
- La technique PAM4 utilise quatre niveaux (00, 01, 10, 11) pour représenter les données, qui peuvent transmettre deux fois plus de données dans la même bande passante que la technologie précédemment utilisée, le non-retour à zéro (NRZ).
- Cependant, PAM4 est plus complexe, sensible au bruit et aux erreurs, et nécessite une meilleure correction des erreurs.
- L’utilisation de signaux électriques modulés PAM4 nécessite l’exécution obligatoire de la technique RS544 FEC pour détecter et corriger les erreurs dans la transmission des données.
- Les normes IEEE exigent que toutes les liaisons impliquant 50G/100G PAM4 atteignent un taux d’erreur binaire (BER) pré-FEC de 2.4E-04 ou supérieur.
- Lorsque le FEC RS544 est activé et en cours d’exécution, une liaison devrait atteindre un BER de 1E-12 ou mieux.
Mécanisme de correction d’erreurs
La technique FEC RS544 introduit 16 bacs pour le comptage d’erreurs. Dans ce système, bin-0 pour compter les paquets reçus avec une erreur nulle, bin-1 compte les paquets reçus avec une erreur de 1 bit, et ainsi de suite.
Bin0 5540265380 11 0:00:04 ago Bin1 4420085 11 0:00:04 ago Bin2 578175 11 0:00:04 ago Bin3 11808 11 0:00:04 ago Bin4 1071 11 0:00:04 ago Bin5 63 11 0:00:04 ago Bin6 6 6 0:00:04 ago Bin7 3 2 0:01:02 ago Bin8 1 1 0:00:04 ago Bin9 0 0 never Bin10 0 0 never Bin11 0 0 never Bin12 0 0 never Bin13 0 0 never Bin14 0 0 never Bin15 0 0 never Bin16+ 0 0 never
Exigences relatives au port BER
Le BER physique effectif indique dans quelle mesure le FEC fonctionne pour corriger les erreurs et garantir une transmission fiable des données.
La liaison devrait atteindre un BER de 1E-12 ou mieux avec le FEC RS544 activé et en cours d’exécution.
Résolution
Le rx_corrected_bits_phy observés sont normaux et attendus sur une liaison qui utilise la technique de transmission de données PAM4. La FEC utilisée sur le lien corrige les bits en erreur, ce qui garantit une liaison fiable.
Étapes de vérification
Pour vérifier que le problème a bien été résolu, procédez comme suit :
- Consultez le fichier
rx_corrected_bits_phyvaleur de compteur à l’aide de la commandesudo ethtool -S enp139s0f1np1 | grep -E "correc|rx_err"ousudo ethtool -S lan0. - Vérifiez que la valeur du compteur est comprise dans la plage attendue pour un lien fiable.
- Vérifiez l’affichage du nombre de fichiers à l’aide de la commande
Symbol Errors Per Codeword Codewords Changes Last Changepour s’assurer que le nombre de bacs ne dépasse pas 8.
Outils et ressources
Les outils et ressources suivants peuvent vous aider à résoudre le problème :
ethtoolUtilitaire de ligne de commandesudoCommande permettant d’exécuter des commandes avec des privilèges élevés
Précautions et avertissements
rx_corrected_bits_phy La valeur de compteur est comprise dans la plage attendue pour un lien fiable afin d’éviter les problèmes potentiels.