pgirard
1 Nickel

Sur-Ventilation (17000 TPM) sur R730xd à cause d'une carte IB ConnectX-3 VPI

Bonjour,

Après avoir sorti et mis en route le R730xd de son carton fin 2017, j'ai (et mes voisins de bureau) noté une sur-ventilation assourdissante, et pour cause, les 6 ventilateurs du serveur tournaient à 17000 tpm. J'ai contacté le support Dell, après les manips habituelles (vidage des condensateurs, logs, etc.), nous avons fini par enlever la carte IB PCIe (Mellanox ConnectX-3 - MCX353A-FCBT) qui avait été livrée avec le serveur. La ventilation est revenue à un niveau normal, ventilateurs à 5000 tpm. Dans les 2 cas, le serveur n'avait aucun load. Le phénomène était présent avant même que j'installe un OS.

Au final, le support m'a affirmé que c'était normal, à savoir que Dell appliquait des consignes de ventialtion en fonction des données constructeurs de la carte.

Sachant que j'ai d'autres serveurs, dont des nœuds de calcul Dell et BULL, et avec les mêmes carte IB, et que la ventilation est normal sur ces machines (au max 7000 tpm), je ne suis évidemment pas satisfait par cette réponse. La ventilation est à 100% de sa puissance, va 3 fois plus vite avec la carte que sans la carte, consomme électriquement 1,5 fois plus sans rien faire... pour rien. Ce n'est donc pas acceptable.

Pour info, j'ai mis une ancienne carte Mellanox ConnectX prise sur un C6100 à la place de la connectX-3, et j'ai le même phénomène de sur-ventilation. Donc ce n'est pas la carte qui est en cause, mais bien la réaction du serveur à la présence de la carte.

En cherchant un peu, on trouve d'autres exemples similaires sur la toile, et surtout ICI une explication donnée par quelqu'un de Dell sur la politique de ventilation mise en place avec les cartes PCI tierces.

J'ai aussi trouvé un white paper de Dell expliquant comment désactiver ou activer le "Third-Party PCIe Card Cooling Response with Dell PowerEdge Servers". Un collègue ASR m'avait déjà donné la recette, et ça ne marche hélas pas sur mon R730xd.

C'est bien dommage car j'ai aussi installé la pile logicielle de Mellanox qui me permet de vérifier la température de la carte IB, donc si j'avais les moyens de désactiver temporairement cette sur-ventilation je pourrais développer une surveillance de la carte IB et réactiver la fameuse "Third-Party PCIe Card Cooling Response" si besoin. Bref, faire ce qui devrait être faite de base par le serveur.

J'ai aussi fouillé au niveau du firmware de la carte Mellanox, et si j'ai bien compris, il me semble que dans une version plus ancienne du firmware que celle que j'ai, Mellanox fournit maintenant des sondes de températures :

"Temperature thresholds: Added temperature thresholds high/low default for MAD sensing and NCSI/IPMI OEM commands."

Donc mes questions sont  :

- Pourquoi la méthode d'activation/désactivation de la sur-ventilation de la carte PCI ne fonctionne pas ? Est-ce parce qu'il y a un vrai problème sur mon serveur ?

- Dois-je utiliser une autre méthode ?

- Ce problème de sur-ventilation est-il pris en compte sérieusement par Dell ?

- Pourquoi avons-nous le problème avec cette carte alors que sur d'autres machines Dell équipées de carte Mellanox ça ronronne ?

En attendant, j'ai un serveur fraîchement acheté qui attend de rejoindre ces petits camarades dans notre datacenter, et donc une solution acceptable.

Merci pour l'aide que vous pourrez m'apporter !!

Pierre

0 Compliments