PowerEdge: nvidia-smi mostra que "PCIe.Link.Gen.Max" é diferente de "PCIe.Link.Gen.Current"
Resumo: Por que a saída nvidia-smi mostra o valor atual de geração do link PCIe diferente do valor Max.
Sintomas
Uma situação em que o usuário reclama que a saída nvidia-smi mostra que o link PCIe da GPU não está se conectando no link PCIe máximo disponível e suspeita de um problema de hardware com a placa/riser ou a própria GPU.
Um exemplo de resultado de logs NVSMI mostra uma situação semelhante para referência:

A saída mostra duas GPUs semelhantes conectadas a um sistema PowerEdge mostrando valores diferentes do "PCIe.Link.Gen.Current" parâmetro. Enquanto a GPU no slot 2 se conecta na 1ª geração, a segunda GPU no slot 7 se conecta na geração máxima compatível com PCIe.
Causa
Esse comportamento é por design. Quando as GPUs não estão em uso, elas podem reduzir a velocidade do link para liberar recursos e operar em clocks mais baixos que consomem menos energia. Eles podem fazer a transição para o link MAX como e quando necessário.
Em alguns casos, quando a GPU é compatível com PCIe de maior geração, mas o slot ou riser do sistema é de geração inferior, o link máximo relatado é do slot ou riser correspondente do sistema.
Resolução
https://enterprise-support.nvidia.com/s/article/Useful-nvidia-smi-Queries-2