PowerEdge: Cómo solucionar problemas de detección y regulación térmica de la GPU

Resumen: En este artículo, se guía a los usuarios a través del diagnóstico y la resolución de problemas de detección y regulación térmica de GPU en servidores Dell PowerEdge. Abarca la comprobación de la temperatura de la GPU y el estado de la regulación, la revisión de los registros del sistema, la mejora del enfriamiento, la verificación de la instalación de hardware, la actualización del BIOS/iDRAC y el firmware de la GPU, y la ejecución de utilidades de diagnóstico como nvidia-smi y DCGM. ...

Este artículo se aplica a Este artículo no se aplica a Este artículo no está vinculado a ningún producto específico. No se identifican todas las versiones del producto en este artículo.

Instrucciones

Preparación

  • Acceso al sistema operativo con privilegios de administrador.
  • Acceso al iDRAC o al BIOS para ver los registros y la configuración del sistema.
  • Se instaló el controlador NVIDIA/CUDA y la utilidad NVIDIA-smi
  • Acceso físico al servidor para las comprobaciones de hardware

Ejecución de tareas

  1. Comprobar la temperatura de la GPU y el estado del acelerador
    • Ejecute el siguiente comando en el sistema operativo para comprobar el rendimiento de la GPU y el estado de la regulación:
      nvidia-smi -q -d performance 
    • Si los motivos de regulación se muestran como "No activo", la GPU está funcionando con normalidad.
  2. Monitorear la temperatura del sistema
    • Verifique el registro de eventos del sistema (SEL) en iDRAC.
    • Revise el registro de ciclo de vida útil para ver las advertencias de temperatura.
    • Verifique la temperatura de entrada del sistema en la sección Visión general de la temperatura.
  3. Mejore las condiciones de enfriamiento
    • Asegúrese de que la temperatura ambiente del centro de datos se encuentre dentro de los límites admitidos.
    • Quite cualquier obstrucción del flujo de aire en el rack.
    • Verifique que todos los ventiladores del sistema funcionen correctamente.
    • Instale las cubiertas de flujo de aire adecuadas y los kits de enfriamiento de GPU, si están disponibles.
  4. Verificar la instalación del hardware de la GPU
    • Confirme que la GPU esté colocada correctamente en la ranura de PCIe.
    • Verifique que los cables de alimentación y los conectores estén bien conectados.
    • Valide que el modelo de GPU sea compatible con la plataforma del servidor.
  5. Actualizar firmware del sistema
    • Actualice el BIOS del servidor a la versión más reciente.
    • Actualice el firmware de iDRAC a la versión más reciente.
    • Actualice los controladores y el firmware de GPU a las versiones más recientes.
  6. Verificar la detección de GPU
    • Utilice el siguiente comando para comprobar si el sistema detecta la GPU:
      nvidia-smi 
    • Si no se detecta la GPU, revise la configuración del BIOS y la instalación de hardware.
  7. Probar la GPU en otra ranura PCIe
    • Apague el servidor y desconecte los cables de alimentación.
    • Quite la GPU de la ranura PCIe actual.
    • Instale la GPU en otra ranura PCIe compatible.
    • Vuelva a conectar la alimentación y encienda el sistema.
    • Compruebe la detección mediante nvidia-smi o el inventario de hardware de iDRAC.
    • Si la GPU se detecta en la nueva ranura, es posible que la ranura original tenga un problema de configuración o hardware.
  8. Ejecutar la prueba de diagnóstico de la GPU
    1. Herramienta DCGMi
    2. Registros de SMI de NVIDIA
      • Ejecutar# nvidia-smi para obtener un resumen del uso y el estado de la GPU.
      • Ejecutar# nvidia-smi -q para obtener información detallada sobre la GPU.
      • Ejecutar# nvidia-smi nvlink -s para ver el estado y los errores de NVLink.
    3. Salidas en el nivel del sistema operativo
      • Ejecutar
        # lspci -s 9b: 00.0 -vv
        (reemplace el ID del dispositivo, según corresponda) para ver los detalles de PCIe de la GPU).

Verificación

  • La temperatura de la GPU se mantiene dentro del rango de funcionamiento normal y el estado del acelerador muestra "No activo"
  • GPU aparece en la salida de nvidia-smi y en el inventario de hardware de iDRAC.
  • No hay advertencias relacionadas con la temperatura presentes en el registro de eventos del sistema.

Productos afectados

Rack Servers

Productos

Tower Servers, XE Servers
Propiedades del artículo
Número del artículo: 000452203
Tipo de artículo: How To
Última modificación: 05 may 2026
Versión:  1
Encuentre respuestas a sus preguntas de otros usuarios de Dell
Servicios de soporte
Compruebe si el dispositivo está cubierto por los servicios de soporte.