PowerEdge: Cómo solucionar problemas de detección y regulación térmica de la GPU
Resumen: En este artículo, se guía a los usuarios a través del diagnóstico y la resolución de problemas de detección y regulación térmica de GPU en servidores Dell PowerEdge. Abarca la comprobación de la temperatura de la GPU y el estado de la regulación, la revisión de los registros del sistema, la mejora del enfriamiento, la verificación de la instalación de hardware, la actualización del BIOS/iDRAC y el firmware de la GPU, y la ejecución de utilidades de diagnóstico como nvidia-smi y DCGM. ...
Este artículo se aplica a
Este artículo no se aplica a
Este artículo no está vinculado a ningún producto específico.
No se identifican todas las versiones del producto en este artículo.
Instrucciones
Preparación
- Acceso al sistema operativo con privilegios de administrador.
- Acceso al iDRAC o al BIOS para ver los registros y la configuración del sistema.
- Se instaló el controlador NVIDIA/CUDA y la utilidad NVIDIA-smi
- Acceso físico al servidor para las comprobaciones de hardware
Ejecución de tareas
- Comprobar la temperatura de la GPU y el estado del acelerador
- Ejecute el siguiente comando en el sistema operativo para comprobar el rendimiento de la GPU y el estado de la regulación:
nvidia-smi -q -d performance
- Si los motivos de regulación se muestran como "No activo", la GPU está funcionando con normalidad.
- Ejecute el siguiente comando en el sistema operativo para comprobar el rendimiento de la GPU y el estado de la regulación:
- Monitorear la temperatura del sistema
- Verifique el registro de eventos del sistema (SEL) en iDRAC.
- Revise el registro de ciclo de vida útil para ver las advertencias de temperatura.
- Verifique la temperatura de entrada del sistema en la sección Visión general de la temperatura.
- Mejore las condiciones de enfriamiento
- Asegúrese de que la temperatura ambiente del centro de datos se encuentre dentro de los límites admitidos.
- Quite cualquier obstrucción del flujo de aire en el rack.
- Verifique que todos los ventiladores del sistema funcionen correctamente.
- Instale las cubiertas de flujo de aire adecuadas y los kits de enfriamiento de GPU, si están disponibles.
- Verificar la instalación del hardware de la GPU
- Confirme que la GPU esté colocada correctamente en la ranura de PCIe.
- Verifique que los cables de alimentación y los conectores estén bien conectados.
- Valide que el modelo de GPU sea compatible con la plataforma del servidor.
- Actualizar firmware del sistema
- Actualice el BIOS del servidor a la versión más reciente.
- Actualice el firmware de iDRAC a la versión más reciente.
- Actualice los controladores y el firmware de GPU a las versiones más recientes.
- Verificar la detección de GPU
- Utilice el siguiente comando para comprobar si el sistema detecta la GPU:
nvidia-smi
- Si no se detecta la GPU, revise la configuración del BIOS y la instalación de hardware.
- Utilice el siguiente comando para comprobar si el sistema detecta la GPU:
- Probar la GPU en otra ranura PCIe
- Apague el servidor y desconecte los cables de alimentación.
- Quite la GPU de la ranura PCIe actual.
- Instale la GPU en otra ranura PCIe compatible.
- Vuelva a conectar la alimentación y encienda el sistema.
- Compruebe la detección mediante
nvidia-smio el inventario de hardware de iDRAC. - Si la GPU se detecta en la nueva ranura, es posible que la ranura original tenga un problema de configuración o hardware.
- Ejecutar la prueba de diagnóstico de la GPU
- Herramienta DCGMi
- Consulte la utilidad DCGM
- Para obtener más instrucciones , consulte PowerEdge: Instalación de NVIDIA DataCenter GPU Manager (DCGM) y cómo ejecutar diagnósticos
- Consulte la utilidad DCGM
- Registros de SMI de NVIDIA
- Ejecutar
# nvidia-smipara obtener un resumen del uso y el estado de la GPU. - Ejecutar
# nvidia-smi -qpara obtener información detallada sobre la GPU. - Ejecutar
# nvidia-smi nvlink -spara ver el estado y los errores de NVLink.
- Ejecutar
- Salidas en el nivel del sistema operativo
- Ejecutar
(reemplace el ID del dispositivo, según corresponda) para ver los detalles de PCIe de la GPU).# lspci -s 9b: 00.0 -vv
- Ejecutar
- Herramienta DCGMi
Verificación
- La temperatura de la GPU se mantiene dentro del rango de funcionamiento normal y el estado del acelerador muestra "No activo"
- GPU aparece en la salida de
nvidia-smiy en el inventario de hardware de iDRAC. - No hay advertencias relacionadas con la temperatura presentes en el registro de eventos del sistema.
Productos afectados
Rack ServersProductos
Tower Servers, XE ServersPropiedades del artículo
Número del artículo: 000452203
Tipo de artículo: How To
Última modificación: 05 may 2026
Versión: 1
Encuentre respuestas a sus preguntas de otros usuarios de Dell
Servicios de soporte
Compruebe si el dispositivo está cubierto por los servicios de soporte.