PowerEdge. Поиск и устранение неисправностей обнаружения и регулирования температуры графического процессора

Сводка: В этой статье описаны процедуры диагностики и устранения проблем, связанных с регулированием и обнаружением перегрева графического процессора на серверах Dell PowerEdge. Он включает проверку температуры и состояния регулировки графического процессора, просмотр системных журналов, улучшение охлаждения, проверку установки оборудования, обновление BIOS/iDRAC и микропрограммы графического процессора, а также запуск диагностических утилит, таких как nvidia-smi и DCGM. ...

Данная статья применяется к Данная статья не применяется к Эта статья не привязана к какому-либо конкретному продукту. В этой статье указаны не все версии продуктов.

Инструкции

Подготовка

  • Доступ к операционной системе с правами администратора.
  • Доступ к iDRAC или BIOS для просмотра системных журналов и настроек.
  • Установленный драйвер NVIDIA/CUDA и утилита NVIDIA-smi
  • Физический доступ к серверу для проверок оборудования

Выполнение задачи

  1. Проверка температуры графического процессора и состояния регулировки
    • Выполните следующую команду в операционной системе, чтобы проверить производительность графического процессора и состояние регулировки:
      nvidia-smi -q -d performance 
    • Если для причин регулирования отображается значение «Не активно», графический процессор работает нормально.
  2. Мониторинг температуры системы
    • Проверьте журнал системных событий (SEL) в iDRAC.
    • Проверьте журнал жизненного цикла на наличие предупреждений о температуре.
    • Проверьте температуру системы на входе в разделе Обзор температуры.
  3. Улучшение условий охлаждения
    • Убедитесь, что температура окружающей среды центра обработки данных находится в поддерживаемых пределах.
    • Устраните препятствия, препятствующие циркуляции воздуха в стойке.
    • Убедитесь, что все системные вентиляторы работают правильно.
    • Установите соответствующие вентиляционные кожухи и комплекты охлаждения графического процессора, если таковые имеются.
  4. Проверка установки оборудования графического процессора
    • Убедитесь, что графический процессор правильно установлен в разъем PCIe.
    • Проверьте надежность подключения кабелей питания и разъемов.
    • Убедитесь, что модель графического процессора поддерживается на серверной платформе.
  5. Обновление микропрограммы системы
    • Обновите BIOS сервера до последней версии.
    • Обновите микропрограмму iDRAC до последней версии.
    • Обновите драйверы и микропрограмму графического процессора до последних выпусков.
  6. Проверка обнаружения графического процессора
    • Выполните следующую команду, чтобы проверить, обнаруживается ли графический процессор системой:
      nvidia-smi 
    • Если графический процессор не обнаружен, просмотрите настройки BIOS и установку оборудования.
  7. Проверьте графический процессор в другом разъеме PCIe
    • Выключите сервер и отсоедините кабели питания.
    • Извлеките графический процессор из текущего разъема PCIe.
    • Установите графический процессор в другой поддерживаемый разъем PCIe.
    • Снова подключите питание и включите систему.
    • Проверьте обнаружение с помощью nvidia-smi или в инвентаризации оборудования iDRAC.
    • Если графический процессор обнаруживается в новом разъеме, возможно, проблема с конфигурацией или оборудованием в исходном разъеме.
  8. Запуск диагностического теста графического процессора
    1. Инструмент DCGMi
    2. Журналы NVIDIA SMI
      • Запустите# nvidia-smi , чтобы получить сводные данные об использовании и состоянии графического процессора.
      • Запустите# nvidia-smi -q для получения подробной информации о графическом процессоре.
      • Запустите# nvidia-smi nvlink -s для просмотра состояния и ошибок NVLink.
    3. Выходные данные на уровне ОС
      • Запустите
        # lspci -s 9b: 00.0 -vv
        (При необходимости замените идентификатор устройства), чтобы просмотреть сведения о PCIe для графического процессора.)

Проверка

  • Температура графического процессора остается в пределах нормального рабочего диапазона, а состояние регулировки отображается как «Не активно»
  • Графический процессор отображается в выходных данных nvidia-smi и в инвентаризации оборудования iDRAC.
  • В журнале системных событий нет предупреждений, связанных с температурой.

Затронутые продукты

Rack Servers

Продукты

Tower Servers, XE Servers
Свойства статьи
Номер статьи: 000452203
Тип статьи: How To
Последнее изменение: 05 May 2026
Версия:  1
Получите ответы на свои вопросы от других пользователей Dell
Услуги технической поддержки
Проверьте, распространяются ли на ваше устройство услуги технической поддержки.