PowerEdge. Поиск и устранение неисправностей обнаружения и регулирования температуры графического процессора
Сводка: В этой статье описаны процедуры диагностики и устранения проблем, связанных с регулированием и обнаружением перегрева графического процессора на серверах Dell PowerEdge. Он включает проверку температуры и состояния регулировки графического процессора, просмотр системных журналов, улучшение охлаждения, проверку установки оборудования, обновление BIOS/iDRAC и микропрограммы графического процессора, а также запуск диагностических утилит, таких как nvidia-smi и DCGM. ...
Данная статья применяется к
Данная статья не применяется к
Эта статья не привязана к какому-либо конкретному продукту.
В этой статье указаны не все версии продуктов.
Инструкции
Подготовка
- Доступ к операционной системе с правами администратора.
- Доступ к iDRAC или BIOS для просмотра системных журналов и настроек.
- Установленный драйвер NVIDIA/CUDA и утилита NVIDIA-smi
- Физический доступ к серверу для проверок оборудования
Выполнение задачи
- Проверка температуры графического процессора и состояния регулировки
- Выполните следующую команду в операционной системе, чтобы проверить производительность графического процессора и состояние регулировки:
nvidia-smi -q -d performance
- Если для причин регулирования отображается значение «Не активно», графический процессор работает нормально.
- Выполните следующую команду в операционной системе, чтобы проверить производительность графического процессора и состояние регулировки:
- Мониторинг температуры системы
- Проверьте журнал системных событий (SEL) в iDRAC.
- Проверьте журнал жизненного цикла на наличие предупреждений о температуре.
- Проверьте температуру системы на входе в разделе Обзор температуры.
- Улучшение условий охлаждения
- Убедитесь, что температура окружающей среды центра обработки данных находится в поддерживаемых пределах.
- Устраните препятствия, препятствующие циркуляции воздуха в стойке.
- Убедитесь, что все системные вентиляторы работают правильно.
- Установите соответствующие вентиляционные кожухи и комплекты охлаждения графического процессора, если таковые имеются.
- Проверка установки оборудования графического процессора
- Убедитесь, что графический процессор правильно установлен в разъем PCIe.
- Проверьте надежность подключения кабелей питания и разъемов.
- Убедитесь, что модель графического процессора поддерживается на серверной платформе.
- Обновление микропрограммы системы
- Обновите BIOS сервера до последней версии.
- Обновите микропрограмму iDRAC до последней версии.
- Обновите драйверы и микропрограмму графического процессора до последних выпусков.
- Проверка обнаружения графического процессора
- Выполните следующую команду, чтобы проверить, обнаруживается ли графический процессор системой:
nvidia-smi
- Если графический процессор не обнаружен, просмотрите настройки BIOS и установку оборудования.
- Выполните следующую команду, чтобы проверить, обнаруживается ли графический процессор системой:
- Проверьте графический процессор в другом разъеме PCIe
- Выключите сервер и отсоедините кабели питания.
- Извлеките графический процессор из текущего разъема PCIe.
- Установите графический процессор в другой поддерживаемый разъем PCIe.
- Снова подключите питание и включите систему.
- Проверьте обнаружение с помощью
nvidia-smiили в инвентаризации оборудования iDRAC. - Если графический процессор обнаруживается в новом разъеме, возможно, проблема с конфигурацией или оборудованием в исходном разъеме.
- Запуск диагностического теста графического процессора
- Инструмент DCGMi
- Ознакомьтесь с утилитой DCGM
- Дополнительные инструкции см. в разделе PowerEdge: Установка NVIDIA DataCenter GPU Manager (DCGM) и запуск диагностики
- Ознакомьтесь с утилитой DCGM
- Журналы NVIDIA SMI
- Запустите
# nvidia-smi, чтобы получить сводные данные об использовании и состоянии графического процессора. - Запустите
# nvidia-smi -qдля получения подробной информации о графическом процессоре. - Запустите
# nvidia-smi nvlink -sдля просмотра состояния и ошибок NVLink.
- Запустите
- Выходные данные на уровне ОС
- Запустите
(При необходимости замените идентификатор устройства), чтобы просмотреть сведения о PCIe для графического процессора.)# lspci -s 9b: 00.0 -vv
- Запустите
- Инструмент DCGMi
Проверка
- Температура графического процессора остается в пределах нормального рабочего диапазона, а состояние регулировки отображается как «Не активно»
- Графический процессор отображается в выходных данных
nvidia-smiи в инвентаризации оборудования iDRAC. - В журнале системных событий нет предупреждений, связанных с температурой.
Затронутые продукты
Rack ServersПродукты
Tower Servers, XE ServersСвойства статьи
Номер статьи: 000452203
Тип статьи: How To
Последнее изменение: 05 May 2026
Версия: 1
Получите ответы на свои вопросы от других пользователей Dell
Услуги технической поддержки
Проверьте, распространяются ли на ваше устройство услуги технической поддержки.