PowerEdge. TMP0203. Температура процессора превышает верхнее критическое пороговое значение
Summary: Серверы PowerEdge с iDRAC9 могут сообщать о событиях температуры ЦП x выше верхнего критического порогового значения при скачках нагрузки ЦП на уровне или рядом с значением CPU PowerMax. ...
Symptoms
Серверы PowerEdge с iDRAC9 могут сообщать о событиях температуры ЦП x выше верхнего критического порогового значения при скачках нагрузки ЦП на уровне или рядом с максимальной. Когда для удовлетворения дополнительной нагрузки на ЦП возникают кратковременные всплески напряжения, температура процессора может кратковременно превысить верхнее критическое пороговое значение. Например, сервер, работающий при загрузке 50–60% и испытывающий повышение использования до 100% в течение 5–20 секунд, может на короткое время превысить верхний критический порог температуры ЦП. При превышении этого порогового значения события записываются в журнал событий системы и журнал жизненного цикла. Когда кратковременный скачок заканчивается, а температура ЦП возвращается к норме, регистрируется событие, указывающее на то, что температура ЦП x находится в пределах диапазона.
При возникновении таких кратковременных пиков эти два события обычно происходят в пределах 5–20 секунд друг от друга. См. примеры ниже в качестве руководства по этим типам кратковременных событий.
Журнал системных событий:
2020-04-09 11:14:11 85 CPU 2 temperature is within range.
2020-04-09 11:14:06 84 CPU 2 temperature is greater than the upper critical threshold.
2020-04-09 09:16:31 83 CPU 2 temperature is within range.
2020-04-09 09:16:16 82 CPU 2 temperature is greater than the upper critical threshold.
2020-04-09 08:58:33 81 CPU 2 temperature is within range.
2020-04-09 08:58:17 80 CPU 2 temperature is greater than the upper critical threshold.
2020-04-09 08:25:47 79 CPU 2 temperature is within range.
2020-04-09 08:25:27 78 CPU 2 temperature is greater than the upper critical threshold.
2020-04-09 06:57:02 77 CPU 2 temperature is within range.
2020-04-09 06:56:57 76 CPU 2 temperature is greater than the upper critical threshold.
Журнал жизненного цикла:
2020-04-09 00:44:15 7851 TMP0205 CPU 2 temperature is within range.
2020-04-09 00:44:07 7850 TMP0203 CPU 2 temperature is greater than the upper critical threshold.
2020-04-08 22:46:31 7773 TMP0205 CPU 2 temperature is within range.
2020-04-08 22:46:18 7772 TMP0203 CPU 2 temperature is greater than the upper critical threshold.
2020-04-08 22:28:34 7769 TMP0205 CPU 2 temperature is within range.
2020-04-08 22:28:18 7768 TMP0203 CPU 2 temperature is greater than the upper critical threshold.
2020-04-08 21:55:49 7736 TMP0205 CPU 2 temperature is within range.
2020-04-08 21:55:29 7735 TMP0203 CPU 2 temperature is greater than the upper critical threshold.
2020-04-08 20:27:03 7697 TMP0205 CPU 2 temperature is within range.
2020-04-08 20:26:58 7696 TMP0203 CPU 2 temperature is greater than the upper critical threshold.
При достижении этих пороговых значений температуры процессоры Intel могут включать ограничения, чтобы снизить энергопотребление и температуру процессора.
Cause
Resolution
Несмотря на то, что эти типы переходных пиков производительности ЦП не являются аномальными, инженерный отдел iDRAC9 продолжает выполнять точную настройку алгоритма охлаждения для предотвращения этих событий. Например, в iDRAC9 4.22.00.00 и iDRAC9 4.40.00.00 включены улучшения охлаждения для этой последовательности. Чтобы убедиться, что на серверах PowerEdge установлены новейшие алгоритмы динамического охлаждения, обновите микропрограмму iDRAC9 до последней версии.
Временное решение проблемы.
Конечные пользователи могут вручную изменить параметры охлаждения системы, чтобы предотвратить эти кратковременные события, которые могут привести к скачкам температуры ЦП. Используйте одно из следующих временных решений для увеличения базовой скорости вращения вентилятора и поддержания более низкой температуры ЦП.
Профиль максимальной производительности
Значение «System Thermal Profile Optimization» можно изменить на «Maximum Performance (Performance Optimized)». Этот температурный профиль обеспечивает следующие преимущества:
- Снижение вероятности ограничения памяти или ЦП
- Повышенная вероятность активации режима Turbo
- Как правило, более высокая скорость вентилятора при простое и ресурсоемких нагрузках
Оптимизацию температурного профиля можно изменить следующими способами:
Интерфейс >пользователя iDRAC9Конфигурация>Настройки> системы Параметры> оборудования Конфигурация системы охлаждения
racadm set System.ThermalSettings.ThermalProfile
racadm>>racadm set System.ThermalSettings.ThermalProfile 1
[Key=System.Embedded.1#ThermalSettings.1]
Object value modified successfully
Supported Values:
0 - Default Thermal Profile Settings
1 - Maximum Performance
2 - Minimum Power
3 - Sound Cap
Смещение частоты вращения вентилятора
Смещение частоты вращения вентилятора позволяет увеличить скорость вращения вентилятора системы за четыре шага. Эти шаги в равной степени разделены между обычной базовой скоростью и максимальной скоростью вентиляторов серверной системы. Смещение частоты вращения вентилятора приводит к увеличению скорости вращения вентилятора (на значение смещения в %) по сравнению с базовой скоростью вентилятора, рассчитанной алгоритмом терморегулирования. Возможные значения:
- Low fan speed: обеспечивает низкую частоту вращения вентилятора.
- Medium fan speed: обеспечивает частоту вращения вентилятора, близкую к средней.
- High fan speed: частота вращения вентилятора приближается к максимальной.
- Max fan speed: обеспечивает максимальную частоту вращения вентилятора.
- Выкл. — смещение частоты вращения вентилятора отключено. Это значение по умолчанию. При выборе значения «Off» процентное значение не отображается. Применяется скорость вентилятора по умолчанию без смещения. И наоборот, если установить максимальное значение, то скорость всех вентиляторов будет максимальной.
Смещение частоты вращения вентилятора можно изменить следующими способами:
Интерфейс >пользователя iDRAC9Конфигурация>Настройки> системы Параметры> оборудования Конфигурация системы охлаждения
racadm set System.ThermalSettings.FanSpeedOffset
racadm>>racadm set System.ThermalSettings.FanSpeedOffset 2
[Key=System.Embedded.1#ThermalSettings.1]
Object value modified successfully
Supported Values:
0 - Low
1 - High
2 - Medium
3 - Max
255 - Off
Примечание. Увеличение базовых значений скорости вращения вентилятора увеличивает энергопотребление вентилятора и шум вентилятора.