PowerEdge: TMP0203: CPU 온도가 상한 임계치보다 높음
Summary: iDRAC9가 있는 PowerEdge 서버는 CPU 워크로드가 CPU PowerMax 또는 CPU PowerMax에 근접하여 급증할 때 CPU x 온도가 위험 임계값 초과 이벤트를 보고할 수 있습니다.
Symptoms
iDRAC9이 있는 PowerEdge 서버는 CPU 워크로드가 CPU Power Max 또는 CPU Power Max에 근접하여 급증할 때 CPU x 온도가 심각 임계값 상한 이벤트보다 높다고 보고할 수 있습니다. 추가 CPU 요구를 충족하기 위해 일시적인 전원 버스트가 발생하면 프로세서 온도가 일시적으로 위험 임계값 상한을 초과할 수 있습니다. 예를 들어 50-60%의 사용률로 작동하고 5-20초 동안 사용률이 100%로 급증하는 서버는 CPU 온도에 대한 위험 임계값 상한을 일시적으로 초과할 수 있습니다. 이 임계값을 초과하면 이벤트가 시스템 이벤트 로그 및 수명주기 로그에 기록됩니다. 최대 과도 상태 스파이크가 끝나고 CPU 온도가 정상으로 돌아오면 CPU x 온도가 범위 내에 있음을 나타내는 이벤트가 기록됩니다.
이와 같은 일시적인 스파이크가 발생하면 두 이벤트는 일반적으로 서로 5-20초 이내에 발생합니다. 이러한 유형의 일시적인 이벤트에 대한 지침은 아래 예를 참조하십시오.
시스템 이벤트 로그:
2020-04-09 11:14:11 85 CPU 2 temperature is within range.
2020-04-09 11:14:06 84 CPU 2 temperature is greater than the upper critical threshold.
2020-04-09 09:16:31 83 CPU 2 temperature is within range.
2020-04-09 09:16:16 82 CPU 2 temperature is greater than the upper critical threshold.
2020-04-09 08:58:33 81 CPU 2 temperature is within range.
2020-04-09 08:58:17 80 CPU 2 temperature is greater than the upper critical threshold.
2020-04-09 08:25:47 79 CPU 2 temperature is within range.
2020-04-09 08:25:27 78 CPU 2 temperature is greater than the upper critical threshold.
2020-04-09 06:57:02 77 CPU 2 temperature is within range.
2020-04-09 06:56:57 76 CPU 2 temperature is greater than the upper critical threshold.
수명주기 로그:
2020-04-09 00:44:15 7851 TMP0205 CPU 2 temperature is within range.
2020-04-09 00:44:07 7850 TMP0203 CPU 2 temperature is greater than the upper critical threshold.
2020-04-08 22:46:31 7773 TMP0205 CPU 2 temperature is within range.
2020-04-08 22:46:18 7772 TMP0203 CPU 2 temperature is greater than the upper critical threshold.
2020-04-08 22:28:34 7769 TMP0205 CPU 2 temperature is within range.
2020-04-08 22:28:18 7768 TMP0203 CPU 2 temperature is greater than the upper critical threshold.
2020-04-08 21:55:49 7736 TMP0205 CPU 2 temperature is within range.
2020-04-08 21:55:29 7735 TMP0203 CPU 2 temperature is greater than the upper critical threshold.
2020-04-08 20:27:03 7697 TMP0205 CPU 2 temperature is within range.
2020-04-08 20:26:58 7696 TMP0203 CPU 2 temperature is greater than the upper critical threshold.
이러한 온도 임계값이 충족되면 인텔 프로세서는 소비 전력을 줄이고 CPU 온도를 낮추기 위해 성능을 제한할 수 있습니다.
Cause
Resolution
이러한 유형의 일시적인 CPU 성능 급증이 비정상은 아니지만 iDRAC9 엔지니어링 팀은 이러한 이벤트를 방지하기 위해 열 알고리즘을 계속 미세 조정합니다. 예를 들어, iDRAC9 4.22.00.00 및 iDRAC9 4.40.00.00에는 이 시퀀스에 해당하는 열 개선 사항이 포함되어 있습니다. PowerEdge 서버에 최신 동적 열 알고리듬이 설치되었는지 확인하려면 사용 가능한 최신 iDRAC9 펌웨어로 업데이트합니다.
해결 방법:
최종 사용자는 이러한 일시적인 이벤트가 CPU 온도를 급등시키는 것을 방지하기 위해 시스템 열을 수동으로 수정할 수 있습니다. 다음 해결 방법 중 하나를 사용하여 기준선에서 팬 속도를 높이고 CPU 온도를 낮게 유지합니다.
최대 성능 프로파일
시스템 열 프로파일 최적화는 최대 성능(성능 최적화)으로 수정할 수 있습니다. 이 열 프로파일은 다음과 같은 이점을 제공합니다.
- 메모리 또는 CPU 스로틀링 가능성 감소
- 터보 모드 활성화 확률 증가
- 일반적으로 유휴 및 스트레스 부하에서 더 높은 팬 속도
열 프로파일 최적화는 다음 방법을 통해 수정할 수 있습니다.
iDRAC9 UI>구성>환경 설정>하드웨어 설정>냉각 구성
racadm set System.ThermalSettings.ThermalProfile
racadm>>racadm set System.ThermalSettings.ThermalProfile 1
[Key=System.Embedded.1#ThermalSettings.1]
Object value modified successfully
Supported Values:
0 - Default Thermal Profile Settings
1 - Maximum Performance
2 - Minimum Power
3 - Sound Cap
팬 속도 오프셋
팬 속도 오프셋을 사용하면 4단계로 시스템 팬 속도를 높일 수 있습니다. 이러한 단계는 서버 시스템 팬의 일반적인 기준 속도와 최대 속도로 동일하게 나뉩니다. 팬 속도 오프셋은 열 제어 알고리듬에 의해 계산된 기준 팬 속도보다 팬 속도가 (오프셋 % 값만큼) 증가하도록 합니다. 가능한 값은 다음과 같습니다.
- 낮은 팬 속도 - 팬 속도를 보통 팬 속도로 구동합니다.
- 중간 팬 속도 - 팬 속도를 중간에 가깝게 유도합니다.
- 높은 팬 속도 - 팬 속도를 최고 속도에 가깝게 구동합니다.
- 최대 팬 속도 - 팬 속도를 최고 속도로 구동합니다.
- 끄기 - 팬 속도 오프셋이 꺼짐으로 설정됩니다. 이것이 기본 값입니다. OFF로 설정하면 백분율이 표시되지 않습니다. 기본 팬 속도는 오프셋 없이 적용됩니다. 반대로 최대 설정을 사용하면 모든 팬이 최대 속도로 실행됩니다.
팬 속도 오프셋은 다음 방법을 통해 수정할 수 있습니다.
iDRAC9 UI>구성>환경 설정>하드웨어 설정>냉각 구성
racadm set System.ThermalSettings.FanSpeedOffset
racadm>>racadm set System.ThermalSettings.FanSpeedOffset 2
[Key=System.Embedded.1#ThermalSettings.1]
Object value modified successfully
Supported Values:
0 - Low
1 - High
2 - Medium
3 - Max
255 - Off
참고: 팬 속도 기준선을 높이면 팬 소비 전력이 증가하고 팬 음향이 증가합니다.