「PowerEdge:TMP0203:CPUの温度が重大なしきい値の上限を超えている
Summary: iDRAC9搭載PowerEdgeサーバーでは、CPU PowerMaxでCPUワークロードが急増した場合、またはその近くでCPUワークロードが急増した場合に、CPU xの温度が重大しきい値の上限イベントよりも高いと報告されることがあります。
Symptoms
iDRAC9搭載PowerEdgeサーバーでは、CPUワークロードがCPUの最大電力に達した、またはCPUの能力の最大値付近で急上昇した場合に、CPU xの温度が重大な上限しきい値イベントよりも高いと報告されることがあります。追加のCPU要求を満たすために一時的な電力バーストが発生すると、プロセッサーの温度が一時的に重大な上限しきい値を超えることがあります。たとえば、50 〜 60 % の使用率で動作していて、5 〜 20 秒間使用率が 100% に急上昇するサーバーは、CPU 温度の上限である重要しきい値を一時的に超えることがあります。このしきい値を超えると、イベントがシステム イベント ログとLifecycleログに記録されます。ピーク時の一時的なスパイクが終了し、CPU温度が正常に戻ると、 CPU xの温度が範囲内であることを示すイベントが記録されます
このような一時的なスパイクが発生すると、通常、2つのイベントは互いに5〜20秒以内に発生します。これらのタイプの一時的なイベントのガイダンスとして、以下の例を参照してください。
システム イベント ログ:
2020-04-09 11:14:11 85 CPU 2 temperature is within range.
2020-04-09 11:14:06 84 CPU 2 temperature is greater than the upper critical threshold.
2020-04-09 09:16:31 83 CPU 2 temperature is within range.
2020-04-09 09:16:16 82 CPU 2 temperature is greater than the upper critical threshold.
2020-04-09 08:58:33 81 CPU 2 temperature is within range.
2020-04-09 08:58:17 80 CPU 2 temperature is greater than the upper critical threshold.
2020-04-09 08:25:47 79 CPU 2 temperature is within range.
2020-04-09 08:25:27 78 CPU 2 temperature is greater than the upper critical threshold.
2020-04-09 06:57:02 77 CPU 2 temperature is within range.
2020-04-09 06:56:57 76 CPU 2 temperature is greater than the upper critical threshold.
ライフサイクル ログ:
2020-04-09 00:44:15 7851 TMP0205 CPU 2 temperature is within range.
2020-04-09 00:44:07 7850 TMP0203 CPU 2 temperature is greater than the upper critical threshold.
2020-04-08 22:46:31 7773 TMP0205 CPU 2 temperature is within range.
2020-04-08 22:46:18 7772 TMP0203 CPU 2 temperature is greater than the upper critical threshold.
2020-04-08 22:28:34 7769 TMP0205 CPU 2 temperature is within range.
2020-04-08 22:28:18 7768 TMP0203 CPU 2 temperature is greater than the upper critical threshold.
2020-04-08 21:55:49 7736 TMP0205 CPU 2 temperature is within range.
2020-04-08 21:55:29 7735 TMP0203 CPU 2 temperature is greater than the upper critical threshold.
2020-04-08 20:27:03 7697 TMP0205 CPU 2 temperature is within range.
2020-04-08 20:26:58 7696 TMP0203 CPU 2 temperature is greater than the upper critical threshold.
これらの温度しきい値に達すると、インテル プロセッサーは、スロットルを実行して電力消費を削減し、CPU温度を引き下げます。
Cause
Resolution
このようなタイプの一時的なCPUパフォーマンスの急上昇は異常ではありませんが、iDRAC9エンジニアリングはこれらのイベントを防ぐために温度アルゴリズムの微調整を続けています。たとえば、iDRAC9 4.22.00.00およびiDRAC9 4.40.00.00には、このシーケンスに固有の熱に関する改善が含まれています。PowerEdgeサーバーに最新の動的温度アルゴリズムがインストールされるようにするには、使用可能な最新のiDRAC9ファームウェアにアップデートします。
回避策:
これらの一時的なイベントでCPU温度が急上昇しないように、エンドユーザーは、システムの温度を手動で変更できます。次のいずれかの回避策を使用して、ベースラインでファン速度を上げ、CPU温度を低く維持します。
最大パフォーマンス プロファイル
システム温度プロファイルの最適化は、最大限のパフォーマンス(最適化パフォーマンス)に変更できます。この温度プロファイルには、次の利点があります。
- メモリーまたはCPUスロットルが発生する可能性を低減
- ターボモードが起動する確率が上昇
- 一般に、アイドル負荷およびストレス負荷時のファン速度の向上
温度プロファイルの最適化は、次の方法で変更できます。
iDRAC9 UI>構成>システム設定>ハードウェア設定>冷却装置の設定
racadm set System.ThermalSettings.ThermalProfile
racadm>>racadm set System.ThermalSettings.ThermalProfile 1
[Key=System.Embedded.1#ThermalSettings.1]
Object value modified successfully
Supported Values:
0 - Default Thermal Profile Settings
1 - Maximum Performance
2 - Minimum Power
3 - Sound Cap
ファン速度オフセット
ファン速度オフセットを使用すると、システム ファン速度を4段階で引き上げることができます。これらの段階は、サーバー システム ファンの標準的なベースライン速度と最大速度の間で均等に割り振られています。ファン速度オフセットを使用すると、熱制御アルゴリズムによって計算されたベースライン ファン速度よりもファン速度が(オフセット%値によって)高くなります。次の状態があります。
- 低ファン速度 - ファン速度を中程度のファン速度にします。
- 中ファン速度 - ファン速度を中程度に近づけます。
- 高ファン速度 - ファン速度を最大速度近くまで上昇させます。
- Max fan speed(最大ファン速度):ファン速度を最大速度まで上昇させます。
- オフ - ファン速度オフセットはオフに設定されています。これはデフォルト値です。オフに設定すると、パーセンテージは表示されません。デフォルトのファン速度はオフセットなしで適用されます。逆に、最大設定では、すべてのファンが最大速度で回転します。
ファン速度オフセットは、次の方法で変更できます。
iDRAC9 UI>構成>システム設定>ハードウェア設定>冷却装置の設定
racadm set System.ThermalSettings.FanSpeedOffset
racadm>>racadm set System.ThermalSettings.FanSpeedOffset 2
[Key=System.Embedded.1#ThermalSettings.1]
Object value modified successfully
Supported Values:
0 - Low
1 - High
2 - Medium
3 - Max
255 - Off
注:ファン速度のベースラインを上げると、ファンの電力消費量が増加し、ファンの音が大きくなります。