OpenShiftイベント コード: 1030ノード0001

Zusammenfassung: 単一のコントロール プレーン ノードでCPU使用率が高い状態が続くと、CPU負荷が高くなり、フェールオーバーが発生する可能性があります。使用可能なCPUを増やします。

Dieser Artikel gilt für Dieser Artikel gilt nicht für Dieser Artikel ist nicht an ein bestimmtes Produkt gebunden. In diesem Artikel werden nicht alle Produktversionen aufgeführt.

Symptome

CPUに過度の負荷がかかると、kube-apiserverおよびetcdからのシリアル化が遅くなり、パフォーマンスが低下する可能性があります。これが発生すると、クライアントに応答しないAPI要求が表示され、再度発行されてCPU負荷がさらに高まるリスクがあります

また、バックエンドの etcd の応答が遅いために、liveness probe が失敗する可能性もあります。この条件下で1つのkube-apiserverに障害が発生した場合、残りのkube-apiserverもアンダープロビジョニングされるため、カスケードが発生する可能性があります。

Ursache

このアラートは、単一のコントロール プレーン ノードでCPUの利用率が高い状態が続いている場合にトリガーされます

このアラートの緊急度は、ノードが高いCPU使用率を維持している時間によって決まります。
  • Critical
    • 個々のコントロール プレーン ノードのCPU使用率が1時間以上にわたって90%を超えた場合。
  • Warning
    • 個々のコントロール プレーン ノードのCPU使用率が5m以上にわたって90%を超えている場合。
このアラートは、3 つのコントロール プレーン ノードすべての CPU 使用率が 2 つのコントロール プレーン ノードが維持できるよりも高い場合にトリガーされます。単一のコントロール プレーン ノードの停止により、連鎖的な障害が発生する可能性があります。使用可能なCPUを増やします。

このアラートの緊急性は、3つのコントロール プレーン ノードすべてのCPU使用率が、2つのコントロール プレーン ノードが維持できる時間よりも高い時間によって決まります。
  • Warning
    • 3つすべてのコントロール プレーン ノードのCPU使用率が高い場合、2つのコントロール プレーン ノードは10m以上維持できます。

Lösung

診断:

診断に役立てるために、OCP Webコンソールで次のPromQLクエリーを実行します(→メトリックを確認し→クエリーを実行します)。
特定のノードでCPUの利用率が最も高い上位5つのコンテナ: image.png

アラートがトリガーされる可能性のある条件は次のとおりです。

  • APIサーバーへのより多くの呼び出しを生成し、CPU使用率が高くなる原因となっている新しいワークロードがあります。この場合は、コントロール プレーン ノードの CPU とメモリを増やします。
  • アラートはノード メトリックに基づいてトリガーされるため、ノード上のコンポーネントが高いCPU使用率の原因となっている可能性があります。
  • apiserver/etcd は、根本的な条件によって引き起こされているクライアントの再試行により、より多くの要求を処理しています。
  • HTTP2 (単一の TCP 接続で要求を多重化します) が原因で、apiserver インスタンスへの要求が不均等に分散されます。ロードバランサーはアプリケーション層にないため、http2を認識しません。

緩和策:

  • ワークロードがCPU使用率が高くなる原因となるAPIサーバーへの負荷を生成している場合は、コントロール プレーン ノードのCPUとメモリーを増やします。
  • クラスターの劣化が原因でCPU使用率が高い状態が続く場合は、次の手順を実行します。
    • 劣化の根本原因を突き止め、それに応じて次の手順を決定します。

サポート:

上記のすべての手順で問題を解決できない場合は、Dell EMCテクニカル サポートに連絡して調査を依頼してください。

 

Weitere Informationen

ログ バンドルが収集された場合は、Prometheus データを補完マテリアルとしてダンプすることもできます
クラスターのPrometheusデータのダンプを取得する方法:

image.png

Betroffene Produkte

APEX Cloud Platform for Red Hat OpenShift
Artikeleigenschaften
Artikelnummer: 000217405
Artikeltyp: Solution
Zuletzt geändert: 13 Feb. 2026
Version:  3
Antworten auf Ihre Fragen erhalten Sie von anderen Dell NutzerInnen
Support Services
Prüfen Sie, ob Ihr Gerät durch Support Services abgedeckt ist.