Openshift 事件代码:1030NODE0001

Zusammenfassung: 单个控制平面节点上的 CPU 利用率持续较高,更大的 CPU 压力可能会导致故障转移;增加可用 CPU。

Dieser Artikel gilt für Dieser Artikel gilt nicht für Dieser Artikel ist nicht an ein bestimmtes Produkt gebunden. In diesem Artikel werden nicht alle Produktversionen aufgeführt.

Symptome

过高的 CPU 压力会导致 kube-apiserver 和 etcd 序列化速度缓慢,性能不佳。发生这种情况时,存在客户端看到无响应的 API 请求的风险,这些请求再次发出,从而导致更大的 CPU 压力。

由于后端的 etcd 响应缓慢,它还可能导致存活探测失败。如果一个 kube-apiserver 在这种情况下出现故障,您很可能会遇到级联,因为其余的 kube-apiserver 也配置不足。

Ursache

当单个控制平面节点上出现持续的高 CPU 利用率时,会触发此警报。

此警报的紧急程度取决于节点保持高 CPU 使用率的时间长度:
  • 严重
    • 单个控制平面节点上的 CPU 使用率超过 90% 且超过 1 小时。
  • Warning
    • 当单个控制平面节点上的 CPU 使用率超过 90% 且超过 5m 时。
当所有三个控制平面节点的 CPU 利用率都高于两个控制平面节点可以承受的程度时,将触发此警报;单个控制平面节点中断可能会导致级联故障;增加可用 CPU。

此警报的紧急程度取决于所有三个控制平面节点的 CPU 利用率高于两个控制平面节点可以维持的时间长度。
  • Warning
    • 当所有三个控制平面节点的 CPU 利用率都高于两个控制平面节点时,控制平面节点可以维持超过 10m。

Lösung

诊断:

在 OCP Web 控制台上执行以下 PromQL 查询,以帮助进行诊断(观察→指标→运行查询)。
特定节点上 CPU 利用率最高的前 5 个容器:image.png

以下是可能触发警报的条件:

  • 有一个新的工作负载正在生成对 APIServer 的更多调用,并导致 CPU 使用率过高。在这种情况下,请增加控制平面节点上的 CPU 和内存。
  • 该警报是根据节点指标触发的,因此可能是节点上的某个组件导致了高 CPU 使用率。
  • 由于底层条件导致的客户端重试,apiserver/etcd 正在处理更多请求。
  • 由于 HTTP2(它通过单个 TCP 连接多路复用请求),请求分发到 APIServer 实例不均匀。负载均衡器不在应用程序层,因此不理解 http2。

缓解措施:

  • 如果工作负载正在向 APIServer 生成负载,导致 CPU 使用率过高,请增加控制平面节点上的 CPU 和内存。
  • 如果持续的高 CPU 使用率是由于群集降级所致:
    • 找出降级的根本原因,然后相应地确定后续步骤。

支持:

如果上述所有步骤都无法解决问题,请联系 Dell EMC 技术支持以进行进一步调查。

 

Weitere Informationen

如果收集了日志包,Prometheus 数据也可以作为补充材料进行转储。
如何转储群集 prometheus 数据:

image.png

Betroffene Produkte

APEX Cloud Platform for Red Hat OpenShift
Artikeleigenschaften
Artikelnummer: 000217405
Artikeltyp: Solution
Zuletzt geändert: 13 Feb. 2026
Version:  3
Antworten auf Ihre Fragen erhalten Sie von anderen Dell NutzerInnen
Support Services
Prüfen Sie, ob Ihr Gerät durch Support Services abgedeckt ist.