ポッドSDNASに障害が発生しているため、PFxM UIがロードされない

概要: PowerFlex Management Platformの「PFMP」ポッドSDNASゲートウェイが正常な状態でないため、4.x PFxM UIがロードされません。

この記事は次に適用されます: この記事は次には適用されません: この記事は、特定の製品に関連付けられていません。 すべての製品パージョンがこの記事に記載されているわけではありません。

現象

  • PFxM UI画面がロード中の状態でスタックする
  • SDNASゲートウェイを除くすべてのPFMPポッドが実行されている
  • ファイル ストレージ(SDNAS)は、システムで使用されている場合と使用されていない場合があります

ASMManagerログには、SDNASゲートウェイ ポッドに関する問題が表示されます。

2023-11-15 20:39:25,187 [AsmManagerAppAppInitializationThread] (PingUtil.java:32) [DEBUG] Could not connect to host sdnasgw.powerflex.svc  on port 443
2023-11-15 20:39:25,188 [AsmManagerAppAppInitializationThread] (LCMService.java:1237) [DEBUG] Service checks completed, msg: SDNAS Gateway pod failed to response
2023-11-15 20:39:25,188 [AsmManagerAppAppInitializationThread] (LCMService.java:1262) [WARN] Liveness probe error: SDNAS Gateway pod failed to respons

失敗したDNSイベントを示すSDNASゲートウェイ ログ:

[ERROR] plugin/errors: 2 postgres-ha-pgbouncer.powerflex.svc.cluster.local.<DNS>. AAAA: read udp 10.42.0.184:57617->8.8.8.8:53: i/o timeout
[ERROR] plugin/errors: 2 postgres-ha-pgbouncer.powerflex.svc.cluster.local.<DNS>. AAAA: read udp 10.42.0.184:59414->8.8.8.8:53: i/o timeout
[ERROR] plugin/errors: 2 postgres-ha-pgbouncer.powerflex.svc.cluster.local.<DNS>. A: read udp 10.42.0.184:50241->8.8.8.8:53: i/o timeout

*この例では、8.8.8.8 IPアドレスが使用されていますが、これは正しくありません。

 

CoreDNSポッド構成マップは、「転送」が8.8.8.8を指していることを示しています。

Corefile: ".:53 {\n    errors \n    health  {\n        lameduck 5s\n    }\n    ready
    \n    kubernetes   cluster.local  cluster.local in-addr.arpa ip6.arpa {\n        pods
    insecure\n        fallthrough in-addr.arpa ip6.arpa\n        ttl 30\n    }\n    prometheus
    \  0.0.0.0:9153\n    forward   . 8.8.8.8\n    loop \n    cache   30\n    reload
    \n    loadbalance \n}"

参照rke2-coredns-rke2-coredns_data.txt用のログ ファイル。このファイルは、PFxMログ バンドルに収集されます。

原因

ASMManagerポッドは、特定のポッドに依存して正常性を維持し、「Liveness」チェックに合格します。この例では、SDNASゲートウェイ ポッドが開始に失敗し、「Liveness」チェックが失敗しました。SDNASゲートウェイの障害は、CoreDNSポッドから誤ったDNS設定を受信したことに起因していました。CoreDNSは、他のポッド/サービスをIPアドレス8.8.8.8に不適切に送信していました。代わりに、CoreDNSは、正しいDNS値を持つ独自の/etc/resolv.confファイルを参照する必要があります。

解決方法

CoreDNS構成マップは、CoreDNSポッドが正しいDNS構成を認識するように調整する必要があります
1)PFMPサーバーの1つにSSHで接続します。
2)CoreDNS構成マップを編集します。

 kubectl edit cm -n kube-system rke2-coredns-rke2-coredns

3)「転送」ブロックと値を特定し、値を「/etc/resolv.conf」に変更します。この場合、誤った値は 8.8.8.8 です。構成マップは次のようになります。

 kubectl get cm -n kube-system -o yaml rke2-coredns-rke2-coredns
apiVersion: v1
data:
  Corefile: ".:53 {\n    errors \n    health  {\n        lameduck 5s\n    }\n    ready
    \n    kubernetes   cluster.local  cluster.local in-addr.arpa ip6.arpa {\n        pods
    insecure\n        fallthrough in-addr.arpa ip6.arpa\n        ttl 30\n    }\n    prometheus
    \  0.0.0.0:9153\n    forward   . /etc/resolv.conf\n    cache   30\n    loop \n    reload
    \n    loadbalance \n}"
kind: ConfigMap

間のデッドロックが原因で潜在的なHMONタイムアウトが発生する問題が解決されています。4)CoreDNSポッドを再起動します。

 for x in `kubectl get pods -n kube-system|grep -i rke2-coredns-rke2-coredns|awk '{print $1}'|grep -iv auto`; do kubectl delete pods -n kube-system $x; done

  5)SDNASゲートウェイを再起動します。

 kubectl get pods -n powerflex|grep -i sdnas|awk {'print $1'}|xargs kubectl delete pod -n powerflex

6)約5〜15分待つと、PFxM UIにアクセスできるようになります。

その他の情報

問題が発生するバージョン

PowerFlex Manager 4.x

修正バージョン

該当なし - 設計どおりの動作

 

製品

PowerFlex rack, VxFlex Ready Nodes, PowerFlex custom node, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625, Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625 , PowerFlex custom node, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R660, PowerFlex custom node R6625, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R7625, PowerFlex rack connectivity, PowerFlex rack HW, PowerFlex rack RCM Software, VxFlex Ready Node, VxFlex Ready Node R640, VxFlex Ready Node R740xd, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840, VxFlex Ready Node R840 ...
文書のプロパティ
文書番号: 000220000
文書の種類: Solution
最終更新: 11 5月 2026
バージョン:  2
質問に対する他のDellユーザーからの回答を見つける
サポート サービス
お使いのデバイスがサポート サービスの対象かどうかを確認してください。