PowerFlex:MDMの頻繁な切断
概要: MDMなどのPowerFlexコンポーネントが、迅速かつ頻繁に切断と再接続を繰り返しています。 80〜190ms後に接続しているMDMイベントで接続が見つかりました
手順
現象
MDMコンポーネントの頻繁な切断と再接続を示すMDMイベント ログ:
2023-xx-xx 00:00:21.316 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, <MDM_Name> (ID <MDM_ID>), has lost connection to the cluster. 2023-xx-xx 00:00:21.419 MDM_CLUSTER_CONNECTED INFO The MDM, <MDM_Name> (ID <MDM_ID>), connected after 100ms 2023-xx-xx 00:00:23.480 MDM_CLUSTER_LOST_CONNECTION WARNING The MDM, <MDM_Name> (ID <MDM_ID>), has lost connection to the cluster. 2023-xx-xx 00:00:23.584 MDM_CLUSTER_CONNECTED INFO The MDM, <MDM_Name> (ID <MDM_ID>), connected after 110ms
切断中のMDMサーバーからのSAR出力に、高いTCP再送信が示されています。
sar -n ETCP 1 -t -f sar.0
atmptf/s estres/s retrans/s isegerr/s orsts/s
00:00:27 AM 0.00 0.00 62.00 0.00 0.00
00:00:28 AM 0.00 0.00 88.12 0.00 0.00
00:00:29 AM 0.00 3.00 100.00 0.00 0.00
00:00:30 AM 0.00 0.00 71.29 0.00 0.00
00:00:31 AM 0.00 0.00 71.00 0.00 0.00
...
00:01:02 AM 0.00 0.00 48.51 0.00 0.00
00:01:03 AM 0.00 0.00 15.00 0.00 0.00
00:01:04 AM 0.00 0.00 207.00 0.00 0.00
00:01:05 AM 0.00 0.00 36.00 0.00 0.00
00:01:06 AM 0.00 0.99 105.94 0.00 0.00
問題
簡単なMDMクラスター縮退イベント
パフォーマンスの低下
根本的な原因
MDMサーバーにパッチが適用され、Linuxカーネルが3.xから5.xにアップグレードされました。このカーネル アップグレードでは、デフォルトのOSパラメーターの多くが異なる値に変更されます。このケースでは、TCPパラメータ「net.ipv4tcp_fack」などが無効になっていますが、これがTCPの再送信を多く引き起こしたようです。
SDS RPMは、emc.confと呼ばれる構成ファイルを/opt/emc/scaleio/sds/cfg/ディレクトリーに提供します。このファイルには、Dellが推奨するOSパラメーターが多数含まれています。
これがPowerFlexラック/アプライアンス環境の場合、PowerFlex Managerはemc.confファイルを 「/opt/emc/scaleio/sds/cfg」 からサーバーの各systcl.confに自動的にコピーして適用します。これは、ノードの初期導入時にのみ発生します。sysctl.confが正しく更新されなかった可能性があります。sysctl.confファイルが正しい値で存在しない場合、カーネルを5.xにアップグレードした後に、いくつかの重要なパラメーターが変更される可能性があります。
対策
PowerFlexラック/アプライアンス環境では、emc.confが持つパラメーターの一部がsysctl.confに含まれていない場合は、emc.confを各サーバーの/etc/sysctl.confファイルにコピーすることをお勧めします。サーバーに変更を適用します。サーバーを再起動するか、「sysctl -p」コマンドを実行して/etc/sysctl.confからの変更を適用できます。これらの変更を行う際には、適切なメンテナンスのベスト プラクティスを確実に実施してください。
ソフトウェアのみの環境では、デル・テクノロジーズでは、これらのLinuxパラメーターを各サーバーに適用することをお勧めしますが、最終的にはビジネス次第です。ベスト プラクティスについて、または質問がある場合は、OSベンダーに問い合わせてください。
問題が発生するバージョン
すべてのPowerFlexバージョン