RecoverPoint for Virtual Machine: 拡張環境でのinit状態とエラー状態の間のコンシステンシー グループ ループ
Summary: RecoverPoint for Virtual Machine: 拡張環境でのinit状態とエラー状態の間のコンシステンシー グループ ループ
Symptoms
スケール環境で、init状態とエラー状態の間でコンシステンシー グループがループします
データ レプリケーション使用不可(DRU)の原因となります。
ログで見つかった症状:
ESXスプリッター ログ:
以下のログは、/vmfs/volumes/vsan:5xxxxxxxxxx-dxxxxxxxxxxxxxxxの読み取りに失敗したことを示しているため、VSAN内のすべてのRPVSボリュームが削除されます。
spl_esx_discover_RPvStorage_clusters_in_datastore:ディレクトリ/vmfs/volumes/vsan:5xxxxxxxxxxxxxxxxxxxxx-dxxxxxxxxxの読み取りに失敗し、タイムアウト
update_rpvs_dbステータスが返されました:LUN 1が前回のデバイス ビュー更新でスキャンされませんでした
RPVS_ClusterLuns_removeLunInfo:LUN = 1(名前RPVS_Lun00001.vmdk)を呼び出しました。クラスターID = 2xxxxxxxxxxxx
update_rpvs_db:LUN 12が最後のデバイス ビュー アップデート
RPVS_ClusterLuns_removeLunInfoでスキャンされませんでした:LUN = 12(名前RPVS_Lun00012.vmdk)が呼び出されました。クラスターID = 2xxxxxxxxxxx
update_rpvs_db: lun 13 が前回のデバイス ビュー更新でスキャンされませんでした...
* RPVS検出プロセスが成功すると、すべてのRPVSボリュームが再度追加されます。
parse_vmdk_file:ファイル/vmfs/volumes/vsan:5xxxxxxxxxxxxxxxx/RPvStorage/4xxxxxxxxxxx/RPVS_Lun00001.vmdkで呼び出されました
parse_vmdk_file:capacity=12000000、thinLun=0、flat_filename=RPVS_Lun00001-flat.vmdk、rawguid=0x6xxxxxxxxxxxx
RPVS_ClusterLuns_addLunInfo:追加LUN 1、クラスター4xxxxxxxxxxxxx parse_vmdk_file:ファイル/vmfs/volumes/vsanで呼び出されます:5xxxxxxxxxxxxxx-dxxxxxxxxxxxxxxxx/RPvStorage_23d5fb88838940xxx_010/RPVS_Lun00012.vmdk parse_vmdk_file: capacity=524288000、thinLun=0、flat_filename=RPVS_Lun00012-flat.vmdk、rawguid=0x6xxxxxxxxxxxx RPVS_ClusterLuns_addLunInfo:LUN 12、クラスター2xxxxxxxxxxxxxxxを追加
* RPVS検出プロセスに長い時間がかかっていることを示すログ
CommandExecuterBase_v_handleCommands_i:cmd 0x417fdde35040、cmd->execute(CommandRPVSDiscovery)、実行時間32585607マイクロ秒、キュー内のコマンド数: 11 CommandExecuterBase_v_handleCommands_i:cmd 0x417fdde35040、cmd->execute(CommandRPVSDiscovery)、実行時間33277695マイクロ秒、キュー内のコマンド数: 11 CommandExecuterBase_v_handleCommands_i:cmd 0x417fdde35040、cmd->execute(CommandRPVSDiscovery)、実行時間35834242マイクロ秒、キュー内のコマンド数: 11 CommandExecuterBase_v_handleCommands_i:cmd 0x417fdde35040、cmd->execute(CommandRPVSDiscovery)、実行時間36488014マイクロ秒、キュー内のコマンド数: 11 CommandExecuterBase_v_handleCommands_i:cmd 0x417fdde35040、cmd->execute(CommandRPVSDiscovery)、実行時間37767728マイクロ秒、キュー内のコマンド数: 11 CommandExecuterBase_v_handleCommands_i: cmd 0x417fdde35040、cmd->execute(CommandRPVSDiscovery)、実行時間49355575マイクロ秒、キュー内のコマンド数: 11 CommandExecuterBase_v_handleCommands_i: cmd 0x417fdde35040、cmd->execute(CommandRPVSDiscovery)、実行時間109257427マイクロ秒、キュー内のコマンド数: 19
影響を受けるすべてのRP4VMバージョン
Cause
ESXスプリッターは、RPVSボリューム(ジャーナルとリポジトリー)をt_rpvsDiscoveryPeriodicTimerIntervalごとにスキャンします(デフォルト: 30) 秒です。
スキャンは、/vmfs/volumes/を読み取り、その中の各ディレクトリーをスキャンして、RPVS_LunXXXXX.vmdkを探すことによって実行されます
RPVSボリュームは/vmfs/volumes/<datastore>/<cluster=id>/にあります)。VSAN環境では、/vmfs/volumes/vsan:<vsan-id>/<cluster=id>/に存在します
/vmfs/volumes/内のいずれかのディレクトリーの読み取りが失敗した場合(タイムアウト、一時的なエラーなど)、障害が発生したディレクトリー内のすべてのRPVSボリュームが削除されます。
以降の実行では、rpvs 検出プロセスが RPVS_LunXXXXX.vmdk の読み取りと検出に成功すると、対応する RPVS ボリュームが再度追加されます。
これが、CG が Error と Init の間でループする理由です。
この問題は、vSAN内の多数のホストが/vmfs/volumes/の下のディレクトリーを同時に読み取る場合に拡大します。
Resolution
クラスター内の各ESXホストで、スプリッターの微調整値t_rpvsDiscoveryPeriodicTimerInterval
を180秒から600秒の間のランダムな値に更新し、kdriverを再起動します
ESX Splitter Tweakは
/etc/kdriver/tweak/tweak.params.splitterまたは/etc/config/emc/rp/kdriver/tweak/tweak.params.splitterにあります。
解決策:
Dell EMCエンジニアリングが、現在この問題を調査中です。恒久対策はまだ準備中です。Dell EMCカスタマー サポート センターまたはサービス担当者に連絡して、このソリューションIDを伝えてください。