VNX:レプリケーション ルート チェックポイントが破損/非アクティブの場合のレプリケーションのクリーンアップ(ユーザー修正可能)

Summary: レプリケーション ルート チェックポイントが破損/非アクティブの場合のレプリケーションのクリーンアップ(ユーザー修正可能)

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

ルート チェックポイントが破損しています(一般的な理由は、ディスク障害が原因でバックエンドLUNに修正不能な項目があることです)
 
[nasadmin@CS0 ~]$ server_mount ALL | grep unmount
root_rep_ckpt_28_242474_1 on /root_rep_ckpt_28_242474_1 ckpt,perm,ro,<unmounted>
root_rep_ckpt_28_242474_2 on /root_rep_ckpt_28_242474_2 ckpt,perm,ro,<unmounted>
root_rep_ckpt_27_242517_1 on /root_rep_ckpt_27_242517_1 ckpt,perm,ro,<unmounted>
root_rep_ckpt_27_242517_2 on /root_rep_ckpt_27_242517_2 ckpt,perm,ro,<unmounted>

上記の出力では、ルート チェックポイントのみが表示されています。これは、メイン ファイル システムが良好であることを示しています。これは通常、savvolが破損した別のストレージ プール上に構築されていて、関連づけられているファイル システムが安全である場合に発生します。
[nasadmin@CS0 ~]$ nas_replicate -l
Name                      Type       Local Mover               Interconnect         Celerra      Status
rep_fs1                filesystem server_2                  -->Replication       Remote_CS  Critical 8865448248:The replication session encountered an error that halted progress.
rep_fs2                filesystem server_2                  -->Replication       Remote_CS  OK
rep_fs3                filesystem server_2                  -->Replication       Remote_CS  Critical 8865448248:The replication session encountered an error that halted progress.
上記の出力には、2つのレプリケーションの重大なエラーから明らかなエラーが反映されます(出力に表示されているルート チェックポイントのアンマウント ステータスの2セットと一致しserver_mount

Cause

Data Moverでパニックが発生した場合、ほとんどの場合、ディスクによる破損が原因で発生し、VNXはファイル システムを破損とマークします。ルート チェックポイントもアンマウントされます。

Resolution

注:バックエンドの問題を最初に修正する必要があります。たとえば、ディスクを交換する必要がある場合は、それを最初に修正する必要があります。

影響を受けるレプリケーションを削除するには、次の手順を実行します

セッションを直接削除しようとすると、削除タスクがハングしているように見えることがあります。削除によってルート チェックポイントの更新が試行され、破損しているために更新がハングするためです。これを修正するには、「メモ」セクションを参照してください。この手順は正しい順序で修正する必要があり、Control Stationからコマンド プロンプトを使用して実行する必要があります

1)nasadminとしてControl Stationにログインします

2)次の例に従ってレプリケーション セッション名を特定します。
a) Find the full name of root checkpoints by:
[nasadmin@CS0 ~]$ server_mount ALL | grep unmount
root_rep_ckpt_28_242474_1 on /root_rep_ckpt_28_242474_1 ckpt,perm,ro,<unmounted>
root_rep_ckpt_28_242474_2 on /root_rep_ckpt_28_242474_2 ckpt,perm,ro,<unmounted>
b) For each checkpoint, issue the following command and note the file system name
[nasadmin@CS0 ~]$ /nas/sbin/rootnas_fs -info root_rep_ckpt_28_242474_1 | grep checkpt_of
checkpt_of= fs1 Mon Jun 15 16:51:54 EDT 2015

Repeat above as every FS will have 2 root checkpoints per replication session, so good to get all FS names first before proceeding to next step

2)次の例に従って、レプリケーション チェックポイントを特定し、削除します
 
a) Identify the file system name from the replications failing with critical errors by :
nas_replicate -list

Example: 
$ nas_replicate -i jsq-stx-mq
ID                             = 156_APM001_01F4_137_APM002_01F4
Name                           = rep_fs1
Source Status                  = Critical 8865448248: The replication session encountered an error that halted progres                                                                                          s.
Network Status                 = OK
Destination Status             = OK
Last Sync Time                 = Wed Jul 13 14:35:15 EDT 2016
Type                           = filesystem
Celerra Network Server         = CS01
Dart Interconnect              = Replication
Peer Dart Interconnect         = Replication
Replication Role               = source  <== note the role 
Source Filesystem              = fs1 <== this is the fs name if the role is source
Source Data Mover              = server_2
Source Interface               = 10.x.x.x
Source Control Port            = 0
Source Current Data Port       = 0
Destination Filesystem         = fs1-DR <== this is the fs name if the role is destination
Destination Data Mover         = server_2
Destination Interface          = 10.x.x.x
...

Match this name from names identified in step 2 to ensure they are same.
b) Check the replication checkpoint status by : fs_ckpt <fs_name> -list -all

Example: 
$ fs_ckpt fs1 -list -all
id    ckpt_name                creation_time           inuse fullmark   total_savvol_used  ckpt_usage_on_savvol
32    root_rep_ckpt_28_242474_ 06/15/2015-16:51:54-EDT   y   90%        INACTIVE           N/A
33    root_rep_ckpt_28_242474_ 06/15/2015-16:51:56-EDT   y   90%        INACTIVE           N/A
34    fs1_ckpt1                          06/17/2015-16:51:56-EDT   y   90%        INACTIVE           N/A
Info 26306752329: The value of ckpt_usage_on_savvol for read-only checkpoints may not be consistent with the total_savvol_used.

id    wckpt_name               inuse fullmark total_savvol_used  base  ckpt_usage_on_savvol

INACTIVE indicates, this is corrupted.
c) If the "inuse" value is "y", delete the root checkpoints using the following command:  /nas/sbin/rootnas_fs -delete id=<root_ckpt_id> -o umount=yes -ALLOW_REP_INT_CKPT_OP 
Rarely, root checkpoint may have, inuse" value as "n", then,  /nas/sbin/rootnas_fs -delete id=<root_ckpt_id> -ALLOW_REP_INT_CKPT_OP 

Example:
[nasadmin@CS0 ~]$ /nas/sbin/rootnas_fs -delete id=32  -o umount=yes -ALLOW_REP_INT_CKPT_OP 
id        = 32
name      = root_rep_ckpt_28_242474_1
acl       = 0
in_use    = True
type      = ckpt
worm      = off
..

d) Repeat above step and delete all the root checkpoints 
e) For non root checkpoints, delete using same command with out the last arument (Example: /nas/sbin/rootnas_fs -delete id=34 -o umount=yes)
3)次の構文を使用してレプリケーション セッションを削除します。
For the "source" replication role : nas_replicate -delete <replication_session_name> -mode source -background
For the "destination" replication role : nas_replicate -delete <replication_session_name> -mode destination -background

Above command will give a task number, which can be used to view the status, by "nas_task -i <task_number>

4)上記の手順3のみを使用して、リモート側のレプリケーションも削除します
 [ "nas_replicate -delete <session_name> -mode <mode> -background" ] 
上記の手順がすべて完了すると、レプリケーションの削除アクティビティが完了します。新しいレプリケーションは、Unisphereまたはコマンド プロンプトを使用して再構成できます。

上記の手順のいずれかが失敗した場合は、 Dell EMCテクニカル サポート にお問い合わせください。  このナレッジベース記事IDを引用します。

Additional Information

Unisphereで直接、または「nas_replicate -delete」コマンドを使用してセッションを削除しようとすると、削除タスクが異常停止しているように見えることがあります。ほとんどの場合、この問題はData Moverを再起動せずに修正できます

1)次の方法でタスクを特定します。
nas_task -list | grep -i run

2)次の方法で詳細情報(特にData Mover名)を検索します。
nas_task -info <task_number>

3)次の方法でタスクを中止します。
nas_task -abort <task_numer> -mover <data_mover_name>

上記では、レプリケーション セッションとルート チェックポイントも削除する必要があります。ユーザー チェックポイントは手動で削除する必要があります。

Affected Products

vVNX
Article Properties
Article Number: 000056557
Article Type: Solution
Last Modified: 29 Jul 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.