この投稿は5年以上前のものです
144 メッセージ
0
1396
recoverpoint warningについて
warningメッセージを受信しました。
各メッセージの意味と対処について、お知らせいただきますようお願いします。
***********************************************************
Company Name:
Contact Info:
............................................
Time: Fri Apr 15 04:03:31 2016
Time Zone: GMT
Topic: GROUP
Scope: DETAILED
Level: WARNING
Event ID: 4120
Cluster: A-RPACL11
Global links: None
RPA: RPA 1
Groups: [***, ***]
Summary: Journal usage exceeding threshold
More information: Because you are accessing a copy image in logged access mode for an unusually long time, the copy journal usage is exceeding the normal threshold, and this may affect the image access log capacity.
Service Request info: N/A............................................
****************************************
Company Name:
Contact Info:
............................................
Time: Fri Apr 15 01:31:38 2016
Time Zone: GMT
Topic: MANAGEMENT
Scope: NORMAL
Level: WARNING
Event ID: 1031
Cluster: A-RPACL11
Global links: None
RPA: RPA 1
Groups: ******
Summary: System limit exceeded low watermark
Details: Lag (in seconds): Current value is 22 (Low water mark is 20)
Service Request info: N/A............................................
****************************************
Company Name:
Contact Info:
............................................
Time: Fri Apr 15 01:31:30 2016
Time Zone: GMT
Topic: MANAGEMENT
Scope: NORMAL
Level: WARNING
Event ID: 1033
Cluster: A-RPACL11
Global links: None
RPA: RPA 2
Groups: T*****
Summary: System limit exceeded high watermark
Details: Lag (in seconds): Current value is 24 (High water mark is 22)
Service Request info: N/A............................................
************************************************
Uehara Y.
Community Manager
Community Manager
•
4.9K メッセージ
0
2016年4月18日 02:00
EY333lh8nP1206077237794さん
3つ全てのイベントはAdministrator's Guideに記載があるのですが、詳細情報はないですね。。なので、イベント内のMore informationにある文言から読み解いていく必要があります。
最初のEvent ID:4120は「Logged Accessを長い間行っているために、Image Access Logの容量が一杯になりそう」ということが書かれています。
もう少し細かく言うと、RecoverPointの特徴である過去の好きな時間を指定してボリュームにアクセスをするというImage Accessをどこかのホストが実行しており、かつそのホストはそのボリュームに対して書き込みを行っているために、その書き込まれたデータの情報がImage Access Logにたくさん保存されているから注意してねいうことを言っています。
そのために、まず確認したいのは、誰がImage AccessをしてRecoverPointが保存しているデータにアクセスをしているかということです。もしも長い間アクセスをしている方が見つかれば、その方のImage Accessを一時やめて頂き、Image Access Logを解放させることが出来ればこのいWarningも解消されるはずです。
2番目、3番目のEvent ID:1031と1033についてはどちらもウォーターマークという閾値を超えたことを意味しています。
ポイントは「Lag」が何を意味しているのかですが、カッコ書きで「秒数で」という記載があるために、(Journal Lagではなく)CLI Reference GuideのP.54(※)に記載があるようにローカルのRPAが書き込みを認識してから、ターゲットのRPAにその情報が保存されるまでの時間を意味していると考えられます。
その為に、イベントが発生した時間に多数の書き込みがあった、ネットワーク遅延があった等の理由で、ターゲットのRPAに情報が書き込まれるまでに時間が掛かったことを意味していると判断出来ます。
※
In RecoverPoint, lag starts being measured when a write made by the production host reaches the local RPA, and stops being measured when the write reaches either the target RPA or the target journal.
wsxokmnui
144 メッセージ
0
2016年4月18日 16:00
Ueharaさん
回答いただきありがとうございます。
マニュアルに記載があるだろうと思いましたが、具体的な意味と対処について知りたかったため
こちらに質問させていただきました。
Event ID:4120 については、長期間Image Accessを行っているHostを確認して維持停止し、Logスペースを空ける必要があるとのこt
承知しました。
Event ID:1031と1033についてですが、これはローカルのRPAがWriteを受信してから相手先のRPAに転送が完了するまでに
数秒間のLag(遅延?)が発生し、その値が閾値を超えたものであり、現状では特に対処の必要はない との理解で
よろしいでしょうか。
お手数ですが、よろしくお願いします。
Uehara Y.
Community Manager
Community Manager
•
4.9K メッセージ
1
2016年4月18日 17:00
EY333lh8nP1206077237794さん
はい。そのような理解で問題ありません。Warningレベルのアラートですし。
とはいえ、もしもこのWarningが頻発するようであれば、ボトルネックとなっている部分(例えばRPA間回線など)を見つけ出して対応をした方がよいと思います。
wsxokmnui
144 メッセージ
0
2016年4月18日 18:00
Ueharaさん
早々に回答いただきありがとうございました。
wsxokmnui
144 メッセージ
0
2016年4月19日 16:00
Ueharaさん
もう一つ質問させてください。
Event ID:1031と1033は、閾値であるWatermarkを超えたことによるものですが、
この閾値(Low water mark is 20)(High water mark is 22)を変更することはできないとの
認識でよろしいでしょうか。
設定変更に関し、ドキュメントの記載が確認できませんでした。
お手数ですがお知らせいただきますようお願いします。
Uehara Y.
Community Manager
Community Manager
•
4.9K メッセージ
2
2016年4月20日 22:00
EY333lh8nP1206077237794さん
閾値は設定されているRPOの80%(Low water mark)と90%(High water mark)に自動で設定されます。
この割合(80%と90%)を変更することは出来ないのですが、RPOの値を変更すれば閾値もそれに伴い自動で変化していきます。
現状はデフォルトのRPO=25秒で設定されているようなので、Low water markが20秒、High water markが22秒になっています。
もしもこのwater mark値を大きくしたいのであればRPOの時間をより長く設定すれば可能なのですが、そのような対応をする際にはまずRPOが伸びてもいいのかの判断をする必要が出てくるかと。
wsxokmnui
144 メッセージ
1
2016年4月20日 23:00
Ueharaさん
回答いただきありがとうございます。
---------------
RPOを長く設定すれば、閾値も大きくなりWarningも減る可能性があるが、
災害時に失われるデータも増加してしまう。
--------------
ということで、RPOの変更には十分検討が必要とのこと承知しました。
ありがとうございました。