Dell Unity:ログの肥大化によりSPがサービス モードになる場合がある(/nbsnasパーティションが100%フルになる)
Summary: ログの肥大化により、アレイがサービス モード(データ使用不可)になる場合がある(Dellによる修正可能)
Symptoms
デュアルSPアレイの場合、ストレージ システムの1つのSPがサービス モードになり、CLI、UI、REST API、SMI-Sなどの管理インターフェイスを使用してシステム全体を操作することはできません。これは、両方のSPがサービス モードになるまで、SPが交互に再起動する場合もあります。
両方のSPがサービス モードになっているUnityアレイはI/Oを処理しないため、これはデータ使用不可(DU)状態になります。
VSAの場合、1つのSPがサービス モードで再起動するか、通常モードのままになり、いずれの場合も管理が失われます。
CLI、UI、REST API、SMI-Sなどの管理インターフェイスを使用してシステム全体を操作することはできません
SSHまたはIPMIが機能するはずです。IPMIは常に動作し、SSHはアレイが安定した後にのみ機能する場合があります。
この問題はOEバージョン4.0.0.xで発生し、OEバージョン4.0.1.xで修正されています。
Cause
UIとRESTからのすべてのリクエストを記録するログ ファイル/nbsnas/http/logs/mod_jk.logは、プライマリーSPの/nbsnasにマウントされたファイル システムに格納されています。ログ ローテーション メカニズムを使用しない場合、このファイルの肥大化によってファイル システムの使用可能な領域が消費され続けます。他の内部コンシューマーは、ファイル システムにスペースが残っていないと障害を開始します。これらのコンポーネントの障害が繰り返し検出されると、SPの1つがサービス モードになります。
ラボでは、この問題が発生し、サービスがセカンダリーSPにフェールオーバーしようとすると、同じ症状が発生することが確認されています。SPは交互に数回再起動し、最終的には両方がサービス モードになります。
この問題は、常にUIまたはREST APIを使用してストレージ システムを構成する場合、またはブラウザーでUIを開き、閉じずにそのままにしておく場合に発生します。UIアクセスのみの場合、通常、お客様がこの問題を確認するまでに数か月かかります。お客様がREST APIを使用してストレージ システムからのデータのクエリーを頻繁に実行する場合、この問題はより迅速に発生します。
2つ目の問題として、Unity OE 4.0.1.8320161にアップグレードすると、NDU中に問題のログ ファイルが重複してプロセスが高速化されるため、問題が悪化する可能性があることがわかりました。
その場合は、/nbsbasの領域消費量を確認することで確認できます。スペース消費量が最小または少ない場合は、NDU中にこの問題は発生し ていないため 、他に何も必要ありません
4.0.1.xコードには主な問題の修正がすでに含まれているため、ログ ローテーション自体は正常に動作しています
パーティションの使用率が非常に高い場合は、責任のあるログ ファイルを削除しなければならない場合があります(Dellサポートが必要)。
スペースの使用状況を確認する方法と削除するログの例は、メモセクションにあります。
Dellでは、UnityおよびUnityVSA向けのUnity OE 4.0.1.8320161を support.emc.com から削除することを決定しました。改訂版のUnity OEリリース(4.0.1.8404134)は、2016年9月に公開されました。
Resolution
この問題を解決するには、テクニカル サポートがアレイへのrootアクセス権を取得する必要があります。
Unityテクニカル サポートに問い合わせて、次のKB記事を伝えてください。489057についてお伝えください。
Additional Information
スペースの使用状況を確認する方法の例:
spX:~> df -h /nbsnas Filesystem Size Used Avail Use% Mounted on /dev/c4nasdba1 1013M 55M 908M 6% /nbsnas
この原因となるログは、/nbsnas/http/logsにあります。
spx:~> cd /nbsnas/http/logs spx:/nbsnas/http/logs> ll -h total 975M -rw-r--r-- 1 root root 12K Sep 8 13:32 access_log -rw-r--r-- 1 root root 165K Sep 8 08:45 access_log.1.gz -rw-r--r-- 1 root root 239K Sep 8 06:59 access_log.2.gz -rw-r--r-- 1 root root 1.6M Sep 8 13:32 error_log -rw-r--r-- 1 root root 167K Sep 3 04:56 error_log.1.gz -rw-r--r-- 1 root root 495M Sep 8 13:32 mod_jk.log <<<<<<<<<< -rw-r--r-- 1 root root 475M Sep 8 08:45 mod_jk.log.1 <<<<<<<<<<
svc_dc -lcd(コア ダンプのリスト)では、「_mgmtd」というサフィックスが付いたダンプもいくつか表示される場合があります
これらのアラートは、一部のサービスを開始できずにSPパニックが発生したときに作成されました(/nbsnasが満杯になっているため)。
spx:/> svc_dc -lcd ======================== [DC copier]: Available on backend: CP_dump_spb_CKM00161701xxx_2016-09-08_13_29_47_17275_ECOM core-dump_dump_spb_CKM00161701xxx_2016-09-08_08_46_23_778_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_09_18_19_11994_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_09_18_53_21524_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_09_41_05_11446_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_09_41_45_24620_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_13_28_30_3067_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_13_29_08_15086_mgmtd