PowerScale:Varパーティション拡張の問題
概要: /varパーティションを拡張すると、Isilon On-Cluster Analysisツール(IOCA)で警告メッセージが表示される場合があります。この問題は、メンテナンスのためにドライブ スレッドを取り外すときに発生する可能性のあるノード パニックに関連しています。
この記事は次に適用されます:
この記事は次には適用されません:
この記事は、特定の製品に関連付けられていません。
すべての製品パージョンがこの記事に記載されているわけではありません。
現象
現在のIsilon On-Cluster Analysisツール(IOCA)スクリプトでは、次の警告が生成されます。
ノードが起動したら、
/var パーティション:
System Partition Free Space FAIL CRITICAL: The following nodes have /var mirrors of different sizes: 1-10 INFO: Please reference KB 000213248 (https://www.dell.com/support/kbdoc/000213248) for further information. INFO: For more information refer to KB article 000041465 found at https://www.dell.com/support/kbdoc/000041465.または
Mirror Status FAIL CRITICAL: The mirror pair for var1 appear to be in the same fault domain on nodes: 1-10. CRITICAL: The following nodes have /var mirrors of different sizes: 1-10 INFO: Please open a Technical Support Service Request and reference this failure within the description. INFO: Please refer to KB 000213248 (https://www.dell.com/support/kbdoc/en-us/000213248) for further information.無視すると、ドライブまたはスレッドの交換手順中にGen6またはGen6 MLKノードでパニックが発生する可能性があります
ノードが起動したら、
/var/log/messages ノードのファイルには、次のようなエラーとパニック メッセージが表示されます。
(da21:pmspcbsd0:0:22:0): pccb 0xfffffe8543174480, ccb 0xfffff80e31347000: ccbStatus 3, scsiStatus 5 (da22:pmspcbsd0:0:23:0): pccb 0xfffffe8543151fe0, ccb 0xfffff807c4753000: ccbStatus 3, scsiStatus 5 (da21:pmspcbsd0:0:22:0): WRITE(10). CDB: 2a 00 00 04 dd 44 00 00 04 00 (da21:pmspcbsd0:0:22:0): CAM status: CCB request aborted by the host (da22:pmspcbsd0:0:23:0): WRITE(10). CDB: 2a 00 00 04 dd 44 00 00 04 00 (da21:pmspcbsd0:0:22:0): Retrying command, 3 more tries remain (da22:pmspcbsd0:0:23:0): CAM status: CCB request aborted by the host (da21:pmspcbsd0:0:22:0): pccb 0xfffffe8543151fe0, ccb 0xfffff80e31347000: ccbStatus 3, scsiStatus 2 (da22:pmspcbsd0:0:23:0): Retrying command, 3 more tries remain (da21:pmspcbsd0:0:22:0): cam_periph_error: SSQ_LOST removing device ccb 0xfffff80e31347000 status 0x8 flags 0x2 (da22:pmspcbsd0:0:23:0): pccb 0xfffffe8543151fe0, ccb 0xfffff807c4753000: ccbStatus 3, scsiStatus 2 (da21:pmspcbsd0:0:22:0): Invalidating pack (da22:pmspcbsd0:0:23:0): cam_periph_error: SSQ_LOST removing device ccb 0xfffff807c4753000 status 0x8 flags 0x2 (da22:pmspcbsd0:0:23:0): Invalidating pack (da21:pmspcbsd0:0:22:0): removing device entry (da21:pmspcbsd0:0:22:0): Periph destroyed panic @ time 1681142660.493, thread 0xfffffe874ee12000: mirror/var1: all devices failed (read, offset 1304707072, length 0) time = 1681142660 cpuid = 3, TSC = 0x5e76342b8e8e59 Panic occurred in module kernel loaded at 0xffffffff80200000: Stack: -------------------------------------------------- kernel:g_mirror_worker+0x251f kernel:fork_exit+0x82 -------------------------------------------------- Disabling swatchdog Dumping stacks (40960 bytes)
原因
バージョン9.2.1.16以降、9.4.0.6以降、9.5.0.0以降では、OneFSはアップグレード中に/varパーティション サイズを2 GBに拡張します。展開プロセスによって、これらのメッセージまたはイベントがトリガーされる可能性があります。
同じ障害ドメインにあるミラー ペアに関連するメッセージは、Gen6およびGen6 MLKノード(A200、A2000、A300、A3000、H400、H500、H600、H5600、H700、H7000、F800、F810)に固有です。拡張では、パーティションのフォールト ドメインが正しく検証されず、両方のパーティションが
いずれも
Truncated
varパーティションのサイズの違いは、OneFS 9.xを実行するIsilonまたはPowerScaleノード タイプに影響を与える可能性があります。拡張対応
この問題がクラスター上のLKGパーティションに影響するかどうかを判断するには、次のコマンドを使用します。
上記の例では、実習2の
同じ障害ドメインにあるミラー ペアに関連するメッセージは、Gen6およびGen6 MLKノード(A200、A2000、A300、A3000、H400、H500、H600、H5600、H700、H7000、F800、F810)に固有です。拡張では、パーティションのフォールト ドメインが正しく検証されず、両方のパーティションが
/var 同じドライブ スレッド内のドライブのミラーリング。これにより、スレッドが取り外されたときに、マウントされた両方のミラーでノードがパニック状態になります /var パーティションはスレッド内にあります
いずれも
mirror/var0 または mirror/var1 アクティブな /var いつでもミラーをパーティション分割します。この例のパニック メッセージから、次のことがわかります。 /mirror/var1 はアクティブなミラーでした。これを見て、 gmirror status と isi devices drive list ノードのコマンド出力:
Truncated
status コマンド出力:
gmirror status mirror/var1 COMPLETE da14p3 (ACTIVE) <<<< da13p3 (ACTIVE) <<<<そうすると、
drive list コマンド出力:
isi devices drive list Lnn Location Device Lnum State Serial Sled --------------------------------------------------------- 21 Bay 1 /dev/da1 15 L3 xxxxxxxxxxxx N/A 21 Bay 2 /dev/da2 16 L3 xxxxxxxxxxxx N/A 21 Bay A0 /dev/da5 12 HEALTHY xxxxxxxx A 21 Bay A1 /dev/da4 13 HEALTHY xxxxxxxx A 21 Bay A2 /dev/da3 14 HEALTHY xxxxxxxx A 21 Bay B0 /dev/da8 9 HEALTHY xxxxxxxx B 21 Bay B1 /dev/da7 10 HEALTHY xxxxxxxx B 21 Bay B2 /dev/da6 11 HEALTHY xxxxxxxx B 21 Bay C0 /dev/da11 6 HEALTHY xxxxxxxx C 21 Bay C1 /dev/da10 7 HEALTHY xxxxxxxx C 21 Bay C2 /dev/da9 8 HEALTHY xxxxxxxx C 21 Bay D0 /dev/da14 3 HEALTHY xxxxxxxx D <<<< 21 Bay D1 /dev/da13 4 HEALTHY xxxxxxxx D <<<< 21 Bay D2 /dev/da12 5 HEALTHY xxxxxxxx D 21 Bay E0 /dev/da17 0 HEALTHY xxxxxxxx E 21 Bay E1 /dev/da16 1 HEALTHY xxxxxxxx E 21 Bay E2 /dev/da15 2 HEALTHY xxxxxxxx E ---------------------------------------------------------この例では、
/mirror/var1 は、ドライブ D0 と D1 上に構築されます。Dスレッドがクラスターから取り外されると、ノードがパニック状態になります。 /var ファイル システム。
varパーティションのサイズの違いは、OneFS 9.xを実行するIsilonまたはPowerScaleノード タイプに影響を与える可能性があります。拡張対応
/var アクティブな領域のみを展開します /var パーティションにパーティションを割り当てます。前回正常起動時(LKG)パーティションは、元のサイズのままです。アクティブな /var パーティションが拡張され、容量が50%を超える場合、メンテナンスのためにパーティションをローテーションする必要がある場合に問題が発生する可能性があります
この問題がクラスター上のLKGパーティションに影響するかどうかを判断するには、次のコマンドを使用します。
# isi_for_array -sX 'gmirror list var0 var1' | grep -A20 mirror | egrep "var|Media"Example:
lab-1# isi_for_array -sX 'gmirror list var0 var1' | grep -A20 mirror | egrep "var|Media" lab-1: 1. Name: mirror/var0 lab-1: Mediasize: 2147479552 (2.0G) lab-1: Mediasize: 2147483648 (2.0G) lab-1: Mediasize: 2147483648 (2.0G) lab-2: 1. Name: mirror/var0 lab-2: Mediasize: 2147479552 (1.0G) <<<< lab-2: Mediasize: 2147483648 (1.0G) <<<< lab-2: Mediasize: 2147483648 (1.0G) <<<< lab-3: 1. Name: mirror/var0 lab-3: Mediasize: 2147479552 (2.0G) lab-3: Mediasize: 2147483648 (2.0G) lab-3: Mediasize: 2147483648 (2.0G) lab-4: 1. Name: mirror/var0 lab-4: Mediasize: 2147479552 (2.0G) lab-4: Mediasize: 2147483648 (2.0G) lab-4: Mediasize: 2147483648 (2.0G) ....いずれかのデバイスが(1.0G)のサイズで戻ってきた場合は、そのデバイスが影響を受けます。
上記の例では、実習2の
var0 パーティションは影響を受けるため、修正する必要があります。次のコマンドを再実行します。 var1 クラスター全体を調査して、自身も影響を受けているかどうかを判断します。解決方法
障害ドメインの問題のみに対する恒久対策は、次のコード リリースに含まれています。
スクリプトを使用するには、次の手順を実行します。
- OneFS 9.5.0.6
- 9.4.0.16
- 9.2.1.25
注:この問題は、 コンプライアンス モードで実行されているクラスターでは、手動または以下のスクリプトを使用して解決できません。クラスターが SmartLockコンプライアンス モードの場合、この問題は、上記のOneFSバージョンにアップグレードすることで修復できます。アップグレードしてこの問題を修復できない場合は、 Dellサポート に連絡し、DAパッチをリクエストしてください。この問題に対処するために使用できるスクリプトがあります。Dellサポートに連絡してファイルを受け取ってから、次の手順に従います。
スクリプトを使用するには、次の手順を実行します。
- スクリプトとmd5ファイルをクラスターにダウンロードします。クラスター上の/ifs/data/Isilon_Supportにファイルをコピーし、md5ハッシュがmd5ファイル内のハッシュと一致することを確認します。
Lab-1# mv var_mirror_repair.sh /ifs/data/Isilon_Support/ Lab-1# mv var_mirror_repair.md5 /ifs/data/Isilon_Support/ Lab-1# md5 /ifs/data/Isilon_Support/var_mirror_repair.sh MD5 (/ifs/data/Isilon_Support/var_mirror_repair.sh) = 0881afeeb39fdaf02e2a90d784e4ed21 Lab-1# # cat /ifs/data/Isilon_Support/var_mirror_repair.md5 0881afeeb39fdaf02e2a90d784e4ed21
- ハッシュが一致しない場合は、FTPサイトからスクリプトをダウンロードし、クラスターに再度コピーします。ハッシュが一致する場合は、rootとして次のコマンドを実行します。
lab-1# sh /ifs/data/Isilon_Support/var_mirror_repair.sh
- スクリプトの実行には通常 5 分から 10 分かかります。大規模なクラスター(30+ノード)やビジーなクラスターでは、さらに時間がかかる場合があります。スクリプトが完了すると、成功したか、問題があったかが報告されます。
スクリプトを起動すると、次の出力が表示されます。
Lab-1# sh /ifs/data/Isilon_Support/var_mirror_repair.sh Full output can be found at: /ifs/data/Isilon_Support/var_mirror_repair.FULL_CLUSTER.2023-10-19T092522.csv Status: 0/4 Nodes checked, 0/4 var0 partitions, 0/4 var1 partitions
スクリプトが進行するにつれて、ステータス行が更新されます。
Status: 4/4 Nodes checked, 4/4 var0 partitions, 4/4 var1 partitions
スクリプトが正常に完了すると、次のように表示されます。
Status: 4/4 Nodes checked, 4/4 var0 partitions, 4/4 var1 partitions No issues were identified. Moving files to: var_mirror_repair.2023-10-19T092522.d Bundle Location: var_mirror_repair.2023-10-19T092522.tgz
これは、影響を受けるノードが修復され、スクリプトに問題がなかったことを示します。受信した出力がこの例と異なる場合は、 Dellサポート に連絡して、バンドルの場所から出力とログ ファイルを提供します。
対象製品
Isilon F800, Isilon F810, Isilon Gen6, Isilon H400, Isilon H500, Isilon H5600, Isilon H600, PowerScale Archive A300, PowerScale Archive A3000, PowerScale Hybrid H700, PowerScale Hybrid H7000製品
PowerScale F200, PowerScale F600, PowerScale F900文書のプロパティ
文書番号: 000213248
文書の種類: Solution
最終更新: 06 1月 2026
バージョン: 21
質問に対する他のDellユーザーからの回答を見つける
サポート サービス
お使いのデバイスがサポート サービスの対象かどうかを確認してください。