PowerScale:Var 磁碟分割擴充問題

Summary: /var 分割區擴充可能會在 Isilon 叢集上分析工具 (IOCA) 中造成警告訊息。這些問題與節點錯誤有關,該錯誤可能在卸下磁碟機運算模組進行維護時發生。

Acest articol se aplică pentru Acest articol nu se aplică pentru Acest articol nu este legat de un produs specific. Acest articol nu acoperă toate versiunile de produs existente.

Symptoms

目前的 Isilon 叢集上分析工具 (IOCA) 指令檔會產生下列與 /var 磁碟分割:
System Partition Free Space                       FAIL
  CRITICAL: The following nodes have /var mirrors of different sizes: 1-10
  INFO: Please reference KB 000213248 (https://www.dell.com/support/kbdoc/000213248) for further information.
  INFO: For more information refer to KB article 000041465 found at https://www.dell.com/support/kbdoc/000041465.
或:
Mirror Status                                     FAIL
  CRITICAL: The mirror pair for var1 appear to be in the same fault domain on nodes: 1-10.
  CRITICAL: The following nodes have /var mirrors of different sizes: 1-10
  INFO: Please open a Technical Support Service Request and reference this failure within the description.
  INFO: Please refer to KB 000213248 (https://www.dell.com/support/kbdoc/en-us/000213248) for further information.
如果忽略,在磁碟機或 SLED 更換程序期間,Gen6 或 Gen6 MLK 節點上可能會發生錯誤。

當節點出現時,請檢閱 /var/log/messages 節點的檔案會顯示類似以下內容的錯誤和錯誤訊息:
(da21:pmspcbsd0:0:22:0): pccb 0xfffffe8543174480, ccb 0xfffff80e31347000: ccbStatus 3, scsiStatus 5 
(da22:pmspcbsd0:0:23:0): pccb 0xfffffe8543151fe0, ccb 0xfffff807c4753000: ccbStatus 3, scsiStatus 5 
(da21:pmspcbsd0:0:22:0): WRITE(10). CDB: 2a 00 00 04 dd 44 00 00 04 00 
(da21:pmspcbsd0:0:22:0): CAM status: CCB request aborted by the host 
(da22:pmspcbsd0:0:23:0): WRITE(10). CDB: 2a 00 00 04 dd 44 00 00 04 00 
(da21:pmspcbsd0:0:22:0): Retrying command, 3 more tries remain 
(da22:pmspcbsd0:0:23:0): CAM status: CCB request aborted by the host 
(da21:pmspcbsd0:0:22:0): pccb 0xfffffe8543151fe0, ccb 0xfffff80e31347000: ccbStatus 3, scsiStatus 2 
(da22:pmspcbsd0:0:23:0): Retrying command, 3 more tries remain 
(da21:pmspcbsd0:0:22:0): cam_periph_error: SSQ_LOST removing device ccb 0xfffff80e31347000 status 0x8 flags 0x2 
(da22:pmspcbsd0:0:23:0): pccb 0xfffffe8543151fe0, ccb 0xfffff807c4753000: ccbStatus 3, scsiStatus 2 
(da21:pmspcbsd0:0:22:0): Invalidating pack 
(da22:pmspcbsd0:0:23:0): cam_periph_error: SSQ_LOST removing device ccb 0xfffff807c4753000 status 0x8 flags 0x2 
(da22:pmspcbsd0:0:23:0): Invalidating pack 
(da21:pmspcbsd0:0:22:0): removing device entry 
(da21:pmspcbsd0:0:22:0): Periph destroyed 
panic @ time 1681142660.493, thread 0xfffffe874ee12000: mirror/var1: all devices failed (read, offset 1304707072, length 0) 
time = 1681142660 
cpuid = 3, TSC = 0x5e76342b8e8e59 
Panic occurred in module kernel loaded at 0xffffffff80200000: 

Stack: -------------------------------------------------- 
kernel:g_mirror_worker+0x251f 
kernel:fork_exit+0x82 
-------------------------------------------------- 
Disabling swatchdog 
Dumping stacks (40960 bytes)

Cause

在版本 9.2.1.16 及更新版本、9.4.0.6 及更新版本,以及 9.5.0.0 及更新版本中,OneFS 會在升級期間將 /var 磁碟分割大小擴充至 2 GB。擴展過程可能會導致觸發這些消息或事件。

與鏡像配對位於相同容錯網域中的相關訊息是特定於 Gen6 和 Gen6 MLK 節點 (A200、A2000、A300、A3000、H400、H500、H600、H5600、H700、H7000、F800 和 F810)。擴充可能無法正確驗證分割容錯網域,將兩個分割區都用於其中一個 /var 鏡像至相同磁碟機運算模組中的磁碟機。這會導致節點在卸下 SLED 時發生錯誤,如果掛接的兩個鏡像 /var 分割區位於 SLED 中。

mirror/var0mirror/var1 充當活動 /var 隨時分割鏡像。從範例中的錯誤訊息,我們看到 /mirror/var1 是活動的鏡子。看著 gmirror statusisi devices drive list 節點的命令輸出:

截斷 status 命令輸出:
gmirror status
     mirror/var1  COMPLETE  da14p3 (ACTIVE) <<<<
                            da13p3 (ACTIVE) <<<<
可使用 drive list 命令輸出:
isi devices drive list
Lnn  Location  Device    Lnum  State   Serial       Sled
---------------------------------------------------------
21   Bay  1    /dev/da1  15    L3      xxxxxxxxxxxx N/A
21   Bay  2    /dev/da2  16    L3      xxxxxxxxxxxx N/A
21   Bay  A0   /dev/da5  12    HEALTHY xxxxxxxx     A
21   Bay  A1   /dev/da4  13    HEALTHY xxxxxxxx     A
21   Bay  A2   /dev/da3  14    HEALTHY xxxxxxxx     A
21   Bay  B0   /dev/da8  9     HEALTHY xxxxxxxx     B
21   Bay  B1   /dev/da7  10    HEALTHY xxxxxxxx     B
21   Bay  B2   /dev/da6  11    HEALTHY xxxxxxxx     B
21   Bay  C0   /dev/da11 6     HEALTHY xxxxxxxx     C
21   Bay  C1   /dev/da10 7     HEALTHY xxxxxxxx     C
21   Bay  C2   /dev/da9  8     HEALTHY xxxxxxxx     C
21   Bay  D0   /dev/da14 3     HEALTHY xxxxxxxx     D <<<<
21   Bay  D1   /dev/da13 4     HEALTHY xxxxxxxx     D <<<<
21   Bay  D2   /dev/da12 5     HEALTHY xxxxxxxx     D
21   Bay  E0   /dev/da17 0     HEALTHY xxxxxxxx     E
21   Bay  E1   /dev/da16 1     HEALTHY xxxxxxxx     E
21   Bay  E2   /dev/da15 2     HEALTHY xxxxxxxx     E
---------------------------------------------------------
在此示例中, /mirror/var1 內建於磁碟機 D0 和 D1 上。從叢集中移除 D 滑板時,節點因無法存取 /var 檔案系統。

不同大小的 var 磁碟分割可能會影響執行 OneFS 9.x 的任何 Isilon 或 PowerScale 節點類型。擴充 /var 僅展開活動的 /var 系統上的分區。最後已知能正常運作 (LKG) 的磁碟分割仍為原始大小。如果作用中 /var 分割區擴充並填滿至超過 50%,若必須輪替分割區以進行維護,可能會導致問題。

若要判斷此問題是否影響叢集上的 LKG 磁碟分割,請使用下列命令:
# isi_for_array -sX 'gmirror list var0 var1' | grep -A20 mirror | egrep "var|Media"
範例:
lab-1# isi_for_array -sX 'gmirror list var0 var1' | grep -A20 mirror | egrep "var|Media"
lab-1: 1. Name: mirror/var0
lab-1:    Mediasize: 2147479552 (2.0G)
lab-1:    Mediasize: 2147483648 (2.0G)
lab-1:    Mediasize: 2147483648 (2.0G)
lab-2: 1. Name: mirror/var0
lab-2:    Mediasize: 2147479552 (1.0G) <<<<
lab-2:    Mediasize: 2147483648 (1.0G) <<<<
lab-2:    Mediasize: 2147483648 (1.0G) <<<<
lab-3: 1. Name: mirror/var0
lab-3:    Mediasize: 2147479552 (2.0G)
lab-3:    Mediasize: 2147483648 (2.0G)
lab-3:    Mediasize: 2147483648 (2.0G)
lab-4: 1. Name: mirror/var0
lab-4:    Mediasize: 2147479552 (2.0G)
lab-4:    Mediasize: 2147483648 (2.0G)
lab-4:    Mediasize: 2147483648 (2.0G)
....
如果任何裝置的大小為 (1.0G),它就會受到影響。

在上面的例子中,lab-2 的 var0 分區受到影響,必須加以修復。重新執行命令以 var1 以判斷是否也受到影響。

Resolution

僅容錯網域問題的永久修正程式在下列程式碼版本中:
  • OneFS 9.5.0.6 
  • 9.4.0.16 
  • 9.2.1.25 
目前正在處理不同大小的 /var 磁碟分割的永久修正。若要解決此問題,請遵循指令檔程序。如果無法升級,請按照腳本程序操作。
 
注意:以法規遵循模式執行的叢集上,無法手動或使用以下指令檔解決此問題。如果叢集處於 SmartLock 法規遵循模式,則可升級至上述 OneFS 版本來解決此問題。如果無法升級以補救此問題,請聯絡 Dell 支援 並要求 DA 修補程式。有一個腳本可用於解決此問題。請聯絡 Dell 支援 以接收檔案,然後依照以下指示操作。

若要使用指令檔:
  1. 將指令檔和 md5 檔案下載至叢集。將檔案複製到叢集上的 /ifs/data/Isilon_Support,並確認 md5 雜湊符合 md5 檔案中的雜湊:
Lab-1# mv var_mirror_repair.sh /ifs/data/Isilon_Support/
Lab-1# mv var_mirror_repair.md5 /ifs/data/Isilon_Support/
Lab-1# md5 /ifs/data/Isilon_Support/var_mirror_repair.sh
MD5 (/ifs/data/Isilon_Support/var_mirror_repair.sh) = 0881afeeb39fdaf02e2a90d784e4ed21
Lab-1# # cat /ifs/data/Isilon_Support/var_mirror_repair.md5
0881afeeb39fdaf02e2a90d784e4ed21
  1. 如果雜湊不相符,請從 FTP 網站下載指令檔,然後再次複製到叢集。如果雜湊相符,請以 root 身分執行下列命令:
lab-1# sh /ifs/data/Isilon_Support/var_mirror_repair.sh
  1. 執行指令檔通常需要 5 -10 分鐘。在大型 (30+ 節點) 或繁忙的叢集上,可能需要較長的時間。指令檔完成後,它會報告它是否成功或是否存在問題。

啟動文稿時,會看到以下輸出:

Lab-1# sh /ifs/data/Isilon_Support/var_mirror_repair.sh
Full output can be found at:
 /ifs/data/Isilon_Support/var_mirror_repair.FULL_CLUSTER.2023-10-19T092522.csv

Status: 0/4 Nodes checked, 0/4 var0 partitions, 0/4 var1 partitions

隨著指令檔的進行,狀態行會更新:

Status: 4/4 Nodes checked, 4/4 var0 partitions, 4/4 var1 partitions

指令檔成功完成後,您會看到下列內容:

Status: 4/4 Nodes checked, 4/4 var0 partitions, 4/4 var1 partitions

No issues were identified.

Moving files to: var_mirror_repair.2023-10-19T092522.d
Bundle Location: var_mirror_repair.2023-10-19T092522.tgz

這表示已修復任何受影響的節點,且指令檔沒有任何問題。如果收到的輸出與此範例不同,請聯絡 Dell 支援 ,並提供輸出和套裝位置的記錄檔。

Produse afectate

Isilon F800, Isilon F810, Isilon Gen6, Isilon H400, Isilon H500, Isilon H5600, Isilon H600, PowerScale Archive A300, PowerScale Archive A3000, PowerScale Hybrid H700, PowerScale Hybrid H7000

Produse

PowerScale F200, PowerScale F600, PowerScale F900
Proprietăți articol
Article Number: 000213248
Article Type: Solution
Ultima modificare: 06 Jan 2026
Version:  21
Găsiți răspunsuri la întrebările dvs. de la alți utilizatori Dell
Servicii de asistență
Verificați dacă dispozitivul dvs. este acoperit de serviciile de asistență.