PowerScale:Var 分区扩展问题

Summary: /var 分区扩展可能会导致 Isilon On-Cluster Analysis 工具 (IOCA) 中出现警告消息。这些问题与出于维护目的移除驱动器底座时可能发生的节点死机有关。

Acest articol se aplică pentru Acest articol nu se aplică pentru Acest articol nu este legat de un produs specific. Acest articol nu acoperă toate versiunile de produs existente.

Symptoms

当前的 Isilon On-Cluster Analysis 工具 (IOCA) 脚本会生成以下与 /var 分区:
System Partition Free Space                       FAIL
  CRITICAL: The following nodes have /var mirrors of different sizes: 1-10
  INFO: Please reference KB 000213248 (https://www.dell.com/support/kbdoc/000213248) for further information.
  INFO: For more information refer to KB article 000041465 found at https://www.dell.com/support/kbdoc/000041465.
或者:
Mirror Status                                     FAIL
  CRITICAL: The mirror pair for var1 appear to be in the same fault domain on nodes: 1-10.
  CRITICAL: The following nodes have /var mirrors of different sizes: 1-10
  INFO: Please open a Technical Support Service Request and reference this failure within the description.
  INFO: Please refer to KB 000213248 (https://www.dell.com/support/kbdoc/en-us/000213248) for further information.
如果忽略,则在驱动器或底座更换过程中,第 6 代或第 6 代 MLK 节点上可能会发生死机。

当节点启动时,查看 /var/log/messages 节点的文件显示类似于以下内容的错误和死机消息:
(da21:pmspcbsd0:0:22:0): pccb 0xfffffe8543174480, ccb 0xfffff80e31347000: ccbStatus 3, scsiStatus 5 
(da22:pmspcbsd0:0:23:0): pccb 0xfffffe8543151fe0, ccb 0xfffff807c4753000: ccbStatus 3, scsiStatus 5 
(da21:pmspcbsd0:0:22:0): WRITE(10). CDB: 2a 00 00 04 dd 44 00 00 04 00 
(da21:pmspcbsd0:0:22:0): CAM status: CCB request aborted by the host 
(da22:pmspcbsd0:0:23:0): WRITE(10). CDB: 2a 00 00 04 dd 44 00 00 04 00 
(da21:pmspcbsd0:0:22:0): Retrying command, 3 more tries remain 
(da22:pmspcbsd0:0:23:0): CAM status: CCB request aborted by the host 
(da21:pmspcbsd0:0:22:0): pccb 0xfffffe8543151fe0, ccb 0xfffff80e31347000: ccbStatus 3, scsiStatus 2 
(da22:pmspcbsd0:0:23:0): Retrying command, 3 more tries remain 
(da21:pmspcbsd0:0:22:0): cam_periph_error: SSQ_LOST removing device ccb 0xfffff80e31347000 status 0x8 flags 0x2 
(da22:pmspcbsd0:0:23:0): pccb 0xfffffe8543151fe0, ccb 0xfffff807c4753000: ccbStatus 3, scsiStatus 2 
(da21:pmspcbsd0:0:22:0): Invalidating pack 
(da22:pmspcbsd0:0:23:0): cam_periph_error: SSQ_LOST removing device ccb 0xfffff807c4753000 status 0x8 flags 0x2 
(da22:pmspcbsd0:0:23:0): Invalidating pack 
(da21:pmspcbsd0:0:22:0): removing device entry 
(da21:pmspcbsd0:0:22:0): Periph destroyed 
panic @ time 1681142660.493, thread 0xfffffe874ee12000: mirror/var1: all devices failed (read, offset 1304707072, length 0) 
time = 1681142660 
cpuid = 3, TSC = 0x5e76342b8e8e59 
Panic occurred in module kernel loaded at 0xffffffff80200000: 

Stack: -------------------------------------------------- 
kernel:g_mirror_worker+0x251f 
kernel:fork_exit+0x82 
-------------------------------------------------- 
Disabling swatchdog 
Dumping stacks (40960 bytes)

Cause

在版本 9.2.1.16 及更高版本、9.4.0.6 及更高版本以及 9.5.0.0 及更高版本中,OneFS 在升级期间将 /var分区大小扩展到 2 GB。扩展过程可能会导致触发这些消息或事件。

与镜像对位于同一故障域中相关的消息特定于第 6 代和第 6 代 MLK 节点(A200、A2000、A300、A3000、H400、H500、H600、H5600、H700、H7000、F800 和 F810)。扩展可能无法正确验证分区容错域,导致将两个分区都置于 /var 在同一驱动器托架中的驱动器上镜像。如果已装载的两个镜像均已卸下底座,则会导致节点死机 /var 分区位于底座中。

mirror/var0mirror/var1 充当活动 /var 分区镜像。从示例中的 panic 消息中,我们看到 /mirror/var1 是活动的镜像。查看 gmirror statusisi devices drive list 节点的命令输出:

Truncated status 命令输出:
gmirror status
     mirror/var1  COMPLETE  da14p3 (ACTIVE) <<<<
                            da13p3 (ACTIVE) <<<<
drive list 命令输出:
isi devices drive list
Lnn  Location  Device    Lnum  State   Serial       Sled
---------------------------------------------------------
21   Bay  1    /dev/da1  15    L3      xxxxxxxxxxxx N/A
21   Bay  2    /dev/da2  16    L3      xxxxxxxxxxxx N/A
21   Bay  A0   /dev/da5  12    HEALTHY xxxxxxxx     A
21   Bay  A1   /dev/da4  13    HEALTHY xxxxxxxx     A
21   Bay  A2   /dev/da3  14    HEALTHY xxxxxxxx     A
21   Bay  B0   /dev/da8  9     HEALTHY xxxxxxxx     B
21   Bay  B1   /dev/da7  10    HEALTHY xxxxxxxx     B
21   Bay  B2   /dev/da6  11    HEALTHY xxxxxxxx     B
21   Bay  C0   /dev/da11 6     HEALTHY xxxxxxxx     C
21   Bay  C1   /dev/da10 7     HEALTHY xxxxxxxx     C
21   Bay  C2   /dev/da9  8     HEALTHY xxxxxxxx     C
21   Bay  D0   /dev/da14 3     HEALTHY xxxxxxxx     D <<<<
21   Bay  D1   /dev/da13 4     HEALTHY xxxxxxxx     D <<<<
21   Bay  D2   /dev/da12 5     HEALTHY xxxxxxxx     D
21   Bay  E0   /dev/da17 0     HEALTHY xxxxxxxx     E
21   Bay  E1   /dev/da16 1     HEALTHY xxxxxxxx     E
21   Bay  E2   /dev/da15 2     HEALTHY xxxxxxxx     E
---------------------------------------------------------
在此示例中, /mirror/var1 在驱动器 D0 和 D1 上构建。从群集中移除 D 底座时,节点因无法访问 /var 文件系统。

var 分区的不同大小可能会影响运行 OneFS 9.x 的任何 Isilon 或 PowerScale 节点类型。扩展适用于 /var 仅展开活动 /var 系统上的分区。最近一次的正确 (LKG) 分区保持原始大小。如果活动的 /var 分区扩展并填充到 50% 以上,如果必须轮换分区进行维护,这可能会导致问题。

要确定此问题是否影响群集上的 LKG 分区,请使用以下命令:
# isi_for_array -sX 'gmirror list var0 var1' | grep -A20 mirror | egrep "var|Media"
示例:
lab-1# isi_for_array -sX 'gmirror list var0 var1' | grep -A20 mirror | egrep "var|Media"
lab-1: 1. Name: mirror/var0
lab-1:    Mediasize: 2147479552 (2.0G)
lab-1:    Mediasize: 2147483648 (2.0G)
lab-1:    Mediasize: 2147483648 (2.0G)
lab-2: 1. Name: mirror/var0
lab-2:    Mediasize: 2147479552 (1.0G) <<<<
lab-2:    Mediasize: 2147483648 (1.0G) <<<<
lab-2:    Mediasize: 2147483648 (1.0G) <<<<
lab-3: 1. Name: mirror/var0
lab-3:    Mediasize: 2147479552 (2.0G)
lab-3:    Mediasize: 2147483648 (2.0G)
lab-3:    Mediasize: 2147483648 (2.0G)
lab-4: 1. Name: mirror/var0
lab-4:    Mediasize: 2147479552 (2.0G)
lab-4:    Mediasize: 2147483648 (2.0G)
lab-4:    Mediasize: 2147483648 (2.0G)
....
如果任何设备返回的大小为 (1.0G),则会受到影响。

在上面的示例中,lab-2 的 var0 分区受到影响,必须修复。重新运行以下命令: var1 来确定它是否也受到影响。

Resolution

以下代码版本中 仅提供了 FAULT DOMAIN ISSUE 的永久修复:
  • OneFS 9.5.0.6 
  • 9.4.0.16 
  • 9.2.1.25 
不同大小的 /var 分区的永久修复正在开发中。要解决此问题,请按照脚本化过程操作。如果您无法升级,请按照脚本化过程操作。
 
提醒:合规性模式下运行的群集上,无法手动或使用下面的脚本解决此问题。如果群集处于 SmartLock 合规性模式,则可以通过升级到上面列出的 OneFS 版本来修复此问题。如果无法升级以修复此问题,请联系 戴尔支持 并请求 DA 修补程序。有一个脚本可用于解决此问题。请联系 戴尔支持 以接收文件,然后按照以下说明进行操作。

要使用脚本,请执行以下操作:
  1. 将脚本和 md5 文件下载到群集。将文件复制到群集上的 /ifs/data/Isilon_Support,并确认 md5 哈希与 md5 文件中的哈希匹配:
Lab-1# mv var_mirror_repair.sh /ifs/data/Isilon_Support/
Lab-1# mv var_mirror_repair.md5 /ifs/data/Isilon_Support/
Lab-1# md5 /ifs/data/Isilon_Support/var_mirror_repair.sh
MD5 (/ifs/data/Isilon_Support/var_mirror_repair.sh) = 0881afeeb39fdaf02e2a90d784e4ed21
Lab-1# # cat /ifs/data/Isilon_Support/var_mirror_repair.md5
0881afeeb39fdaf02e2a90d784e4ed21
  1. 如果哈希不匹配,请从 FTP 站点下载脚本,然后再次将其复制到群集。如果哈希匹配,请以根用户身份运行以下命令:
lab-1# sh /ifs/data/Isilon_Support/var_mirror_repair.sh
  1. 脚本通常需要 5-10 分钟才能运行。在大型(30+ 节点)或繁忙群集上可能需要更长的时间。脚本完成后,它会报告是否成功或是否存在问题。

启动脚本时,会看到以下输出:

Lab-1# sh /ifs/data/Isilon_Support/var_mirror_repair.sh
Full output can be found at:
 /ifs/data/Isilon_Support/var_mirror_repair.FULL_CLUSTER.2023-10-19T092522.csv

Status: 0/4 Nodes checked, 0/4 var0 partitions, 0/4 var1 partitions

随着脚本的进行,状态行将更新:

Status: 4/4 Nodes checked, 4/4 var0 partitions, 4/4 var1 partitions

脚本成功完成后,您会看到以下内容:

Status: 4/4 Nodes checked, 4/4 var0 partitions, 4/4 var1 partitions

No issues were identified.

Moving files to: var_mirror_repair.2023-10-19T092522.d
Bundle Location: var_mirror_repair.2023-10-19T092522.tgz

这表示所有受影响的节点均已修复,并且脚本没有问题。如果收到的输出与此示例不同,请联系 戴尔支持 并提供来自捆绑包位置的输出和日志文件。

Produse afectate

Isilon F800, Isilon F810, Isilon Gen6, Isilon H400, Isilon H500, Isilon H5600, Isilon H600, PowerScale Archive A300, PowerScale Archive A3000, PowerScale Hybrid H700, PowerScale Hybrid H7000

Produse

PowerScale F200, PowerScale F600, PowerScale F900
Proprietăți articol
Article Number: 000213248
Article Type: Solution
Ultima modificare: 06 Jan 2026
Version:  21
Găsiți răspunsuri la întrebările dvs. de la alți utilizatori Dell
Servicii de asistență
Verificați dacă dispozitivul dvs. este acoperit de serviciile de asistență.