安装 PowerPath 7.0 或 PowerPath 7.0 P01 后,PowerPath for AIX 导致主机停止响应或重新启动

Summary: 在安装(或升级到)PowerPath 7.0 或 PowerPath 7.0 P01 后,PowerPath for AIX 会导致主机在每天午夜左右意外重新启动。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

环境:
Dell EMC 软件:PowerPath 7.0 for AIX 或 PowerPath 7.0 P01 for AIX
非 Dell EMC 软件:安装在 Dell EMC 传统存储(由 PowerPath-VMAX 阵列管理,微码低于 5978、Unity、VNX、VPLEX、PowerStore、XtremIO 等
)上的 Oracle 实例 在 crontab /var/spool/cron/crontabs/root 中可以找到诸如“0 0 * * * /etc/emc/bin/oracleinstance”之类的行

症状:
手动运行 /etc/emc/bin/oracleinstance 导致主机停止响应或重新启动(请勿尝试!)
主机停止响应并在每天午夜左右意外重新启动。对转储的分析显示,在调用 MpxSetDevOrainstMap 函数后会出现此问题。
转储显示以下内容:

CRASH INFORMATION:
CPU 16 CSA F0xxxxxxxxxxxxxx at time of crash, error code for LEDs: 30000000
pvthread+194300 STACK:
[0000F434]___memmove64+000034 ()
[F1000000C049EE38]MpxSetDevOrainstMap+000138 (F1000C0310327E80, 0000000000000060)
[F1000000C04A90C8]MpxIocmd+0004C8 (0000015300000153, F1000C0310327E80,
   0000006000000060)
[F1000000C041517C]EmcpIocmd+0001FC (F00000002FF46B88, 0000015300000153,
   F1000C0310327E80, 0000006000000060)
[F1000000C042086C]power_ioctl+0003AC (8000000F00000000, 0000000400000004,
   000000002FF22998, 0000000000000003, 0000000000000000, 0000000000000000)
[00014D70].hkey_legacy_gate+00004C ()
[006A5D38]rdevioctl+0000B8 (??, ??, ??, ??, ??, ??)
[008E3F2C]spec_ioctl+00008C (??, ??, ??, ??, ??, ??)
[00704658]vnop_ioctl+000058 (??, ??, ??, ??, ??, ??)
[0071E774]vno_ioctl+0001B4 (??, ??, ??, ??, ??)
[007CF1F4]common_ioctl+000114 (??, ??, ??, ??)
[0000394C]syscall+000244 ()
[kdb_get_virtual_memory] no real storage @ 2FF228A8
[D011CA6C]D011CA6C ()
[kdb_read_mem] no real storage @ FFFFFFFFFFF60F0

Cause

脚本 /etc/emc/bin/oracleinstance 已添加到 PowerPath for AIX 7.0 中,以处理“PowerPath 设备使用中报告”功能。由于 crontab 中的条目,此脚本每天午夜运行。该脚本的用途是构建 Oracle 使用的设备列表。此列表随后将传输到阵列,以便为这些设备赋予更高的优先级。微码为 5978 及更高版本的 PowerMax 阵列支持此功能。

即使没有连接到主机的 PowerMax 阵列,也会构建此列表。当阵列不支持该功能时,这会导致主机停止响应(因为出现问题)。

Resolution

解决方法:
一种简单的解决方法是,在 /var/spool/cron/crontabs/root 中以 root 身份删除或注释掉 /etc/emc/bin/oracleinstance 的 crontab 条目。可以运行 crontab -e root 命令。默认情况下,它会在根 crontab 文件上调用 vi ,然后可以删除该条目。有关更多详细信息,请参见 man crontab

注意:删除此条目不会产生不利影响,尤其是在没有支持 Oracle 实例的 PowerMax 存储(微码为 5978 及更高版本)的情况下。如果在 Oracle 使用 PowerMax 设备时删除脚本,Oracle 设备将具有与阵列中的任何其他设备相同的性能。

分辨率:
PowerPath for AIX 7.0 P02 及更高版本解决了此问题。

Additional Information

以下是 PowerPath 7.0 P02 for AIX 发行说明中的内容:
 
问题编号 问题摘要 在版本中找到 已修复问题的版本
PPAI-783 避免主机崩溃,并在配置超出每个设备支持的最大路径数时显示警告消息。 7.0 7.0 P02
PPEE-711 在 AIX LPM 期间,我们看到“E9595B51 0914221120 I S powerpath0 CONTROL POINT FAILURE” 7.0 7.0 P02
PPAI-683 Oracle 实例名称功能导致的 AIX 主机崩溃 7.0 7.0 P02
PPAI-671 所有 pprootdev 命令均失败,并显示 “/usr/sbin/pprootdev[15]:(requiredSpaceavaliableSpace)*
2:0403-009 指定的数字对于此命令无效。”
7.0 7.0 P02
PPEE-583 PowerPath 管理控制台每天都会失去与设备的通信。 7.0 7.0 P02
PPAI-618 PowerPath: powerdd:MpxPeriodicCallbackDaemon 导致 AIX 失败并重新启动。 6.4 7.0
Article Properties
Article Number: 000172441
Article Type: Solution
Last Modified: 03 Jul 2024
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.