在安裝 PowerPath 7.0 或 PowerPath 7.0 P01 後,適用於 AIX 的 PowerPath 導致主機停止回應或重新開機

Summary: 在安裝 (或升級至) PowerPath 7.0 或 PowerPath 7.0 P01 後,適用於 AIX 的 PowerPath 導致主機每天午夜左右發生非預期的主機重新開機。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

環境:
Dell EMC 軟體:適用於 AIX 的 PowerPath 7.0 或適用於 AIX
的 PowerPath 7.0 P01 非 Dell EMC 軟體:安裝在 Dell EMC 舊版儲存裝置上的 Oracle 例項 (由 PowerPath-VMAX 陣列管理的 Dell 儲存裝置,微碼低於 5978、Unity、VNX、VPLEX、PowerStore、XtremIO 等)
在 crontab /var/spool/cron/crontabs/root 中找到「0 0 * * * /etc/emc/bin/oracleinstance」之類的行

症狀:
手動執行 /etc/emc/bin/oracleinstance 會導致主機停止回應或重新開機 (請勿嘗試!)
主機會停止回應,並在每天午夜左右意外重新開機。對轉儲的分析顯示,在調用 MpxSetDevOrainstMap 函數後出現此問題。
轉儲顯示以下內容:

CRASH INFORMATION:
CPU 16 CSA F0xxxxxxxxxxxxxx at time of crash, error code for LEDs: 30000000
pvthread+194300 STACK:
[0000F434]___memmove64+000034 ()
[F1000000C049EE38]MpxSetDevOrainstMap+000138 (F1000C0310327E80, 0000000000000060)
[F1000000C04A90C8]MpxIocmd+0004C8 (0000015300000153, F1000C0310327E80,
   0000006000000060)
[F1000000C041517C]EmcpIocmd+0001FC (F00000002FF46B88, 0000015300000153,
   F1000C0310327E80, 0000006000000060)
[F1000000C042086C]power_ioctl+0003AC (8000000F00000000, 0000000400000004,
   000000002FF22998, 0000000000000003, 0000000000000000, 0000000000000000)
[00014D70].hkey_legacy_gate+00004C ()
[006A5D38]rdevioctl+0000B8 (??, ??, ??, ??, ??, ??)
[008E3F2C]spec_ioctl+00008C (??, ??, ??, ??, ??, ??)
[00704658]vnop_ioctl+000058 (??, ??, ??, ??, ??, ??)
[0071E774]vno_ioctl+0001B4 (??, ??, ??, ??, ??)
[007CF1F4]common_ioctl+000114 (??, ??, ??, ??)
[0000394C]syscall+000244 ()
[kdb_get_virtual_memory] no real storage @ 2FF228A8
[D011CA6C]D011CA6C ()
[kdb_read_mem] no real storage @ FFFFFFFFFFF60F0

Cause

PowerPath for AIX 7.0 中新增了 /etc/emc/bin/oracleinstance 指令檔,以處理「使用中的 PowerPath 裝置報告」功能。由於 crontab 中的項目,此指令檔會在每天午夜執行。此指令檔的目的是建立 Oracle 所使用的裝置清單。然後,此清單將傳輸到陣列,以便為這些設備提供更高的優先順序。微碼為 5978 及更新版本的 PowerMax 陣列支援此功能。

即使沒有連接至主機的 PowerMax 陣列,也會建立此清單。當陣列不支援此功能時,這會導致主機停止回應 (因為問題)。

Resolution

因應措施:
一個簡單的因應措施是在 /var/spool/cron/crontabs/root 中以 root 身分移除或註解掉 /etc/emc/bin/oracleinstance 的 crontab 項目。可以執行 crontab -e 根 命令。默認情況下,它會在根 crontab 檔上調用 vi ,然後可以刪除該條目。如需詳細資料 ,請參閱 man crontab

便條:移除此項目不會產生不良影響,特別是如果沒有 PowerMax 儲存裝置 (微碼 5978 及更新版本) 支援 Oracle 例項。如果在 Oracle 使用 PowerMax 裝置時移除指令檔,Oracle 裝置的效能會與陣列中的任何其他裝置相同。

主意:
適用於 AIX 7.0 P02 和更新版本的 PowerPath 可解決此問題。

Additional Information

以下是適用於 AIX 的 PowerPath 7.0 P02 版本資訊中的內容:
 
問題編號 問題摘要 可在中找到版本 已修正問題的版本
PPAI-783 避免主機當機,並在組態超過每個裝置支援的最大路徑時顯示警告訊息。 7.0 7.0 P02
個人防護裝備-711 在 AIX LPM 期間,我們會看到「E9595B51 0914221120 I S POWERPATH0 控制點故障」 7.0 7.0 P02
PPAI-683 Oracle 例項名稱功能導致 AIX 主機當機 7.0 7.0 P02
PPAI-671 所有 pprootdev 命令都會失敗,並顯示「/usr/sbin/pprootdev[15]:(requiredSpaceavaliableSpace)*
2:0403-009 指定的號碼對於此命令無效。
7.0 7.0 P02
個人防護裝備-583 PowerPath 管理主控台每天都會失去與裝置的通訊。 7.0 7.0 P02
PPAI-618 PowerPath:powerdd:MpxPeriodicCallbackDaemon 導致 AIX 失敗並重新開機。 6.4 7.0
Article Properties
Article Number: 000172441
Article Type: Solution
Last Modified: 03 Jul 2024
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.