VPLEX:如何使用 GeoSynchrony 6.2 中改进的后端路径管理 (BEPM) 诊断和监视后端问题
Summary: 本文讨论已添加到 GeoSynchrony 6.2 及更高版本的后端 (BE) 路径管理功能。此外,还讨论了通过更改后的 BE 路径管理功能处理后端网络拥塞。
Symptoms
在 GeoSynchrony 6.2 之前的版本中,VPLEX 无法隔离由于结构拥塞或存储阵列问题而出现高延迟的后端存储卷的某些路径。在版本 6.2 中,VPLEX 会自动隔离性能不佳的路径到存储卷(出现高延迟的路径),并在性能恢复到可接受的水平时自动恢复它们。
GeoSynchrony 6.2 中引入的新 Call Home:
0x8a6b6001 - BEPM/1 - 后端 IT 关系的性能已低于可接受的水平。
0x8a6b6004 - bepm/4 - 在后端 IT Nexus 上检测到重复的性能不佳。
0x8a6b6007 bepm/7 - 此控制器上逻辑单元的所有启动器-目标-LUN (ITL) 性能不佳,因此该逻辑单元标记为降级。
后端路径由启动器(VPLEX BE 端口)和目标(阵列上的端口)组成,称为 IT Nexus。
用于检查哪些 BE 路径可能处于降级状态的新 CLI 命令:back-end degraded list 和 back-end degraded recover
有关使用这些命令的更多信息,请参阅《VPLEX 6.2 CLI 指南》。
这 back-end degraded list 命令显示 VPLEX 由于高延迟而降级的任何 I-T。
下面显示了 help (-h) 选项,以查看如何使用该命令:
VPlexcli:/>back-end degraded list -h
synopsis: list [<options>]
This shows a list of degraded I-Ts:
options (* = required):
-h | --help
显示此命令的用法。
在命令执行期间,--verbose 提供更多输出。 此选项可能对某些命令不起作用。
-g | --group-by= <group_by>
按指定的字段对已降级的 I-T 进行分组。支持的字段:阵列、控制器
标记为降级的 IT 示例 — 显示时显示 Degradation Reason / Degraded performance:
VPlexcli:/>back-end degraded list
Degraded I-Ts:
Director Director Port Initiator Target Array Degradation Reason
-------------- ------------- ------------------ ------------------ --------------------------- --------------------
director-1-1-A A1-FC00 0xc00144878f110800 0x50060160086429bb EMC-CLARiiON-APM00140624008 Degraded performance
A1-FC00 0xc00144878f110800 0xc00144878f3d0000 EMC-Invista-LABRATS4900007 性能
下降 A1-FC00 0xc00144878f110800 0xc00144878f3d0200 EMC-Invista-LABRATS4900007性能下降
A1-FC01 0xc00144878f110900 0xc00144878f3d0100 EMC-Invista-LABRATS4900007性能下降
A1-FC01 0xc00144878f110900 0xc00144878f3d0300 EMC-Invista-LABRATS4900007性能下降
director-1-1-B B1-FC00 0xc00144878f118800 0xc00144878f3d0000 EMC-Invista-LABRATS4900007 性能
下降 B1-FC00 0xc00144878f118800 0xc00144878f3d0200 EMC-Invista-LABRATS4900007性能下降
B1-FC01 0xc00144878f118900 0xc00144878f3d0100 EMC-Invista-LABRATS4900007性能下降
B1-FC01 0xc00144878f118900 0xc00144878f3d0300 EMC-Invista-LABRATS4900007性能下降
如果发现后端 IT 路径在 30 分钟内在降级和未降级(摆动)之间循环三次,则 IT Nexus 被视为不稳定,VPLEX 会自动停止使用 IT Nexus 进行基于主机的 I/O,并在固件日志中报告 Call Home 事件 0x8a6b6004 或 bepm/4。处于此状态时, back-end degraded list 命令列表 Degradation Reason 如 Isolated due to unstable performance。
在这种情况下,IT Nexus 将保持降级状态,直到最终用户使用 CLI 命令手动还原它 back-end degraded recover,或达到四小时默认阈值,之后将标记 IT Nexus Performance degraded 而恢复过程会在取消降级之前检查其运行状况(如果性能测试通过,则自动重新启用该路径以再次处理基于主机的 I/O)。
不稳定状态(间歇性性能降级)的示例 Degradation Reason 是 Isolated due to unstable performance:
VPlexcli:/>back-end degraded listDegraded I-Ts
:
Director Director Initiator Target Array Degradation Reason
-------------- Port ------------------ ------------------ ------------------------------- -----------------------
-------------- ------------ ------------------ ------------------ ------------------------------- -----------------------
director-1-1-A A1-FC00 0xc001448798b90800 0x5000097398037804 EMC-SYMMETRIX-197600222 因性能
不稳定而被隔离 A1-FC00 0xc001448798b90800 0x5000097398037805 EMC-SYMMETRIX-197600222 因性能
不稳定而被隔离 如果没有路径降级,则 back-end degraded list 命令报告此:
VPlexcli:/>back-end degraded list
No paths are currently degraded.
另一个新的 CLI 命令 back-end degraded recover,用于降级的后端路径。下面显示了 help (-h) 选项替换为 back-end degraded recover 命令以查看如何使用该命令:
VPlexcli:/>back-end degraded recover -h
synopsis: recover [<options>]
恢复指定的降级 I-Ts:
options (* = required):
-h | --help
显示此命令的用法。
在命令执行期间,--verbose 提供更多输出。 此选项可能对某些命令不起作用。
-p | --paths= <paths>
要恢复的已降级 I-T。每个 I-T 都必须以“(<initiator>,<target>)”的形式成对表示。
--都
恢复所有当前降级的 I-T。
用于恢复的单个 I-T 的示例,显示有 Degradation Reason / Isolated due to unstable performance:
VPlexcli:/>back-end degraded recover -p (0xc00144878bda0900,0x5006016547e01af9)
Recovered I-Ts:
控制器端口启动器目标阵列 降级原因
-------------- ------------- ------------------ ------------------ --------------------------- ------------------
director-1-1-A A1-FC01 0xc00144878bda0900 0x5006016547e01af9 EMC-CLARiiON-APM00164919257 因 性能
不稳定而被隔离 要恢复的所有降级 I-T 的示例:
VPlexcli:/>back-end degraded recover --all
Recovered I-Ts:
Director Director Port Initiator Target Array Degradation Reason
-------------- ------------- ------------------ ------------------ --------------------------- ------------------
director-1-1-A A1-FC00 0xc00144878bda0800 0x5000144260321e00 EMC-Invista-rc-surry-1 Isolated due to unstable
performance控制器-1-1-B B1-FC01 0xc00144878bda8900 0x5006016547e01af9 EMC-CLARiiON-APM00164919257 由于性能
不稳定而被隔离 如果受影响的 IT Nexus 的间歇性延迟问题仍然存在,并且用户无法快速解决根本原因,则建议通过实时聊天联系 VPLEX 客户支持,以手动将 IT Nexus 标记为降级,以删除该路径,直到可以解决底层问题。
Cause
VPLEX 的外部问题(如结构拥塞或阵列问题)可能会导致 VPLEX 的后端问题。GeoSynchrony 6.2 旨在更好地处理此类 BE 拥塞,但建议尽快解决拥塞。
为了检测拥塞的根源,戴尔具有 FC 端口监视功能,可监视任何 BE FC 端口的结构中的错误。结果有助于缩小结构中的网络问题范围。从 GeoSynchrony 6.2 开始,FC 端口监视器默认处于打开状态。
如果您仍在运行 GeoSynchrony 6.0.x 或 6.1.x 的任何版本,并且尚未准备好升级到 6.2.x,并且您希望在 VPLEX 上加载 FC 端口监视脚本,请联系戴尔客户支持以加载该脚本。
Resolution
GeoSynchrony 6.2 旨在更好地处理此类网络拥塞。 当触发 VPLEX 代码的 BEPM 功能时,它指示 VPLEX 外部的问题。 应立即修复导致网络拥塞或存储阵列问题的原因。 VPLEX 日志提供的数据可用于帮助缩小问题发生位置的范围。修复问题后,VPLEX 会自动恢复现在运行状况良好的 I-T。