Highlighted
版主
版主

使用 EMC VPLEX 实现 VMware vSphere Metro Storage Cluster (vMSC)(2078254)

原文出处: VMware  http://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=207825...

Symptoms

免责声明:本文为 Implementing VMware vSphere Metro Storage Cluster (vMSC) using EMC VPLEX (2007545) 的翻译版本。尽管我们会不断努力为本文提供最佳翻译版本,但本地化的内容可能会过时。有关最新内容,请参见英文版本。

Purpose

本文提供了有关使用 EMC VPLEX Metro 5.0 及更高版本跨两个数据中心部署 Metro Storage Cluster 的信息。借助 vSphere 5.x/6.0,存储虚拟化设备可以在 Metro Storage Cluster 配置中得到支持。

Resolution

什么是 VPLEX?

EMC VPLEX 是一款联合解决方案,提供了在两个地理位置不同的站点同时访问存储设备的权限。可以置备一个或多个 VPLEX Distributed Virtual Volume 在两个站点的 ESXi 主机之间进行共享。这些卷可以用作裸设备映射 (RDM) 磁盘或者作为共享 VMFS 数据存储。RDM 可用于供虚拟机独占访问并且 VMFS 数据存储可用于置备虚拟机和拆分出其他 vDisk。

每个站点自己的 VPLEX 群集设计为高度可用。VPLEX 群集可以有两个到八个导向器。每个导向器受冗余电源、风扇和互连保护,使 VPLEX 具有极高的弹性。

什么是 vMSC?

vSphere Metro Storage Cluster (vMSC) 是新配置。成功进行 vMSC 认证后,支持 MSC 配置中配置的存储设备。VMware Storage Compatibility Guide 中列出了所有受支持的存储设备。

VPLEX Witness

VPLEX Witness 是置备作为 ESXi 主机上的虚拟机的 VPLEX 组件,该 ESXi 主机通常在第三个站点部署。部署 VPLEX Metro Solution 与 VPLEX Witness 使得可以在出现站点故障或者出现群集间链路故障时能够不间断使用存储卷。

置备 VPLEX Distributed Virtual Volume 后,可能会启用每卷首选站点标记或者具有相同首选站点设置的 Distributed Virtual Volume 可能会被放置在同一一致性组中。首选项条件可以是可用性、监视工作人员的出席或者位置等。VPLEX Witness 故障处理语义仅应用于一致性组内的 Distributed Virtual Volume。

配置要求

必须满足这些要求才能支持以下配置:

  • 对于不一致的主机访问配置,两个 VPLEX 群集之间的 IP 网络和群集间网络的最长往返滞后时间不得超过 5 毫秒,而对于一致的主机访问配置,该时间不得超过 1 毫秒。IP 网络支持 VMware ESXi 主机和 VPLEX Management Console。两个 VPLEX 群集之间的接口可以是光纤通道或 IP。对于 VPLEX Geosynchrony 5.2 及更高版本和采用 NMP 和 PowerPath 的 ESXi 5.5,现在所支持的不一致主机访问配置的往返滞后时间最长为 10 毫秒。有关受支持配置的详细信息,请参见 support.emc.com 上提供的最新 VPLEX EMC Simple Support Matrix (ESSM)。
  • 两个数据中心中的 ESXi 主机必须在同一 IP 子网和广播域上具有一个专用网络。
  • 驻留于其上的虚拟机所用的任何 IP 子网必须可从两个数据中心中的 ESXi 主机访问。该要求非常重要,以便当任意 VMware HA 触发虚拟机重新启动事件时,访问运行于两端 ESXi 主机的虚拟机的客户端可以正常运行。
  • 数据存储位置(包括虚拟机所使用的引导设备)必须处于活动状态且可从两个数据中心中的 ESXi 主机访问。
  • vCenter Server 必须能够连接至两个数据中心中的 ESXi 主机。
  • 在 ESX Cluster 中运行的虚拟机的 VMware 数据存储在 Distributed Virtual Volume 上置备。
  • HA 群集中的最大主机数量不得超过 32 个。
  • VPLEX 交叉连接一致性组的配置选项自动恢复必须设置为 true。
注意
  • 构成 VMware HA 群集的 ESXi 主机可以分布于两个站点。HA 群集可以在未出现故障的 ESXi 主机上启动虚拟机,ESXi 主机通过其站点的存储路径访问 Distributed Virtual Volume。
  • VPLEX 5.0 及更高版本和 ESXi 5.0 在该配置中与 VPLEX Witness 一起进行测试。
有关 VPLEX Distributed Virtual Volume 的任何其他要求,请参见 EMC VPLEX best practices document

解决方案概述

VMware HA/DRS 群集是使用 ESXi 5.0 主机跨两个站点创建的,由 vCenter Server 5.0 管理。vSphere Management、vMotion 和虚拟机网络是通过使用两个站点之间的冗余网络连接的。假设管理 HA/DRS 群集的 vCenter Server 可以连接至两个站点的 ESXi 主机。该图表提供了如下概述: 基于到 VPLEX 存储群集的主机 SAN 连接,有两种可能的部署类型:
  • 不一致的主机访问 – 该类型的部署涉及任一站点的主机仅通过同一站点存储群集查看存储卷。该图表提供了如下示例:

  • 一致的主机访问 (Cross-Connect) – 该部署涉及跨两个站点建立前端 SAN,以便其中一个站点的主机可以查看同一站点以及其他站点的存储群集。对于该类型的部署必须遵循以下最佳做法:
    • 前端区域分配应通过此类方式完成,从而将 HBA 端口连接到本地或远程 VPLEX 群集。
    • 路径策略应设置为 FIXED 以避免由同一主机写入分布式卷的两个引脚。

该图表提供了如下示例:

跨两个数据中心联合的 VPLEX Metro 解决方案向 ESXi 主机提供了分布式存储。假设 ESXi 引导磁盘位于特定于主机的内部驱动器,而不是位于 Distributed Virtual Volume 本身。

理想情况下,虚拟机在 Distributed Virtual Volume 的首选站点运行。

该表概括介绍了测试的方案:

方案

VPLEX 行为

影响/观察到的 VMware HA 行为

单一 VPLEX 后端 (BE) 路径故障

VPLEX 使用同一 BE 阵列的备用路径继续运行。对 ESXi 主机公开的 Distributed Virtual Volume 没有影响。

无。

单一前端 (FE) 路径故障

预期 ESXi Server 使用 Distributed Virtual Volume 的备用路径。

无。

站点 A 的 BE 阵列故障

VPLEX 使用站点 B 的阵列继续运行。当阵列从故障中恢复时,站点 A 的存储卷会自动从站点 B 重新同步。

无。

站点 B 的 BE 阵列故障

VPLEX 使用站点 A 的阵列继续运行。当阵列从故障中恢复时,站点 B 的存储卷会自动从站点 A 重新同步。

无。

VPLEX 导向器故障

VPLEX 通过同一 VPLEX 群集上的其他导向器继续提供对 Distributed Virtual Volume 的访问权限。

无。

完整的站点 A 故障

(故障包括站点 A 的所有 ESXi 主机和 VPLEX 群集。)

VPLEX 继续服务未出现故障的站点(站点 B)上的 I/O。当故障站点(站点 A)的 VPLEX 恢复后,会自动从活动站点(站点 B)同步 Distributed Virtual Volume。

在故障站点运行的虚拟机失败。VMware HA 自动在未出现故障的站点重新启动它们。

完整的站点 B 故障

(故障包括站点 A 的所有 ESXi 主机和 VPLEX 群集。)

VPLEX 继续服务未出现故障的站点(站点 A)上的 I/O。当站点 B 的 VPLEX 恢复后,会自动从活动站点(站点 A)同步 Distributed Virtual Volume。

在故障站点运行的虚拟机失败。VMware HA 自动在未出现故障的站点重新启动它们。

多个 ESXi 主机
故障 – 关闭

无。

VMware HA 在 VMware HA 群集内的任意未出现故障的 ESXi 主机上重新启动虚拟机。

多个 ESXi 主机
故障 – 网络断开

无。

HA 继续通过共享数据存储交换群集检测信号。未发生任何虚拟机故障切换。

ESXi 主机遭遇 APD(全部路径异常)–

当 ESXi 主机失去对其存储卷(在这种情况下是 VPLEX 卷)的访问权限时会遇到。

无。

在 APD(全部路径异常)方案中,ESXi 主机必须重新引导以恢复。如果 ESXi Server 重新启动,这将会导致 VMware HA 在 VMware HA 群集内的其他未出现故障的 ESXi Server 上重新启动失败的虚拟机。

VPLEX 站点间链路故障;vSphere 群集管理网络完好

VPLEX 将非首选站点上的 Distributed Virtual Volume 转变为 I/O 故障状态。在首选站点上,Distributed Virtual Volumes 继续提供访问权限。

在首选站点运行的虚拟机不会受到影响。

在非首选站点运行的虚拟机遇到 I/O 故障并显示 PDL 错误。HA 将这些虚拟机故障切换至其他站点。

在一致的主机访问配置中,虚拟机运行不受任何影响,因为 ESXi 主机仍能通过首选站点访问分布式卷。

VPLEX 群集故障

(站点 A 或者站点 B 的 VPLEX 已失败,但是 ESXi 和其他 LAN/WAN/SAN 组件完好。)

继续在未出现故障的站点中的所有卷上服务 I/O。

位于故障站点中的 ESXi 主机遇到 APD 情况。需要重新引导 ESXi 主机以从故障中恢复。

在一致的主机访问配置中,虚拟机运行不受任何影响,因为 ESXi 主机仍能通过首选站点访问分布式卷。

完整的双站点故障

两个站点恢复时,VPLEX 将继续服务 I/O。最佳做法是先恢复 BE 存储阵列,然后是 VPLEX。

所有虚拟机因两个站点均出现故障而失败。

ESXi 主机应仅在 VPLEX 完全恢复且同步 Distributed Virtual Volumes 后恢复。

开启每个站点的 ESXi 主机时,虚拟机会重新启动并恢复正常运行。

一致的主机访问配置中因两个站点均出现故障产生相同影响。

一个站点

(给定 Distributed Virtual Volume 的首选站点)的导向器故障以及另一站点(给定 Distributed Virtual Volume 的辅助站点)的 BE 阵列故障

存在故障导向器的 VPLEX 群集内未出现故障的 VPLEX 导向器将继续提供 Distributed Virtual Volume 的访问权限。

VPLEX 使用首选站点 BE 阵列继续提供 Distributed Virtual Volume 的访问权限。

无。

VPLEX 站点间链路完好;vSphere 群集管理网络故障

无。

HA 群集信号通过共享数据存储交换后每个站点上的虚拟机继续在其各自的主机上运行。

VPLEX 站点间链路故障;vSphere 群集管理网络故障

在给定 Distributed Virtual Volume 的非首选站点上 VPLEX 服务 I/O 失败。卷可以继续访问其首选站点上的 Distributed Virtual Volume。

对于在首选站点中运行的虚拟机,开启的虚拟机继续运行。

这是 HA 裂脑情况。非首选站点认为首选站点的主机已死机并尝试重新启动首选站点的已开启虚拟机。

对于在非首选站点中运行的虚拟机,这些虚拟机将其 I/O 视为失败,然后虚拟机失败。这些虚拟机可以在首选站点上注册并重新启动。

在一致的主机访问配置中,虚拟机运行不受任何影响,因为 ESXi 主机仍能通过首选站点访问分布式卷。HA 信号通过数据存储进行交换。

VPLEX Storage 卷不可用(例如,它意外从存储视图中移除或者 ESXi 启动器意外从存储视图中移除)

VPLEX 继续在卷可用的其他站点上服务 I/O。

如果 I/O 在丢失的设备的上运行,ESXi 会检测到 PDL(永久设备丢失)情况。虚拟机被虚拟机监视器终止,并由 HA 在其他站点上重新启动。

VPLEX 站点间 WAN 链路故障以及同时的 Cluster Witness 到站点 B 链路故障

站点 B 的 Distributed Virtual Volume 上 VPLEX 服务 I/O 失败,并继续服务站点 A 上的 I/O。

发现站点 B 的虚拟机失败。它们可以在站点 A 重新启动。

在一致的主机访问配置中,虚拟机运行不受任何影响,因为站点 B 的 ESXi 主机仍能通过站点 A 访问分布式卷。

VPLEX 站点间 WAN 链路故障以及同时的 Cluster Witness 到站点 A 链路故障

站点 A 的 Distributed Virtual Volume 上 VPLEX 服务 I/O 失败,并继续服务站点 B 上的 I/O。

发现站点 A 的虚拟机失败。它们可以在站点 B 重新启动。

在一致的主机访问配置中,虚拟机运行不受任何影响,因为站点 A 的 ESXi 主机仍能通过站点 B 访问分布式卷。

VPLEX Cluster Witness 故障

VPLEX 继续服务两个站点的 I/O。

无。

VPLEX Management Server 故障

无。

无。

vCenter Server 故障

对运行中的虚拟机或 HA 没有影响。但是,DRS 规则和虚拟机位置未生效。

标签 (1)
标记 (3)
0 项奖励