vSphere可用性 首选主机和辅助主机 在将主机添加到 vSphere HA群集时,代理将上载到主机,并配置为与群集内的其他代理通信。群集中的每 台主机作为首选主机或辅助主机运行。 如果为群集启用了 vSphere HA,则所有活动主机(未处于待机或维护模式的主机或未断开连接的主机)都 将参与选择群集的首选主机。挂载最多数量的数据存储的主机在选举中具有优势。每个群集通常只存在一台 首选主机,其他所有主机都是辅助主机。如果首选主机出现故障、关机或处于待机模式或者从群集中稌除, 则会进行新的选举 群集中的首选主机具有多个职责 监控辅助主机的状况。如果辅助主机发生故障或无法访冋,首选主机将确定必须重新启动哪些虚拟机。 监控所有受保护虚拟机的电源状况。如果有一台虚拟机岀现故障,首选主机可确保重新启动该虚拟机。 首选主机还可使用本地放置引擎确定进行重新启动的位置。 含理群集主机和受保护的虚拟机列表 充当群集的 vCenter Server管理界面并报告群集运行状况。 助主机主要通过在本地运行虚拟机、监控其运行时状况和向首选主机报告状况更新来对群集提供支持。首 选主机也可运行和监控虚拟机。辅助主机和首选主机都可实现虚拟机和应用程序监控功能。 首选主机执行的功能之一是协调受保护虚拟机的重新启动。在 vCenter server观察到为响应用户操作,某虚 拟机的电源状况由关闭电源变为打开电源之后,该虚拟机会受到首选主机的保护。首选主机会将受保护虚拟 机的列表保留在群集的数据存储中。新选的首选主机使用此信息来确定要保护哪些虚拟机。 注如果断开主机与群集之间的连接,则向该主机注册的虚拟机将不受 vSphere HA保护。 主机故障类型 Mware vSphere High Availabili!y群集的首选主机负责检测辅助主机的故障。根据检测到的故障类型,在 主机上运行的虚拟机可能需要进行故障切换 在 vSphere HA群集中,检测三种类型的主机故障 故障。主机停止运行 隔离。主机出现网络隔离。 分区。主机失去与首选主机的网络连接。 首选主机监控群集中辅助主机的活跃度。此通信通过每秒交换一次网络检测信号来进行。当首选主机停止从 辅助主机接收这些检测信号时,它会在声眀该主机出现故障之前检查主机活跃度。首选主机执行的活跃度检 査是要确定辅助主机是否在与数据存储之一交换检测信号。请参见数据存储检测信号。而且,首选主机还检 查主机是否对发送至其管理|P地址的 CMP ping进行响应 如果首选主机无法直接与辅助主机上的代理通信,则辅助主机不会响应 ICMP ping。如果代理未发出检测信 弓,则被视为出现故障。会在备用主机上重新启动主机的虚拟机。如果此类辅助主机正在与数据存储交换检 信号,首选主机会假设辅助主机在网络分区上或已与网络隔离。因此,首选主机会继续监控该主机及其虚 机。请参见网络分区。 VMware,lc保留所有权利
首选主机和辅助主机 在将主机添加到 vSphere HA 群集时,代理将上载到主机,并配置为与群集内的其他代理通信。群集中的每 台主机作为首选主机或辅助主机运行。 如果为群集启用了 vSphere HA,则所有活动主机(未处于待机或维护模式的主机或未断开连接的主机)都 将参与选择群集的首选主机。挂载最多数量的数据存储的主机在选举中具有优势。每个群集通常只存在一台 首选主机,其他所有主机都是辅助主机。如果首选主机出现故障、关机或处于待机模式或者从群集中移除, 则会进行新的选举。 群集中的首选主机具有多个职责: n 监控辅助主机的状况。如果辅助主机发生故障或无法访问,首选主机将确定必须重新启动哪些虚拟机。 n 监控所有受保护虚拟机的电源状况。如果有一台虚拟机出现故障,首选主机可确保重新启动该虚拟机。 首选主机还可使用本地放置引擎确定进行重新启动的位置。 n 管理群集主机和受保护的虚拟机列表。 n 充当群集的 vCenter Server 管理界面并报告群集运行状况。 辅助主机主要通过在本地运行虚拟机、监控其运行时状况和向首选主机报告状况更新来对群集提供支持。首 选主机也可运行和监控虚拟机。辅助主机和首选主机都可实现虚拟机和应用程序监控功能。 首选主机执行的功能之一是协调受保护虚拟机的重新启动。在 vCenter Server 观察到为响应用户操作,某虚 拟机的电源状况由关闭电源变为打开电源之后,该虚拟机会受到首选主机的保护。首选主机会将受保护虚拟 机的列表保留在群集的数据存储中。新选的首选主机使用此信息来确定要保护哪些虚拟机。 注 如果断开主机与群集之间的连接,则向该主机注册的虚拟机将不受 vSphere HA 保护。 主机故障类型 VMware vSphere® High Availability 群集的首选主机负责检测辅助主机的故障。根据检测到的故障类型,在 主机上运行的虚拟机可能需要进行故障切换。 在 vSphere HA 群集中,检测三种类型的主机故障: n 故障。主机停止运行。 n 隔离。主机出现网络隔离。 n 分区。主机失去与首选主机的网络连接。 首选主机监控群集中辅助主机的活跃度。此通信通过每秒交换一次网络检测信号来进行。当首选主机停止从 辅助主机接收这些检测信号时,它会在声明该主机出现故障之前检查主机活跃度。首选主机执行的活跃度检 查是要确定辅助主机是否在与数据存储之一交换检测信号。请参见数据存储检测信号。而且,首选主机还检 查主机是否对发送至其管理 IP 地址的 ICMP ping 进行响应。 如果首选主机无法直接与辅助主机上的代理通信,则辅助主机不会响应 ICMP ping。如果代理未发出检测信 号,则被视为出现故障。会在备用主机上重新启动主机的虚拟机。如果此类辅助主机正在与数据存储交换检 测信号,首选主机会假设辅助主机在网络分区上或已与网络隔离。因此,首选主机会继续监控该主机及其虚 拟机。请参见网络分区。 vSphere 可用性 VMware, Inc. 保留所有权利。 11
vSphere可用性 当主机仍在运行但无法再监视来自管理网络上 vSphere HA代理的流量时,会发生主机网络隔离。如果主机 停止监视此流量,则它会尝试ping群集隔离地址。如果此ping也失败,主机会声明它已与网络隔离。 首选主机会监控隔离主机上正在运行的虚拟机。如果首选主机观察到虚拟机已关闭电源,且首选主机负责虚 拟机,则会重新启动虚拟机。 注如果您确保网络基础架构具有足够的冗余度且至少有一个网络路径始终可用,则不太可能发生主机网络 Proactive Ha故障 当主机组件发生故障时,即发生了 Proactive HA故障,这会导致冗余丢失或非灾难性故障。但是,主机上 虚拟机的功能行为不会受到影响。例如,如果主机出现电源故障,但是其他电源可用,则属于 Proactive 故障 发生 Proactive HA故障时,可在 vSphere Client的“ vSphere可用性”部分自动执行修复操作。受影响主 机上的虚拟机可以撤出到其他主机,并将该主机置于隔离模式或维护模式 注您的群集必须使用 vSphere DRS,以便 Proactive HA故障监控正常工作。 确定对主机问题的响应 如果主机发生故障而必须重新启动虚拟机,您可使用虚拟机重新启动优先级”设置控制重新启动虚拟机的顺 序。您也可使用主机隔离响应设置,配置主机与其他主机失去管理网络连接时 vSphere HA的响应方式。发 生故障后, vSphere HA重新启动虚拟机时还将考虑其他因素。 以下设置适用于主机发生故障或主机隔离时群集内的所有虚拟机。此外,也可以为特定虚拟机配置异常。请 参见自定义单个虚拟机 主机隔离响应 主机隔离响应确定当 vSphere HA群集内的某个主机失去其管理网络连接但仍继续运行时岀现的情况。您可 以使用隔离响应使 vSphere HA关閉隔离主机上运行的虚拟机的电源,然后在非隔离主机上将其重新启动。 主机隔离响应要求启用“主机监控状态”。如果“主机监控状态”处于禁用状态,则主机隔离响应将同样被 挂起。当主机无法与其他主机上运行的代理通信且无法ping其隔离地址时,该主杋确定其已被隔离。然后, 主机会执行其隔离响应。响应为“关闭虚拟机电源再重新启动虚拟机”或“关闭再重新启动虚拟机”。还可 以为各个虚拟机自定义此属性。 注如果虚拟机的重新启动优先级设置为“已禁用”,则不会做出任何主机隔离响应。 要使用“关闭再重新启动虚拟机”设置,必须在虚拟机的客户机操作系统中安装 VMware Tools。将虚拟机 关机的优点在于可以保留其状况。关机操作优于关闭虚拟机电源操作,关闭虚拟机不会将最近的更改刷新到 磁盘中,也不会提交事务。在关机完成时,正在关机的虚拟机需要更长时间进行故障切换。未在300秒内或 在高级选项das. isolationshutdowntimeout中指定的时间内关机的虚拟机将被关闭电源 创建 vSphere HA群集后,可以替代特定虚拟机的“重新启动优先级”和“隔离响应”的默认群集设置。此 替代操作对于用于特殊任务的虚拟机很有帮助。例如,可能需要先打开提供基础架构服务(如DNS或 DHCP)的虚拟机电源,再打开群集内的其他虚拟机电源。 VMware,lc保留所有权利
当主机仍在运行但无法再监视来自管理网络上 vSphere HA 代理的流量时,会发生主机网络隔离。如果主机 停止监视此流量,则它会尝试 ping 群集隔离地址。如果此 ping 也失败,主机会声明它已与网络隔离。 首选主机会监控隔离主机上正在运行的虚拟机。如果首选主机观察到虚拟机已关闭电源,且首选主机负责虚 拟机,则会重新启动虚拟机。 注 如果您确保网络基础架构具有足够的冗余度且至少有一个网络路径始终可用,则不太可能发生主机网络 隔离。 Proactive HA 故障 当主机组件发生故障时,即发生了 Proactive HA 故障,这会导致冗余丢失或非灾难性故障。但是,主机上 的虚拟机的功能行为不会受到影响。例如,如果主机出现电源故障,但是其他电源可用,则属于 Proactive HA 故障。 发生 Proactive HA 故障时,可在 vSphere Client 的“vSphere 可用性”部分自动执行修复操作。受影响主 机上的虚拟机可以撤出到其他主机,并将该主机置于隔离模式或维护模式。 注 您的群集必须使用 vSphere DRS,以便 Proactive HA 故障监控正常工作。 确定对主机问题的响应 如果主机发生故障而必须重新启动虚拟机,您可使用虚拟机重新启动优先级”设置控制重新启动虚拟机的顺 序。您也可使用主机隔离响应设置,配置主机与其他主机失去管理网络连接时 vSphere HA 的响应方式。发 生故障后,vSphere HA 重新启动虚拟机时还将考虑其他因素。 以下设置适用于主机发生故障或主机隔离时群集内的所有虚拟机。此外,也可以为特定虚拟机配置异常。请 参见自定义单个虚拟机。 主机隔离响应 主机隔离响应确定当 vSphere HA 群集内的某个主机失去其管理网络连接但仍继续运行时出现的情况。您可 以使用隔离响应使 vSphere HA 关闭隔离主机上运行的虚拟机的电源,然后在非隔离主机上将其重新启动。 主机隔离响应要求启用“主机监控状态”。如果“主机监控状态”处于禁用状态,则主机隔离响应将同样被 挂起。当主机无法与其他主机上运行的代理通信且无法 ping 其隔离地址时,该主机确定其已被隔离。然后, 主机会执行其隔离响应。响应为“关闭虚拟机电源再重新启动虚拟机”或“关闭再重新启动虚拟机”。还可 以为各个虚拟机自定义此属性。 注 如果虚拟机的重新启动优先级设置为“已禁用”,则不会做出任何主机隔离响应。 要使用“关闭再重新启动虚拟机”设置,必须在虚拟机的客户机操作系统中安装 VMware Tools。将虚拟机 关机的优点在于可以保留其状况。关机操作优于关闭虚拟机电源操作,关闭虚拟机不会将最近的更改刷新到 磁盘中,也不会提交事务。在关机完成时,正在关机的虚拟机需要更长时间进行故障切换。未在 300 秒内或 在高级选项 das.isolationshutdowntimeout 中指定的时间内关机的虚拟机将被关闭电源。 创建 vSphere HA 群集后,可以替代特定虚拟机的“重新启动优先级”和“隔离响应”的默认群集设置。此 替代操作对于用于特殊任务的虚拟机很有帮助。例如,可能需要先打开提供基础架构服务(如 DNS 或 DHCP)的虚拟机电源,再打开群集内的其他虚拟机电源。 vSphere 可用性 VMware, Inc. 保留所有权利。 12
vSphere可用性 如果主机已从主主机隔离或分区,或主主机无法使用检测信号数据存储与该主机通信,则可能会发生虚拟 机“裂脑”情况。在这种情况下,主主机无法确定该主机处于活动状态,因此声明其已停止运行。然后,主 主机尝试重新启动已隔离或已分区主机上正在运行的虚拟机。如果虚拟机仍在已隔离尼分区主机上运行,且 该主机在隔离或分区时失去对虚拟机数据存储的访问权限,则此尝试将成功。然后,便会发生裂脑情况,因 为存在两个虚拟机实例。但是,只有一个实例能够读取或写入虚拟机的虚拟磁盘。虚拟机组件保护可用于防 止发生此裂脑情况。使用激进设置启用MCP时,它会监控已打开电源的虚拟机的数据存储可访问性,并 关闭失去对其数据存储访问权限的虚拟机。 为了从此情况中恢复,ESX会针对已丢失磁盘锁的虚拟机生成一个问题(关于主机何时摆脱隔离状态且无 法重新获取磁盘锁)。 vSphere HA将自动回答该问题,这就使已丢失磁盘锁的虚拟机实例关闭电源,只留 下具有磁盘锁的实例。 虚拟机依赖关系 可以在虚拟机组之间创建依赖关系。要执行此操作,必须首先在 vSphere Client中创建虚拟机组,方法是转 到群集的配置选项卡,然后选择虚拟机庄机组。创建组之后,可以在组之间创建重新启动依赖关系规则,方 法是浏览到虚拟机/主机规则,然后在“类型”下拉菜单中,选择虚拟机到虚拟机。这些规则可以指定在其他 指定虚拟机组就绪之前,不会重新启动某些虚拟机 重新启动虚拟机要考虑的因素 发生故障后,群集的主主机会确定一个可打开受影响虚拟机电源的主机,从而尝试重新启动这些虚拟机。选 择此类主机时,主主机会考虑许多因素。 文件可访问性 在可启动虚拟机之前,必须能够从可通过网络与主主机通信的某个活动群集主 机中访问该虚拟机的文件 虚拟机与主机的兼容性如果存在可访问的主机,则虚拟机必须至少与其中一个主机兼容。为虚拟机设 置的兼容性包括任何所需虚拟机-主机关联性规则的影响。例如,如果某个规 则仅允许虚拟机在两个主机上运行,则会考虑将其放置在这两个主机上。 资源预留 在可运行虚拟机的主机中,必须至少有一个主机具有足够的未预留容量以满足 虚拟机的内存开销及任何资源预留。可采用四种预留类型:CPU、内存、虚 拟网卡和虚拟闪存。此外,必须提供足够的网络端口,才能打开虚拟机电源。 主机限制 除了资源预留之外,一个虚拟机只能放置在一个主机上(如果这样做不会违反 允许的虚拟机最大数量或正在使用的vcPU数量)。 功能限制 如果已设置需要 vSphere HA强制执行虚拟机-虚拟机反关联性规则的高级选 项,则 vSphere HA不会违反此规则。此外, vSphere HA不会违反为容错虚 拟机配置的任何每主机限制。 如果没有任何主机满足上述注意事项,则主主机会发布一个事件指出没有足够的资源让 vSphere HA来启动 虚拟机,并会在群集状况发生更改时进行重试。例如,如果虚拟机不可访问,则主主机会在文件可访问性发 生更改后进行重试 VMware,lc保留所有权利
如果主机已从主主机隔离或分区,或主主机无法使用检测信号数据存储与该主机通信,则可能会发生虚拟 机“裂脑”情况。在这种情况下,主主机无法确定该主机处于活动状态,因此声明其已停止运行。然后,主 主机尝试重新启动已隔离或已分区主机上正在运行的虚拟机。如果虚拟机仍在已隔离/已分区主机上运行,且 该主机在隔离或分区时失去对虚拟机数据存储的访问权限,则此尝试将成功。然后,便会发生裂脑情况,因 为存在两个虚拟机实例。但是,只有一个实例能够读取或写入虚拟机的虚拟磁盘。虚拟机组件保护可用于防 止发生此裂脑情况。使用激进设置启用 VMCP 时,它会监控已打开电源的虚拟机的数据存储可访问性,并 关闭失去对其数据存储访问权限的虚拟机。 为了从此情况中恢复,ESXi 会针对已丢失磁盘锁的虚拟机生成一个问题(关于主机何时摆脱隔离状态且无 法重新获取磁盘锁)。vSphere HA 将自动回答该问题,这就使已丢失磁盘锁的虚拟机实例关闭电源,只留 下具有磁盘锁的实例。 虚拟机依赖关系 可以在虚拟机组之间创建依赖关系。要执行此操作,必须首先在 vSphere Client 中创建虚拟机组,方法是转 到群集的配置选项卡,然后选择虚拟机/主机组。创建组之后,可以在组之间创建重新启动依赖关系规则,方 法是浏览到虚拟机/主机规则,然后在“类型”下拉菜单中,选择虚拟机到虚拟机。这些规则可以指定在其他 指定虚拟机组就绪之前,不会重新启动某些虚拟机。 重新启动虚拟机要考虑的因素 发生故障后,群集的主主机会确定一个可打开受影响虚拟机电源的主机,从而尝试重新启动这些虚拟机。选 择此类主机时,主主机会考虑许多因素。 文件可访问性 在可启动虚拟机之前,必须能够从可通过网络与主主机通信的某个活动群集主 机中访问该虚拟机的文件 虚拟机与主机的兼容性 如果存在可访问的主机,则虚拟机必须至少与其中一个主机兼容。为虚拟机设 置的兼容性包括任何所需虚拟机-主机关联性规则的影响。例如,如果某个规 则仅允许虚拟机在两个主机上运行,则会考虑将其放置在这两个主机上。 资源预留 在可运行虚拟机的主机中,必须至少有一个主机具有足够的未预留容量以满足 虚拟机的内存开销及任何资源预留。可采用四种预留类型:CPU、内存、虚 拟网卡和虚拟闪存。此外,必须提供足够的网络端口,才能打开虚拟机电源。 主机限制 除了资源预留之外,一个虚拟机只能放置在一个主机上(如果这样做不会违反 允许的虚拟机最大数量或正在使用的 vCPU 数量)。 功能限制 如果已设置需要 vSphere HA 强制执行虚拟机-虚拟机反关联性规则的高级选 项,则 vSphere HA 不会违反此规则。此外,vSphere HA 不会违反为容错虚 拟机配置的任何每主机限制。 如果没有任何主机满足上述注意事项,则主主机会发布一个事件指出没有足够的资源让 vSphere HA 来启动 虚拟机,并会在群集状况发生更改时进行重试。例如,如果虚拟机不可访问,则主主机会在文件可访问性发 生更改后进行重试。 vSphere 可用性 VMware, Inc. 保留所有权利。 13
vSphere可用性 虚拟机和应用程序监控 如果在设置的时间内没有收到单个虚拟机的 VMware Tools检测信号,虚拟机监控将重新启动该虚拟机。同 样,如果没有收到虚拟机正在运行的应用程序的检测信号,应用程序监控也可以重新启动该虚拟机。可以启 用这些功能,并配置 vSphere HA监控无响应时的敏感度 启用虚拟机监控后,虚拟机监控服务(使用 VMware Tools)将通过检查正在客户机内运行的 VMware Tools 进程的常规检测信号和Wo活动来评估群集内的每个虚拟机是否正在运行。如果没有收到检测信号或O活 动,则很有可能是客户机操作系统出现故障,或未分配给 VMware Tools用来完成任务的时间。在这种情况 下,虚拟机监控服务会先确定虚拟机已发生故障,然后决定重新引导虚拟机以还原服务 有时,仍然正常工作的虚拟机或应用程序会停止发送检测信号。为了避免不必要的重置,虚拟机监控服务还 监控虚拟机的ψO活动。如果在故障时间间隔内未收到任何检测信号,则会检查ⅵO统计间隔(群集级别属 性)。MO统计间隔确定在前两分钟(120秒)内是否已发生与虚拟机有关的任何磁盘或网络活动。如果没 有,则重置该虚拟机。可以使用高级选项das. iostatsinterval更改此默认值(120秒)。 要启用应用程序监控,必须先获取相应的SDK(或使用可支持 VMware应用程序监控的应用程序),然后 使用它来设置要监控的应用程序的自定义检测信号。完成此操作后,应用程序监控的工作方式将与虚拟机监 控的工作方式大致相同。如果在指定时间内没有收到应用程序的检测信号,将重新启动其虚拟机。 您可以配置监控敏感度的级别。高敏感度监控可以更快得岀已发生故障的结论。然而,如果受监控的虚拟机 或应用程序实际上仍在运行,但由于资源限制等因素导致未收到检测信号,高敏感度监控可能会错误地认为 此虚拟机发生了故障。低敏感度监控会延长实际故障和虚拟机重置之间服务中断的时间。请选择一个有效折 衷满足需求的选项。 也可以通过选中自定义复选框来指定监控敏感度和o统计间隔的自定义值。 表2-1.虚拟机监控设置 (秒) 重期 1小时 24小乐 7天 检测到故障后, vSphere HA会重置虚拟机。重置可确保这些服务仍然可用。为了避免因非瞬态错误而反复 重置虚拟机,默认情况下,在某个可配置的时间间隔内将对虚拟机仅重置三次。在对虚拟机执行过三次重置 后,指定的时间结束之前, vSphere HA不会在后续故障出现后进一步尝试重置虚拟机。可以使用每个虚拟 的最大重置次数自定义设置来配置重置次数。 注当关闭虚拟机电源然后再次打开虚拟机电源时,或使用 vMotion将虚拟机迁移到其他主机时,重置统计 信息将被清除。这将导致客户机操作系统重新引导,但不同于虚拟机电源状况发生更改的“重新启动”。 虚拟机组件保护 如果启用虚拟机组件保护(wMCP), vSphere HA可以检测到数据存储可访问性故障,并为受影响的虚拟机 提供自动恢复。 VMware,lc保留所有权利
虚拟机和应用程序监控 如果在设置的时间内没有收到单个虚拟机的 VMware Tools 检测信号,虚拟机监控将重新启动该虚拟机。同 样,如果没有收到虚拟机正在运行的应用程序的检测信号,应用程序监控也可以重新启动该虚拟机。可以启 用这些功能,并配置 vSphere HA 监控无响应时的敏感度。 启用虚拟机监控后,虚拟机监控服务(使用 VMware Tools)将通过检查正在客户机内运行的 VMware Tools 进程的常规检测信号和 I/O 活动来评估群集内的每个虚拟机是否正在运行。如果没有收到检测信号或 I/O 活 动,则很有可能是客户机操作系统出现故障,或未分配给 VMware Tools 用来完成任务的时间。在这种情况 下,虚拟机监控服务会先确定虚拟机已发生故障,然后决定重新引导虚拟机以还原服务。 有时,仍然正常工作的虚拟机或应用程序会停止发送检测信号。为了避免不必要的重置,虚拟机监控服务还 监控虚拟机的 I/O 活动。如果在故障时间间隔内未收到任何检测信号,则会检查 I/O 统计间隔(群集级别属 性)。I/O 统计间隔确定在前两分钟(120 秒)内是否已发生与虚拟机有关的任何磁盘或网络活动。如果没 有,则重置该虚拟机。可以使用高级选项 das.iostatsinterval 更改此默认值(120 秒)。 要启用应用程序监控,必须先获取相应的 SDK(或使用可支持 VMware 应用程序监控的应用程序),然后 使用它来设置要监控的应用程序的自定义检测信号。完成此操作后,应用程序监控的工作方式将与虚拟机监 控的工作方式大致相同。如果在指定时间内没有收到应用程序的检测信号,将重新启动其虚拟机。 您可以配置监控敏感度的级别。高敏感度监控可以更快得出已发生故障的结论。然而,如果受监控的虚拟机 或应用程序实际上仍在运行,但由于资源限制等因素导致未收到检测信号,高敏感度监控可能会错误地认为 此虚拟机发生了故障。低敏感度监控会延长实际故障和虚拟机重置之间服务中断的时间。请选择一个有效折 衷满足需求的选项。 也可以通过选中自定义复选框来指定监控敏感度和 I/O 统计间隔的自定义值。 表 2‑1. 虚拟机监控设置 设置 故障时间间隔(秒) 重置期 高 30 1 小时 中 60 24 小时 低 120 7 天 检测到故障后,vSphere HA 会重置虚拟机。重置可确保这些服务仍然可用。为了避免因非瞬态错误而反复 重置虚拟机,默认情况下,在某个可配置的时间间隔内将对虚拟机仅重置三次。在对虚拟机执行过三次重置 后,指定的时间结束之前,vSphere HA 不会在后续故障出现后进一步尝试重置虚拟机。可以使用每个虚拟 机的最大重置次数自定义设置来配置重置次数。 注 当关闭虚拟机电源然后再次打开虚拟机电源时,或使用 vMotion 将虚拟机迁移到其他主机时,重置统计 信息将被清除。这将导致客户机操作系统重新引导,但不同于虚拟机电源状况发生更改的“重新启动”。 虚拟机组件保护 如果启用虚拟机组件保护 (VMCP),vSphere HA 可以检测到数据存储可访问性故障,并为受影响的虚拟机 提供自动恢复。 vSphere 可用性 VMware, Inc. 保留所有权利。 14
vSphere可用性 wMCP可防止发生数据存储可访问性故障,这些故障可能会影响 vSphere HA群集中主机上正在运行的虚拟 机。当发生数据存储可访问性故障时,受影响的主机无法再访问特定数据存储的存储路径。您可以确定 vSphere HA将对此类故障作出的响应,从创建事件警报到虚拟机在其他主机上重新启动。 注使用虚拟机组件保护功能时,ESXi主机的版本必须为60或更高版本。 故障类型 存在两种类型的数据存储可访问性故障 PDL PDL(永久设备丢失)是在存储设备报告主机无法再访问数据存储时发生的不 恢复的可访问性丢失。如果不关闭虚拟机的电源,此状况将无法恢复。 APD APD(全部路径异常)表示暂时性或未知的可访问性丢失,或WO处理中的任 何其他未识别的延迟。此类型的可访问性问题是可恢复的。 配置VMcP 在 vSphere Client中配置虚拟机组件保护。转到配置选项卡并单击 vSphere可用性和编辑。在故障和响应 下,可以选择处于PDL状态的数据存储或处于APD状态的数据存储。您可选择的存储保护级别以及可用的 虚拟机修复操作根据数据库可访冋性故障的类型而异。 PDL故障 在处于PDL状态的数据存储下,可以选择发布事件或关闭虚拟机电源再重新 启动虚拟机 APD故障 响应APD事件是更加复杂的,相应地配置是更加精细的。可以选择发布事 件、关闭虚拟机电源再重新启动虚拟机-保守的重新启动策略或关闭虚拟机电 源再重新启动虚拟机-激进的重新启动策略 注如果禁用“主机监控”或“虚拟机重新启动优先级”设置,wMCP将无法执行虚拟机重新启动。但是, 仍可监控存储运行状况,且可发布事件, 网络分区 在 vSphere HA群集发生管理网络故障时,该群集中的部分主机可能无法通过管理网络与其他主机进行通 信。一个群集中可能会出现多个分区。 已分区的群集会导致虚拟机保护和群集管理功能降级。请尽快更正已分区的群集。 虚拟机保护。 vCenter server允许虚拟机打开电源,但仅当虚拟机与负责它的首选主机在相同的分区中 运行时,才能对其进行保护。首选主机必须与 VCenter server进行通信。如果首选主机以独占方式锁定 包含虚拟机配置文件的数据存储上的系统定义的文件,则首选主机将负责虚拟机。 群集管理。 Center server可以与首选主机通信,但仅可与从属主机的子集通信。因此,只有在解决分 区之后,配置中影响 vSphere HA的更改才能生效。此故障可能会导致其中一个分区在旧配置下操作, 而另一个分区使用新的设置 VMware,lc保留所有权利
VMCP 可防止发生数据存储可访问性故障,这些故障可能会影响 vSphere HA 群集中主机上正在运行的虚拟 机。当发生数据存储可访问性故障时,受影响的主机无法再访问特定数据存储的存储路径。您可以确定 vSphere HA 将对此类故障作出的响应,从创建事件警报到虚拟机在其他主机上重新启动。 注 使用虚拟机组件保护功能时,ESXi 主机的版本必须为 6.0 或更高版本。 故障类型 存在两种类型的数据存储可访问性故障: PDL PDL(永久设备丢失)是在存储设备报告主机无法再访问数据存储时发生的不 可恢复的可访问性丢失。如果不关闭虚拟机的电源,此状况将无法恢复。 APD APD(全部路径异常)表示暂时性或未知的可访问性丢失,或 I/O 处理中的任 何其他未识别的延迟。此类型的可访问性问题是可恢复的。 配置 VMCP 在 vSphere Client 中配置虚拟机组件保护。转到配置选项卡并单击 vSphere 可用性和编辑。在故障和响应 下,可以选择处于 PDL 状态的数据存储或处于 APD 状态的数据存储。您可选择的存储保护级别以及可用的 虚拟机修复操作根据数据库可访问性故障的类型而异。 PDL 故障 在处于 PDL 状态的数据存储下,可以选择发布事件或关闭虚拟机电源再重新 启动虚拟机。 APD 故障 响应 APD 事件是更加复杂的,相应地配置是更加精细的。可以选择发布事 件、关闭虚拟机电源再重新启动虚拟机 - 保守的重新启动策略或关闭虚拟机电 源再重新启动虚拟机 - 激进的重新启动策略 注 如果禁用“主机监控”或“虚拟机重新启动优先级”设置,VMCP 将无法执行虚拟机重新启动。但是, 仍可监控存储运行状况,且可发布事件。 网络分区 在 vSphere HA 群集发生管理网络故障时,该群集中的部分主机可能无法通过管理网络与其他主机进行通 信。一个群集中可能会出现多个分区。 已分区的群集会导致虚拟机保护和群集管理功能降级。请尽快更正已分区的群集。 n 虚拟机保护。vCenter Server 允许虚拟机打开电源,但仅当虚拟机与负责它的首选主机在相同的分区中 运行时,才能对其进行保护。首选主机必须与 vCenter Server 进行通信。如果首选主机以独占方式锁定 包含虚拟机配置文件的数据存储上的系统定义的文件,则首选主机将负责虚拟机。 n 群集管理。vCenter Server 可以与首选主机通信,但仅可与从属主机的子集通信。因此,只有在解决分 区之后,配置中影响 vSphere HA 的更改才能生效。此故障可能会导致其中一个分区在旧配置下操作, 而另一个分区使用新的设置。 vSphere 可用性 VMware, Inc. 保留所有权利。 15