节点管理器运行在每个节点上 , 它维护着一个包含群集所属节点的本地列表。节点服务器会定期向在群集中其它节点上运行的节点服务器发送消息(称为“心跳”),以检测节点故障。 这是保持群集中的所有节点时时刻刻都具有完全一致的群集成员身份所不可或缺的。
如果一个节点检测到同另一节点的通信故障 , 它就会向整个群集发送多播消息 , 从而让所有成员都对其当前的群集成员身份进行检查。这被称作一个 重新分组事件 。除非已建立起稳定的成员关系,否则群集服务将禁止对所有群集节点所共用的任何磁盘设备执行写入操作。如果某个节点上的节点管理器没有响应,则该节点将被从群集中删除,其活动的资源组会被转移到另外的活动节点上。为选择应将资源组转移到哪个节点上,节点管理器会确定资源组首选运行的节点以及可以拥有单独资源的潜在拥有者(节点)。在 2 节点群集中,节点管理器会直接将资源组从故障节点转移到幸存的节点。在 3 节点或更多节点的群集中,节点管理器有选择地将资源组分发到幸存的节点。
节点管理器还充当网关守卫的作用 , 它允许 “ 合作 ” 节点进入群集并且负责处理添加或逐出节点的请求。
注意 : 当群集服务及其组成过程发生故障时 , 同遭遇故障的节点连接的资源将被停止 , 目的是在群集的有效节点上重新启动它们。