典型集群系统小结
典型的集群共有的特点是:
- 集群都是将普通PC 工作站、工作站或服务器通过某种方式连接起来构成的多机系统。连接方式可以采取通过网络适配器和网络集线器,或通过将各个机器的RS-232串口直接连接起来,还可以通过内存通道卡和内存通道集线器的方式连接各台机器。
- 集群系统都具有良好的可用性。即它们都能够在集群的某部分资源出故障的情况下继续向用户提供持续的服务。几乎所有的典型集群都拥有灾难恢复功能。
- 集群系统有良好的可扩展性。只需很少的配置工作就可以方便地向集群中加入或删除工作节点。
- 典型的集群系统提供了良好的可管理性。管理人员通过简单的操作就可以对集群中的工作节点或控制节点进行配置工作。
- 集群系统一般都提供了负载平衡功能。负载平衡包括静态负载平衡和动态负载平衡,为了最大程度地利用集群中的一切资源,集群需要具有动态负载平衡功能,它能够通过监视集群中的实际节点的负载情况并动态地进行调度的改变。
- 大部分集群系统都有一个主控机,它能够对集群中的机器的运行状态进行监视,而且能够根据各机器的负载轻重进行任务的调度。
回页首
评测标准
检验集群系统的主要指标是可靠性(reliability)、高可用性(availability)、可维护性(serviceablity)和其它相关特点和功能。
可靠性主要指集群中的软件、节点计算机和共享存储设备的可靠和稳定程度。
高可用性(High Availabity,HA)要求当硬件系统发生故障时,运行在该系统上的数据不会丢失,而且在尽可能短的时间内恢复应用系统的正常运行,能够满足上述要求的系统称为高可用性系统。
在美国D.H.Brown Association 公司的集群系统评测报告中,将集群系统的测试项目分为11个大项,即:
- 集群内备份与恢复:考察集群对故障和条件变化的检测和响应能力。
- 集群可配置性:考察集群硬件和软件配置的灵活性。
- 节点内故障恢复:考察独立节点硬件和软件故障条件下的恢复能力。
- 集群并行数据库可存取性:考察集群对并行数据库的支持程度和效率,即集群内各节点同时访问同一数据库的能力和效率。
- 集群内高可用性可管理能力:考察集群系统提供的集群管理工具和界面的易使用性和友好性。
- 集群单一系统映像:考察集群在分布式环境中对客户端提供的单一系统的形象。完美的情况就是为了管理和使用方便,集群提供分布式集群资源就像单机系统一样。
- 灾难恢复能力:考察集群在地理数据镜像、远程数据复制、远程自动故障处理等方面的能力,即集群在火灾、洪水和地震等条件下保持正常运行和自动故障恢复的能力。
- 硬件和软件RAID功能:考察集群对硬件和软件RAID(Redudant Array of Independent Disks)的支持程度,从而保证数据的安全性和可恢复性。
- 节点内故障预防:考察节点对故障的预警能力和节点内故障的易分辨性。
- 节点故障在线维护:考察节点在不停机条件下增加或更换部件的能力以及节点内软件的可管理性(如软件升级)。
- 节点维护特征:考察集群在重启动自动配置(在部分部件失效或增加冗余部件的情况下)、远程操作和远程故障通知等方面的能力。