并行计算PC机群的构建 随着计算机硬件技术的高速发展,处理器和网络的性能不断地迅速提高和价格的日益下 降,使得并行计算日益从传统的超级计算平台转移到由一组髙性能节点或工作站/PC机构 成的称之为机群的计算平台上,从而机群成为构建可扩放并行计算机的一大趋势。机群在计 算机界有很多称呼,其中松耦合的工作站/PC机群也被称为工作站机群COW( Cluster of Workstation)或工作站网络NW( Network of Workstation);而紧耦合的高性能服务器节 点机群也被称为构筑高端大规模并行机的机群系统(如SP2和 Option red)。 本文将主要从PC机群软、硬件环境的选择及配置出发给出一个逐步的PC机群构建手册 以使广大的科研工作者能够更为方便的在PC机群环境中开展自己的工作 并行计算机群是目前由于硬件的时效性很强,所以给出例子的意义并不是很大。我们这 里给出一套配置主要是为了以后叙述的方便,读者应该根据当前最新的硬件信息进行选择。 1Pc机群硬件部件的选择 在PC机群的构建过程中,硬件部件应根据所要部署应用的类型又针对性的加以选择, 具体原则请参见《并行算法实践》第22节(硬件的选择与安装)。本文沿用该章所给出的 示例配置,如下: 该PC机群包括1个服务节点(兼作计算节点)和63个计算节点 (1)服务节点配置 CPU: PentiumⅣ2.0G(512KB全速二级缓存) 内存:1G(2×512M) Rambus 硬盘:80 GB IDE 主板: ASUS P4 T Socket423 网卡:3com905-1X(两个) 显卡、显示器、键盘、鼠标、光驱、软驱:略 (2)计算节点配置 CPU: PentiumⅣ1.5G(512KB全速二级缓存) 内存:512MB(2×256M) Rambus 硬盘:40 GB IDE 主板: ASUS P4 T Socket423 网卡:3com905-TX 另外,交换设备由2个3com3c16980和1个3com3c16985的交换机通过一个 matrIx module堆叠而成,并安装了一个千兆光纤模块,以备服务接点连接内部机群的网卡升级为 千兆网卡 据此配置清单,从市场上采购硬件并连接成功后便可以开始机群软件环境的配置。 2Pc机群软件环境的配置 如《并行算法实践》第22节(软件的选择与安装)本节将主要讲述如何在Linu环境 下构建并行计算PC机群的软件环境。 21Os的选择与安装 Linux是目前构建高性能计算机群的一个最佳的选择。在众多的 Linux发行版本中,还要
并行计算 PC 机群的构建 随着计算机硬件技术的高速发展,处理器和网络的性能不断地迅速提高和价格的日益下 降,使得并行计算日益从传统的超级计算平台转移到由一组高性能节点或工作站/PC 机构 成的称之为机群的计算平台上,从而机群成为构建可扩放并行计算机的一大趋势。机群在计 算机界有很多称呼,其中松耦合的工作站/PC 机群也被称为工作站机群 COW(Cluster of Workstation)或工作站网络 NOW(Network of Workstation);而紧耦合的高性能服务器节 点机群也被称为构筑高端大规模并行机的机群系统(如 SP2 和 Option Red)。 本文将主要从PC机群软、硬件环境的选择及配置出发给出一个逐步的PC机群构建手册, 以使广大的科研工作者能够更为方便的在 PC 机群环境中开展自己的工作。 并行计算机群是目前由于硬件的时效性很强,所以给出例子的意义并不是很大。我们这 里给出一套配置主要是为了以后叙述的方便,读者应该根据当前最新的硬件信息进行选择。 1 PC 机群硬件部件的选择 在 PC 机群的构建过程中,硬件部件应根据所要部署应用的类型又针对性的加以选择, 具体原则请参见《并行算法实践》第 2.2 节(硬件的选择与安装)。本文沿用该章所给出的 示例配置,如下: 该 PC 机群包括 1 个服务节点(兼作计算节点)和 63 个计算节点。 (1)服务节点配置: CPU:Pentium Ⅳ 2.0G(512KB 全速二级缓存) 内存:1G(2512M)Rambus 硬盘:80GB IDE 主板:ASUS P4T Socket 423 网卡:3com 905 –TX(两个) 显卡、显示器、键盘、鼠标、光驱、软驱:略 (2)计算节点配置: CPU:Pentium Ⅳ 1.5G(512KB 全速二级缓存) 内存:512MB(2256M) Rambus 硬盘:40GB IDE 主板:ASUS P4T Socket 423 网卡:3com 905 –TX 另外,交换设备由 2 个 3com 3c16980 和 1 个 3com 3c16985 的交换机通过一个 matrix module 堆叠而成,并安装了一个千兆光纤模块,以备服务接点连接内部机群的网卡升级为 千兆网卡。 据此配置清单,从市场上采购硬件并连接成功后便可以开始机群软件环境的配置。 2 PC 机群软件环境的配置 如《并行算法实践》第 2.2 节(软件的选择与安装)本节将主要讲述如何在 Linux 环境 下构建并行计算 PC 机群的软件环境。 2.1 OS 的选择与安装 Linux是目前构建高性能计算机群的一个最佳的选择。在众多的Linux发行版本中,还要
考虑的是系统管理工具的友好性,这一点 Redhat与Suse的工作是成功的;同时系统功能的可 裁剪性也是很重要的,如 Debian系统在这一点上做的就非常出色 在此笔者建议对 Linux系统有比较深入认识的读者可选用 Debian作为系统平台,因为e bian能够根据用户的需要最精确的选择安装、更新相应的软件包,避免过多的冗余服务占用 系统资源,最大限度的满足用户对性能的要求:若是 Linux系统的入门者则选用 Redhat或Su se较为合适,因为这些发行版本提供了较为友好的用户安装、使用界面,并且配备了图形化 的系统管理工具,避免了众多的命令行操作。 在所创建的示例机群中使用的是 Redhat9.0版本(内核2.4.28)。介绍 Linux系统具体安 装的书籍有很多,这里就不再敷述。 安装过程中请选择“定制”,并在“选择软件包组”时在默认的基础上选中【服务器】 【网络服务器】( telnet- server、rsh- server)、【服务器】|【服务器配置工具】(NFS等服 务器配置工具)、【开发】|【开发工具】(gcc等基本开发工具)、【系统】|【管理工具】(图 形化的系统管理工具)等软件包组。 操作系统安装完毕后,我们假设具有如下信息: 服务节点主机名为“node0”,IP地址为“192.168.0.100”;计算节点相应的主机名为“n de[1..63]”,IP地址为“192.168.0.[1.63]”。 22单一登录( Single sign On)的构建 用户可以从机群系统的任何一个节点登录,而且在整个作业执行过程中只需登录一次 不必为将作业指派到机群中的其它节点而重新登录。这里我们采用《并行算法实践》中所介 绍的第二种方法“构建用户管理脚本”来维护系统中用户信息的一致性,使用户不再重复输 入密码即可登录到机群中的另一个节点上。这包括以下步骤 1.以root用户登录到节点node0,修改文件/ etc/hosts、 /etc/host equiv,在其中写入机 群所有节点的名称和IP
考虑的是系统管理工具的友好性,这一点Redhat与Suse的工作是成功的;同时系统功能的可 裁剪性也是很重要的,如Debian系统在这一点上做的就非常出色。 在此笔者建议对Linux系统有比较深入认识的读者可选用Debian作为系统平台,因为De bian能够根据用户的需要最精确的选择安装、更新相应的软件包,避免过多的冗余服务占用 系统资源,最大限度的满足用户对性能的要求;若是Linux系统的入门者则选用Redhat或Su se较为合适,因为这些发行版本提供了较为友好的用户安装、使用界面,并且配备了图形化 的系统管理工具,避免了众多的命令行操作。 在所创建的示例机群中使用的是Redhat 9.0版本(内核2.4.28)。介绍Linux系统具体安 装的书籍有很多,这里就不再敷述。 安装过程中请选择“定制”,并在“选择软件包组”时在默认的基础上选中【服务器】| 【网络服务器】(telnet-server、rsh-server)、【服务器】|【服务器配置工具】(NFS等服 务器配置工具)、【开发】|【开发工具】(gcc等基本开发工具)、【系统】|【管理工具】(图 形化的系统管理工具)等软件包组。 操作系统安装完毕后,我们假设具有如下信息: 服务节点主机名为“node0”,IP地址为“192.168.0.100”;计算节点相应的主机名为“n ode[1..63]”,IP地址为“192.168.0.[1..63]”。 2.2 单一登录(Single Sign On)的构建 用户可以从机群系统的任何一个节点登录,而且在整个作业执行过程中只需登录一次, 不必为将作业指派到机群中的其它节点而重新登录。这里我们采用《并行算法实践》中所介 绍的第二种方法“构建用户管理脚本”来维护系统中用户信息的一致性,使用户不再重复输 入密码即可登录到机群中的另一个节点上。这包括以下步骤: 1. 以 root 用户登录到节点 node0,修改文件/etc/hosts、/etc/host.equiv,在其中写入机 群所有节点的名称和 IP
km的主目录「文件编E查石y终端卫转到G帮助出 [rootanode0 root]# vi /etc/hosts 从这里开始 θ公恩色 root node 0 1月02 x hn的主目录文件编辑B查看y终端D转到帮助 D not renove the fol lowing line ar ious program l1 fa i 127.0.0.1 loca lhos t loca ldom in loca lhos 从这里开始 192.168,0,100node0 回收站 92.168,0,3nod 192.168.0.4 92.168,0,5node5 192.168,0.7 92.168.0.1 192.168.0.15 nodel5 192,168,0,16 node l6
图 1
图2 an的主目录l 文件E编辑E查看(终①转到G帮助 [root@node0 root]# vi /etc/hosts 从这里开始 [@@node0 root]: vi /etc/hosts.equivl 回收站 ot node0; 图3
图 2 图 3
shan的主目录文件E编辑E查看终端①转到G帮助 w2 从这里开女 oleg node 19 node22 root Lnodleo: 2.修改系统的服务设置,通过服务设置工具启动如下系统服务:nts、 rexec、rsh、 rlogin 其中后面三个服务是与 Remote Shell相关的,负责在远程节点启动进程
图 4 2. 修改系统的服务设置,通过服务设置工具启动如下系统服务:nfs、rexec、rsh、rlogin。 其中后面三个服务是与 Remote Shell 相关的,负责在远程节点启动进程