前言
前面我们介绍了HPC高性能计算集群的背景和结构组成,接下来,我们来聊聊如何一步步搭建一套HPC平台。
准备
- 硬件:我们需要至少一台管理节点(mgt),一台登录节点(login),资源不足时login可复用管理节点,一台io节点和若干计算节点,网络环境打通。
- 操作系统:准备Centos 7.6系统镜像
- 确定调度系统:SLURM
- 确定文件系统:GPFS
管理节点部署
- 安装OS,使用准备的系统镜像进行安装
- 配置系统
- SELINUX关闭
- FIRWALLD关闭
- SSH端口优化
- 编写hosts表,配置ip地址
- 配置本地yum源
- 安装docker
- xcat导入
- ntps、dns、http、dhcp、nfs server
- 安装LDAP server、webmin、创建slurm用户
- 导入分发脚本
- 网络配置:ntp、rsyslog自动配置(xcat自带)
- 系统优化、ssh调优、swap调优脚本配置、module安装
- IB网络驱动、GPU显卡自动安装脚本
- ldap server、ldap client自动安装脚本
- 作业调度server、client自动安装脚本
- 文件系统server、client自动安装脚本
- 自动安装intel编译器、iozone、stream、iperf
集群系统部署
- client节点导入mac表
- 集群系统分发:
- io节点脚本部署:文件系统server、IB驱动、系统优化、ntp、rsyslog、网络配置、多路径安装脚本
- Login节点脚本部署:系统优化、ntp、rsyslog、网络配置、文件系统client、作业调度server、IB驱动、intel编译器、module安装脚本
- 计算节点
- GPU节点:系统优化、npt、rsyslog、网络配置、ldap client、作业调度client、IB驱动、GPU驱动、module安装脚本
- CPU节点:系统优化、npt、rsyslog、网络配置、ldap client、作业调度client、IB驱动、module安装脚本
- 文件系统配置
- 作业调度系统配置
集群性能测试
- linpack测试脚本
- 测试输出结果:单节点、单刀箱、整个集群
- iozone性能测试脚本
- 测试结果包括8K、16K、128K、1M、4M、8M、16M
- stream性能测试脚本
- iperf性能测试脚本