cmp集群:用户手册

Jason Eu

Created: 2018/08/13

Modified: 2018/08/15

集群名称和描述

现有两组集群,分别是: 1. 原先的五舟机器,采用SGE任务管理,安装Rocks6.1.1操作系统。 2. 新建的集群,采用SLURM任务管理,安装CentOS 7.5操作系统,使用openhpc仓库的WareWulf集群管理软件。

五舟的集群依照惯例称为‘28’, 实际的IP为202.38.220.11:22。 新建的集群称为‘cmp集群’,IP为202.38.220.15:22

用户的分类

28保持原有全部设置,数据也不进行迁移,主要提供给即将毕业的同学使用,保证他们的正常使用,无需重新 适应新的集群。且该集群速度较快,支持IB网络,适用于大体系的计算和跨节点并行。

cmp集群提供给新生和有折腾意愿的同学和老师使用。将来会将所有新加入节点都接入该集群统一管理, 统一使用相同的任务管理和集群管理软件,方便用户的学习和管理员的交接。该节点单核性能较差,但核数 较多。缺点在于由于缺少IB网络的支持,跨节点并行的性能上不能达到倍数的增长。

cmp集群分区信息

可以使用sinfo查询当前分组,当前有三个分组,分别对应三类机器。

用户~/.bashrc配置

为使得VASP进行计算时能够处理打文件读写,用户将自己的文件句柄加大到unlimited, 增加ulimit -s unlimited, 修改后的~/.bashrc为:

# .bashrc

# Source global definitions
if [ -f /etc/bashrc ]; then
        . /etc/bashrc
fi

# Uncomment the following line if you don't like systemctl's auto-paging feature:                                                                            
# export SYSTEMD_PAGER=

# User specific aliases and functions
ulimit -s unlimited

且除了自己的脚本和独特的软件, 切勿修改~/.bashrc

任务管理系统SLURM使用

可参考:

  1. Yale HPC
  2. USC SLURM

SGE转移过来的用户可以参考:

  1. UPPMAX SGE vs SLURM

SLURM脚本提交模板

#!/bin/bash -l
# NOTE the -l flag!
#
#SBATCH -J NAME
# Default in slurm
# Request 5 hours run time
#SBATCH -t 5:0:0
#
#SBATCH -p small -N 1 -n 12
# NOTE Each small node has 12 cores
#

module load vasp/5.4.4-impi-mkl

# add your job logical here!!!
mpirun -n 12 vasp_std

在工作目录中写入该文件,保存名称如job.sh,在命令行中运行以下命令即可提交任务到节点。 其中的所有#SBATCH后面的参数均可以在命令行中分开指定。 请根据任务的需求认真确定和选择-p-n两个参数!!! 请根据任务的需求认真确定和选择准确评估任务上限时间!!!

$ sbatch job.sh

若要提交任务到指定节点,或交互式运行任务,请参考管理员手册,或直接咨询管理员。

(OPTIONAL) 超算任务提交

超算同样使用SLURM作为任务管理系统。

module软件模块挂载

所有的软件为了保证编译和使用环境互不冲突,使用module作为模块管理软件。

常用命令

查找可用模块
$ module avile

显示已加载模块
$ module list

装载卸载模块
$ module load vasp/5.4.4-impi-mkl
$ module unload vasp/5.4.4-impi-mkl

装载环境后,则 $PATH 包含vasp执行路径,同时,赝势文件的路径为 $PPS_PATH