--
ShiJingyan - 2011-06-09
2011-06-09
6月8日开始作业调度不正常。资源空闲,但是大量作业Q。
bws0054节点的磁盘硬件出错,导致无法正常接收作业。
将bws0054从nodes文件里剔除后,作业运行正常。
2011-6-13
/var/log/maui.log没有新内容,所有maui的日志一直写在maui.log.1文件中。root手工向maui.log中还是要以写内容的。
解决:重启syslog 服务:/etc/init.d/syslog restart
删除maui.log: rm /var/log/maui.log
2011-6-21
安装torque和maui,节点:gpupbs.ihep.ac.cn
安装包:/root/src/
drwxrwxr-x 14 603 603 4096 Jun 20 14:25 maui-3.3
-rw-r--r-- 1 root root 898673 Jun 16 12:58 maui-3.3.tar.gz
-rw-r--r-- 1 root root 121461 Mar 4 2001 torque-2.5.2-1cri.ihep.x86_64.rpm
-rw-r--r-- 1 root root 135434 Mar 4 2001 torque-client-2.5.2-1cri.ihep.x86_64.rpm
-rw-r--r-- 1 root root 1926202 Mar 4 2001 torque-debuginfo-2.5.2-1cri.ihep.x86_64.rpm
-rw-r--r-- 1 root root 127864 Mar 4 2001 torque-devel-2.5.2-1cri.ihep.x86_64.rpm
-rw-r--r-- 1 root root 490355 Mar 4 2001 torque-docs-2.5.2-1cri.ihep.x86_64.rpm
-rw-r--r-- 1 root root 51259 Mar 4 2001 torque-drmaa-2.5.2-1cri.ihep.x86_64.rpm
-rw-r--r-- 1 root root 249055 Mar 4 2001 torque-drmaa-docs-2.5.2-1cri.ihep.x86_64.rpm
-rw-r--r-- 1 root root 3079 Mar 4 2001 torque-localhost-2.5.2-1cri.ihep.x86_64.rpm
-rw-r--r-- 1 root root 214590 Mar 4 2001 torque-mom-2.5.2-1cri.ihep.x86_64.rpm
-rw-r--r-- 1 root root 6833 Mar 4 2001 torque-pam-2.5.2-1cri.ihep.x86_64.rpm
-rw-r--r-- 1 root root 43939 Mar 4 2001 torque-scheduler-2.5.2-1cri.ihep.x86_64.rpm
-rw-r--r-- 1 root root 164792 Mar 4 2001 torque-server-2.5.2-1cri.ihep.x86_64.rpm
安装目录:
torque:/var/spool/pbs
maui: /var/spool/maui
maui运行脚本 :/etc/init.d/maui
另外需要添加文件:
[root@gpupbs src]# cat /etc/sysconfig/maui
# Flags to start for the maui deamon
MAUI_FLAGS=""
# Flags to call schedctl with to stop the maui service
SCHEDCTL_SHUTDOWN="-k"
6月28日
大亚湾计算节点升级:
应何苗要求,计划在大亚湾计算资源dws011-038中,抽出dws011-dws022,升级为64位系统
新建64位队列
计划在本周完成
6月29日
建立dyb64q队列,使用资源为dws011-022,可以提交作业用户为dybrun组
将dybq,dybanlq 的用户改为dybrun组,去掉具体用户名。
6月30日
建立cacq队列,使用资源ccib001-016,infiniband 的刀片机,可以提交作业用户名为dwang