Difference: 201109 (8 vs. 9)

Revision 92011-09-21 - KanBowen

Line: 1 to 1
 
META TOPICPARENT name="Maintenance"
-- KanBowen - 2011-09-01

09月01日

关于MPI问题:

属性:#PBS -l nodes=2:ppn=1无法分布在两台机器上

属性:#PBS -l nodes=map036.ihep.ac.cn+map038.ihep.ac.cn:ppn=1可以分配到两个指定节点上

PBS SERVER:pbstest1.ihep.ac.cn

关于MPI,测试结果:

IDSERVER NAME是否使用maui是否使用qrunNODESPPN结果备注
1.1pbssrv21map040/0-1×
1.2pbssrv22ccib015/0-1×
1.3pbssrv212ccib015/0-11×
1.4pbssrv112ccib007/0-11
2.1pbssrv21aws137/0,aws136/0
2.2pbssrv22aws137/0-1,aws136/0-1
2.3pbssrv212ccib016/0-11,ccib011/0-11
2.4pbssrv112gridtb008/0-11
3.1pbstest121map037/0-1×
3.2pbstest122map038/0-1,map037/0-1
3.3pbstest128map038/0-7,map036/0-7
3.4pbstest118map037/0-7
4.1pbstest121map038/0,map036/0
4.2pbstest122
5.1pbssrvmap040.ihep.ac.cn+map041.ihep.ac.cn1map040/6,map041/6
5.2pbstest1

此问题解决方法:

加上队列的一个设置:

Qmgr: set queue cacq resources_default.nodes=192

调过缺省值后,节点数量的限制就可以起作用了。

9月7日

应实验物理中心要求,取消bes64q队列。

9月14日--9月15日

对pbs server删除超时作业进行测试

测试结果:torque-2.5.5无论是源码安装还是生成的rpm安装(64位),均无法删除超时作业

torque-3.0.1源码安装(64位),无法删除超时作业

经过多次测试,总结:

无法删除超时作业版本:

2.5.5,3.0.1(64位)

3.0.1, 2.4.10(32位)

可以删除超时作业版本:2.3.9(32位)

Added:
>
>
2011年09月21日

作业乱跑现象,乱跑节点为map011--map026,bws0033,bws0150,bws0245

其中bws0033,bws0150,bws0245存在问题,修整中

map011--map026为队列dicpq的资源,目前将队列添加:

set queue dicpq acl_group_enable = True

 
META FILEATTACHMENT attachment="MPI测试结果.xlsx" attr="" comment="" date="1314871963" name="MPI测试结果.xlsx" path="E:\PBS\MPI测试结果.xlsx" size="9600" stream="E:\PBS\MPI测试结果.xlsx" tmpFilename="/usr/tmp/CGItemp26702" user="Kanbw" version="1"
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback