Tags:
create new tag
view all tags
-- KanBowen - 2011-09-01

09月01日

关于MPI问题:

属性:#PBS -l nodes=2:ppn=1无法分布在两台机器上

属性:#PBS -l nodes=map036.ihep.ac.cn+map038.ihep.ac.cn:ppn=1可以分配到两个指定节点上

PBS SERVER:pbstest1.ihep.ac.cn

关于MPI,测试结果:

IDSERVER NAME是否使用maui是否使用qrunNODESPPN结果备注
1.1pbssrv21map040/0-1×
1.2pbssrv22ccib015/0-1×
1.3pbssrv212ccib015/0-11×
1.4pbssrv112ccib007/0-11
2.1pbssrv21aws137/0,aws136/0
2.2pbssrv22aws137/0-1,aws136/0-1
2.3pbssrv212ccib016/0-11,ccib011/0-11
2.4pbssrv112gridtb008/0-11
3.1pbstest121map037/0-1×
3.2pbstest122map038/0-1,map037/0-1
3.3pbstest128map038/0-7,map036/0-7
3.4pbstest118map037/0-7
4.1pbstest121map038/0,map036/0
4.2pbstest122
5.1pbssrvmap040.ihep.ac.cn+map041.ihep.ac.cn1map040/6,map041/6
5.2pbstest1

此问题解决方法:

加上队列的一个设置:

Qmgr: set queue cacq resources_default.nodes=192

调过缺省值后,节点数量的限制就可以起作用了。

9月7日

应实验物理中心要求,取消bes64q队列。

9月14日--9月15日

对pbs server删除超时作业进行测试

测试结果:torque-2.5.5无论是源码安装还是生成的rpm安装(64位),均无法删除超时作业

torque-3.0.1源码安装(64位),无法删除超时作业

经过多次测试,总结:

无法删除超时作业版本:

2.5.5,3.0.1(64位)

3.0.1, 2.4.10(32位)

可以删除超时作业版本:2.3.9(32位)

2011年09月21日

作业乱跑现象,乱跑节点为map011--map026,bws0033,bws0150,bws0245

其中bws0033,bws0150,bws0245存在问题,修整中

map011--map026为队列dicpq的资源,目前将队列添加:

set queue dicpq acl_group_enable = True

Topic attachments
I Attachment History Action Size Date Who Comment
Microsoft Excel Spreadsheetxlsx MPI测试结果.xlsx r1 manage 9.4 K 2011-09-01 - 10:12 KanBowen  
Edit | Attach | Watch | Print version | History: r9 < r8 < r7 < r6 < r5 | Backlinks | Raw View | Raw edit | More topic actions
Topic revision: r9 - 2011-09-21 - KanBowen
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback