Tags:
create new tag
view all tags
-- ShiJingyan - 2011-04-15

2011-04-06 (周三)

  • 羊八井计算结点死机频繁,将这个队列的作业加上内存限制,每个作业最多使用2G内存 --- 石京燕

所涉及的队列包括:

argofg argorecq argosq argomq

队列设置命令:

set queue argosq resources_default.pmem = 2046mb

2011-04-15 (周三)

  • 发现计算节点上同时有两个mom进程,导致作业调度不正常。(torqsrv不知道应该和谁联系。),重启pbs_mom,有一个进程不掉如下:
root 5305 1 0 Mar21 ? 00:00:06 /usr/sbin/pbs_mom -q

root 22427 1 0 17:03 ? 00:00:00 /usr/sbin/pbs_mom -p

杀掉5305进程,作业开始调度

  • 今天下午作业调度不正常,很多作业Q着无法运行,未找到具体原因。查看maui日志,似乎是maui无法将作业调度到作业中指定的计算资源。
  • 为了获取更多maui运行信息,将maui的日志级别调到1。 /var/spool/maui/maui.conf文件中修改
LOGLEVEL 1

2011-04-14(周四)

  • torqsrv中,cache过高会影响maui,所以在torqsrv中定时清cache,脚本如下:

* */2 * * * /root/kanbw/clearCache.sh

脚本内容: #!/bin/sh

more /proc/meminfo |grep Cached |grep -v Swap |awk '
{
if ($2>2048000) {
print "The cache is " $2 >> "/var/log/cache.txt"
"date" | getline; print >> "/var/log/cache.txt"
system("`echo 1 > /proc/sys/vm/drop_caches`")
print "clear the cache is completed. " >> "/var/log/cache.txt"
print " " >> "/var/log/cache.txt"
}
}'

2011-04-15 (周五)

为了提高torqsrv的域名解析性能,将所有其管辖的计算结点都在/etc/hosts 里面进行了定义。

2011-04-20(周三)

为了检查pbs系统中,作业requeue情况,完成pbs系统统计requeue情况的脚本:

/root/kanbw/tracejobTest.py

import os
import re
path = "/var/spool/pbs/server_logs/20110420"
fr = open(path,"r")
contents = fr.read()
jobs = re.findall("\d+\.torqsrv\.ihep\.ac\.cn", contents)
jobs = [int(re.findall("\d+", job)[0]) for job in jobs]
freshJobs = []

fw = open("result","w")
rerunDict = {}
usersDict = {}
queueDict = {}
for job in jobs:
if job in freshJobs:
continue
freshJobs.append(job)
fr = os.popen("tracejob %d" %job)
contents = fr.read()
rerun = len(re.findall("Rerun",contents))
if rerun > 0:
rerunDict[job] = rerun
else:
continue
users = filter(lambda s: "root" not in s, re.findall("\w+@\w+\.ihep\.ac\.cn",contents))
if len(users) > 0:
usersDict[job] = users[0]
else:
continue
queues = re.findall("queue ?= ?\w+",contents)
if len(queues) > 0:
queue = queues[0].replace(" ","")
queueDict[job] = queue.split("=")[1]
else:
continue
line = "%d\t%d\t%s\t%s\n" %(job, rerunDict[job],usersDict[job],queueDict[job])
print line
fw.write(line)
fw.close()

因为担心影响pbs和maui的运行,所以此脚本在系统作业数目较少时使用。

2011-04-24 (周日)

经过讨论,将offlineq中的所有节点和besq与dp2q合并一起使用,但是其优先级最高

  • 将原offlineq的节点(bws0303-322)的nodes文件里名称从 bws0303.ihep.ac.cn np=8 bes3-farm-besq-offline改为bws0303.ihep.ac.cn np=8 bes3-farm-besq
  • qmgr修改

set queue offlineq resources_default.neednodes = bes3-farm-besq-offline 变为

set queue offlineq resources_default.neednodes = bes3-farm-besq

  • 修改:/var/spool/maui.cfg offlineq的权限从90变成250

CLASSCFG[offlineq] MAXPROC=500,600 PLIST=bes3-farm-besq

CLASSCFG[offlineq] QDEF=bes PRIORITY=450

2011-04-25日(周一)

在PBS系统中,拿出bws0316--bws0391,除了bws0365(给黄秋兰做AFS_PBS测试使用),重新安装64位系统。

2011-04-28日 (周四)

删除队列bes-sl5q,因为bes-sl5q和bes64q公用计算资源,bes-sl5q是之前测试建立的队列。

2011-04-28日 (周四)

将bws0316--bws0391除了bws0365(给黄秋兰做AFS_PBS测试使用),作为计算资源给bes64q,加上bes64q之前的计算资源,bes64q一共712个核

Edit | Attach | Watch | Print version | History: r5 < r4 < r3 < r2 < r1 | Backlinks | Raw View | Raw edit | More topic actions
Topic revision: r5 - 2011-04-28 - KanBowen
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback