Tags:
create new tag
view all tags
-- KanBowen - 2013-05-10

健康脚本

名字:zombie.py,zombie_mpi.py

布置位置:/root/bin/ 通过quatter布置,写到crontab里面

流程:

通过qstat得到作业id;通过ps -ejl得到计算节点所有进程id

对于得到作业的进程id,然后拿到所有的作业进程子进程的id,放到白名单中

将user小于10000一下的所有进程放入白名单

将所有带有关键字:mpd的进程以及子进程放入白名单

其他进程放入黑名单。

kill掉黑名单进程,然后重新ps得到进程列表,检查黑名单进程是否全部杀掉,写日志。

zombie_mpi.py

流程:检查所有进程,如果其父进程为1,并且进程运行时间超过1个月,则为黑名单。

Topic revision: r1 - 2013-05-10 - KanBowen
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback