Difference: Condor_operation (1 vs. 3)

Revision 32018-01-22 - JiangXiaowei

Line: 1 to 1
 
META TOPICPARENT name="WebHome"

1、修改组quota

Line: 24 to 24
  2) 登录到不同步的节点查找不同步的slot进程:
Changed:
<
<
     a) 执行condor_who, 查看对应的slot
>
>
a) 执行condor_who, 查看对应的slot
 
Changed:
<
<
     b1) 如作业进程已结束,slot仍存在,使用ps命令查找slot1的进程:
>
>
b1) 如作业进程已结束,slot仍存在,使用ps命令查找slot1的进程:
 
Changed:
<
<
               ps -ef |grep -E ".*condor_starter.*slot1 " |grep -v grep
>
>
ps -ef |grep -E ".*condor_starter.*slot1 " |grep -v grep
 
Changed:
<
<
         然后杀掉对应进程,执行:
>
>
然后杀掉对应进程,执行:
 
Changed:
<
<
               kill -9 +slotpid
>
>
kill -9 +slotpid
 
Changed:
<
<
     b2) 如作业进程未结束,可等待作业进程结束;如不等待则直接删除对应的作业进程和相应的slot进程:
>
>
b2) 如作业进程未结束,可等待作业进程结束;如不等待则直接删除对应的作业进程和相应的slot进程:
 
Changed:
<
<
               命令同b1
>
>
命令同b1
  3) 检查确认,在对应的计算节点查看对应的slot进程(和作业进程)是否存在;执行condor_who查看对应的slot是否被清空或更新。

-- jiang xiaowei - 2017-10-11

Added:
>
>

3、history.log 相关配置

1) history文件大小

MAX_HISTORY_LOG = 100000000

1) history文件数量

MAX_HISTORY_ROTATIONS = 200000

 

Comments

-- jiang xiaowei - 2017-09-27

Revision 22017-10-11 - JiangXiaowei

Line: 1 to 1
 
META TOPICPARENT name="WebHome"
Changed:
<
<

1、修改组quota:

>
>

1、修改组quota

  1) 登录condor.ihep.ac.cn, 进入配置文件目录:
Line: 16 to 16
  -- jiang xiaowei - 2017-09-27
Added:
>
>

2、清理部分不同步slot

注意,用于同一台节点部分同步部分不同步slot。

1) 查找可能的不同步slot,运行//home/cc/suzz/condor/Check_Sched_Condor.sh

2) 登录到不同步的节点查找不同步的slot进程:

     a) 执行condor_who, 查看对应的slot

     b1) 如作业进程已结束,slot仍存在,使用ps命令查找slot1的进程:

               ps -ef |grep -E ".*condor_starter.*slot1 " |grep -v grep

         然后杀掉对应进程,执行:

               kill -9 +slotpid

     b2) 如作业进程未结束,可等待作业进程结束;如不等待则直接删除对应的作业进程和相应的slot进程:

               命令同b1

3) 检查确认,在对应的计算节点查看对应的slot进程(和作业进程)是否存在;执行condor_who查看对应的slot是否被清空或更新。

-- jiang xiaowei - 2017-10-11

 

Comments

-- jiang xiaowei - 2017-09-27

Revision 12017-09-27 - JiangXiaowei

Line: 1 to 1
Added:
>
>
META TOPICPARENT name="WebHome"

1、修改组quota:

1) 登录condor.ihep.ac.cn, 进入配置文件目录:

cd /etc/condor/config.d/

2) 编辑group.conf文件,各组quota值需小于1:

例,GROUP_QUOTA_DYNAMIC_dyw = 0.0684 (0.0684*总资源数=dyw实际拥有资源数)

3)使配置生效, 执行命令(最多等待15分钟后生效):

condor_reconfig

-- jiang xiaowei - 2017-09-27

Comments

-- jiang xiaowei - 2017-09-27

<--/commentPlugin-->
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback