Tags:
create new tag
view all tags

Operatoins Records

误删除history文件

-- jiang xiaowei - 2019-05-23

误删除history文件(/var/lib/condor/spool/history)

解决:

touch /var/lib/condor/spool/history

chown condor:condor /var/lib/condor/spool/history

等待一定时间(时间长度目前不确定),schedd会重新向history文件写入作业信息

计算节点被踢出集群

-- jiang xiaowei - 2019-05-24

问题:监控联动误传了空信息给计算节点,计算节点因为获取不到组信息,认为被自己被踢出了collector。

解决: 监控系统端先设置一个默认组信息,发布给节点,节点恢复至collector。 具体原因查找中。。。

Comments

原因是 监控数据库误计算了影响的实验组,导致资源清空了实验组信息,误认为节点不再提供服务。

-- jiang xiaowei - 2019-05-27

lhaaso的稻城集群提交作业时,解析环境变量失败

-- jiang xiaowei - 2019-05-28

排查:

有些环境变量如:

BASH_FUNC_module()=() { eval `/usr/bin/modulecmd bash $*`
}
BASH_FUNC_fwhich()=() { ( alias;
declare -f ) | /usr/bin/which --tty-only --read-alias --read-functions --show-tilde --show-dot $@
}

使用python binding时,无法被schedd解析成功

Comments

从HTCondor开发组获得的信息:特殊字符的处理可能再未来的condor版本中做升级(最近这次condor week有人提到了这个问题); 对比condor_submit原始命令的env处理结果,推测原始命令也过滤了类似的环境变量,因此准备在新版本的hepjob中,过滤掉BASH_FUNC_*格式的环境变量。

-- jiang xiaowei - 2019-06-10

Edit | Attach | Watch | Print version | History: r4 < r3 < r2 < r1 | Backlinks | Raw View | Raw edit | More topic actions
Topic revision: r4 - 2019-06-10 - JiangXiaowei
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback