Difference: Condor_log_2019 (1 vs. 2)

Revision 22019-05-27 - JiangXiaowei

Line: 1 to 1
 
META TOPICPARENT name="Condor_log"
Changed:
<
<

Title

>
>

Operatoins Records

 
Changed:
<
<
Article text.
>
>

误删除history文件

  -- jiang xiaowei - 2019-05-23
Line: 15 to 15
 chown condor:condor /var/lib/condor/spool/history

等待一定时间(时间长度目前不确定),schedd会重新向history文件写入作业信息

Added:
>
>

计算节点被踢出集群

 
Changed:
<
<
-- jiang xiaowei - 2019-05-23
>
>
-- jiang xiaowei - 2019-05-24
  问题:监控联动误传了空信息给计算节点,计算节点因为获取不到组信息,认为被自己被踢出了collector。

解决: 监控系统端先设置一个默认组信息,发布给节点,节点恢复至collector。 具体原因查找中。。。

Added:
>
>

Comments

 
Changed:
<
<
-- jiang xiaowei - 2019-05-24

Comments

>
>
原因是 监控数据库误计算了影响的实验组,导致资源清空了实验组信息,误认为节点不再提供服务。
 
Added:
>
>
-- jiang xiaowei - 2019-05-27
 
<--/commentPlugin-->

Revision 12019-05-24 - JiangXiaowei

Line: 1 to 1
Added:
>
>
META TOPICPARENT name="Condor_log"

Title

Article text.

-- jiang xiaowei - 2019-05-23

误删除history文件(/var/lib/condor/spool/history)

解决:

touch /var/lib/condor/spool/history

chown condor:condor /var/lib/condor/spool/history

等待一定时间(时间长度目前不确定),schedd会重新向history文件写入作业信息

-- jiang xiaowei - 2019-05-23

问题:监控联动误传了空信息给计算节点,计算节点因为获取不到组信息,认为被自己被踢出了collector。

解决: 监控系统端先设置一个默认组信息,发布给节点,节点恢复至collector。 具体原因查找中。。。

-- jiang xiaowei - 2019-05-24

Comments

<--/commentPlugin-->
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback