Difference: Condor_log_2015 (7 vs. 8)

Revision 82015-12-21 - JiangXiaowei

Line: 1 to 1
 
META TOPICPARENT name="Condor_log"
-- ShiJingyan - 2015-06-17

2015.06.16 问题总结

  • 1)用户在requirements中未指定SL5操作系统版本,可能会被匹配到SL6;反之,亦然。
  • 解决:在作业描述文件中添加,Requirements = OpSysAndVer = ?= "SL5",则声明作业需要匹配到sl5机器上;Requirements = OpSysAndVer =?= "SL5",则声明作业需要匹配到sl6机器上。
  • 2)新加入计算节点时,由于使用puppet更新计算节点的组信息,而默认组为condorpub,因此,如果计算节点组信息没有改为期望的组,则可能不会有作业匹配到新加入的节点。
  • 解决:puppet已经设置好,对不同实验组的机器配置文件(/etc/condor/config.d/worker.conf)中,START = AcctGroup = ?= "condorpub",替换condorpub字符串为实验组名(如juno,cms,u07等)。
  • 由于误操作,在CM上使用condor_starter命令,启动startd进程,从而创建一个root权限的目录,而condor没有该目录的写权限,因此collector进程不断重启,导致slot和schedule不断从pool中断开连接。

2015.07.16 问题总结(记录可能错误)

  • 1)lxslc508登录节点故障,导致用户在该登录节点提交的作业全部挂起,原因是如果采用公共盘形式,需使登录节点和计算节点的filesystemdomain设置一致,否则作业的结果仍会使用transfer方式回传。
  • 解决:在登录节点增加filesystemdomain的参数

2015.12.16 问题总结

  • 1)虚拟机测试时发现,如提交作业时,只出现如下信息,
  • Submitting job(s)
  • ERROR: Failed to create cluster
  • 可在scheduler上提交作业测试,如提交成功,很大原因为网络问题。 本次报错为单ip多域名。

2015.12.18 问题总结

  • 用户同一批提交的作业,少量个别作业成功运行得到结果,但大部分无输出结果
  • 1)检查成功作业的计算节点环境与无输出结果节点差别。
  • 2)如无差别可能是用户作业同时执行时的文件冲突
  • 本次维护原因为使用root软件时,所有作业生成同一个.so文件导致无法正确输出,或只能少量输出。

2015.12.20 问题总结

  • 作业挂起: 挂起原因为errno=8: 'Exec format error'
Changed:
<
<
  • 1)作业脚本严格按照第一行为#!/bin/bash
  • 2)注意作业脚本权限
>
>
  • 1)作业脚本严格按照第一行为#!/bin/bash
  • 2)注意作业脚本权限
  • jnws037移出
 \ No newline at end of file
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback