SAM Test cream ce held错误(作业发送不到计算节点):
作业从PBS Server发送到计算节点时候出现错误,
06/19/2016 00:06:59;0008;PBS_Server;Job;6980641.cce.ihep.ac.cn;
unable to run job, MOM rejected/rc=2
但是无法追踪是哪个计算节点出现问题
SAM Test测试框架转换后使用了不同的库文件,有个别站点出现类似问题
问题自动消失
Err = "/var/lib/gridprobes/atlas.Role=lcgadmin/org.sam/CONDORJS
/cce.ihep.ac.cn/jobOutput/gridjob.err"
HoldReason = "CREAM_DELEGATE timed out"
IHEP CA机器更换,导致IPV6地址变化,未将新的IPV6地址加入
所防火墙,导致CERN的服务无法访问IHEP CA的 CRL
Timed out after 30 sec while waiting for output from child.
ERROR: Failed to connect to local queue manager AUTHENTICATE:1002:
Failure performing handshake AUTHENTICATE:1004:Failed to
authenticate using FS
SAM Test的Nagios服务器出错,
引起所有站点的测试失败