BEIJING-LCG2 SAM Test 错误记录

ATLAS

发生时间 持续时间 影响VO 涉及系统 涉及结点 问题描述 解决方法 问题原因总结 是否站点原因引起
A B C D E F G H I
A B C D E F G H I
A B C D E F G H I
2016-06-18 半小时 ATLAS Cream CE cce.ihep.ac.cn

SAM Test cream ce held错误(作业发送不到计算节点):

作业从PBS Server发送到计算节点时候出现错误,

06/19/2016 00:06:59;0008;PBS_Server;Job;6980641.cce.ihep.ac.cn;

unable to run job, MOM rejected/rc=2

但是无法追踪是哪个计算节点出现问题

本地PBS系统调度作业到计算节点时候出现错误
2016-05-22 5天 ATLAS/CMS Cream CE cce.ihep.ac.cn SAM Test 测试转换到ETF框架,cream ce 不时出现连接不上的错误,其它两个站点也出现类似问题

SAM Test测试框架转换后使用了不同的库文件,有个别站点出现类似问题

问题自动消失

2016-04-12 2小时 ATLAS/CMS Cream CE cce.ihep.ac.cn
Err = "/var/lib/gridprobes/atlas.Role=lcgadmin/org.sam/CONDORJS
/cce.ihep.ac.cn/jobOutput/gridjob.err"
HoldReason = "CREAM_DELEGATE timed out" 

IHEP CA机器更换,导致IPV6地址变化,未将新的IPV6地址加入

所防火墙,导致CERN的服务无法访问IHEP CA的 CRL

2016-03-06 4小时 ATLAS/CMS Cream CE cce.ihep.ac.cn
Timed out after 30 sec while waiting for output from child. 
ERROR: Failed to connect to local queue manager AUTHENTICATE:1002:
Failure performing handshake AUTHENTICATE:1004:Failed to 
authenticate using FS 

SAM Test的Nagios服务器出错,

引起所有站点的测试失败

2016-03-02 2小时 ATLAS/CMS Cream CE cce.ihep.ac.cn
HoldReason = "CREAM error: Failed to start gahp"
SAM Test的 Nagios服务器迁移,所有站点都出错
2016-02-10 1小时 ATLAS DPM ccsrm.ihep.ac.cn Timeout DPM测试超时一次
2016-01-15 1小时 ATLAS DPM ccsrm.ihep.ac.cn SAM测试读操作出现一次超时 DPM读操作超时一次
2015-12-16 6小时 ATLAS/CMS DPM/CCE ccsrm/cce DPM/CCE 测试均出现连续的超时 查看从国外到ccsrm等机器的连接,发现无法telnet 某些端口 计算中心网防火墙调整出现问题,使得国外无法访问网格的服务器
2015-11-23 1小时 ATLAS DPM ccsrm.ihep.ac.cn SAM测试读操作出现一次超时 DPM读超时1次
2015-10-19 1小时 ATLAS DPM ccsrm.ihep.ac.cn SAM测试写操作出现一次超时 DPM写操作超时1次
2015-09-18 1小时 ATLAS Cream CE cce.ihep.ac.cn SAM 测试作业失败 本地网络故障引起cce 测试作业失败
2015-08-10 48小时 ATLAS/CMS CreamCE/DPM ccsrm/cce SAM Test CE和DPM都连续出现超时

测试到CERN的网络连接

查看失败测试作业日志,发现有CRL更新失败。

1. 从IHEP到CERN的广域网连接出现问题

2. CERN CA更新失败(无法连接CERN CA服务器),

证实为科技网的防护墙策略问题

3. CCE 到DNS连接缓慢(更改CCE端口)

2015-07-02 1小时 ATLAS DPM ccsrm.ihep.ac.cn SAM测试读文件出现一次超时 DPM读超时1次
2015-06-08 12小时 ATLAS DPM ccsrm.ihep.ac.cn

SAM测试中DDM Critical中出现多次超时操作,从CERN传输小文件到IHEP需要30S的时间,

正常情况应该为13S左右

1.查看其它站点的DDM Critical测试中返回的时间

(比如从CERN到澳洲只需要13S)

2.查看DPM本地的日志文件

3. 测试DPM服务器之间的域名解析

DPM 本地域名解析缓慢,DPM head node 解析DPM 

Pool节点需要很长时间

采用/etc/hosts定义,替换域名解析

A B C D E F G H I
A B C D E F G H I
A B C D E F G H I
A B C D E F G H I

CMS

发生时间 持续时间 影响VO 涉及系统 涉及结点 问题描述 解决方法 问题原因总结 是否站点原因引起
2016--03-20 1天 CMS CE cce.ihep.ac.cn CMS中心SAM submission系统出问题 CMS中心group解决 CMS中心系统问题
2016--03-27 1天 CMS CE cce.ihep.ac.cn CMS中心SAM submission系统出问题 CMS中心group解决 CMS中心系统问题
A B C D E F G H I
A B C D E F G H I
A B C D E F G H I
A B C D E F G H I
A B C D E F G H I
A B C D E F G H I
Edit | Attach | Watch | Print version | History: r9 < r8 < r7 < r6 < r5 | Backlinks | Raw View | Raw edit | More topic actions
Topic revision: r9 - 2016-06-20 - WenjingWu
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback