Daily Operaton

WorkNode Installation

网格计算节点安装后必须更新CE服务器和计算节点的ssh-knowhost文件。否则会导致作业无法递交的错误。

ATLAS Tier2 Trouble Shooting
发生时间 涉及系统 涉及结点 问题描述 调试方法 解决方法 问题原因总结
A B C D E F G
A B C D E F G
2015/06/28 DPM ccsrm/dpmds

SAM Test 的DDM Critital每天都有80%的超时错误,从本地客户端传输一个小文件需要10-20s时间,从cern传输需要30s时间.

注明:DDM Critital的测试代码重写后,对测试的超时更加苛刻,同样的系统在ATLAS Critial里面有出现超时错误,但是在DDM Critical里会经常出现超时错误

1.从测试结果中获取错误的文件名

2. 在ccsrm上, grep filename /var/log/dpm/log,找到文件名对应的操作时间戳,以及对应的数据服务器(dpmds01/02/03中的一个)

3.dpmdsX机器上,grep filename /var/log/dpm-gsiftp/gridftp.log ,找到文件名对应的操作的时间戳

发现从ccsrm到dpmds上需要7s以上的时间,经查明是dns解析域名太慢

将dpm的所有主机解析(ccsrm, dpmds01/02/03)放入/etc/hosts 中,避免跟DNS的交互

DNS域名解析速度慢,引起DPM内部节点通讯慢,采用本地解析后,从cern传输文件只需要14s,本地传输只需要4s。
Edit | Attach | Watch | Print version | History: r3 < r2 < r1 | Backlinks | Raw View | Raw edit | More topic actions
Topic revision: r3 - 2015-07-10 - YanXiaofei
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2023 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback