发生时间 | 涉及系统 | 涉及结点 | 问题描述 | 调试方法 | 解决方法 | 问题原因总结 | ||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A | B | C | D | E | F | G | ||||||||
A | B | C | D | E | F | G | ||||||||
2015/06/28 | DPM | ccsrm/dpmds | SAM Test 的DDM Critital每天都有80%的超时错误,从本地客户端传输一个小文件需要10-20s时间,从cern传输需要30s时间. 注明:DDM Critital的测试代码重写后,对测试的超时更加苛刻,同样的系统在ATLAS Critial里面有出现超时错误,但是在DDM Critical里会经常出现超时错误 |
1.从测试结果中获取错误的文件名 2. 在ccsrm上, grep filename /var/log/dpm/log,找到文件名对应的操作时间戳,以及对应的数据服务器(dpmds01/02/03中的一个) 3.dpmdsX机器上,grep filename /var/log/dpm-gsiftp/gridftp.log ,找到文件名对应的操作的时间戳 发现从ccsrm到dpmds上需要7s以上的时间,经查明是dns解析域名太慢 |
将dpm的所有主机解析(ccsrm, dpmds01/02/03)放入/etc/hosts 中,避免跟DNS的交互 |
DNS域名解析速度慢,引起DPM内部节点通讯慢,采用本地解析后,从cern传输文件只需要14s,本地传输只需要4s。 |