January
1.2 ~ 1.9(盘坏传输失败,测试作业排队超时)
* 周作业总结:
(1)Test作业: cmspn04盘坏,数据丢失,SE测试失败。测试作业排队超时,调整优先级后解决。
(2)作业总数:6200
(3)比例: production:54 Analysis:5490
* 周传输总结:
盘坏,测试传输受影响。
状态:传入9.8TB,传出4.3TB
1.10 ~ 1.15(盘坏,传输和作业正常)
* 周作业总结:
(1)Test作业: 15号盘坏
(2)作业总数:7805
(3)比例: production:4795 Analysis:2457
* 周传输总结:
测试传输正常,重传盘坏丢失的数据。
状态:传入8.1TB,传出4.3TB
1.16 ~ 1.23(网络维护和TOP BDII问题)
* 周作业总结:
(1)Test作业: 16日网络维护downtime, 22日top BDII解析错误
(2)作业总数:11901
(3)比例: production:6454 Analysis:3878
* 周传输总结:
测试传输正常。
状态:传入4.5TB,传出4.3TB
2.5~ 2.12(作业和传输正常)
* 周作业总结:
(1)Test作业: 100%
(2)作业总数:6785
(3)比例: production:2877 Analysis:1833
* 周传输总结:
测试传输正常。
状态:传入6.1TB,传出4.2TB
2.13~ 2.19(作业和传输正常)
* 周作业总结:
(1)Test作业: 100%
(2)作业总数:15788
(3)比例: production:11490 Analysis:3360
* 周传输总结:
测试传输正常。
状态:传入4.0TB,传出4.1TB
2.20~ 2.27(盘坏,作业受影响)
* 周作业总结:
(1)Test作业: 22日97% , 25日96%, cmspn04-1盘坏
(2)作业总数:13789
(3)比例: production:9976 Analysis:1477
* 周传输总结:
测试传输正常。
状态:传入8.1TB,传出5.7TB
2.28~ 3.6(SE出现短暂连接中断)
* 周作业总结:
(1)Test作业: (1) SE出现短暂连接多次中断,ERROR: [SE][PrepareToPut][] httpg://srm.ihep.ac.cn:8443/srm/managerv2: CGSI-gSOAP running on samnag037.cern.ch reports Error reading token data header: Connection closed
2013年12月12日~1月5日,出现同样情况,后来cmspn04坏,更换后就没有出现这种情况。
CMS现在有批量传输,很容易使得老化的设备出问题。
(2) 和CMS组一起对SE文件做了清理,腾出了40TB的空间。
(2)作业总数:13893
(3)比例: production:4238 Analysis:3754
* 周传输总结:
测试传输正常。
状态:传入15.1TB,传出4.8TB
3.12~3.19(SE硬件坏和数据迁移)
* 周作业总结:
(1)Test作业: SAM tests状态不稳定,在95%左右。
(1) cmspn01, cmspn06盘坏
(2) 开始将数据迁移到cmspn001(新盘阵)
(3) cmspn001的网卡和hba卡不稳定,重新插拔和清理
(4)CMS作业排队导致glexec运行不上,提高优先级后恢复
(2)作业总数:18924
(3)比例: production:7858 Analysis:4854
* 周传输总结:
测试传输正常。
状态:传入5.3TB,传出4.05TB
3.20~3.26(数据迁移)
* 周作业总结:
(1)Test作业: 数据迁移,SE SAM tests不稳定。其中错误之一CERN的测试证书过期,另外是cmspn03已经关掉,但是链接没有关掉
(2)作业总数:10715
(3)比例: production:6546 Analysis:1555
* 周传输总结:
测试传输正常。
状态:传入5.1TB,传出8.23TB
3.27~4.2(作业和传输正常)
* 周作业总结:
(1)Test作业: 测试正常。
(2)作业总数:25467
(3)比例: production:16655 Analysis:5101
* 周传输总结:
测试传输正常。
状态:传入4.3TB,传出4.95TB
--
ZhangXiaomei - 2014-02-12