Tags:
create new tag
view all tags

November

10.31 ~ 11.6(两次downtime,downtime之后出现一些问题)

* 周作业总结:
(1)Test作业:   
     I. 10月30日downtime for changing host certificates, 10月31日出现SE SAM tests出错,但是本地测试没有问题。 经过与CMS确认,是CMS的Nagios Server没有及时更新。已经发tickets, CMS答应更改SAM tests结果
     II. 11月4日downtime升级到dCache2.6,downtime出现三个问题:xrootd access问题, mount /pnfs in seadmin,cmspn01 and restart;  MC测试出现连接不上SE的错误,原因是升级后dCache用到java 1.7.0.45不能接受nagios测试的证书,重新设置Java的参数,重启dcache server; gLexec问题出现cms用户没有权限gLexec, 正在解决中。
(2)作业总数:8242
(3)比例: production:6465 Analysis:1141
 
* 周传输总结:
测试传输正常
状态:传入7.3TB,传出4.2TB

11.7 ~ 11.13(测试作业和传输正常)

* 周作业总结:
(1)Test作业:   
    100%,9日91%,网络短暂波动。
(2)作业总数:9696
(3)比例: production:7706 Analysis:1106
 
* 周传输总结:
测试传输正常。
状态:传入8.6TB,传出4.6TB

11.14 ~ 11.20(测试作业不正常)

* 周作业总结:
(1)Test作业:   
    出现 WMS submission errors错误:主要CREAM'S database has been scratched and all its jobs have been lost. 少量 no compatible resources 
(2)作业总数:13910
(3)比例: production:9521 Analysis:3518
 
* 周传输总结:
测试传输正常。
状态:传入7.6TB,传出4.2TB

11.21 ~ 11.27(测试作业不正常,WMS和creamce连接异常)

* 周作业总结:
(1)Test作业:   
    频繁出现WMS和creamce连接异常。
    A. 频繁出现的“no compatible resources", CERN SAM test 组已经基本确认问题在于“One of the two BDII nodes used by SAM was not working properly.”,也就是说是由于WMS和BDII查询站点信息时出问题。  
   B. 另一个问题是creamce在作业提交和完成之后传回WMS时出现传输timeout,也是时而出现,不是一直有。小飞今天也发现 creamce的网络问题,等更换完硬件后,我们再观察一下。
(2)作业总数:16986
(3)比例: production:13768 Analysis:2330
 
* 周传输总结:
测试传输正常。
状态:传入4.8TB,传出4.1TB

11.28 ~ 12.4(测试作业不正常,creamce 问题)

* 周作业总结:
(1)Test作业:   
    A. CREAMCE services problems. WMS can't connect to CREAMCE properly.
    B. CMS glidein pilot 错误, delegationId and proxy 丢失,原因creamce数据库crashed.
(2)作业总数:8485
(3)比例: production:7590 Analysis:661
 
* 周传输总结:
测试传输正常。
状态:传入4.46TB,传出4.1TB

12.5 ~ 12.11(测试作业恢复正常,CERN的SAM BDII 信息stale)

* 周作业总结:
(1)Test作业:   
    A. CREAMCE 5日恢复正常。但是CERN的 sam-bdii.cern.ch的信息处于未更新状态
    B. 关于此事发了ticket, CERN BDII组也确认以下这些站点都受到了影响,并将ticket定为top priority,9日得到了解决。
These sites are affected:
T1_IT_CNAF: all CEs (therefore the site is UNAVAILABLE)
T2_CN_Beijing: all CEs (therefore the site is UNAVAILABLE)
T2_KR_KNU: all CEs (therefore the site is UNAVAILABLE)
T2_PL_Warsaw: 1 of 2 CE (therefore the site is AVAILABLE)
T2_UK_London_Brunel: 1 of 3 CE (therefore the site is AVAILABLE)
    C. CMS glideinWMS的作业提交也收到了影响并发了ticket,系统恢复后glideinWMS作业提交也恢复正常
(2)作业总数:10709 
(3)比例: production:8138 Analysis:1739
 
* 周传输总结:
测试传输:RAL->Beijing的传输超时,怀疑是RAL FTS的queue堵塞,正在调查中。
状态:传入4.1TB,传出3.6TB
* 其他:
(1)CMS进行storageusage和storageconsistency的检查,统计phedex和SE实际使用空间(281TB),DBS和SE的数据的一致性检查,删除DBS和SE中不对应的孤儿数据,已经完成。
(2)CMS的frontier/squid的cache空间较小,6GB,希望在下次downtime的申请加一块20GB的盘。

12.12 ~ 12.18(测试作业和传输正常)

* 周作业总结:
(1)Test作业:   100%,12日和16日,96%, 发现SE短暂传输超时(CERN本地到IHEP SE),自行恢复,观察中。
(2)作业总数:4711
(3)比例: production:2519 Analysis:1709
 
* 周传输总结:
测试传输正常。
状态:传入4.3TB,传出4.1TB

12.19 ~ 12.24(测试作业和传输正常)

* 周作业总结:
(1)Test作业:  18日或23日 SE短暂连接问题,正在调查中。
ERROR: [SE][PrepareToPut][] httpg://srm.ihep.ac.cn:8443/srm/managerv2: CGSI-gSOAP running on samnag037.cern.ch reports could not open connection to srm.ihep.ac.cn
(2)作业总数:6221
(3)比例: production:3204 Analysis:2409
CMS dashboard的Accounting的bug还是存在,通过log信息看到的错误作业不是从T2_CN_Beijing的WN上做的。
 
* 周传输总结:
测试传输正常。
状态:传入5.1TB,传出4.3TB

1.2 ~ 1.9(盘坏传输失败,测试作业排队超时)

* 周作业总结:
(1)Test作业:  cmspn04盘坏,数据丢失,SE测试失败。测试作业排队超时,调整优先级后解决。
(2)作业总数:6200
(3)比例: production:54 Analysis:5490
 
* 周传输总结:
盘坏,测试传输受影响。
状态:传入9.8TB,传出4.3TB

1.10 ~ 1.15(盘坏,传输和作业正常)

* 周作业总结:
(1)Test作业:  15号盘坏
(2)作业总数:7805
(3)比例: production:4795 Analysis:2457
 
* 周传输总结:
测试传输正常,重传盘坏丢失的数据。
状态:传入8.1TB,传出4.3TB

1.16 ~ 1.23(网络维护和TOP BDII问题)

* 周作业总结:
(1)Test作业:  16日网络维护downtime, 22日top BDII解析错误
(2)作业总数:11901
(3)比例: production:6454 Analysis:3878
 
* 周传输总结:
测试传输正常。
状态:传入4.5TB,传出4.3TB

-- ZhangXiaomei - 2013-11-06

Edit | Attach | Watch | Print version | History: r15 < r14 < r13 < r12 < r11 | Backlinks | Raw View | Raw edit | More topic actions
Topic revision: r15 - 2014-01-23 - ZhangXiaomei
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2020 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback