Tags:
create new tag
view all tags

March

3.9 ~ 3.15 (测试系统升级->信息不正确)

* 周作业总结:
(1)Test作业:   正常,100%。CMS测试系统正在迁移。
(2)作业总数:  21345, 成功率61%,失败率application 4%, grid 35%。
(3)失败/总数: production: 7000/15098  Analysis:10/2330
* 周传输总结:
传输正常。
状态:传入6.6TB,传出5TB

3.16 ~ 3.22 (production作业大量失败->原因不明)

* 周作业总结:
(1)Test作业:   正常,100%。18,19号SUM tests 0% (CMS_CRITICAL_FULL),但是OPS 100%。
(2)作业总数:  18745, 成功率47%,失败率application 3%, grid 50%。怀疑是production使用了新系统glideinWMS,具体原因不明.
(3)失败/总数: production: 3328/5296 Analysis:2426/6216
* 周传输总结:
传输正常。
状态:传入5.1TB,传出5TB

3.23 ~ 3.29 (production作业失败较多)

* 周作业总结:
(1)Test作业:   正常,100%。
(2)作业总数:  21427, 成功率59%,失败率application 5%, grid 36%。大量的失败都是发生在同一用户的作业,glideWMS提交方式,错误原因都是没有传回作业的log.
(3)失败/总数: production: 8818/11509 Analysis:500/2483
* 周传输总结:
传输正常。
状态:传入5.1TB,传出5TB

April

3.30 ~ 4.12 (production作业恢复正常->站点overload)

* 周作业总结:
(1)Test作业:  前个星期,作业太多,SUM tests 作业没有排上。后个星期正常,100%。
(2)作业总数:  23808, 成功率68%,失败率application 2%, grid 30%。错误主要发生在前一个星期,主要原因是作业太多,总有大约8000作业pending。造成作业多的原因:
     * 站点存储的数据集太popular引来了很多分析作业。现在已经删掉了一些老数据。
     * production作业运行时间都挺长,大约需要30个小时左右,每天有700多个作业。高优先级用户cmsmu作业也很多,大约1000个。
     * 重压之下,作业调度一度不正常,没有完全用上450核。
(3)失败/总数: production: 63/10371  Analysis:5400/6370
* 周传输总结:
传输不正常。小飞在清理SE时,test数据丢失。传出错误失败。
状态:传入16TB,传出3TB

4.13 ~ 4.19 (JobRobot作业错误->站点overload好转但是作业仍然满负荷)

* 周作业总结:
(1)Test作业:  16日,17日,JobRobot测试出现错误:
                      GLBS_25 Got a job held event, reason: Globus error 25: the job manager detected an invalid script status
(2)作业总数:  10540, 成功率88%,失败率application 0.1%, grid 12%。错误的原因是分析作业排队等候太长。production作业和priority user作业占了大部分资源,已经提高分析用户的优先级,看看是否有改善。

(3)失败/总数: production: 38/6553  Analysis:56/251
* 周传输总结:
传输正常。
状态:传入5.34TB,传出5TB

4.20 ~ 5.2 (Production优先级不够->JobRobot错误)

* 周作业总结:
(1)Test作业:   20,21日JobRobot作业错误。调整priority后production作业太多,JobRobot在一天内得不到资源。调整production作业的比例,问题解决。 
(2)作业总数:  28850, 成功率92%,失败率application 1%, grid 7%。
(3)失败/总数: production: 4/18330  Analysis:535/3633
* 周传输总结:
传输正常。
状态:传入6TB,传出6TB

May

5.2 ~ 5.10 (作业和传输都正常)

* 周作业总结:
(1)Test作业:  正常
(2)作业总数:  31980, 成功率97%,grid 2%, application 1%。
(3)失败/总数: production: 366/28275  Analysis:48/839
* 周传输总结:
传输正常。
状态:传入5.2TB,传出5TB

5.11 ~ 5.17 (作业和传输都正常)

* 周作业总结:
(1)Test作业:  正常
(2)作业总数:  37106, 成功率97%,grid 3%。
(3)失败/总数: production: 2/32367 Analysis:450/2037
* 周传输总结:
传输正常。
状态:传入5.6TB,传出5.1TB

5.18 ~ 5.31 (作业和传输都正常)

* 周作业总结:
(1)Test作业:  27日SAM tests作业没有排上队,.
(2)作业总数:  29664, 成功率95%,grid 5%。
(3)失败/总数: production: 0/26378 Analysis:178/278
* 周传输总结:
传输正常。
状态:传入21TB,传出7TB

June

6.1 ~ 6.7 (production作业过多,导致SAM作业得不到运行)

  • 周作业总结:
(1)Test作业:  4~5日SAM tests作业没有排上队,调度有问题,CMS资源没有充分用上.
(2)作业总数:  16080, 成功率87%,grid 13%,失败原因排不队。
(3)失败/总数: production: 133/12921 Analysis:200/616
* 周传输总结:
传输正常。
状态:传入24TB,传出6.83TB

6.15 ~ 6.28 (测试作业正常->准备去掉lcg002->CE调度不正常->作业量减少)

  • 周作业总结:
(1)Test作业:  SAM tests作业正常, 准备去掉lcg002,调度不正常,已经通知production组减少作业量.
(2)作业总数:  14532, 成功率64%,grid 23%, application 13%。Production作业受到CE的影响,失败率高. 分析作业因近期数据的清理,产生的DBS信息和本地信息不符造成的读写错误.
(3)失败/总数: production: 3200/6446 Analysis:1541/5189
* 周传输总结:
传输正常。
状态:传入7.5TB,传出9.6TB

6.29 ~ 7.5 (downtime去掉lcg002->测试作业正常->作业量少)

  • 周作业总结:
(1)Test作业:  去掉lcg002后,SAM tests作业正常
* 周传输总结:
传输正常。

-- ZhangXiaomei - 2011-12-22

Edit | Attach | Watch | Print version | History: r15 < r14 < r13 < r12 < r11 | Backlinks | Raw View | Raw edit | More topic actions
Topic revision: r15 - 2012-07-04 - ZhangXiaomei
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback