October
10.15 ~ 10.24 (作业和传输正常)
* 周作业总结:
(1)Test作业: 正常,作业成功率100%。
(2)作业总数: 97%, 17770, 失败率application 1%,grid 2%
(3)失败/总数: production: 11/6692 Analysis:236/5700
* 周传输总结:
测试传输正常
状态:传入5.4TB,传出16TB
10.25 ~ 10.31 (作业和传输正常)
* 周作业总结:
(1)Test作业: 正常,作业成功率100%。
(2)作业总数: 96%, 13770, 失败率application 2%,grid 2%
(3)失败/总数: production: 4/2196 Analysis:345/5363 Test:0/5960
* 周传输总结:
测试传输正常
状态:传入5TB,传出5.4TB
11.1 ~ 11.7 (网格更新证书,应用错误多,分析作业失败率高,传输正常)
* 周作业总结:
(1)Test作业: 1日,2日不正常(2日downtime,更换证书),作业成功率低于58%。
(2)作业总数: 51%, 11297, 失败率application 43%,grid 6%。application失败的主要原因两个:(1)作业结果拷贝到远程SE的失败率高 (2)Application terminated by wrapper because using too much RAM。grid失败主要因为证书过期。
(3)失败/总数: production: 0/1484 Analysis:4200/7589 Test:0/2227
* 周传输总结:
测试传输正常
状态:传入5.1TB,传出5.4TB
11.8 ~ 11.14 (作业和传输正常)
* 周作业总结:
(1)Test作业: 作业正常。成功率100%。
(2)作业总数: 82%, 9230, 失败率application 17%,grid 1%。application失败的主要原因是分析作业使用太多内存而被kill掉。
(3)失败/总数: production: 0/6232 Analysis:1600/2995
* 周传输总结:
测试传输正常
状态:传入5.11TB,传出6.45TB
11.15 ~ 11.21 (作业正常,盘阵坏,传输受影响)
* 周作业总结:
(1)Test作业: 作业正常。成功率100%。
(2)作业总数: 82%, 5600, 失败率application 17%,grid 1%。application失败的主要原因是分析作业使用太多内存而被kill掉。
(3)失败/总数: production: 15/3255 Analysis:872/1786
* 周传输总结:
测试传输受到盘坏影响。
状态:传入5TB,传出6.33TB
12.04 ~ 12.13 (作业和传输正常)
* 周作业总结:
(1)Test作业: 作业正常。成功率100%。
(2)作业总数: 83%, 17501, 失败率application 4%,grid 13%。
(3)失败/总数: production: 528/11728 Analysis:2684/5772
* 周传输总结:
测试传输正常。
状态:传入5.07TB,传出5.39TB
12.20 ~ 12.27 (作业和传输正常)
* 周作业总结:
(1)Test作业: 作业正常。成功率100%。
(2)作业总数: 88%, 3400, 失败率application 4%,grid 12%。
(3)失败/总数: production: 395/3012 Analysis:20/315
* 周传输总结:
测试传输正常。
状态:传入5.46TB,传出5.56TB
--
ZhangXiaomei - 2012-10-25