ATLAS 监控

SAM监控

监视目标
SAM Test 对DPM和CreamCE的周期测试结果(测试每半小时发生一次)。

实时测试结果的监控页面

监视方法
从SAM Test的实时测试结果的监控页面, 可以获取测试结果的Json文件, 监控程序会分析每个服务(SRM, CreamCE, ArcCE)的测试状态(Critial, OK)和当前状态(OK, Missing, Downtime)。 如果某项服务的测试状态为Critical, 而当前状态不是Downtime时,就发送报警邮件。

具体程序位置
  • 运行监控程序的主机: gilda117.ihep.ac.cn
  • 运行方式: Crontab定期运行(每十分钟)
    */10 * * * * /wuwj/ihepcc-wuwj/Code/ATLAS/Monitor/monitor_sam.py

PanDA Production监控

监视目标
PanDA Production 作业的错误率

监视方法
从PanDA监控页面获取与分析PanDA Production 作业24小时范围内的成功的作业数目,和失败的作业数目, 计算出作业的错误率,当在一个24小时范围的作业的错误率高于阈值(20%)时候,发送报警邮件。

具体程序位置
  • 运行监控程序的主机: gilda117.ihep.ac.cn
  • 运行方式: Crontab定期运行(每2小时运行一次)
    0 */2 * * * /wuwj/ihepcc-wuwj/Code/ATLAS/Monitor/monitor_panda_production.py  -i 24

CMS 监控

SAM监控

监视内容

对站点各种服务包括SE, CreamCE等进行监测。 SAM Test 对dCache和CreamCE的周期测试,测试间隔每半小时发生一次。

监控页面: 实时测试监控

监控数据: JSON data

监视方法
从SAM Test的监控portal获取实时的测试结果, 监控程序会分析每个服务(SRM, CreamCE, ArcCE)的各种测试状态(Critial, OK)和当前状态(OK, Missing, Downtime)。 如果某项服务的测试状态为Critical, 而当前状态不是Downtime时,就发送报警邮件。

监控机器
  • 运行监控程序的主机: vobox.ihep.ac.cn
  • 运行方式: Crontab定期运行(每十分钟)
    */10 * * * * /root/sam/monitor_cmssam.py

LCG 监控

Edit | Attach | Watch | Print version | History: r4 < r3 < r2 < r1 | Backlinks | Raw View | Raw edit | More topic actions
Topic revision: r4 - 2015-07-02 - ZhangXiaomei
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback