ATLAS 监控
SAM监控
监视目标
SAM Test 对DPM和CreamCE的周期测试结果(测试每半小时发生一次)。
实时测试结果的
监控页面
监视方法
从SAM Test的实时测试结果的
监控页面
, 可以获取测试结果的
Json文件
, 监控程序会分析每个服务(SRM,
CreamCE,
ArcCE)的测试状态(Critial, OK)和当前状态(OK, Missing, Downtime)。 如果某项服务的测试状态为Critical, 而当前状态不是Downtime时,就发送报警邮件。
具体程序位置
PanDA Production监控
监视目标
PanDA Production 作业的错误率
监视方法
从PanDA监控页面获取与分析PanDA Production 作业24小时范围内的
成功的作业数目
,和
失败的作业数目
, 计算出作业的错误率,当在一个24小时范围的作业的错误率高于阈值(20%)时候,发送报警邮件。
具体程序位置
CMS 监控
SAM监控
监视内容
对站点各种服务包括SE,
CreamCE等进行监测。 SAM Test 对dCache和CreamCE的周期测试,测试间隔每半小时发生一次。
监控页面:
实时测试监控
监控数据:
JSON data
监视方法
从SAM Test的监控portal获取实时的测试结果, 监控程序会分析每个服务(SRM,
CreamCE,
ArcCE)的各种测试状态(Critial, OK)和当前状态(OK, Missing, Downtime)。 如果某项服务的测试状态为Critical, 而当前状态不是Downtime时,就发送报警邮件。
监控机器
LCG 监控