Tags:
create new tag
view all tags

Title

Article text.

-- Shi Jingyan - 2017-02-21

1月29日

发现计算节点的配置文件有问题。配置文件是能程序生成的,在有些情况下的配置文件内容多了个引号,修改程序后,重新发布。节点正常,作业也调度正常。

2月1日-2月4日,

由于新上线的besfs3出现硬件故障,计算结点上进程不正常,使得startd进程死了。besfs3恢复后,此问题解决。

2月17日:

用户一批作业有快,有慢。。作业内容相同。经检查是用户的模拟作业要大量访问数据库,且每个数据库是长链接。BES3数据库由多台数据库组成,通过dns的轮询的方式进行负载均衡。所以连接有问题的数据库的作业都变得很慢。将此数据库从dns定义中去掉后,不再有慢作业出现。

2月20日:

出现多次作业hung后,掉作业情况。现象为condor_sched的属主变成了普通用户,当hung掉部分作业后,属主变回condor。当前scratchfs的访问一直比较慢,不确定是否有影响。

3月8日:

发现用户冯锋有恶意多占资源的情况。具体做法如下:

1. 用condor_status查看哪些用户或用户组可以使用更多资源。

2. 用condor_submit命令宣称自己的作业是以其它用户组别提交(发现宣称盗用了offline, lint, jiangxw等用户)

3. 作业的内容为在2170的端口启动sshd,然后sleep

4. 在登录结点上发启mpirun的大型并行作业,在所有占用的作业槽上运行

5. 在每个节点上的运行的mpi计算还将节点的所有cpu占用,并非只是调度器分配的一个cpu核,而是检测当前机器的所有cpu核数,运行同等进程。

发现后,删除该用户账号,联系用户要求其说明做法。用户狡辩几次后承认使用了不该用的资源。

3月15日:

job hung的问题原因:

1.每个作业都会定期(20分钟)与schedd通讯,发送keep alive消息;在作业向schedd的并发连接请求过多,超过open file默认的1024上限时,会导致keep alive发送失败;若某个作业在time out期限内都未能成功发送keep alive消息,schedd就会认为该作业已死,使得job hung并重新排队调度。

2.原来boss.cordor的作业提交脚本延用了pbs的方式,即提交作业后将作业脚本删除,所以重新排队的作业因为找不到作业脚本而失败。

3.另有磁盘卡顿时schedd owner会变为普通用户的情况,也会导致作业与schedd通讯失败;该情况与用户的condor日志模式关联性极大,并且condor开发人员也建议减少schedd服务器上shadow对公共盘的访问。(该问题未能在实验环境中重现,不能确认具体原因,但应该与shadow访问公共盘时的卡顿有关)

现在做的调整包括:

1. 增加了htconodr服务器对每个进程可以open 文件(Socket)的上限。

2. 修改boss.condor, 提交作业后不再删除该作业的脚本。

3. 调整我们提供用户的作业管理工具命令程序,减少schedd服务器上shadow由于写日志对公共盘的访问。原有的hep_job 有-l选项,用于显示作业运行的condor进度,现将此选项屏蔽去除。

4月4日:

1、更改配置: SCHEDD_MAX_FILE_DESCRIPTORS = 30000 SHARED_PORT_MAX_FILE_DESCRIPTORS = 30000

2、重启condor以使以上配置生效:

condor_hold -all

service condor stop

service condor start

condor_release -all

3、由于操作等待时间较少,部分shadow未正常与计算节点释放,导致collector与schedd信息不同步。 第2步过程更正为:

condor_hold -all

等待shadow全部结束

service condor stop

service condor start

condor_release -all

Comments

4月4日: 1、更改配置: SCHEDD_MAX_FILE_DESCRIPTORS = 30000 SHARED_PORT_MAX_FILE_DESCRIPTORS = 30000 2、重启condor以使以上配置生效: condor_hold -all service condor stop service condor start 3、由于操作等待时间较少,部分shadow未正常与计算节点释放,导致collector与schedd信息不同步。 第2步过程更正为: condor_hold -all 等待shadow全部结束 service condor stop service condor start

-- jiang xiaowei - 2017-04-05

5月22日:

juno用户使用condor原生命令提交作业,并使用transfer方式,同时生成大量日志输出,导致计算节点本地盘占满。

解决:

删除该用户作业;

删除该用户在计算节点/var/lib/condor/execute目录下对应进程的目录;

通知该用户检查作业程序的日志输出,并建议使用hepjob提交作业。

-- jiang xiaowei - 2017-05-24

Edit | Attach | Watch | Print version | History: r5 < r4 < r3 < r2 < r1 | Backlinks | Raw View | Raw edit | More topic actions
Topic revision: r5 - 2017-05-24 - JiangXiaowei
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback