Software/Linux

PBS reset 방법

대박단백질 2009. 11. 10. 11:26
Multi cluster의 node 들이 과열이나 예상치 못한 이상으로 인해, 접속이 안될 경우, scheduling된 job들은 server에 계속 남아 client로 job을 계속 던진다. 이 경우, server를 재시작해도, job들은 초기화 되지 않는다. 이 문제를 해결하기 위해 아래와 같이 server에서 job들을 reset 해주어야 한다.


아래와 같이 PBS와 관련된 demon들을 찾는다.
[root@sun /]# ps -ef |grep pbs


Torque의 경우 아래와 같은 3개의 demon을 사용한다.
\root      3134     1  0 10:34 ?        00:00:00 /usr/sbin/automount --timeout=60 /pbs file /etc/auto.pbs
root      3661     1  0 10:34 ?        00:00:00 /usr/local/sbin/pbs_server
root      3663     1  0 10:34 ?        00:00:00 /usr/local/sbin/pbs_sched

 이 demon들을 아래와 같이 kill 해준다.
[root@sun /]# kill -kill 3134
[root@sun /]# kill -kill 3661
[root@sun /]# kill -kill 3663

아래 경로에 있는 모든 job 파일들을 삭제한다.
[root@sun /]# cd /var/spool/torque/server_priv/jobs/
[root@sun jobs]# rm *

이제 서버에는 필요없는 job 파일들이 없다. 마지막으로 kill된 demon들을 재시작한다.