Software/Linux
PBS reset 방법
대박단백질
2009. 11. 10. 11:26
Multi cluster의 node 들이 과열이나 예상치 못한 이상으로 인해, 접속이 안될 경우, scheduling된 job들은 server에 계속 남아 client로 job을 계속 던진다. 이 경우, server를 재시작해도, job들은 초기화 되지 않는다. 이 문제를 해결하기 위해 아래와 같이 server에서 job들을 reset 해주어야 한다.
아래와 같이 PBS와 관련된 demon들을 찾는다.
Torque의 경우 아래와 같은 3개의 demon을 사용한다.
이 demon들을 아래와 같이 kill 해준다.
아래 경로에 있는 모든 job 파일들을 삭제한다.
이제 서버에는 필요없는 job 파일들이 없다. 마지막으로 kill된 demon들을 재시작한다.
아래와 같이 PBS와 관련된 demon들을 찾는다.
[root@sun /]# ps -ef |grep pbs
Torque의 경우 아래와 같은 3개의 demon을 사용한다.
\root 3134 1 0 10:34 ? 00:00:00 /usr/sbin/automount --timeout=60 /pbs file /etc/auto.pbs
root 3661 1 0 10:34 ? 00:00:00 /usr/local/sbin/pbs_server
root 3663 1 0 10:34 ? 00:00:00 /usr/local/sbin/pbs_sched
root 3661 1 0 10:34 ? 00:00:00 /usr/local/sbin/pbs_server
root 3663 1 0 10:34 ? 00:00:00 /usr/local/sbin/pbs_sched
이 demon들을 아래와 같이 kill 해준다.
[root@sun /]# kill -kill 3134
[root@sun /]# kill -kill 3661
[root@sun /]# kill -kill 3663
[root@sun /]# kill -kill 3661
[root@sun /]# kill -kill 3663
아래 경로에 있는 모든 job 파일들을 삭제한다.
[root@sun /]# cd /var/spool/torque/server_priv/jobs/
[root@sun jobs]# rm *
[root@sun jobs]# rm *
이제 서버에는 필요없는 job 파일들이 없다. 마지막으로 kill된 demon들을 재시작한다.