Uso do Cluster IBM-Ubuntu

Este guia contém informações básicas para o uso do Cluster IBM-Ubuntu.

Hardware

Máquina de Login(xcat02): Node para efetuar login e submeter jobs

1 x System x 3550M3 8 cores Intel(R) Xeon(R) CPU E5620 @ 2.40GHz 12 GB RAM Máquina de Processamento(idpx01,idpx02): Nodes de execução dos jobs

2 x DX360M3 24 cores Intel(R) Xeon(R) CPU X5650 @ 2.67GHz cada nó 50 GB RAM cada nó 1 Nvidia Tesla M2070 cada nó Acesso de dentro da FT:

Conexão ao sistema IBM:

$ ssh usuario@143.106.243.188

Acesso de fora da FT

Para acesso de fora da FT primeiro é necessário se conectar em lascado.ft.unicamp.br.

$ ssh usuario@lascado.ft.unicamp.br

Após conectado ao lascado, conectar normalmente ao cluster IBM.

O cluster IBM-Ubuntu utiliza o software HTCondor para submissão de jobs.

Um exemplo de arquivo de submissão pode ser visto abaixo:

Executable = /home/bruno/teste1/a.out
Log = reg.log
Output = saida.out
request_cpus = 2

initialdir = dir1
arguments = 2 3
Queue

initialdir = dir2
arguments = 4 4
Queue

onde:

Executable é o caminho do programa que será executado pelo Condor.

Log registrará os passos para a execução do job.

Output é o arquivo que conterá os resultados da execução.

Em request_cpus é informado a quantidade desejada para a execução.

Agora temos as variáveis responsáveis por separar a execução do programa em duas pastas, nesse exemplo o programa recebe dois argumentos passados pela variável arguments, e o resultado da execução é salvo no diretório passado pela variável initialdir. O diretório é preciso ter sido criado antes da execução. Queue é o comando que inicia a execução

initialdir = dir1

arguments = 2 3

Queue

Comando úteis

Comando

Uso

condor_submit arquivo-submissao

Submete um job para execução

condor_q

Exibe os jobs em execução

condor_status

Mostra os status dos nodes

condor_rm num-job

Deleta job