> MesoPSL/ slurm

Gestionnaire de tâches SLURM

La nouvelle configuration du gestionnaire de tâches SLURM sur MesoPSL repose sur la combinaison de plusieurs éléments.
Pour pouvoir lancer un job, vous devrez préciser les éléments suivants :

un account
un cluster
une partition
une QoS

Accounts

Les accounts sont les comptes sur lesquels sont crédités les allocations horaires qui vous sont attribuées lorsque vos demandes de temps de calcul sont validées.
En règle générale, les accounts portent le nom du demandeur. À chaque demande sont associées deux accounts, l'un contenant les heures de calcul normales et l'autre les heures de calcul prioritaires.

Clusters

Le gestionnaire de tâches SLURM gère maintenant dans des clusters séparés les noeuds des différentes générations et des projets (ERC) qui composent MesoPSL.
Les commandes squeue et sinfo par ex. afficheront séparément les informations concernant ces clusters.
Les clusters actuellement définis sont :

mesopsl1 : 94 noeuds NEC 16 coeurs, 64 Go RAM
mesopsl2 : 24 noeuds DELL 24 coeurs, 96 Go RAM
astro_fat : 11 noeuds larges DELL 96 coeurs, 768 Go RAM, réservés prioritairement pour la communauté astro
astro_thin : 100 noeuds fins DELL, 24 coeurs, 96 Go RAM, réservés prioritairement pour la communauté astro
totoro : 16 noeuds DELL, 40 coeurs, 192 Go RAM, réservés exclusivement aux membres de l'ERC MIST
gpu : 5 noeuds DELL dont 4 noeuds réservés prioritairement pour les membres de Noether

Vous trouverez plus d'informations sur le matériel ici.

Partitions

Les partitions de MesoPSL sont définies de la manière suivante : chaque cluster peut être utilisé grâce à une partition normale ou prioritaire (en dehors de totoro qui a son propre mode de fonctionnement).

Ainsi, vous pouvez trouver sur MesoPSL les partitions :

def
hi

pour chacun des cluster mesopsl1, mesopsl2, astro_fat et astro_thin.

Un job lancé sur une partition prioritaire pourra suspendre un job lancé sur une partition normale pour s'exécuter. Lorsque le job prioritaire sera terminé, l'exécution du job normal reprendra.

QoS

Les QoS permettent de répartir l'usage des noeuds entre des jobs longs et des jobs courts, évitant ainsi que l'intégralité des noeuds d'une partition soient bloqués pour des jobs durant quelques jours inversement que des jobs longs restent trop longtemps en queue.

Les partitions normales disposent des QoS :

_long : jusqu'à 5 jours de temps d'exécution ;
_vlong : jusqu'à 15 jours de temps d'exécution.

Les partitions haute priorité disposent des QoS :

_short : jusqu'à 1 heure de temps d'exécution ;
_normal : jusqu'à 1 jour de temps d'exécution.

Le nombre de noeuds utilisables par les QoS varie d'un cluster à l'autre :

50 noeuds dans chaque QoS de mesopsl1 ;
15 noeuds dans chaque QoS de mesopsl2 ;
12 noeuds dans chaque QoS de astro_fat ;
60 noeuds dans chaque QoS de astro_thin.
3 noeuds dans chaque QoS de gpu.

Partition	QoS	limites
def	mesopsl1_def_long	50 noeuds, 5 jours
def	mesopsl1_def_vlong	50 noeuds, 15 jours
hi	mesopsl1_hi_short	50 noeuds, 1 heure
hi	mesopsl1_hi_normal	50 noeuds, 1 jour
def	mesopsl2_def_long	15 noeuds, 5 jours
def	mesopsl2_def_vlong	15 noeuds, 15 jours
hi	mesopsl2_hi_short	15 noeuds, 1 heure
hi	mesopsl2_hi_normal	15 noeuds, 1 jour
def	astro_fat_def_long	12 noeuds, 5 jours
def	astro_fat_def_vlong	12 noeuds, 15 jours
hi	astro_fat_hi_short	12 noeuds, 1 heure
hi	astro_fat_hi_normal	12 noeuds, 1 jour
def	astro_thin_def_long	60 noeuds, 5 jours
def	astro_thin_def_vlong	60 noeuds, 15 jours
hi	astro_thin_hi_short	60 noeuds, 1 heure
hi	astro_thin_hi_normal	60 noeuds, 1 jour
def	gpu_def_long	3 noeuds, 5 jours
def	gpu_def_vlong	3 noeuds, 15 jours
hi	gpu_hi_short	3 noeuds, 1 heure
hi	gpu_hi_normal	3 noeuds, 1 jour

Commandes essentielles

squeue : indique les jobs en queue
- -u user : indique seulement les jobs de l'utilisateur user
- -M cluster : indique seulement les jobs sur le cluster cluster
sinfo : indique l'état des partitions de l'ensemble des clusters
sbatch mon_job : soummet l'exécution du job défini par le script mon_job
scancel -M cluster jobid : annule le job numéro jobid sur le cluster cluster
squota : liste les heures disponibles et utilisées sur chaque cluster pour chaque accounts.

Exemples de scripts

Prenons l'exemple de l'utilisateur martin, dont les allocations d'heures ont été créditées sur les accounts martin et martin_hi, pour les clusters mesopsl1 et mesopsl2.
Voici quelques exemples de scripts lui permettant de lancer des jobs sur les différentes partitions, avec différentes QoS, pour différents types d'exécution.

Job MPI simple

Demande de 12 noeuds sur mesopsl1, pour 2 jours, en priorité normale.
Le code sera exécuté sur l'espace de travail BeeGFS.

#!/bin/sh
#SBATCH --job-name=mon_job
#SBATCH --time=2-00:00:00  
#SBATCH --mail-user=mon-mail@mail.fr --mail-type=ALL
#SBATCH --clusters=mesopsl1
#SBATCH --partition=def
#SBATCH --qos=mesopsl1_def_long
#SBATCH --account=martin
#SBATCH --nodes=12 
#SBATCH --ntasks-per-node=16

module load ma_liste_de_modules

RUNDIR=/travail/martin/job.${SLURM_JOB_ID}
mkdir -p ${RUNDIR}
cd ${RUNDIR}

mpirun -np ${SLURM_NTASKS} /travail/martin/mon/beau/code

exit 0

Job hybride MPI/OpenMP

Demande de 8 noeuds sur mesopsl2, pour 30 minutes, en priorité haute.
Sur chaque noeud, on veut lancer 4 processus avec 6 threads chacun.
Le code sera exécuté sur l'espace de travail BeeGFS.

#!/bin/sh
#SBATCH --job-name=mon_job
#SBATCH --time=00:30:00  
#SBATCH --mail-user=mon-mail@mail.fr --mail-type=ALL
#SBATCH --clusters=mesopsl2
#SBATCH --partition=hi
#SBATCH --qos=mesopsl2_hi_short
#SBATCH --account=martin_hi
#SBATCH --nodes=8
#SBATCH --ntasks-per-node=4
#SBATCH --cpus-per-task=6

module load ma_liste_de_modules

RUNDIR=/travail/martin/job.${SLURM_JOB_ID}
mkdir -p ${RUNDIR}
cd ${RUNDIR}

OMP_NUM_THREADS=${SLURM_CPUS_PER_TASK} mpirun -np ${SLURM_NTASKS} /travail/martin/mon/beau/code

exit 0

Jobs interactifs

Il est possible de demander des ressources à SLURM et d'être connecté automatiquement aux ressources attribuées lorsque le job commence. Ceci permet d'utiliser MesoPSL de manière intéractive.
Pour cela, il faut utiliser la commande srun comme dans l'exemple suivant :

srun --job-name "InteractiveJob" --ntasks=24 --time 0:15:00 --account=martin --qos=astro_thin_def_long --partition=def --clusters=astro_thin --pty bash

Cette demande ouvre une session interactive pour 24 processus/threads sur astro_thin, pour 15 minutes, en priorité normale.
Il faut penser à quitter sa session intéractive avec exit si on veut y mettre un terme avant la fin du te1Gmps réservé.