leria:centre_de_calcul:cluster
Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédenteProchaine révisionLes deux révisions suivantes | ||
leria:centre_de_calcul:cluster [22/03/2019 11:20] – [CPLEX] Chantrein Jean-Mathieu | leria:centre_de_calcul:cluster [22/04/2020 10:50] – Chantrein Jean-Mathieu | ||
---|---|---|---|
Ligne 45: | Ligne 45: | ||
| Hostname | | Hostname | ||
| star[254-253] | | star[254-253] | ||
- | | star[245-244] | + | | star[246-252] |
+ | | star[245-244] | ||
| star243 | | star243 | ||
- | | star242 | + | | star242 |
- | | TODO star[199-195] | + | | TODO star[199-195] |
| TODO star[194-190] | | TODO star[194-190] | ||
==== Architecture logicielle ==== | ==== Architecture logicielle ==== | ||
Ligne 99: | Ligne 100: | ||
< | < | ||
+ | <note important> | ||
+ | https:// | ||
==== Slurm: premiers tests et documentation ==== | ==== Slurm: premiers tests et documentation ==== | ||
Ligne 276: | Ligne 279: | ||
Voir aussi [[leria: | Voir aussi [[leria: | ||
- | Le cluster de calcul utilise un pool de serveurs de stockages distribués [[https:// | + | * Le cluster de calcul utilise un pool de serveurs de stockages distribués [[https:// |
+ | * Si vous souhaitez créer des groupes, merci d' | ||
+ | |||
+ | * Pour rappel, **par défaut**, les droits de votre home sont définis à 755, donc **tout le monde peut lire et exécuter vos données**. | ||
===== Utilisation avancée ===== | ===== Utilisation avancée ===== | ||
==== Array jobs ==== | ==== Array jobs ==== | ||
- | Vous devriez commencer par lire la [[https:// | + | Vous devriez commencer par lire la [[https:// |
Si vous avez un grand nombre de fichier ou de parametres à traiter avec un seul exécutable, | Si vous avez un grand nombre de fichier ou de parametres à traiter avec un seul exécutable, | ||
Ligne 352: | Ligne 358: | ||
./ | ./ | ||
</ | </ | ||
+ | |||
+ | === Job pour multiples instances avec multiples exécutions (Seed number) === | ||
+ | |||
+ | Parfois il faut lancer plusieurs fois l' | ||
+ | |||
+ | Soit l' | ||
+ | < | ||
+ | job_name | ||
+ | ├── error | ||
+ | ├── instances | ||
+ | │ | ||
+ | │ | ||
+ | │ | ||
+ | ├── job_name_exec | ||
+ | ├── output | ||
+ | ├── submit_instances_dir_with_seed.slurm | ||
+ | └── submit.sh | ||
+ | </ | ||
+ | |||
+ | Il suffit d’exécuter la commande suivante: | ||
+ | |||
+ | ./submit.sh | ||
+ | |||
+ | avec le fichier submit.sh suivant (pensez à modifier la variable NB_SEED): | ||
+ | |||
+ | <code bash> | ||
+ | #!/bin/bash | ||
+ | |||
+ | readonly NB_SEED=50 | ||
+ | |||
+ | for instance in $(ls instances) | ||
+ | do | ||
+ | sbatch --output output/ | ||
+ | done | ||
+ | exit 0 | ||
+ | </ | ||
+ | |||
+ | et le batch submit_instances_dir_with_seed.slurm suivant: | ||
+ | |||
+ | <code bash> | ||
+ | #!/bin/bash | ||
+ | #SBATCH --mail-type=END, | ||
+ | #SBATCH --mail-user=YOUR-EMAIL | ||
+ | |||
+ | echo "####### | ||
+ | echo "####### | ||
+ | echo | ||
+ | srun echo nomApplication ${1} ${SLURM_ARRAY_TASK_ID} | ||
+ | </ | ||
+ | |||
+ | Avec cette méthode, la variable SLURM_ARRAY_TASK_ID contient la graine. Et vous soumettez autant de array job que ce qu'il y a d' | ||
+ | Vous retrouvez facilement vos sortie qui sont nommées comme ceci: | ||
+ | |||
+ | output/ | ||
+ | |||
=== Dépendances entre job === | === Dépendances entre job === | ||
Ligne 473: | Ligne 534: | ||
Ces nœuds sont pour l' | Ces nœuds sont pour l' | ||
- | |||
- | Listes des utilisateurs autorisés à se servir des nœuds gpu actuellement (en ssh): | ||
- | * benoit.damota | ||
- | * jean-michel.richer | ||
- | * o.goudet | ||
==== Nœud RAM ==== | ==== Nœud RAM ==== | ||
Ligne 483: | Ligne 539: | ||
Ce nœud est accesible par soumissions via slurm (partition ram). Pour pouvoir vous en servir, merci d'en faire la demande explicite à technique [at] info.univ-angers.fr | Ce nœud est accesible par soumissions via slurm (partition ram). Pour pouvoir vous en servir, merci d'en faire la demande explicite à technique [at] info.univ-angers.fr | ||
- | |||
- | Listes des utilisateurs autorisés à se servir des nœuds ram actuellement (en ssh): | ||
- | * benoit.damota (pour boinc) | ||
- | * gilles.hunault (pour test) | ||
- | |||
- | Listes des utilisateurs autorisés à se servir des nœuds ram actuellement (via slurm): | ||
- | * frederic.lardeux | ||
- | * gilles.hunault | ||
==== Cplex ==== | ==== Cplex ==== | ||
Ligne 498: | Ligne 546: | ||
Le chemin pour la bibliothèque Cplex est le chemin par défaut / | Le chemin pour la bibliothèque Cplex est le chemin par défaut / | ||
===== FAQ ===== | ===== FAQ ===== | ||
+ | |||
+ | * Comment savoir quelles sont les ressources d'une partition, exemple avec la partition std: | ||
+ | |||
+ | user@stargate~# | ||
+ | |||
+ | * Que signifie "Some of your processes may have been killed by the cgroup out-of-memory handler" | ||
+ | |||
+ | Vous avez dépassé la limite de mémoire que vous avez fixé ou celle par défaut (paramètre --mem-per-cpu) | ||
* Comment obtenir un prompt shell interactif dans un nœud de calcul de votre partition par défaut ? | * Comment obtenir un prompt shell interactif dans un nœud de calcul de votre partition par défaut ? |
leria/centre_de_calcul/cluster.txt · Dernière modification : 06/06/2023 17:00 de Chantrein Jean-Mathieu