Différences

Ci-dessous, les différences entre deux révisions de la page.

--- leria:centre_de_calcul:cluster [06/02/2019 11:52] – [Connexion à stargate] Chantrein Jean-Mathieu
+++ leria:centre_de_calcul:cluster [06/01/2023 15:39] – Chantrein Jean-Mathieu
@@ Ligne 1: / Ligne 1: @@
-<note tip>you can see the translation of this page by clicking on the banner of your language at the top right of this page</note>
+^  [[technique:accueil#mots_cles|Mots clés]] | {{tag> "cluster de calcul" hpc stargate}}  |
+<note tip>you can see the translation of this page [[leria:centre_de_calcul:cluster_english_version|here]]</note>
@@ Ligne 5: / Ligne 7: @@
-Vous pouvez utilisez l'entrée misc de bibtex suivante pour citer le cluster de calcul dans vos publications:
+Vous pouvez utiliser l'entrée misc de bibtex suivante pour citer le cluster de calcul dans vos publications:
 <code latex>
 @Misc{HPC_LERIA,
-    title = {{High Performance Computing Cluster of LERIA},
+    title = {High Performance Computing Cluster of LERIA},
     year = {2018},
     note = {slurm/debian cluster of 27 nodes(700 logical CPU, 2 nvidia GPU tesla k20m, 1 nvidia P100 GPU), 120TB of beegfs scratch storage}
@@ Ligne 18: / Ligne 20: @@
 <note>
   * Cette page de wiki est aussi la votre, n'hésitez pas à la modifier directement ou à proposer des modifications à technique [at] info.univ-angers.fr.
-  * Tous les utilisateurs du cluster doivent être inscrit sur la liste de diffusion [[http://sympa.info.univ-angers.fr/wws/info/cluster|cluster]]
+  * Tous les utilisateurs du cluster doivent être inscrit sur la liste de diffusion [[http://listes.univ-angers.fr/sympa/info/calcul-hpc-leria|calcul-hpc-leria]]
-    * Pour s'inscrire à cette liste de diffusion, il suffit d'envoyer un mail à sympa@info.univ-angers.fr avec pour objet subscribe cluster Nom Prénom
+    * Pour s'inscrire à cette liste de diffusion, il suffit d'envoyer un mail à sympa@listes.univ-angers.fr avec pour objet subscribe calcul-hpc-leria Nom Prénom
 </note>
@@ Ligne 43: / Ligne 45: @@
 ==== Architecture matérielle ====
-|  Hostname            |  Modèle     |  Nombre de modèle identique  |  GPU         |  Nombre de GPU/modèle  |  CPU                                                                                                            |  Nombre de CPU/modèle  |  Nombre de cœurs/CPU  |  Nombre de threads/CPU  | Nombre de threads/modèle  |  RAM      |  Espace de stockage local  |  Interconnection  |
+|  Hostname       |  Modèle     |  Nombre de modèle identique  |  GPU               |  Nombre de GPU/modèle  |  CPU                                                                                                                                              |  Nombre de CPU/modèle  |  Nombre de cœurs/CPU  |  Nombre de threads/CPU  |  Nombre de threads/modèle  |  RAM      |  Espace de stockage local  |  Interconnection  |
-|  star[254-253]       |  Dell R720  |  2                           |  Tesla K20m  |  2                     |  [[https://ark.intel.com/fr/products/75275/Intel-Xeon-Processor-E5-2670-v2-25M-Cache-2-50-GHz-|intel-E5-2670]]  |  2                     |  10                   |  20                     |  40                       |  64 Go    |  1To                       |  2*10Gb/s         |
+|  star[254-253]  |  Dell R720  |  2                           |  Tesla K20m        |  2                     |  [[https://ark.intel.com/fr/products/75275/Intel-Xeon-Processor-E5-2670-v2-25M-Cache-2-50-GHz-|intel-E5-2670]]                                    |  2                     |  10                   |  20                     |  40                        |  64 Go    |  1To                       |  2*10Gb/s         |
-|  star[245-244]       |  Dell R630  |  2                           |  X           |  0                     |  [[https://ark.intel.com/fr/products/91316/Intel-Xeon-Processor-E5-2695-v4-45M-Cache-2-10-GHz-|intel-E5-2695]]  |  2                     |  18                   |  36                     |  72                       |  128 Go   |  TODO                      |                   |
+|  star[246-252]  |  Dell R620  |  7                           |  X                 |  0                     |  [[https://ark.intel.com/fr/products/75275/Intel-Xeon-Processor-E5-2670-v2-25M-Cache-2-50-GHz-|intel-E5-2670]]                                    |  2                     |  10                   |  20                     |  40                        |  64 Go    |  1 To                      |  2*10Gb/s         |
-|  star243             |  Dell R930  |  1                           |  X           |  0                     |  [[https://ark.intel.com/fr/products/93806/Intel-Xeon-Processor-E7-4850-v4-40M-Cache-2-10-GHz-|intel-E7-4850]]  |  4                     |  16                   |  32                     |  128                      |  1500 Go  |  1To                       |  2*10Gb/s         |
+|  star[245-244]  |  Dell R630  |  2                           |  X                 |  0                     |  [[https://ark.intel.com/fr/products/91316/Intel-Xeon-Processor-E5-2695-v4-45M-Cache-2-10-GHz-|intel-E5-2695]]                                    |  2                     |  18                   |  36                     |  72                        |  128 Go   |  X                         |  2*10Gb/s         |
-|  star242             |  Dell R730  |  1                           |  Tesla P100  |  1                     |  [[https://ark.intel.com/fr/products/92986/Intel-Xeon-Processor-E5-2620-v4-20M-Cache-2-10-GHz-|intel-E5-2620]]  |  2                     |  8                    |  16                     |  32                       |  128 Go   |  1 To                      |                   |
+|  star243        |  Dell R930  |  1                           |  X                 |  0                     |  [[https://ark.intel.com/fr/products/93806/Intel-Xeon-Processor-E7-4850-v4-40M-Cache-2-10-GHz-|intel-E7-4850]]                                    |  4                     |  16                   |  32                     |  128                       |  1500 Go  |  1To                       |  2*10Gb/s         |
-|  TODO star[199-195]  |  Dell R415  |  5                           |  X           |  0                     |  [[https://www.cpubenchmark.net/cpu.php?cpu=AMD+Opteron+6134&id=1566|amd-opteron-6134]]                         |  1                     |  8                    |  16                     |  16                       |  32 Go    |  1 To                      |                   |
+|  star242        |  Dell R730  |  1                           |  Tesla P100        |  1                     |  [[https://ark.intel.com/fr/products/92986/Intel-Xeon-Processor-E5-2620-v4-20M-Cache-2-10-GHz-|intel-E5-2620]]                                    |  2                     |  8                    |  16                     |  32                        |  128 Go   |  1 To                      |  2*10Gb/s         |
-|  TODO star[194-190]  |  Dell R415  |  5                           |  X           |  0                     |  [[https://www.cpubenchmark.net/cpu.php?cpu=AMD+Opteron+4184&id=278|amd-opteron-4184]]                          |  1                     |  6                    |  12                     |  12                       |  32 Go    |  1 To                      |  2*1Gb/s          |
+|  star[199-195]  |  Dell R415  |  5                           |  X                 |  0                     |  [[https://www.cpubenchmark.net/cpu.php?cpu=AMD+Opteron+6134&id=1566|amd-opteron-6134]]                                                           |  1                     |  8                    |  16                     |  16                        |  32 Go    |  1 To                      |  2*1Gb/s          |
+|  star[194-190]  |  Dell R415  |  5                           |  X                 |  0                     |  [[https://www.cpubenchmark.net/cpu.php?cpu=AMD+Opteron+4184&id=278|amd-opteron-4184]]                                                            |  1                     |  6                    |  12                     |  12                        |  32 Go    |  1 To                      |  2*1Gb/s          |
+|  star100        |  Dell T640  |  1                           |  RTX 2080 Ti       |  4                     |  [[https://ark.intel.com/content/www/fr/fr/ark/products/123540/intel-xeon-bronze-3106-processor-11m-cache-1-70-ghz.html|intel-xeon-bronze-3106]]  |  1                     |  8                    |  16                     |  16                        |  96 Go    |  X                         |  2*10 Gb/s        |
+|  star101        |  Dell R740  |  1                           |  Tesla V100 32 Go  |  3                     |  [[https://ark.intel.com/content/www/us/en/ark/products/193390/intel-xeon-silver-4208-processor-11m-cache-2-10-ghz.html|intel-xeon-server-4208]]  |  2                     |  8                    |  16                     |  32                        |  96 Go    |  X                         |  2*10 Gb/s        |
 ==== Architecture logicielle ====
@@ Ligne 65: / Ligne 70: @@
 Chacune de ces partitions contient des nœuds.
-Les nœuds de calcul fonctionnent avec un système d'exploitation debian testing. Vous pouvez trouvez la liste des logiciels installés dans la section [[leria:centre_de_calcul:cluster#listes_des_logiciels_installes_pour_le_calcul_haute_performance|listes des logiciels installés pour le calcul haute performance]].
+Les nœuds de calcul fonctionnent avec un système d'exploitation debian stable. Vous pouvez trouvez la liste des logiciels installés dans la section [[leria:centre_de_calcul:cluster#listes_des_logiciels_installes_pour_le_calcul_haute_performance|listes des logiciels installés pour le calcul haute performance]].
 ==== Politique d'utilisation ====
@@ Ligne 99: / Ligne 104: @@
 <note>Pour des raisons pratiques, nous nous loguons avec les mêmes identifiants que pour notre ENT. En cas de panne du serveur ldap de l'Université d'Angers, nos services devraient être tout de même disponibles pour tout usager qui s'est déjà logué au moins une fois sur ces mêmes services.</note>
+<note important>Pour une meilleure sécurité et pour éviter d'être banni après plusieurs mauvais mot de passe, je vous conseille d'utiliser une authentification par clé ssh:
+https://www.linode.com/docs/security/authentication/use-public-key-authentication-with-ssh/</note>
 ==== Slurm: premiers tests et documentation ====
@@ Ligne 236: / Ligne 243: @@
   user@stargate:~$ cat hello.out          # Affiche ce qu'aurait affiché la sortie standard en mode interactif (resp. hello.err pour la sortie d'erreur)
-Très souvent, on souhaite exécuter un seul et même programme pour un ensemble de fichier, dans ce cas, il y a 2 solutions à privilégier:
+Très souvent, on souhaite exécuter un seul et même programme pour un ensemble de fichier ou un ensemble de parametres, dans ce cas, il y a 2 solutions à privilégier:
-  * si les fichiers à traiter sont facilement indexable, on utilisera un array job (facile à utiliser).
+  * Utiliser un array job (facile à utiliser, **c'est la solution à privilégier**).
-  * sinon, on utilisera les steps job (plus complexe à mettre en œuvre).
+  * Utiliser les steps job (plus complexe à mettre en œuvre).
 ===== IMPORTANT: Disponibilité et politique de gestion des ressources =====
@@ Ligne 254: / Ligne 261: @@
 Il est tout a fait possible de surcharger ces valeurs par défaut avec les options --mem-per-cpu et --time. Toutefois,
-<note important>ATTENTION: vous ne devriez pas surévaluer les ressources de vos jobs. En effet, slurm fonctionne avec une notion de partage juste (fair share): si vous réservez des ressources, peu importe que vous les utilisiez ou non. Lors de vos prochaines soumissions, slurm considérera que vous aviez effectivement consommé ces ressources. Potentiellement, vous pourriez être considéré comme un utilisateur gourmand et être moins prioritaire que un utilisateur ayant correctement définit ses ressources pour la même quantité de travail effectué.
+<note important>ATTENTION:
+  * vous ne devriez pas surévaluer les ressources de vos jobs. En effet, slurm fonctionne avec une notion de partage juste (fair share): si vous réservez des ressources, peu importe que vous les utilisiez ou non. Lors de vos prochaines soumissions, slurm considérera que vous aviez effectivement consommé ces ressources. Potentiellement, vous pourriez être considéré comme un utilisateur gourmand et être moins prioritaire que un utilisateur ayant correctement définit ses ressources pour la même quantité de travail effectué.
+  * Si vous avez un grand nombre de job à faire, **vous devez utiliser la soumission par array job**.
+    * Si ces jobs ont de grandes durées d'exécutions (plus de 1 journée), **vous devez limiter le nombre d’exécution en parallèle afin de ne pas saturer le cluster**. Nous laissons la possibilité aux utilisateurs de fixer cette limite, mais en cas de problème de partage de ressources avec les autres utilisateurs, **nous supprimerons les jobs ne respectant pas ces conditions**.
 </note>
@@ Ligne 276: / Ligne 286: @@
 Voir aussi [[leria:centre_de_calcul:cluster#architecture_globale|architecture globale]].
-Le cluster de calcul utilise un pool de serveurs de stockages distribués [[https://www.beegfs.io/content/|beegfs]] . Ce stockage beegfs est indépendant des serveurs de calcul. Cette zone de stockage est accessible naturellement dans l’arborescence de n'importe quel nœud de calcul sous /home/$USER. Étant donné que ce stockage est distant, toute lecture/écriture dans votre home est dépendante du réseau. Notre stockage Beegfs et le réseau sous-jacent sont très performant, mais pour certains traitement lourd, vous gagneriez peut-être à vous servir des disques locaux des serveurs de calcul. Pour ce faire, vous pouvez utiliser le répertoire /local_working_directory des serveurs de calculs. Ce répertoire fonctionne de la même manière que /tmp à la différence que les données sont persistante en cas de redémarrage du serveur.
+  * Le cluster de calcul utilise un pool de serveurs de stockages distribués [[https://www.beegfs.io/content/|beegfs]] . Ce stockage beegfs est indépendant des serveurs de calcul. Cette zone de stockage est accessible naturellement dans l’arborescence de n'importe quel nœud de calcul sous /home/$USER. Étant donné que ce stockage est distant, toute lecture/écriture dans votre home est dépendante du réseau. Notre stockage Beegfs et le réseau sous-jacent sont très performant, mais pour certains traitement lourd, vous gagneriez peut-être à vous servir des disques locaux des serveurs de calcul. Pour ce faire, vous pouvez utiliser le répertoire /local_working_directory des serveurs de calculs. Ce répertoire fonctionne de la même manière que /tmp à la différence que les données sont persistante en cas de redémarrage du serveur.
+  * Si vous souhaitez créer des groupes, merci d'envoyer un email à technique.info [at] listes.univ-angers.fr avec le nom du groupe et les utilisateurs associés.
+  * Pour rappel, **par défaut**, les droits de votre home sont définis à 755, donc **tout le monde peut lire et exécuter vos données**.
 ===== Utilisation avancée =====
 ==== Array jobs ====
-Vous devriez commencer par lire la [[https://slurm.schedmd.com/job_array.html|documentation officielle]].
+Vous devriez commencer par lire la [[https://slurm.schedmd.com/job_array.html|documentation officielle]]. Cette [[http://scicomp.aalto.fi/triton/tut/array.html|page]] présente des cas d'utilisations intéressants.
-Si vous avez un grand nombre de fichier à traiter avec un seul exécutable, vous devez utiliser un [[https://slurm.schedmd.com/job_array.html|array job]].
+Si vous avez un grand nombre de fichier ou de parametres à traiter avec un seul exécutable, vous devez utiliser un [[https://slurm.schedmd.com/job_array.html|array job]].
 C'est facile à mettre en œuvre, il suffit de rajouter l'option --array à notre script batch:
-=== Exemple ===
+=== Test paramétriques ===
+Il est facile d'utiliser les array jobs pour faire des test paramétrique. C'est à dire, utiliser le même exécutable, éventuellement sur un même fichier, mais en faisant varier un paramètre en options de l’exécutable. Pour cela, si les paramètres sont contigus ou régulier, on utilisera un batch comme celui-ci:
 <code bash>
-#! /bin/bash
+#!/bin/bash
-# Options SBATCH :
+#SBATCH -J Job_parametre_régulier
+#SBATCH -N 1
+#SBATCH --ntasks-per-node=1
+#SBATCH -t 10:00:00
+#SBATCH --array=0-9
+#SBATCH -p intel-E5-2670
+#SBATCH -o %A-%a.out
+#SBATCH -e %A-%a.err
+#SBATCH --mail-type=end,fail
+#SBATCH --mail-user=username@univ-angers.fr
+/path/to/exec --optionParamExec $SLURM_ARRAY_TASK_ID
+</code>
-#SBATCH --job-name=name 	                  # Nom du Job
+L'options --array peut prendre des syntaxes particulières, pour des valeurs irrégulières ou pour des sauts de valeurs:
-#SBATCH --mail-type=END	                          # Notification par email de la
-#SBATCH --mail-user=username@univ-angers.fr	  # fin de l’exécution du job.
-#SBATCH --array=1-500%10	                  # 500 Jobs, 10 max en exécution
-# Traitement
+<code bash>
-/path/to/executable /path/to/rep_base_for_array_job/$SLURM_ARRAY_TASK_ID-fileName.txt
+# Valeurs irrégulières 0,3,7,11,35,359
+--array=0,3,7,11,35,359
+# Valeur séparé par des sauts de +2: 1, 3, 5 et 7
+--array=1-7:2
 </code>
+=== Job pour multiples instances ===
-Comme vous pouvez le voir, c'est la variable SLURM_ARRAY_TASK_ID qui nous permet de discriminer les fichiers à traiter. Le problème, c'est que nous n'avons pas forcément des fichiers à traiter qui soient nommé de manière à être traité de cette façon. 2 solutions s'offrent alors à vous:
+Il est courant de devoir exécuter un programme de nombreuses fois sur de nombreuses instances (benchmark).
-  * modifier le nom des fichiers en préfixant ceci par un numéro (simple et rapide)
+Soit l'arborescence suivante:
-  * utiliser les steps jobs (plus complexe, voir plus bas)
+<code>
+job_name
+├── error
+├── instances
+│   ├── bench1.txt
+│   ├── bench2.txt
+│   └── bench3.txt
+├── job_name_exec
+├── output
+└── submit_instances_dir.slurm
+</code>
+Il est facile d'utiliser un array job pour exécuter job_name_exec sur l'ensemble des fichiers à traiter dans le répertoire instances. Il suffit d'éxécuter la commande suivante:
+  mkdir error output 2>/dev/null || sbatch --job-name=$(basename $PWD) --array=0-$(($(ls -1 instances|wc -l)-1)) submit_instances_dir.slurm
-Normalement, l'ensemble de vos fichiers à exécuter se trouve dans un répertoire. Pour ne pas préfixer directement le nom des fichiers, vous pouvez préfixer simplement vos fichiers avec des liens physiques comme dans l'exemple ci-dessous:
+avec le batch submit_instances_dir.slurm suivant:
 <code bash>
 #!/bin/bash
-REP_BASE=/path/to/rep_base
-REP_BASE_FOR_ARRAY_JOB=/path/to/rep_base_for_array_job
-mkdir $REP_BASE_FOR_ARRAY_JOB
+#SBATCH --mail-type=END,FAIL
+#SBATCH --mail-user=YOUR-EMAIL
+#SBATCH -o output/%A-%a
+#SBATCH -e error/%A-%a
-NUM=1
+#INSTANCES IS ARRAY OF INSTANCE FILE
+INSTANCES=(instances/*)
-for file in $(ls $REP_BASE)
+./job_name_exec ${INSTANCES[$SLURM_ARRAY_TASK_ID]}
-do
+</code>
-  ln $REP_BASE/$file $REP_BASE_FOR_ARRAY_JOB/$NUM-$file
-  NUM=$(expr $NUM + 1)
-done
-exit 0
+=== Job pour multiples instances avec multiples exécutions (Seed number) ===
+Parfois il faut lancer plusieurs fois l'exécution sur une instance en modifiant la graine qui permet de générer des nombres aléatoire.
+Soit l'arborescence suivante:
+<code>
+job_name
+├── error
+├── instances
+│   ├── bench1.txt
+│   ├── bench2.txt
+│   └── bench3.txt
+├── job_name_exec
+├── output
+├── submit_instances_dir_with_seed.slurm
+└── submit.sh
 </code>
-==== Test paramétriques ====
+Il suffit d’exécuter la commande suivante:
-On voit bien qu'il est assez facile d'utiliser les array jobs pour faire également des test paramétrique. C'est à dire, utiliser le même exécutable, éventuellement sur un même fichier, mais en faisant varier un paramètre en options de l’exécutable. Pour cela, si les paramètres sont contigus ou régulier, on utilisera un batch comme celui-ci:
+  ./submit.sh
+avec le fichier submit.sh suivant (pensez à modifier la variable NB_SEED):
 <code bash>
 #!/bin/bash
-#SBATCH -J Job_parametre_régulier
-#SBATCH -N 1
+readonly NB_SEED=50
-#SBATCH --ntasks-per-node=1
-#SBATCH -t 10:00:00
+for instance in $(ls instances)
-#SBATCH --array=0-9
+do
-#SBATCH -p intel-E5-2670
+  sbatch --output output/${instance}_%A-%a --error error/${instance}_%A-%a --array 0-${NB_SEED} submit_instances_dir_with_seed.slurm instances/${instance}
-#SBATCH -o %A-%a.out
+done
-#SBATCH -e %A-%a.err
+exit 0
-#SBATCH --mail-type=end,fail
-#SBATCH --mail-user=username@univ-angers.fr
-/path/to/exec --optionParamExec $SLURM_ARRAY_TASK_ID
 </code>
-L'options --array peut prendre des syntaxes particulières, pour des valeurs irrégulières ou pour des sauts de valeurs:
+et le batch submit_instances_dir_with_seed.slurm suivant:
 <code bash>
-# Valeurs irrégulières 0,3,7,11,35,359
+#!/bin/bash
---array=0,3,7,11,35,359
+#SBATCH --mail-type=END,FAIL
+#SBATCH --mail-user=YOUR-EMAIL
-# Valeur séparé par des sauts de +2: 1, 3, 5 et 7
+echo "####### INSTANCE: ${1}"
---array=1-7:2
+echo "####### SEED NUMBER: ${SLURM_ARRAY_TASK_ID}"
+echo
+srun echo nomApplication ${1} ${SLURM_ARRAY_TASK_ID}
 </code>
-==== Dépendances entre job ====
+Avec cette méthode, la variable SLURM_ARRAY_TASK_ID contient la graine. Et vous soumettez autant de array job que ce qu'il y a d'instance dans le répertoire instance.
+Vous retrouvez facilement vos sortie qui sont nommées comme ceci:
+  output/nom_instance-ID_job-graine
+=== Dépendances entre job ===
 Vous pouvez déterminer des dépendances entre jobs via l'options --depend de sbatch:
-=== Exemple ===
+== Exemple ==
 <code bash>
@@ Ligne 467: / Ligne 531: @@
 Par défaut, il est impossible de se connecter en ssh directement sur les nœuds de calcul. Cependant, si c'est justifié, nous pouvons facilement faire des exceptions si celles ci sont temporaires. Dans ce cas, merci de faire une demande explicite à technique [at] info.univ-angers.fr
+Les utilisateurs ayant un accès en ssh doivent être abonnés à la liste calcul-hpc-leria-no-slurm-mode@listes.univ-angers.fr.
+Pour s'inscrire à cette liste de diffusion, il suffit d'envoyer un mail à sympa@listes.univ-angers.fr avec pour objet: subscribe calcul-hpc-leria-no-slurm-mode Nom Prénom
+__Règle par défaut:__ on ne lance pas un calcul sur un serveur sur lequel tourne déjà un calcul d'un autre utilisateur, **même si celui-ci n'utilise pas toute les ressources**.
+Exception pour les processus boinc. Ces processus se mettent en pause lorsque vous exécutez vos calculs.
+La commande htop vous permet de savoir qui calcule avec quelles ressources et depuis combien de temps.
+Si vous avez un doute, contactez l'utilisateur qui calcule directement par email ou via la liste calcul-hpc-leria-no-slurm-mode@listes.univ-angers.fr
 ==== Cuda ====
@@ Ligne 477: / Ligne 551: @@
 Ces nœuds sont pour l'instant hors des listes de soumissions de slurm (bien que la partition gpu existe déjà). Pour pouvoir vous en servir, merci d'en faire la demande explicite à technique [at] info.univ-angers.fr
-Listes des utilisateurs autorisés à se servir des nœuds gpu actuellement (en ssh):
-  * benoit.damota
-  * jean-michel.richer
-  * o.goudet
 ==== Nœud RAM ====
@@ Ligne 488: / Ligne 557: @@
 Ce nœud est accesible par soumissions via slurm (partition ram). Pour pouvoir vous en servir, merci d'en faire la demande explicite à technique [at] info.univ-angers.fr
-Listes des utilisateurs autorisés à se servir des nœuds ram actuellement (en ssh):
+==== Cplex ====
-  * benoit.damota (pour boinc)
-  * gilles.hunault (pour test)
-Listes des utilisateurs autorisés à se servir des nœuds ram actuellement (via slurm):
+Le Leria a une licence académique pour le logicielle Cplex.
-  * frederic.lardeux
-  * gilles.hunault
+Le chemin pour la bibliothèque Cplex est le chemin par défaut /opt/ibm/ILOG/CPLEX_Studio129 (version 12.9)
+==== Environnements conda (Python) ====
+La commande **conda activate <env_name>**, permettant d'activer un environnement conda n'est pas utilisable avec slurm. À la place, il faut utiliser au début du script de lancement :
+	source ./anaconda3/bin/activate <env_name>
+Il sera peut être également nécessaire de mettre à jour les variables d'environnement et d'initialiser conda sur le noeud de calcul :
+	source .bashrc
+	conda init bash
+L'environnement restera alors actif d'une exécution à une autre. Pour le désactiver, il faudra utiliser :
+	source ./anaconda3/bin/deactivate
 ===== FAQ =====
+  * Comment savoir quelles sont les ressources d'une partition, exemple avec la partition std:
+  user@stargate~# scontrol show Partition std
+  * Que signifie "Some of your processes may have been killed by the cgroup out-of-memory handler" ?
+Vous avez dépassé la limite de mémoire que vous avez fixé ou celle par défaut (paramètre --mem-per-cpu)
   * Comment obtenir un prompt shell interactif dans un nœud de calcul de votre partition par défaut ?
@@ Ligne 505: / Ligne 595: @@
   srun -n1 -N1 --mem-per-cpu=0 --pty --preserve-env --cpu-bind=no --mpi=none $SHELL
 </note>
   * Comment obtenir un prompt shell interactif dans un nœud de calcul spécifique ?
   user@stargate~# srun -w NODE_NAME -n1 -N1 --pty bash -i
   user@NODE_NAME~#
+  * Comment puis je citer les ressources du LERIA dans mes rédactions scientifiques ?
+Vous pouvez utiliser l'entrée misc de bibtex suivante pour citer le cluster de calcul dans vos publications:
+<code latex>
+@Misc{HPC_LERIA,
+    title = {High Performance Computing Cluster of LERIA},
+    year = {2018},
+    note = {slurm/debian cluster of 27 nodes(700 logical CPU, 2 nvidia GPU tesla k20m, 1 nvidia P100 GPU), 120TB of beegfs scratch storage}
+  }
+</code>
 ==== Erreur lors de la soumission de job ====
@@ Ligne 552: / Ligne 652: @@
   * libtool
   * libopenblas-base
+  * maven
   * nasm
+  * openjdk-8-jdk-headless
   * r-base
   * r-base-dev
@@ Ligne 570: / Ligne 672: @@
   * keras
   * scikit-learn
-  * tenserflow
+  * tensorflow
-  * tenserflow-gpu # Sur nœuds gpu
+  * tensorflow-gpu # Sur nœuds gpu
 ==== Nœuds GPU via apt-get ====
@@ Ligne 601: / Ligne 703: @@
 ==== Vue d'ensemble du cluster ====
-https://leria.univ-angers.fr/grafana/d/_0Bh3sxiz/vue-densemble-du-cluster
+https://grafana.leria.univ-angers.fr/d/_0Bh3sxiz/vue-densemble-du-cluster
 ==== Détails par nœuds ====
-https://leria.univ-angers.fr/grafana/d/000000007/noeuds-du-cluster
+https://grafana.leria.univ-angers.fr/d/000000007/noeuds-du-cluster
 <note>Vous pouvez sélectionner le nœud qui vous intéresse en utilisant le menu déroulant "HOST"</note>