leria:centre_de_calcul:cluster
Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédente | ||
leria:centre_de_calcul:cluster [07/10/2019 16:32] – [FAQ] Chantrein Jean-Mathieu | leria:centre_de_calcul:cluster [03/04/2025 09:33] (Version actuelle) – [Slurm: premiers tests et documentation] Chalain Jerome | ||
---|---|---|---|
Ligne 1: | Ligne 1: | ||
- | <note tip>you can see the translation of this page by clicking on the banner of your language at the top right of this page</ | + | ^ [[technique: |
+ | |||
+ | <note tip>You can see the translation of this page [[leria: | ||
Ligne 43: | Ligne 45: | ||
==== Architecture matérielle ==== | ==== Architecture matérielle ==== | ||
- | | Hostname | + | | Hostname |
- | | star[254-253] | + | | star[254-253] |
- | | star[246-252] | + | | star[246-252] |
- | | star[245-244] | + | | star[245-244] |
- | | star243 | + | | star243 |
- | | star242 | + | | |
- | | | + | | star[199-195] |
- | | | + | | star[194-190] |
+ | | star100 | ||
+ | | star101 | ||
==== Architecture logicielle ==== | ==== Architecture logicielle ==== | ||
Ligne 100: | Ligne 104: | ||
< | < | ||
+ | <note important> | ||
+ | https:// | ||
==== Slurm: premiers tests et documentation ==== | ==== Slurm: premiers tests et documentation ==== | ||
Ligne 166: | Ligne 172: | ||
=== Documentation === | === Documentation === | ||
- | |||
- | Pour aller plus loin, vous pouvez regardez cette série de vidéo de présentation et d' | ||
- | |||
- | < | ||
- | < | ||
- | <iframe width=" | ||
- | </ | ||
- | </ | ||
Vous trouverez [[https:// | Vous trouverez [[https:// | ||
Ligne 255: | Ligne 253: | ||
Il est tout a fait possible de surcharger ces valeurs par défaut avec les options --mem-per-cpu et --time. Toutefois, | Il est tout a fait possible de surcharger ces valeurs par défaut avec les options --mem-per-cpu et --time. Toutefois, | ||
- | <note important> | + | <note important> |
+ | * vous ne devriez pas surévaluer les ressources de vos jobs. En effet, slurm fonctionne avec une notion de partage juste (fair share): si vous réservez des ressources, peu importe que vous les utilisiez ou non. Lors de vos prochaines soumissions, | ||
+ | * Si vous avez un grand nombre de job à faire, **vous devez utiliser la soumission par array job**. | ||
+ | * Si ces jobs ont de grandes durées d' | ||
</ | </ | ||
Ligne 522: | Ligne 523: | ||
Par défaut, il est impossible de se connecter en ssh directement sur les nœuds de calcul. Cependant, si c'est justifié, nous pouvons facilement faire des exceptions si celles ci sont temporaires. Dans ce cas, merci de faire une demande explicite à technique [at] info.univ-angers.fr | Par défaut, il est impossible de se connecter en ssh directement sur les nœuds de calcul. Cependant, si c'est justifié, nous pouvons facilement faire des exceptions si celles ci sont temporaires. Dans ce cas, merci de faire une demande explicite à technique [at] info.univ-angers.fr | ||
+ | |||
+ | Les utilisateurs ayant un accès en ssh doivent être abonnés à la liste calcul-hpc-leria-no-slurm-mode@listes.univ-angers.fr. | ||
+ | Pour s' | ||
+ | |||
+ | __Règle par défaut:__ on ne lance pas un calcul sur un serveur sur lequel tourne déjà un calcul d'un autre utilisateur, | ||
+ | Exception pour les processus boinc. Ces processus se mettent en pause lorsque vous exécutez vos calculs. | ||
+ | |||
+ | La commande htop vous permet de savoir qui calcule avec quelles ressources et depuis combien de temps. | ||
+ | |||
+ | Si vous avez un doute, contactez l' | ||
==== Cuda ==== | ==== Cuda ==== | ||
Ligne 532: | Ligne 543: | ||
Ces nœuds sont pour l' | Ces nœuds sont pour l' | ||
- | |||
- | Listes des utilisateurs autorisés à se servir des nœuds gpu actuellement (en ssh): | ||
- | * benoit.damota | ||
- | * jean-michel.richer | ||
- | * o.goudet | ||
==== Nœud RAM ==== | ==== Nœud RAM ==== | ||
Ligne 542: | Ligne 548: | ||
Ce nœud est accesible par soumissions via slurm (partition ram). Pour pouvoir vous en servir, merci d'en faire la demande explicite à technique [at] info.univ-angers.fr | Ce nœud est accesible par soumissions via slurm (partition ram). Pour pouvoir vous en servir, merci d'en faire la demande explicite à technique [at] info.univ-angers.fr | ||
- | |||
- | Listes des utilisateurs autorisés à se servir des nœuds ram actuellement (en ssh): | ||
- | * benoit.damota (pour boinc) | ||
- | * gilles.hunault (pour test) | ||
- | |||
- | Listes des utilisateurs autorisés à se servir des nœuds ram actuellement (via slurm): | ||
- | * frederic.lardeux | ||
- | * gilles.hunault | ||
==== Cplex ==== | ==== Cplex ==== | ||
Ligne 556: | Ligne 554: | ||
Le chemin pour la bibliothèque Cplex est le chemin par défaut / | Le chemin pour la bibliothèque Cplex est le chemin par défaut / | ||
+ | |||
+ | |||
+ | ==== Environnements conda (Python) ==== | ||
+ | |||
+ | La commande **conda activate < | ||
+ | |||
+ | source ./ | ||
+ | |||
+ | Il sera peut être également nécessaire de mettre à jour les variables d' | ||
+ | |||
+ | source .bashrc | ||
+ | conda init bash | ||
+ | |||
+ | L' | ||
+ | |||
+ | source ./ | ||
===== FAQ ===== | ===== FAQ ===== | ||
Ligne 562: | Ligne 576: | ||
user@stargate~# | user@stargate~# | ||
- | * Que signifie "slurmstepd: error: get_exit_code task 0 died by signal: 15" ? | + | * Que signifie "Some of your processes may have been killed |
- | Vous avez certainement | + | Vous avez dépassé |
* Comment obtenir un prompt shell interactif dans un nœud de calcul de votre partition par défaut ? | * Comment obtenir un prompt shell interactif dans un nœud de calcul de votre partition par défaut ? | ||
Ligne 650: | Ligne 664: | ||
* keras | * keras | ||
* scikit-learn | * scikit-learn | ||
- | * tenserflow | + | * tensorflow |
- | * tenserflow-gpu # Sur nœuds gpu | + | * tensorflow-gpu # Sur nœuds gpu |
==== Nœuds GPU via apt-get ==== | ==== Nœuds GPU via apt-get ==== | ||
Ligne 673: | Ligne 687: | ||
* Faire vous même l' | * Faire vous même l' | ||
* Faire vous même l' | * Faire vous même l' | ||
- | * Utiliser docker ou singularity (TODO: pas encore disponible) | + | |
===== Visualiser la charge du cluster de calcul haute performance ===== | ===== Visualiser la charge du cluster de calcul haute performance ===== |
leria/centre_de_calcul/cluster.1570465963.txt.gz · Dernière modification : 07/10/2019 16:32 de Chantrein Jean-Mathieu