Outils pour utilisateurs

Outils du site


leria:centre_de_calcul:cluster

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
leria:centre_de_calcul:cluster [07/10/2019 16:32] – [FAQ] Chantrein Jean-Mathieuleria:centre_de_calcul:cluster [01/04/2026 13:55] (Version actuelle) – [Connexion à stargate] Langlais Victoire
Ligne 1: Ligne 1:
-<note tip>you can see the translation of this page by clicking on the banner of your language at the top right of this page</note>+^  [[technique:accueil#mots_cles|Mots clés]] | {{tag> "cluster de calcul" hpc stargate}} 
 + 
 +<note tip>You can see the translation of this page [[leria:centre_de_calcul:cluster_english_version|here]].</note>
  
  
Ligne 43: Ligne 45:
 ==== Architecture matérielle ==== ==== Architecture matérielle ====
  
-|  Hostname            |  Modèle      Nombre de modèle identique  |  GPU         |  Nombre de GPU/modèle  |  CPU                                                                                                            |  Nombre de CPU/modèle  |  Nombre de cœurs/CPU  |  Nombre de threads/CPU  | Nombre de threads/modèle  |  RAM      |  Espace de stockage local  |  Interconnection +|  Hostname            |  Modèle      Nombre de modèle identique  |  GPU               |  Nombre de GPU/modèle  |  CPU                                                                                                                                              |  Nombre de CPU/modèle  |  Nombre de cœurs/CPU  |  Nombre de threads/CPU  Nombre de threads/modèle  |  RAM      |  Espace de stockage local  |  Interconnection 
-|  star[254-253]        Dell R720  |  2                            Tesla K20m  |  2                      [[https://ark.intel.com/fr/products/75275/Intel-Xeon-Processor-E5-2670-v2-25M-Cache-2-50-GHz-|intel-E5-2670]]  |  2                      10                    20                      40                       |  64 Go    |  1To                        2*10Gb/        | +|  star[254-253]        Dell R720  |  2                            Tesla K20m        |  2                      [[https://ark.intel.com/fr/products/75275/Intel-Xeon-Processor-E5-2670-v2-25M-Cache-2-50-GHz-|intel-E5-2670]]                                    |  2                      10                    20                      40                        |  64 Go    |  1To                        2*10Gb/        | 
-|  star[246-252]        Dell R620  |  7                                     |  0                      [[https://ark.intel.com/fr/products/75275/Intel-Xeon-Processor-E5-2670-v2-25M-Cache-2-50-GHz-|intel-E5-2670]]  |  2                      10                    20                      40                       |  64 Go    |  1 To                      |  2*10Gb/        | +|  star[246-252]        Dell R620  |  7                                           |  0                      [[https://ark.intel.com/fr/products/75275/Intel-Xeon-Processor-E5-2670-v2-25M-Cache-2-50-GHz-|intel-E5-2670]]                                    |  2                      10                    20                      40                        |  64 Go    |  1 To                      |  2*10Gb/        | 
-|  star[245-244]        Dell R630  |  2                                     |  0                      [[https://ark.intel.com/fr/products/91316/Intel-Xeon-Processor-E5-2695-v4-45M-Cache-2-10-GHz-|intel-E5-2695]]  |  2                      18                    36                      72                       |  128 Go   |  TODO                      |  2*10Gb/        | +|  star[245-244]        Dell R630  |  2                                           |  0                      [[https://ark.intel.com/fr/products/91316/Intel-Xeon-Processor-E5-2695-v4-45M-Cache-2-10-GHz-|intel-E5-2695]]                                    |  2                      18                    36                      72                        |  128 Go   |  X                         |  2*10Gb/        | 
-|  star243              Dell R930  |  1                                     |  0                      [[https://ark.intel.com/fr/products/93806/Intel-Xeon-Processor-E7-4850-v4-40M-Cache-2-10-GHz-|intel-E7-4850]]  |  4                      16                    32                      128                      |  1500 Go  |  1To                        2*10Gb/        | +|  star243              Dell R930  |  1                                           |  0                      [[https://ark.intel.com/fr/products/93806/Intel-Xeon-Processor-E7-4850-v4-40M-Cache-2-10-GHz-|intel-E7-4850]]                                    |  4                      16                    32                      128                       |  1500 Go  |  1To                        2*10Gb/        | 
-|  star242             |  Dell R730  |  1                            Tesla P100  |  1                      [[https://ark.intel.com/fr/products/92986/Intel-Xeon-Processor-E5-2620-v4-20M-Cache-2-10-GHz-|intel-E5-2620]]  |  2                      8                    |  16                      32                       |  128 Go    1 To                      |  2*10Gb/        | +|  <del>star242</del>  |  Dell R730  |  1                            Tesla P100        |  1                      [[https://ark.intel.com/fr/products/92986/Intel-Xeon-Processor-E5-2620-v4-20M-Cache-2-10-GHz-|intel-E5-2620]]                                    |  2                      8                    |  16                      32                        |  128 Go    1 To                      |  2*10Gb/        | 
-|  TODO star[199-195]  |  Dell R415  |  5                                     |  0                      [[https://www.cpubenchmark.net/cpu.php?cpu=AMD+Opteron+6134&id=1566|amd-opteron-6134]]                         |  1                      8                    |  16                      16                       |  32 Go    |  1 To                      |  2*1Gb/         | +|  star[199-195]       |  Dell R415  |  5                                           |  0                      [[https://www.cpubenchmark.net/cpu.php?cpu=AMD+Opteron+6134&id=1566|amd-opteron-6134]]                                                           |  1                      8                    |  16                      16                        |  32 Go    |  1 To                      |  2*1Gb/         | 
-|  TODO star[194-190]  |  Dell R415  |  5                                     |  0                      [[https://www.cpubenchmark.net/cpu.php?cpu=AMD+Opteron+4184&id=278|amd-opteron-4184]]                          |  1                      6                    |  12                      12                       |  32 Go    |  1 To                      |  2*1Gb/         |+|  star[194-190]       |  Dell R415  |  5                                           |  0                      [[https://www.cpubenchmark.net/cpu.php?cpu=AMD+Opteron+4184&id=278|amd-opteron-4184]]                                                            |  1                      6                    |  12                      12                        |  32 Go    |  1 To                      |  2*1Gb/         
 +|  star100              Dell T640  |  1                            RTX 2080 Ti        4                      [[https://ark.intel.com/content/www/fr/fr/ark/products/123540/intel-xeon-bronze-3106-processor-11m-cache-1-70-ghz.html|intel-xeon-bronze-3106]]  |  1                      8                    |  16                      16                        |  96 Go    |  X                          2*10 Gb/s        | 
 +|  star101              Dell R740  |  1                            Tesla V100 32 Go  |  3                      [[https://ark.intel.com/content/www/us/en/ark/products/193390/intel-xeon-silver-4208-processor-11m-cache-2-10-ghz.html|intel-xeon-server-4208]]  |  2                      8                    |  16                      32                        |  96 Go    |  X                          2*10 Gb/s        |
 ==== Architecture logicielle ==== ==== Architecture logicielle ====
  
-L'architecture logicielle de soumissions de taches s’appuie sur l'outil //Slurm//.+L'architecture logicielle de soumissions de tâches s’appuie sur l'outil //Slurm//.
 Slurm est un système de planification et de gestion de grappes open source, tolérant aux pannes et extrêmement évolutif, conçu pour les clusters Linux. Slurm est un système de planification et de gestion de grappes open source, tolérant aux pannes et extrêmement évolutif, conçu pour les clusters Linux.
 Au sens de Slurm, les nœuds (serveurs) de calculs sont nommés //nodes//, et ces nœuds sont regroupés en famille appelée //partition// (qui n'ont rien à voir avec la notion de partition qui segmente un périphérique de stockage de masse) Au sens de Slurm, les nœuds (serveurs) de calculs sont nommés //nodes//, et ces nœuds sont regroupés en famille appelée //partition// (qui n'ont rien à voir avec la notion de partition qui segmente un périphérique de stockage de masse)
Ligne 73: Ligne 77:
 Un cluster de calcul haute performance doit permettre aux utilisateurs d’utiliser un grand espace de stockage lors des calculs. Par conséquent, l’utilisation du stockage doit être ** temporaire **. Une fois vos calculs effectués, il vous incombe de: Un cluster de calcul haute performance doit permettre aux utilisateurs d’utiliser un grand espace de stockage lors des calculs. Par conséquent, l’utilisation du stockage doit être ** temporaire **. Une fois vos calculs effectués, il vous incombe de:
   * ** compresser ** vos données importantes   * ** compresser ** vos données importantes
-  * ** déplacer ** vos données compressées importante vers un autre espace de stockage +  * ** déplacer ** vos données compressées importantes vers un autre espace de stockage 
-  * ** sauvegarder ** vos données compressées importante +  * ** sauvegarder ** vos données compressées importantes 
-  * ** supprimer ** les données inutile et inutilisées +  * ** supprimer ** les données inutiles et inutilisées 
-  * Vous nom de fichiers et de répertoires ne doivent pas contenir :+  * Vos nom de fichiers et de répertoires ne doivent pas contenir :
     * d'espace     * d'espace
     * de caractères accentuées (é,è,â, ...)     * de caractères accentuées (é,è,â, ...)
Ligne 87: Ligne 91:
  
  
-De plus, afin d’éviter les utilisations qui pourraient affecter d’autres utilisateurs, un quota de 50 Go est appliqué sur votre répertoire personnelle (home). Les utilisateurs nécessitant plus d'espace doivent en faire la demande explicite à technique [at] info.univ-angers.fr . Vous pouvez également demander un accès à un stockage de grande capacité pour une durée limité: toutes les données présentes depuis plus de 40 jours dans ce stockage __sont automatiquement supprimées sans possibilité de récupération __ .+De plus, afin d’éviter les utilisations qui pourraient affecter d’autres utilisateurs, un quota de 50 Go est appliqué sur votre répertoire personnel (home). Les utilisateurs nécessitant plus d'espace doivent en faire la demande explicite à technique.info [at] listes.univ-angers.fr . Vous pouvez également demander un accès à un stockage de grande capacité pour une durée limitée: toutes les données présentes depuis plus de 40 jours dans ce stockage __sont automatiquement supprimées sans possibilité de récupération __ .
 </note> </note>
  
Ligne 96: Ligne 100:
 ==== Connexion à stargate ==== ==== Connexion à stargate ====
  
-Veuillez effectuer une demande à technique [at] info.univ-angers.fr pour obtenir les informations de connexion au cluster.+Veuillez effectuer une demande à technique.info [at] listes.univ-angers.fr pour obtenir les informations de connexion au cluster.
  
 <note>Pour des raisons pratiques, nous nous loguons avec les mêmes identifiants que pour notre ENT. En cas de panne du serveur ldap de l'Université d'Angers, nos services devraient être tout de même disponibles pour tout usager qui s'est déjà logué au moins une fois sur ces mêmes services.</note> <note>Pour des raisons pratiques, nous nous loguons avec les mêmes identifiants que pour notre ENT. En cas de panne du serveur ldap de l'Université d'Angers, nos services devraient être tout de même disponibles pour tout usager qui s'est déjà logué au moins une fois sur ces mêmes services.</note>
  
 +<note important>Pour une meilleure sécurité et pour éviter d'être banni après plusieurs mauvais mot de passe, je vous conseille d'utiliser une authentification par clé ssh:
  
 +https://www.linode.com/docs/security/authentication/use-public-key-authentication-with-ssh/</note>
 ==== Slurm: premiers tests et documentation ==== ==== Slurm: premiers tests et documentation ====
  
Ligne 166: Ligne 172:
  
 === Documentation === === Documentation ===
- 
-Pour aller plus loin, vous pouvez regardez cette série de vidéo de présentation et d'introduction à slurm (en 8 parties): 
- 
-<html> 
-<center> 
-<iframe width="500" height="281" src="https://www.youtube.com/embed/NH_Fb7X6Db0?list=PLZfwi0jHMBxB-Bd0u1lTT5r0C3RHUPLj-" frameborder="0" allow="autoplay; encrypted-media" allowfullscreen></iframe> 
-</center> 
-</html> 
  
 Vous trouverez [[https://slurm.schedmd.com/documentation.html|ici]] la documentation officielle de slurm. Vous trouverez [[https://slurm.schedmd.com/documentation.html|ici]] la documentation officielle de slurm.
Ligne 255: Ligne 253:
 Il est tout a fait possible de surcharger ces valeurs par défaut avec les options --mem-per-cpu et --time. Toutefois,  Il est tout a fait possible de surcharger ces valeurs par défaut avec les options --mem-per-cpu et --time. Toutefois, 
  
-<note important>ATTENTION: vous ne devriez pas surévaluer les ressources de vos jobs. En effet, slurm fonctionne avec une notion de partage juste (fair share): si vous réservez des ressources, peu importe que vous les utilisiez ou non. Lors de vos prochaines soumissions, slurm considérera que vous aviez effectivement consommé ces ressources. Potentiellement, vous pourriez être considéré comme un utilisateur gourmand et être moins prioritaire que un utilisateur ayant correctement définit ses ressources pour la même quantité de travail effectué.+<note important>ATTENTION:  
 +  * vous ne devriez pas surévaluer les ressources de vos jobs. En effet, slurm fonctionne avec une notion de partage juste (fair share): si vous réservez des ressources, peu importe que vous les utilisiez ou non. Lors de vos prochaines soumissions, slurm considérera que vous aviez effectivement consommé ces ressources. Potentiellement, vous pourriez être considéré comme un utilisateur gourmand et être moins prioritaire que un utilisateur ayant correctement définit ses ressources pour la même quantité de travail effectué
 +  * Si vous avez un grand nombre de job à faire, **vous devez utiliser la soumission par array job**. 
 +    * Si ces jobs ont de grandes durées d'exécutions (plus de 1 journée), **vous devez limiter le nombre d’exécution en parallèle afin de ne pas saturer le cluster**. Nous laissons la possibilité aux utilisateurs de fixer cette limite, mais en cas de problème de partage de ressources avec les autres utilisateurs, **nous supprimerons les jobs ne respectant pas ces conditions**.
 </note> </note>
  
Ligne 522: Ligne 523:
  
 Par défaut, il est impossible de se connecter en ssh directement sur les nœuds de calcul. Cependant, si c'est justifié, nous pouvons facilement faire des exceptions si celles ci sont temporaires. Dans ce cas, merci de faire une demande explicite à technique [at] info.univ-angers.fr Par défaut, il est impossible de se connecter en ssh directement sur les nœuds de calcul. Cependant, si c'est justifié, nous pouvons facilement faire des exceptions si celles ci sont temporaires. Dans ce cas, merci de faire une demande explicite à technique [at] info.univ-angers.fr
 +
 +Les utilisateurs ayant un accès en ssh doivent être abonnés à la liste calcul-hpc-leria-no-slurm-mode@listes.univ-angers.fr.
 +Pour s'inscrire à cette liste de diffusion, il suffit d'envoyer un mail à sympa@listes.univ-angers.fr avec pour objet: subscribe calcul-hpc-leria-no-slurm-mode Nom Prénom
 +
 +__Règle par défaut:__ on ne lance pas un calcul sur un serveur sur lequel tourne déjà un calcul d'un autre utilisateur, **même si celui-ci n'utilise pas toute les ressources**.
 +Exception pour les processus boinc. Ces processus se mettent en pause lorsque vous exécutez vos calculs.
 +
 +La commande htop vous permet de savoir qui calcule avec quelles ressources et depuis combien de temps.
 +
 +Si vous avez un doute, contactez l'utilisateur qui calcule directement par email ou via la liste calcul-hpc-leria-no-slurm-mode@listes.univ-angers.fr
  
 ==== Cuda ==== ==== Cuda ====
Ligne 532: Ligne 543:
  
 Ces nœuds sont pour l'instant hors des listes de soumissions de slurm (bien que la partition gpu existe déjà). Pour pouvoir vous en servir, merci d'en faire la demande explicite à technique [at] info.univ-angers.fr Ces nœuds sont pour l'instant hors des listes de soumissions de slurm (bien que la partition gpu existe déjà). Pour pouvoir vous en servir, merci d'en faire la demande explicite à technique [at] info.univ-angers.fr
- 
-Listes des utilisateurs autorisés à se servir des nœuds gpu actuellement (en ssh): 
-  * benoit.damota 
-  * jean-michel.richer 
-  * o.goudet 
  
 ==== Nœud RAM ==== ==== Nœud RAM ====
Ligne 542: Ligne 548:
  
 Ce nœud est accesible par soumissions via slurm (partition ram). Pour pouvoir vous en servir, merci d'en faire la demande explicite à technique [at] info.univ-angers.fr Ce nœud est accesible par soumissions via slurm (partition ram). Pour pouvoir vous en servir, merci d'en faire la demande explicite à technique [at] info.univ-angers.fr
- 
-Listes des utilisateurs autorisés à se servir des nœuds ram actuellement (en ssh): 
-  * benoit.damota (pour boinc) 
-  * gilles.hunault (pour test) 
- 
-Listes des utilisateurs autorisés à se servir des nœuds ram actuellement (via slurm): 
-  * frederic.lardeux 
-  * gilles.hunault 
  
 ==== Cplex ==== ==== Cplex ====
Ligne 556: Ligne 554:
  
 Le chemin pour la bibliothèque Cplex est le chemin par défaut /opt/ibm/ILOG/CPLEX_Studio129 (version 12.9) Le chemin pour la bibliothèque Cplex est le chemin par défaut /opt/ibm/ILOG/CPLEX_Studio129 (version 12.9)
 +
 +
 +==== Environnements conda (Python) ====
 +
 +La commande **conda activate <env_name>**, permettant d'activer un environnement conda n'est pas utilisable avec slurm. À la place, il faut utiliser au début du script de lancement :
 +
 + source ./anaconda3/bin/activate <env_name>
 +
 +Il sera peut être également nécessaire de mettre à jour les variables d'environnement et d'initialiser conda sur le noeud de calcul :
 +
 + source .bashrc
 + conda init bash
 +
 +L'environnement restera alors actif d'une exécution à une autre. Pour le désactiver, il faudra utiliser :
 +
 + source ./anaconda3/bin/deactivate
 ===== FAQ ===== ===== FAQ =====
  
Ligne 562: Ligne 576:
   user@stargate~# scontrol show Partition std   user@stargate~# scontrol show Partition std
    
-  * Que signifie "slurmstepd: error: get_exit_code task 0 died by signal: 15" ?+  * Que signifie "Some of your processes may have been killed by the cgroup out-of-memory handler" ?
  
-Vous avez certainement dépassé les limites fixés (temps, mémoires, ...)+Vous avez dépassé la limite de mémoire que vous avez fixé ou celle par défaut (paramètre --mem-per-cpu)
  
   * Comment obtenir un prompt shell interactif dans un nœud de calcul de votre partition par défaut ?   * Comment obtenir un prompt shell interactif dans un nœud de calcul de votre partition par défaut ?
Ligne 650: Ligne 664:
   * keras   * keras
   * scikit-learn   * scikit-learn
-  * tenserflow +  * tensorflow 
-  * tenserflow-gpu # Sur nœuds gpu+  * tensorflow-gpu # Sur nœuds gpu
  
 ==== Nœuds GPU via apt-get ==== ==== Nœuds GPU via apt-get ====
Ligne 673: Ligne 687:
   * Faire vous même l'installation via conda: [[https://www.anaconda.com/download/#linux|téléchargement]] et [[https://conda.io/docs/user-guide/install/linux.html|installation]]   * Faire vous même l'installation via conda: [[https://www.anaconda.com/download/#linux|téléchargement]] et [[https://conda.io/docs/user-guide/install/linux.html|installation]]
   * Faire vous même l'installation en compilant les sources dans votre home_directory   * Faire vous même l'installation en compilant les sources dans votre home_directory
-  * Utiliser docker ou singularity (TODO: pas encore disponible)+
  
 ===== Visualiser la charge du cluster de calcul haute performance ===== ===== Visualiser la charge du cluster de calcul haute performance =====
Ligne 681: Ligne 695:
 ==== Vue d'ensemble du cluster ==== ==== Vue d'ensemble du cluster ====
  
-https://grafana.leria.univ-angers.fr/d/_0Bh3sxiz/vue-densemble-du-cluster+https://grafana.leria.univ-angers.fr/d/_0Bh3sxiz/vue-densemble-du-cluster <todo>dashboard à remettre en place?</todo>
  
 ==== Détails par nœuds ==== ==== Détails par nœuds ====
leria/centre_de_calcul/cluster.1570465963.txt.gz · Dernière modification : de Chantrein Jean-Mathieu