Outils pour utilisateurs

Outils du site


leria:centre_de_calcul:cluster

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
leria:centre_de_calcul:cluster [23/06/2020 10:35] – [Accès ssh des noeuds de calcul] Chantrein Jean-Mathieuleria:centre_de_calcul:cluster [06/06/2023 17:00] (Version actuelle) – [Tableau] Chantrein Jean-Mathieu
Ligne 1: Ligne 1:
-<note tip>you can see the translation of this page by clicking on the banner of your language at the top right of this page</note>+^  [[technique:accueil#mots_cles|Mots clés]] | {{tag> "cluster de calcul" hpc stargate}} 
 + 
 +<note tip>You can see the translation of this page [[leria:centre_de_calcul:cluster_english_version|here]].</note>
  
  
Ligne 43: Ligne 45:
 ==== Architecture matérielle ==== ==== Architecture matérielle ====
  
-|  Hostname            |  Modèle      Nombre de modèle identique  |  GPU         |  Nombre de GPU/modèle  |  CPU                                                                                                            |  Nombre de CPU/modèle  |  Nombre de cœurs/CPU  |  Nombre de threads/CPU  | Nombre de threads/modèle  |  RAM      |  Espace de stockage local  |  Interconnection +|  Hostname            |  Modèle      Nombre de modèle identique  |  GPU               |  Nombre de GPU/modèle  |  CPU                                                                                                                                              |  Nombre de CPU/modèle  |  Nombre de cœurs/CPU  |  Nombre de threads/CPU  Nombre de threads/modèle  |  RAM      |  Espace de stockage local  |  Interconnection 
-|  star[254-253]        Dell R720  |  2                            Tesla K20m  |  2                      [[https://ark.intel.com/fr/products/75275/Intel-Xeon-Processor-E5-2670-v2-25M-Cache-2-50-GHz-|intel-E5-2670]]  |  2                      10                    20                      40                       |  64 Go    |  1To                        2*10Gb/        | +|  star[254-253]        Dell R720  |  2                            Tesla K20m        |  2                      [[https://ark.intel.com/fr/products/75275/Intel-Xeon-Processor-E5-2670-v2-25M-Cache-2-50-GHz-|intel-E5-2670]]                                    |  2                      10                    20                      40                        |  64 Go    |  1To                        2*10Gb/        | 
-|  star[246-252]        Dell R620  |  7                                     |  0                      [[https://ark.intel.com/fr/products/75275/Intel-Xeon-Processor-E5-2670-v2-25M-Cache-2-50-GHz-|intel-E5-2670]]  |  2                      10                    20                      40                       |  64 Go    |  1 To                      |  2*10Gb/        | +|  star[246-252]        Dell R620  |  7                                           |  0                      [[https://ark.intel.com/fr/products/75275/Intel-Xeon-Processor-E5-2670-v2-25M-Cache-2-50-GHz-|intel-E5-2670]]                                    |  2                      10                    20                      40                        |  64 Go    |  1 To                      |  2*10Gb/        | 
-|  star[245-244]        Dell R630  |  2                                     |  0                      [[https://ark.intel.com/fr/products/91316/Intel-Xeon-Processor-E5-2695-v4-45M-Cache-2-10-GHz-|intel-E5-2695]]  |  2                      18                    36                      72                       |  128 Go   |  TODO                      |  2*10Gb/        | +|  star[245-244]        Dell R630  |  2                                           |  0                      [[https://ark.intel.com/fr/products/91316/Intel-Xeon-Processor-E5-2695-v4-45M-Cache-2-10-GHz-|intel-E5-2695]]                                    |  2                      18                    36                      72                        |  128 Go   |  X                         |  2*10Gb/        | 
-|  star243              Dell R930  |  1                                     |  0                      [[https://ark.intel.com/fr/products/93806/Intel-Xeon-Processor-E7-4850-v4-40M-Cache-2-10-GHz-|intel-E7-4850]]  |  4                      16                    32                      128                      |  1500 Go  |  1To                        2*10Gb/        | +|  star243              Dell R930  |  1                                           |  0                      [[https://ark.intel.com/fr/products/93806/Intel-Xeon-Processor-E7-4850-v4-40M-Cache-2-10-GHz-|intel-E7-4850]]                                    |  4                      16                    32                      128                       |  1500 Go  |  1To                        2*10Gb/        | 
-|  star242             |  Dell R730  |  1                            Tesla P100  |  1                      [[https://ark.intel.com/fr/products/92986/Intel-Xeon-Processor-E5-2620-v4-20M-Cache-2-10-GHz-|intel-E5-2620]]  |  2                      8                    |  16                      32                       |  128 Go    1 To                      |  2*10Gb/        | +|  <del>star242</del>  |  Dell R730  |  1                            Tesla P100        |  1                      [[https://ark.intel.com/fr/products/92986/Intel-Xeon-Processor-E5-2620-v4-20M-Cache-2-10-GHz-|intel-E5-2620]]                                    |  2                      8                    |  16                      32                        |  128 Go    1 To                      |  2*10Gb/        | 
-|  TODO star[199-195]  |  Dell R415  |  5                                     |  0                      [[https://www.cpubenchmark.net/cpu.php?cpu=AMD+Opteron+6134&id=1566|amd-opteron-6134]]                         |  1                      8                    |  16                      16                       |  32 Go    |  1 To                      |  2*1Gb/         | +|  star[199-195]       |  Dell R415  |  5                                           |  0                      [[https://www.cpubenchmark.net/cpu.php?cpu=AMD+Opteron+6134&id=1566|amd-opteron-6134]]                                                           |  1                      8                    |  16                      16                        |  32 Go    |  1 To                      |  2*1Gb/         | 
-|  TODO star[194-190]  |  Dell R415  |  5                                     |  0                      [[https://www.cpubenchmark.net/cpu.php?cpu=AMD+Opteron+4184&id=278|amd-opteron-4184]]                          |  1                      6                    |  12                      12                       |  32 Go    |  1 To                      |  2*1Gb/         |+|  star[194-190]       |  Dell R415  |  5                                           |  0                      [[https://www.cpubenchmark.net/cpu.php?cpu=AMD+Opteron+4184&id=278|amd-opteron-4184]]                                                            |  1                      6                    |  12                      12                        |  32 Go    |  1 To                      |  2*1Gb/         
 +|  star100              Dell T640  |  1                            RTX 2080 Ti        4                      [[https://ark.intel.com/content/www/fr/fr/ark/products/123540/intel-xeon-bronze-3106-processor-11m-cache-1-70-ghz.html|intel-xeon-bronze-3106]]  |  1                      8                    |  16                      16                        |  96 Go    |  X                          2*10 Gb/s        | 
 +|  star101              Dell R740  |  1                            Tesla V100 32 Go  |  3                      [[https://ark.intel.com/content/www/us/en/ark/products/193390/intel-xeon-silver-4208-processor-11m-cache-2-10-ghz.html|intel-xeon-server-4208]]  |  2                      8                    |  16                      32                        |  96 Go    |  X                          2*10 Gb/s        |
 ==== Architecture logicielle ==== ==== Architecture logicielle ====
  
Ligne 257: Ligne 261:
 Il est tout a fait possible de surcharger ces valeurs par défaut avec les options --mem-per-cpu et --time. Toutefois,  Il est tout a fait possible de surcharger ces valeurs par défaut avec les options --mem-per-cpu et --time. Toutefois, 
  
-<note important>ATTENTION: vous ne devriez pas surévaluer les ressources de vos jobs. En effet, slurm fonctionne avec une notion de partage juste (fair share): si vous réservez des ressources, peu importe que vous les utilisiez ou non. Lors de vos prochaines soumissions, slurm considérera que vous aviez effectivement consommé ces ressources. Potentiellement, vous pourriez être considéré comme un utilisateur gourmand et être moins prioritaire que un utilisateur ayant correctement définit ses ressources pour la même quantité de travail effectué.+<note important>ATTENTION:  
 +  * vous ne devriez pas surévaluer les ressources de vos jobs. En effet, slurm fonctionne avec une notion de partage juste (fair share): si vous réservez des ressources, peu importe que vous les utilisiez ou non. Lors de vos prochaines soumissions, slurm considérera que vous aviez effectivement consommé ces ressources. Potentiellement, vous pourriez être considéré comme un utilisateur gourmand et être moins prioritaire que un utilisateur ayant correctement définit ses ressources pour la même quantité de travail effectué
 +  * Si vous avez un grand nombre de job à faire, **vous devez utiliser la soumission par array job**. 
 +    * Si ces jobs ont de grandes durées d'exécutions (plus de 1 journée), **vous devez limiter le nombre d’exécution en parallèle afin de ne pas saturer le cluster**. Nous laissons la possibilité aux utilisateurs de fixer cette limite, mais en cas de problème de partage de ressources avec les autres utilisateurs, **nous supprimerons les jobs ne respectant pas ces conditions**.
 </note> </note>
  
Ligne 555: Ligne 562:
  
 Le chemin pour la bibliothèque Cplex est le chemin par défaut /opt/ibm/ILOG/CPLEX_Studio129 (version 12.9) Le chemin pour la bibliothèque Cplex est le chemin par défaut /opt/ibm/ILOG/CPLEX_Studio129 (version 12.9)
 +
 +
 +==== Environnements conda (Python) ====
 +
 +La commande **conda activate <env_name>**, permettant d'activer un environnement conda n'est pas utilisable avec slurm. À la place, il faut utiliser au début du script de lancement :
 +
 + source ./anaconda3/bin/activate <env_name>
 +
 +Il sera peut être également nécessaire de mettre à jour les variables d'environnement et d'initialiser conda sur le noeud de calcul :
 +
 + source .bashrc
 + conda init bash
 +
 +L'environnement restera alors actif d'une exécution à une autre. Pour le désactiver, il faudra utiliser :
 +
 + source ./anaconda3/bin/deactivate
 ===== FAQ ===== ===== FAQ =====
  
Ligne 649: Ligne 672:
   * keras   * keras
   * scikit-learn   * scikit-learn
-  * tenserflow +  * tensorflow 
-  * tenserflow-gpu # Sur nœuds gpu+  * tensorflow-gpu # Sur nœuds gpu
  
 ==== Nœuds GPU via apt-get ==== ==== Nœuds GPU via apt-get ====
Ligne 672: Ligne 695:
   * Faire vous même l'installation via conda: [[https://www.anaconda.com/download/#linux|téléchargement]] et [[https://conda.io/docs/user-guide/install/linux.html|installation]]   * Faire vous même l'installation via conda: [[https://www.anaconda.com/download/#linux|téléchargement]] et [[https://conda.io/docs/user-guide/install/linux.html|installation]]
   * Faire vous même l'installation en compilant les sources dans votre home_directory   * Faire vous même l'installation en compilant les sources dans votre home_directory
-  * Utiliser docker ou singularity (TODO: pas encore disponible)+
  
 ===== Visualiser la charge du cluster de calcul haute performance ===== ===== Visualiser la charge du cluster de calcul haute performance =====
leria/centre_de_calcul/cluster.1592901336.txt.gz · Dernière modification : 23/06/2020 10:35 de Chantrein Jean-Mathieu