DESCRIPTIF DES BESOINS DE CALCULS SCIENTIFIQUES SUR ARCHITECTURE DEDIEE
Institut de recherche pour le développement
DEMANDE DES UNITES DE RECHERCHE 103 ET 65 DU CENTRE DE NOUMEA, SEPTEMBRE 2004
Groupe de travail Pascal Douillet, resp. Scientifique UR 103 (
[email protected]) Alexandre Ganachaud, resp. Scientifique UMR 65 (
[email protected]) Jérôme Lefèvre, resp. Informatique UMR 65 / UR 103 (
[email protected]) Michel Ménézo, resp. Informatique IRD, Centre Nouméa (
[email protected])
Avec la participation de : Franck Delmas, IFREMER Brest (Code MARS 3D) Patrick Marchesiello, IRD Brest (Code ROMS)
SOMMAIRE 1. Objet....................................................................................................................... 2 2. Besoins en calculs intensifs des UR 65 (Legos) et 103 (Camelia).................... 3 2.1. Thèmes de recherche de l’UMR 65 .................................................................. 3 2.2. Thèmes de recherche de l’UR 103 ................................................................... 5 2.3. Les types d’utilisation ....................................................................................... 8 3. Définition du matériel informatique adapté aux besoins................................... 9 3.1. Critères de définition......................................................................................... 9 3.2. Configuration matérielle proposée et offres.................................................... 10 3.3. Avantages / inconvénients.............................................................................. 14 3.3. L’offre OS ....................................................................................................... 15 3.4. Compétences et demande d’assistance ........................................................ 17 4. Exemple de plateformes de calcul dédiées à la dynamique des fluides installées dans d’autres organismes de recherche publique en France ........... 18 4.1. Tour d’horizon des plateformes de calcul ....................................................... 18 4.2. Quelques exemples de plateformes utilisées pour des applications CFD (Computational Flow Dynamic).............................................................................. 18 Bibliographie ........................................................................................................... 20
ANNEXE 1 Détail des deux configurations matérielles fondées sur des nœuds bi-processeurs ANNEXE 2 Dépouillement des offres commerciales ANNEXE 3 Extrait des notes d’évaluation des performances de calcul des machines disponibles localement en vue de l’implantation du code ROMS au Centre de Nouméa ANNEXE 4 Le modèle hydrodynamique Mars ANNEXE 5 A propos du processeur AMD Opteron
Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004
1
1. Objet Le présent dossier expose les besoins en matériel de calcul scientifique intensif exprimés par les UR 103 (CAMELIA) et UMR 65 (LEGOS) du centre IRD de Nouméa. Les activités de recherche des UR 103 et 65, axées respectivement sur les conséquences des activités anthropiques sur les eaux marines côtières en milieu tropical insulaire et sur l’étude de la circulation océanique à l’échelle du Pacifique Sud-Ouest, emploient des modèles numériques de circulation à grande et petite échelle, basés sur la méthode des différences finies. Les échelles des phénomènes étudiés et des domaines couverts nécessitent un minimum de moyens de calcul pour être effectués sur place. Les récentes et futures simulations portent également sur l’intégration dans les modèles de circulation de modules sédimentaires, biologiques et géochimiques, certains mis au point localement. Ces développements impliquent une augmentation de la charge de calcul, assurée jusqu’ici au moyen de station de travail. Les besoins actuels et exprimés à court terme impliquent des délais de calcul déraisonnables avec les moyens actuels. D’autre part, les pays insulaires de la région sont intéressés par des simulations numériques dans leur lagon ou autour, et le renforcement de projet régionaux impliquera une augmentation des demandes locales. Ce dossier expose en première partie les besoins de chaque UR, replacés dans le contexte scientifique et technique. En seconde partie, une étude technique présente le matériel informatique que nous croyons adapté à ces besoins et les compétences nécessaires pour sa mise en place et son administration. Des tableaux financiers accompagnent l’évaluation des solutions retenues ainsi que leur principaux avantages/inconvénients. Le troisième volet présente des exemples de solutions de calculs, utilisés dans le cadre de thématiques scientifiques similaires.
Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004
2
2. Besoins en calculs intensifs des UR 65 (Legos) et 103 (Camelia) Les deux UR ont en commun d’employer des codes de calcul portant sur la modélisation de la circulation hydrodynamique, avec le modèle ROMS (Regional Ocean Modelling System) pour l’extérieur du lagon (UMR 65) et M A R S pour l’intérieur du lagon (UR 103).
2.1. Thèmes de recherche de l’UMR 65 Le groupe ECOP rattaché au Laboratoire en Etudes Géophysiques et Océanographie Spatiale (LEGOS) développe actuellement une étude de la circulation océanique régionale sur l'ensemble du Pacifique Sud-Ouest avec un zoom autour de la Nouvelle Calédonie et des îles de Polynésie Française. Cette étude inclura des mesures satellites. En 2005, un modèle opérationnel devrait être produit, imbriqué dans les champs de prévision du projet opérationnel Français MERCATOR. L’exercice de ces thématiques nécessite l’emploi d’un modèle numérique de circulation capable à la fois de restituer la réponse des phénomènes climatiques de variabilité annuelle et inter-annuelle observée à l’échelle régionale et rendre compte de la circulation côtière à l’approche des archipels de NouvelleCalédonie et de la Polynèsie Française. Les enjeux économiques pour les activités de pêche hauturières et les activités environnementales nécessitent d’aboutir à une restitution et une prévision de l’évolution des fronts thermiques et halins et des champs de vitesse à une échelle côtière. Ce projet d'océanographie côtière est cofinancé par le programme ZoNeCo (Nouvelle Calédonie), le Ministère de l'Outre Mer et l'IRD. Le modèle ROMS a été retenu dans le cadre de ces chantiers. Ce code 3D et qui emploi un schéma aux différences finies, est développé sous la supervision d’Herman Arango et Dale Haidvogel (Université Rutgers, New-Jersey). Au sein de l’IRD, Patrick Marchesiello et Pierrick Penven (UR097, IRD Brest), apportent leur contribution à l’évolution du code. Parmi les dernières options innovantes du code, citons les fonctions de zoom et de raffinement (logiciel AGRIF, INRIA) issues du travail collaboratif entre l’IRD, l’INRIA et l’UCLA (University of California at Los Angeles). Cet outil, à condition de disposer de moyens de calculs adaptés, permet de concevoir sereinement la modélisation des écoulements côtiers à une échelle appropriée (de l’ordre de 1 à 2 km à la côte et 10 km au large) en recourant aux fonctions de zoom. Aspects informatiques du code Dès les premières versions, le code a été parallélisé pour bénéficier des plateformes à mémoire partagée (Sun, SGI, etc). Le code comprend les directives OpenMP, pour être employé sur ce type de plateforme.
Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004
3
L’algorithme de calcul fait également appel à la bibliothèque d'échanges de messages MPI (Message Passing Interface) pour les architectures à mémoire distribuée (grappe de PC). La technique de parallélisation consiste à décomposer le domaine de calcul en sous domaines, de manière explicite. Avant compilation du programme, l’utilisateur déclare un nombre de sous domaine égal au nombre de processeurs (ou multiple, pour les plateformes à mémoire partagée). Chaque processus parallèle gère alors de manière autonome son propre sous domaine et est défini une seule fois pour tout le reste de l’exécution du programme. La méthode de parallélisation est particulièrement efficace et offre une grande ‘’scalabilité’’ (augmentation linéaire de la performance avec le nombre de processeurs). Localement, le compilateur fortran Intel Version 8 (qui supporte les directives OpenMP) a été employé pour des tests préliminaires (cf Annexe 3). Le code a été exécuté en mode parallèle sur un bi-processeur Pentium III sous Linux et les performances comparées avec des plateformes monoprocesseurs plus récentes. Les temps de calcul obtenus sur une grille comportant 544 000 points sont les suivants : Fig.1 Temps de calcul observés pour 3 machines testées au centre de Nouméa Configuration Tiki Pentium III Bi-Processeur
Nb CPU
1 itération
1 mois
1 année
1002 Mhz, cache 256 ko, SSE oui, SSE2 non, HT non Mémoire : SDR 133 Mhz 1,5 GO
1 x 1002 Mhz
36,5 s
50,5 heures
606 heures
2 x 1002 MHZ
13 s
18,0 heures
216 heures
Boris Pentium IV
1 x 1615 Mhz
7s
9,7 heures
116.4 heures
1 x 2940 Mhz
4,7 s
6,5 heures
78 heures
1615 Mhz, cache 512 ko, SSE oui, SSE2 oui, HT non Mémoire : DDR 266 Mhz 512 MO
Pentium IV P4P8X 2940 Mhz, cache 512 ko, SSE oui, SSE2 oui, HT oui Mémoire : DDR 333 Mhz 512 MO
Les résultats obtenus au cours des tests mettent en relief : - le gain évident de performance de calcul en mode parallélisé (Fig. 1), qui montre les perspectives d’augmentation de la vitesse d’exécution sur un cluster composé de machines récentes, qui plus est composé de nœud bi-processeur - le gain appréciable apporté par le partitionnement du domaine, qui permet d’aboutir à un jeu de bloc de données de taille équivalente à la mémoire cache. L’exécution du code s’en trouve améliorée (cf. Annexe 3).
Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004
4
Adéquation des moyens avec les objectifs Il apparaît que les dernières machines du Centre constituées de pentium IV monoprocesseur sont suffisantes pour l’exécution du code sur des domaines à moyenne échelle, dans le cas d’une résolution inférieure à 1/10° et des périodes simulées de quelques mois. Par exemple, 6 mois de simulation sur une machine cadencée à 3 GHz nécessiterait 36 heures. Au-delà, dans le cadre de l’étude affinée de processus côtiers nécessitant l’emploi de maillages imbriqués avec une résolution plus fine (1 à 2 km) et pour des périodes d’intégration plus longue (recherche d’un état d’équilibre, nécessitant plusieurs années d’intégration, par exemple), les temps de calculs deviennent difficilement acceptables. En effet, les fonctions de zoom pénalisent l’exécution du code, en fixant un pas de temps adapté avec la maille la plus petite. De même, si l’on active les modules biologique, sédimentaire et biochimique. Les solutions envisageables sont alors celles pour lesquelles le code est prévu, multiprocesseur ou grappe de PC (cluster).
2.2. Thèmes de recherche de l’UR 103 L’Unité de Recherche 103 (Camélia) étudie l’influence des apports terrigènes et anthropiques sur les lagons de Nouméa et de Suva (Fidji). Les principales questions scientifiques posées sont les suivantes : Quels sont les mécanismes de transport et de transformation des principaux agents d’influence terrigènes et anthropiques au niveau de la zone côtière tropicale ? Quels sont les effets des apports terrigènes et anthropiques en terme d’eutrophisation des systèmes et de bioaccumulation des métaux dans les organismes marins ? Dans quelle mesure la modélisation permet-elle de rendre compte de ces mécanismes de transport et de transformation ?
L’UR Camélia a pour objectif principal de déterminer comment l’homme influence les écosystèmes littoraux du Pacifique. Dans ce cadre, Camélia s’intéresse plus spécifiquement aux apports :
en particules entraînées par l’érosion des sols et sous-sols qui sont responsables du processus d’hypersédimentation,
en éléments nutritifs organiques et inorganiques qui sont responsables du processus d’eutrophisation,
en métaux qui peuvent s’avérer potentiellement toxiques pour les organismes vivant dans le lagon.
Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004
5
Les actions de recherche ont été définies de façon à apporter des réponses aux questions scientifiques suivantes :
Quels sont les mécanismes de transport et de transformation des principaux agents d’influence terrigènes et anthropiques au niveau de la zone côtière tropicale ?
Quels sont les effets des apports terrigènes et anthropiques en terme d’eutrophisation des systèmes et de bioaccumulation des métaux dans les organismes ?
Dans quelle mesure la modélisation permet-elle de rendre compte de ces mécanismes de transport et de transformation ?
Pour répondre à ces questions, l’UR à mise en place un réseau de modèles numériques couvrant les différents domaines de recherche. A la base, nous avons développé un modèle hydrodynamique du lagon sud-ouest à partir du modèle MARS3D de l’IFREMER, le modèle de génération et de propagation des vagues WaveWatch III a ensuite été adjoint. Depuis nous avons couplé à ces deux modèles un modèle de transport des vases et sables. Un modèle de production primaire couplé au modèle hydrodynamique est en cours de développement dans le cadre de la thèse de Vincent Faure (Univ. Marseille) et devrait être opérationnel début 2005. Enfin l’UR travaille sur les possibilités d’adaptation d’un modèle atmosphérique à la Nouvelle-Calédonie et au lagon sud-ouest.
Bathymétrie
Marée
1980-90’s
1998
Circulation mésoéchelle
Vent Modèle 3D 2004
Courants Modèle 3D 1999
Vagues Turbulence l -> k-l 2004
Modèle Wavewatch III 2002-2003
Transport particulaire Modèle ‘Vases’ 2000-2003 Modèle ‘Sables’ 2001-…
Modèle Biogéochimique
Fig. 1 Organisation des activités de modélisation physique au sein de l’UR Camélia. La circulation mésoéchelle n’a pas d’influence sur la circulation dans le lagon sudouest, qui n’est ouvert à l’extérieur qu’au niveau des passes.
Le modèle MARS 3D (Cf. Annexe 4) est un modèle tri-dimensionnel qui utilise un schéma aux différences finies à surface libre. Il est développé par l’IFREMER Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004
6
(Pascal Lazure), qui l’applique sur les façades côtières Française. Les équations hydrodynamiques sont portées sur un maillage isotrope. Le code comporte également des fonctions de zoom et de raffinement (Logiciel AGRIF). L’outil est destiné à servir de module hydrodynamique principal appliqué au lagon de NouvelleCalédonie et de Fidji. Les développements portent sur l’intégration de modules particulaires, biologiques et bio-géochimiques. …. Le modèle du lagon sud-ouest de Nouvelle Calédonie couvre une zone de 170 km de long sur 50 km de large. Les grilles du maillage ont actuellement une taille de 500 mètres mais seront augmentées de manière à s’adapter à la physique des phénomènes étudiés et à la bathymétrie, marquée par de fort gradient de pente. La résolution verticale est de 21 niveaux. Les travaux de mise au point et de couplage au modèle hydrodynamique des modules particulaires, biologiques la prise en compte de nouveaux paramètres tel le déplacement des larves aboutira à une augmentation des paramètres et des équations à résoudre numériquement. L’étude du transport particulaire et de la production primaire est au stade de la compréhension des processus. Cette phase implique la multiplication des runs avant d’aboutir à des modèles calibrés et validés. Aspects informatiques du code La version officielle du code MARS 3D incorpore déjà les directives de compilation OpenMP permettant son exécution parallèle sur une architecture à mémoire partagée. Franck Dumas (IFREMER) développe actuellement la version MPI de MARS. Les tests réalisés sur un cluster de PC montre une bonne performance d’exécution du code (speed-up de l’ordre de 13 pour une configuration 16 processeurs) et des conditions de simulation réalistes sur grande grille (400 x 500 mailles). Bien que le projet soit à l’état de prototype, une version exécutable sur plateforme à mémoire distribuée devrait être disponible dans quelques mois.
Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004
7
2.3. Les types d’utilisation Les objectifs d’études de la circulation côtière mobilisant la ressource de calculs se traduisent par exemple de la manière suivante pour le code ROMS (UMR 65) : Courant 2004, 2ème semestre
- Etude des événements d’Upwelling : Identification des sources de forçage et réponse hydrodynamique du phénomène sur la côte Ouest de la Nouvelle-Calédonie. Scénarios saison froide / saison chaude pour différentes conditions de vent. - Développement du modèle ROMS sur un maillage fermé par les latitudes 10°S et 26°S et par les longitudes 153° et 180°E autour de la Nouv elle-Calédonie. Elaboration d’une bathymétrie adaptée aux échelles des domaines et phénomènes physiques étudiés. Préparation et validation des données climatologiques disponibles et runs pour vérification préliminaire de la qualité des solutions. Courant 2005 (Sous condition de moyens de calculs dédiés)
- Préparation des maillages emboîtés par méthode de zoom (passage progressif de 10 km à une résolution à la cote de 1 km) et vérification des conditions de convergence / critères de stabilité aux zones frontières. - à partir d’une solution stable, étude de la circulation côtière sous l’effet du vent, des flux de chaleur, de la marée .... Amélioration des connaissances sur les phénomènes côtiers localisés (Upwelling, dynamique des structures thermo-halines, ondes internes, variabilité saisonnière des champs de température et courant …). Scénario et runs tests pour analyse des processus et qualité des solutions en fonction des données climatologiques et de forçage 2005/2006
- Extraction des conditions aux limites de MERCATOR sur la zone régionale (Utilisation de l'interface développée par P. Marchesiello, Pierrick Penven et V. Echevin (IRD)). Etablissement d’une circulation générale stable et cohérente et analyse de la circulation basse et haute fréquence, apport du forçage océanique sur les conditions de circulation côtière. Validation / Calibration des solutions - Etablissement d’une plateforme d’Océanographie opérationnelle appliquée à la Nouvelle-Calédonie. Cette démarche appliquée à la Nouvelle-calédonie est également prévue dans le cas de l’étude de la circulation côtière dans la ZEE de la Polynésie Française.
Dans le cas du code MARS 3D (UR 103), les différentes étapes de mise au point des modèles et de leur calage mobiliseront la ressource dans une proportion équivalente. La mise au point du modèle de production primaire, sa validation à l’aide d’imagerie spatiale nécessitera en 2005 l’utilisation intensive de ce cluster. Le développement du modèle atmosphérique demandera, pour sa mise au point, de fortes capacités de calcul en 2005 et 2006. En 2005 et 2006 les résultats du chantier Calédonien, en terme de modèle, seront transposé au chantier Fidjien. Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004
8
3. Définition du matériel informatique adapté aux besoins 3.1. Critères de définition Le matériel est principalement dédié au calcul scientifique intensif, faisant interface entre les ressources des centres de calcul nationaux et les applications régionales.
Nœuds de calcul
CLUSTER
SWITCH Gigabit
Connection Gigabit
Serveur de calcul
Sauvegarde rapide sur SATA Raid 0
(job, serveur de fichiers)
Connection Gigabit
Sauvegarde sécurisée sur SATA en Raid 1 Frontale (exploitation des données)
Connection vers le centre
Fig. 2 Synoptique de l’architecture de calcul envisagée La performance de calcul (précision et rapidité) est particulièrement recherchée. Le calculateur disposera d’un réseau de communication privé à haut débit, desservant les nœuds de calculs. Le calculateur est doté d’un système de sauvegarde rapide des données en cours de simulation (1er niveau), moyennant les ressources du serveur de calcul. Une sauvegarde de 2nd niveau, visant la sécurité des données, est effectuée sur une machine frontale. Les données sauvegardées sur les disques ‘’mirorés’’ du frontal concernent principalement les sorties validées des modèles et les tableaux de données employées pour l’alimentation des modèles. La solution devra offrir une souplesse d’évolutivité en fonction de la montée en puissance des besoins de calculs, avec possibilité d’ajout de nœuds de calcul par exemple. Une maintenance réduite et un remplacement des pièces défectueuses avec des pièces accessibles localement constituent également un critère important, compte tenu de la position géographique du Centre. L’architecture doit être compatible et offrir une bonne performance vis-à-vis des problèmes soumis et des méthodes de parallélisation adoptées dans les codes.
Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004
9
Côté administration, le système doit offrir une ergonomie d’installation, de surveillance, de mise à jour (logiciel et matériel) et correspondre si possible à des solutions OS déjà connues au Centre (solutions Redhat, Mandrake). En outre, il devra permettre de gérer une architecture homogène ou hétérogène, dans le cas par exemple de l’incorporation de nœuds de calcul basés sur une technologie différente. L’architecture proposée est un cluster ‘‘Beowulf’’ de classe I, composé de nœuds mono et/ou bi-processeur. Le cluster de classe I est composé de PC accessibles dans les magasins informatiques grand public et auprès des assembleurs. Ces solutions sont couramment utilisées dans les laboratoires de calculs, notamment dans les domaines des Sciences de la mer, de la Terre, du Climat, de l’Environnement, en génie Bio-Médicale, Mécanique des structures etc...
3.2. Configuration matérielle proposée et offres La configuration matérielle proposée est basée sur les configurations similaires utilisées dans les centres de calculs employant des clusters de PC. Les dernières technologies en la matière disponibles sur le marché et réputées fiables sous Linux sont également considérées (carte mère, processeur, switch, carte raid etc.). Pour l’évaluation budgétaire de la solution, 2 pistes ont été explorées :
L’évaluation de 3 configurations sur la base des prix du marché métropolitain augmenté de 30 % pour taxe et frais d’expédition (source : www.LDLC.fr, vente en ligne)
L’évaluation de 2 configurations sur la base des prix du marché local, après consultation des fournisseurs
Une description plus complète des configurations matérielles fondées sur des nœuds bi-processeurs figure en Annexe 1.
Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004
10
A / Résultats des configurations issues des consultations en ligne, marché métropolitain Les 3 configurations proposées, par ordre décroissant de performance (et de coût), sont les suivantes : Configuration 1 : Serveur Bi-Opteron 2.0 Ghz + 4 Nœuds Bi-Opteron 2.0 Ghz Master 2 opterons 246 2.0 ghz MB : Tyan K8S PC3200 4 x 512 Mo 4 DD serial ATA 200 Go + contrôleur raid 0 Carte ATI entrée de gamme Ecran 17’’, clavier … OS : ROCKS / OSCAR / CLIC
Nœuds 2 opterons 246 2.0 ghz MB : Tyan K8S PC3200 4 x 512 Mo DD ATA 40 Go Réseau SWITCH 3COM 12 ports 24 Gbps Wirespeed Cartes PCI Gigabit Cuivre Full Duplex, câble …
Prix indicatif : 18 000 Euros *
Configuration 2 : Serveur Bi-Xeon 3.0 Ghz + 4 Nœuds Bi-Xeon 3.0 Ghz Master 2 x Xeon 3.0 cache 512 FSB 533 MB : ASUS PC-DL Deluxe PC3200 4 x 512 Mo 4 DD serial ATA 200 Go + contrôleur raid 0 Carte ATI entrée de gamme Ecran 17’’, clavier … OS : ROCKS / OSCAR / CLIC
Nœuds 2 x Xeon 3.0 cache 512 FSB 533 MB : ASUS PC-DL Deluxe PC3200 4 x 512 Mo DD ATA 40 Go Réseau SWITCH 3COM 12 ports 24 Gbps Wirespeed Cartes PCI Gigabit Cuivre Full Duplex, câble …
Prix indicatif : 15 600 Euros * Configuration 3 : Serveur Bi-Xeon 3.0 Ghz + 8 Nœuds Pentium IV 3.0 Ghz Master 2 x Xeon 3.0 cache 512 FSB 533 MB : ASUS PC-DL Deluxe PC3200 4 x 512 Mo 2 DD serial ATA 200 Go + contrôleur raid 0 Carte ATI entrée de gamme Ecran 17’’, clavier … OS : ROCKS / OSCAR / CLIC
Nœuds Pentium IV 3.0 512 FSB 800 MB : ASUS P4P800 PC3200 4 x 512 Mo DD ATA 40 Go Réseau SWITCH 3COM 12 ports 24 Gbps Wirespeed Cartes PCI Gigabit Cuivre Full Duplex, câble …
Prix indicatif : 15 000 Euros * A ces coûts s’ajoute le serveur frontal. Ce serveur permet la sauvegarde sécurisée des données sur disques ‘’mirorés’’ (disques sata 400 Go) et leur consultation/exploitation, sans pénaliser l’exécution des sessions de calculs. Il est
Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004
11
doté de deux cartes réseaux gigabit, l’une reliée au réseau du centre, l’autre au serveur de calcul : Frontale (commune aux trois configurations proposées) Frontale Pentium IV 3.0 512 FSB 800 MB : ASUS P4P800 PC3200 4 x 512 Mo 2 DD SATA 400 Go + contrôleur raid 1 Carte ATI 9600 256 Mo Ecran 19’’, graveur DVD, clavier … 2 cartes PCI Gigabit OS : Mandrake
Prix indicatif : 2 100 Euros * * Les évaluations financières sont établies sur la base des tarifs HT des composants en France + 30 % (frais de port et taxe)
Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004
12
B / Résultats des consultations locales Les deux premières configurations précédentes, cluster composés de bi-processeurs Xeon ou Opteron, ont été soumises pour évaluation auprès des fournisseurs de la place. Les configurations matériels objets des consultations sont détaillées en Annexe 1. Le résultat du dépouillement des offres commerciales se trouve en Annexe 2. La synthèse est restituée ci-dessous. En jaune figure la proposition commerciale nous paraissant offrir le meilleur compromis Coût / Performance. Fournissseur Configuration A dual Xeon + Frontale
Spécificités
Performances Configuration B dual Opteron + Frontale
Spécificités
Performances Commentaire Fournissseur Configuration A dual Xeon + Frontale
Spécificités
Performances Configuration B dual Opteron + Frontale
Spécificités
Performances Commentaire
Barrau Bureau
Barrau Bureau
Bull
48 392,84 €
35 824,51 €
25 140,01 €
Bi-Pro Xeon 3.6 Ghz/800 MHz 1Mo L2 (serveur) 2 X 512 MB PC 3200 ECC (serveur) IBM ServerRaid SATA Controller (serveur) 2 Disques IBM 160 GB SATA 7200 RPM (serveur) Bi-Pro Xeon 3.4 Ghz/800 MHz 1MB L2 (noeud) 2 X 512 MB PC 3200 ECC (noeud)
Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 (serveur) 4 x 512 MB PC 2100 ECC (serveur) Adaptec SATA RAID Controller (serveur) 2 Disques Seagate 200 GB SATA (serveur) Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 (noeud) 4 x 512 MB PC 2100 ECC (noeud)
Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 (serveur) 2 x 1024 MB PC 2100 ECC (serveur) Carte PCI SATA RAID FastTrack S150SX4 (serveur) 2 Disques 250 GB SATA 7200 rpm (serveur) Bi-Pro Xeon 3.06 Ghz/800 MHz 1 Mo L2 (noeud) 2 x 1024 MB PC 2700 ECC (noeud)
+++
++
++
45 306,49 €
37 240,73 €
/
Bi-Pro Opteron 248 2.2 Ghz 1Mo L2 (serveur) 2 X 512 MB PC 3200 ECC (serveur) IBM ServerRaid SATA Controller (serveur) 2 Disques IBM 160 GB SATA 7200 RPM (serveur) Bi-Pro Opteron 246 2.0 Ghz 1Mo L2 (noeud) 2 X 512 MB PC 3200 ECC (noeud)
++++ Solution IBM IntelliStation Haut de gamme Office Plus 19 022,61 € Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 (serveur) 4 x 512 MB PC 3200 ECC (serveur) Carte Adaptec SATA RAID 2410 SA Controller (serveur) 2 Disques 200 GB SATA (serveur) Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 (noeud) 4 x 512 MB PC 3200 ECC (noeud)
Bi-Pro Opteron 246 2.0 Ghz 1Mo L2 (serveur) 2 x 512 MB PC 3200 ECC (serveur) Adaptec SATA RAID Controller (serveur) 2 Disques Seagate 200 GB SATA (serveur) Bi-Pro Opteron 246 2.0 Ghz 1Mo L2 (noeud) 2 X 512 MB PC 3200 ECC (noeud)
+++ Solution IBM IntelliStation Version Solution BULL Express5800 "économique" Office Plus
Cyber Media
31 290,93 € Bi-Pro Xeon 3.06 Ghz/800 MHz 1 Mo L2 (serveur) 4 x 512 MB PC 3200 ECC (serveur) Carte Adaptec SATA RAID 2410 SA Controller (serveur) 2 Disques 250 GB SATA 7200 rpm (serveur) Bi-Pro Xeon 3.06 Ghz/800 MHz 1 Mo L2 (noeud) 4 x 512 MB PC 3200 ECC (noeud)
17 043,18 € Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 (serveur) 4 x 512 MB PC 3200 ECC (serveur) Carte Adaptec SATA RAID 2410 SA Controller (serveur) 2 Disques 200 GB SATA 7200 rpm (serveur) Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 (noeud) 4 x 512 MB PC 3200 ECC (noeu
++
+++
++
22 626,01 €
/
/
Bi-Pro Opteron 246 2.0 Ghz 1Mo L2 (serveur) 4 x 512 MB PC 3200 ECC (serveur) Carte Adaptec SATA RAID 2410 SA Controller (serveur) 2 Disques 200 GB SATA (serveur) Bi-Pro Opteron 246 2.0 Ghz 1Mo L2 (noeud) 4 X 512 MB PC 3200 ECC (noeud)
+++ Solution assembleur Carte Asus Solution DELL Precision (Xeon) Carte Tyan (Opteron) Workstation 670
Solution assembleur Carte Asus (Xeon)
Ces propositions locales ne comprennent pas le matériel portant sur le réseau (Switch et connectiques). Les tableaux suivants détaillent les propositions commerciales pour ce matériel spécifique. Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004
13
Proposition INMAC (www.inmac.fr) Switch 3COM 12 ports: capacité de commutation 24 Gbps (Wirespeed performance) Départ France 3COM SWITCH 12*10/100/1000 4*MINI-GBIC
Rendu Nouméa
1 000,00 €
Fabricant : 3Com Réduction 10%
1 080,00 €
100,00 €
Câbles pour réseaux gigabit
CORDON RJ45 CAT5+ 3M UTP GRIS SURMOULE Fabricant : Siecor
Départ France
Nb
Rendu Nouméa
13,00 €
6
93,60 €
Les logiciels (Compilateurs, OS, bibliothèque de fonction…) ne sont pas compris. Pour idée, le compilateur Fortran ou Portland 64 bit représente un coût de l’ordre de 600 euros.
3.3. Avantages / inconvénients Commentaires généraux Ces architectures permettent l’exécution en mode parallélisé des codes ROMS et MARS 3D, ces derniers comportant déjà les instructions de la bibliothèque de communication MPI (Message Passing Interface) leur permettant de s’exécuter sur les architectures proposées. De plus, les codes ont déjà été testés avec succès sur architecture Cluster Linux. De manière générale, la configuration matérielle proposée (cluster de PC) est compatible avec les différents modes de programmation parallèle, fondés sur le parallélisme des données et des tâches, sous condition que les codes intègrent les instructions de ‘’message passing’’ (librairie de communication MPICH, PVM, LAM …). Les codes parallélisés, qualifiés de portable, incorporent systématiquement ces instructions. Ces configurations sont également modulables en jouant par exemple sur l’ajout de nœuds de calcul (mono ou bi-processeur). La configuration comportant des bi-processeurs offre l’avantage de bénéficier des vitesses de communication entre les processeurs embarquées sur la même carte. La configuration comportant des Opterons (AMD) permet en outre de profiter de la mémoire cache de second niveau élevé (1024 ko) et de la performance de ce processeur en raison de sa technologie. L’Opteron cadencée 2 ghz offre en effet des Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004
14
performances supérieures comparées au Xeon cadencée 3 ghz ou au pentium IV (cf. Annexe 5). Les derniers Xeons avec mémoire cache 1 Mo et 2 Mo arrivent tout juste à le concurrencer mais présentent un coût élevé. Par contre, pour gagner en performance, l’architecture 64 bit (Opteron) nécessite l’achat d’un compilateur fortran dédié (de l’ordre de 600 euros, solution Portland ou Intel), alors que sur architecture 32 bits, des compilateurs performants sont disponibles gratuitement (solution ifc IA32 d’Intel, libre sous Linux). Pour des raisons de performance, le nœud de calcul bi-processeur Opteron est préféré. Commentaires sur les offres Les réponses des fournisseurs locaux nous ont permis de constater que du matériel répondant à nos attentes était disponible localement, à des prix finalement comparables avec les solutions d’achat direct en France. Ainsi, à configuration égale, on peut tabler, à partir de l’offre Office Plus, sur un coût matériel de 23 800 euros (Serveur + Nœuds + Frontal + Réseau) contre 20 100 euros en Métropole (frais de port et taxes inclus). Le principal avantage à se fournir localement est de permettre une maintenance et un retour pour pièces défectueuses plus rapide et sans frais d’expédition. Les offres basées sur les marques (IBM, DELL, Bull) n’offrent pas davantage de performances par rapport à des solutions assembleurs, sauf pour le haut de gamme IBM proposé par Barrau Bureau (mais dont l’offre vaut l’achat de 2 clusters !).
3.3. L’offre OS Parmi les solutions disponibles, les choix peuvent porter préférentiellement sur les produits OSCAR, ROCKS et MandrakeClustering. Ce dernier étant payant (2500 euros). ROCKS (noyau RedHat) comporte une version supportant l’Opteron 64 bits. En plus d’être gratuit, ce dernier comporte des outils Open Source réputés pour une installation et une administration aisée du cluster. Il intègre également les principales librairies de communication MPICH, PVM … pour le calcul parallèle. D’autres librairies et applications dédiées devront être installées en fonction des besoins. Certains sont payants selon les architectures. Par exemple l’architecture 64 bit nécessitent l’achat d’un compilateur fortran dédié (solution Portland ou Intel) si l’on souhaite bénéficier des gains de performance liés à cette architecture (10 à 20 % de gain selon les applications).
Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004
15
Fig. 3 Aperçu du moniteur de statut et gestion des ressources sous Ganglia (Outil OpenSource, sous ROCKS)
Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004
16
3.4. Compétences et demande d’assistance L’installation d’un cluster ‘‘Beowulf’’ est gérable par les informaticiens du centre IRD de Nouméa. Nous recherchons ici l’architecture compatible avec les applications parallèles visées et qui puisse offrir le meilleur compromis Performance/Evolutivité.
Pour cela, nous avons consulté les développeurs des codes concernés (IRD Brest pour ROMS, IFREMER pour MARS 3D) et les concepteurs des nouveaux codes dont l’exécution est prévue sur le Centre de Nouméa.
Nous sollicitons également une assistance technique auprès de la DSI sur le conseil en matière d’architecture / composants / OS, notre proposition pouvant servir de base. Une consultation interne à la DSI est jugée suffisante. De notre côté, des démarches de consultation auprès des développeurs des codes et laboratoires de calculs sont en cours, afin d’affiner nos choix.
Le Service Informatique du Centre de Nouméa pourra installer les matériels et les systèmes d’exploitation et procéder aux premiers tests. En 2003, Jérôme Lefèvre (LEGOS) a eu l'opportunité de tester et comparer l’installation des solutions OSCAR et CLIC 2 sur un cluster ‘‘Beowulf’’ composé de 3 nœuds. Son expérience sera mise à contribution lors de la configuration du système. Pour la programmation parallèle de ROMS, déjà portable sous LINUX, une assistance est assurée par l’UR097 (IRD, Patrick Marchesiello et Pierrick Penven). Pour le code MARS 3D, un travail collaboratif avec Franck DELMAS (IFREMER), qui développe actuellement la version MPI, pourra être mis en place.
Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004
17
4. Exemple de plateformes de calcul dédiées à la dynamique des fluides installées dans d’autres organismes de recherche publique en France 4.1. Tour d’horizon des plateformes de calcul Le CEA, le CNRS et l'INRIA ont créé une structure de collaboration pour le développement et la diffusion du calcul parallèle : l’organisation ORAP (ORganisation Associative du Parallélisme). Outre ses missions visant le renforcement des collaborations entre partenaires nationaux, européens et internationaux dans le cadre du calcul parallèle, l’ORAP réalise une veille technologique et un état des lieux du calcul scientifique en France. Leur site Web http://maply.univ-lyon1.fr/spip/rubrique.php3?id_rubrique=2 dresse un recensement des ressources matérielles informatiques en rapport avec le calcul intensif. Sur ce site, un tour d’horizon permet de s’informer des architectures employées dans les grands centres technologiques, les Universités, les Laboratoires, les entreprises….
4.2. Quelques exemples de plateformes utilisées pour des applications CFD (Computational Flow Dynamic) IFREMER : Pôle de calcul Intensif pour la mer Le calculateur ‘’Nymphea‘’ se compose d'un « cluster » de 9 nœuds COMPAQ ES45, quadri-processeurs, connectés par « switch » Quadrix. Les processeurs sont des processeurs Alpha EV68 cadencés à 1GHz. Sa mémoire globale est de 92 GigaOctets. L’OS est Tru64 UNIX. Ressource partagée avec le SHOM et l’IRD. Le code ROMS est régulièrement exécuté desus. Problématiques : Hydrodynamique, Calcul de structure, Biochimie, Applications couplées (ex. : hydrodynamique et chimique), développement de code parallélisé SHOM : Serveur P655, 64 processeurs (IBM Power4 1.7Ghz), totalisant une puissance théorique de 435 Gflops. Problématique : traitement de l’information des missions hydro-océanographiques. BRGM : Calculateur basé à Orléans : Grappe PCs Intel, composé de 8 nœuds bi-processeurs Xeon 3.06 GHz. Puissance théorique : 49 Gflps. Problématiques : Hydrogéologie, Environnement, Géomécanique.
Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004
18
CEMAGREF : Calculateur basé à Aubière : Grappe PCs Intel, composé de 24 nœuds biprocesseurs Xeon 2.4 GHz. Puissance théorique : 230 Gflps, réseau gigabit. Problématiques : Environnement, hydrologie, CFD. Les codes utilisés sont soit des codes internes écrits en C, C++, Fortran et Java ou des codes propriétaires tels que FLUENT. EDF : Calculateur
Nb CPU
Perf. crête
Réseau
DELL 420 bi-PIII 800MHz 4Go
8 bi-processeurs
15 Gflps
myrinet cuivre 1.2 Gbit/s
Dataswift bi-Xeon 3.06 Ghz
16 bi-processeurs
180 Gflps
Ethernet Gigabit
Dataswift bi-Opteron 1.8 GHz
8 bi-processeurs
60 Gflps
myrinet fibre 2 Gbit/s
IBM Xeon MP 2.8 GHz 8 Go
4+2x2
40Gflps
Ethernet Gigabit
HP X4000 bi-Xeon 2.2 GHz 2Go
10 bi-processeurs
90 Gflp
myrinet cuivre 1.2 Gbit/s
Fujitsu bi Athlon 1800+ 2 Go
16 bi-processeurs
40 Gflps
Scali
DELL 530 bi-Xeon 2.4 GHz 2Go
8 bi-processeurs
64 Gflps
Ethernet 100 Mbit/s
DELL 450 bi-Xeon 2.6 GHz 2Go
32 bi-processeurs
275 Gflps
Ethernet Gigabit
DELL 450 bi-Xeon 2.6 GHz 2Go
32 bi-processeurs
275 Gflps
Ethernet Gigabit
Problématiques : Calcul scientifique et modélisation numérique, Mathématiques financières, CFD (écoulements multiphases, couplage thermo-chimique) INRIA (Sophia Antipolis) Calculateurs : Cluster bi-Xeon 2 Ghz, 16 bi-processeurs, carte intel Pro/1000 gigabit, réseau Gigabit-Ethernet, OS Linux 2.4.17/glibc2 Cluster bi-pentium III 933 Mhz, 19 bi-processeurs, réseau Fast-Ethernet Full Duplex (Summit48), OS Linux 2.4.17/glibc2 Cluster bi-Pentium III 500 Mhz, 14 bi-processeurs, OS Linux 2.4.17/glibc2 Problématiques : Toutes disciplines impliquant du calcul scientifique Centre Commun de Calcul Intensif (C3I) de Guadeloupe Calculateur HP-Compaq SMP muni de 12 processeurs EV7 cadencés à 1.15Ghz, 12 Go de mémoire vive et de 400 Gigaoctets de mémoire de masse en disques RAID Cluster Intel muni de 17 noeuds mono-processeur Problématiques : Météorologie, Environnement.
Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004
19
Bibliographie Littérature consultée Cluster Computing, Architectures, Operating Systems, Parallel Processing & Programming Languages, Richard S. Morrison (Document pdf) Beowulf HOWTO (source : http://www.ixus.net/howto.php) Beowulf Tutorial : Building a Beowulf http://www.cacr.caltech.edu/beowulf/tutorial/building.html)
System
(source
:
ROMS/TOMS User Manual : http://marine.rutgers.edu/po/documentation/docs.php ROMS AGRIF et ROMS TOOLS User Manual (IRD, Centre de Brest) http://www.brest.ird.fr/personnel/ppenven/Roms_tools/index.html). OS dédiés cluster Site de MandrakeClustering : http://www.mandrakesoft.com/products/clustering) Site de rocks, dont doc pdf : http://www.rocksclusters.org/rocks-documentation/3.2.0/ Site d’Oscar : http://oscar.openclustergroup.org Guide d’installation de MandrakeClustering 1.0 The Steps Required to (htp://oscarsourceforgenet/)
Install
an
OSCAR
Cluster,
Version
1.2.1
Sites Conception d’un système à haute performance, CETMEF - Ministère de l’equipement, des Transports, de l’Aménagement du Territoire, du Tourisme et de la Mer http://www.cetmef.equipement.gouv.fr/projets/transversaux/cluster/calculs.php ORganisation Associative du Parallélisme (ORAP) : http://www.irisa.fr/orap Présentation des ressources en calculs parallèles de l’INRIA à Sophia Antipolis http://www-sop.inria.fr/parallel/
Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004
20
ANNEXE 1 Détail des deux configurations matérielles fondées sur des nœuds bi-processeurs (objet des demandes de proforma) CONFIG. A: 1 Serveur et 4 Nœuds -- Processeurs Xeon 3.0 Ghz Serveur bi-pro Processeurs: 2 Xeon 3.0Ghz cache 512k FSB 533Mhz Carte mère: MB ASUS PC-DL Deluxe i875P Mémoire: 4 PC3200 512 Mo (4 X 512 MO (ECC), DDR 400) Disques durs: 2 x DD Serial ATA (200 Go minimum) Grande tour (emplacement et alimentation suffisante pour quatre disques) Lecteur CD/DVD Carte vidéo: ATI 9600 256 Mo ou équivalente Ecran CRT 17" Lecteur disquette Carte réseau 10/100/1000 supplémentaire Intel (PWLA8391MT GIGABIT RJ45) Carte Adaptec Serial ATA RAID 2410SA Clavier, souris 4 nœuds bi-pro Processeurs: 2 Xeon 3.0Ghz cache 512k FSB 533Mhz Carte mère: MB ASUS PC-DL Deluxe i875P Mémoire: 4 PC3200 512 Mo (4 X 512 Mo (ECC), DDR 400) Disque dur: 1 IDE 60 Go minimum Lecteur CD-ROM Carte réseau 10/100/1000 supplémentaire Intel (PWLA8391MT GIGABIT RJ45) Carte graphique d'entrée de gamme (ATI 7000 32 Mo ou équivalente)
CONFIG. B: 1 Serveur et 4 Nœuds -- Processeurs Opteron 2.0 Ghz Serveur bi-pro Processeurs: 2 Opteron 2.0Ghz cache L1 128K, cache L2 1024K (Model 246) Carte mère: MB Tyan Thunder K8W (S2885) Mémoire: 4 PC3200 512 Mo (4 X 512 Mo (ECC), DDR 400) Disques durs: 2 DD Serial ATA (200 Go minimum) Grande tour (emplacement et alimentation suffisante pour quatre disques) Lecteur CD/DVD Carte vidéo: ATI 9600 256 Mo ou équivalente Ecran CRT 17 " Lecteur disquette Carte réseau 10/100/1000 supplémentaire Intel (PWLA8391MT GIGABIT RJ45) Carte Adaptec Serial ATA RAID 2410SA Clavier, souris 4 nœuds bi-pro Processeurs: 2 Opteron 2.0Ghz cache L1 128K, cache L2 1024K (Model 246) Carte mère: MB Tyan Thunder K8W (S2885) Mémoire: 4 PC3200 512 Mo (4 X 512 Mo DDR 400 ) Disque dur: 1 IDE 60 Go minimum Lecteur CD-ROM Carte réseau 10/100/1000 supplémentaire Intel (PWLA8391MT GIGABIT RJ45) Carte graphique d'entrée de gamme (ATI 7000 32 Mo ou équivalente)
Frontale (sauvegarde) : 1 PC Pentium IV 3.0Ghz Serveur Processeurs: Pentium IV 3.0Ghz Carte mère ASUS (avec port ethernet 10/100 intégré) Mémoire: 2 PC3200 512 Mo (2 X 512 Mo (ECC) Disques durs: 2 DD Serial ATA (400 Go minimum) Grande tour (emplacement et alimentation suffisante pour quatre disques) Graveur DVD Carte vidéo: ATI 9600 256 Mo ou équivalente Ecran CRT 19 " Lecteur disquette Carte réseau 10/100/1000 supplémentaire Intel (PWLA8391MT GIGABIT RJ45) Carte Adaptec Serial ATA RAID 2410SA Clavier, souris
ANNEXE 2 Dépouillement des offres commerciales Nom du fournisseur
BBS - Configuration "haut de gamme"
Configuration A 1 serveur avec 2 Xeon 4 nœuds avec 2 Xeon chacun
Prix Hors TGI en CFP
Prix Hors TGI en Euro
1
1 276 200 XPF
10 694,56 €
4
3 528 800 XPF
29 571,35 €
4 805 000 XPF
40 265,91 €
Prix Hors TGI en CFP
Prix Hors TGI en Euro
Prix unitaire
Nombre
1 276 200 XPF 882 200 XPF
Réduction éventuelle
Total Configuration A Hors TGI:
Configuration B 1 serveur avec 2 Opteron 4 nœuds avec 2 Opteron chacun
Réduction éventuelle
Prix unitaire
Nombre
1 316 700 XPF
1
1 316 700 XPF
11 033,95 €
780 000 XPF
4
3 120 000 XPF
26 145,61 €
4 436 700 XPF
37 179,56 €
Prix Hors TGI en CFP
Prix Hors TGI en Euro
969 800 XPF
8 126,93 €
Total Configuration B Hors TGI:
Machine de stockage PC Pentium IV 3.0 Ghz
Délais livraison Durée de la garantie
Prix unitaire
Nombre
969 800 XPF
1
Réduction éventuelle
3 à 4 semaines 3 ans
Total configuration A + machine stockage:
48 392,84 €
Total configuration B + machine stockage:
45 306,49 €
Commentaires : Configuration IBM haut de gamme, établie sur la gamme IBM IntelliStation Z Pro 6223 (Xeon, config A) et IntelliStation A Pro 6224 (Opteron, config B), avec les spécificités suivantes :
Config A :
Bi-Pro Xeon 3.6 Ghz/800 MHz 1Mo L2 cache (serveur) 2 X 512 MB PC 3200 ECC (serveur) IBM ServerRaid SATA Controller (serveur) 2 Disques IBM 160 GB SATA 7200 RPM (serveur) Bi-Pro Xeon 3.4 Ghz/800 MHz 1MB L2 cache (noeud) 2 X 512 MB PC 3200 ECC (noeud)
Config B :
Bi-Pro Opteron 248 2.2 Ghz 1Mo L2 cache (serveur) 2 X 512 MB PC 3200 ECC (serveur) IBM ServerRaid SATA Controller (serveur) 2 Disques IBM 160 GB SATA 7200 RPM (serveur) Bi-Pro Opteron 246 2.0 Ghz 1Mo L2 cache (noeud) 2 X 512 MB PC 3200 ECC (noeud)
Cette solution propose les dernières technologies en matière de processeurs, RAM et disque de stockage, offrant des performances élevées (et similaires entre les 2 configurations).
Nom du fournisseur
BBS - Configuration "économique"
Configuration A
Prix Hors TGI en CFP
Prix Hors TGI en Euro
1
823 000 XPF
6 896,74 €
4
3 024 000 XPF
25 341,13 €
3 847 000 XPF
32 237,87 €
Prix Hors TGI en CFP
Prix Hors TGI en Euro
Prix unitaire
Nombre
1 serveur avec 2 Xeon
823 000 XPF
4 nœuds avec 2 Xeon chacun
756 000 XPF
Réduction éventuelle
Total Configuration A Hors TGI:
Configuration B
Réduction éventuelle
Prix unitaire
Nombre
1 serveur avec 2 Opteron
896 000 XPF
1
896 000 XPF
7 508,48 €
4 nœuds avec 2 Opteron chacun
780 000 XPF
4
3 120 000 XPF
26 145,61 €
4 016 000 XPF
33 654,09 €
Prix Hors TGI en CFP
Prix Hors TGI en Euro
428 000 XPF
3 586,64 €
Total Configuration B Hors TGI:
Machine de stockage PC Pentium IV 3.0 Ghz
Prix unitaire
Nombre
428 000 XPF
1
Réduction éventuelle
Délais livraison 3 à 4 semaines Durée de la garantie
3 ans
Total configuration A + machine stockage:
35 824,51 €
Total configuration B + machine stockage:
37 240,73 €
Commentaires : Configuration IBM ‘’économique’’, établie sur la gamme IBM IntelliStation Z Pro 6223 (Xeon, config A) et IntelliStation A Pro 6224 (Opteron, config B), avec les spécificités suivantes :
Config A :
Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 cache (serveur) 4 x 512 MB PC 2100 ECC (serveur) Adaptec SATA RAID Controller (serveur) 2 Disques Seagate 200 GB SATA (serveur) Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 cache (noeud) 4 x 512 MB PC 2100 ECC (noeud)
Config B :
Bi-Pro Opteron 246 2.0 Ghz 1Mo L2 cache (serveur) 2 x 512 MB PC 3200 ECC (serveur) Adaptec SATA RAID Controller (serveur) 2 Disques Seagate 200 GB SATA (serveur) Bi-Pro Opteron 246 2.0 Ghz 1Mo L2 cache (noeud) 2 X 512 MB PC 3200 ECC (noeud)
Cette solution propose des technologies récentes en matière de processeurs, offrant des performances très honorables. La config B est susceptible d’offrir de meilleures performances comparée à la A. Coût élevé en raison de la marque, sans gain notable par rapport à une solution assembleur.
Nom du fournisseur
OFFICE PLUS configuration 1
Configuration A
Prix Hors TGI en CFP
Prix Hors TGI en Euro
1
485 000 XPF
4 064,30 €
4
1 380 000 XPF
11 564,40 €
1 865 000 XPF
15 628,71 €
Prix Hors TGI en CFP
Prix Hors TGI en Euro
Prix unitaire
Nombre
1 serveur avec 2 Xeon
485 000 XPF
4 nœuds avec 2 Xeon chacun
345 000 XPF
Réduction éventuelle
Total Configuration A Hors TGI:
Configuration B
Réduction éventuelle
Prix unitaire
Nombre
1 serveur avec 2 Opteron
575 000 XPF
1
575 000 XPF
4 818,50 €
4 nœuds avec 2 Opteron chacun
430 000 XPF
4
1 720 000 XPF
14 413,61 €
2 295 000 XPF
19 232,11 €
Prix Hors TGI en CFP
Prix Hors TGI en Euro
405 000 XPF
3 393,90 €
Total Configuration B Hors TGI:
Machine de stockage PC Pentium IV 3.0 Ghz
Délais livraison Durée de la garantie
Prix unitaire
Nombre
405 000 XPF
1
Réduction éventuelle
1 mois 1/2 1 an
Total configuration A + machine stockage:
19 022,61 €
Total configuration B + machine stockage:
22 626,01 €
Commentaires : Solution assembleur économique constituée de carte mère Asus PC-DL deluxe (Xeon, config A) et carte mère Tyan Thunder K8W (Opteron, config B), avec les spécificités suivantes :
Config A :
Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 cache (serveur) 4 x 512 MB PC 3200 ECC (serveur) Carte Adaptec SATA RAID 2410 SA Controller (serveur) 2 Disques 200 GB SATA (serveur) Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 cache (noeud) 4 x 512 MB PC 3200 ECC (noeud)
Config B :
Bi-Pro Opteron 246 2.0 Ghz 1Mo L2 cache (serveur) 4 x 512 MB PC 3200 ECC (serveur) Carte Adaptec SATA RAID 2410 SA Controller (serveur) 2 Disques 200 GB SATA (serveur) Bi-Pro Opteron 246 2.0 Ghz 1Mo L2 cache (noeud) 4 X 512 MB PC 3200 ECC (noeud)
Cette solution propose des technologies récentes en matière de processeurs, offrant des performances très honorables. La config B est susceptible d’offrir de meilleures performances comparée à la A.
Nom du fournisseur
OFFICE PLUS configuration 2
Configuration A
Prix Hors TGI en CFP
Prix Hors TGI en Euro
1
884 000 XPF
7 407,92 €
4
2 036 000 XPF
17 061,69 €
2 920 000 XPF
24 469,61 €
Prix Hors TGI en CFP
Prix Hors TGI en Euro
Prix unitaire
Nombre
1 serveur avec 2 Xeon
884 000 XPF
4 nœuds avec 2 Xeon chacun
509 000 XPF
Réduction éventuelle
Total Configuration A Hors TGI:
Configuration B
Prix unitaire
Nombre
Réduction éventuelle
1 serveur avec 2 Opteron
1
0 XPF
0,00 €
4 nœuds avec 2 Opteron chacun
4
0 XPF
0,00 €
0 XPF
0,00 €
Prix Hors TGI en CFP
Prix Hors TGI en Euro
814 000 XPF
6 821,32 €
Total Configuration B Hors TGI:
Machine de stockage PC Pentium IV 3.0 Ghz
Délais livraison Durée de la garantie
Prix unitaire
Nombre
814 000 XPF
1
Réduction éventuelle
1 mois 1/2 1 an
Total configuration A + machine stockage:
31 290,93 €
Commentaires : Configuration DELL établie sur la gamme DELL Precision Workstation 670 (Xeon, config A), avec les spécificités suivantes :
Config A :
Bi-Pro Xeon 3.06 Ghz/800 MHz 1 Mo L2 cache (serveur) 4 x 512 MB PC 3200 ECC (serveur) Carte Adaptec SATA RAID 2410 SA Controller (serveur) 2 Disques 250 GB SATA 7200 rpm (serveur) Bi-Pro Xeon 3.06 Ghz/800 MHz 1 Mo L2 cache (noeud) 4 x 512 MB PC 3200 ECC (noeud)
Cette solution propose les dernières technologies en matière de processeur Xeon. Coût élevé en raison de la marque, sans gain notable par rapport à une solution assembleur.
Nom du fournisseur
CYBERMEDIA - INFOCOM
Prix unitaire
Nombre
Réduction éventuelle
Prix Hors TGI en CFP
Prix Hors TGI en Euro
1 serveur avec 2 Xeon
429 780 XPF
1
408 360 XPF
408 360 XPF
3 422,06 €
4 nœuds avec 2 Xeon chacun
349 090 XPF
4
331 706 XPF
1 326 824 XPF
11 118,79 €
1 735 184 XPF
14 540,85 €
Prix Hors TGI en CFP
Prix Hors TGI en Euro
Configuration A
Total Configuration A Hors TGI:
Configuration B
Prix unitaire
Nombre
Réduction éventuelle
1 serveur avec 2 Opteron
1
0 XPF
0,00 €
4 nœuds avec 2 Opteron chacun
4
0 XPF
0,00 €
0 XPF
0,00 €
Total Configuration B Hors TGI:
Machine de stockage PC Pentium IV 3.0 Ghz
Prix unitaire
Nombre
Réduction éventuelle
Prix Hors TGI en CFP
Prix Hors TGI en Euro
314 250 XPF
1
298 608 XPF
298 608 XPF
2 502,34 €
Délais livraison 15j à 3 semaines Durée de la garantie
1 an
Total configuration A + machine stockage:
17 043,18 €
Solution assembleur économique constituée de carte mère Asus PC-DL deluxe (Xeon, config A), avec les spécificités suivantes :
Config A :
Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 cache (serveur) 4 x 512 MB PC 3200 ECC (serveur) Carte Adaptec SATA RAID 2410 SA Controller (serveur) 2 Disques 200 GB SATA 7200 rpm (serveur) Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 cache (noeud) 4 x 512 MB PC 3200 ECC (noeud)
Cette solution, la plus économique, propose des technologies récentes en matière de processeurs, offrant des performances très honorables, mais inférieures à une solution à base d’Opteron.
Nom du fournisseur
BULL configuration 1
Configuration A
Prix Hors TGI en CFP
Prix Hors TGI en Euro
1
721 376 XPF
6 045,13 €
4
1 870 284 XPF
15 672,99 €
2 591 660 XPF
21 718,12 €
Prix Hors TGI en CFP
Prix Hors TGI en Euro
Prix unitaire
Nombre
1 serveur avec 2 Xeon
721 376 XPF
4 nœuds avec 2 Xeon chacun
467 571 XPF
Réduction éventuelle
Total Configuration A Hors TGI:
Configuration B
Prix unitaire
Nombre
Réduction éventuelle
1 serveur avec 2 Opteron
1
0 XPF
0,00 €
4 nœuds avec 2 Opteron chacun
4
0 XPF
0,00 €
0 XPF
0,00 €
Prix Hors TGI en CFP
Prix Hors TGI en Euro
408 340 XPF
3 421,89 €
Total Configuration B Hors TGI:
Machine de stockage PC Pentium IV 3.0 Ghz
Délais livraison Durée de la garantie
Prix unitaire
Nombre
408 340 XPF
1
Réduction éventuelle
1 mois 1/2 1 an
Total configuration A + machine stockage:
25 140,01 €
Commentaires : Configuration BULL établie sur la gamme BULL Express5800/ 120Ef SATA (Xeon, config A), avec les spécificités suivantes :
Config A :
Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 cache (serveur) 2 x 1024 MB PC 2100 ECC (serveur) Carte PCI SATA RAID FastTrack S150SX4 (serveur) 2 Disques 250 GB SATA 7200 rpm (serveur) Bi-Pro Xeon 3.06 Ghz/800 MHz 1 Mo L2 cache (noeud) 2 x 1024 MB PC 2700 ECC (noeud)
Cette solution propose les dernières technologies en matière de processeur Xeon pour les nœuds de calcul. La RAM proposée pour les nœuds de calcul ne permet pas de couvrir les performances du bus processeur. Coût modérément élevé en raison de la marque, sans gain notable par rapport à une solution assembleur.
ANNEXE 3 Extrait des notes d’évaluation des performances de calcul des machines disponibles localement en vue de l’implantation du code ROMS au Centre de Nouméa
1. Objet L’objet de cette note est de passer en revue les performances de calculs des moyens informatiques accessibles au département océanographie physique du centre et de proposer, si besoin est, d’autres alternatives de calcul. La note se présente de la manière suivante :
Présentation du modèle ROMS et des logiciels dédiés
Méthodologie et caractéristiques du domaine étudié
Performances obtenues
Perspectives
2. Présentation du modèle de circulation ROMs 2.1. Présentation générale ROMs (= Regional Ocean Modeling System) est développé sous la supervision d’Herman Arango et Dale Haidvogel, de l’université Rutgers (New-Jersey). Au sein de l’IRD, Patrick Marchesiello et Pierrick Penven (UR097, IRD Brest) contribuent également au développement du code. Deux versions de ROMS sont accessibles : La version officielle de ROMS (ROMS V 2.0), distribuée par l’Université de Rutgers. Elle comprend les dernières techniques numériques validées par le groupe de collaborateurs d’Herman Arango. Le code est parallélisé et comprend également un module biologique. Par contre, le code n’offre pas d’option permettant de travailler sur des maillages emboîtés. La version obtenue auprès de l’IRD Brest, ROMS/AGRIF, est le fruit d’une collaboration entre l’IRD, l’INRIA et l’UCLA (University of California at Los Angeles). Cette version est expérimentale, mais reprend les fonctions de ROMS 2.0 en y ajoutant des fonctions nouvelles, notamment pour le traitement des problèmes de circulation en zone côtière ou les conditions aux limites. Ainsi, le code diffère de la version officielle en offrant au moyen de la bibliothèque de fonctions AGRIF des fonctionnalités d’adaptation de la résolution. AGRIF permet de travailler de manière dynamique avec une grille emboîtée dans le modèle parent. Un nouveau schéma de traitement des conditions aux limites y est également incorporé. Ce code est utilisé avec succès dans de nombreux laboratoires.
La version ROMS/AGRIF est utilisée au centre de Nouméa pour les raisons suivantes :
Support technique apporté directement par Patrick Marchesiello et Pierrick Penven
Fonctions d’adaptation de grille et nouvelle condition aux limites particulièrement appropriées et pertinentes eu égard le type d’utilisation du modèle localement
ROMS/AGRIF vient avec une suite d’outils écrits en langage Matlab facilitant les étapes de pré et post-traitement, adaptables si nécessaires
2.2. Le modèle Le modèle ROMS est un modèle 3D qui utilise un schéma aux différences finies. Il est fondé sur la résolution des équations primitives de Navier Stockes qui permettent le calcul des courants, de la température, de la salinité et de l'élévation de la surface libre en utilisant les approximations hydrostatiques, de Boussinesq et d'incompressibilité. Les équations primitives sont appliquées sur un maillage tridimentionnel orthogonal et curviligne sur la sphère. La discrétisation sur la verticale utilise les coordonnées sigma, indépendantes de la profondeur (entre 0 et 1), qui suivent la topographie du fond. L’épaisseur entre chaque niveau est donc variable. La résolution se fait par séparation de mode. Un modèle 2D de surface est couplé au modèle 3D selon un système prédiction-correction afin de considérer séparément les ondes de gravité de surface et les ondes internes. Les ondes externes sont plus rapides, la résolution des équations intégrées sur la verticale nécessite donc un plus petit pas de temps pour respecter le critère de stabilité. La température, la salinité et la concentration d’un traceur quelconque sont calculées en résolvant l’équation de conservation de la masse, de la chaleur ou de la salinité. Ces dernières années, les efforts de développement de ROMS ont porté sur l’incorporation de méthodes numériques plus sophistiquées, permettant un gain de résolution sans augmenter le coût de calcul. Cette recherche d’optimisation est fondée sur l’évolution des architectures des ordinateurs, notamment sur le fait que leur puissance de calculs augmente plus rapidement que la largeur de bande mémoire. Ainsi, l’apport des nouveaux schémas numériques pour l’advection, passant par la résolution numérique d’équations de 3ème ou 4ème ordre, permet par exemple de mieux rendre compte des structures turbulentes, et donc des mélanges des masses d’eau, tout en étant moins sensibles aux effets de gradient. Ces schémas permettent de profiter de la puissance de calcul tout en utilisant les ressources (processeur/mémoire) d’une manière optimale. Conditions aux limites Le type de schéma employé pour tenir compte du traitement de l’information aux limites ouvertes est déterminant sur la convergence de la solution et la qualité des
résultats retournés. ROMS (V 2.0) comporte différents schémas permettant de spécifier le type de conditions aux limites. La condition radiative est la plus employée. Au cours de son séjour à l’Université de Los Angeles (UCLA), Patrick Marchessiello (IRD, UR097) a développé puis incorporé dans le code ROMS/AGRIF une condition radiative dite oblique. La condition radiative oblique permet d’estimer la direction du flux d’information entrant ou sortant aux limites ouvertes, ceci à chaque itération. En configuration de flux entrant, l’information provenant des données hydrologiques est restaurée aux limites, moyennant une procédure de relaxation newtonienne avec un rappel relativement fort (temps de rappel court de l'ordre de quelques jours). En configuration de flux sortant, les données intérieures sont extrapolées aux limites et une relaxation avec un temps de rappel faible (de l’ordre de 1 an) est appliquée. Ces procédures de relaxation permettent l’atténuation des écarts entre les valeurs intérieures et extérieures qui peuvent se manifester au moment de l’inversion du flux, propice au développement d’instabilités numériques.
2.3. Aspects informatiques du code Parallélisation Déjà parallélisé dès les premières versions pour l’utilisation des plateformes à mémoire partagée (Sun, SGI, etc), l’algorithme de calcul fait appel à la bibliothèque d'échanges de messages MPI (Message Passing Interface) pour les architectures à mémoire distribuée (grappe de PC). Les directives OpenMP peuvent également être employées sur les plateformes à mémoire partagée. La technique de parallélisation consiste à partager le domaine de calcul en sous domaines, de manière explicite. Avant compilation du programme, l’utilisateur déclare un nombre de sous domaine égal au nombre de processeurs (ou multiple, pour les plateformes à mémoire partagée). Chaque thread parallèle gère alors de manière autonome son propre sous domaine et est défini une seule fois pour tout le reste de l’exécution du programme. Seules les échanges d’information aux nœuds frontières subsistent. Sur la plateforme biprocesseur testée, la parallélisation est effectuée au moyen des directives OpenMP. Le compilateur fortran Intel version 8 utilisé sous Linux pour les tests supporte l’interprétation des directives OpenMP. Optimisation d’utilisation de la mémoire cache De manière avantageuse, le partitionnement du domaine permet également d’obtenir un gain de temps de calcul en procédant à l’optimisation de l’utilisation du cache du processeur. Le partitionnement permet en effet d’obtenir un jeu de blocs de données associés à chaque sous domaine dont la taille correspond à celle de la mémoire cache. Les performances s’en trouvent améliorées, y compris sur les plateformes monoprocesseurs.
Stratégie de raffinement et méthodes de zoom Le logiciel AGRIF (Adaptive Grid Refinement in Fortran) est associé au modèle ROMS. Moyennant l’utilisation de pointeurs et le renseignement d’un fichier pré-defini de description du modèle, le logiciel AGRIF permet d’ajouter des fonctionnalités d’adaptation de la résolution dans le modèle, sous la forme d’une grille emboîtée dans le domaine parent. Cette fonctionnalité a été ajoutée sur la base de travaux de Laurent Debreu (INRIA) et Eric Blayo (Université de Grenoble). Les efforts portent actuellement sur l’ajout de fonctions de couplage et d’emboîtement de modèles océaniques distincts. Les fonctions du logiciel AGRIF seront testées ultérieurement. 2.4. Outils pré et post-traitement Les outils employés pour la préparation du maillage, la construction des séries temporelles de forçage et d’initialisation du modèle proviennent de la boite d’outils ROMS_TOOLS, développée par l’IRD (Pierrick Penven et Patrick Marchesiello). Les outils développés sous Matlab permettent également la visualisation et l’analyse des sorties du modèle, moyennent l’interface graphique de Matlab et des routines dédiées. Le format des données (entrée et sortie) répond au format netCDF.
3. Méthodologie et caractéristiques du domaine étudié 3.1. Méthode Après une étape de familiarisation avec le code (compilation, préparation, test de convergence, etc.), des tests portant sur la vitesse de calcul ont été exécutés de manière à vérifier dans quelles mesures le parc informatique du centre peut répondre à l’exploitation du code. Pour effectuer les comparaisons entre les différents PC, une grille comprenant 543 780 points portant sur un domaine centré sur la Nouvelle-Calédonie a été soumise aux machines. La résolution du domaine atteint 1/10 °, soit une échelle horizontale d’environ 10 km.
Bathymétrie du domaine régional centrée sur la Nouvelle-Calédonie (Bathymétrie = Etopo2) Grille horizontale : 159 X 171
Profondeur maximale : 7500 m
Niveaux sigma : 20
Profondeur minimale : 10 m
Pas de temps - Mode barocline : 520 s (8.6 minutes)
Pas de temps - Mode barotrope : 13 s
Le code est compilé avec le compilateur fortran 90 d’Intel pour Linux. Les mêmes options de compilation ont été conservées sur les différentes machines. Les caractéristiques des machines testées sont : Tiki Pentium III Biprocesseur PC biprocesseur, Intel Pentium 3, 1002 Mhz, cache 256 ko, SSE oui, SSE2 non, ht non Mémoire : SDR 133 Mhz 1,5 GO
Boris Pentium IV Monoprocesseur PC monoprocesseur, Intel Pentium 4, 1615 Mhz, cache 512 ko, SSE oui, SSE2 oui, ht non Mémoire : DDR 266 Mhz 512 MO
AMD XP Monoprocesseur PC monoprocesseur, AMD Athlon XP, 2029 Mhz, cache 256 ko, SSE oui, SSE2 non, ht non Mémoire : Dual DDR 300 Mhz 1024 MO
Pentium IV P4P8X 2.9 ghz PC monoprocesseur, Intel Pentium 4, 2940 Mhz, cache 512 ko, SSE oui, SSE2 oui, ht oui Mémoire : DDR 333 Mhz 512 MO
3.2. Comparaison des performances Pour apprécier les temps de calcul, les comparaisons de performances sont établies sur la base de l’unité itération, du mois et de l’année. Configuration
CPU
1 itération
1 mois
1 année
36,5 s
50,5 heures
606 heures
Tiki Pentium Monoprocesseur
III
1002 Mhz
Tiki Pentium Biprocesseur
III
2 x 1002 MHZ
13 s
18,0 heures
216 heures
Boris Pentium Monoprocesseur
IV
1615 Mhz
7s
9,7 heures
116.4 heures
AMD XP 2400 +
2029 Mhz
7,6 s
10,5 heures
126 heures
Pentium IV P4P8X
2940 Mhz
4,7 s
6,5 heures
78 heures
Le code tire le meilleur partie de la technologie pentium IV avec un cache à 512 ko. On notera que le processeur AMD XP Athlon cadencé 2.0 Ghz n’apporte pas d’aussi bonnes performances qu’un Pentium 4 cadencé à 1,6 Ghz, ce dernier bénéficiant d’un cache supérieur. Il apparaît également que la fonction de partitionnement du domaine apporte un gain de performance appréciable, que ce soit pour une machine biprocesseur ou monoprocesseur. Ces gains sont illustrés ci-après, en jouant sur différentes combinaisons de partition du domaine : Machine monoprocessseur
Dépassement de pile
10 8 6 4 2
Partition du dom aine en Latitude et Longitude
24 1
X
22 X 1
1
X
20
18 1
X
14 X 1
1
X
10 1
X
2 X
12
0 1
seconde/itération
Effet du partitionnement Boris, pentium IV (monoprocesseur)
Machine biprocesseur
X 20
20
X
20
30
20 10
X
10 10
X
X 8
X 6
X 2
8
6
30 25 20 15 10 5 0 2
seconde/itération
Effet du partitionnement Tiki, pentium III (biprocesseur)
Partition du dom aine en Latitude et Longitude
Dans cet exemple, un gain de facteur 2 et 1.3 est obtenu respectivement sur les machines pentium biprocesseur et monoprocesseur testées.
4. Perspectives Malgré le manque de recul sur les aspects informatiques du code, il apparaît que les dernières machines du Centre équipées de processeur pentium IV sont suffisantes pour son exécution sur des domaines à moyenne échelle, dans le cas d’une résolution inférieure à 1/10 ° et des périodes de 1 à quelques mois. Par exemple, 6 mois de simulation sur une machine cadencée 1.6 Ghz nécessiterait 2,5 jours. Sur une plateforme cadencée à 3 ghz (testée les jours à venir), il est probable que le résultat soit obtenu en moins de 36 heures. Au-delà, dans le cadre de l’étude affinée de processus côtiers nécessitant l’emploi de maillage imbriqué avec une résolution plus fine (2 à 3 km) et pour des périodes d’intégration plus longue (recherche d’un état d’équilibre, nécessitant plusieurs années d’intégration, par exemple), les temps de calculs deviennent difficilement gérables. Les solutions envisageables sont alors celles pour lesquelles le code est prévu, multiprocesseur ou grappe de PC (cluster), cette dernière solution permettant de bénéficier de processeurs plus rapides que ceux disponibles sur les plateformes multiprocesseurs.
ANNEXE 4 Le modèle hydrodynamique Mars 3D Il s'agit d'un algorithme de calcul des courants marins, des hauteurs d'eau, et des concentrations en éléments solubles (ou en suspension temporaire) transportés par les courants. Mars est composé de : -
un noyau de calcul opérationnel en version 2D et 3D qui, dans un souci de meilleure précision, de minimisation des temps de calcul et de facilité d'emploi, adopte une méthode en différences finies sur un maillage régulier.
-
un pré-processeur nommé IMars dont les fonctions essentielles sont la gestion et l'intégration aisées des paramètres et données d’entrée qui servent à l'activation du code de calcul. IMars permet également un contrôle en temps réel de l’évolution de variables hydrodynamiques modélisées.
-
un post-processeur, ou programme d'exploitation graphique des résultats de Mars nommé VisuMars mis à la disposition des utilisateurs du logiciel de modélisation hydrodynamique côtière qui ne possèdent pas d'interface avec le SIG Arc View. Il permet de présenter les résultats de calculs déjà réalisés (ou en cours de calcul) sous forme de courbes et de cartes. Il permet aussi des calculs spécifiques d'interprétation (trajectoires, etc…)
Mars effectue le calcul des courants, des hauteurs d'eau et des concentrations en substances dissoutes, dans un écoulement liquide plan, quasi-horizontal. La forme des fonds peut être absolument quelconque et comporter un nombre quelconque de chenaux, îles, hauts fonds, bancs découvrants et estrans. MARS permet de modéliser sous forme de calculs instantanés ou de synthèses (valeurs moyennes, maxi, mini…) les grandeurs suivantes : - le courant (composantes U et V) et les résiduelles eulériennes, - la hauteur du plan d'eau, les niveaux moyens et les composantes harmoniques de marée, - la salinité, - des constituants provenant de rejets (par exemple les coliformes fécaux), - le transport sédimentaire et les dépôts. Il produit pour chaque zone étudiée une base de données dont les résultats sont stockés sous la forme d'une série temporelle de vecteurs et de scalaires en coordonnées géographiques. On se limitera dans ce qui suit à la description puis aux applications de la version 2D du modèle.
On démontre que les calculs réalisés par le modèle nécessitent l’utilisation de trois types d'information : - La topographie du domaine (fournie ici par une matrice des profondeurs). - Les conditions aux limites sur les frontières ouvertes du domaine. Pour la partie hydraulique, on utilisera des conditions aux limites fortes de dénivellation et des conditions faibles de vitesse des courants. - Les flux d'eau et de matière dissoute (ou en suspension) à l'intérieur du domaine (rivières, émissaires ...)
Les hypothèses du calcul valables en 2D sont les suivantes : -
-
La composante horizontale du courant ne varie pas beaucoup depuis la surface jusqu'à proximité du fond (courant de masse). Le modèle dans sa version 2D calcule la moyenne des courants sur la verticale et cette valeur moyenne a une forte signification physique. Les vitesses verticales sont faibles.
Sous ces hypothèses, les lois qui décrivent le comportement physique du système, à savoir le second principe de Newton et la loi de conservation de la masse se traduisent par le système d'équations dit de Saint-Venant :
∂ 2u ∂ 2u ∂u ∂u ∂u u u 2 + v 2 ∂Pa τ x ∂ζ +u +v +g − fv − ε 2 + 2 + g + + =0 ∂t ∂x ∂y ∂x ∂y k 2H 4/3 ∂x ρH ∂x ∂ 2v ∂ 2v ∂v ∂v ∂v ∂ζ v u 2 + v 2 ∂Pa τ y +u +v +g − fu − ε 2 + 2 + g 2 4 / 3 + + =0 ∂t ∂x ∂y ∂y ∂y k H ∂y ρH ∂x ∂ζ ∂ ( Hu ) ∂ ( Hv ) + + =0 ∂t ∂x ∂y U V
ζ f kr H
composante de la vitesse selon Ox composante de la vitesse selon Oy cote de la surface libre facteur de Coriolis coefficient de frottement de fond, de Strikler hauteur de la colonne d'eau
Ce système est complété par l'équation de transport-diffusion-décroissance d'un élément chimique (ou assimilé) transporté en suspension :
∂C ∂C ∂ HKx ∂ HKy ∂y ∂ ( HC ) ∂ ( HUC ) ∂ ( HVC ) ∂x + − − + lHC + S = 0 ∂t ∂x ∂y ∂x ∂y C K L S
Concentration en une substance dissoute Coefficient de diffusion horizontale Coefficient de décroissance propre Source
Mars intègre ces équations différentielles de manière totalement automatique, quelle que soit la forme du domaine, qui peut d'ailleurs évoluer dans le temps (zones découvrantes, murs immergés, etc…). Un modèle mathématique doit offrir une représentation de la réalité d'autant plus fine et précise que l'on se situe sur la zone d'intérêt. A cette fin le modèle Mars utilise une technique d'emboîtement de modèles sous forme gigogne. Par cette technique un modèle de grande emprise et de grande maille contient lui même un ou plusieurs sous modèles (loupes). Ces derniers reçoivent des modèles qui les précèdent, les conditions aux limites sur leur périmètre.
Au plan spatial les modèles intermédiaires possèdent une maille environ 4 fois plus petite que celle du modèle précédent. Le modèle de grande emprise s'étend jusqu'au plateau continental et trouve ses conditions aux limites dans la valeur des ondes générant la marée au large. Un forcing météorologique peut être pris en compte sur toute la surface du modèle et ses éventuelles loupes successives. La figure ci-après présente l'emboîtement de quatre niveaux de modèles construits dans le cas de l'étude de deux zones d'intérêt : régions du nord de La Rochele et de La Tremblade - Marennes Oléron au sud.
Roch 2
Roch1
Roch 3 Roch
4
Roch
4
Principe de l'emboîtement de modèles : cas des zones La Rochelle (Roch 4 Nord) et La Tremblade - Marennes Oléron (Roch 4 Sud).
ANNEXE 5 A propos du processeur AMD Opteron Premier processeur 32 bits et 64 bits au monde à être compatible avec l'architecture x86, le processeur AMD Opteron s'appuie sur la technologie AMD64 et Direct Connect Architecture. L'architecture Direct Connect permet de supprimer les goulots d'étranglement inhérents à l'existence d'un bus système en connectant directement les processeurs, le contrôleur mémoire et les E/S au processeur central, afin d’améliorer les performances et l'efficacité globale du système. AMD a également été le premier constructeur à annoncer la réalisation d’une conception de processeur x86 double cœur destiné à l’informatique 64 bits.