descriptif des besoins de calculs scientifiques sur architecture dediee

rÃ©gion sont intÃ©ressÃ©s par des simulations numÃ©riques dans leur lagon ou ..... PrÃ©paration et validation des donnÃ©es climatologiques disponibles et runs pour.

Télécharger le PDF

382KB taille 39 téléchargements 474 vues

commentaire

Report

DESCRIPTIF DES BESOINS DE CALCULS SCIENTIFIQUES SUR ARCHITECTURE DEDIEE

Institut de recherche pour le développement

DEMANDE DES UNITES DE RECHERCHE 103 ET 65 DU CENTRE DE NOUMEA, SEPTEMBRE 2004

Groupe de travail Pascal Douillet, resp. Scientifique UR 103 ([email protected]) Alexandre Ganachaud, resp. Scientifique UMR 65 ([email protected]) Jérôme Lefèvre, resp. Informatique UMR 65 / UR 103 ([email protected]) Michel Ménézo, resp. Informatique IRD, Centre Nouméa ([email protected])

Avec la participation de : Franck Delmas, IFREMER Brest (Code MARS 3D) Patrick Marchesiello, IRD Brest (Code ROMS)

SOMMAIRE 1. Objet....................................................................................................................... 2 2. Besoins en calculs intensifs des UR 65 (Legos) et 103 (Camelia).................... 3 2.1. Thèmes de recherche de l’UMR 65 .................................................................. 3 2.2. Thèmes de recherche de l’UR 103 ................................................................... 5 2.3. Les types d’utilisation ....................................................................................... 8 3. Définition du matériel informatique adapté aux besoins................................... 9 3.1. Critères de définition......................................................................................... 9 3.2. Configuration matérielle proposée et offres.................................................... 10 3.3. Avantages / inconvénients.............................................................................. 14 3.3. L’offre OS ....................................................................................................... 15 3.4. Compétences et demande d’assistance ........................................................ 17 4. Exemple de plateformes de calcul dédiées à la dynamique des fluides installées dans d’autres organismes de recherche publique en France ........... 18 4.1. Tour d’horizon des plateformes de calcul ....................................................... 18 4.2. Quelques exemples de plateformes utilisées pour des applications CFD (Computational Flow Dynamic).............................................................................. 18 Bibliographie ........................................................................................................... 20

ANNEXE 1 Détail des deux configurations matérielles fondées sur des nœuds bi-processeurs ANNEXE 2 Dépouillement des offres commerciales ANNEXE 3 Extrait des notes d’évaluation des performances de calcul des machines disponibles localement en vue de l’implantation du code ROMS au Centre de Nouméa ANNEXE 4 Le modèle hydrodynamique Mars ANNEXE 5 A propos du processeur AMD Opteron

Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004

1

1. Objet Le présent dossier expose les besoins en matériel de calcul scientifique intensif exprimés par les UR 103 (CAMELIA) et UMR 65 (LEGOS) du centre IRD de Nouméa. Les activités de recherche des UR 103 et 65, axées respectivement sur les conséquences des activités anthropiques sur les eaux marines côtières en milieu tropical insulaire et sur l’étude de la circulation océanique à l’échelle du Pacifique Sud-Ouest, emploient des modèles numériques de circulation à grande et petite échelle, basés sur la méthode des différences finies. Les échelles des phénomènes étudiés et des domaines couverts nécessitent un minimum de moyens de calcul pour être effectués sur place. Les récentes et futures simulations portent également sur l’intégration dans les modèles de circulation de modules sédimentaires, biologiques et géochimiques, certains mis au point localement. Ces développements impliquent une augmentation de la charge de calcul, assurée jusqu’ici au moyen de station de travail. Les besoins actuels et exprimés à court terme impliquent des délais de calcul déraisonnables avec les moyens actuels. D’autre part, les pays insulaires de la région sont intéressés par des simulations numériques dans leur lagon ou autour, et le renforcement de projet régionaux impliquera une augmentation des demandes locales. Ce dossier expose en première partie les besoins de chaque UR, replacés dans le contexte scientifique et technique. En seconde partie, une étude technique présente le matériel informatique que nous croyons adapté à ces besoins et les compétences nécessaires pour sa mise en place et son administration. Des tableaux financiers accompagnent l’évaluation des solutions retenues ainsi que leur principaux avantages/inconvénients. Le troisième volet présente des exemples de solutions de calculs, utilisés dans le cadre de thématiques scientifiques similaires.

Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004

2

2. Besoins en calculs intensifs des UR 65 (Legos) et 103 (Camelia) Les deux UR ont en commun d’employer des codes de calcul portant sur la modélisation de la circulation hydrodynamique, avec le modèle ROMS (Regional Ocean Modelling System) pour l’extérieur du lagon (UMR 65) et M A R S pour l’intérieur du lagon (UR 103).

2.1. Thèmes de recherche de l’UMR 65 Le groupe ECOP rattaché au Laboratoire en Etudes Géophysiques et Océanographie Spatiale (LEGOS) développe actuellement une étude de la circulation océanique régionale sur l'ensemble du Pacifique Sud-Ouest avec un zoom autour de la Nouvelle Calédonie et des îles de Polynésie Française. Cette étude inclura des mesures satellites. En 2005, un modèle opérationnel devrait être produit, imbriqué dans les champs de prévision du projet opérationnel Français MERCATOR. L’exercice de ces thématiques nécessite l’emploi d’un modèle numérique de circulation capable à la fois de restituer la réponse des phénomènes climatiques de variabilité annuelle et inter-annuelle observée à l’échelle régionale et rendre compte de la circulation côtière à l’approche des archipels de NouvelleCalédonie et de la Polynèsie Française. Les enjeux économiques pour les activités de pêche hauturières et les activités environnementales nécessitent d’aboutir à une restitution et une prévision de l’évolution des fronts thermiques et halins et des champs de vitesse à une échelle côtière. Ce projet d'océanographie côtière est cofinancé par le programme ZoNeCo (Nouvelle Calédonie), le Ministère de l'Outre Mer et l'IRD. Le modèle ROMS a été retenu dans le cadre de ces chantiers. Ce code 3D et qui emploi un schéma aux différences finies, est développé sous la supervision d’Herman Arango et Dale Haidvogel (Université Rutgers, New-Jersey). Au sein de l’IRD, Patrick Marchesiello et Pierrick Penven (UR097, IRD Brest), apportent leur contribution à l’évolution du code. Parmi les dernières options innovantes du code, citons les fonctions de zoom et de raffinement (logiciel AGRIF, INRIA) issues du travail collaboratif entre l’IRD, l’INRIA et l’UCLA (University of California at Los Angeles). Cet outil, à condition de disposer de moyens de calculs adaptés, permet de concevoir sereinement la modélisation des écoulements côtiers à une échelle appropriée (de l’ordre de 1 à 2 km à la côte et 10 km au large) en recourant aux fonctions de zoom. Aspects informatiques du code Dès les premières versions, le code a été parallélisé pour bénéficier des plateformes à mémoire partagée (Sun, SGI, etc). Le code comprend les directives OpenMP, pour être employé sur ce type de plateforme.

Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004

3

L’algorithme de calcul fait également appel à la bibliothèque d'échanges de messages MPI (Message Passing Interface) pour les architectures à mémoire distribuée (grappe de PC). La technique de parallélisation consiste à décomposer le domaine de calcul en sous domaines, de manière explicite. Avant compilation du programme, l’utilisateur déclare un nombre de sous domaine égal au nombre de processeurs (ou multiple, pour les plateformes à mémoire partagée). Chaque processus parallèle gère alors de manière autonome son propre sous domaine et est défini une seule fois pour tout le reste de l’exécution du programme. La méthode de parallélisation est particulièrement efficace et offre une grande ‘’scalabilité’’ (augmentation linéaire de la performance avec le nombre de processeurs). Localement, le compilateur fortran Intel Version 8 (qui supporte les directives OpenMP) a été employé pour des tests préliminaires (cf Annexe 3). Le code a été exécuté en mode parallèle sur un bi-processeur Pentium III sous Linux et les performances comparées avec des plateformes monoprocesseurs plus récentes. Les temps de calcul obtenus sur une grille comportant 544 000 points sont les suivants : Fig.1 Temps de calcul observés pour 3 machines testées au centre de Nouméa Configuration Tiki Pentium III Bi-Processeur

Nb CPU

1 itération

1 mois

1 année

1002 Mhz, cache 256 ko, SSE oui, SSE2 non, HT non Mémoire : SDR 133 Mhz 1,5 GO

1 x 1002 Mhz

36,5 s

50,5 heures

606 heures

2 x 1002 MHZ

13 s

18,0 heures

216 heures

Boris Pentium IV

1 x 1615 Mhz

7s

9,7 heures

116.4 heures

1 x 2940 Mhz

4,7 s

6,5 heures

78 heures

1615 Mhz, cache 512 ko, SSE oui, SSE2 oui, HT non Mémoire : DDR 266 Mhz 512 MO

Pentium IV P4P8X 2940 Mhz, cache 512 ko, SSE oui, SSE2 oui, HT oui Mémoire : DDR 333 Mhz 512 MO

Les résultats obtenus au cours des tests mettent en relief : - le gain évident de performance de calcul en mode parallélisé (Fig. 1), qui montre les perspectives d’augmentation de la vitesse d’exécution sur un cluster composé de machines récentes, qui plus est composé de nœud bi-processeur - le gain appréciable apporté par le partitionnement du domaine, qui permet d’aboutir à un jeu de bloc de données de taille équivalente à la mémoire cache. L’exécution du code s’en trouve améliorée (cf. Annexe 3).

Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004

4

Adéquation des moyens avec les objectifs Il apparaît que les dernières machines du Centre constituées de pentium IV monoprocesseur sont suffisantes pour l’exécution du code sur des domaines à moyenne échelle, dans le cas d’une résolution inférieure à 1/10° et des périodes simulées de quelques mois. Par exemple, 6 mois de simulation sur une machine cadencée à 3 GHz nécessiterait 36 heures. Au-delà, dans le cadre de l’étude affinée de processus côtiers nécessitant l’emploi de maillages imbriqués avec une résolution plus fine (1 à 2 km) et pour des périodes d’intégration plus longue (recherche d’un état d’équilibre, nécessitant plusieurs années d’intégration, par exemple), les temps de calculs deviennent difficilement acceptables. En effet, les fonctions de zoom pénalisent l’exécution du code, en fixant un pas de temps adapté avec la maille la plus petite. De même, si l’on active les modules biologique, sédimentaire et biochimique. Les solutions envisageables sont alors celles pour lesquelles le code est prévu, multiprocesseur ou grappe de PC (cluster).

2.2. Thèmes de recherche de l’UR 103 L’Unité de Recherche 103 (Camélia) étudie l’influence des apports terrigènes et anthropiques sur les lagons de Nouméa et de Suva (Fidji). Les principales questions scientifiques posées sont les suivantes : Quels sont les mécanismes de transport et de transformation des principaux agents d’influence terrigènes et anthropiques au niveau de la zone côtière tropicale ? Quels sont les effets des apports terrigènes et anthropiques en terme d’eutrophisation des systèmes et de bioaccumulation des métaux dans les organismes marins ? Dans quelle mesure la modélisation permet-elle de rendre compte de ces mécanismes de transport et de transformation ?

L’UR Camélia a pour objectif principal de déterminer comment l’homme influence les écosystèmes littoraux du Pacifique. Dans ce cadre, Camélia s’intéresse plus spécifiquement aux apports :

en particules entraînées par l’érosion des sols et sous-sols qui sont responsables du processus d’hypersédimentation,

en éléments nutritifs organiques et inorganiques qui sont responsables du processus d’eutrophisation,

en métaux qui peuvent s’avérer potentiellement toxiques pour les organismes vivant dans le lagon.

Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004

5

Les actions de recherche ont été définies de façon à apporter des réponses aux questions scientifiques suivantes :

Quels sont les mécanismes de transport et de transformation des principaux agents d’influence terrigènes et anthropiques au niveau de la zone côtière tropicale ?

Quels sont les effets des apports terrigènes et anthropiques en terme d’eutrophisation des systèmes et de bioaccumulation des métaux dans les organismes ?

Dans quelle mesure la modélisation permet-elle de rendre compte de ces mécanismes de transport et de transformation ?

Pour répondre à ces questions, l’UR à mise en place un réseau de modèles numériques couvrant les différents domaines de recherche. A la base, nous avons développé un modèle hydrodynamique du lagon sud-ouest à partir du modèle MARS3D de l’IFREMER, le modèle de génération et de propagation des vagues WaveWatch III a ensuite été adjoint. Depuis nous avons couplé à ces deux modèles un modèle de transport des vases et sables. Un modèle de production primaire couplé au modèle hydrodynamique est en cours de développement dans le cadre de la thèse de Vincent Faure (Univ. Marseille) et devrait être opérationnel début 2005. Enfin l’UR travaille sur les possibilités d’adaptation d’un modèle atmosphérique à la Nouvelle-Calédonie et au lagon sud-ouest.

Bathymétrie

Marée

1980-90’s

1998

Circulation mésoéchelle

Vent Modèle 3D 2004

Courants Modèle 3D 1999

Vagues Turbulence l -> k-l 2004

Modèle Wavewatch III 2002-2003

Transport particulaire Modèle ‘Vases’ 2000-2003 Modèle ‘Sables’ 2001-…

Modèle Biogéochimique

Fig. 1 Organisation des activités de modélisation physique au sein de l’UR Camélia. La circulation mésoéchelle n’a pas d’influence sur la circulation dans le lagon sudouest, qui n’est ouvert à l’extérieur qu’au niveau des passes.

Le modèle MARS 3D (Cf. Annexe 4) est un modèle tri-dimensionnel qui utilise un schéma aux différences finies à surface libre. Il est développé par l’IFREMER Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004

6

(Pascal Lazure), qui l’applique sur les façades côtières Française. Les équations hydrodynamiques sont portées sur un maillage isotrope. Le code comporte également des fonctions de zoom et de raffinement (Logiciel AGRIF). L’outil est destiné à servir de module hydrodynamique principal appliqué au lagon de NouvelleCalédonie et de Fidji. Les développements portent sur l’intégration de modules particulaires, biologiques et bio-géochimiques. …. Le modèle du lagon sud-ouest de Nouvelle Calédonie couvre une zone de 170 km de long sur 50 km de large. Les grilles du maillage ont actuellement une taille de 500 mètres mais seront augmentées de manière à s’adapter à la physique des phénomènes étudiés et à la bathymétrie, marquée par de fort gradient de pente. La résolution verticale est de 21 niveaux. Les travaux de mise au point et de couplage au modèle hydrodynamique des modules particulaires, biologiques la prise en compte de nouveaux paramètres tel le déplacement des larves aboutira à une augmentation des paramètres et des équations à résoudre numériquement. L’étude du transport particulaire et de la production primaire est au stade de la compréhension des processus. Cette phase implique la multiplication des runs avant d’aboutir à des modèles calibrés et validés. Aspects informatiques du code La version officielle du code MARS 3D incorpore déjà les directives de compilation OpenMP permettant son exécution parallèle sur une architecture à mémoire partagée. Franck Dumas (IFREMER) développe actuellement la version MPI de MARS. Les tests réalisés sur un cluster de PC montre une bonne performance d’exécution du code (speed-up de l’ordre de 13 pour une configuration 16 processeurs) et des conditions de simulation réalistes sur grande grille (400 x 500 mailles). Bien que le projet soit à l’état de prototype, une version exécutable sur plateforme à mémoire distribuée devrait être disponible dans quelques mois.

Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004

7

2.3. Les types d’utilisation Les objectifs d’études de la circulation côtière mobilisant la ressource de calculs se traduisent par exemple de la manière suivante pour le code ROMS (UMR 65) : Courant 2004, 2ème semestre

- Etude des événements d’Upwelling : Identification des sources de forçage et réponse hydrodynamique du phénomène sur la côte Ouest de la Nouvelle-Calédonie. Scénarios saison froide / saison chaude pour différentes conditions de vent. - Développement du modèle ROMS sur un maillage fermé par les latitudes 10°S et 26°S et par les longitudes 153° et 180°E autour de la Nouv elle-Calédonie. Elaboration d’une bathymétrie adaptée aux échelles des domaines et phénomènes physiques étudiés. Préparation et validation des données climatologiques disponibles et runs pour vérification préliminaire de la qualité des solutions. Courant 2005 (Sous condition de moyens de calculs dédiés)

- Préparation des maillages emboîtés par méthode de zoom (passage progressif de 10 km à une résolution à la cote de 1 km) et vérification des conditions de convergence / critères de stabilité aux zones frontières. - à partir d’une solution stable, étude de la circulation côtière sous l’effet du vent, des flux de chaleur, de la marée .... Amélioration des connaissances sur les phénomènes côtiers localisés (Upwelling, dynamique des structures thermo-halines, ondes internes, variabilité saisonnière des champs de température et courant …). Scénario et runs tests pour analyse des processus et qualité des solutions en fonction des données climatologiques et de forçage 2005/2006

- Extraction des conditions aux limites de MERCATOR sur la zone régionale (Utilisation de l'interface développée par P. Marchesiello, Pierrick Penven et V. Echevin (IRD)). Etablissement d’une circulation générale stable et cohérente et analyse de la circulation basse et haute fréquence, apport du forçage océanique sur les conditions de circulation côtière. Validation / Calibration des solutions - Etablissement d’une plateforme d’Océanographie opérationnelle appliquée à la Nouvelle-Calédonie. Cette démarche appliquée à la Nouvelle-calédonie est également prévue dans le cas de l’étude de la circulation côtière dans la ZEE de la Polynésie Française.

Dans le cas du code MARS 3D (UR 103), les différentes étapes de mise au point des modèles et de leur calage mobiliseront la ressource dans une proportion équivalente. La mise au point du modèle de production primaire, sa validation à l’aide d’imagerie spatiale nécessitera en 2005 l’utilisation intensive de ce cluster. Le développement du modèle atmosphérique demandera, pour sa mise au point, de fortes capacités de calcul en 2005 et 2006. En 2005 et 2006 les résultats du chantier Calédonien, en terme de modèle, seront transposé au chantier Fidjien. Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004

8

3. Définition du matériel informatique adapté aux besoins 3.1. Critères de définition Le matériel est principalement dédié au calcul scientifique intensif, faisant interface entre les ressources des centres de calcul nationaux et les applications régionales.

Nœuds de calcul

CLUSTER

SWITCH Gigabit

Connection Gigabit

Serveur de calcul

Sauvegarde rapide sur SATA Raid 0

(job, serveur de fichiers)

Connection Gigabit

Sauvegarde sécurisée sur SATA en Raid 1 Frontale (exploitation des données)

Connection vers le centre

Fig. 2 Synoptique de l’architecture de calcul envisagée La performance de calcul (précision et rapidité) est particulièrement recherchée. Le calculateur disposera d’un réseau de communication privé à haut débit, desservant les nœuds de calculs. Le calculateur est doté d’un système de sauvegarde rapide des données en cours de simulation (1er niveau), moyennant les ressources du serveur de calcul. Une sauvegarde de 2nd niveau, visant la sécurité des données, est effectuée sur une machine frontale. Les données sauvegardées sur les disques ‘’mirorés’’ du frontal concernent principalement les sorties validées des modèles et les tableaux de données employées pour l’alimentation des modèles. La solution devra offrir une souplesse d’évolutivité en fonction de la montée en puissance des besoins de calculs, avec possibilité d’ajout de nœuds de calcul par exemple. Une maintenance réduite et un remplacement des pièces défectueuses avec des pièces accessibles localement constituent également un critère important, compte tenu de la position géographique du Centre. L’architecture doit être compatible et offrir une bonne performance vis-à-vis des problèmes soumis et des méthodes de parallélisation adoptées dans les codes.

Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004

9

Côté administration, le système doit offrir une ergonomie d’installation, de surveillance, de mise à jour (logiciel et matériel) et correspondre si possible à des solutions OS déjà connues au Centre (solutions Redhat, Mandrake). En outre, il devra permettre de gérer une architecture homogène ou hétérogène, dans le cas par exemple de l’incorporation de nœuds de calcul basés sur une technologie différente. L’architecture proposée est un cluster ‘‘Beowulf’’ de classe I, composé de nœuds mono et/ou bi-processeur. Le cluster de classe I est composé de PC accessibles dans les magasins informatiques grand public et auprès des assembleurs. Ces solutions sont couramment utilisées dans les laboratoires de calculs, notamment dans les domaines des Sciences de la mer, de la Terre, du Climat, de l’Environnement, en génie Bio-Médicale, Mécanique des structures etc...

3.2. Configuration matérielle proposée et offres La configuration matérielle proposée est basée sur les configurations similaires utilisées dans les centres de calculs employant des clusters de PC. Les dernières technologies en la matière disponibles sur le marché et réputées fiables sous Linux sont également considérées (carte mère, processeur, switch, carte raid etc.). Pour l’évaluation budgétaire de la solution, 2 pistes ont été explorées :

L’évaluation de 3 configurations sur la base des prix du marché métropolitain augmenté de 30 % pour taxe et frais d’expédition (source : www.LDLC.fr, vente en ligne)

L’évaluation de 2 configurations sur la base des prix du marché local, après consultation des fournisseurs

Une description plus complète des configurations matérielles fondées sur des nœuds bi-processeurs figure en Annexe 1.

Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004

10

A / Résultats des configurations issues des consultations en ligne, marché métropolitain Les 3 configurations proposées, par ordre décroissant de performance (et de coût), sont les suivantes : Configuration 1 : Serveur Bi-Opteron 2.0 Ghz + 4 Nœuds Bi-Opteron 2.0 Ghz Master 2 opterons 246 2.0 ghz MB : Tyan K8S PC3200 4 x 512 Mo 4 DD serial ATA 200 Go + contrôleur raid 0 Carte ATI entrée de gamme Ecran 17’’, clavier … OS : ROCKS / OSCAR / CLIC

Nœuds 2 opterons 246 2.0 ghz MB : Tyan K8S PC3200 4 x 512 Mo DD ATA 40 Go Réseau SWITCH 3COM 12 ports 24 Gbps Wirespeed Cartes PCI Gigabit Cuivre Full Duplex, câble …

Prix indicatif : 18 000 Euros *

Configuration 2 : Serveur Bi-Xeon 3.0 Ghz + 4 Nœuds Bi-Xeon 3.0 Ghz Master 2 x Xeon 3.0 cache 512 FSB 533 MB : ASUS PC-DL Deluxe PC3200 4 x 512 Mo 4 DD serial ATA 200 Go + contrôleur raid 0 Carte ATI entrée de gamme Ecran 17’’, clavier … OS : ROCKS / OSCAR / CLIC

Nœuds 2 x Xeon 3.0 cache 512 FSB 533 MB : ASUS PC-DL Deluxe PC3200 4 x 512 Mo DD ATA 40 Go Réseau SWITCH 3COM 12 ports 24 Gbps Wirespeed Cartes PCI Gigabit Cuivre Full Duplex, câble …

Prix indicatif : 15 600 Euros * Configuration 3 : Serveur Bi-Xeon 3.0 Ghz + 8 Nœuds Pentium IV 3.0 Ghz Master 2 x Xeon 3.0 cache 512 FSB 533 MB : ASUS PC-DL Deluxe PC3200 4 x 512 Mo 2 DD serial ATA 200 Go + contrôleur raid 0 Carte ATI entrée de gamme Ecran 17’’, clavier … OS : ROCKS / OSCAR / CLIC

Nœuds Pentium IV 3.0 512 FSB 800 MB : ASUS P4P800 PC3200 4 x 512 Mo DD ATA 40 Go Réseau SWITCH 3COM 12 ports 24 Gbps Wirespeed Cartes PCI Gigabit Cuivre Full Duplex, câble …

Prix indicatif : 15 000 Euros * A ces coûts s’ajoute le serveur frontal. Ce serveur permet la sauvegarde sécurisée des données sur disques ‘’mirorés’’ (disques sata 400 Go) et leur consultation/exploitation, sans pénaliser l’exécution des sessions de calculs. Il est

Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004

11

doté de deux cartes réseaux gigabit, l’une reliée au réseau du centre, l’autre au serveur de calcul : Frontale (commune aux trois configurations proposées) Frontale Pentium IV 3.0 512 FSB 800 MB : ASUS P4P800 PC3200 4 x 512 Mo 2 DD SATA 400 Go + contrôleur raid 1 Carte ATI 9600 256 Mo Ecran 19’’, graveur DVD, clavier … 2 cartes PCI Gigabit OS : Mandrake

Prix indicatif : 2 100 Euros * * Les évaluations financières sont établies sur la base des tarifs HT des composants en France + 30 % (frais de port et taxe)

Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004

12

B / Résultats des consultations locales Les deux premières configurations précédentes, cluster composés de bi-processeurs Xeon ou Opteron, ont été soumises pour évaluation auprès des fournisseurs de la place. Les configurations matériels objets des consultations sont détaillées en Annexe 1. Le résultat du dépouillement des offres commerciales se trouve en Annexe 2. La synthèse est restituée ci-dessous. En jaune figure la proposition commerciale nous paraissant offrir le meilleur compromis Coût / Performance. Fournissseur Configuration A dual Xeon + Frontale

Spécificités

Performances Configuration B dual Opteron + Frontale

Spécificités

Performances Commentaire Fournissseur Configuration A dual Xeon + Frontale

Spécificités

Performances Configuration B dual Opteron + Frontale

Spécificités

Performances Commentaire

Barrau Bureau

Barrau Bureau

Bull

48 392,84 €

35 824,51 €

25 140,01 €

Bi-Pro Xeon 3.6 Ghz/800 MHz 1Mo L2 (serveur) 2 X 512 MB PC 3200 ECC (serveur) IBM ServerRaid SATA Controller (serveur) 2 Disques IBM 160 GB SATA 7200 RPM (serveur) Bi-Pro Xeon 3.4 Ghz/800 MHz 1MB L2 (noeud) 2 X 512 MB PC 3200 ECC (noeud)

Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 (serveur) 4 x 512 MB PC 2100 ECC (serveur) Adaptec SATA RAID Controller (serveur) 2 Disques Seagate 200 GB SATA (serveur) Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 (noeud) 4 x 512 MB PC 2100 ECC (noeud)

Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 (serveur) 2 x 1024 MB PC 2100 ECC (serveur) Carte PCI SATA RAID FastTrack S150SX4 (serveur) 2 Disques 250 GB SATA 7200 rpm (serveur) Bi-Pro Xeon 3.06 Ghz/800 MHz 1 Mo L2 (noeud) 2 x 1024 MB PC 2700 ECC (noeud)

+++

++

++

45 306,49 €

37 240,73 €

/

Bi-Pro Opteron 248 2.2 Ghz 1Mo L2 (serveur) 2 X 512 MB PC 3200 ECC (serveur) IBM ServerRaid SATA Controller (serveur) 2 Disques IBM 160 GB SATA 7200 RPM (serveur) Bi-Pro Opteron 246 2.0 Ghz 1Mo L2 (noeud) 2 X 512 MB PC 3200 ECC (noeud)

++++ Solution IBM IntelliStation Haut de gamme Office Plus 19 022,61 € Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 (serveur) 4 x 512 MB PC 3200 ECC (serveur) Carte Adaptec SATA RAID 2410 SA Controller (serveur) 2 Disques 200 GB SATA (serveur) Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 (noeud) 4 x 512 MB PC 3200 ECC (noeud)

Bi-Pro Opteron 246 2.0 Ghz 1Mo L2 (serveur) 2 x 512 MB PC 3200 ECC (serveur) Adaptec SATA RAID Controller (serveur) 2 Disques Seagate 200 GB SATA (serveur) Bi-Pro Opteron 246 2.0 Ghz 1Mo L2 (noeud) 2 X 512 MB PC 3200 ECC (noeud)

+++ Solution IBM IntelliStation Version Solution BULL Express5800 "économique" Office Plus

Cyber Media

31 290,93 € Bi-Pro Xeon 3.06 Ghz/800 MHz 1 Mo L2 (serveur) 4 x 512 MB PC 3200 ECC (serveur) Carte Adaptec SATA RAID 2410 SA Controller (serveur) 2 Disques 250 GB SATA 7200 rpm (serveur) Bi-Pro Xeon 3.06 Ghz/800 MHz 1 Mo L2 (noeud) 4 x 512 MB PC 3200 ECC (noeud)

17 043,18 € Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 (serveur) 4 x 512 MB PC 3200 ECC (serveur) Carte Adaptec SATA RAID 2410 SA Controller (serveur) 2 Disques 200 GB SATA 7200 rpm (serveur) Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 (noeud) 4 x 512 MB PC 3200 ECC (noeu

++

+++

++

22 626,01 €

/

/

Bi-Pro Opteron 246 2.0 Ghz 1Mo L2 (serveur) 4 x 512 MB PC 3200 ECC (serveur) Carte Adaptec SATA RAID 2410 SA Controller (serveur) 2 Disques 200 GB SATA (serveur) Bi-Pro Opteron 246 2.0 Ghz 1Mo L2 (noeud) 4 X 512 MB PC 3200 ECC (noeud)

+++ Solution assembleur Carte Asus Solution DELL Precision (Xeon) Carte Tyan (Opteron) Workstation 670

Solution assembleur Carte Asus (Xeon)

Ces propositions locales ne comprennent pas le matériel portant sur le réseau (Switch et connectiques). Les tableaux suivants détaillent les propositions commerciales pour ce matériel spécifique. Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004

13

Proposition INMAC (www.inmac.fr) Switch 3COM 12 ports: capacité de commutation 24 Gbps (Wirespeed performance) Départ France 3COM SWITCH 12*10/100/1000 4*MINI-GBIC

Rendu Nouméa

1 000,00 €

Fabricant : 3Com Réduction 10%

1 080,00 €

100,00 €

Câbles pour réseaux gigabit

CORDON RJ45 CAT5+ 3M UTP GRIS SURMOULE Fabricant : Siecor

Départ France

Nb

Rendu Nouméa

13,00 €

6

93,60 €

Les logiciels (Compilateurs, OS, bibliothèque de fonction…) ne sont pas compris. Pour idée, le compilateur Fortran ou Portland 64 bit représente un coût de l’ordre de 600 euros.

3.3. Avantages / inconvénients Commentaires généraux Ces architectures permettent l’exécution en mode parallélisé des codes ROMS et MARS 3D, ces derniers comportant déjà les instructions de la bibliothèque de communication MPI (Message Passing Interface) leur permettant de s’exécuter sur les architectures proposées. De plus, les codes ont déjà été testés avec succès sur architecture Cluster Linux. De manière générale, la configuration matérielle proposée (cluster de PC) est compatible avec les différents modes de programmation parallèle, fondés sur le parallélisme des données et des tâches, sous condition que les codes intègrent les instructions de ‘’message passing’’ (librairie de communication MPICH, PVM, LAM …). Les codes parallélisés, qualifiés de portable, incorporent systématiquement ces instructions. Ces configurations sont également modulables en jouant par exemple sur l’ajout de nœuds de calcul (mono ou bi-processeur). La configuration comportant des bi-processeurs offre l’avantage de bénéficier des vitesses de communication entre les processeurs embarquées sur la même carte. La configuration comportant des Opterons (AMD) permet en outre de profiter de la mémoire cache de second niveau élevé (1024 ko) et de la performance de ce processeur en raison de sa technologie. L’Opteron cadencée 2 ghz offre en effet des Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004

14

performances supérieures comparées au Xeon cadencée 3 ghz ou au pentium IV (cf. Annexe 5). Les derniers Xeons avec mémoire cache 1 Mo et 2 Mo arrivent tout juste à le concurrencer mais présentent un coût élevé. Par contre, pour gagner en performance, l’architecture 64 bit (Opteron) nécessite l’achat d’un compilateur fortran dédié (de l’ordre de 600 euros, solution Portland ou Intel), alors que sur architecture 32 bits, des compilateurs performants sont disponibles gratuitement (solution ifc IA32 d’Intel, libre sous Linux). Pour des raisons de performance, le nœud de calcul bi-processeur Opteron est préféré. Commentaires sur les offres Les réponses des fournisseurs locaux nous ont permis de constater que du matériel répondant à nos attentes était disponible localement, à des prix finalement comparables avec les solutions d’achat direct en France. Ainsi, à configuration égale, on peut tabler, à partir de l’offre Office Plus, sur un coût matériel de 23 800 euros (Serveur + Nœuds + Frontal + Réseau) contre 20 100 euros en Métropole (frais de port et taxes inclus). Le principal avantage à se fournir localement est de permettre une maintenance et un retour pour pièces défectueuses plus rapide et sans frais d’expédition. Les offres basées sur les marques (IBM, DELL, Bull) n’offrent pas davantage de performances par rapport à des solutions assembleurs, sauf pour le haut de gamme IBM proposé par Barrau Bureau (mais dont l’offre vaut l’achat de 2 clusters !).

3.3. L’offre OS Parmi les solutions disponibles, les choix peuvent porter préférentiellement sur les produits OSCAR, ROCKS et MandrakeClustering. Ce dernier étant payant (2500 euros). ROCKS (noyau RedHat) comporte une version supportant l’Opteron 64 bits. En plus d’être gratuit, ce dernier comporte des outils Open Source réputés pour une installation et une administration aisée du cluster. Il intègre également les principales librairies de communication MPICH, PVM … pour le calcul parallèle. D’autres librairies et applications dédiées devront être installées en fonction des besoins. Certains sont payants selon les architectures. Par exemple l’architecture 64 bit nécessitent l’achat d’un compilateur fortran dédié (solution Portland ou Intel) si l’on souhaite bénéficier des gains de performance liés à cette architecture (10 à 20 % de gain selon les applications).

Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004

15

Fig. 3 Aperçu du moniteur de statut et gestion des ressources sous Ganglia (Outil OpenSource, sous ROCKS)

Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004

16

3.4. Compétences et demande d’assistance L’installation d’un cluster ‘‘Beowulf’’ est gérable par les informaticiens du centre IRD de Nouméa. Nous recherchons ici l’architecture compatible avec les applications parallèles visées et qui puisse offrir le meilleur compromis Performance/Evolutivité.

Pour cela, nous avons consulté les développeurs des codes concernés (IRD Brest pour ROMS, IFREMER pour MARS 3D) et les concepteurs des nouveaux codes dont l’exécution est prévue sur le Centre de Nouméa.

Nous sollicitons également une assistance technique auprès de la DSI sur le conseil en matière d’architecture / composants / OS, notre proposition pouvant servir de base. Une consultation interne à la DSI est jugée suffisante. De notre côté, des démarches de consultation auprès des développeurs des codes et laboratoires de calculs sont en cours, afin d’affiner nos choix.

Le Service Informatique du Centre de Nouméa pourra installer les matériels et les systèmes d’exploitation et procéder aux premiers tests. En 2003, Jérôme Lefèvre (LEGOS) a eu l'opportunité de tester et comparer l’installation des solutions OSCAR et CLIC 2 sur un cluster ‘‘Beowulf’’ composé de 3 nœuds. Son expérience sera mise à contribution lors de la configuration du système. Pour la programmation parallèle de ROMS, déjà portable sous LINUX, une assistance est assurée par l’UR097 (IRD, Patrick Marchesiello et Pierrick Penven). Pour le code MARS 3D, un travail collaboratif avec Franck DELMAS (IFREMER), qui développe actuellement la version MPI, pourra être mis en place.

Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004

17

4. Exemple de plateformes de calcul dédiées à la dynamique des fluides installées dans d’autres organismes de recherche publique en France 4.1. Tour d’horizon des plateformes de calcul Le CEA, le CNRS et l'INRIA ont créé une structure de collaboration pour le développement et la diffusion du calcul parallèle : l’organisation ORAP (ORganisation Associative du Parallélisme). Outre ses missions visant le renforcement des collaborations entre partenaires nationaux, européens et internationaux dans le cadre du calcul parallèle, l’ORAP réalise une veille technologique et un état des lieux du calcul scientifique en France. Leur site Web http://maply.univ-lyon1.fr/spip/rubrique.php3?id_rubrique=2 dresse un recensement des ressources matérielles informatiques en rapport avec le calcul intensif. Sur ce site, un tour d’horizon permet de s’informer des architectures employées dans les grands centres technologiques, les Universités, les Laboratoires, les entreprises….

4.2. Quelques exemples de plateformes utilisées pour des applications CFD (Computational Flow Dynamic) IFREMER : Pôle de calcul Intensif pour la mer Le calculateur ‘’Nymphea‘’ se compose d'un « cluster » de 9 nœuds COMPAQ ES45, quadri-processeurs, connectés par « switch » Quadrix. Les processeurs sont des processeurs Alpha EV68 cadencés à 1GHz. Sa mémoire globale est de 92 GigaOctets. L’OS est Tru64 UNIX. Ressource partagée avec le SHOM et l’IRD. Le code ROMS est régulièrement exécuté desus. Problématiques : Hydrodynamique, Calcul de structure, Biochimie, Applications couplées (ex. : hydrodynamique et chimique), développement de code parallélisé SHOM : Serveur P655, 64 processeurs (IBM Power4 1.7Ghz), totalisant une puissance théorique de 435 Gflops. Problématique : traitement de l’information des missions hydro-océanographiques. BRGM : Calculateur basé à Orléans : Grappe PCs Intel, composé de 8 nœuds bi-processeurs Xeon 3.06 GHz. Puissance théorique : 49 Gflps. Problématiques : Hydrogéologie, Environnement, Géomécanique.

Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004

18

CEMAGREF : Calculateur basé à Aubière : Grappe PCs Intel, composé de 24 nœuds biprocesseurs Xeon 2.4 GHz. Puissance théorique : 230 Gflps, réseau gigabit. Problématiques : Environnement, hydrologie, CFD. Les codes utilisés sont soit des codes internes écrits en C, C++, Fortran et Java ou des codes propriétaires tels que FLUENT. EDF : Calculateur

Nb CPU

Perf. crête

Réseau

DELL 420 bi-PIII 800MHz 4Go

8 bi-processeurs

15 Gflps

myrinet cuivre 1.2 Gbit/s

Dataswift bi-Xeon 3.06 Ghz

16 bi-processeurs

180 Gflps

Ethernet Gigabit

Dataswift bi-Opteron 1.8 GHz

8 bi-processeurs

60 Gflps

myrinet fibre 2 Gbit/s

IBM Xeon MP 2.8 GHz 8 Go

4+2x2

40Gflps

Ethernet Gigabit

HP X4000 bi-Xeon 2.2 GHz 2Go

10 bi-processeurs

90 Gflp

myrinet cuivre 1.2 Gbit/s

Fujitsu bi Athlon 1800+ 2 Go

16 bi-processeurs

40 Gflps

Scali

DELL 530 bi-Xeon 2.4 GHz 2Go

8 bi-processeurs

64 Gflps

Ethernet 100 Mbit/s

DELL 450 bi-Xeon 2.6 GHz 2Go

32 bi-processeurs

275 Gflps

Ethernet Gigabit

DELL 450 bi-Xeon 2.6 GHz 2Go

32 bi-processeurs

275 Gflps

Ethernet Gigabit

Problématiques : Calcul scientifique et modélisation numérique, Mathématiques financières, CFD (écoulements multiphases, couplage thermo-chimique) INRIA (Sophia Antipolis) Calculateurs : Cluster bi-Xeon 2 Ghz, 16 bi-processeurs, carte intel Pro/1000 gigabit, réseau Gigabit-Ethernet, OS Linux 2.4.17/glibc2 Cluster bi-pentium III 933 Mhz, 19 bi-processeurs, réseau Fast-Ethernet Full Duplex (Summit48), OS Linux 2.4.17/glibc2 Cluster bi-Pentium III 500 Mhz, 14 bi-processeurs, OS Linux 2.4.17/glibc2 Problématiques : Toutes disciplines impliquant du calcul scientifique Centre Commun de Calcul Intensif (C3I) de Guadeloupe Calculateur HP-Compaq SMP muni de 12 processeurs EV7 cadencés à 1.15Ghz, 12 Go de mémoire vive et de 400 Gigaoctets de mémoire de masse en disques RAID Cluster Intel muni de 17 noeuds mono-processeur Problématiques : Météorologie, Environnement.

Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004

19

Bibliographie Littérature consultée Cluster Computing, Architectures, Operating Systems, Parallel Processing & Programming Languages, Richard S. Morrison (Document pdf) Beowulf HOWTO (source : http://www.ixus.net/howto.php) Beowulf Tutorial : Building a Beowulf http://www.cacr.caltech.edu/beowulf/tutorial/building.html)

System

(source

:

ROMS/TOMS User Manual : http://marine.rutgers.edu/po/documentation/docs.php ROMS AGRIF et ROMS TOOLS User Manual (IRD, Centre de Brest) http://www.brest.ird.fr/personnel/ppenven/Roms_tools/index.html). OS dédiés cluster Site de MandrakeClustering : http://www.mandrakesoft.com/products/clustering) Site de rocks, dont doc pdf : http://www.rocksclusters.org/rocks-documentation/3.2.0/ Site d’Oscar : http://oscar.openclustergroup.org Guide d’installation de MandrakeClustering 1.0 The Steps Required to (htp://oscarsourceforgenet/)

Install

an

OSCAR

Cluster,

Version

1.2.1

Sites Conception d’un système à haute performance, CETMEF - Ministère de l’equipement, des Transports, de l’Aménagement du Territoire, du Tourisme et de la Mer http://www.cetmef.equipement.gouv.fr/projets/transversaux/cluster/calculs.php ORganisation Associative du Parallélisme (ORAP) : http://www.irisa.fr/orap Présentation des ressources en calculs parallèles de l’INRIA à Sophia Antipolis http://www-sop.inria.fr/parallel/

Descriptif des besoins de calculs scientifiques sur architecture dédiée, Centre IRD de Nouméa, Septembre 2004

20

ANNEXE 1 Détail des deux configurations matérielles fondées sur des nœuds bi-processeurs (objet des demandes de proforma) CONFIG. A: 1 Serveur et 4 Nœuds -- Processeurs Xeon 3.0 Ghz Serveur bi-pro Processeurs: 2 Xeon 3.0Ghz cache 512k FSB 533Mhz Carte mère: MB ASUS PC-DL Deluxe i875P Mémoire: 4 PC3200 512 Mo (4 X 512 MO (ECC), DDR 400) Disques durs: 2 x DD Serial ATA (200 Go minimum) Grande tour (emplacement et alimentation suffisante pour quatre disques) Lecteur CD/DVD Carte vidéo: ATI 9600 256 Mo ou équivalente Ecran CRT 17" Lecteur disquette Carte réseau 10/100/1000 supplémentaire Intel (PWLA8391MT GIGABIT RJ45) Carte Adaptec Serial ATA RAID 2410SA Clavier, souris 4 nœuds bi-pro Processeurs: 2 Xeon 3.0Ghz cache 512k FSB 533Mhz Carte mère: MB ASUS PC-DL Deluxe i875P Mémoire: 4 PC3200 512 Mo (4 X 512 Mo (ECC), DDR 400) Disque dur: 1 IDE 60 Go minimum Lecteur CD-ROM Carte réseau 10/100/1000 supplémentaire Intel (PWLA8391MT GIGABIT RJ45) Carte graphique d'entrée de gamme (ATI 7000 32 Mo ou équivalente)

CONFIG. B: 1 Serveur et 4 Nœuds -- Processeurs Opteron 2.0 Ghz Serveur bi-pro Processeurs: 2 Opteron 2.0Ghz cache L1 128K, cache L2 1024K (Model 246) Carte mère: MB Tyan Thunder K8W (S2885) Mémoire: 4 PC3200 512 Mo (4 X 512 Mo (ECC), DDR 400) Disques durs: 2 DD Serial ATA (200 Go minimum) Grande tour (emplacement et alimentation suffisante pour quatre disques) Lecteur CD/DVD Carte vidéo: ATI 9600 256 Mo ou équivalente Ecran CRT 17 " Lecteur disquette Carte réseau 10/100/1000 supplémentaire Intel (PWLA8391MT GIGABIT RJ45) Carte Adaptec Serial ATA RAID 2410SA Clavier, souris 4 nœuds bi-pro Processeurs: 2 Opteron 2.0Ghz cache L1 128K, cache L2 1024K (Model 246) Carte mère: MB Tyan Thunder K8W (S2885) Mémoire: 4 PC3200 512 Mo (4 X 512 Mo DDR 400 ) Disque dur: 1 IDE 60 Go minimum Lecteur CD-ROM Carte réseau 10/100/1000 supplémentaire Intel (PWLA8391MT GIGABIT RJ45) Carte graphique d'entrée de gamme (ATI 7000 32 Mo ou équivalente)

Frontale (sauvegarde) : 1 PC Pentium IV 3.0Ghz Serveur Processeurs: Pentium IV 3.0Ghz Carte mère ASUS (avec port ethernet 10/100 intégré) Mémoire: 2 PC3200 512 Mo (2 X 512 Mo (ECC) Disques durs: 2 DD Serial ATA (400 Go minimum) Grande tour (emplacement et alimentation suffisante pour quatre disques) Graveur DVD Carte vidéo: ATI 9600 256 Mo ou équivalente Ecran CRT 19 " Lecteur disquette Carte réseau 10/100/1000 supplémentaire Intel (PWLA8391MT GIGABIT RJ45) Carte Adaptec Serial ATA RAID 2410SA Clavier, souris

ANNEXE 2 Dépouillement des offres commerciales Nom du fournisseur

BBS - Configuration "haut de gamme"

Configuration A 1 serveur avec 2 Xeon 4 nœuds avec 2 Xeon chacun

Prix Hors TGI en CFP

Prix Hors TGI en Euro

1

1 276 200 XPF

10 694,56 €

4

3 528 800 XPF

29 571,35 €

4 805 000 XPF

40 265,91 €

Prix Hors TGI en CFP

Prix Hors TGI en Euro

Prix unitaire

Nombre

1 276 200 XPF 882 200 XPF

Réduction éventuelle

Total Configuration A Hors TGI:

Configuration B 1 serveur avec 2 Opteron 4 nœuds avec 2 Opteron chacun

Réduction éventuelle

Prix unitaire

Nombre

1 316 700 XPF

1

1 316 700 XPF

11 033,95 €

780 000 XPF

4

3 120 000 XPF

26 145,61 €

4 436 700 XPF

37 179,56 €

Prix Hors TGI en CFP

Prix Hors TGI en Euro

969 800 XPF

8 126,93 €

Total Configuration B Hors TGI:

Machine de stockage PC Pentium IV 3.0 Ghz

Délais livraison Durée de la garantie

Prix unitaire

Nombre

969 800 XPF

1

Réduction éventuelle

3 à 4 semaines 3 ans

Total configuration A + machine stockage:

48 392,84 €

Total configuration B + machine stockage:

45 306,49 €

Commentaires : Configuration IBM haut de gamme, établie sur la gamme IBM IntelliStation Z Pro 6223 (Xeon, config A) et IntelliStation A Pro 6224 (Opteron, config B), avec les spécificités suivantes :

Config A :

Bi-Pro Xeon 3.6 Ghz/800 MHz 1Mo L2 cache (serveur) 2 X 512 MB PC 3200 ECC (serveur) IBM ServerRaid SATA Controller (serveur) 2 Disques IBM 160 GB SATA 7200 RPM (serveur) Bi-Pro Xeon 3.4 Ghz/800 MHz 1MB L2 cache (noeud) 2 X 512 MB PC 3200 ECC (noeud)

Config B :

Bi-Pro Opteron 248 2.2 Ghz 1Mo L2 cache (serveur) 2 X 512 MB PC 3200 ECC (serveur) IBM ServerRaid SATA Controller (serveur) 2 Disques IBM 160 GB SATA 7200 RPM (serveur) Bi-Pro Opteron 246 2.0 Ghz 1Mo L2 cache (noeud) 2 X 512 MB PC 3200 ECC (noeud)

Cette solution propose les dernières technologies en matière de processeurs, RAM et disque de stockage, offrant des performances élevées (et similaires entre les 2 configurations).

Nom du fournisseur

BBS - Configuration "économique"

Configuration A

Prix Hors TGI en CFP

Prix Hors TGI en Euro

1

823 000 XPF

6 896,74 €

4

3 024 000 XPF

25 341,13 €

3 847 000 XPF

32 237,87 €

Prix Hors TGI en CFP

Prix Hors TGI en Euro

Prix unitaire

Nombre

1 serveur avec 2 Xeon

823 000 XPF

4 nœuds avec 2 Xeon chacun

756 000 XPF

Réduction éventuelle

Total Configuration A Hors TGI:

Configuration B

Réduction éventuelle

Prix unitaire

Nombre

1 serveur avec 2 Opteron

896 000 XPF

1

896 000 XPF

7 508,48 €

4 nœuds avec 2 Opteron chacun

780 000 XPF

4

3 120 000 XPF

26 145,61 €

4 016 000 XPF

33 654,09 €

Prix Hors TGI en CFP

Prix Hors TGI en Euro

428 000 XPF

3 586,64 €

Total Configuration B Hors TGI:

Machine de stockage PC Pentium IV 3.0 Ghz

Prix unitaire

Nombre

428 000 XPF

1

Réduction éventuelle

Délais livraison 3 à 4 semaines Durée de la garantie

3 ans

Total configuration A + machine stockage:

35 824,51 €

Total configuration B + machine stockage:

37 240,73 €

Commentaires : Configuration IBM ‘’économique’’, établie sur la gamme IBM IntelliStation Z Pro 6223 (Xeon, config A) et IntelliStation A Pro 6224 (Opteron, config B), avec les spécificités suivantes :

Config A :

Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 cache (serveur) 4 x 512 MB PC 2100 ECC (serveur) Adaptec SATA RAID Controller (serveur) 2 Disques Seagate 200 GB SATA (serveur) Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 cache (noeud) 4 x 512 MB PC 2100 ECC (noeud)

Config B :

Bi-Pro Opteron 246 2.0 Ghz 1Mo L2 cache (serveur) 2 x 512 MB PC 3200 ECC (serveur) Adaptec SATA RAID Controller (serveur) 2 Disques Seagate 200 GB SATA (serveur) Bi-Pro Opteron 246 2.0 Ghz 1Mo L2 cache (noeud) 2 X 512 MB PC 3200 ECC (noeud)

Cette solution propose des technologies récentes en matière de processeurs, offrant des performances très honorables. La config B est susceptible d’offrir de meilleures performances comparée à la A. Coût élevé en raison de la marque, sans gain notable par rapport à une solution assembleur.

Nom du fournisseur

OFFICE PLUS configuration 1

Configuration A

Prix Hors TGI en CFP

Prix Hors TGI en Euro

1

485 000 XPF

4 064,30 €

4

1 380 000 XPF

11 564,40 €

1 865 000 XPF

15 628,71 €

Prix Hors TGI en CFP

Prix Hors TGI en Euro

Prix unitaire

Nombre

1 serveur avec 2 Xeon

485 000 XPF

4 nœuds avec 2 Xeon chacun

345 000 XPF

Réduction éventuelle

Total Configuration A Hors TGI:

Configuration B

Réduction éventuelle

Prix unitaire

Nombre

1 serveur avec 2 Opteron

575 000 XPF

1

575 000 XPF

4 818,50 €

4 nœuds avec 2 Opteron chacun

430 000 XPF

4

1 720 000 XPF

14 413,61 €

2 295 000 XPF

19 232,11 €

Prix Hors TGI en CFP

Prix Hors TGI en Euro

405 000 XPF

3 393,90 €

Total Configuration B Hors TGI:

Machine de stockage PC Pentium IV 3.0 Ghz

Délais livraison Durée de la garantie

Prix unitaire

Nombre

405 000 XPF

1

Réduction éventuelle

1 mois 1/2 1 an

Total configuration A + machine stockage:

19 022,61 €

Total configuration B + machine stockage:

22 626,01 €

Commentaires : Solution assembleur économique constituée de carte mère Asus PC-DL deluxe (Xeon, config A) et carte mère Tyan Thunder K8W (Opteron, config B), avec les spécificités suivantes :

Config A :

Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 cache (serveur) 4 x 512 MB PC 3200 ECC (serveur) Carte Adaptec SATA RAID 2410 SA Controller (serveur) 2 Disques 200 GB SATA (serveur) Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 cache (noeud) 4 x 512 MB PC 3200 ECC (noeud)

Config B :

Bi-Pro Opteron 246 2.0 Ghz 1Mo L2 cache (serveur) 4 x 512 MB PC 3200 ECC (serveur) Carte Adaptec SATA RAID 2410 SA Controller (serveur) 2 Disques 200 GB SATA (serveur) Bi-Pro Opteron 246 2.0 Ghz 1Mo L2 cache (noeud) 4 X 512 MB PC 3200 ECC (noeud)

Cette solution propose des technologies récentes en matière de processeurs, offrant des performances très honorables. La config B est susceptible d’offrir de meilleures performances comparée à la A.

Nom du fournisseur

OFFICE PLUS configuration 2

Configuration A

Prix Hors TGI en CFP

Prix Hors TGI en Euro

1

884 000 XPF

7 407,92 €

4

2 036 000 XPF

17 061,69 €

2 920 000 XPF

24 469,61 €

Prix Hors TGI en CFP

Prix Hors TGI en Euro

Prix unitaire

Nombre

1 serveur avec 2 Xeon

884 000 XPF

4 nœuds avec 2 Xeon chacun

509 000 XPF

Réduction éventuelle

Total Configuration A Hors TGI:

Configuration B

Prix unitaire

Nombre

Réduction éventuelle

1 serveur avec 2 Opteron

1

0 XPF

0,00 €

4 nœuds avec 2 Opteron chacun

4

0 XPF

0,00 €

0 XPF

0,00 €

Prix Hors TGI en CFP

Prix Hors TGI en Euro

814 000 XPF

6 821,32 €

Total Configuration B Hors TGI:

Machine de stockage PC Pentium IV 3.0 Ghz

Délais livraison Durée de la garantie

Prix unitaire

Nombre

814 000 XPF

1

Réduction éventuelle

1 mois 1/2 1 an

Total configuration A + machine stockage:

31 290,93 €

Commentaires : Configuration DELL établie sur la gamme DELL Precision Workstation 670 (Xeon, config A), avec les spécificités suivantes :

Config A :

Bi-Pro Xeon 3.06 Ghz/800 MHz 1 Mo L2 cache (serveur) 4 x 512 MB PC 3200 ECC (serveur) Carte Adaptec SATA RAID 2410 SA Controller (serveur) 2 Disques 250 GB SATA 7200 rpm (serveur) Bi-Pro Xeon 3.06 Ghz/800 MHz 1 Mo L2 cache (noeud) 4 x 512 MB PC 3200 ECC (noeud)

Cette solution propose les dernières technologies en matière de processeur Xeon. Coût élevé en raison de la marque, sans gain notable par rapport à une solution assembleur.

Nom du fournisseur

CYBERMEDIA - INFOCOM

Prix unitaire

Nombre

Réduction éventuelle

Prix Hors TGI en CFP

Prix Hors TGI en Euro

1 serveur avec 2 Xeon

429 780 XPF

1

408 360 XPF

408 360 XPF

3 422,06 €

4 nœuds avec 2 Xeon chacun

349 090 XPF

4

331 706 XPF

1 326 824 XPF

11 118,79 €

1 735 184 XPF

14 540,85 €

Prix Hors TGI en CFP

Prix Hors TGI en Euro

Configuration A

Total Configuration A Hors TGI:

Configuration B

Prix unitaire

Nombre

Réduction éventuelle

1 serveur avec 2 Opteron

1

0 XPF

0,00 €

4 nœuds avec 2 Opteron chacun

4

0 XPF

0,00 €

0 XPF

0,00 €

Total Configuration B Hors TGI:

Machine de stockage PC Pentium IV 3.0 Ghz

Prix unitaire

Nombre

Réduction éventuelle

Prix Hors TGI en CFP

Prix Hors TGI en Euro

314 250 XPF

1

298 608 XPF

298 608 XPF

2 502,34 €

Délais livraison 15j à 3 semaines Durée de la garantie

1 an

Total configuration A + machine stockage:

17 043,18 €

Solution assembleur économique constituée de carte mère Asus PC-DL deluxe (Xeon, config A), avec les spécificités suivantes :

Config A :

Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 cache (serveur) 4 x 512 MB PC 3200 ECC (serveur) Carte Adaptec SATA RAID 2410 SA Controller (serveur) 2 Disques 200 GB SATA 7200 rpm (serveur) Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 cache (noeud) 4 x 512 MB PC 3200 ECC (noeud)

Cette solution, la plus économique, propose des technologies récentes en matière de processeurs, offrant des performances très honorables, mais inférieures à une solution à base d’Opteron.

Nom du fournisseur

BULL configuration 1

Configuration A

Prix Hors TGI en CFP

Prix Hors TGI en Euro

1

721 376 XPF

6 045,13 €

4

1 870 284 XPF

15 672,99 €

2 591 660 XPF

21 718,12 €

Prix Hors TGI en CFP

Prix Hors TGI en Euro

Prix unitaire

Nombre

1 serveur avec 2 Xeon

721 376 XPF

4 nœuds avec 2 Xeon chacun

467 571 XPF

Réduction éventuelle

Total Configuration A Hors TGI:

Configuration B

Prix unitaire

Nombre

Réduction éventuelle

1 serveur avec 2 Opteron

1

0 XPF

0,00 €

4 nœuds avec 2 Opteron chacun

4

0 XPF

0,00 €

0 XPF

0,00 €

Prix Hors TGI en CFP

Prix Hors TGI en Euro

408 340 XPF

3 421,89 €

Total Configuration B Hors TGI:

Machine de stockage PC Pentium IV 3.0 Ghz

Délais livraison Durée de la garantie

Prix unitaire

Nombre

408 340 XPF

1

Réduction éventuelle

1 mois 1/2 1 an

Total configuration A + machine stockage:

25 140,01 €

Commentaires : Configuration BULL établie sur la gamme BULL Express5800/ 120Ef SATA (Xeon, config A), avec les spécificités suivantes :

Config A :

Bi-Pro Xeon 3.06 Ghz/533 MHz 512 Ko L2 cache (serveur) 2 x 1024 MB PC 2100 ECC (serveur) Carte PCI SATA RAID FastTrack S150SX4 (serveur) 2 Disques 250 GB SATA 7200 rpm (serveur) Bi-Pro Xeon 3.06 Ghz/800 MHz 1 Mo L2 cache (noeud) 2 x 1024 MB PC 2700 ECC (noeud)

Cette solution propose les dernières technologies en matière de processeur Xeon pour les nœuds de calcul. La RAM proposée pour les nœuds de calcul ne permet pas de couvrir les performances du bus processeur. Coût modérément élevé en raison de la marque, sans gain notable par rapport à une solution assembleur.

ANNEXE 3 Extrait des notes d’évaluation des performances de calcul des machines disponibles localement en vue de l’implantation du code ROMS au Centre de Nouméa

1. Objet L’objet de cette note est de passer en revue les performances de calculs des moyens informatiques accessibles au département océanographie physique du centre et de proposer, si besoin est, d’autres alternatives de calcul. La note se présente de la manière suivante :

Présentation du modèle ROMS et des logiciels dédiés

Méthodologie et caractéristiques du domaine étudié

Performances obtenues

Perspectives

2. Présentation du modèle de circulation ROMs 2.1. Présentation générale ROMs (= Regional Ocean Modeling System) est développé sous la supervision d’Herman Arango et Dale Haidvogel, de l’université Rutgers (New-Jersey). Au sein de l’IRD, Patrick Marchesiello et Pierrick Penven (UR097, IRD Brest) contribuent également au développement du code. Deux versions de ROMS sont accessibles : La version officielle de ROMS (ROMS V 2.0), distribuée par l’Université de Rutgers. Elle comprend les dernières techniques numériques validées par le groupe de collaborateurs d’Herman Arango. Le code est parallélisé et comprend également un module biologique. Par contre, le code n’offre pas d’option permettant de travailler sur des maillages emboîtés. La version obtenue auprès de l’IRD Brest, ROMS/AGRIF, est le fruit d’une collaboration entre l’IRD, l’INRIA et l’UCLA (University of California at Los Angeles). Cette version est expérimentale, mais reprend les fonctions de ROMS 2.0 en y ajoutant des fonctions nouvelles, notamment pour le traitement des problèmes de circulation en zone côtière ou les conditions aux limites. Ainsi, le code diffère de la version officielle en offrant au moyen de la bibliothèque de fonctions AGRIF des fonctionnalités d’adaptation de la résolution. AGRIF permet de travailler de manière dynamique avec une grille emboîtée dans le modèle parent. Un nouveau schéma de traitement des conditions aux limites y est également incorporé. Ce code est utilisé avec succès dans de nombreux laboratoires.

La version ROMS/AGRIF est utilisée au centre de Nouméa pour les raisons suivantes :

Support technique apporté directement par Patrick Marchesiello et Pierrick Penven

Fonctions d’adaptation de grille et nouvelle condition aux limites particulièrement appropriées et pertinentes eu égard le type d’utilisation du modèle localement

ROMS/AGRIF vient avec une suite d’outils écrits en langage Matlab facilitant les étapes de pré et post-traitement, adaptables si nécessaires

2.2. Le modèle Le modèle ROMS est un modèle 3D qui utilise un schéma aux différences finies. Il est fondé sur la résolution des équations primitives de Navier Stockes qui permettent le calcul des courants, de la température, de la salinité et de l'élévation de la surface libre en utilisant les approximations hydrostatiques, de Boussinesq et d'incompressibilité. Les équations primitives sont appliquées sur un maillage tridimentionnel orthogonal et curviligne sur la sphère. La discrétisation sur la verticale utilise les coordonnées sigma, indépendantes de la profondeur (entre 0 et 1), qui suivent la topographie du fond. L’épaisseur entre chaque niveau est donc variable. La résolution se fait par séparation de mode. Un modèle 2D de surface est couplé au modèle 3D selon un système prédiction-correction afin de considérer séparément les ondes de gravité de surface et les ondes internes. Les ondes externes sont plus rapides, la résolution des équations intégrées sur la verticale nécessite donc un plus petit pas de temps pour respecter le critère de stabilité. La température, la salinité et la concentration d’un traceur quelconque sont calculées en résolvant l’équation de conservation de la masse, de la chaleur ou de la salinité. Ces dernières années, les efforts de développement de ROMS ont porté sur l’incorporation de méthodes numériques plus sophistiquées, permettant un gain de résolution sans augmenter le coût de calcul. Cette recherche d’optimisation est fondée sur l’évolution des architectures des ordinateurs, notamment sur le fait que leur puissance de calculs augmente plus rapidement que la largeur de bande mémoire. Ainsi, l’apport des nouveaux schémas numériques pour l’advection, passant par la résolution numérique d’équations de 3ème ou 4ème ordre, permet par exemple de mieux rendre compte des structures turbulentes, et donc des mélanges des masses d’eau, tout en étant moins sensibles aux effets de gradient. Ces schémas permettent de profiter de la puissance de calcul tout en utilisant les ressources (processeur/mémoire) d’une manière optimale. Conditions aux limites Le type de schéma employé pour tenir compte du traitement de l’information aux limites ouvertes est déterminant sur la convergence de la solution et la qualité des

résultats retournés. ROMS (V 2.0) comporte différents schémas permettant de spécifier le type de conditions aux limites. La condition radiative est la plus employée. Au cours de son séjour à l’Université de Los Angeles (UCLA), Patrick Marchessiello (IRD, UR097) a développé puis incorporé dans le code ROMS/AGRIF une condition radiative dite oblique. La condition radiative oblique permet d’estimer la direction du flux d’information entrant ou sortant aux limites ouvertes, ceci à chaque itération. En configuration de flux entrant, l’information provenant des données hydrologiques est restaurée aux limites, moyennant une procédure de relaxation newtonienne avec un rappel relativement fort (temps de rappel court de l'ordre de quelques jours). En configuration de flux sortant, les données intérieures sont extrapolées aux limites et une relaxation avec un temps de rappel faible (de l’ordre de 1 an) est appliquée. Ces procédures de relaxation permettent l’atténuation des écarts entre les valeurs intérieures et extérieures qui peuvent se manifester au moment de l’inversion du flux, propice au développement d’instabilités numériques.

2.3. Aspects informatiques du code Parallélisation Déjà parallélisé dès les premières versions pour l’utilisation des plateformes à mémoire partagée (Sun, SGI, etc), l’algorithme de calcul fait appel à la bibliothèque d'échanges de messages MPI (Message Passing Interface) pour les architectures à mémoire distribuée (grappe de PC). Les directives OpenMP peuvent également être employées sur les plateformes à mémoire partagée. La technique de parallélisation consiste à partager le domaine de calcul en sous domaines, de manière explicite. Avant compilation du programme, l’utilisateur déclare un nombre de sous domaine égal au nombre de processeurs (ou multiple, pour les plateformes à mémoire partagée). Chaque thread parallèle gère alors de manière autonome son propre sous domaine et est défini une seule fois pour tout le reste de l’exécution du programme. Seules les échanges d’information aux nœuds frontières subsistent. Sur la plateforme biprocesseur testée, la parallélisation est effectuée au moyen des directives OpenMP. Le compilateur fortran Intel version 8 utilisé sous Linux pour les tests supporte l’interprétation des directives OpenMP. Optimisation d’utilisation de la mémoire cache De manière avantageuse, le partitionnement du domaine permet également d’obtenir un gain de temps de calcul en procédant à l’optimisation de l’utilisation du cache du processeur. Le partitionnement permet en effet d’obtenir un jeu de blocs de données associés à chaque sous domaine dont la taille correspond à celle de la mémoire cache. Les performances s’en trouvent améliorées, y compris sur les plateformes monoprocesseurs.

Stratégie de raffinement et méthodes de zoom Le logiciel AGRIF (Adaptive Grid Refinement in Fortran) est associé au modèle ROMS. Moyennant l’utilisation de pointeurs et le renseignement d’un fichier pré-defini de description du modèle, le logiciel AGRIF permet d’ajouter des fonctionnalités d’adaptation de la résolution dans le modèle, sous la forme d’une grille emboîtée dans le domaine parent. Cette fonctionnalité a été ajoutée sur la base de travaux de Laurent Debreu (INRIA) et Eric Blayo (Université de Grenoble). Les efforts portent actuellement sur l’ajout de fonctions de couplage et d’emboîtement de modèles océaniques distincts. Les fonctions du logiciel AGRIF seront testées ultérieurement. 2.4. Outils pré et post-traitement Les outils employés pour la préparation du maillage, la construction des séries temporelles de forçage et d’initialisation du modèle proviennent de la boite d’outils ROMS_TOOLS, développée par l’IRD (Pierrick Penven et Patrick Marchesiello). Les outils développés sous Matlab permettent également la visualisation et l’analyse des sorties du modèle, moyennent l’interface graphique de Matlab et des routines dédiées. Le format des données (entrée et sortie) répond au format netCDF.

3. Méthodologie et caractéristiques du domaine étudié 3.1. Méthode Après une étape de familiarisation avec le code (compilation, préparation, test de convergence, etc.), des tests portant sur la vitesse de calcul ont été exécutés de manière à vérifier dans quelles mesures le parc informatique du centre peut répondre à l’exploitation du code. Pour effectuer les comparaisons entre les différents PC, une grille comprenant 543 780 points portant sur un domaine centré sur la Nouvelle-Calédonie a été soumise aux machines. La résolution du domaine atteint 1/10 °, soit une échelle horizontale d’environ 10 km.

Bathymétrie du domaine régional centrée sur la Nouvelle-Calédonie (Bathymétrie = Etopo2) Grille horizontale : 159 X 171

Profondeur maximale : 7500 m

Niveaux sigma : 20

Profondeur minimale : 10 m

Pas de temps - Mode barocline : 520 s (8.6 minutes)

Pas de temps - Mode barotrope : 13 s

Le code est compilé avec le compilateur fortran 90 d’Intel pour Linux. Les mêmes options de compilation ont été conservées sur les différentes machines. Les caractéristiques des machines testées sont : Tiki Pentium III Biprocesseur PC biprocesseur, Intel Pentium 3, 1002 Mhz, cache 256 ko, SSE oui, SSE2 non, ht non Mémoire : SDR 133 Mhz 1,5 GO

Boris Pentium IV Monoprocesseur PC monoprocesseur, Intel Pentium 4, 1615 Mhz, cache 512 ko, SSE oui, SSE2 oui, ht non Mémoire : DDR 266 Mhz 512 MO

AMD XP Monoprocesseur PC monoprocesseur, AMD Athlon XP, 2029 Mhz, cache 256 ko, SSE oui, SSE2 non, ht non Mémoire : Dual DDR 300 Mhz 1024 MO

Pentium IV P4P8X 2.9 ghz PC monoprocesseur, Intel Pentium 4, 2940 Mhz, cache 512 ko, SSE oui, SSE2 oui, ht oui Mémoire : DDR 333 Mhz 512 MO

3.2. Comparaison des performances Pour apprécier les temps de calcul, les comparaisons de performances sont établies sur la base de l’unité itération, du mois et de l’année. Configuration

CPU

1 itération

1 mois

1 année

36,5 s

50,5 heures

606 heures

Tiki Pentium Monoprocesseur

III

1002 Mhz

Tiki Pentium Biprocesseur

III

2 x 1002 MHZ

13 s

18,0 heures

216 heures

Boris Pentium Monoprocesseur

IV

1615 Mhz

7s

9,7 heures

116.4 heures

AMD XP 2400 +

2029 Mhz

7,6 s

10,5 heures

126 heures

Pentium IV P4P8X

2940 Mhz

4,7 s

6,5 heures

78 heures

Le code tire le meilleur partie de la technologie pentium IV avec un cache à 512 ko. On notera que le processeur AMD XP Athlon cadencé 2.0 Ghz n’apporte pas d’aussi bonnes performances qu’un Pentium 4 cadencé à 1,6 Ghz, ce dernier bénéficiant d’un cache supérieur. Il apparaît également que la fonction de partitionnement du domaine apporte un gain de performance appréciable, que ce soit pour une machine biprocesseur ou monoprocesseur. Ces gains sont illustrés ci-après, en jouant sur différentes combinaisons de partition du domaine : Machine monoprocessseur

Dépassement de pile

10 8 6 4 2

Partition du dom aine en Latitude et Longitude

24 1

X

22 X 1

1

X

20

18 1

X

14 X 1

1

X

10 1

X

2 X

12

0 1

seconde/itération

Effet du partitionnement Boris, pentium IV (monoprocesseur)

Machine biprocesseur

X 20

20

X

20

30

20 10

X

10 10

X

X 8

X 6

X 2

8

6

30 25 20 15 10 5 0 2

seconde/itération

Effet du partitionnement Tiki, pentium III (biprocesseur)

Partition du dom aine en Latitude et Longitude

Dans cet exemple, un gain de facteur 2 et 1.3 est obtenu respectivement sur les machines pentium biprocesseur et monoprocesseur testées.

4. Perspectives Malgré le manque de recul sur les aspects informatiques du code, il apparaît que les dernières machines du Centre équipées de processeur pentium IV sont suffisantes pour son exécution sur des domaines à moyenne échelle, dans le cas d’une résolution inférieure à 1/10 ° et des périodes de 1 à quelques mois. Par exemple, 6 mois de simulation sur une machine cadencée 1.6 Ghz nécessiterait 2,5 jours. Sur une plateforme cadencée à 3 ghz (testée les jours à venir), il est probable que le résultat soit obtenu en moins de 36 heures. Au-delà, dans le cadre de l’étude affinée de processus côtiers nécessitant l’emploi de maillage imbriqué avec une résolution plus fine (2 à 3 km) et pour des périodes d’intégration plus longue (recherche d’un état d’équilibre, nécessitant plusieurs années d’intégration, par exemple), les temps de calculs deviennent difficilement gérables. Les solutions envisageables sont alors celles pour lesquelles le code est prévu, multiprocesseur ou grappe de PC (cluster), cette dernière solution permettant de bénéficier de processeurs plus rapides que ceux disponibles sur les plateformes multiprocesseurs.

ANNEXE 4 Le modèle hydrodynamique Mars 3D Il s'agit d'un algorithme de calcul des courants marins, des hauteurs d'eau, et des concentrations en éléments solubles (ou en suspension temporaire) transportés par les courants. Mars est composé de : -

un noyau de calcul opérationnel en version 2D et 3D qui, dans un souci de meilleure précision, de minimisation des temps de calcul et de facilité d'emploi, adopte une méthode en différences finies sur un maillage régulier.

-

un pré-processeur nommé IMars dont les fonctions essentielles sont la gestion et l'intégration aisées des paramètres et données d’entrée qui servent à l'activation du code de calcul. IMars permet également un contrôle en temps réel de l’évolution de variables hydrodynamiques modélisées.

-

un post-processeur, ou programme d'exploitation graphique des résultats de Mars nommé VisuMars mis à la disposition des utilisateurs du logiciel de modélisation hydrodynamique côtière qui ne possèdent pas d'interface avec le SIG Arc View. Il permet de présenter les résultats de calculs déjà réalisés (ou en cours de calcul) sous forme de courbes et de cartes. Il permet aussi des calculs spécifiques d'interprétation (trajectoires, etc…)

Mars effectue le calcul des courants, des hauteurs d'eau et des concentrations en substances dissoutes, dans un écoulement liquide plan, quasi-horizontal. La forme des fonds peut être absolument quelconque et comporter un nombre quelconque de chenaux, îles, hauts fonds, bancs découvrants et estrans. MARS permet de modéliser sous forme de calculs instantanés ou de synthèses (valeurs moyennes, maxi, mini…) les grandeurs suivantes : - le courant (composantes U et V) et les résiduelles eulériennes, - la hauteur du plan d'eau, les niveaux moyens et les composantes harmoniques de marée, - la salinité, - des constituants provenant de rejets (par exemple les coliformes fécaux), - le transport sédimentaire et les dépôts. Il produit pour chaque zone étudiée une base de données dont les résultats sont stockés sous la forme d'une série temporelle de vecteurs et de scalaires en coordonnées géographiques. On se limitera dans ce qui suit à la description puis aux applications de la version 2D du modèle.

On démontre que les calculs réalisés par le modèle nécessitent l’utilisation de trois types d'information : - La topographie du domaine (fournie ici par une matrice des profondeurs). - Les conditions aux limites sur les frontières ouvertes du domaine. Pour la partie hydraulique, on utilisera des conditions aux limites fortes de dénivellation et des conditions faibles de vitesse des courants. - Les flux d'eau et de matière dissoute (ou en suspension) à l'intérieur du domaine (rivières, émissaires ...)

Les hypothèses du calcul valables en 2D sont les suivantes : -

-

La composante horizontale du courant ne varie pas beaucoup depuis la surface jusqu'à proximité du fond (courant de masse). Le modèle dans sa version 2D calcule la moyenne des courants sur la verticale et cette valeur moyenne a une forte signification physique. Les vitesses verticales sont faibles.

Sous ces hypothèses, les lois qui décrivent le comportement physique du système, à savoir le second principe de Newton et la loi de conservation de la masse se traduisent par le système d'équations dit de Saint-Venant :

 ∂ 2u ∂ 2u  ∂u ∂u ∂u u u 2 + v 2 ∂Pa τ x ∂ζ +u +v +g − fv − ε  2 + 2  + g + + =0 ∂t ∂x ∂y ∂x ∂y  k 2H 4/3 ∂x ρH  ∂x  ∂ 2v ∂ 2v  ∂v ∂v ∂v ∂ζ v u 2 + v 2 ∂Pa τ y +u +v +g − fu − ε  2 + 2  + g 2 4 / 3 + + =0 ∂t ∂x ∂y ∂y ∂y  k H ∂y ρH  ∂x ∂ζ ∂ ( Hu ) ∂ ( Hv ) + + =0 ∂t ∂x ∂y U V

ζ f kr H

composante de la vitesse selon Ox composante de la vitesse selon Oy cote de la surface libre facteur de Coriolis coefficient de frottement de fond, de Strikler hauteur de la colonne d'eau

Ce système est complété par l'équation de transport-diffusion-décroissance d'un élément chimique (ou assimilé) transporté en suspension :

 ∂C  ∂C    ∂  HKx  ∂  HKy ∂y  ∂ ( HC ) ∂ ( HUC ) ∂ ( HVC ) ∂x    + − − + lHC + S = 0 ∂t ∂x ∂y ∂x ∂y C K L S

Concentration en une substance dissoute Coefficient de diffusion horizontale Coefficient de décroissance propre Source

Mars intègre ces équations différentielles de manière totalement automatique, quelle que soit la forme du domaine, qui peut d'ailleurs évoluer dans le temps (zones découvrantes, murs immergés, etc…). Un modèle mathématique doit offrir une représentation de la réalité d'autant plus fine et précise que l'on se situe sur la zone d'intérêt. A cette fin le modèle Mars utilise une technique d'emboîtement de modèles sous forme gigogne. Par cette technique un modèle de grande emprise et de grande maille contient lui même un ou plusieurs sous modèles (loupes). Ces derniers reçoivent des modèles qui les précèdent, les conditions aux limites sur leur périmètre.

Au plan spatial les modèles intermédiaires possèdent une maille environ 4 fois plus petite que celle du modèle précédent. Le modèle de grande emprise s'étend jusqu'au plateau continental et trouve ses conditions aux limites dans la valeur des ondes générant la marée au large. Un forcing météorologique peut être pris en compte sur toute la surface du modèle et ses éventuelles loupes successives. La figure ci-après présente l'emboîtement de quatre niveaux de modèles construits dans le cas de l'étude de deux zones d'intérêt : régions du nord de La Rochele et de La Tremblade - Marennes Oléron au sud.

Roch 2

Roch1

Roch 3 Roch

4

Roch

4

Principe de l'emboîtement de modèles : cas des zones La Rochelle (Roch 4 Nord) et La Tremblade - Marennes Oléron (Roch 4 Sud).

ANNEXE 5 A propos du processeur AMD Opteron Premier processeur 32 bits et 64 bits au monde à être compatible avec l'architecture x86, le processeur AMD Opteron s'appuie sur la technologie AMD64 et Direct Connect Architecture. L'architecture Direct Connect permet de supprimer les goulots d'étranglement inhérents à l'existence d'un bus système en connectant directement les processeurs, le contrôleur mémoire et les E/S au processeur central, afin d’améliorer les performances et l'efficacité globale du système. AMD a également été le premier constructeur à annoncer la réalisation d’une conception de processeur x86 double cœur destiné à l’informatique 64 bits.

descriptif des besoins de calculs scientifiques sur architecture dediee

des documents recommandant