Représentation des connaissances géotechniques - CNRS

présente ces difficultés ainsi qu'une approche utilisée dans le cadre d'un projet ... contextualisation d'un problème, et ce généralement, par analogie avec une.
116KB taille 13 téléchargements 167 vues
Représentation géotechniques

des

connaissances

Nicolas Faure MODEME Université Jean. Moulin – Lyon III 6 cours Albert Thomas 69008 Lyon [email protected] : La représentation des connaissances géotechniques présente de nombreuses difficultés, notamment dans le cadre d’un système d’aide à la conception de projet, système qui soit directement utilisable par les spécialistes du domaine. Cet article présente ces difficultés ainsi qu’une approche utilisée dans le cadre d’un projet spécifique, reposant sur la constitution d’une ontologie simplifiée et l’utilisation d’un formalisme baptisé granule de connaissances pour représenter les connaissances telles que présentées dans les documents du domaine. RÉSUMÉ

: Knowledge representation in geotechnics is a difficult thing, mainly when it comes to be specialist-used. This paper states the main specificities of this domain, and the way they are coped with in a specific project, by means of an ontology and a genuine formalism named “knowledge grain”.

ABSTRACT

MOTS-CLÉS : représentation des connaissances, gestion des connaissances, granule de connaissances, ontologies, géotechnique KEYWORDS:

knowledge representation, knowledge management, knowledge grain, ontologies, geotechnics

Catégorie : jeune chercheur

2

Inforsid 2006

1. Introduction L’application d’un modèle formel pour représenter des connaissances imprécises ou incomplètes peut devenir assez problématique. Lorsque ce modèle doit de plus être conçu et implémenté par les spécialistes du domaine, l’application d’un modèle informel ou semi-formel peut s’avérer nécessaire. Le projet RAMCESH1 est un projet initié par une entreprise géotechnique et vise à fournir aux spécialistes du domaine un système d’aide à la conception de projet, via la représentation et la fourniture de connaissances pertinentes relativement à une situation donnée. Après une brève analyse du domaine, on présente dans cet article les contraintes qu’il engendre et une solution possible pour y répondre, retenue dans le cadre du projet RAMCESH.

2. Spécificités du domaine géotechnique

2.1. Définition de la géotechnique La géotechnique est la science qui se préoccupe des interactions d’un sol et d’un construit, route, bâtiment ou ouvrage d’art. Toute démarche géotechnique ne peut se concevoir qu’en fonction d’une situation réelle ou supposée, d’une contextualisation d’un problème, et ce généralement, par analogie avec une situation similaire déjà connue. L’activité géotechnique se perçoit donc d’abord comme un ensemble de savoir-faire et de techniques, comparables au tour de main d’un artisan (Magnan 2002).

2.2. Hétérogénéités 2.2.1. Technique La géotechnique est en effet le point de rencontre de spécialités distinctes : géologie, mécanique des milieux continus et discontinus, chimie, hydraulique, … Chacune de ces spécialités implique une conception a priori des éléments géotechniques, une terminologie et des pratiques particulières. 2.2.2. Régionale Un deuxième élément fonde l’hétérogénéité de la géotechnique, à savoir sa disparité régionale ; les types de roches et les configurations de sol sont liées à des régions, ce qui donne donc naissance à des terminologies et des concepts régionaux. Ainsi l’« argile de Mexico » est un sol propre à Mexico, et cité comme tel dans nombre de documents. Pourtant, ce sol n’est pas composé d’argile, mais de cendres volcaniques. La dénomination rend compte d’un cas 1

Recueil Assisté pour le Management des Connaissances dans les Espaces Souterrains Habités (Faure, 2004)

Représentation des connaissances en géotechnique 3

d’usage, et peut apparaître trompeuse pour qui n’a pas de connaissances préalables sur la nature du sol de Mexico. A cette image, les exemples de dénominations régionales peuvent être multipliés, mais tous permettent de brosser le tableau d’un environnement professionnel où les cas d’usage terminologiques se surajoutent à une polysémie déjà rendue redoutable par l’étendue du domaine géotechnique. 2.2.3. Impossibilité de la connaissance Cet état de choses n’est pas seulement le fait de la double hétérogénéité du domaine qui vient d’être décrite, mais aussi de la nature même des projets géotechniques. Ceux-ci commencent généralement par la conception d’un construit inexistant à implanter dans un environnement inconnu. Le sol ,en effet, défie l’observation ; on ne peut en connaître les caractéristiques qu’au travers de tests et de sondages2 qui ne permettent que l’approximation. De surcroît, un sol donné n’est pas reproductible en laboratoire et les sondages ont un coût élevé. De fait, un sol est un système complexe dont l’étendue physique elle-même est soumise à hypothèse, puisque ses caractéristiques peuvent être générées via des interactions à partir d’éléments dont il est a priori impossible de déterminer l’emplacement, la proximité ou même la nature. On trouve là les raisons fondamentales de l’empirisme mentionné en premier lieu dans cet article, les causes de l’importance de l’expertise et la motivation principale pour le raisonnement par analogie, avec tous les risques qu’il comporte pour les projets de conception. C’est pourquoi la démarche pragmatique est très souvent utilisée en géotechnique3. 2.2.4. La documentation et informatisation du domaine Paradoxalement, la communauté géotechnique est une communauté fortement mondialisée et relativement ‘communicante’, via la pléthore de documents produits pour l’un ou l’autre des forums qui l’animent. Un premier constat est que l’on retrouve dans la forme générale documentaire ce qui vient d’être dit : on distingue les documents à haute technicité, généralement relevant d’une spécialité (le plus souvent en physique des matériaux) et les rapports de chantier, essentiellement descriptifs, décrivant situations rencontrées, mesures prises en fonction de ces situations et résultats de ces mesures. De manière comparable, et pour ce qui concerne la pratique géotechnique en France, le recours à des systèmes d’aide informatique se limite bien souvent à des logiciels de calcul, consacrés à des points spécifiques : dimensionnement de tunnels en fonction d’un sol donné, calcul 2

A ce sujet, la communauté géotechnique conserve à l’esprit que le volume des sondages et le volume du sol auquel on applique leur résultat possède un rapport qui peut surprendre, de l’ordre de un pour un milliard 3 C’est l’objet de la méthode de plus en plus employée à l’heure actuelle durant la réalisation de projets géotechniques, baptisée « méthode observationnelle » et qui consiste, pour pallier partiellement à la méconnaissance de l’environnement, à étudier en temps (presque) réel l’interaction de chaque élément de la structure projetée avec le sol, à mesure de l’avancement du projet.

4

Inforsid 2006

des confortations nécessaires à la stabilisation d’un talus, estimation des trajectoires de chutes de blocs en fonction de certains paramètres, … La communauté géotechnique française a connu un vaste engouement pour les systèmes experts (CESSOL, XPENT4, CASTOR, SOUT, PROSPECTOR, …), lesquels ont rarement utilisés en pratique. Les causes en sont multiples et ont parfois été analysées (Magnan 1992), mais deux constantes apparaissent : - le besoin pour l’utilisateur de comprendre l’outil qu’il manipule, au moins ses principes fondamentaux, le rejet des intermédiaires pour le traitement de la connaissance - l’investissement souvent trop important, au moins en temps et en énergie, pour alimenter une base de connaissances en mesure de fournir des réponses satisfaisantes Les tendances les plus récentes concernant les systèmes d’information visent à faciliter le travail collaboratif en réseaux ainsi que des systèmes d’annotations et commentaires concernant des documents de travail, ou de mise à disposition de cas pour constituer une base de références communes5. On constate du reste que la communauté géotechnique véhicule à travers ces descriptions nombre d’histoires qui augurent favorablement de ce que des techniques comme le storytelling pourraient apporter au domaine.

3. Comment envisager un système d’aide : une approche Ces éléments de description permettent d’évaluer certaines des contraintes auxquelles un système d’aide pour la conception de projets géotechniques doit se soumettre. Quelques éléments de réponse sont esquissés pour chacune de ces contraintes : - système utilisé et implémenté par les utilisateurs, spécialistes du domaine et peu accoutumés aux systèmes d’information Cette contrainte limite le rôle de l’ingénieur de la connaissance à la phase de conception du système et laisse deux choix : une interface qui « gomme » la complexité du système – par exemple inspirée de (Clark et al. 2001), ou une approche informelle structurée. - représentation des connaissances fondée sur des situations La représentation en contexte des différents concepts mobilisés pour représenter une connaissance rend compte d’éléments qui sont jugés autrement non traduits dans l’ingénierie des connaissances en tant que transfer process (Studer et al. 1998). De surcroît la valeur de la contextualisation pour la représentation des connaissances est capitale pour la géotechnique, de par les difficultés de formalisation que ses spécificités engendrent (hétérogénéité, incomplétude et approximation des données) selon le model process.

4 5

(Mascarelli, 1994), (Mascarelli et al., 1992) Le projet WASSS (Wide Area Slope Stability Survey), par exemple

Représentation des connaissances en géotechnique 5

- prise en compte des différentes hétérogénéités du domaine, notamment terminologiques L’approche des synsets développée dans Wordnet (Fellbaum 1998) peut être réutilisée pour compenser l’hétérogénéité terminologique du domaine, notamment en prenant en compte les cas d’usages, similaires à des emplois métonymiques ou synecdotiques : emploi de la partie pour le tout, de la propriété pour l’objet et inversement. L’hétérogénéité régionale et due aux différentes spécialités pose un problème dont la résolution peut passer par l’établissement d’une référence commune aux spécialistes. La constitution de cette référence doit être pragmatique, c’est-à-dire qu’elle doit essentiellement permettre un accès facilité des utilisateurs vers la connaissance. Confier la construction de cette référence aux utilisateurs eux-mêmes semble dans ce cadre une nécessité. - acceptation des approximations et données manquantes Les méthodes d’enrichissement de requêtes autorisent un palliatif à l’approximation et l’inexactitude, mais peuvent générer bruit et indécidabilité. La construction de la référence commune demande dès lors un système sémantiquement riche. - connaissances extraites à partir des documents du domaine, potentiellement contradictoires Le problème de la contradiction interne à une base de connaissance peut être résolu selon l’approche des micro théories, développées au sein du projet Cyc (Blair et al. 1992). Une micro théorie dessine un cadre applicatif à l’emploi d’une assertion en introduisant des éléments de contexte. Ainsi les assertions « Les limons ont une faible portance » et « Les limons ont une forte portance » sont contradictoires telles quelles mais exactes, en fonction du volume d’eau présent dans lesdits limons6. Evidemment, la précision du contexte dépend de la qualité de la source de connaissance. Pour notre exemple, l’élément hygrométrique n’est pas forcément stipulé dans le document qui a servi a construire l’une ou l’autre assertion dans la base de connaissance. L’absence d’un élément de contexte, fondamental dans ce cas, laisse à l’utilisateur la responsabilité du choix entre les deux assertions ; la non-représentation d’une assertion pour cause d’incohérence apparente de la base de connaissances serait sans doute une erreur plus dommageable. Ce cas laisse aussi au spécialiste qui formalise la connaissance le soin de préciser ou non cet élément, s’il en a connaissance. - accessible à la communauté Complétion et utilisation de la base de connaissances, confiées aux utilisateurs, demande idéalement que le système soit soumis aux contraintes organisationnelles du domaine. Pour résumer, séquentialisation des tâches 6

Cet exemple est plus qu’anecdotique : la sécheresse de l’été 1997 en France a représenté une des plus fortes sorties d’argent des assurances relatives au domaine (maisons fissurées dans les sols limoneux du bassin parisien).

6

Inforsid 2006

relatives au système d’information et accessibilité apparaissent comme étant les points-clés pour un système utilisé par une communauté d’experts souvent soumis à des contingences matérielles et temporelles incompatibles avec des contraintes géographiques ou astreintes temporelles.

4. Vers un modèle original On adoptera ici la définition suivante de modèle, que l’on retrouve du reste sous une forme similaire dans de nombreux domaines : un modèle est une représentation intellectuelle possible d’un objet (ou ensemble d’objets) du monde, structurée et simplifiée de manière à pouvoir être utilisée dans un but spécifique. Les formalisations de modèles sont elles-mêmes des modèles, puisque la formalisation affine le modèle initial en vue d’une application plus spécifique (l’adéquation à un processus répétable induite par l’aspect formel étant en ellemême une spécificité). Fondamentalement, cependant, l’essentiel de ces modèles découlent d’un postulat que l’on appellera « postulat classique », voulant que les objets modélisés puissent être catégorisés (c’est-à-dire conceptualisés si on accepte ici, comme dans de nombreux travaux, l’équivalence des termes catégorie et concept) selon leurs propriétés. Ainsi, participent d’une catégorie tous les objets qui montrent un ensemble de propriétés communes. Or, les travaux de Ludwig Wittgenstein7 ont ouvert la voie à la remise en question de ce postulat classique. Ce qui brouille la définition du concept réside donc dans son expression (par support linguistique en l’occurrence). Autrement dit, il n’y a pas de différence immédiate entre comprendre et croire comprendre ; la compréhension se mesure pragmatiquement, aux résultats engendrés et donc en contexte. La forme la plus immédiate pour cela est la mise en contexte du concept, ce qui correspond du reste à l’approche de Searle, qui stipule que nulle règle ou signification ne s’explique d’elle-même, et qu’un individu nécessite une contextualisation de son emploi pour l’employer ou la comprendre correctement; cette mise en contexte autorisant, indique Searle, la mobilisation d’éléments du Background pour la compréhension8. (Gangemi et al. 2002) attache également une importance certaine à cette notion de Background et indique se situer en conséquence à un niveau « mésoscopique », c’est-à-dire à un niveau où l’on ne se préoccupe plus des éléments atomiques (les propriétés, en l’occurrence) pour ne s’intéresser qu’aux catégories en tant qu’entités et non en tant qu’assemblages de propriétés. Selon une telle approche, le système obtenu ne peut être que descriptif, marqué par nombre de présupposés de son domaine d’application et 7

Au sein de l’ouvrage édité en français sous le nom de Grammaire Philosophique Le Background selon Searle est un ensemble de capacités biologiques et culturelles non représentables qui fonde les possibilités de représentation et de compréhension, de l’individu. Cf. Searle, J. (1992). The Rediscovery of the Mind. Cambridge, MA, MIT Press 8

Représentation des connaissances en géotechnique 7

maintenu en fonction des résultats obtenus par son utilisation. C’est pourquoi, dans le cadre du projet RAMCESH, on utilise le terme « pragmatique » pour qualifier un tel système. Ce système obéit a priori aux contraintes géotechniques, notamment vis-àvis de ses utilisateurs et de la nature insaisissable de certains éléments du domaine ; en revanche, il se distingue de la conception classique de l’objet, et se détourne de nombreux modèles existants (le modèle objet le premier, mais également le modèle relationnel). On se tournera donc vers une modélisation ontologique descriptive, qui, comme indiqué plus haut, autorise ce type d’approche sous le nom d’ontologies informelles ou informelles structurées (Uschold et al. 1996).

5. Définition de l’ontologie du système Comment dès lors définir l’ontologie que l’on se propose de construire ? Il existe de nombreuses ontologies, de nombreux types d’ontologies et de nombreuses définitions des ontologies. La plus célèbre de celles-ci apparaît dans (Grüber 1993) : une ontologie est la spécification d’une conceptualisation. La « conceptualisation » évoquée ici semble correspondre à un modèle au moins implicite préexistant à l’ontologie9 ; cette définition est donc centrée autour d’une opération d’explicitation voire de formalisation de ce modèle. De fait, on trouve dans l’abondante littérature concernant la définition des ontologies des variantes portant sur ces points : dans (Studer 1998), une ontologie est une spécification formelle et explicite d’une conceptualisation partagée. Pour ce qui concerne le projet RAMCESH, l’identification d’une ontologie avec une formalisation de modèle n’est pas souhaitable en raison de l’abandon de la vue « mésoscopique » que cela suppose. On retiendra donc, parmi le catalogue des définitions publiées, deux définitions qui nous apparaissent plus pertinentes. La première est celle de (Neches et al. 1991) : « As mentioned earlier, the ontology of a system consists of its vocabulary and a set of constraints on the way terms can be combined to model a domain. All knowledge systems are based on an ontology, whether implicit or explicit. » La seconde est celle de (Aussenac-Gilles 2005) : 9

Pour citer Grüber lui-même “A body of formally represented knowledge is based on a conceptualization: the objects, concepts, and other entities that are assumed to exist in some area of interest and the relationships that hold among them. A conceptualization is an abstract, simplified view of the world that we wish to represent for some purpose. Every knowledge base, knowledge-based system, or knowledge-level agent is committed to some conceptualization, explicitly or implicitly.” On mesure la proximité de cette conceptualisation avec la définition de modèle donnée plus haut.

8

Inforsid 2006

« Ontologie – Ingénierie des connaissances : Ensemble des objets reconnus comme existants dans le domaine. Construire une ontologie, c’est aussi décider d’une manière d’être et d’exister des objets ». Ces deux définitions sont tout à fait compatibles avec les précédentes, mais on les favorisera essentiellement parce qu’elles nous semblent mobiliser les éléments du domaine tels qu’existants dans notre étude, non exprimés selon des composantes de formalisation rarement (voire jamais) utilisées dans le domaine d’application. C’est sans doute là une perte d’information au regard du système tel que manipulé par un agent extérieur au domaine (ingénieur des connaissances, moteur de raisonnement, etc…) mais pas vis-à-vis des spécialistes du domaine (on retrouve là la notion de Background). C’est pourquoi on qualifiera ces définitions d’empiriques (c’est-à-dire fondées avant tout sur des éléments existant dans le domaine). Si l’on s’en tient à ces définitions, on peut proposer une construction d’ontologie géotechnique fondée sur le lexique du domaine, organisé de façon à représenter la manière dont les spécialistes eux-mêmes perçoivent l’existence des objets de leur domaine. Il ne s’agit pas pour autant d’une hiérarchie de concepts (taxonomie), puisqu’une hiérarchie se fonde sur une seule relation conceptuelle10. Or, le raisonnement dans le domaine (et surtout nonobstant les contextes d’emploi) se fonde non seulement sur la subsomption (autrement nommée relation is-a ou relation d’hyponymie), mais aussi sur la relation d’agrégation (relation part-of, partonomie, méronymie). On restreint cette dernière relation aux éléments component/integral object et feature/activity (Artale et al. 1996). L’ontologie est donc construite simplement, en fusionnant deux hiérarchies fondées sur ces relations. A noter qu’une contrainte existe, c’est que les hiérarchies partagent un lexique commun, qui rend possible la fusion. Ce lexique est constitué à partir d’un corpus documentaire, préalablement constitué par la communauté d’utilisateurs. Il faut en effet préciser qu’il existe peu de bases ou entrepôts de données ou de connaissances géotechniques utilisables pour la constitution d’ontologies, et qu’il faut procéder « from scratch » à partir de données hétérogènes et non structurées, issues de l’abondante production documentaire évoquée plus haut. Les règles de constitution du lexique reposent sur la possibilité d’emploi de substantifs ou syntagmes nominaux en tant qu’éléments de thème comme de prédicat ; ce sont donc les seuls éléments pris en compte pour la phase d’extraction des concepts du domaine. Cette extraction est automatique (via l’utilisation d’un analyseur syntaxique), mais la qualification et le classement 10 A ce sujet, (Guarino 1998) définit une distinction formelle entre « relations conceptuelles » valides pour l’ensemble des états de choses possibles sur un domaine et « relations » au sens commun du terme. Nous n’utilisons cependant pas la même approche pour distinguer « relations conceptuelles », qui désignent les relations génériques de l’ontologie et « relations prédicatives » qui désignent les relations pertinentes pour décrire les situations spécifiques à un état de choses.

Représentation des connaissances en géotechnique 9

des termes candidats au sein de l’ontologie repose sur le jugement des experts, et se fait manuellement, en ligne. Les concepts sont accompagnés d’une définition en langage naturel à seul but de désambiguïser leur emploi. On remarquera à ce propos que les définitions données par les experts sont rarement très importantes, dans la mesure où la majorité des objets du domaine sont déjà définis par les relations qu’ils entretiennent avec les concepts proches. En ce sens, classer, c’est définir un peu. Les définitions les plus importantes (en termes de complexité) sont sans doute les définitions des lois civiles ou physiques employées dans le domaine. (Grüber 1993), repris par (Corcho et al. 2002), fixe aux ontologies des critères de conception, dont il précise que certains sont partiellement contradictoires et qu’il importe de faire des « compromis » (tradeoffs) entre ces critères, en fonction notamment du contexte d’utilisation de l’ontologie. Dans le cas de l’ontologie de la géotechnique, les compromis les plus évidents ont été de favoriser les critères d’encodage minimal (minimal encoding bias) et de contrainte ontologique minimale (minimal ontological commitment). Le cas du critère de clarté est plus complexe, puisqu’il s’adresse en l’occurrence à une seule catégorie d’agents, les géotechniciens. Enfin, les critères de cohérence et d’extensibilité tels que définis par Grüber ne sont que peu pris en compte, puisque opposés aux critères favorisés (la cohérence d’une ontologie ne peut s’affranchir de celle de son domaine sans heurter la contrainte ontologique minimale, voire l’encodage minimal s’il s’agit de faciliter un processus de raisonnement). Au final, une ontologie de la géotechnique telle qu’en ont été définis les contours dans les lignes ci-dessus est ce qu’il conviendrait d’appeler une ontologie de domaine, poids léger, informelle structurée (Corcho et al. 2002), (Uschold et al. 1996) et descriptive (Masolo et al. 2001) plutôt que terminologique (Uschold et al. 1996). Ceci étant, cette ontologie ne répond que partiellement aux contraintes envisagées pour un système d’aide en géotechnique ; (Grüber 1993) stipule qu’une ontologie n’est qu’une portion d’un système à base de connaissances. A partir des « éléments de surface » rassemblés dans l’ontologie, l’étape de représentation des connaissances contextuelles, situationnelles, de la géotechnique peut être envisagée. Cette représentation repose sur la constitution d’éléments à partir des concepts recensés dans l’ontologie et possédant une expressivité propre. Ces éléments sont nommés granules de connaissances, et décrivent une situation ainsi que les implications qu’elle engendre, telles que décrites dans un document du domaine.

6. Le granule de connaissances Nous définissons donc un ensemble de relations et de noeuds cohérent, baptisé « granule de connaissances », qui comprend le descriptif d’une situation et ses implications théoriques. Chacun des nœuds défini dans un

10

Inforsid 2006

granule représente un ensemble d’instances dans un univers de référence, propre à un projet. L’objectif premier de cette démarche est d’identifier par des référents (i.e. des termes qui renvoient à une réalité tangible – un objet réel) tous les objets destinés à être manipulés durant la phase de réalisation du projet, mais aussi et surtout d’assurer la cohérence de la méthode employée pour mener à bien une conception de projet. Un granule de connaissances se construit à partir de trois ensembles : un ensemble de concepts, un ensemble de relations, un ensemble d’instances. Les concepts sont désignés par des noms ou syntagmes nominaux lemmatisés ; ils recouvrent des réalités géotechniques assimilées à partir des documents du domaine. Les concepts dont il s’agit ici sont plutôt dépendants de la vision probabiliste des concepts11, ce qui signifie que leurs limites sont assez mal définies et que leurs propriétés ne sont pas prégnantes pour les définir. Ce choix est directement impliqué par la diversité des emplois terminologiques et des visions conceptuelles de la géotechnique que l’on retrouve dans les documents du domaine, qui forment notre source de connaissance principale. Un concept est donc strictement un couple terme et définition, exprimée en langage naturel. Cela implique également, étant donné la semi-informalité (Uschold et al. 1996) d’un tel mode de représentation, qu’il n’existe pas, comme dans d’autres modèles, de distinction entre concept simple (ou atomique) et concept complexe ; ce dernier résultant de l’agrégation de plusieurs concepts simples mais n’empêche pas la classification de ces concepts au sein d’arborescences. Le granule lui-même pourrait être considéré, en tant qu’agrégat de concepts, comme un concept complexe ; mais son existence n’est pas soumise à sa complexité, plutôt à son état d’objet d’étude du domaine (et le plus souvent, telle qu’est pratiquée cette étude au sein d’une organisation). Les concepts sont employés au sein du granule en tant que thème ou prédicat (thème et prédicat reçoivent ici leur définition grammaticale la plus large : le thème est la « donnée » : ce dont il est question et le prédicat « l’information ajoutée » : ce qui est dit du thème correspondant) ; cette organisation conceptuelle autorise une transcription directe d’une situation par un utilisateur, puisque cela correspond à la manière dont l’expert se la représente : une situation est subdivisée en éléments-clés que d’autres éléments renseignent plus avant. On retrouve cette organisation de manière plus ou moins implicite dans d’autres modèles similaires, comme dans le langage naturel. Ainsi, le « base concept » de (Porter et al. 1997) qui comporte

11

Pour l’essentiel, L. Wittgenstein, dans les Investigations Philosophiques, indique qu’un concept ne peut recouvrir un ensemble d’éléments seulement unis par des caractéristiques communes. Il introduit la notion de « ressemblance familiale » pour affirmer qu’un ensemble d’éléments dotés d’attributs dissemblables (et d’aucun attribut commun à l’ensemble) peut parfaitement s’intégrer au sein d’un seul et même concept. Un concept est donc le produit de ce que Wittgenstein appelle « jeu du langage » et ne peut s’entendre formellement que contextuellement.

Représentation des connaissances en géotechnique 11

des « modificateurs » est comparable à un thème et à ses divers concepts prédicatifs.

Sable (h)

Comp

Béton (y)

Comp

Humidité (s)

Béton (g) Ciment (i)

Comp Comp

Comp

Gravier (k) Ciment (l),

Chaux (o)

Proportion (v)

Grand

Proportion (z)

Eau (j) Comp

Chaux (q) Ciment (n)

Grand

Béton (t)

Grand

Grand

Humidité (u)

Risq

Proportion (p) Proportion (r)

Univers : g, h, i, j, k, l, m, n, o, p, q, Modèle : i=l=n, q=o, p=r=60%

Carbonat. (x)

Béton (w)

Univers : y, s, t, u, v, w, x, z Modèle : y=w=g= t, u=s, v=z>=3,8% Lorsque du béton est composé de sable, ciment, eau, gravier et que le ciment est composé de chaux à 60%, alors l’humidité, au minimum de 3,8%, risque de provoquer la carbonatation du béton.

Figure 1. Le granule « carbonatation du béton » (prémisses à gauche, conclusions à droite ; les relations phrastiques, ici systématiquement des « et », ne sont pas représentées) Les relations servent à définir les interactions et les situations relatives de deux éléments au sein d’un granule. En fonction de la nature de ces éléments, on distingue trois types de relation : - la relation d’implication, qui relie les prémisses aux conclusions au sein du granule. Cette relation est peu formalisée, attendu qu’elle peut recouvrir, selon les cas, de nombreuses réalités : intervention humaine ou action naturelle, avec toutes les nuances que cela implique. Rien n’empêche pourtant de voir dans cette relation le germe d’une représentation par actigramme des étapes nécessaires pour passer du contexte aux implications (Mascarelli, 1994). - la relation prédicative unit thème et prédicat, chacun représenté par un ou plusieurs concepts (il y a toujours un thème, le prédicat est facultatif). Cette relation est une relation spécifique au domaine (on l’appelle aussi « relation métier ») ; l’ensemble des relations métiers est donc restreint et intégralement concevable par l’utilisateur. - la relation phrastique. Au sein du granule, chaque groupe thème-prédicat définit une phrase (y compris si le prédicat ne comprend aucun concept) ; cette

12

Inforsid 2006

phrase correspond globalement, dans un modèle objet, à un objet et ses attributs ; chaque phrase est reliée aux autres phrases par des opérateurs booléens12, ce qu’on appelle ici la relation phrastique. A chaque concept correspond un ensemble d’instances indiquées dans un univers propre à chaque granule. Ces instances peuvent être des valeurs numériques. La cohérence de deux granules se vérifie donc essentiellement par l’union des données de leurs univers respectifs au sein d’un univers de projet (défini comme l’union des univers de chaque granule sélectionné par l’utilisateur – cf. figure 3). Pour chaque granule sélectionné par l’utilisateur dans le cadre d’un projet géotechnique, un ensemble d’instances s’ajoute donc à l’univers de projet, ce qui permet de construire séquentiellement ce projet, en fonction des contextes spécifiques qu’il rencontre13. Lorsque les granules nécessaires au projet sont choisis et validés par l’utilisateur, il devient possible de retrouver par requête les caractéristiques de chaque élément instancié en fonction des relations prédicatives qu’il comporte sur l’ensemble des granules du projet. Le granule autorise également le glissement sémantique, utile au regard de ce qui a été indiqué de l’« inconnaissabilité » des contextes géotechniques. L’approximation d’un contexte géotechnique se fait, dans le cadre des granules de connaissances, par la variation des concepts du granule le long des arborescences conceptuelles. En pratique, ce mécanisme peut être comparé à un enrichissement de requêtes par ontologie. Le glissement sémantique demande un paramétrage par l’utilisateur ; on a généralement pu observer qu’un unique glissement (un seul nœud de distance sur les arborescences conceptuelles) était nécessaire, et qu’au-delà les granules n’ont que peu de sens pour l’utilisateur, puisque trop éloignés de leur contexte d’origine. De même seuls certains concepts au sein du granule peuvent varier : il n’y a pas de sens à autoriser une variation de tous les concepts… Il revient à l’utilisateur de paramétrer également ce point, étant donné qu’il est rare qu’une indication présente dans les documents de départ permette de pondérer la variabilité d’un concept. La navigation à travers un ensemble de granules, dans le cadre d’une utilisation concernant un projet, commence généralement par l’utilisateur indiquant les diverses données dont il dispose (co-occurrence de concepts ou « phrases » restreintes). La recherche de granule se fait alors par similarité, 12

L’ensemble des relations booléennes n’est pas couvert par les relations phrastiques : le « ou » notamment, entraîne plutôt la génération d’un nouveau granule 13 On peut s’inquiéter d’une prolifération de granules pour les grands projets géotechniques comme les tunnels. Ce risque est réduit par la démarche géotechnique même : un projet géotechnique est généralement divisé en plusieurs tranches correspondant chacune à un contexte géologique dominant. Ce qui permet de n’envisager pour chaque tranche de projet qu’un nombre réduit de granules à évaluer au sein de l’ensemble de tous les granules – ceux correspondant au contexte ou possédant un contexte proche. Corollairement, ce qu’on appelle un « univers de projet » devrait s’appeler un « univers de tranche », mais l’usage a légitimé la dénomination.

Représentation des connaissances en géotechnique 13

c’est-à-dire en identifiant les granules dont la structure se rapproche le plus des éléments indiqués ; la notion de proximité étant définie par une correspondance partielle ou totale des éléments indiqués avec les éléments trouvés, ou, à défaut, par un glissement sémantique le plus réduit possible jusqu’à trouver une réponse. C’est ensuite à l’utilisateur de sélectionner les granules satisfaisants pour son cas, en utilisant éventuellement le glissement sémantique pour enrichir sa recherche. A

B

H

C

J

I E K D

L

N M O

Univers : A, … , X Modèle : A = M = H = R = U = X ; V = 4,5% ; L = O = S ; …

P

U Q

V

W R T

X

S

Figure 2. Schéma d’utilisation de projet : deux granules, un seul univers donc un seul modèle Le contexte initial est enrichi des éléments propres aux granules ainsi sélectionnés, ce qui permet de réitérer l’opération ; mais à chaque fois qu’un granule est sélectionné, les contraintes propres aux individus qu’il comporte s’ajoutent aux autres sur le profil de projet, limitant les risques d’augmentation exponentielle du nombre de granules sélectionnables. Vient un point où une nouvelle itération du processus n’amène plus de nouveaux granules.

14

Inforsid 2006

L’utilisateur dispose alors d’un profil de projet géotechnique qui lui fournit un guide cohérent pour le projet dans son ensemble, et tenant compte d’éléments techniques décrits dans des documents dont la consultation lui aurait consommé un temps précieux eu égard aux délais de plus en plus courts imposés aux projets géotechniques.

7. Travaux du domaine Notre proposition est proche de plusieurs travaux du domaine, et ce par divers aspects. Les travaux concernant des systèmes de concepts interagissant entre eux ne sont pas récents (cf. par exemple (Falkenhainer, 1991)) ; le granule de connaissance se rapproche à ce titre du knowledge component décrit dans (Porter et al., 1997). Cependant, le knowledge component s’inscrit aussi dans la problématique du problem-solving là où le granule est plutôt orienté vers l’aide à la conception de projet. Les problématiques de présentation de la connaissance à un public peu formé sont également largement abordées dans la littérature, via des efforts vers la présentation graphique des connaissances (c’est l’une des raisons fréquemment invoquées pour le choix des graphes conceptuels – par exemple (Baget et al. 1999), (Fürst 2005)) ; on notera surtout à ce propos le préambule de (Clark et al. 2001) : « Despite some successes, the lack of tools to allow subject matter experts to directly enter, query and debug formal knowledge domain in a knowledge base (KB) still remains a major obstacle to their deployment ». Pour autant, le projet RAMCESH n’ambitionne pas de produire, comme c’est le cas par exemple du projet SHAKEN (présenté à la suite du préambule cité), d’outil graphique générique pour répondre à cette problématique, mais plutôt de concevoir un formalisme spécifique au domaine et adaptable à tout support ou technologie existant et répandu (modélisation objet, Graphes Conceptuels, RDF, …) Les micro-théories, développées au sein du projet Cyc (cf. (Blair et al. 1992)), sont quant à elles une des fondations pour la représentation du contexte, prégnant en géotechnique mais présent à des degrés divers dans tous les autres domaines. Le granule de connaissance est la résultante d’une réflexion sur le contexte et d’une observation des documents du domaine qui ont mené, en collaboration avec les experts du domaine, à choisir une représentation essentiellement phénoménologique des connaissances. Ce choix se pose en rupture avec les travaux précédemment menés en géotechnique ((Mascarelli 1994), (Mascarelli et al. 1992), (Faure et al. 1992)) qui s’orientaient principalement sur la représentation des tâches, via par exemple KOD (Vogel, 1996) et KADS (Wielinga et al., 1992) ou des systèmes apparentés. Ces travaux ont permis de modéliser efficacement les tâches du domaine, mais ont prouvé leurs limites (cf. par exemple (Magnan, 1992)).

Représentation des connaissances en géotechnique 15

Enfin, la proximité d’un tel modèle avec certains types de patterns de connaissance (notamment les knowledge patterns de (Clark et al., 2000)) peut autoriser des rapprochements futurs avec ce pan de la recherche.

8. Etat de l’expérimentation, conclusions partielles et perspectives Le modèle présenté est actuellement testé en milieu professionnel. La réalisation informatique, en cours, traite pour le moment la partie terminologique (constitution des arborescences conceptuelles). Cette réalisation permet une utilisation conjointe par des personnels géographiquement dispersés, via Internet. Les tâches qui président à la constitution des arborescences doivent également pouvoir être séquencées pour autoriser les experts à aménager l’aspect durée propre à l’utilisation et la maintenance d’un tel système. Des granules ont également été constitués manuellement à titre d’exemple à partir de documents hétérogènes (articles de revues scientifiques du domaine d’application, documents à finalité didactique – cours et tutoriaux, documents normatifs, exposés techniques). Il apparaît d’ores et déjà, bien que ces conclusions ne soient que temporaires, que l’approche par arborescences conceptuelles pour constituer un référentiel terminologique fonctionne mieux au regard des utilisateurs que la représentation en réseau propre aux ontologies. La terminologie du domaine étudié est conforme à l’analyse préalable : complexe, notamment très polysémique et dotée d’acceptions régionales ainsi que de cas d’usage propices à l’erreur. Autre observation : les textes normatifs, fréquents en géotechnique, sont nettement moins facilement modélisables que les textes techniques ; le postulat de base du granule, à savoir que tout contexte décrit en géotechnique entraîne une implication modélisable phénoménologiquement, est désamorcé par l’absence d’une telle implication dans les cas décrits par les normes. La seule conclusion facilement extractible des textes normatifs est une conformité à la norme présentée (de type : si prémisses alors conformité à la norme). Il est donc concevable à moyen terme de modéliser les normes ainsi extraites en tant que contraintes, à l’instar de l’utilisation de certains graphes conceptuels (Baget et al., 1999). D’autres éléments propres au granule et à définir plus avant concernent l’évaluation de la granularité des connaissances représentées, peut-être en introduisant une mesure sémantique spécifique. L’étape suivante du projet concerne donc la résolution de ces problèmes persistants ; à plus longue échéance cependant, l’intégration d’un système de comparaison systématique des profils de projet, de recherche de généricité et de gestion de projet est envisagé.

16

Inforsid 2006

Références Artale A., Franconi E., Guarino N., Pazzi L. (1996) Part-Whole relations in ObjectCentered Systems : an overview, Data and Knowledge engineering, Elsevier Aussenac-Gilles N. (2005), Ingénierie des connaissances : modélisation et ontologies, langue, Connaissance, information, Ecole de printemps CNRS, Batz-sur-mer Baget J.-F., Genest D., Mugnier M.-L. (1999), Knowledge Acquisition with a Pure Graph-Based Knowledge Representation Model -- Application to the Sisyphus-I Case Study, KAW’99, Banff, Alberta, Canada Blair P., Guha R. V., Pratt W., (1992) Microtheories: An ontological engineer's guide. Technical Report Cyc-050-92, Cycorp, Austin Clark P., Porter B. (1997), Building concept representations from reusable components, Proceedings AAAI 1997 Corcho O., Fernandez-Lopez M., Gomez-Perez A., (2002) Methodologies, tools and languages for building ontologies. Where is their meeting point ? , Elsevier, Madrid Faure N. (2004), Le granule de connaissances, Actes Inforsid 2004, Biarritz, Fellbaum, C (1998), Wordnet : An Electronic Lexical Database. Cambridge ; MIT Press Gangemi, A. and Guarino, N. and Masolo, C. and Oltramari, A. and Schneider, L. (2002) Sweetening Ontologies with DOLCE, Proceedings of the International Conference on Knowledge Engineering and Knowledge Management. AAAI Grüber T., Toward Principles for the Design of Ontologies, Formal Ontology in Conceptual Analysis and Knowledge Representation, Kluwer Academic Publishers. Guarino N. (1998), Formal ontology and information systems. Amended version of a paper appeared in N. Guarino (ed.), Volume 46 Frontiers in Artificial Intelligence and Applications. IOS Press Magnan J.P. (2002), L’organisation du travail en géotechnique : développement, normalisation et artisanat, Lettre de la Géotechnique 26 et 27, Société Internationale de la Mécanique des Sols et de la Géotechnique Mascarelli D., Faure R.M., Kastner R., Anatomie d’un projet à base de connaissances, XPENT, système de travail en ingénierie des pentes, Actes du colloque Géotechnique et Informatique, ENPC, Paris, 1992 Masolo C., Borgo S., Gangemi A., Guarino N., Oltramari A., (2001) Wonderweb deliverable D18, http://wonderweb.semanticweb.org/ Neches R., Fikes R., Tim Finin, Thomas Gruber, Ramesh Patil, Ted Senator, and William R. Swartout, (1991) Enabling Technology For Knowledge Sharing, AI Magazine, Volume 12, No. 3, Fall 1991 Studer R., Richard Benjamin V., Fensel D. (1998), Knowledge engineering : Principles and Methods, Data and Knowledge engineering Uschold M., Grüninger M. (1996), Ontologies: Principles, Methods and Applications , Knowledge Engineering Review