Comparaison sémantique de textes en lan- gage ... - Semantic Scholar

MOTS-CLÉS : langage naturel, logiques de description, comparaison ... tique du langage naturel a été formalisée par les algèbres relationnelles [BOE 97] et.
118KB taille 9 téléchargements 181 vues
Comparaison sémantique de textes en langage naturel Une approche par les logiques de description Naouel Karam Laboratoire d’Informatique, de Modélisation et d’Optimisation des Systèmes (LIMOS) CNRS UMR 2239 – Université Blaise-Pascal Clermont-Ferrand II 24 avenue des Landais 63177 Aubière cedex [email protected] Catégorie: jeune chercheur Nous proposons une méthode pour la comparaison sémantique de textes en language naturel. Le processus est réalisé en deux étapes. la première consiste à trouver une représentation formelle de la sémantique des deux textes. Nous avons choisi les logiques de description comme formalisme de représentation. La seconde étape vise à comparer les représentations logiques obtenues. Nous avons formalisé le problème de comparaison et proposons un algorithme calculant la différence.

RÉSUMÉ.

ABSTRACT. We propose a method to compare semantically two natural language texts. The process is realized in two steps, the first consists on representing the semantics of the two texts in a formal manner. We use description logics as a representation formalism. The second step aims to compare the logical representations obtained. We formalise the problem of comparison and propose an algorithm that computes the difference. MOTS-CLÉS : KEYWORDS:

langage naturel, logiques de description, comparaison sémantique, terminologie natural language, description logics, semantic comparison, terminology

1. Introduction et motivation Dans cet article nous abordons le problème de comparaison sémantique entre deux textes en Langage Naturel (LN). Ce travail est motivé par diverses applications, telles que l’indexation de documents et la maintenance de sites webs, où nous avons besoin de comparer des documents et de caractériser de manière précise leurs différences. Pour résoudre ce problème, nous proposons un processus en 2 étapes : 1) Étape de traduction dont l’objectif est de représenter formellement la sémantique des deux textes en LN ; 2) Étape de comparaison qui va utiliser un algorithme permettant de calculer la différence entre les descriptions obtenues. Nous proposons d’utiliser les Logiques de Description (LD) comme language de représentation formelle pour la description de la sémantique des textes en LN. Deux raisons motivent notre choix : 1) Les LD possèdent une sémantique bien définie et des algorithmes d’inférence corrects, 2) La formalisation d’un texte en LD a déja été étudiée précédemment [SCH 92]. Dans l’étape de traduction, nous réutilisons les principes décrits dans [SCH 92] qui établissent un lien entre le language naturel et les LD partant du constat que la sémantique du langage naturel a été formalisée par les algèbres relationnelles [BOE 97] et que ces dernières ont un lien avec les LD [SCH 91]. Le processus de traduction est donc le suivant : étant donné un texte en LN, construire sa représentation algébrique ensuite transformer les expressions algébriques obtenues en expressions de logiques de description. Pour un texte en LN, nous obtenons un ensemble de définitions de concepts (appelé terminologie ou ontologie). L’étape de comparaison vise à comparer les deux terminologies obtenues. Etant donné deux terminologies  ½ et ¾ décrivant deux textes  et  respectivement, notre but est de trouver l’information contenue dans  ½ et non dans ¾ et vice versa. Afin de caractériser cette information, nous avons besoin de trouver l’information commune entre les deux terminologies obtenues. Ceci est réalisé par une fonction de mapping  qui va associer chaque concept   de ½ à une combinaison de concepts de ¾ contenant le plus possible d’information commune avec   et le moins d’information en plus par rapport à   . Ce problème est similaire au problème de la recherche de la meilleure couverture d’un concept en utilisant une ontologie [HAC 02]. Nous montrons comment le problème de recherche de la meilleure couverture peut être utilisé pour calculer la différence entre deux terminologies et présentons un algorithme qui calcule la fonction  ainsi que la différence entre les deux terminologies. L’article est organisé comme suit : la section 2 introduit les logiques de description ainsi que le problème de la meilleure couverture. La section 3 décrit l’étape de traduction. Dans la section 4, nous définissons formellement le problème de comparaison et présentons l’algorithme implémenté. La section 5 présente quelques travaux dans

le domaine. Nous concluons dans la section 6 et présentons quelques idées pour de futurs travaux.

2. Préliminaires Dans cette section nous allons introduire les logiques de description et le problème de recherche de la meilleure couverture.

2.1. Les logiques de description Les logiques de description (appelée également logiques terminologiques) sont une famille de formalismes conçue pour représenter et raisonner avec des connaissances terminologiques. Avec les LD, les connaissances d’un domaine d’application sont représentées par des concepts (prédicats unaires) interprétés par un ensemble d’individus, et des rôles (prédicats binaires) interprétés par des relations binaires entre individus. Partant de l’ensemble   des noms de concepts et l’ensemble   des noms de rôles, des descriptions de concepts complexes sont construites en utilisant un ensemble de constructeurs de concepts. Soit     un nom de concept,     un nom de rôle,  un entier positif et , des descriptions de concepts (complexes). Les descriptions de concepts sont formées selon des règles syntaxiques comme celles de la Figure 1. Les différents langages de logiques de description se distinguent par le type et le nombre de constructeurs qu’ils permettent. Le language  ¼ , par exemple, permet d’exprimer uniquement la conjonction et la quantification universelle. Si  dénote une logique de description quelconque, un concept construit en utilisant les constructeurs de  s’appelle un -concept.



      

   

   

(top) (bottom) (nom de concept) (négation primitive) (négation) (conjonction) (disjonction) (quantification existentielle) (quantification universelle) (restriction sur les nombres) (restriction sur les nombres)

Figure 1. Syntaxe de quelques descriptions de concepts

La sémantique des descriptions de concepts est définie par la notion d’interprétation comme suit. Definition 1 (interprétation) Une interprétation      ) consiste en un ensemble non vide   , le domaine de l’interprétation, et une fonction  qui associe chaque concept     à un sous-ensemble de   et chaque rôle     à une relation binaire   , sous-ensemble de    . La fonction d’interprétation est étendue à des descriptions de concepts arbitraires comme suit :

 

                   

= = = = = = = = = =





     

                       

        

                                 

Les systèmes de LD fournissent divers services de raisonnement, le plus important est l’inférence des liens de subsomption. Definition 2 (subsomption) Soit et deux noms de concepts ; subsume (noté  ) ssi    pour toute interprétation  .



Les descriptions de concepts sont utilisées dans des terminologies (TBoxes) décrivant l’information intentionnelle d’un domaine d’application. Definition 3 (Terminologie) Soit  un nom de concept et une définition de concept.  et   sont des axiomes terminologiques. La première est une définition complète, la seconde une définition incomplète. Une terminologie  est un ensemble fini d’axiomes terminologiques tels qu’aucun nom de concept n’apparaît plus d’une fois dans la partie gauche d’une définition. Si un concept  apparaît en partie gauche d’une définition, il est appelé concept défini. Les autres concepts sont appelés concepts primitifs. 

Une terminologie construite en utilisant les constructeurs d’une logique de description  s’appelle une -terminologie. Une interprétation  est un modèle pour une TBox  si elle satisfait tout axiome dans  : -    pour tout axiome terminologique   dans  ,   -   pour tout axiome terminologique   dans  . Une terminologie (Tbox) est dite acyclique si aucun nom de concept n’apparaît directement ou indirectement dans sa propre définition. Une Tbox est fermée s’il n’existe aucune description de concept contenant des noms définis. Chaque Tbox acyclique peut être transformée en une Tbox fermée équivalente en substituant chaque concept défini apparaissant dans la partie droite d’une définition par sa propre définition.

Dans notre cas, les documents en langage naturel sont représentés par une TBox, les expressions en langage naturel sont transformées en axiomes terminologiques. Nous supposons que la TBox obtenue est acyclique et fermée.

2.2. Le problème de recherche de la meilleure couverture La notion de recherche de la meilleure couverture a été formellement définie dans [HAC 02], elle a été appliquée à la découverte dynamique de e-services. L’information supplémentaire est caractérisée à l’aide d’un opérateur de différence, cet opérateur a été défini par Teege [TEE 94] dans le cadre des logiques de description avec subsomption structurelle (où l’opérateur de différence est toujours sémantiquement unique). Definition 4 (opérateur de différence) La différence  entre deux -concept et est définie par :          . Le maximum est défini par rapport à la subsomption et le deuxième argument doit subsumer le premier. Pour deux descriptions incomparables et la différence  est donnée par  , où   est le plus petit subsumant commun des deux descriptions (c-à-d. la description la plus spécifique dans l’espace infini des descriptions possibles qui englobe une paire de concepts [COH 93]). Nous allons rappeler les définitions présentées dans [HAC 02] pour définir formellement le problème de recherche de la meilleure couverture. Soit  une logique de description avec subsomption structurelle,  une -terminologie, et   un -concept. Definition 5 (couverture) La couverture d’un concept  en utilisant une terminologie  est la conjonction  de quelques noms de concepts dans  tels que :        . Definition 6 (rest et miss) Soit  un -concept et  la couverture de  en utilisant  . Le reste de  par rapport à  , noté   , est défini comme suit :          . L’information absente de  par rapport à  , notée    , est définie comme suit :          . Definition 7 (meilleure couverture) Une description de concept  est appelée meilleure couverture de  en utilisant une terminologie  ssi : –  est une couverture de  en utilisant  , et – il n’existe pas une couverture   de  en utilisant  tel que           .

Dans [HAC 02], un algorithme appelé computeBCov a été implémenté. Il prend en entrée un concept  et une terminologie  et retourne la meilleure couverture de  en utilisant  (  ).

3. Extraction d’une terminologie à partir d’un texte Rappelons tout d’abord le processus global de comparaison :

41

Texte 1 Etape de traduction Texte 2

Etape de comparaison

41-42

42

Figure 2. Le processus global

Dans cette section, nous allons nous intéresser à l’étape de traduction. La prochaine section décrira l’étape de comparaison. Le lien entre le langage naturel et les LD a été établi d’une façon formelle dans [SCH 92]. Ce travail formalise cette connexion en se basant sur deux observations : - La sémantique du langage naturel a été formellement représentée par l’algèbre relationnelle (voir [BOE 97]). - Le lien a été établi entre l’algèbre relationnelle et les LD [SCH 91]. Nous rappelons d’abord la représentation algébrique des constructeurs des LD comme présentée dans [SCH 91]. Nous montrons ensuite comment les algèbres relationnelles ont été utilisées pour l’analyse sémantique du langage naturel. Enfin, nous montrons comment l’approche algébrique est prise comme base pour trouver la représentation en LD.

3.1. Lien entre les logiques de description et l’algèbre relationnelle La sémantique des opérateurs des LD peut être définie en terme d’opérations algébriques. Comme précédemment, une interprétation  est une paire    où    est le domaine de l’interprétation et  la fonction d’interprétation. Un concept est interprété par l’ensemble    et un rôle  par une relation binaire   sur l’ensemble  . L’interprétation algébrique des descriptions de concepts de la Figure 1 est présentée dans la Figure 3.

 

             



= = := = = = = =



    

   

         

Figure 3. Interprétation algébrique de quelques descriptions de concepts

Le top et le bottom, les opérateurs de conjonction, disjonction et négation sont définis de la même manière que précédemment. La quantification existentielle est assignée au produit de Peirce. Appliqué à une relation  et à un ensemble , le produit de Peirce correspond à l’ensemble             . La quantification universelle est assignée à une variante du produit de Peirce appelée  :       

     !  . Les restrictions sur les nombres ne peuvent pas être exprimées algébriquement. Pour palier à cette insuffisance, le travail présenté dans [SCH 97] augmente l’algèbre de Peirce avec les équivalents algébriques des opérateurs de quantification numérique. La Figure 3 est un petit extrait de la table décrite dans [SCH 91], représentant l’interprétation algébrique des opérateurs du langage expressif "  .

3.2. Algèbre relationnelle et sémantique du LN Dans [SUP 81] et d’autres articles, Suppes a utilisé l’algèbre relationnelle pour l’analyse sémantique d’un fragment de l’anglais en annotant les représentations syntaxiques avec des expressions algébriques. La syntaxe du langage naturel est définie par une grammaire , composée d’un ensemble de règles de production comme celles présentées dans la première colonne du tableau 1.

(i) (ii) (iii) (iv) (v)

Règle de production                     "  

!

Association sémantique  #              #  !    "  

Tableau 1. Associations sémantiques dans les grammaires relationnelles

Les symboles P, SN, SV, NP, N, Adj, Art and VT correspondent respectivement à : ’phrase’, ’syntagme nominal’, ’syntagme verbal’, ’nom propre’, ’nom’, ’adjectif’, ’article’ et ’verbe transitif’. Soit  le domaine de l’interprétation,  est un ensemble non vide. La dénotation d’une expression # est donné par la fonction [#] du domaine des types syntaxiques ¾ dans une algèbre relationnelle étendue $   (un sous-ensemble de   %  ). Cette fonction est définie inductivement par : – Une valuation sur les types élémentaires de la grammaire , – Des opérations algébriques déterminant la dénotation des types nonélémentaires. La dénotation des types élémentaires est définie par une fonction partielle  , appelée valuation, du vocabulaire des symboles terminaux de  dans l’algèbre relationnelle étendue $  . Les types élémentaires sont, par exemple, les noms et les adjectifs que  assigne à des ensembles dans   , les verbes transitifs qui sont assignés à des ¾ relations binaires dans   . Les noms propres sont des types élémentaires spéciaux, ils sont assignés a des ensembles singleton. La dénotation des types non-élémentaires est définie par des combinaisons algébriques sur les dénotations des types élémentaires. Ceci est fait en étendant la grammaire  par des fonctions sémantiques associées à chaque règle de production. Quelques exemples d’associations sémantiques sont présentés dans la deuxième colonne du tableau 1. Nous allons montrer par le biais d’un exemple, comment une représentation sémantique est assignée à une expression en convertissant sa définition grammaticale en une définition sémantique. Etant donné la phrase simple suivante : Marie aime les fruits rouges

(1)

Notre but est de trouver sa représentation sémantique. La structure syntaxique de la phrase définie par la grammaire du tableau 1 est représentée par l’arbre syntaxique de la Figure 4. P NP

SV VT

Marie

aime

Figure 4. Un arbre syntaxique simple

SN Art

N

les

fruits

Adj rouges

La sémantique est définie par un arbre sémantique. La figure 5 représente l’arbre sémantique pour la phrase (1). Il est construit comme suit : - On assigne aux parties de l’arbre ayant un type élémentaire une dénotation par la fonction de valuation  ; pour notre exemple,   PN, Adj, N    and   ¾ TV   ; - La dénotation d’un noeud parent est le résultat d’une certaine opération sémantique sur la dénotation de ses noeuds fils, selon les associations sémantiques. Par exemple, l’association sémantique pour un syntagme nominal composé d’un nom et d’un adjectif est l’intersection des dénotations des types nom et adjectif. La signification de l’expression fruits rouges est donc définie par l’intersection fruit # rouge entre l’ensemble des fruits et l’ensemble des choses rouges. - Le procédé est réitéré jusqu’à la racine de l’arbre produisant la sémantique de la phrase entière.

P: ;marie= d ;aimer=;fruit= < ;rouge= SV ;aimer=;fruit= < ;rouge=

SN;marie=

SN ;fruit= < ;rouge=

VT;aimer= Art Marie;marie= aime;aimer=

les

N;fruit=

Adj;rouge=

fruits;fruit= Rouges;rouge=

Figure 5. Un arbre sémantique

3.3. Passage à la représentation terminologique Pour obtenir la représentation en logiques de description, les mots et les expressions interprétés dans le cadre algébrique par des ensembles sont représentés par des concepts et ceux interprétés par des relations binaires sont représentés par des rôles. Etant donné la correspondance exacte entre les opérations algébriques et les constructeurs de LD expliquée en Section 3.1, le passage vers la représentation terminologique d’une phrase est direct. La notion de sous-ensemble correspond à celle de subsomption et le produit de Peirce correspond à la quantification universelle. La représentation terminologique de la phrase (1) est alors : marie  aimer fruit rouge

(2)

Notez que les systèmes employés pour décrire la sémantique du langage naturel sont des langages terminologiques très expressifs tels que " et &, la subsomption dans ces langages est indécidable [SCH 89, SCH 88]. Ici, nous nous limitons aux logiques de description avec subsomption structurelle. Nous avons utilisé la logique  ½ [TEE 94] qui autorise les constructeurs suivants : – , , , ,    ,  $  ,   pour les concepts, – , Æ,  pour les rôles, – , Æ pour les caractéristiques. Où est un concept,  un rôle et $ une caractéristique.

4. Comparaison de terminologies Dans cette section nous montrons comment le problème de la recherche de la meilleure couverture peut être utilisé pour calculer la distance entre deux terminologies. Nous donnons d’abord une formalisation du problème, puis nous proposons un algorithme qui calcule la différence.

Soit  une logique de description avec subsomption structurelle. Soit  ½          et ¾     !   %  deux -terminologies. En étendant la notion de recherche de la meilleure couverture à tous les concepts de la terminologie ½ , nous définissons la différence entre deux terminologies comme suit : Definition 8 (différence) La différence entre deux terminologies  ½ et ¾ est l’ensemble des restes de tous les  dans ½ par rapport à   ¾  $ $ ½ ¾ 







½

 ´ ¾ µ  

La différence entre deux terminologies  ½ et ¾ est définie en associant chaque concept dans  ½ à sa meilleure couverture en utilisant  ¾ ( ), l’union des restes est la différence entre les terminologies. Avec la notion de taille d’une description, nous définissons la distance entre deux terminologies. Definition 9 (distance) La distance entre les terminologies  ½ et ¾ est la somme des tailles des descriptions dans la différence

½ ¾  

 



½



 ´ ¾ µ  

4.1. Algorithme Basé sur les définitions 8 et 9, nous proposons un algorithme prenant en entrée deux terminologies  ½ et ¾ et permettant de trouver la fonction  (associant chaque concept de ½ à sa meilleure couverture en utilisant  ¾ ), la différence et la distance entre les deux terminologies. Algorithme 1 Diff Entrée : ½ ¾ Sortie : 1: 2:

$ $ ½ ¾ ,

,

$ $

½ ¾ 

'

'

4:

 ½ faire    %&  ¾ 

5:

Retourner    ´ µ  

3: pour tout 

6:

$ $

7:

'

 

'

$ $



%  ´ µ  

 ´ ¾ µ  

8: fin pour 9: Retourner diff, d

L’algorithme prend en entrée deux terminologies  ½ et ¾ . Pour chaque concept dans ½ il appelle l’algorithme computeBCov qui va calculer la meilleure couverture de ce concept en utilisant la terminologie  ¾ , ce qui correspond à la fonction  que nous cherchons (ligne 4). La différence est augmentée par le reste obtenu en sortie de l’algorithme computeBCov et la distance est augmentée par la taille de ce reste (lignes 6 et 7).

4.2. Exemple Prenons par exemple les deux textes simples suivant, décrivant les chambres de deux motels : Texte 1

Text 2

Toutes les chambres sont confortables. Chaque chambre possède une télévision et un grand lit. Chaque chambre possède un téléphone et une télévision. Quelques chambres possèdent un grand lit.

Les terminologies correspondantes sont les suivantes :

½ ¾

chambre  confortable possèder télévision posséder lit grand chambre  posséder téléphone possèder télévision chambre-GL  chambre posséder lit grand

Les terminologies obtenues doivent être normalisées. Les définitions incomplètes sont éliminées. Pour chaque définition   , un nouveau concept  est introduit, il représente la partie absente de la définition, nous obtenons :   . Les concepts définis apparaissant en partie droite d’une définition sont remplacés par leurs descriptions. Pour les terminologies  ½ et ¾ nous obtenons :

½ ¾



chambre  confortable posséder télévision posséder lit grand

chambre½ chambre  posséder téléphone posséder télévision chambre ¾ chambre-GL  posséder téléphone posséder télévision chambre ¾

posséder lit grand chambre-GL

Le calcul de diff( ½ ,¾ ) donne : chambre

 chambre chambre-GL

 ´chambreµ chambre $ $ ½ ¾ 

 confortable chambre ½

 confortable chambre ½ }

½ ¾    et en calculant diff( ¾ ,½ ) nous obtenons : chambre

 chambre

 ´chambreµ chambre chambre-GL

 posséder téléphone chambre ¾

 chambre

 ´chambre-GLµ chambre-GL

 posséder téléphone chambre ¾

chambre-GL $ $ ¾ ½    posséder téléphone chambre ¾ posséder téléphone

chambre¾ chambre-GL ¾ ½    Le concept chambre de  ½ est couvert par les deux concepts chambre et chambre-GL dans ¾ . Le texte 1 apporte une information supplémentaire par rapport au concept chambre, qui est le fait que les chambres sont confortables. Les concepts chambre et chambre-GL de  ¾ sont couverts par chambre dans  ½ , l’information supplémentaire qu’apporte le texte 2 est qu’une chambre possède un téléphone.

5. Travaux dans le domaine De nombreux travaux se sont intéressés à l’utilisation des logiques de descriptions pour le traitement du langage naturel (voir [FRA 02] pour un état de l’art sur le rôle des logiques de description dans le traitement du langage naturel). Dans la plupart des approches, le recours aux LD est limité à la représentation de la base lexicale qui sert de référence pour la phase d’interprétation. Notre but est plus ambitieux puisqu’il vise la représentation de la sémantique des expressions en langage naturel par des expressions en LD, comme précédemment proposé dans [SCH 91]. Le type de travail qui est le plus proche du nôtre est celui de [MAE 02] qui concerne la comparaison de deux ontologies. L’approche proposée consiste à établir une mesure de similarité de façon à déterminer jusqu’à quel point une hiérarchie de concepts est couverte par une autre. Cette mesure capture la similarité entre les ontologies à deux niveaux, le lexical et le conceptuel. Le niveau lexical est basé sur le calcul d’une distance entre les noms de concepts intervenant dans les deux ontologies. Le niveau conceptuel compare les structures sémantiques de la hiérarchie (ensemble des super et sous-concepts d’un concept) et les relations (domaines de départ et d’arrivée).

logement pension

hôtel secteur ville Hôtel de luxe

Figure 6. Exemple d’ontologies [MAE 02]

Par exemple pour les deux ontologies de la Figure 6, les ensembles de super et sous-concepts de chaque concept diffèrent sensiblement dans les deux hiérarchies, le calcul du degré de similarité donne 0.51. La différence avec notre approche est que nous comparons des descriptions de concepts, ainsi il n’est pas nécessaire de calculer la hiérarchie de concepts avant de comparer. La deuxième différence est que nous ne distinguons pas la comparaison des relations de la comparaison de concepts puisque les relations appartiennent aux descriptions de concepts. Enfin, cette approche, contrairement à la nôtre ne fournit pas l’information qui est contenue dans une ontologie et pas dans l’autre. Notre approche est donc plus précise et plus appropriée pour certaines applications.

Un autre type de travail qui a intéressé de nombreux auteurs concerne la classification de textes. Il s’agit par exemple de séparer les textes en classes sur la base d’un indice de similarité et à établir une hiérarchie entre ces classes. Différentes méthodes peuvent être envisagées pour obtenir un tel résultat [SAN 99, VIN 00, FOT 03]. D’une certaine façon notre méthode pourrait être adaptée pour viser cet objectif. On pourrait par exemple utiliser la distance pour rassembler les textes en classes et utiliser l’opérateur de différence pour comparer les textes d’une même classe.

6. Conclusion Nous avons considéré le problème de comparaison sémantique de deux textes en langage naturel. La première étape du travail consiste à traduire les expressions en langage naturel dans une représentation formelle. Pour ce faire, nous avons réutilisé les principes décrits dans [SCH 92], qui établit le lien entre la sémantique du langage naturel et les logiques de description en utilisant l’algèbre relationnelle. Nous avons constaté que la notion de recherche de la meilleure couverture peut être utilisée pour calculer la différence entre deux terminologies. Nous avons proposé un algorithme qui calcule cette différence en réitérant le calcul de la meilleure couverture pour tous les concepts de la première terminologie. Notre méthode, dans son état actuel, n’est pas appropriée pour traiter et comparer de grands textes comprenant un grand nombre de concepts. En perspective, nous envisageons des prétraitements des textes : filtrage pour éliminer les phrases redondantes, segmentation pour retenir les paragraphes les plus significatifs, résumé pour travailler sur une forme "agrégée" du texte. La limite de notre approche est l’expressivité du langage puisque nous nous sommes limités à des logiques de description où l’opérateur de différence est sémantiquement unique. Nos travaux futurs seront consacrés à l’extension de la méthode à des langages de LD plus expressifs. La méthode peut être employée dans d’autres perspectives, pour comparer des schémas conceptuels de bases de données par exemple.

7. Bibliographie [BOE 97] B OETTNER M., « Natural language », C. B RINK W. K., S CHMIDT G., Eds., Relationnal methods in computer science, p. 226–246, Advances in Computing, Springer, Wien, 1997. [COH 93] C OHEN W. W., B ORGIDA A., H IRSH H., « Computing Least Common Subsumers in Description Logics », ROSENBLOOM P., S ZOLOVITS P., Eds., Proceedings of the Tenth National Conference on Artificial Intelligence, Menlo Park, California, 1993, AAAI Press, p. 754–761.

[FOT 03] F OTZO H., G ALLINARI P., L AGUNAS N., « Génération automatique d’une structure hiérarchique de concepts et de documents à partir de corpus », Journées francophones d’Extraction et de Gestion des Connaissances (EGC), 22 - 24 Janvier, 2003, p. 331-342. [FRA 02] F RANCONI E., « Natural Language Processing », p. 450-461, Chapter in the Description Logics Handbook, edited by F. Baader, D. Calvanese, D. L. McGuinness, D. Nardi and P. F. Patel-Schneider, Cambridge University Press, December 2002. [HAC 02] H ACID M., L EGER A., R EY C., F.T OUMANI, « Dynamic discovery of e-services : a description logics based approach », 18èmes Journées Bases de Données Avancées (BDA), 21-25 Octobre, 2002, p. 283-306. [MAE 02] M AEDCHE A., S TAAB S., « Measuring Similarity between Ontologies », the European Conference on Knowledge Acquisition and Management - EKAW, 2002, p. 251263. [SAN 99] S ANDERSON M., C ROFT W. B., « Deriving Concept Hierarchies from Text », Research and Development in Information Retrieval, 1999, p. 206-213. [SCH 88] S CHILD K., « Undecidability of subsumption in U », Technical Report KIT-Report 67, FB Informatik, Technische Universitat Berlin, Berlin, Germany, 1988. [SCH 89] S CHMIDT-S CHAUSS M., « Subsumption in KL-ONE is undecidable », the First International Conference on the Principles of Knowledge Representation and Reasoning (KR-89), 1989, p. 421-431. [SCH 91] S CHMIDT R. A., « Algebraic Terminological Representation », rapport n MPI-I91-216, 1991, Saarbruecken. [SCH 92] S CHMIDT R. A., « Terminological Representation, Natural Language Relation Algebra », GWAI, 1992, p. 357-371. [SCH 97] S CHMIDT R. A., « Relational Grammars for Knowledge Representation », 1997. [SUP 81] S UPPES P., « Direct inference in English », Teaching Philosophy 4, p. 405–418, 1981. [TEE 94] T EEGE G., « Making the Difference : A Subtraction Operation for Description Logics », D OYLE J., S ANDEWALL E., T ORASSO P., Eds., KR’94 : Principles of Knowledge Representation and Reasoning, p. 540–550, Morgan Kaufmann, San Francisco, California, 1994. [VIN 00] V INOKOUROV A., G IROLAMI M., « A Probabilistic Hierarchical Clustering Method for Organizing Collections of Text Documents », International Conference on Pattern Recognition (ICPR’00)-Volume 2, September 03 - 08, 2000, p. 206-213.