Exploitation des Liens Sémantiques pour l ... - Semantic Scholar

pour améliorer la recherche d'information. Un thesaurus électronique de langue générale est utilisé pour la reformulation des requêtes utilisateurs en procédant ...

Télécharger le PDF

275KB taille 5 téléchargements 176 vues

commentaire

Report

Exploitation des Liens Sémantiques pour l’Expansion de Requêtes dans un Système de Recherche d'Information Mustapha Baziz, Nathalie Aussenac-Gilles, Mohand Boughanem IRIT/SIG Campus Univ. Toulouse III 118, Route de Narbonne F-31062 Toulouse Cedex 4 Email {baziz, aussenac, boughane}@irit.fr Tel : 05-61-55-68-99 Fax : 05-61-55-62-58 RÉSUMÉ:

Dans cet article, nous proposons d’exploiter des liens sémantiques entre concepts pour améliorer la recherche d’information. Un thesaurus électronique de langue générale est utilisé pour la reformulation des requêtes utilisateurs en procédant par un processus d’"expansion prudente" en amont d’un moteur de recherche. Ce processus, transparent à l’utilisateur, exploite d’abord la notion de concepts multitermes pour désambiguïser les mots de la requête. Il s’appuie ensuite sur les relations sémantiques entre concepts pour élargir la requête. L’ensemble conduit à une amélioration significative de la pertinence des réponses retournées par le moteur. Cette technique a été évaluée en utilisant le moteur Mercure développé à l’IRIT, WordNet comme base de données lexicales et Clef2001 comme collection de test. ABSTRACT. This paper reports on a technique where semantic links between concepts are used to improve information retrieval. A general language electronic thesaurus, is used for the reformulation of user requests according to a “careful expansion process” as a preprocessing before the use of a search engine. This user transparent process, exploit the multiterms concepts to disambiguate terms in queries. Then it exploits semantic relations to expand query formulations. The whole system enables a significant improvement of the relevance of the search engine answers. This technique has been evaluated using the Mercure search engine (designed at IRIT), Wordnet as a lexical database and the Clef2001 test collection. MOTS-CLÉS : Systèmes de Recherche d’Information ; reformulation de Requêtes par expansion, relations sémantiques, WordNet KEYWORDS : Information

WordNet.

Retrieval Systems, Query reformulation by expansion ,semantic links,

1. Introduction Les systèmes de recherche d’information (SRI) sont conçus, à l’origine, pour répondre aux besoins d’automatiser la gestion de la documentation. Avec l’avènement d’Internet, le volume des documents et le nombre de personnes à gérer se sont accrus de manière vertigineuse : le nombre de pages Web accessibles a augmenté de 320 millions en 1997 à plus de 3 milliards en 2002 et le nombre d’utilisateurs est aujourd’hui évalué à des centaines de millions. Les SRI sont alors confrontés à un nouveau défi dû à la disparité et à la quantité des types de documents à gérer autant qu’à la multiplicité des demandes des utilisateurs. Cette évolution a poussé des chercheurs du domaine à marquer un arrêt pour explorer d’autres terrains, notamment celui de la linguistique et de l’intelligence artificielle [Masolo, 01], pour améliorer la solution consistant à mettre en correspondance la requête représentant le besoin et chaque document d’une collection. Il est possible, selon [Simonnot, 96], de regrouper les connaissances prises en compte dans un SRI en trois classes principales : i) les connaissances sur les documents (index), ii) les connaissances sur les utilisateurs (profils ou modèles utilisateurs), iii) et, enfin, les connaissances sur les concepts du domaine de l’application. Ces dernières peuvent servir de référence pour reformuler les requêtes utilisateurs, pour constituer les index ou pour décrire le contenu des documents. Notre travail s’inscrit dans le cadre de ce dernier point, et plus particulièrement sur l’évaluation de l’intérêt d'utiliser une ontologie générale, de type lexical, pour reformuler les requêtes des utilisateurs en exploitant les relations entre concepts. Plusieurs études se sont focalisées sur le pouvoir d'expression des requêtes utilisateurs, et ont souligné les difficultés qu’il y a à les modifier. Nous avons donc envisagé une démarche que nous qualifions « d’expansion prudente », qui consiste à ne sélectionner qu’un sous-ensemble des termes et concepts accessibles par les liens de l’ontologie à partir d’un concept donné. Dans WordNet, ces liens sont soit relatifs à des relations lexicales (synonymie, antinomie) soit conceptuelles (hiérarchiques ou méronymiques). Un document concis sur WordNet [Habert, 01] explique ces relations. Pour chaque type de lien, nous avons mesuré si son utilisation pour reformuler une requête apportait un gain ou non. A partir de là, nous avons retenu une stratégie optimale d’expansion. Ce module d’expansion de requêtes, associé au moteur Mercure [Boughanem, 92][Boughanem, 00], a été évalué. Dans les paragraphes suivants, nous commencerons par poser la problématique et situer l'état des recherches sur l'expansion des requêtes dans un SRI. Nous présenterons ensuite notre stratégie et les différentes expérimentations réalisées pour mesurer l’utilisation des concepts et des relations sémantiques.

2. Problématique et état de l’art Une recherche par mots clés sur une base documentaire utilise en général un vocabulaire standard. Elle se heurte à plusieurs limites liées à l’utilisation de la langue. La variation linguistique, caractéristique du langage naturel et présente dans les requêtes utilisateurs et les documents, dégrade l'efficacité des systèmes de RI en termes de précision et de rappel [Prié, 00]. D’un côté, les variations morphologiques et lexicales touchent le rappel. D’un autre côté, les variations sémantiques et syntaxiques touchent la précision. Si la requête et le document ont un mot (clé) en commun, alors le document peut être vu comme un prolongement plus ou moins exact (fidèle) du sujet de la requête. Bien sûr, s’ils partagent plusieurs mots clés, le document se rapproche plus du sujet de la requête. Cette représentation, relativement simple, est l’équivalent des catalogues de bibliothèques et présente les mêmes insuffisances [Prié, 00]. Les plus évidentes sont dues aux variations linguistiques rendant l’hypothèse de récupération de mots clés insuffisante. Ceci est dû aux faits suivants : − La requête ne traite pas les variations morphologiques qui produisent des mots clés dans différents nombres par exemple « wife » et « wives » ou différents cas comme « man » et « man’s » − La requête ne prévoit pas les cas où différents mots sont utilisés pour représenter le même sens. Pour ce phénomène, nous utilisons le terme variation lexicale. Le résultat est que la requête avec le mot clé «domicile » ne cherche pas les documents qui contiennent son synonyme « house ». − Elle ne distingue pas les cas où des mots singuliers ont plusieurs sens dus à la variation sémantique. Un pétrolier cherchant le mot « oil » sera confronté à « olive oil and kitchen. ». − Elle ne tient pas compte des variations syntaxiques. « science library » est différent de « library science » mais traité de la même manière par le système. Dans ce contexte, l’utilisation des ontologies pour l’expansion des requêtes utilisateurs peut être une solution pour remédier de façon efficace à ces problèmes [Guarino & al., 99][Gandon, 02]. D'une part, les ontologies fournissent les ressources généralement sous forme de relations sémantiques permettant de mieux identifier le sens des mots dans la requête et de traiter cette dernière pour "élargir" le champ de recherche. D'autre part, elles constituent un cadre partagé (un vocabulaire commun) que les différents acteurs peuvent mobiliser [Bachimont, 00] [Gandon, 02] pour rapprocher le langage des requêtes de celui dont les documents sont exprimés. Durant les décennies 60 à 80, les techniques d'expansion de requêtes se basaient sur le critère de cooccurrence des termes d'indexation et n'ont pas eu beaucoup de succès [Salton, 86]. [Peat, 91] est sans doute celui qui a apporté la plus tranchée des critiques théoriques de ces modèles. Il conclue que les requêtes étendues avec ces modèles ne sont pas meilleures que les requêtes d'origine et que des requêtes étendues avec des mots choisis aléatoirement donnent des résultats parfois meilleurs.

Ces constats soulignent la nécessité d’avoir recours à d'autres ressources pour l'expansion. Sur le plan formel, [Schäuble, 94] a proposé une approche algébrique, en définissant un langage de requetes fonctionnel (FQL*), pour améliorer le pouvoir d’expression des requêtes relationnelles. Des expériences sur l’expansion des requêtes par des termes reliés sémantiquement ont déjà été effectuées et ont abouti à des conclusions différentes. [Voorhees, 94], [Mihalcea & al, 00] et [Baziz, 02] ont utilisé WordNet pour l'expansion des requêtes en ajoutant des termes reliés sémantiquement aux termes des requêtes d'origine. La relation sémantique de base utilisée est la synonymie. Cette technique nécessite de désambiguïser les termes dans les requêtes initiales. Il a été reporté que les requêtes longues deviennent vite bruitées et dégradent la précision après une expansion non contrôlée qualifiée d'"agressive" [Voorhees, 94]. Cependant, ces auteurs s'accordent à dire que cette méthode peut être intéressante si la désambiguïsation s'avère performante. [Guarino & al, 99] ont montré le rôle positif des ontologies linguistiques dans leur système OntoSeek, pour l'expansion de requêtes sur les catalogues de produits et les pages jaunes, en sélectionnant (manuellement) les synsets de WordNet appropriés et leurs catégories. [Gonzalo, 98] a proposé une méthode d’indexation des documents s'appuyant sur les concepts d'une base de données sémantique qui améliore la précision lors de la recherche de 25 %. Dans cet article, nous présentons une stratégie d'expansion automatique des requêtes permettant une amélioration notable de la précision. Cette stratégie est basée sur une expansion sélective des concepts (mono ou multitermes) présents dans les requêtes, en s'appuyant sur une base de données lexicales générale, WordNet1. Nous synthétiserons ensuite la stratégie utilisée sous forme de recommandations à suivre lors du processus d'expansion.

3. Principe d’utilisation des ontologies par un SRI Une ontologie peut être utilisée par un moteur de recherche [Kassel,02] pour accéder Ontologie d’un domaine

Requête

Indexation Filtrage d’Information

Utilisateur d’ontologie

Auteur d’ontologie

Recherche d’Information

Information

S R I

Fig1. L’ontologie greffée au processus de recherche d’information 1 Dans la suite, nous utiliserons abusivement « ontologie » en référence à WordNet.

à des ressources (des documents, des informations, des noms d’experts) dans un répertoire (ex : le Web ou un intranet). Pour un SRI, l’apport de l’ontologie peut être appréhendé (Fig.1) à trois niveaux [Aussenac, 02]: 1) Au niveau du processus d’indexation des documents de la base : en s’associant à des techniques de traitement automatique du langage naturel (TALN), les documents de la base seront résumés puis reliés à des concepts de l’ontologie. Si cette étape s’est passée convenablement (processus de désambiguïsation performant), la recherche serait plus aisée par la suite. 2) Au niveau du processus de filtrage d’information. 3) Au niveau de la reformulation des requêtes, pour améliorer les requêtes utilisateurs, objet de notre intérêt dans cet article. 4. Expansion de requêtes par Ontologie : notre proposition 4.1 Schéma synoptique de la stratégie

Ontologie

Requête initiale

Etiqueteur

Requete_Plus Lemmatisation de la requête

Détection de concepts

Extraction de concepts de l'ontologie

Epuration de la requête

Formation de la requête étendue

Election des concepts (pseudo-désambiguisation)

La requête étendue Base de documents

SRI

Documents sélectionnés

Fig2. Cheminement d'une requête utilisateur avant son envoi au moteur de recherche. Le schéma de la figure Fig2. représente les différentes étapes que subit une requête durant son processus d'expansion. De façon générale, un étiqueteur est utilisé pour

récupérer les formes de base des termes présents dans la requête, pour ensuite faire appel à l'ontologie et enclencher le processus d’expansion. La requête ainsi étendue est envoyée au moteur de recherche. 4.2 Le processus d'expansion Nous présentons dans la suite de cette section, tout en explicitant le schéma de la figure fig2, des réponses aux insuffisances citées en problématique : l’expansion des requêtes cherche à réduire les ambiguïtés et le bruit. 4.2.1 Lemmatisation des mots de la requête En utilisant les formes de base des mots des requêtes, on peut gommer les problèmes dus aux variations morphologiques. Par exemple, si un texte contient la phrase : « books were written about syenergies, drawing up… », le résultat retourné par un étiqueteur syntaxique est comme dans la Fig3. Ce texte peut donc être retrouvé par une requête contenant le mot « synergy », forme lemmatisée de « synergies ». books NNS were VBD written VBN about IN synergies NNS drawing VBG RP up

book be write about synergy draw up

Fig3. Exemple de lemmatisations obtenues avec un étiqueteur 4.2.2 Utilisation des relations sémantiques Pour mieux gérer le problème des variations lexicales, WordNet est interrogée. Des termes reliés à ceux de la requête initiale par des relations sémantiques, telles que la synonymie, la généralisation et la spécialisation sont ainsi récupérés. Ceci permet, par exemple pour le mot « country », en utilisant la synonymie, de récupérer les mots « state » et « land », ou encore de passer avec ses relations d’une requête contenant un seul mot « EU » à une requête plus riche « European Union, EU, European Community, EC, European Economic Community, EEC, Common Market, Europe ». Dans WordNet, une entrée est un concept qui est représentée par un Synset, c’est-à-dire l’ensemble des termes (mots ou groupes de mots) synonymes qui peuvent désigner ce concept. Les concepts reliés sémantiquement par une relation donnée à un Synset sont représentés par une classe qui porte le nom de la relation. Les principales relations sémantiques que nous avons utilisées sont les suivantes :

− la synonymie, les synonymes étant associés à la classe Concept ; − l’hypéronymie, la classe des Hyperonymes contenant les concepts pères pour la relation de généralisation ; la relation inverse d’Hyponymie (spécialisation) ; − la méronymie et son inverse l’holonymie, contenant respectivement les concepts constituant des parties du concept (… is a part of this concept , … is a member of this concept ). Ou dont le concept est une partie (this concept is a part of …, etc.). Exemple : {voiture} a pour meronymes {{porte}, {moteur}}. 4.2.3 Pseudo-désambiguïsation par superposition concept-requête La troisième difficulté, la variation sémantique, est sans doute prépondérante du fait qu’elle est directement liée à la pertinence des documents retournés par le SRI, en réponse à la requête. Elle est aussi la plus délicate à résoudre en raison de l’ambiguïté du langage naturel (polysémie). L'idée est de réaliser une pseudo désambiguïsation (voir exemple ci-après) basée sur la superposition des termes de la requête avec chacun des Synsets dans lesquels se trouvent ces termes. Cette méthode est d’autant plus intéressante que les termes de la requête sont indépendants. Si jamais plusieurs concepts présentent le même nombre de similitudes avec la requête, ceux qui ont le plus grand nombre de mots différents puis ceux de plus grande taille (en nombre de mots) priment. Sélection de concepts de l’ontologie : ...

Requête "Alexander Bell"

Ouverture du fichier ./requetes/ontologie/r_init41.dict.db tous les mots de la requete 41 : alexander bell Extension avec concepts_n.res_1_tsdo [1] alexander the great [2] alexander alexanders black lovage horse parsley smyrnium olusatrum [3] bell [4] bell shape campana [5] bell alexander graham [6] bell ship's [7] chime bell gong [8] doorbell bell buzzer liste similitudes : 1 2 1 1 2 1 1 2 liste longueurs : 3 8 1 3 3 2 3 3 Meilleur Concept : --bell alexander graham-Nbre de similitudes: 2 a la ligne : 5 Ecriture dans ./ontologie/res/concepts_n.res_1_t_d

…

Fig4. Exemple de pseudo désambiguïsation par superposition requête-concepts

Dans l’exemple ci-dessus, le concept de la ligne 5 « alexander graham bell » permet de désambiguïser la requête « Alexander Bell ». Une fois fixé le sens pour la requête, l’expansion se fait avec les concepts issus des relations sémantiques qui sont l’hyperonymie, l’hyponymie, la meronymie et l’holonymie. A titre d’exemple, voici ce que rajoute l’hyperonymie (après le signe "=>") : Results for "Hypernyms (this is a kind of...)" search of noun "alexander graham bell" 1 sense of alexander graham bell Bell, Alexander Bell, Alexander Graham Bell -- (American inventor of the telephone (1847-1922)) => inventor, discoverer, artificer -- (someone who is the first to think of or make something).

4.3 Détection de concepts à partir de groupes nominaux Enfin, pour ce dernier point, une technique de reconnaissance de concepts cherche à traiter le plus possible les groupes nominaux comme des termes, c’est-àdire à reconnaître des concepts à partir des groupes nominaux maximaux. Pour cela, on combine l’ordre des mots de la requête de manière à détecter d’éventuels concepts de l’ontologie utilisée. Le concept retrouvé le plus long est ensuite retenu. Par exemple, dans la requête "the elastic potential energy", les deux concepts potential energy et elastic potential energy sont reconnus par WordNet : The noun "potential energy" has 1 sense in WordNet. 1. potential energy, P.E. -- (the mechanical energy that a body has by virtue of its position; stored energy).

The noun "elastic potential energy" has 1 sense in WordNet. 1. elastic energy, elastic potential energy -- (potential energy that is stored when a body is deformed (as in a coiled spring)). Le concept le plus long qui est elastic potential energy dans cet exemple, est effectivement celui qui correspond au vrai sens de la requête.

Sans détection de concepts

Cas1

Cas2

Mot « south » Relation

Synonymie

Hyperonymie

Hyponymie

Meronymie

Holonymie

6

4 (pour les 4 premiers sens)

1

18 (6 pour sens1, 12 pour sens2)

1 (seul sens1 a 1 holo.)

5

3

66

0

1

Nombre de sens Mot « american » Nbre de sens Mot « countries » Nbre de sens

5

5

107

7

0

Total

16

12

174

25

2

12

4

1

Concept « south american countries » Nbre de sens

1

1

Table.1. Deux cas de figures pour la requête " south american countries "

L’utilisation des concepts est très importante : au lieu d’interroger l’ontologie pour chaque mot de la requête (pour une requête de 3 mots par exemple, on récupérerait des concepts pour 3*5 relations = 15*n concepts avec n entre 0 et quelques dizaines de concepts en général ), toute la requête est prise comme une seule entrée de l’ontologie dans un premier temps. Pour illustrer, considérons la requête "south american countries" par exemple. Si nous prenons chaque terme indépendamment, WordNet retourne 6 sens différents pour le terme "south", 5 pour "american" et 5 pour "countries" (Table.1). Ce qui donne un total de 16 concepts dénotant 16 sens candidats qui peuvent influencer la requête lors de l'expansion. Il suffit dans ce cas, de sélectionner le mauvais concept pour une seule relation (ex. un hyperomyme parmi 14) pour étendre la requête de manière erronée. Par contre, le fait de considérer le lien entre les termes utilisés dans cette requête, réduit considérablement (dans ce cas précis au maximum : Nbre sens=1) l'ambiguïté. Notons que la reconnaissance de ces concepts dépend de l'ontologie utilisée et de la requête utilisateur.

5. Expérimentation et évaluation 5.1 Environnement expérimental WordNet est une base de données lexicographique développée à l’université de Princeton*3 [Miller, 95]. Elle couvre la grande majorité des noms, verbes, adjectifs et adverbes de la langue anglaise. La relation sémantique de base entre les mots codée dans WordNet est la synonymie. Les synsets sont liés par des relations telles que spécifique/générique, et la relation partie-tout (part-whole). l'interface querydata1.13 de WordNet1.6 a été utilisée pour cette expérience. La collection de test utilisée est la base issue du programme CLEF2001 (Cross Language Evaluation Forum) décrite dans le tableau ci-dessous. CLEF 2001 English Data Nombre de documents dans la collection

Nombre de termes dans la collection

Taille moyenne d’un document (termes)

113005

163700

282.696571

Description de la collection de test utilisée

Les documents de la collection sont issus d’une base en anglais de type « news ». Les 50 requêtes initiales sont issues des topics numérotés de 41 à 90. Nous avons utilisé les champs « titre » de ces topics. 3 site officiel de WordNet : http://www.cogsci.princeton.edu/~wn/

5.2 Expérimentations et résultats Dans cette partie, nous présenterons les différentes expérimentations réalisées regroupées selon que nous agissions sur les concepts (leur présence/absence et le nombre de termes à retenir lors de l’extension), sur la pondération des mots des requêtes ou sur les relations sémantiques utilisées. 5.2.1- Effet de plusieurs expansions successives L'effet de plusieurs expansions successives d'une requête s'est révélé négatif sur la précision du système. Dans Table.2, la précision moyenne (dernière colonne) chute de 0.346 pour une première expansion à 0.242 si on réalise une seconde expansion. Application d'une expansion double (Taille moyenne des requêtes initiales = 2.75)

Précision Pr. 5

Pr. 10

Pr. 30

Avg Pr.

Résultats après une 1ère passe : taille moyenne des requêtes = 12.5

0.3915

0.3277

0.2099

0.3464

Résultats après la 2ème passe : taille moyenne des requêtes (avec limitation sur les mots) =16.74

0.2979

0.2426

0.1589

0.2422

Table2. Effet d'une extension double. Avec Pr. 5 : Précision pour les 5 premiers documents et Avg Pr. : Précision moyenne 5.2.2- Le nombre de concepts à considérer En faisant varier le nombre de concepts extraits de WordNet pour chaque relation utilisée dans le processus d'expansion, les résultats montrent que contrairement à ce qu’on aurait pensé au début, c’est-à-dire étendre chaque terme de la requête donnera de meilleurs résultats, l’extension de toute la requête par un seul concept pour une relation s’est révélée plus intéressante (Table3). On peut expliquer ceci en regardant la requête comme un seul concept dont les termes qui la composent contribuent à exprimer un même sens. Manière d'étendre les requêtes

Précision Amélioration

Avg Pr.

Amélioration

0.2217

-

0.2158

-

tous les concepts de toutes les relations

0.3191

43.93 %

0.2744

27.15 %

1 concept/mot de la requête et par relation

0.3064

38.20 %

0.2851

32.11 %

1 concept/requête et par relation

0.3617

63.14 %

0.3366

55.97 %

1) Sans expansion

Pr. 5

2) Après expansion

Table3. Sélection des concepts issus des relations sémantiques utilisées.

5.2.3- Les poids à affecter aux termes rajoutés Nous avons également étudié l’effet de la pondération des termes de la requête. Les résultats que nous ne détaillerons pas ici par contrainte d'espace, montrent qu’une pondération uniforme des termes d’origine et rajoutés dégrade les résultats. Ils soulignent aussi qu’il existe un poids optimal à utiliser pour les termes rajoutés qui est dans notre cas 0.5. Ce qui est le même que celui trouvé (valeur de α) par [Voorhees, 94]. En effet, pour ce poids, la précision pour les 5 premiers documents = 0.45 et la précision moyenne atteint 0.3861. Ce qui représente une augmentation de 78 % (la moyenne sans expansion étant de 0.2158).

5.3 Apport des relations sémantiques Penchons-nous maintenant sur l’apport de chacune des relations sémantiques utilisées, prise séparément. Nous remarquons dans la Table.4 que l'apport de la relation d’holonymie (ceci_est_partie_de) est le moins important : précision moyenne =0.2779, puis vient celui de sa relation inverse la méronymie (AvgPr= 0.2829). Précision

Les relations utilisées séparément Résultats sans expansion

Pr. 5

Pr. 10

Pr. 30

Pr. 1000

Avg Pr.

0.2217

0.1826

0.1109

0.0119

0.2158

Synonymie seule

0.4255

Hyperonymie seule

0.3915

0.3128

0.2113

0.0154

0.3477

Hyponymie seule

0.3064

0.2404

0.1681

0.0142

0.313

Meronymie seule

0.3021

0.2468

0.1574

0.0131

0.2829

Holonymie seule

0.2723

0.2277

0.1454

0.0129

0.2779

0.3532

0.2071

0.0151

0.3319

Table4. : Apport des relations sémantiques prises séparément. Les relations combinées Résultats sans expansion Hyper + hypo (généralisation/spécialisation) Meron + holo (composition)

syn + hyper + hypo (synonymie + généralis./spécialis.)

syn + meron + holo (synonymie + composition)

Hyper+ hypo+ meron+ holo (généralis./spécialis.+compos.)

Précision Pr. 5

Pr. 10

Pr. 30

Avg Pr.

0.2217

0.1826

0.1109

0.2158

0.3745

0.3000

0.2206

0.3513

0.3106

0.2426

0.1567

0.2880

0.4213

0.3298

0.2284

0.3664

0.3702

0.3106

0.1915

0.3465

0.3532

0.2787

0.1993

0.3242

Table5. Tests sur la combinaison des relations sémantiques.

La relation d’hyponymie (spécialisation) a un apport meilleur mais vient derrière sa relation inverse l’hyperonymie. Cette dernière a retourné un résultat inattendu, supérieur à celui de la synonymie, 0.3477 pour la moyenne des précisions (AvgPr), mais inférieur toutefois au niveau de la précision pour les premiers documents (0.3915 contre 0.4255 pour la synonymie). On peut donc conclure que l'hyperonymie améliore le rappel tandis que la synonymie améliore la précision pour les premiers documents. Cette conclusion est confortée si nous utilisons ces relations de sorte à prendre la branche verticale ou horizontale de l’ontologie, puis leurs combinaisons. D'après les résultats de Table.5, à chaque fois que la synonymie intervient, la précision pour les premiers documents augmente, et à chaque fois que l’hyperonymie est utilisée, il y a amélioration globale de la précision. 5.4 Bilan des expérimentations Des résultats des expérimentations réalisées, on peut conclure ce qui suit : − Lors du processus d’expansion, un seul concept doit être choisi, pour chaque relation utilisée (synonymie, hyperonymie, hyponymie, méronymie et holonymie), même si la requête est composée de plusieurs termes. •

− Les poids à affecter aux mots ajoutés à la requête suite à l’expansion, doivent être inférieurs à ceux des mots de la requête initiale (poids optimal =0.5). − Le nombre de termes issus d’un concept d’expansion par une relation sémantique (synonymie par exemple) à retenir doit être limité pour ne pas engendrer un bruit trop important. − L’utilisation des termes de base, ainsi que des concepts (quand c’est possible) composés de plusieurs mots correspondant à des entrées dans l’ontologie, améliore la désambiguïsation et rend la précision meilleure. − La réutilisation des concepts issus des relations sémantiques au-delà d’une seule passe (ajouter les synonymes des synonymes par exemple), n’apporte pas un plus à la précision de la requête. − La relation hyperonymie (généralisation) permet d’améliorer la précision globale (moyenne), tandis que la synonymie améliore la précision pour les « meilleurs » documents restitués.

− Enfin, nous dirons que les expérimentations nous ont montré que le processus

d’expansion de requêtes via l’ontologie, à condition de respecter les conditions suscitées, permet de mieux apprécier la spécificité et l’exhaustivité des documents de la base. La spécificité détermine si tout le contenu du document est concentré sur le thème de la requête, alors que l'exhaustivité mesure à quel point tous les aspects de la requête ont été abordés dans le document.

6. Conclusion Le travail développé dans cet article, s’inscrit dans le cadre de l'application d'une base de données lexicographique, pour la reformulation de requêtes par expansion dans un système de recherche d’information. Nous avons évalué l’apport de chaque type de relation sémantique à la qualité des réponses de la requête. Avant de généraliser d’avantage nos conclusions, nous soulignons l’influence de nos choix : − La base de données linguistique utilisée, en l’occurrence WordNet, fait l’objet de critiques : Elle est à la fois trop fine et trop large, donc pour un concept donné, elle peut présenter une multitude de sens différents, ou aucun sens s’il s’agit d’un terme très technique. Ceci complique la désambiguïsation. Parfois, des mots courants ne sont pas reconnus ou alors, l’ordre des sens retournés n’est pas celui attendu. C’est le cas pour le mot « whale » : WordNet retourne le premier sens correspondant à une personne de corps volumineux, pour ensuite donner en deuxième position le sens le plus commun de baleine. Les relations sémantiques dans Wordnet ont un sens parfois fluctuant d’un exemple à l’autre, en particulier la méronymie. − La collection Clef2001, sur laquelle cette première évaluation a été réalisée, contient un peu plus d’une centaine de milliers de documents. Elle peut influencer aussi positivement nos résultats du fait de sa taille relativement réduite. Un premier test sur une base beaucoup plus importante (TREC10) contenant plus d’un million de documents est en cours. Les toutes premières évaluations n’ont pas permis d’avoir des résultats aussi bons que ceux obtenus avec la base Clef2001. Les perspectives envisageables à ce travail portent essentiellement sur deux volets. Le premier concerne les documents et les requêtes. Il nécessite la description des documents de la base pour les relier directement à des branches de l’ontologie. Le deuxième, en cours de réalisation, concerne une interface graphique : au lieu d’une expansion transparente à l’utilisateur, une interface affichant un sousensemble de l’ontologie correspondant à la requête courante assistera l’utilisateur dans l’expansion supervisée de sa requête. Ceci lui permettra de valider, parmi la sous hiérarchie de concepts, sémantiquement liés à la requête, que lui propose le système, ceux qu’il retient pour l’expansion. Enfin, l’utilisation par le système de plusieurs ontologies, où chacune couvrirait un domaine bien déterminé, contribuerait sans doute à rendre l’expansion plus fine et donc à des résultats plus précis.

7. Bibliographie [Aussenac, 02] N. Aussenac, Support de cours conçu par N. Aussenac-Gilles, J. Charlet, P. Laublet et B. Bachimont. Cours sur les Ontologies, les Terminologies et les Bases de Connaissances Terminologiques : http://www.irit.fr/GRACQ, (2002).

[Baziz, 02] M. Baziz, « Application des Ontologies pour l’Expansion de Requêtes dans un Système de Recherche d’Informations », Rapport de DEA 2IL Irit, (juin 2002). [Bachimont, 00] B. Bachimont « Engagement sémantique et engagement ontologique : conception et réalisation d’ontologies en ingénierie des connaissances ». In Ingénierie des connaissances. Eds. J. Charlet, M. Zacklad, G. Kassel, D. Bourigault, Eyrolles, Paris Collection technique et scientifique des télécommunications, p. 305-323, (2000). [Boughanem, 92] M. Boughanem, “les Systèmes de Recherche d’Information : d’un modèle classique à un modèle connexionniste”, Thèse de Doctorat de l’Université Paul Sabatier, Toulouse (France), (Décembre 1992). [Boughanem, 00] M. Boughanem, “Contribution à la Formalisation et à la Spécification des Systèmes de Recherche et de Filtrage d’Information” Habilitation à Diriger les Recherches, Université Paul Sabatier de Toulouse, (Nov. 2000). [Gandon, 02] Fabien GANDON, « Ontologie Engineering : a Survey and a Return on Experience », rapport de recherche INRIA, (Mars 2002). [Guarino & al, 99] Nicola Guarino, Claudio Masolo, and Guido Vetere. “OntoSeek : contentbased access to the web”. IEEE Intelligent Systems, (1999). [Gonzalo, 98] Julio Gonzalo, Felisa Verdejo, Irina Chugur, and Juan Cigarran. Indexing with wordnet synsets can improve text retrieval. In Proceedings of the COLING/ACL '98 Workshop on Usage of WordNet for NLP, pages 38-44, Montreal, Canada, (1998). [Habert, 01] B. Habert et L. Monceaux « WordNet, la mère (le père) de tous les réseaux de mots ? » rapport LIR. disponible sur : http://www.limsi.fr/Individu/habert/0001/SeminaireLMonceaux290501.ppt (Mai 2001). [Kassel, 02] Kassel G., Point sur l’Ingénierie Ontologique, Document-rapport non encore publié destinés initialement au domaine industriel dans le cadre d’un projet (2002). [Masolo, 01] Masolo C. Ontology driven Information retrieval : Stato dell’arte. Report of the IKF (Information and Knowledge Fusion) E!2235. LADSEB-Cnr, Padova (I). (2001) [Mihalcea & al, 00] Dan I. Moldovan and Rada Mihalcea: "Improving the search on the Internet by using WordNet and lexical operators". IEEE Inter. Comp. 4(1) 34-43, (2000). [Miller, 95] G. Miller. Wordnet: A lexical database. Communication of the ACM, 38(11):39-41, (1995). [Peat, 91] Peat, H.J., Willett, P., The limitations of term co-occurrence data for query expansion in document retrieval systems, J. of the ASIS, 42(5) : 378-83, (1991). [Prié, 00] Yannick Prié, « Modélisation de documents audiovisuels en Strates Interconnectées par les Annotations pour l'exploitation contextuelle » Thèse disponible sur l’url : http://lisi.insa-lyon.fr/~yprie/these/node1.html, (2000). [Salton, 86] Salton, G. On the use of term associations in automatic information retrieval. Proceedings of the 11th Intern. Conf. on Computational Linguistics, 380-386. (1986). [Schäuble, 94] : Peter Schäuble, Beat Wüthrich: On the Expressive Power of Query Languages. TOIS 12(1): 69-91 (1994). [Simonnot, 96] B. Simonnot. Modélisation multi-agent d'un système de recherche

d'information multimédia à forte composante vidéo. Thèse de doctorat, Université Henri Poincaré -- Nancy I,259 p, (Janvier 1996). [Voorhees, 94] Voorhees, E. Query expansion using lexical-semantic relations, Proceedings of the 17th Annual International ACM/SIGIR Conference on Research and Development in Information Retrieval, pages 61-69, Dublin, Ireland, (1994).

Exploitation des Liens Sémantiques pour l ... - Semantic Scholar

des documents recommandant