Recherche sémantique basée sur les ontologies modulaires et ... - Inria

Le principal problème réside alors dans ... Dans ce même cadre, nos travaux .... problème est décrit par : le type de but de recherche, le domaine ou le thème de.
215KB taille 6 téléchargements 127 vues
Recherche sémantique basée sur les ontologies modulaires et le raisonnement à base de cas Nesrine Ben Mustapha1, Marie-Aude Aufaure2, Hajer Baazaoui Zghal1, Henda Ben Ghezala1 1

Laboratory RIADI-GDL, National School of Computer Sciences, University of Manouba, 2010 la Manouba, Tunisia {nesrine.benmustapha, hajer.baazaouizghal, henda.benghezala }@riadi.rnu.tn 2 Ecole Centrale Paris Laboratoire MAS Chaire SAP Business Objects Grande Voie des Vignes 92 295 Chatenay-Malabry [email protected]

Résumé : Les ontologies ont contribué à l’apparition des moteurs de recherche sémantiques. Parmi ceux-ci, les moteurs de recherche contextuels se basent sur un nombre déterminé d’ontologie de domaine. La recherche dans ces moteurs est limitée à un domaine bien déterminé. Ainsi, au dessus d’un crawler, plusieurs techniques peuvent être développées pour ajouter à tout moteur de recherche traditionnel une couche sémantique qui lui permet d’évoluer vers un moteur de recherche sémantique basé sur des ontologies multi-domaine. Il est bien évident qu’il s’avère difficile de concevoir et de construire des ontologies relatives à tous les domaines pour être exploités par les moteurs de recherche sémantiques. Les ontologies modulaires peuvent apporter une réponse à cette limitation. Dans le présent travail, nous proposons une approche de recherche sémantique basée sur les ontologies modulaires et l’adaptation du modèle vectoriel et le raisonnement à base de cas à l’indexation dynamique des ressources documentaires par les modules ontologiques.

Mots-clés : Ingénierie des connaissances, ontologie, modularité, apprentissage, raisonnement à base de cas.

1

Introduction

La représentation explicite du sens se fait à travers les ontologies qui sont une spécification explicite, formelle d'une conceptualisation partagée (Gruber, 1993). Les ontologies ont contribué à l’apparition des moteurs de recherche sémantiques. En effet, ces derniers exploitent les ontologies pour les tâches suivantes : la reformulation de la requête, l’annotation des documents, l’indexation des documents, le filtrage de résultats et la visualisation de résultats. Ainsi, les ontologies de domaine constituent l’élément fondamental de ces moteurs. Leur qualité et leur couverture sémantique influent sur les résultats de recherche. Pour ce faire, les moteurs de recherche contextuelle se limitent à satisfaire les requêtes des utilisateurs que sur les

IC 2009

domaines spécifiés par les ontologies de domaine disponibles. Le principal problème réside alors dans l’automatisation de la construction d’ontologies car la construction manuelle de celles-ci est une tâche longue et fastidieuse. Une des solutions proposées consiste à extraire des ontologies à partir de textes en utilisant des techniques de fouille de textes. Etant donné que le Web est la source textuelle la plus volumineuse, l’extraction d’ontologies (ou les approches d’apprentissage) à partir du Web fût une nouvelle piste de recherche qui a donné lieu à plusieurs travaux. Dans ce même cadre, nos travaux antérieurs s’inscrivent où une méthode incrémentale d’enrichissement d’’ontologies à partir des documents Web dans un système de recherche en ligne à base d’ontologies de domaine (Ben Mustapha et al. 2008) a été proposée. Toutefois, l’approche proposée n’est valable que pour des systèmes de recherche contextuelle et n’est pas générique pour une recherche multi-domaine. Bien que l’idée d’intégrer la construction d’ontologie fût proposée dans (Hwang et al. 2007) et dans (Wei et al. 2008), ces travaux restent encore théoriques et se contentent de proposer des cadres de références génériques. En effet, il s’avère difficile de concevoir, de construire et de gérer des ontologies relatives à tous les domaines pour être exploitées par les moteurs de recherche sémantiques. L’objectif principal du présent travail est de trouver une solution pour la construction automatique des ontologies multi-domaine à partir des documents Web en se basant sur les expériences partagées de recherche des différents utilisateurs. Dans cet article, nous proposons une approche générique qui permet à tout moteur de recherche sémantique de développer sa couche sémantique en construisant des modules d’ontologies de domaine à partir des associations entre les requêtes et les documents résultants d’une recherche. Se servir de ces associations pour mémoriser des situations de recherche et apprendre de nouvelles situations afin de satisfaire des requêtes d’utilisateurs justifient le choix du raisonnement à base de cas dans l’approche proposée. Notre contribution réside, alors, dans l’adaptation du raisonnement à base de cas avec les ontologies pour l’amélioration de la recherche et la construction automatiques d’ontologies modulaires. Notre approche s’appliquera aux librairies digitales, à la recherche dans les bases documentaires dans un intranet et à la recherche dans le Web. Ainsi, il est nécessaire de prendre en considération les points suivants : la modularité et la réutilisation des ontologies apprises, le passage à l’échelle et l’évolution de ces ontologies ainsi que la personnalisation des ontologies construites. Cet article décrit deux volets de la proposition à savoir : une architecture multi-niveaux d’ontologies pour la recherche multi-domaine et le processus de recherche basé sur l’adaptation du raisonnement à base de cas avec les ontologies modulaires.

2

Recherche sémantique basée sur les ontologies modulaires et raisonnement à base de cas

L’idée de cette approche est de rendre tout moteur de recherche sémantique plus flexible et autonome pour construire sa base d’ontologies qui serviront à l’indexation des documents présélectionnés à partir desquels ces ontologies sont construites. Ainsi, nous proposons de combiner le paradigme de la recherche sémantique sur le

Recherche sémantique basée sur les ontologies modulaires et raisonnement à base de cas

Web et les techniques d’apprentissage d’ontologies. Il est en effet possible de faire collaborer un processus d’extraction d’ontologies à partir de textes avec un processus de recherche (Ben Mustapha et al. 2009). Ainsi, La construction des fragments d’ontologies (modules d’ontologies) sera faite à partir à partir des requêtes émises et les documents Web sélectionnés par les utilisateurs. Ainsi, la demande de recherche soumise est traduite vers un réseau sémantique qui correspond à un module d’ontologie et qui sera enrichi à partir des documents appropriés choisis. L'association entre ce module d'ontologie et le document approprié sera l’entrée d’une base de cas utilisée comme un indexe sémantique. Une ontologie modulaire est une ontologie qui référence une autre partie dite module d’une ontologie pour en importer des catégories et/ou des propriétés sans avoir besoin de les dupliquer (Pierra G., 2006). Ces modules d’ontologies seront utilisés pour retrouver les requêtes. Pour ce faire, nous utiliserons le raisonnement à base de cas avec le modèle vectoriel pour classer ces documents avec les métadonnées associées à des requêtes similaires. Ceci nous permettra d’indexer les documents avec les modules ontologiques extraits à partir de ces mêmes documents.

2.1

Une architecture multicouche d’ontologies pour la recherche sémantique

La première couche de cette architecture (Figure 1) représente l’ontologie de thèmes. Il s'agit d'une classification ontologique de sujets et des contextes de domaine. Chaque thème T peut faire l'objet d'un ou plusieurs domaines ou contexte D. La deuxième couche représente les ontologies modulaires de domaine. Chaque ontologie de domaine Od est un réseau de modules Mi. Un module est considéré comme une dimension dans l'ontologie de domaine qui se compose d'un concept principal C, avec ses propriétés (relations avec d'autres concepts secondaires Ci). Les propriétés d'un concept C sont définies comme étant la classe des relations les plus fréquentes dans les requêtes émises et dans la majorité des documents Web associé à ces requêtes. Ainsi, un module M peut être dans de nombreuses ontologies et en relation avec d'autres modules. Par exemple, le module ayant comme principal concept de "conférence" pourrait être dans de nombreux domaines de l'ontologie (informatique, physique, mathématiques, etc.) car, nous pouvons trouver des conférences relatives à de nombreux domaines. Un concept C est représenté par la structure suivante : (id, {(ti, lang, contxt)} i=1..n, etat, Deg_cred) où: • Id: est un identifiant associée à un sens − indépendamment de la terminologie et de la langue ; •

t : les expressions nominales qui référencent un concept dans une langue lang relativement à un contexte contxt qui représente le rôle de ce concept dans un domaine bien déterminé.



etat: est l'état de la découverte concept. Lors de la découverte de ce concept à partir de texte lors de l’enrichissement de modules d’ontologies

IC 2009

(sera décrit dans la section suivante), le concept peut avoir les états suivants : "nouveau candidat", "validé", "rejeté", "candidat possible". •

Deg_cred : degré de crédibilité du concept découvert en fonction de son module.

Fig. 1 – Architecture multicouche d’ontologies pour la recherche sémantique

La troisième couche représente une vue personnalisée des ontologies modulaires instanciées avec des informations issues des résultats antérieurs de recherche associés à l’utilisateur. La quatrième couche est l’ensemble des ressources Web indexé par les modules d’ontologies.

2.2

Raisonnement à base de cas pour l’indexation dynamique et la classification des documents

Chaque utilisateur est associé à une base de cas locale qui indexe les documents qui les a consultés. Les cas crées seront partagés par les autres utilisateurs. La base de cas est utilisée pour plusieurs finalités à savoir : la reformulation de nouvelles requêtes sur la base des anciennes requêtes, la proposition des recommandations sous forme de requêtes similaires et leurs résultats (qui partagent le même focus de recherche) à partir de la base de cas, la classification et le filtrage des documents et finalement, la création et l’enrichissement des modules ontologiques. Un cas est le triplet composé d’un problème, d’une solution et d’un score d’évaluation. Le problème est décrit par : le type de but de recherche, le domaine ou le thème de recherche, le concept pivot du module ontologique concerné et la classe des requêtes similaires. La solution est les résultats pertinents de recherche. Le processus de recherche des documents au moyen des ontologies modulaires et le raisonnement à base de cas est décrit ci-dessous (cf. figure 2) :

Recherche sémantique basée sur les ontologies modulaires et raisonnement à base de cas - La sélection du domaine de recherche à partir de l’ontologie de thèmes L’utilisateur émet une recherche sur le domaine à partir de l’ontologie de thèmes et choisit la thématique désirée. Dans le cas où le domaine cherché ne figure pas dans l’ontologie, il doit l’ajouter au bon emplacement dans l’ontologie de thèmes.

Fig. 2 – processus de recherche

- La formulation de l’activité de recherche par l’utilisateur selon un but de recherche (Rose and Levinson, 2004). - L’utilisateur définit son but de recherche en choisissant l’un des buts pris en compte par notre système à savoir : navigation, localisation, demande d’informations générales, - Selon le but de recherche choisi, un module d’ontologie sera instancié et sera visualisé sous forme de formulaire à remplir par l’utilisateur qui sélectionne aussi le concept principal auquel il intéresse à partir de l’ontologie de domaine associé au thème choisi. Dans le cas ou cette ontologie de domaine n’existe pas, le terme donné par l’utilisateur est pris en compte. - Après la validation de sa formulation, si l’ontologie de domaine existe dans l’entrepôt d’ontologies, la requête sera reformulée avec les termes associés au module d’ontologies. Dans le cas où l’ontologie n’existe pas, un nouveau module ontologie est crée. Cette demande de recherche sera l’entrée de l’étape suivante permettant de rechercher les cas similaires. Si des cas similaires existent dans la base de cas, les solutions ramenées à partir de cette base de cas sont affichées à l’utilisateur. D’autres documents importés du Web (ou d’une base documentaire) et classés selon leur similarité avec les documents associés au cas similaires sont extraits. Après l’évaluation de ces documents par

IC 2009

l’utilisateur, un outil d’apprentissage d’ontologie (Baazaoui et al. 2007) à partir des documents pertinents permet d’enrichir le module ontologique avec de nouveaux concepts ou de nouvelles relations avec d’autres modules. Un nouveau cas est appris et inséré par le classificateur de la base de cas.

3

Conclusion et perspectives

Dans le présent papier, nous présentons une approche de recherche sémantique basée sur une architecture multicouche d’ontologies modulaires et le raisonnement à base de cas. Nos travaux futurs consistent à proposer une représentation optimale de la base de cas, des mesures de similarités entre les modules ontologies et la classification de la base de cas. La contribution principale de ce travail est de faciliter la recherche d’information en utilisant l'ingénierie des connaissances au sein des systèmes de recherche sémantiques et de lier les requêtes d’utilisateurs des utilisateurs de l'ontologie avec les modules construits en utilisant le raisonnement à base de cas. La mise en œuvre de cette approche permettra de comparer les résultats de pertinence et de temps avec des moteurs de recherche sémantiques.

Références BAAZAOUI-ZGHAL H., M.-A. AUFAURE, N. BEN MUSTAPHA (2007) “A Model-Driven approach of ontological components for on-line semantic Web information retrieval”, Journal on Web Engineering, Special Issue on Engineering the Semantic Web, Rinton Press, vol. 6, n°4, pp 309-336. BEN MUSTAPHA N., BAAZAOUI H., AUFAURE MA ET BEN GHEZALA H. (2009), Combining semantic search and ontology learning for incremental Web ontology engineering, WISM 09 workshop en conjunction avec Caise’09 (à paraitre prochainement). ESMAILI K. S. & ABOLHASSANI H. (2006). A categorization scheme for semantic web search engines. In 4th ACS/IEEE Int. Conf. on Computer Systems and Applications (AICCSA-06.. GRUBER T.(1993).Toward principles for the design of ontologies used for knowledge sharing. International Journal of Human-Computer Studies, special issue on Formal Ontology in Conceptual Analysis and Knowledge Representation. Eds, Guarino, N. & Poli , R... HEFLIN J. & HENDLER J. (2000). SEARCHING THE WEB WITH SHOE,” IN AAAI-2000 WORKSHOP ON AI FOR WEB SEARCH. HWANG M.; KONG H.; BAEK S.; HWANG K.; KIM P. (2007). The techniques for the ontologybased information retrieval ». In The 9th International Conference on Advanced Communication Technology (IEEE Cat.No.07EX1671), Piscataway, NJ, USA; Gangwon-Do, South Korea : IEEE, Conference Paper. (AN: 9529837), p. 1365-9.

ROSE D. & LEVINSON D.(2004), Understanding user goals in web search. Proceedings of the 13th international conference on World Wide Web. TAMMA V., BLACOE I., SMITH B., ET Wooldridge M. (2004), “SERSE: searching for semantic web content,” in Proceedings of the 16th European Conference on Artificial Intelligence, ECAI 2004, Valencia, Spain. WEI WANG, PAYAM M. BARNAGHI, ANDRZEJ BARGIELA (2008). “Search with Meanings:An Overview of Semantic Search Systems”, International journal of Communications of SIWN, Vol. 3, June 2008, pp. 76-82