Structures conceptuelles pour la recherche d'images ... - comupedia.org

Requêtes plus spécifiques : Coco's World, Coco Beach Florida, Cocoa Beach. ...... portrait of Hu Jintao, bridges by night ou female beachvolley players.
10MB taille 6 téléchargements 352 vues
Structures conceptuelles pour la recherche d’images sur Internet Adrian Popescu

Th`ese soutenue pour obtenir le grade de docteur de ´ l’Ecole Nationale Sup´erieure des T´el´ecommunications de Bretagne Sp´ecialit´e Informatique.

Directeur de th`ese : Encadrants CEA : Examinateur : Rapporteurs :

Ioannis Kanellos Gregory Grefenstette Pierre-Alain Mo¨ellic Pierre-Fran¸cois Marteau Florence S`edes Bruno Bachimont

2

3

Remerciements Je tiens `a remercier toute l’´equipe du LIC2M pour m’avoir accueilli pendant les trois ans de cette th`ese. Je remercie plus particuli`erement Pierre-Alain Mo¨ellic pour sa collaboration et son support qui se d´eclinent selon des multiples facettes : scientifique - pour sa disponibilit´e d’´ecouter, d’appuyer et de m’aider ` a clarifier mes id´ees ; administrative - pour sa pr´ecieuse aide dans ma relation sinueuse avec l’administration pl´ethorique du CEA ; ´editoriale - pour la patience et l’attention avec lesquelles il a relu les nombreux ´ecrits que j’ai produits tout au long de cette th`ese. Je remercie Greg Grefenstette qui m’a beaucoup appris sur le m´etier de chercheur, m’a souvent aid´e `a clarifier mes id´ees et m’a donn´e l’envie de continuer ` a faire de la recherche. Je tiens `a remercier ´egalement : Patrick H`ede pour m’avoir assist´e dans mes d´ebuts parfois difficiles dans la programmation et pour les nombreuses discussions qu’on a eues ; Benoˆıt Mathieu pour avoir envoy´e le sujet de th`ese aux responsables de mon master et pour le temps partag´e pendant le temps qu’il a ´et´e au CEA ; Christophe Millet, mon coll`egue th´esard, dont les travaux m’ont ´et´e utiles ; Herv´e Le Borgne pour notre collaboration fructueuse lors de la campagne ImageCLEF 2008 ; Bertrand Delezoide pour ses conseils avis´es sur la r´edaction de la th`ese ; Jorge Garcia Flores, mon coll`egue de bureau et ami, pour les bons moments pass´es ensemble ; Christian Fluhr qui a cru en l’utilit´e des ressources s´emantiques pour la recherche d’images ; Olivier Mesnard, mon chef de labo, qui a soutenu mes travaux. Ioannis Kanellos, mon (t´el´e)directeur de th`ese, qui, en d´epit de la distance appr´eciable entre Fontenay aux Roses et Brest, a su diriger ma th`ese selon sa fameuse m´ethode DTP (Direction de Th`ese Psychanalytique). Je le remercie pour sa compr´ehension envers mon approche ”mat´erialiste” de la recherche et pour l’aide apport´ee dans la n´ecessaire et rapide red´efinition de mon sujet de th`ese. A ce sujet, je remercie le gouvernement fran¸cais pour avoir d´ecid´e de ne plus soutenir le projet dans lequel s’encadrait ma th`ese, me laissant ainsi avec deux ans et demi de financement et la possibilit´e de choisir librement une autre direction de travail. Florence S`edes et Bruno Bachimont pour avoir accept´e d’ˆetre rapporteurs de ma th`ese, pour la rapidit´e avec laquelle ils ont lu mon manuscrit et pour l’int´erˆet qu’ils ont port´e `a mon travail. Je remercie Pierre-Fran¸cois Marteau pour avoir pr´esid´e mon jury de th`ese. Pour reprendre un ordre plus chronologique, je voudrais remercier deux amis qui ont rendu possible la poursuite de mes ´etudes en France : Sorin Moga qui a cr´e´e et maintenu la collaboration entre T´el´ecom Bretagne et l’Universit´e Polytechnique de Timi¸soara et Iain Napier qui m’a fait d´ecouvrir ce pays et m’a ensuite aid´e financi`erement au d´ebut de mon s´ejour. Mes parents qui m’ont encourag´e `a poursuivre mes ´etudes et mes amis Andreea, Mihai, Dan et Andrei qui sont ` a la fois loin (physiquement) et pr`es de moi. Plus que tout, je remercie Ana, ma femme, qui m’a soutenu pendant la r´ealisation de cette th`ese, mˆeme quand ma mani`ere de travailler empruntait beaucoup des traits `a la monomanie.

4

R´ esum´ e La recherche d’images repr´esente une partie importante du nombre total des requˆetes sur Internet. Malgr´e leur utilit´e et leur popularit´e, les syst`emes de recherche actuels souffrent de certaines limitations, comme le manque de s´emantique dans le traitement des requˆetes, l’impr´ecision des r´esultats, une faible interactivit´e, ou encore, un manque d’int´egration de techniques de traitement d’images. Dans cette th`ese, nous d´emontrons que l’exploitation de structures linguistiques `a large ´echelle repr´esente une r´eponse viable aux probl`emes des syst`emes actuels de recherche d’images. Cette th`ese est constitu´ee de trois parties : La premi`ere partie s’int´eresse au cadre de notre ´etude. Pour commencer, nous essayons de r´epondre ` a la question « quelles images cherchons-nous ? » en ´etudiant un fichier de log qui met en ´evidence quelques domaines conceptuels importants en recherche d’images, comme les noms communs, les noms g´eographiques ou les personnalit´es. Ensuite, nous analysons la relation entre les concepts et leur repr´esentation imag´ee, puis nous introduisons et d´efinissons les structures linguistiques qui sont le cœur de notre approche. Nous concluons cette premi`ere partie par la proposition d’une architecture g´en´erique d’un syst`eme de recherche d’images int´egrant des ressources s´emantiques et des fonctionnalit´es de traitements d’images. La deuxi`eme partie ´etudie la possibilit´e d’adapter et/ou de construire automatiquement des structures linguistiques ` a large ´echelle pour la recherche d’images sur Internet. Cette tˆache est particuli`erement ardue car il est n´ecessaire d’acqu´erir des connaissances de bonne qualit´e et d’assurer ´egalement une bonne couverture des domaines conceptuels analys´es. Notre approche combine la r´eutilisation de ressources existantes, dans une forme adapt´ee ` a la recherche d’images et la structuration de nouvelles connaissances. Nous proposons par exemple un algorithme permettant une extraction totalement automatique d’un th´esaurus g´eographique `a partir de sources h´et´erog`enes du Web. Nous proposons plusieurs ´evaluations permettant de valider notre approche. La troisi`eme partie correspond ` a la dimension applicative de ce travail avec le d´eveloppement de trois applications permettant le traitement de requˆetes traitant des noms communs, des noms g´eographiques et des personnalit´es. Les architectures de ces applications sont des d´eclinaisons de notre architecture g´en´erique pr´esent´ee dans la premi`ere partie. Elles int`egrent les nouvelles ressources s´emantiques que nous avons produites et proposent une recherche par le contenu dirig´ee par la s´emantique. Ces applications sont d´ecrites, illustr´ees, puis ´evalu´ees par rapport `a des syst`emes existants.

5

6

Abstract Image requests represent a hefty chunk of the total number of Internet information queries. Despite their utility and wide usage, current image search engines suffer from certain limitations, such as the lack of semantics in query processing, the imprecision of the results returned, poor interactivity and the limited use of image processing techniques. In this PhD, we prove that the use of large-scale linguistic structures represents a solution to the limitations of existing Web image retrieval systems. This thesis has three main parts : The first part analyses the main purposes of our work. To begin, we set up a log file analysis that attempts to answer the question ”what images are we looking for ?”. The study shows that a lot of queries belong to conceptual domains like common nouns, celebrity names and geographic names. Second, we analyse the relationship between the concepts and their pictorial representation and introduce some definitions that are necessary when building linguistic structures. We conclude this chapter by proposing an image search architecture that integrates conceptual structures with image processing techniques. The second part of the thesis deals with the automatic adaptation and construction of large-scale linguistic structures for use in Web image retrieval. This task is particularly difficult because it implies a good balance between the quality of the extracted knowledge and the coverage of wide conceptual domains. Our approach combines the reuse of existing resources, in an adapted form, and the building of new linguistic structures. For instance, we present a new algorithm for the automatic extraction of a geographic thesaurus using heterogeneous sources of information on the Web. We propose several evaluations that validate our approach.

7

8

Table des mati` eres 1 Avant propos 13 1.1 Probl´ematique de recherche . . . . . . . . . . . . . . . . . . . . . . . . . . 14 1.2 Ambition et d´efis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 1.3 Structure de la th`ese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2 Etat de l’art 2.1 Mod`eles de description d’une image . . . . . . . . . . . . . . . . . . . . . 2.1.1 Le foss´e s´emantique . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.2 Mod`eles formels de description . . . . . . . . . . . . . . . . . . . 2.1.3 Utilisation des mod`eles de description pour la recherche d’images sur Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Corpus d’images . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Classification des bases de donn´ees images . . . . . . . . . . . . . 2.2.2 Les diff´erents types d’annotation . . . . . . . . . . . . . . . . . . 2.3 Recherche dans les bases de donn´ees type Internet . . . . . . . . . . . . 2.3.1 Recherche par mots-clef . . . . . . . . . . . . . . . . . . . . . . . 2.3.2 Recherche par le contenu visuel . . . . . . . . . . . . . . . . . . . ´ 2.4 Etudes utilisateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.1 Etudes de l’interaction entre les utilisateurs et les syst`emes de recherche d’information . . . . . . . . . . . . . . . . . . . . . . . 2.4.2 Exploitation des fichiers de log . . . . . . . . . . . . . . . . . . . ´ 2.4.3 Etudes utilisateurs pour la recherche d’information sur Internet . 2.4.4 Consid´erations relatives aux ´etudes utilisateurs . . . . . . . . . . 2.5 Structures s´emantiques pour la recherche d’images . . . . . . . . . . . . 2.5.1 Construction de ressources s´emantiques . . . . . . . . . . . . . . 2.5.2 Constitution de ressources s´emantiques sp´ecifiques `a un domaine 2.5.3 Constitution de ressources s´emantiques g´en´eralistes . . . . . . . . 2.5.4 Travaux utilisant Wikip´edia . . . . . . . . . . . . . . . . . . . . . 2.5.5 Rˆ oles des structures s´emantiques en recherche d’images . . . . . 2.6 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

23 . 23 . 24 . 24 . . . . . . . .

33 34 34 36 38 38 43 47

. . . . . . . . . . .

48 49 50 51 52 52 54 59 65 68 72

10

` TABLE DES MATIERES

3 D´ emarche de la th` ese 3.1 Analyse d’un fichier de log . . . . . . . . . . . . . . . . . . . . . . 3.1.1 Analyse g´en´erique de fichiers de log . . . . . . . . . . . . 3.1.2 Analyse utilisant WordNet . . . . . . . . . . . . . . . . . 3.1.3 Analyse des requˆetes pour des noms de personnes . . . . . 3.1.4 Analyse des requˆetes pour les noms g´eographiques . . . . 3.1.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Concepts et images . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Similarit´e entre les images . . . . . . . . . . . . . . . . . . 3.3 Syst`eme de recherche d’images bas´e sur la s´emantique . . . . . . 3.3.1 D´efinition de structures s´emantiques . . . . . . . . . . . . 3.3.2 Les fonctionnalit´es offertes par les structures s´emantiques 3.3.3 Architecture de recherche s´emantique d’images . . . . . . 3.4 Les d´efis soulev´es par notre approche . . . . . . . . . . . . . . . . 3.4.1 D´efis d’ordre th´eorique . . . . . . . . . . . . . . . . . . . . 3.4.2 D´efis d’ordre pratique . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

4 Construction de structures linguistiques 4.1 Adaptation de WordNet et Geonames . . . . . . . . . . . . . . . . . . . 4.1.1 Adaptation de WordNet . . . . . . . . . . . . . . . . . . . . . . . 4.1.2 Adaptation de Geonames . . . . . . . . . . . . . . . . . . . . . . 4.2 Construction automatique d’un th´esaurus g´eographique . . . . . . . . . 4.2.1 Mod´elisation du domaine . . . . . . . . . . . . . . . . . . . . . . 4.2.2 Sources d’information g´eographique sur Internet . . . . . . . . . 4.2.3 Extraction des noms g´eographiques . . . . . . . . . . . . . . . . . 4.2.4 Cat´egorisation des noms g´eographiques . . . . . . . . . . . . . . 4.2.5 Localisation des noms g´eographiques . . . . . . . . . . . . . . . . 4.2.6 Mesure de pertinence associ´ee aux noms g´eographiques . . . . . 4.2.7 Vue globale de l’algorithme . . . . . . . . . . . . . . . . . . . . . 4.2.8 Gazetiki — r´esultats et ´evaluation . . . . . . . . . . . . . . . . . 4.2.9 Relation entre Gazetiki et TagMaps et Geonames . . . . . . . . . 4.3 Structure linguistique pour les personnalit´es . . . . . . . . . . . . . . . . 4.3.1 Mod´elisation du domaine . . . . . . . . . . . . . . . . . . . . . . 4.3.2 Extraction de connaissances pour les personnalit´es `a partir de Wikip´edia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.3 Cat´egorie des chanteurs et musiciens . . . . . . . . . . . . . . . . 4.3.4 Cat´egorie des acteurs . . . . . . . . . . . . . . . . . . . . . . . . 4.3.5 Les footballeurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.6 Valeur de pertinence associ´ee aux noms de personnes et aux relations entre ces noms . . . . . . . . . . . . . . . . . . . . . . . . . ´ 4.3.7 Evaluation de CelebWiki . . . . . . . . . . . . . . . . . . . . . . 4.3.8 Discussion et conclusions . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

75 76 77 82 87 91 93 95 96 98 98 104 108 109 109 111

113 . 113 . 113 . 118 . 120 . 120 . 121 . 122 . 124 . 126 . 127 . 128 . 128 . 136 . 138 . 138 . . . .

139 140 140 143

. 143 . 146 . 147

` TABLE DES MATIERES

11

5 Applications de recherche d’images 5.1 Olive — recherche de noms communs . . . . . . . . . . . . . . . . . . . . 5.1.1 Mod´elisation des donn´ees . . . . . . . . . . . . . . . . . . . . . . 5.1.2 Architecture d’Olive . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.3 Exemple d’utilisation . . . . . . . . . . . . . . . . . . . . . . . . . ´ 5.1.4 Evaluation d’Olive . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.5 Discussion et conclusions . . . . . . . . . . . . . . . . . . . . . . 5.2 ThemExplorer — recherche d’entit´es g´eographiques . . . . . . . . . . . . 5.2.1 Mod´elisation des donn´ees . . . . . . . . . . . . . . . . . . . . . . 5.2.2 Architecture de ThemExplorer . . . . . . . . . . . . . . . . . . . 5.2.3 Comparaison de ThemExplorer et World Explorer . . . . . . . . 5.2.4 Exemple d’utilisation . . . . . . . . . . . . . . . . . . . . . . . . . ´ 5.2.5 Evaluation de ThemExplorer . . . . . . . . . . . . . . . . . . . . 5.3 Safir — recherche de noms de personnalit´es . . . . . . . . . . . . . . . . 5.3.1 Mod´elisation des donn´ees . . . . . . . . . . . . . . . . . . . . . . 5.3.2 Architecture de Safir . . . . . . . . . . . . . . . . . . . . . . . . . ´ 5.3.3 Evaluation de Safir . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4 Participation ` a la campagne d’´evaluation ImageCLEF . . . . . . . . . . 5.5 Commentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.1 Filtrage et classification de la nature des images par apprentissage supervis´e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.2 Classification non-supervis´ee d’images (clustering) . . . . . . . . 6 Conclusions et perspectives 6.1 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.1 Structuration automatique de connaissances . . . . . . . 6.1.2 Recherche d’images conceptuelle . . . . . . . . . . . . . 6.1.3 Recherche d’images par le contenu visuel . . . . . . . . 6.2 Limites et perspectives . . . . . . . . . . . . . . . . . . . . . . . 6.2.1 Incompl´etude des structures conceptuelles . . . . . . . . 6.2.2 Traitement des requˆetes complexes . . . . . . . . . . . . 6.2.3 Qualit´e des r´esultats . . . . . . . . . . . . . . . . . . . . 6.2.4 Structuration automatique d’une ressource g´eographique 6.2.5 Annotation automatique d’images g´eo-r´ef´erenc´ees . . . . 6.2.6 Plateforme de tourisme virtuel interactive . . . . . . . . 7 Liste des publications 7.1 Chapitres d’ouvrages . . . . . . . . 7.2 Conf´erences . . . . . . . . . . . . . 7.2.1 Conf´erences internationales 7.2.2 Conf´erences nationales . . . Bibliographie

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . . . . . . . . .

. . . .

. . . . . . . . . . .

. . . .

. . . . . . . . . . .

. . . .

. . . . . . . . . . .

. . . .

149 . 149 . 150 . 151 . 158 . 161 . 168 . 168 . 169 . 170 . 176 . 177 . 178 . 185 . 185 . 187 . 192 . 194 . 197 . 197 . 198 199 199 199 200 201 202 202 203 203 204 204 205

. . . . . . . . . . .

. . . . . . . . . . .

. . . .

207 . 207 . 207 . 207 . 208 209

12

` TABLE DES MATIERES

Chapitre 1

Avant propos Les applications de recherche d’information sont parmi les plus utiles et les plus populaires sur Internet. Elles r´epondent a` un besoin fondamental dans un environnement tr`es riche, dynamique et faiblement structur´e : disposer d’un moyen rapide et simple d’acc`es aux informations pertinentes par rapport `a une requˆete donn´ee. Bien que tr`es largement adopt´es par le grand public, les syst`emes actuels `a grande ´echelle sur Internet sont construits pour traiter de l’information brute, sans aucune prise en compte de la signification qu’elle v´ehicule. C’est de ce principe que d´ecoulent leurs principaux avantages (la robustesse, la couverture et la rapidit´e) ainsi que leurs principales limitations (l’adaptation souvent partielle par rapport aux requˆetes des utilisateurs, le traitement non-diff´erenci´e selon les m´edia et le manque d’interactivit´e avec l’utilisateur). L’introduction d’une couche s´emantique dans les applications de recherche d’information est tr`es vite apparue comme une condition n´ecessaire pour permettre un traitement de l’information non plus au niveau des chaˆınes de caract`eres, mais `a un niveau symbolique. Cet ajout au sein de l’architecture de recherche est cens´e surmonter les limitations des syst`emes actuels tout en pr´eservant leurs principaux avantages. L’utilisation de ressources s´emantiques est loin d’ˆetre triviale et aucun syst`eme `a large ´echelle n’utilise massivement de telles ressources malgr´e des efforts de recherche soutenus qui t´emoignent d’un tr`es fort int´erˆet scientifique et pratique vis-`a-vis de cette approche. A l’exception du moteur Ask1 qui propose une interface contenant, de mani`ere structur´ee, des propositions de recherche li´ees ` a la requˆete, les autres moteurs de recherche fournissent simplement en r´eponse une liste d’images dont la repr´esentativit´e par rapport `a la requˆete formul´ee par l’utilisateur n’est pas toujours correcte [139]. Ce n’est pas notre intention de dresser un panorama exhaustif des recherches traitant de l’utilit´e de la s´emantique pour la recherche d’information en g´en´eral. Nous nous int´eressons et bornons notre travail ` a un seul type de ressources : les images fixes. La croissance quantitative du nombre de documents sur le Web, ainsi que la faible structuration de cette immense masse de donn´ees, appelle au d´eveloppement de techniques de recherche efficaces, robustes et adapt´ees aux besoins et attentes des utilisateurs. Ces imp´eratifs de la recherche documentaire renvoient `a un des principaux et r´ecurrents 1

http ://ask.com

13

14

CHAPITRE 1. AVANT PROPOS

d´efis des technologies de l’information : traiter des donn´ees num´eriques selon plusieurs niveaux symboliques. Ceci passe par l’introduction, dans l’architecture de recherche, d’une couche fonctionnelle qui serait sensible `a la s´emantique. Cette sensibilit´e `a la signification du contenu des requˆetes implique l’utilisation de r´eseaux s´emantiques (au sens large du terme).

1.1

Probl´ ematique de recherche

Ces ressources sont g´en´eralement difficiles `a constituer quand on ne se borne pas `a des domaines sp´ecialis´es ; aussi est-il souhaitable de pouvoir r´eutiliser des ressources existantes d`es que cela s’av`ere possible. Les r´eseaux s´emantiques exploitables sont issus de domaines comme la lexicographie (WordNet [32]), la g´eographie (Geonames2 , Alexandria [52]), la folksonomie (ConceptNet [82], Wikip´edia3 ) mais g´en´eralement une adaptation, voire une structuration des donn´ees, sont n´ecessaires si l’on souhaite les appliquer `a un domaine d’application particulier. Ainsi, nous employons des techniques emprunt´ees ` a la fouille de donn´ees sur le Web [43] pour enrichir WordNet et Geonames (un thesaurus g´eographique) pour les rendre pleinement utilisables pour une application de recherche d’images. Le cas de Wikip´edia est naturellement plus complexe puisque l’information contenue dans la populaire encyclop´edie en ligne doit d’abord ˆetre organis´ee sous forme de structures s´emantiques avant d’ˆetre exploit´ee pour la recherche d’images. Un second volet important de cette th`ese est l’´etude des usages et des pratiques li´ees aux moteurs de recherche d’images. Cette ´etude permet une description des pratiques de recherche et, par cons´equent, offre la possibilit´e d’accorder des moyens d’interactions ad´equates entre l’utilisateur et le syst`eme. Deux types d’´etudes sont g´en´eralement mis en œuvre : l’´etude des fichiers de log produit des moteurs de recherche [62], [41] et les ´etudes utilisateur [48], [118]. Il y a une ´evidente compl´ementarit´e entre ces deux m´ethodologies de recherche. Les ´etudes de fichiers de log donnent un bon aper¸cu statistique des principaux types de requˆetes mais ne permettent qu’un acc`es limit´e `a l’information li´ee au processus de recherche. Les ´etudes utilisateurs, bien qu’effectu´ees g´en´eralement `a petite ´echelle (et sans garantie que le panel d’utilisateurs soit repr´esentatif), facilitent grandement la compr´ehension des pratiques de la recherche d’information. Un troisi`eme axe de recherche s’int´eresse au type des documents num´eriques trait´es, les images fixes en tant qu’objets singuliers et en tant qu’´el´ements dans des vastes collections. Une image est souvent associ´ee `a diverses informations textuelles mais poss`ede aussi un contenu visuel qui lui est propre. Aussi, dans notre approche, l’introduction d’une couche s´emantique dans l’architecture d’un syst`eme de recherche d’images s’accompagne de l’utilisation de techniques de traitement d’images. Ces techniques ont deux rˆoles principaux : – proposer une modalit´e de recherche bas´ee sur le contenu visuel dans des parties de la base de donn´ees qui ont des caract´eristiques s´emantiques communes ; – filtrer les r´esultats ind´esirables. 2 3

https ://geonames.org http ://en.wikipedia.org

´ 1.1. PROBLEMATIQUE DE RECHERCHE

15

L’agr´egation des ces trois axes va nous permettre de proposer une solution de recherche d’images qui aura pour objectif d’am´eliorer les points suivants : – L’interactivit´e, par l’utilisation de structures de donn´ees construites selon la fa¸con dont nous organisons les entit´es dans le monde. – La pr´ecision des r´esultats grˆ ace `a une meilleure exploitation des informations d´ecrivant les images. – La prise en compte du type de document recherch´e, par l’introduction de techniques de traitement d’images permettant une recherche par similarit´e visuelle. La r´ealit´e empirique est d´ecrite par des cat´egories que nous organisons au sein de ´ structures d´edi´ees selon divers types de relations et de contextes. Etant donn´e la richesse conceptuelle du monde, il nous est souvent difficile d’actualiser nos connaissances et, dans ces cas, les structures conceptuelles peuvent nous rendre service. Il existe des structures linguistiques ` a large ´echelle exploitables dans des applications informatiques et ce de mani`ere transparente pour l’utilisateur, permettant une actualisation ais´ee des nos connaissances. La recherche d’images sur Internet est un champ d’application pouvant b´en´eficier de mani`ere significative de l’utilisation de telles donn´ees structur´ees. Dans cette th`ese, nous proposons conjointement une r´eflexion th´eorique centr´ee sur les structures linguistiques ` a large ´echelle et une r´eflexion sur les probl´ematiques sp´ecifiques `a notre champ d’application (la recherche d’images sur Internet). Nous citons ici quelques probl´ematiques de recherche que nous nous proposons d’aborder : – Comment adapter ou cr´eer des ressources conceptuelles `a large ´echelle ? Quels sont les principaux d´efis associ´es ? De la tr`es riche et ancienne histoire du probl`eme de « la structuration des concepts » [29] nous savons qu’il n’existe pas d’agr´egation unique des cat´egories et que l’on peut les combiner de diff´erentes fa¸cons. N´eanmoins, certaines relations entre les concepts sont commun´ement accept´ees et il est possible de les agr´eger dans des structures linguistiques afin de les int´egrer dans des applications informatiques. L’utilisation pertinente et efficace des structures s´emantiques dans les applications informatiques ´etant fortement conditionn´ee par la coh´erence logique [90] de ces structures, leur construction `a large ´echelle est un processus complexe. – Quels sont les b´en´efices et les limites de l’introduction d’une couche s´emantique associ´ee aux annotations des images ? Dans le cas d’un syst`eme de recherche d’images g´en´eraliste, ´etant donn´e la vari´et´e de l’espace des requˆetes images [41], il est n´ecessaire d’avoir ` a disposition des structures linguistiques de grande taille assurant une grande couverture conceptuelle. – Quels sont les usages associ´es aux moteurs de recherche ? Ce sujet est partiellement couvert par les travaux actuels comme les contributions de Broder et al [14] ou Rose et Levinson [115] qui pr´esentent, de mani`ere g´en´erale, les types de recherche dans les applications de recherche d’information : informationnel, de navigation et obtention de ressources. Les travaux dans le domaine de l’analyse de l’utilisation des syst`emes de recherche d’information d´eplorent souvent l’inexistence d’´etudes qui souligneraient les motivations des utilisateurs [45], [63], [99] et qui pourraient guider l’adaptation des syst`emes en fonction de leurs besoins r´eels.

16

CHAPITRE 1. AVANT PROPOS

– Comment associer de mani`ere fiable des annotations textuelles aux images ? Les algorithmes automatiques qui sont utilis´es actuellement corr`elent souvent des images avec du texte qui n’est pas n´ecessairement repr´esentatif du contenu de l’image [17], [139]. La difficult´e de cette tˆache vient notamment du fait que le Web est un environnement tr`es faiblement structur´e et qu’il est difficile de d´efinir une architecture d’annotation automatique qui limiterait les associations texte - images erron´ees. Ici encore, il serait difficile de contourner la question des usages. – Dans le cas des syst`emes de recherche d’images `a grande ´echelle, quelles sont les contributions des techniques de traitement d’images susceptibles d’am´eliorer la qualit´e des r´eponses ? Malgr´e d’importants efforts de recherche [84], ces techniques ne sont actuellement pas introduites dans les applications r´eelles. Une exception notable est la d´etection de visages propos´ee par Exalead4 puis par Google et Microsoft Live Search pour filtrer les images. – Comment pr´esenter les r´esultats de fa¸con `a ce que l’utilisateur puisse naviguer rapidement dans un grand nombre de r´eponses ? Par exemple, il y a plus de 48 millions de r´eponses (sur Google Images) pour la requˆete dog et il est difficilement envisageable d’explorer de mani`ere s´equentielle une telle quantit´e de donn´ees. La plupart de ces questions tournent autour de l’acc`es `a l’information dans les applications de recherche d’images. Nous pr´esentons les deux principales m´ethodes d’acc`es aux collections d’images : l’utilisation du texte associ´e aux images et la recherche par similarit´e visuelle. La premi`ere m´ethode est utilis´ee par tous les acteurs majeurs de la recherche d’information sur Internet. Elle est bas´ee sur l’indexation des informations textuelles (titre du fichier ou de la page, description HTML ¡ALT¿, texte dans la page) qui entourent l’image [17], [81]. Les algorithmes employ´es pour retrouver et ordonner les images sont divers, ce qui explique le faible recouvrement des r´eponses obtenus pour une requˆete identique en utilisant plusieurs moteurs [131]. N´eanmoins, il existe un point commun : le texte est regard´e comme une chaˆıne de caract`eres, sans prise en compte du contenu des requˆetes. Cette approche explique les principaux avantages et probl`emes des syst`emes existants. Parmi les avantages nous citons : – la rapidit´e ; – l’annotation textuelle automatique des ressources sur le Web ; – la simplicit´e de l’architecture de recherche ; – la facilit´e de l’´evolution dans un environnement fortement dynamique. Les probl`emes les plus comment´es [139], [113], [81], sont : – des r´eponses souvent non pertinentes par rapport `a la requˆete ; – une pr´esentation non-structur´ee des r´esultats ; – de faibles possibilit´es d’interaction avec les syst`emes. Nous proposons une architecture de recherche par mots cl´e dans laquelle les r´esultats sont pr´esent´es apr`es un filtrage de la requˆete en se basant sur des ressources s´emantiques. Ce filtrage permet l’obtention de r´esultats plus pertinents et facilite une recherche par le contenu visuel adapt´ee du point de vue de l’utilisateur. 4

http ://exalead.com

´ 1.2. AMBITION ET DEFIS

17

La deuxi`eme m´ethode de recherche d’images est la recherche par contenu visuel (CBIR — Content Based Image Retrieval) [127]. G´en´eralement, la requˆete est une image ou un groupe d’images (query by example ; on trouve aussi des syst`emes offrant la possibilit´e `a l’utilisateur de dessiner sa requˆete — query by sketches). Les images r´eponses sont fournies en utilisant une mesure de similarit´e appliqu´ee `a un ou plusieurs descripteurs de bas niveau associ´es ` a des caract´eristiques comme la couleur, la texture ou la forme. Malgr´e le caract`ere automatique de cette approche, la recherche de type CBIR pr´esente deux handicaps majeurs : – Le foss´e (appel´e foss´e s´emantique) qui existe entre la notion de similarit´e propre aux utilisateurs et celle calcul´ee par les syst`emes CBIR [24], [84]. – La complexit´e des algorithmes utilis´es qui rend difficile un passage `a l’´echelle. Ces inconv´enients ont frein´e l’utilisation des m´ethodes de type CBIR dans les applications de recherche d’images g´en´eralistes. Comme en t´emoigne le nombre important de travaux cit´es dans un r´ecent ´etat de l’art (2007) [84], l’association de la similarit´e visuelle de bas niveau et des techniques s´emantiques suscite un tr`es fort int´erˆet de la part de la communaut´e scientifique. Si l’introduction de la s´emantique r´eduit le foss´e entre la similarit´e calcul´ee par la machine et celle per¸cue par l’utilisateur, elle induit habituellement une plus grande complexit´e dans l’architecture de recherche rendant moins ais´es les passages ` a l’´echelle. Dans cette th`ese, nous proposons une m´ethode simple de recherche par similarit´e visuelle reposant sur une limitation de l’espace de recherche par le contenu aux images partageant une mˆeme description textuelle. Les recherches par mots-clef et par contenu visuel sont compl´ementaires et peuvent ˆetre fusionn´ees dans un mˆeme syst`eme s´equentiellement ou parall`element (on parle de fusion pr´ecoce et de fusion tardive) [97]. Nous nous int´eresserons au premier cas : l’interaction entre l’utilisateur et le syst`eme commence habituellement par une phase d’interrogation de la base de donn´ees par une requˆete textuelle, puis une phase de raffinement des r´esultats en utilisant la similarit´e visuelle. Dans le deuxi`eme cas, les deux types de recherche sont utilis´es simultan´ement, les r´esultats ´etant le plus souvent une fusion des r´esultats de chaque syst`eme (fusion dite tardive).

1.2

Ambition et d´ efis

Cette th`ese se situe dans le domaine de la recherche d’images destin´ee `a un large public et r´ealis´ee dans des vastes bases de donn´ees faiblement structur´ees. Notre approche combine une dimension th´eorique et une dimension pratique grˆace `a l’impl´ementation d’applications op´erationnelles qui ont servi de base `a nos ´evaluations et `a la proposition d’am´eliorations futures. La recherche d’images sur le Web couvre une grande diversit´e de domaines [62] ; aussi est-il imp´eratif de disposer de structures s´emantiques qui couvrent le plus possible la vari´et´e des requˆetes exprim´ees par les utilisateurs. Par cons´equent, les structures linguistiques cr´e´ees doivent inclure le plus de concepts possibles et leur organisation doit refl´eter la structuration cat´egorielle des entit´es dans notre monde. La construction de ressources s´emantiques est une tˆache r´eput´ee difficile [19] et nous essayons de r´eutiliser des ressources existantes, en les adaptant `a la recherche d’images.

18

CHAPITRE 1. AVANT PROPOS

Si cela s’av`ere impossible, nous construisons de nouvelles structures en regroupant des informations accessibles sur le Web. Dans le cadre de cette th`ese, nous abordons trois grands types de requˆetes fr´equentes : les noms communs, les toponymes et les noms de c´el´ebrit´es. Afin de r´epondre ` a des requˆetes avec des noms communs, nous avons d´ecid´e d’utiliser une ressource existante : WordNet. Son inclusion dans une architecture de recherche d’images sur Internet comporte, comme ´etape pr´ealable, son adaptation `a une application de recherche d’images. WordNet est une structure s´emantique constitu´ee par des lexicographes afin de d´ecrire l’organisation de cat´egories dans le monde selon les connaissances du sens commun. Il est montr´e dans [102] que les relations s´emantiques dans WordNet sont critiquables si on se place dans l’optique des ontologies formelles mais, dans la plupart des cas, la structure de la hi´erarchie de WordNet est utilisable pour la recherche d’images. Dans le domaine g´eographique, il existe des bases de donn´ees comme Alexandria [52] ou Geonames5 qui ont ´et´e construites manuellement. Ces ressources offrent une couverture in´egale des r´egions du monde. Nous adaptons donc ces ressources pour la recherche d’images et nous d´ecrivons une m´ethode d’enrichissement automatique utilisant des sources d’information compl´ementaires comme Wikip´edia ou Panoramio6 . Wikip´edia est ´egalement utilis´ee pour extraire des informations relatives aux c´el´ebrit´es `a partir des nombreux articles d´edi´es aux personnalit´es. Les principaux d´efis relev´es lors de la construction de structures linguistiques pour la recherche d’images sont les suivants : – L’obtention de ressources `a grande ´echelle, assurant une bonne couverture des domaines cibl´es mais ´egalement une bonne qualit´e des connaissances inclues. – L’adaptation des m´ethodes d’extraction de connaissances aux diff´erents domaines conceptuels afin d’extraire des relations pertinentes. – L’ajout d’une mesure de pertinence aux concepts afin de pouvoir r´esumer efficacement des espaces conceptuels vastes en pr´esentant prioritairement les concepts les plus pertinents. – L’int´egration des structures linguistiques dans des architectures de recherche d’images adapt´ees au traitement de vastes masses de donn´ees. Sur le plan pratique, nous nous donnons comme ambition de pr´esenter des prototypes fonctionnels de moteurs de recherche d’images qui exploitent ´egalement des fonctionnalit´es de traitement d’images. La validation de l’approche est r´ealis´ee `a travers une s´erie de tests ´evaluant la qualit´e des r´eponses aussi bien de mani`ere quantitative que qualitative. L’´evaluation quantitative des r´esultats passe par l’utilisation de mesures comme la pr´ecision sur un large ensemble de concepts tandis que les tests qualitatifs ´evaluent l’interaction d’un panel d’utilisateurs avec notre syst`eme.

5 6

http ://www.geonames.org/ http ://panoramio.com

` 1.3. STRUCTURE DE LA THESE

1.3

19

Structure de la th` ese

Apr`es avoir introduit bri`evement les principales directions de recherche, nous pr´esentons un ´etat de l’art des diff´erents domaines abord´es dans cette th`ese. Nous commen¸cons par les mod`eles formels de description d’images, puis nous discutons les diff´erents types et caract´eristiques des collections d’images. Dans un troisi`eme temps, nous analysons les principales modalit´es de recherche dans ces collections. Un autre volet important de la recherche d’images concerne les ´etudes utilisateurs. Nous accordons un int´erˆet particulier `a l’analyse des requˆetes, ` a la pr´esentation des r´esultats et `a l’interaction de l’utilisateur avec le syst`eme. Enfin, nous proposons une synth`ese des principaux travaux s’int´eressant ` a la construction de ressources s´emantiques et `a leur utilisation pour am´eliorer la recherche d’images. Le troisi`eme chapitre de la th`ese introduit notre approche inspir´ee par des domaines comme les ´etudes des usages, l’analyse et l’interpr´etation des images, l’extraction de connaissances et la recherche d’information. Nous commen¸cons par une ´etude de fichier de log `a large ´echelle qui analyse les usages associ´es aux moteurs de recherche d’images, pour continuer avec la discussion de quelques notions relatives `a la repr´esentation imag´ee des concepts. Nous pr´esentons ensuite les principes de construction d’une ressource s´emantique ` a large ´echelle exploitable pour une application de recherche d’images sur Internet. Pour clˆ oturer le chapitre, nous introduisons une architecture de recherche d’images g´en´erique bas´ee sur l’utilisation conjointe de ressources conceptuelles et de techniques de traitement d’images. Dans le quatri`eme chapitre, nous pr´esentons en d´etail la m´ethodologie mise en place pour adapter ou construire des structures linguistiques pour la recherche d’images sur Internet. Il s’agit notamment de la description d’une adaptation de WordNet, l’enrichissement automatique d’un th´esaurus g´eographique et l’extraction de connaissances `a partir de Wikip´edia. Nous pr´esentons, dans chaque cas des ´evaluations en comparant — `a chaque fois que cela s’av`ere possible — nos ressources avec des ressources existantes. Le cinqui`eme chapitre correspond `a la dimension applicative de la th`ese et est consacr´e `a la pr´esentation d’une plateforme op´erationnelle de recherche d’images qui reprend l’architecture g´en´erique du troisi`eme chapitre en l’adaptant `a trois applications : recherche de noms communs, de toponymes et de noms de c´el´ebrit´es. Les trois parties de cette plateforme int`egrent une version adapt´ee de WordNet, un th´esaurus g´eographique enrichi et une ressource d´edi´ee aux personnalit´es. Nous pr´esentons dans chaque cas des sc´enarios typiques d’utilisation ainsi que des ´evaluations qualitatives et quantitatives validant notre d´emarche. Un dernier chapitre r´esume les principales contributions de cette th`ese et propose plusieurs perspectives pour continuer notre effort de recherche. Compte tenu de la vis´ee applicative de cette th`ese, nous pr´esentons une s´erie de services tirant profit de l’introduction de structures linguistiques ` a large ´echelle dans la recherche d’images sur Internet. Ainsi, nous discutons bri`evement l’utilit´e de telles structures dans d’autres applications, comme l’annotation automatique des images ou l’e-tourisme, les deux principaux sujets de notre recherche actuelle.

20

CHAPITRE 1. AVANT PROPOS La structure de notre th`ese est r´esum´ee dans la figure 1.1.

` 1.3. STRUCTURE DE LA THESE

Fig. 1.1 – Sch´ema pr´esentant l’approche propos´ee dans cette th`ese.

21

22

CHAPITRE 1. AVANT PROPOS

Chapitre 2

Etat de l’art Dans ce chapitre, nous pr´esentons un ´etat de l’art des diff´erents domaines de recherche en liens avec cette th`ese et essayons d’extraire quelques propositions d’am´elioration des applications actuelles de recherche d’images. Cette partie est structur´ee de la fa¸con suivante : – Description des images : nous d´etaillons les diff´erents niveaux d’analyse des images, des caract´eristiques dites bas niveaux jusqu’`a une description s´emantique. – Introduction des grands types de bases de donn´ees d’images et de leurs principales caract´eristiques (taille, modalit´e d’annotation, ´evolution. . .). – Les modalit´es de recherche dans les bases d’images sur Internet : par mots-clef ou par contenu visuel et la relation entre ces deux types d’acc`es. – Les ´etudes utilisateurs ` a partir de l’analyse statistique des requˆetes ou par l’´etude de l’interaction entre les utilisateurs et les syst`emes. – La construction et l’utilisation de structures s´emantiques pour la recherche d’images et ses limites actuelles.

2.1

Mod` eles de description d’une image

Les repr´esentations picturales sont l’objet de nombreuses ´etudes dans plusieurs domaines, comme l’histoire de l’art [40], [105], la s´emiologie [28], la repr´esentation conceptuelle [114], [3] mais aussi le traitement d’images [59]. Dans cette section, nous pr´esentons quelques mod`eles de descriptions d’images qui ont ´et´e propos´es pour ˆetre utilis´es dans des applications informatiques. Premi`erement, nous mettons en ´evidence les diff´erents niveaux auxquels une image peut ˆetre caract´eris´ee et les probl`emes induits par ces descriptions. Deuxi`emement, trois types de mod`eles sont discut´es : mod´elisation par des attributs de « haut niveau », de « bas niveau » et mod´elisation hybride. Pour finir, nous analysons la pertinence des mod`eles formels pour des bases d’images `a large ´echelle. 23

24

CHAPITRE 2. ETAT DE L’ART

2.1.1

Le foss´ e s´ emantique

Une mˆeme image peut ˆetre « vue » `a plusieurs niveaux : la vision par ordinateur est non-interpr´etative, en opposition `a la forte subjectivit´e de celle d’un utilisateur. Ces deux extrˆemes caract´erisent ce que l’on appelle commun´ement « le foss´e s´emantique ». Smeulders et al. d´efinissent ce dernier comme « le manque de co¨ıncidence entre l’information extraite a ` partir des caract´eristiques visuelles et l’interpr´etation de ces caract´eristiques par un utilisateur dans une situation donn´ee » [127]. Le foss´e s´emantique est l’un des probl`emes les plus souvent cit´es dans les travaux en recherche d’images [51], [26], [30], [38], [60], [87], [149]. Deux constats d´ecoulent de la d´efinition propos´ee dans [127] et des discussions propos´ees dans les autres articles cit´es : – Les machines sont capables d’analyser plus ou moins finement les caract´eristiques perceptuelles d’une image num´erique mais ´echouent dans l’interpr´etation de son contenu. – L’interpr´etation d’une image est ´etroitement li´ee `a une situation donn´ee. On peut se focaliser plutˆ ot sur les objets repr´esent´es, sur les ´ev´enements ou sur la localisation de la sc`ene. L’interpr´etation des images est un processus potentiellement infini mais, dans un syst`eme de calcul formel, les informations qu’on peut en extraire sont intrins`equement limit´ees. Nous sommes capables de s´electionner facilement l’information pertinente dans un contexte particulier alors que, pour la machine, un des probl`emes majeurs est de s´electionner l’information pertinente pour une image ` a un certain moment [60]. Dans les applications de recherche d’images qui prennent en compte le contenu visuel, il est important de concilier la vue « machine » et celle de l’utilisateur. Si une application se base sur les caract´eristiques d’une image dites de « haut niveau », on parle d’un paradigme de recherche s´emantique. Au contraire, si des param`etres dits de « bas niveau » sont consid´er´es, le paradigme est dit de recherche par le contenu. Dans le premier cas, l’information textuelle autour des images est privil´egi´ee pour mod´eliser le contenu de l’image ; dans le second, des caract´eristiques visuelles de l’image comme la couleur, la texture, la forme sont extraites pour en d´ecrire le contenu. La recherche s´emantique est caract´eristique des tr`es populaires syst`emes de recherche d’images sur Internet, comme Google Images, alors que la recherche par le contenu est utilis´ee dans des applications ` a plus petite ´echelle et moins populaires, comme Qbic [5] ou VisualSeek [128]. Un nombre tr`es important de travaux s’attache `a combiner ces deux approches [84].

2.1.2

Mod` eles formels de description

Pour d´ecrire le contenu d’une image, il faut choisir quels attributs vont la repr´esenter, une description exhaustive de l’image ´etant naturellement irr´ealisable [79]. Dans cette section, nous nous int´eressons `a trois types de mod`eles de description bas´es sur les param`etres de haut niveau, de bas niveau d’une image et une combinaison des deux.

` 2.1. MODELES DE DESCRIPTION D’UNE IMAGE 2.1.2.1

25

Mod´ elisation des param` etres de haut niveau d’une image

Cette approche est illustr´ee par les travaux compl´ementaires de Shatford [79] et du Consortium du Web (W3C) [46]. Le mod`ele de Shatford est cens´e fournir un cadre th´eorique pour l’annotation manuelle des images. Le travail du W3C est plus cibl´e sur les possibilit´es d’impl´ementations des techniques d’annotation d’images. Shatford et al. [79] soulignent les objectifs d’une telle annotation : – proposer un acc`es ` a des images individuelles compte tenu de leurs attributs ; – proposer un acc`es ` a des groupes d’images qui partagent certains attributs. Plusieurs types d’attributs sont utilis´es pour annoter les images : – Attributs biographiques : ils incluent des donn´ees relatives `a la production de l’image, ` a son auteur, aux droits associ´es. Ces informations n’ont pas de relation directe avec le contenu repr´esent´e mais peuvent ˆetre utiles dans certaines situations, comme trouver toutes les images prises par un mˆeme auteur ou `a un moment donn´e. – Attributs li´es au sujet : ils d´ecrivent l’image `a la fois en termes du contenu repr´esent´e ainsi que sa signification. Le sujet peut ˆetre d´ecrit selon deux niveaux de repr´esentation : g´en´erique ou sp´ecifique. On peut remarquer la parent´e avec la th´eorie de Rosch [114] ; il s’agit ici d’une version appauvrie de cette th´eorie qui propose trois niveaux de repr´esentation pour les concepts : super-ordonn´e, de base, subordonn´e. Dans [79], quatre caract´eristiques sont identifi´ees pour le sujet d’une image : caract´eristiques spatiales, caract´eristiques temporelles, caract´eristiques d’activit´es et d’´ev´enements et caract´eristiques des objets. Toutes ces caract´eristiques peuvent ˆetre d´ecrites aussi bien de mani`ere g´en´erique que de mani`ere sp´ecifique. Pour une photographie, les dimensions temporelles et spatiales sont habituellement des donn´ees biographiques. – Type de repr´esentation : les images peuvent ˆetre de diff´erents types comme des gravures, peintures, photographies. . . – Attributs relationnels : ces attributs relient une image `a d’autres objets qui peuvent ˆetre eux-mˆemes des images ou des textes par exemple. Ces attributs sont utiles pour int´egrer les images dans des formes d’expression plus complexes ou pour proposer une recherche dans un espace pictural d´efini par une image source. Les attributs expos´es ci-dessus sont g´en´eralement repr´esentatifs pour des photographies mais leur importance varie en fonction de plusieurs crit`eres dont : le contenu de l’image, le niveau de repr´esentation, l’utilisation ou le mode de production. Bien que, dans la perspective d’une application informatique, il soit n´ecessaire de sp´ecifier le cadre th´eorique et, en mˆeme temps, la ou les modalit´es d’impl´ementation technique, l’approche expos´ee dans [79] est enti`erement centr´e sur les aspects th´eoriques de l’annotation et ne se soucie pas des aspects techniques du processus de g´en´eration de ces attributs. Par exemple, il n’est pas sp´ecifi´e si le texte associ´e aux images doit ˆetre exprim´e en langage contrˆol´e ou libre. Dans un travail en cours [46], le Consortium du Web essaie de d´efinir un standard pour l’annotation d’images qui doit ˆetre en accord avec les fondements technologiques du Web s´emantique [10]. Plusieurs probl`emes relatifs `a l’annotation des images sont

26

CHAPITRE 2. ETAT DE L’ART

rapport´es : – l’automatisation du processus ; – la d´ependance du type d’annotation par rapport aux utilisations pr´evues pour les images ; – le manque de s´emantique et de structuration dans la majorit´e des applications d’annotation existantes ; – l’impossibilit´e de r´eutiliser les annotations r´ealis´ees dans diff´erents syst`emes. Une possible r´eponse ` a ces probl`emes serait l’utilisation d’ontologies formelles pour associer du texte aux images, le formalisme OWL1 fournissant un langage de description pour l’annotation permettant une r´eutilisation des annotations dans plusieurs applications. Dans le cas o` u des ontologies formelles sont utilis´ees, il est envisageable d’associer du texte aux images selon deux fa¸cons : (1) en utilisant des donn´ees textuelles en langage naturel ou (2) du texte contrˆ ol´e qui caract´eriserait plusieurs propri´et´es de l’image. Le premier cas permet une plus grande souplesse d’annotation mais leur exploitation dans des syst`emes de recherche devient plus laborieuse. Dans le second cas, la situation est inverse : la structure des ontologies permet de hi´erarchiser des annotations textuelles (attributs de haut niveau) et des param`etres de l’image comme la couleur, la texture, la forme (caract´eristiques de bas niveau) dans ce qui serait une tentative de combler le foss´e s´emantique. Nous avons mentionn´e que, dans [46], une attention particuli`ere est accord´ee ` a l’impl´ementation des syst`emes d’annotation en tenant compte de plusieurs crit`eres : – Le type du document contenant les annotations. – Le type de m´etadonn´ees retenues : elles peuvent ˆetre descriptives, structurales ou administratives et sont ` a relier aux diff´erents types d’attributs d´ecrits dans [79]. – Le format des m´etadonn´ees : RDF (Ressource Description Framework) ou OWL (Web Ontology Language). – L’annotation du contenu doit pouvoir se r´ealiser selon diff´erents niveaux de d´etail et il doit ˆetre possible de passer facilement entre les niveaux. – Prise en compte des besoins utilisateurs pour mod´eliser les diff´erents usages possibles. – Le type de licence logiciel. – La granularit´e : traitement au niveau des fichiers photographiques ou de leurs segments. – L’interactivit´e : les possibilit´es donn´ees aux utilisateurs d’interagir avec des annotations d´ej` a existantes (ajouts, suppressions, modifications) La perspective d’annoter les images de mani`ere structur´ee suivant les standards technologiques du Web s´emantique est tr`es int´eressante pour les applications de recherche d’images ` a grande ´echelle. Cependant, comme il est soulign´e dans [46], l’adoption de ces standards par les utilisateurs est probl´ematique puisqu’il est aujourd’hui difficilement imaginable d’imposer un standard unique d’annotation aux fournisseurs de contenu. 1

http ://www.w3.org/TR/owl-features/

` 2.1. MODELES DE DESCRIPTION D’UNE IMAGE 2.1.2.2

27

Mod´ elisation des param` etres de bas niveau d’une image

Cette approche est illustr´ee ` a travers des descripteurs inclus dans le standard MPEG7 [59]. Les images num´eris´ees peuvent ˆetre analys´ees automatiquement en utilisant des param`etres comme la couleur, la texture, la forme. Ces param`etres sont locaux s’ils s’appliquent `a des r´egions dans l’image ou globaux s’ils caract´erisent toute sa surface. Nous traitons ici uniquement des images fixes et nous pr´esentons une partie des param`etres qui leurs sont associ´es dans MPEG-7. La couleur est l’un des param`etres fondamentaux qui peut ˆetre mod´elis´e automatiquement. Elle est caract´eris´ee par sept descripteurs dans MPEG-7 (six pour les images fixes et un pour les vid´eos) : – L’espace des couleurs : six encodages sont support´es dans MPEG-7, dont RVB (rouge, vert, bleu) et TSV (teinte, saturation, valeur). Le premier mod´elise de mani`ere approximative les trois couleurs qui sont per¸cues par les cellules coniques de l’œil. Le mod`ele RVB est un mod`ele additif o` u chaque couleur est une combinaison lin´eaire des trois composantes chromatiques. Le codage TSV est une transformation non-lin´eaire du mod`ele RVB et rend compte de la teinte, la saturation (l’intensit´e de la couleur) et la valeur (la brillance de la couleur). – La quantification de l’espace couleur (par exemple 2563 = 16777216 couleurs dans RVB). – La (les) couleur(s) dominante(s) : param`etre habituellement local, utile pour des r´egions de l’image caract´eris´ees par un petit nombre de couleurs. – Scalable color : histogramme de couleurs dans l’espace TSV, le nombre de classes et de bits par couleur sont param´etrables. – Color layout : repr´esentation de la distribution spatiale des couleurs d’une image dans une forme compacte. – Descripteur couleur — structure : ce descripteur consid`ere l’image comme un ensemble de blocs de taille 8x8 pixels. Un histogramme couleur est construit en comptant le nombre de blocs contenant chaque couleur. La texture peut ˆetre repr´esent´ee par trois param`etres dans MPEG-7 : – Descripteur de texture homog`ene bas´e sur des filtres de Gabor. – Texture browsing : ce descripteur utilise l’analyse faite par le pr´ec´edent descripteur mais propose des statistiques diff´erentes bas´ees sur la r´egularit´e, la « rugosit´e » et l’orientation de la texture. – Descripteur de texture non homog`ene : ce descripteur est compos´e de plusieurs histogrammes de r´epartition de l’orientation des contours (l’image est d´ecoup´ee en 16 blocs). La forme peut ˆetre mod´elis´ee par trois descripteurs dans MPEG-7, dont deux pour les images en deux dimensions et un pour celles en trois dimensions : – Descripteur bas´e r´egion : ce descripteur caract´erise la distribution des pixels `a l’int´erieur d’une r´egion grˆ ace ` a une transformation dite ART (Angular-Radial Transformation) qui est robuste aux l´eg`eres d´eformations des contours. – Descripteur bas´e contour : ce descripteur est bas´e sur la caract´erisation de la courbure du contour (´evolution de la longueur d’un rayon parcourant la forme).

28

CHAPITRE 2. ETAT DE L’ART

– Des informations de localisation sont accessibles via deux descripteurs (un pour les images fixes et un pour les vid´eos). Ils permettent notamment de localiser des r´egions d’int´erˆet en l’entourant par un polygone. Les param`etres visuels de MPEG-7 permettent la construction automatique de signatures d’images qui rendent compte d’une ou plusieurs caract´eristiques fondamentales de l’image. Le choix de l’un ou l’autre des param`etres est g´en´eralement d´etermin´e par le type d’images trait´ees. Contrairement au mod`ele d´ecrit dans [79], MPEG-7 est cr´e´e en vue de l’impl´ementation d’applications reposant sur les param`etres du standard MPEG7. Smeulders et al. [127] en 2000 proposent un ´etat de l’art des principaux descripteurs utilis´es pour les syst`emes CBIR. Ces descripteurs sont regroup´es selon qu’ils s’int´eressent plus particuli`erement ` a la couleur, la texture ou la forme. Fournier [35] ajoute une quatri`eme cat´egorie en s´eparant les descripteurs utilisant des approches locales par points d’int´erˆets comme les tr`es populaires descripteurs SIFT [85]. Nous pr´esentons ci-dessous plus en d´etails les descripteurs utilis´es dans le syst`eme de recherche par le contenu d´evelopp´e par le CEA LIST, nomm´e PIRIA (Programme d’Indexation et de Recherche d’Images par Affinti´es) [67]. Descripteurs couleur Parmi les nombreux descripteurs bas´es sur la couleur, l’un des plus utilis´e est un histogramme ` a 64 classes dans l’espace RVB ( Rouge, Vert, Bleu) o` u chaque composante est quantifi´ee en quatre valeurs. Une approche identique est possible dans l’espace TSV, g´en´eralement la quantification de la composante Teinte ´etant plus riche que celles des deux autres composantes. Dans PIRIA il est possible d’ajouter des informations spatiales en d´ecoupant une image en neuf r´egions identiques et en calculant un descripteur couleur pour chaque bloc. Dans le cas du descripteur RVB, nous obtenons une signature globale de 576 composantes. Un autre descripteur utilis´e dans PIRIA est bas´e sur le Border Interior Classification (BIC) propos´e par Stehling et al. [132]. Ce descripteur (nomm´e CIME dans PIRIA) utilise une quantification de la couleur comme par exemple l’espace RVB en 64 classes. Chaque pixel est class´e comme « Interior » si le pixel est de la mˆeme couleur que ses quatre voisins (en 4-connexit´e, 8 en 8-connexit´e). Dans le cas contraire (au moins un voisin n’a pas la mˆeme couleur), le pixel est consid´er´e comme « Border » (voir figure 2.1). Finalement, deux histogrammes couleur sont construits pour chacune de ces deux classes. Nous obtenons donc une signature globale de 128 composantes pour une quantification de RVB en 64 classes. Descripteurs texture PIRIA utilise le descripteur LEP (Local Edge Pattern) propos´e par Cheng et al. [18]. Le descripteur LEP est un des nombreux d´eriv´es du tr`es populaire descripteur Local Binary Pattern (LBP) [101] qui a montr´e de tr`es bons r´esultats pour plusieurs probl`emes2 comme la caract´erisation de texture ou la d´etection de visage [36]. Une 2

On peut trouver une liste tr`es compl`ete d’applications sur le site de l’universit´e d’Oulu :

` 2.1. MODELES DE DESCRIPTION D’UNE IMAGE

29

Fig. 2.1 – Descripteur BIC. En haut, image originale (base Corel). En bas, `a droite, l’ensemble des pixels « int´erieurs », ` a droite les pixels « border ». image des gradients avec des valeurs entre 0 et 255 est d’abord calcul´ee en appliquant un filtrage de Sobel. Cette image est binaris´ee par seuillage (g´en´eralement : 100, figure 2.2).

Fig. 2.2 – Image binaris´ee apr`es filtrage de Sobel. Pour chaque pixel de cette image, LEP d´ecrit le type de la micro-texture du voisinage de ce pixel. Cette caract´erisation est faite en consid´erant la r´epartition des pixels dans une fenˆetre 3×3 autour de ce pixel. Traitant des valeurs binaires, nous avons 29 = 512 configurations possibles. Ces configurations sont num´erot´ees en utilisant le masque http ://www.ee.oulu.fi/research/imag/texture/lbp/lbp.php.

30

CHAPITRE 2. ETAT DE L’ART

Tab. 2.1 – Masque binomial pour le descripteur Local Edge Pattern. 1 8 32

2 256 64

4 16 128

binomial 3×3 du tableau 2.1. En associant au pixel central le num´ero de la configuration, il est alors possible de construire un histogramme de 512 composantes caract´erisant la distribution de ces 512 micro-textures dans l’image. Pour des applications de recherche par similarit´e, ces descripteurs sont compar´es entre eux par une mesure de similarit´e comme la distance euclidienne, cosinus ou de Mahalanobis. Plusieurs travaux [127], [53] discutent des avantages et inconv´enients des tr`es nombreuses m´etriques utilis´ees dans l’´etat de l’art. Sacs de mots visuels

Fig. 2.3 – Image binaris´ee apr`es filtrage de Sobel. Cette approche, illustr´ee dans la figure 2.3, repose sur un vocabulaire visuel repr´esentatif de l’ensemble des images ` a indexer, construit `a partir d’un ensemble de descripteurs

` 2.1. MODELES DE DESCRIPTION D’UNE IMAGE

31

locaux, le plus souvent des SIFTs [85] ou ses d´eriv´es. Ce vocabulaire est le r´esultat d’une quantification non supervis´ee d’un ensemble de patches (correspondant aux voisinages des points d’int´erˆets) qui sont extraits selon plusieurs approches (de mani`ere dense avec une grille, al´eatoirement ou ` a partir d’un d´etecteur de points d’int´erˆet, comme les points de Harris ou la « Difference of Gaussian »). G´en´eralement le nombre de patches est assez important et l’´etape de clustering est probl´ematique. Des techniques classiques comme les K-Means sont habituellement utilis´ees pour trouver une partition optimale des patches. Une fois le vocabulaire construit, chaque image peut ˆetre d´ecrite par un histogramme de la taille du vocabulaire, dont chaque composante peut ˆetre consid´er´ee comme la fr´equence d’un des mots visuels du vocabulaire dans l’image. La similarit´e entre deux images est calcul´ee en utilisant la distance cosinus d´ecrite dans l’´equation (2.1) vi × vj d(Ii , Ij ) = (2.1) ||vi || × ||vj || Avec vi et vj les deux histogrammes (de la taille du vocabulaire) de l’image Ii et Ij . 2.1.2.3

Mod´ elisations hybrides

Cette approche est illustr´ee par les travaux de [60] et de [88]. Le travail dans [60] insiste sur une premi`ere s´eparation entre l’information visuelle et l’information non visuelle d’une image qui n’est pas sans rappeler la diff´erentiation entre les informations biographiques et celles li´ees au sujet propos´ee par Shatford [79]. La mod´elisation de l’information visuelle repose sur une description des images sur dix niveaux : 1. D´efinition du type de l’image (ex. : photographie, peinture, dessin) et de la technique utilis´ee (ex. : couleurs, noir et blanc). 2. Distribution globale des param`etres comme la couleur et la texture. 3. D´etermination de structures locales dans l’image : points, lignes, couleur et texture pour des r´egions de l’image. 4. Composition globale : distribution spatiale des ´el´ements de l’image. 5. Objets g´en´eriques : connaissance g´en´erale des objets repr´esent´es dans les images. Ce niveau est ` a rapprocher du niveau de repr´esentation de base d´efini par Rosch [114]. 6. Sc`enes g´en´eriques : ` a partir d’un nombre assez r´eduit de types g´en´eraux de sc`enes comme image urbaine/sc`ene naturelle ou image d’int´erieur/image d’ext´erieur. 7. Objets sp´ecifiques : connaissance plus d´etaill´ee des objets. [60] lie ce niveau sp´ecifique `a la description du sujet pr´esent´e dans [79]. 8. Sc`enes sp´ecifiques : comme pour les objets, ce niveau implique une connaissance pr´ecise des sc`enes. 9. Objets abstraits : ce niveau correspond `a une interpr´etation (subjective) des objets repr´esent´es dans l’image.

32

CHAPITRE 2. ETAT DE L’ART

10. Sc`enes abstraites : ce niveau requiert une interpr´etation subjective de la sc`ene repr´esent´ee dans la photographie. Par exemple, on peut associer une description comme groupe de personnes m´econtentes `a une image repr´esentant une gr`eve. Les quatre premiers niveaux, dits « syntaxiques », correspondent `a des param`etres de l’image similaires ` a ceux dans MPEG-7, tandis que les six derniers niveaux m´elangent l’analyse des descripteurs de bas niveau et l’utilisation de connaissances sur le monde ext´erieur. Une analyse automatique des images est ais´ement r´ealisable pour les quatre premiers niveaux, mais elle devient de plus en plus difficile pour les autres niveaux. Il est soulign´e dans [60] que, mˆeme s’il y a des relations entre les niveaux, ils peuvent ˆetre regard´es ind´ependamment. Leur utilisation d´epend de la base de donn´ees et de l’usage envisag´es. Les auteurs discutent de l’impl´ementation de leur mod`ele et pr´ecisent qu’il est possible d’automatiser les quatre premiers niveaux et partiellement les niveaux de cinq `a huit. Une annotation manuelle parait indispensable pour les deux derniers niveaux.

Fig. 2.4 – Ontologie d´ecrivant les objets dans une images (cf. [88]). Le travail d´ecrit dans [88] repose sur la d´efinition d’ontologies sp´ecifiques aux objets repr´esent´es dans les images. L’ontologie d´ecrivant le contenu de l’image est illustr´ee dans la figure 2.4. Entre la racine de l’ontologie, correspondant au nom de l’objet, et les valeurs num´eriques, caract´erisant la r´egion de l’image contenant l’objet, les auteurs ajoutent un niveau interm´ediaire r´ealisant le passage entre une description symbolique et une analyse de bas niveau de l’image. Les caract´eristiques mod´elis´ees sont : – La luminosit´e (exprim´ee par cinq param`etres) et la distribution des couleurs dans la gamme vert-rouge et bleu-jaune (sept param`etres). – La position de la r´egion dans l’image — horizontale et verticale (trois param`etres par orientation). – La taille de l’objet (trois param`etres). – La forme de l’objet (trois param`etres). Les r´egions de l’image suppos´ees contenir l’objet sont ainsi d´efinies par une s´erie de caract´eristiques de bas niveau dans une forme compacte. Ce mod`ele d’analyse est plus simple que celui dans [60] et est mis en place pour rechercher des images dans des bases h´et´erog`enes de grand volume. Notons qu’il s’agit d’une description locale des

` 2.1. MODELES DE DESCRIPTION D’UNE IMAGE

33

composantes de l’image et qu’il est impossible d’avoir ici des descriptions des sc`enes ou d’objets abstraits. La principale limitation du mod`ele vient du fait que le passage entre les param`etres de bas niveau et ceux de haut niveau est quasiment imm´ediat. Dans des espaces conceptuels de grande taille, plusieurs objets peuvent ainsi avoir la mˆeme repr´esentation de bas niveau. La m´ethodologie propos´ee dans [88] est con¸cue pour le d´eveloppement d’un syst`eme r´eel qui est par la suite ´evalu´e sur un corpus contenant 5000 images de la base Corel illustrant des dizaines de concepts. Les r´esultats de l’annotation sont satisfaisants pour la base d’´evaluation mais aucune hypoth`ese n’est faite quant aux performances du syst`eme apr`es passage `a l’´echelle.

2.1.3

Utilisation des mod` eles de description pour la recherche d’images sur Internet

Shatford [79] et Jaimes [60] soulignent que le choix des annotations associ´ees `a une image est li´e ` a l’utilisation de cette image et que l’annotation manuelle est un processus extrˆemement coˆ uteux. Reposant majoritairement sur des techniques d’apprentissages supervis´es, les m´ethodes d’analyse automatique [88] sont une alternative efficace dans l’hypoth`ese des mondes ferm´es, c’est-` a-dire avec des bases d’images contenant un nombre restreint d’objets. N´eanmoins, l’application des diff´erents mod`eles formels de description d’images au corpus du Web est rendue difficile (voire impossible) par deux facteurs principaux : – La tr`es grande diversit´e du contenu des images pr´esentes sur le Web ainsi que la diversit´e d’usages potentiels. Les objectifs et les pratiques de recherche des utilisateurs dans des applications destin´ees au grand public sont difficiles `a ´etudier, seules les informations contenues dans des fichiers de log de moteurs de recherche permettant d’extraire des tendances g´en´erales [63]. Ce point est d´etaill´e dans la section 2.4. L’identification des usages potentiels [46], [94], comme la recherche de personnes ou la recherche encyclop´edique, n’est g´en´eralement pas suivie par la proposition de mod´elisations formelles qui pourrait constituer la base de nouveaux moteurs de recherche plus adapt´es `a ces usages. – Le contenu pictural disponible sur Internet provient d’une tr`es grande diversit´e de sources et il n’est pas possible d’imposer des r`egles d’annotation aux fournisseurs ` cela s’ajoute l’impossibilit´e d’annoter manuellement le volume d’images [46]. A consid´erable d’images existantes (plus de deux milliards d’images pour Google). Il faut noter une approche devenue tr`es populaire et symbolis´ee par Flickr3 . Flickr est un service en ligne permettant de partager des images. L’indexation est bas´ee sur une annotation des utilisateurs avec du texte libre et des mots-clef. Il est ´egalement possible de proposer une annotation des photographies par l’ensemble de la communaut´e Flickr, si l’auteur le d´esire. Dans les deux cas, un probl`eme crucial est l’association de mots-clef qui ne sont pas repr´esentatifs ou pertinents par rapport au contenu de l’image [139]. Une approche na¨ıve d’annotation automatique extrait des mots-cl´es du texte avoisinant l’image. Cette approche conduit souvent `a une faible pr´ecision puisque le texte 3

http ://flickr.com

34

CHAPITRE 2. ETAT DE L’ART

entourant l’image n’est pas forcement li´e `a son contenu. Dans le cas de Flickr, s’agissant de photographies personnelles les « tags » associ´es sont souvent fortement subjectifs et pas n´ecessairement partag´es par d’autres utilisateurs du service. Nous proposons une description plus pr´ecise des probl´ematiques de l’annotation des images du Web dans la section 2.3.

2.2 2.2.1

Corpus d’images Classification des bases de donn´ ees images

Dans la litt´erature de sp´ecialit´e, nous trouvons un nombre important de crit`eres de classification des corpus d’images. Nous en illustrons ici quelques-uns : – Selon la (les) source(s) des donn´ees il peut y avoir : – Des ensembles constitu´es d’images prises par une seule personne, comme par exemple les nombreux portfolios pr´esents sur des pages personnelles ou des blogs. – Des corpus photographiques constitu´es `a partir des donn´ees fournies par plusieurs personnes. L’exemple le plus populaire est la base Flickr (deux milliards de photographies en novembre 20074 ). – Selon la diversit´e du contenu : – Bases d’images sp´ecialis´ees : les images d’automobiles de Yahoo ! Auto5 ou les images de chiens sur http ://www.puppypoopy.com/. – Bases d’images g´en´eralistes : les corpus Flickr et Google, la base Corel ou Getty Images. – Selon les droits associ´es aux images : – Bases d’images libres de droit. – Bases d’images propri´etaires. Les bases professionnelles de Getty6 ou Corbis7 contiennent majoritairement des photographies sous copyright. Une quantit´e croissante des images sous Flickr est aussi prot´eg´ee par la licence Creative Commons. – Selon le degr´e d’´evolution de la base de donn´ees : – Les bases statiques, comme la base Corel par exemple. – Les bases dynamiques qui voient leur volume croitre (le plus souvent) avec le temps, comme le corpus de Flickr ou de Google Images. Par souci de clart´e, nous pr´esentons ces crit`eres de fa¸con binaire (g´en´eraliste/sp´ecialis´e, libre de droit/propri´etaire, . . .). N´eanmoins, il est ´evident qu’il serait possible de d´efinir des niveaux interm´ediaires refl´etant plus pr´ecis´ement l’extrˆeme diversit´e des bases d’images sur Internet. Ainsi, on peut facilement d´ecrire plusieurs nuances concernant les droits associ´es aux images : – Les images compl`etement libres de droits. 4

http http 6 http 7 http 5

://www.techcrunch.com/2007/11/13/2-billion-photos-on-flickr/ ://fr.cars.yahoo.com/ ://www.gettyimages.com/Home.aspx ://pro.corbis.com/

2.2. CORPUS D’IMAGES

35

– Les images r´eutilisables librement, sauf `a des fins commerciales (licence Creative Commons8 par exemple). – Les images qu’il faut acheter quelque soit la r´eutilisation (la majorit´e des images de Corbis ou Getty). L’´evolution des contenus est un param`etre important pour les utilisateurs qui veulent pouvoir acc´eder et naviguer dans les bases quelque soit leur ´evolution. Beaucoup d’articles sur la recherche d’images commencent en faisant r´ef´erence au dynamisme du corpus d’images d’Internet [60], [81], [88] mais il n’y a, `a notre connaissance, aucune ´etude analysant l’´evolution des principales bases de donn´ees. Enfin, notons que la distinction entre les bases sp´ecialis´ees et les bases g´en´eralistes doit ˆetre relativis´ee en fonction du point de vue adopt´e. Par exemple, une base contenant des photographies de chiens appartenant `a une grande vari´et´e de races va paraˆıtre « g´en´eraliste » ` a une personne sp´ecialiste du bulldog fran¸cais. En reprenant les crit`eres ´enonc´es auparavant, les principaux corpus d’images sur Internet sont : – Des bases de donn´ees form´ees d’images prises par une multitude de contributeurs. – Des corpus g´en´eralistes o` u on peut retrouver des photographies portant sur une grande vari´et´e de sujets. – Des bases contenant seulement des vignettes des images et des liens vers les images originales. – Des corpus fortement dynamiques. – Des bases de donn´ees ` a tr`es large ´echelle — de l’ordre de centaines de millions `a des milliards d’images. Les plus importants corpus d’images du Web sont relatifs aux principaux moteurs de recherche d’information : – Google ` a travers Google Images pour les images du Web, Picasa pour le partage d’images, Panoramio pour les photographies g´eo-r´ef´erenc´ees. – Yahoo ! avec Yahoo ! Images pour les images du Web et Flickr pour le partage de photographies ; Microsoft avec Live Image pour les images du Web. – Ask (Ask Image) pour les images du Web. – Exalead (Exalead Images) pour les images du Web ` ces corpus s’ajoutent aussi ceux accesibles par des moteurs sp´ecialis´es dans la A recherche d’images comme Picsearch ou Id´ee Inc. Le volume de donn´ees actuellement index´ees d´epasse deux milliards de photographies dans le cas de Google ou Yahoo !. [34] propose la liste de moteurs qui utilisent les bases index´ees par d’autres applications. Par exemple, A9 et AOL appuient leur recherche sur Google. Nous parlons de plusieurs corpus d’images car l’intersection entre les corpus index´es par diff´erents moteurs est assez r´eduite. Spink et al. [131] ont compar´e quatre moteurs de recherche textuelle et les r´eponses sur la premi`ere page apparaissent dans un seul moteur dans 84,9% des cas. Les r´eponses sont communes `a deux moteurs dans 11,4% des cas, ` a trois moteurs dans 2,6% des cas et `a tous dans 1,1% des cas. Mˆeme si l’´etude de [131] est focalis´ee sur la recherche textuelle, ses conclusions s’appliquent aussi 8

http ://fr.creativecommons.org/

36

CHAPITRE 2. ETAT DE L’ART

`a la recherche d’images. Le d´ebut des ann´ees 2000 a vu le volume des images stock´ees dans les bases de donn´ees varier tr`es fortement. D’un extrˆeme `a l’autre, on peut trouver quelques images dans des r´epertoires personnels ou plus de deux milliards d’images pour les images annot´ees par Google. Devant de telles diff´erences, la taille d’un corpus d’images influence n´ecessairement les strat´egies d’interaction avec le contenu. Pour les r´epertoires d’images de petite taille (comme ceux stock´es sur les ordinateurs personnels), il est possible d’avoir assez rapidement un aper¸cu de toute la base. Pour les gros corpus photographiques, l’exploration exhaustive est irr´ealisable et il est n´ecessaire de proposer des solutions de recherche efficaces. Deux solutions principales sont propos´ees pour retrouver des images, l’acc`es par texte et l’acc`es par le contenu. Ces solutions sont d´ecrites en d´etail dans la section 2.3.

2.2.2

Les diff´ erents types d’annotation

L’annotation d’images est connue [46] comme ´etant l’une des principales probl´ematiques li´ees ` a la recherche d’images sur Internet. Malgr´e l’existence de plusieurs ressources comme Dublin Core9 ou Visual Ressources Association10 , il n’existe pas de r´eel standard pour l’annotation s´emantique. De plus, ces ressources existantes sont tr`es g´en´eralement de petite taille et portent principalement sur des renseignements biographiques. Nous analysons ici l’annotation des images en fonction des diff´erences suivantes : – Annotation manuelle ou automatique. – Annotation structur´ee ou libre. Pour illustrer l’annotation manuelle (et libre), nous pr´esentons une photographie tir´ee de la base Flickr qui a ´et´e annot´ee par son auteur (figure 2.5).

Fig. 2.5 – Image de chien dans Flickr. 9 10

http ://dublincore.org/ http ://www.vraweb.org/

2.2. CORPUS D’IMAGES

37

Cette photographie est annot´ee avec les mots (tags) suivants : dogs, mike nl, golden retriever, beaches, sea, reflections, water, shores, Friday, Kijkduin, Sphinx, wet, The Netherlands, nature, Holland, The Hague, Den Haag, NL, furry, Magic, Donkey, interestingness4, SuperHearts, SuperShot, APlusPhoto, SuperAPlus, 2007, march, ilovenature, Nederland, dreams, chien, Explore, interesting, interestingness, fun, Hakuna Matata, delight, Flickr, environment. En filtrant cette liste de mots par le mod`ele propos´e dans [79], on trouve : – des informations biographiques : mike nl, SuperAPlus, APlusPhoto ; – des informations sur le sujet : – informations temporelles : 2007, march ; – informations spatiales : The Netherlands, Den Haag, shores, sea ; – informations sur le contenu : golden retriever, dog, chien, Donkey, water ; Ces annotations appartiennent aussi bien au niveau g´en´erique (dog, chien, water ) qu’au niveau sp´ecifique (Den Haag, golden retriever, Donkey). Notons ´egalement des termes qui correspondent aux niveaux abstraits de [60] comme delight ou fun. D’autres mots ne sont visiblement pas li´es au contenu de la photographie (dreams, Flickr, Explore) et peuvent constituer des sources d’erreurs pour un processus de recherche d’images. L’annotation automatique peut ˆetre structur´ee, en suivant un mod`ele formel de description de l’image, comme c’est le cas dans [88] ou pour certains niveaux dans [60], ou elle peut ˆetre libre, comme pour les moteurs de recherche d’images sur Internet. L’annotation automatique libre est plus simple `a mettre en place et plus repandue qu’une approche structur´ee. Un panorama de l’annotation automatique ou semi-automatique du contenu de l’image est propos´e dans [91]. Une des conclusions de ce travail est que l’automatisation de l’annotation ` a partir de techniques d’apprentissage supervis´e est possible avec des r´esultats satisfaisants seulement pour des bases de donn´ees de petite taille et couvrant un vocabulaire restreint (typiquement des dizaines de mots). Ce dernier point est important puisqu’il impose une restriction assez forte sur le nombre d’objets possibles `a d´etecter automatiquement et rend la technique difficilement applicable `a des bases `a large ´echelle. La s´election automatique de mots-clef dans le texte qui entoure les images est un processus plus facile ` a mettre en œuvre pour des grands volumes de donn´ees et, comme nous l’avons mentionn´e, il est tr`es largement utilis´e pour l’indexation des corpus du Web. Selon les algorithmes utilis´es par les diff´erents moteurs de recherche, les mots-clef correspondant ` a une image sont extraits d’une ou plusieurs des sources d’information suivantes [17] : – le nom du fichier ; – une fenˆetre de texte de la page Web qui se trouve autour de l’image ; – le texte se trouvant entre les balises associ´ees aux images ; – le titre de la page Web ; – l’URL de la ressource ; Une limitation importante de ce type d’approche est la d´etection de termes qui ne sont pas li´es au contenu des images et qui vont ˆetre utilis´es dans la phase de recherche. Mˆeme pour des requˆetes simples, comme fox (renard), beaucoup d’images ne repr´esentent

38

CHAPITRE 2. ETAT DE L’ART

pas un renard, figure 2.6.

Fig. 2.6 – Images non pertinentes pour fox sur la premi`ere page dans Google Images (Avril 2008). Les erreurs de la figure 2.6 sont dues au fait que le mot fox a ´et´e trouv´e dans le texte autour des images. Pour les deux premi`eres images, fox fait partie de termes compos´es de races de chiens (Toy fox terrier et Wirehaired fox terrier ) mais pour la derni`ere image, il s’agit d’une carte de distribution du programme de t´el´evision de la chaˆıne Fox Sports. Des ´evaluations quantitatives sur des panels de concepts pour analyser ce types d’erreurs sont pr´esent´ees dans [139] ainsi que dans le chapitre 5. Les annotations associ´ees aux images par les moteurs de recherche d’images sont conserv´ees dans des fichiers d’index, ceci facilitant un acc`es rapide aux photographies ` part les mots-clef, l’index contient des informations permettant de redans le corpus. A trouver la position de l’image parmi les r´eponses pr´esent´ees aux utilisateurs. Dans Google Images, ces informations sont actualis´ees `a chaque fois qu’une image est s´electionn´ee afin d’am´eliorer son « ranking ».

2.3

Recherche dans les bases de donn´ ees type Internet

Les images index´ees par les moteurs de recherche sont accessibles selon deux modalit´es principales : la recherche par mots-clef et celle par contenu visuel (CBIR). Le premier type d’acc`es est beaucoup plus r´epandu que le deuxi`eme en d´epit d’importants efforts de recherche [127], [84].

2.3.1

Recherche par mots-clef

Cette modalit´e est utilis´ee par les principaux moteurs de recherche sur le Web. Il s’agit d’utiliser un ou plusieurs termes pour retrouver les documents (textes, images, vid´eos, sons) qui sont les plus pertinents vis-`a-vis de cette requˆete. Les mots peuvent ˆetre g´en´eralement combin´es ` a l’aide d’op´erateurs logiques comme la conjonction, la dis11 jonction et la n´egation . Il est ´egalement possible de limiter la recherche `a certains domaines du Web. Pour les images, l’approche repose sur un ensemble d’annotations qui sont obtenues de deux fa¸cons (voir aussi 2.2.2) : 11

http ://images.google.fr/advanced image search

´ 2.3. RECHERCHE DANS LES BASES DE DONNEES TYPE INTERNET

39

– L’analyse de l’information textuelle associ´ee aux images : c’est la strat´egie employ´ee par les moteurs de recherche classiques (Google, Yahoo !, Picsearch). – L’association de mots-clef par les utilisateurs comme pour les r´epertoires d’images du Web2.0 (dont Flickr est l’application phare). Nous allons discuter s´epar´ement ces deux types d’applications par le biais de quelques exemples. 2.3.1.1

Moteurs de recherche d’images classiques

Il existe des fonctionnalit´es de recherche d’images dans tous les principaux moteurs de recherche actuels. Comme mentionn´e dans 2.2.2, la recherche repose sur les mots-clef qui sont associ´es automatiquement aux images en utilisant les informations textuelles avoisinantes. Dans la figure 2.7, nous pr´esentons le diagramme fonctionnel d’un moteur de recherche d’images : – Barre de recherche : la r´egion pr´esent´ee `a l’utilisateur pour taper sa requˆete textuelle. – Recherche avanc´ee : page dans laquelle l’utilisateur peut choisir de contraindre sa recherche selon plusieurs crit`eres suppl´ementaires (ex. mots-clef et leurs combinaisons logiques, taille, type du fichier image, attributs couleur. . .). – Pr´ef´erences : page dans laquelle il est possible de pr´eciser quelques contraintes g´en´erales li´ees ` a la recherche (ex. langage de l’interface, langue des sites inclus dans la recherche ou filtrage du contenu). – R´eponse : page pr´esentant ` a l’utilisateur les images trouv´ees par le syst`eme en r´eponse ` a sa requˆete. Les r´esultats sont pr´esent´es sous forme de vignettes pointant g´en´eralement vers les pages d’origine. – Page source de l’image : page sur laquelle l’image est pr´esent´ee dans son contexte original. L’interaction typique avec un moteur de recherche d’images est la suivante : l’utilisateur saisit une requˆete textuelle, le moteur r´epond en lui pr´esentant les images associ´ees. Le volume de r´eponses d´epend de la complexit´e de la requˆete mais il est rare, pour des requˆetes de moins de cinq termes, de n’obtenir aucune r´eponse. En fonction du nombre de r´eponses, les images sont r´eparties sur une ou plusieurs pages de r´esultats. L’utilisateur ` peut naviguer parmi les pages et choisir de voir une image dans son contexte original. A tout moment, une nouvelle requˆete peut ˆetre formul´ee via la barre de recherche. Certains moteurs (ex. : Ask, Picsearch, Yahoo !) proposent une reformulation automatique de la requˆete initiale sur la page de r´eponses pour guider et acc´el´erer la recherche. En g´en´eral, il s’agit de requˆetes portant sur une seule entit´e form´ee d’un ou plusieurs termes. Nous allons illustrer cette reformulation avec la requˆete « coco » (figure 2.8). Ask organise les reformulations en trois cat´egories : – Requˆetes plus sp´ecifiques : Coco’s World, Coco Beach Florida, Cocoa Beach. – Requˆetes plus g´en´eriques : Coca Cola, Buffie the Body. – Requˆetes sur des noms associ´es : Coco Chanel, Nicole Austin. Si on interroge Picsearch avec la mˆeme requˆete, le moteur propose ´egalement Coco Chanel et Coco Lee comme noms de personnes associ´es. Ici, la reformulation de la requˆete

40

CHAPITRE 2. ETAT DE L’ART

Fig. 2.7 – Diagramme fonctionnel d’un moteur de recherche d’images sur Internet. est plus simple que celle propos´ee par Ask, elle repose simplement sur l’ajout d’un terme au mot coco. Les propositions de recherches associ´ees au terme initial illustrent bien le fait que la requˆete est ambigu¨e. La relation entre les nouveaux termes et celui de base n’est pas toujours facile a` comprendre, il est en effet difficile de saisir la relation entre Buffie the Body (le surnom d’un mod`ele) ou Coca Cola et coco. De plus, pour Ask, l’appartenance des termes associ´es aux cat´egories des requˆetes proches n’est que partiellement correcte. Buffie the Body et Coca Cola sont consid´er´es comme des requˆetes plus g´en´erales. Se basant uniquement sur les informations textuelles avoisinantes, les principaux moteurs de recherche ont d’´evidents probl`emes de pr´ecision. Dans [139] la part d’images non-repr´esentatives pour un ensemble de 4000 images (en prenant 20 races de chien et 200 images par classe) d´epasse 30%. La pr´esentation des r´esultats se fait sous la forme d’une liste dans laquelle sont favoris´ees les images que le syst`eme a jug´e comme les plus pertinentes. Le nombre de fois que les ont ´et´e s´electionn´ees (cliqu´ees) est ´egalement pris en compte [103]. Mises ` a part les requˆetes proches pr´esent´ees par Ask, il n’y a aucune structuration des r´esultats et l’utilisateur ne peut pas affiner sa recherche en utilisant les r´eponses images. 2.3.1.2

Moteurs de recherche d’images bas´ es sur des annotations manuelles

Avec le d´eveloppement de ce que l’on a appel´e le Web 2.0, dans lequel les utilisateurs sont devenus aussi des fournisseurs de contenu, un certain nombre d’applications de partage de photographies est apparu et ces applications ont connu un rapide succ`es. Nous avons choisi de pr´esenter le site le plus repr´esentatif : Flickr. Le sch´ema de fonctionnement de Flickr est assez similaire ` a celui des moteurs de recherche d’images classiques `a ceci pr`es que Flickr offre une plus grande vari´et´e d’options d’interaction `a l’utilisateur. Ceci

´ 2.3. RECHERCHE DANS LES BASES DE DONNEES TYPE INTERNET

41

Fig. 2.8 – Page de r´eponses pour une requˆete avec coco dans Ask (Mai 2008).

est une cons´equence imm´ediate de l’existence d’un plus grand nombre de m´etadonn´ees associ´ees aux images comme : – – – –

l’identit´e de la personne qui a mis la photographie en ligne ; des descriptions sous forme de texte libre ou de mots-clef ; type d’appareil photographique utilis´e ; l’appartenance ` a un ensemble d’images (sous forme d’« albums » et de « classeurs ») ; – informations g´eographiques (g´eo tags) ; – le groupe d’appartenance des photographies.

Ces m´etadonn´ees sont exploit´ees lors de la phase de recherche d’images. L’exploration au sein de la base peut se faire ` a partir des mots-clef, de tout le texte, des groupes d’images auxquelles une image est attach´ee mais aussi de l’auteur de l’image. Nous illustrons les diff´erentes options de navigation de Flickr dans la figure 2.9.

42

CHAPITRE 2. ETAT DE L’ART

Fig. 2.9 – Page de r´eponses de Flickr pour une requˆete avec Golden Gate Bridge. Les diff´erentes options de navigation sont encadr´ees en rouge.

´ 2.3. RECHERCHE DANS LES BASES DE DONNEES TYPE INTERNET

2.3.2

43

Recherche par le contenu visuel

La recherche d’images bas´ee sur le contenu (CBIR) est fond´ee sur des descripteurs visuels (caract´erisant principalement la couleur, la texture et la forme). Une image ou une r´egion de l’image est d´ecrite ` a l’aide de certaines caract´eristiques (globales ou locales). L’objectif est de rechercher toutes les images qui poss`edent des ´el´ements similaires au sens d’une m´etrique donn´ee (par exemple la distance euclidienne). Habituellement, pour d’´evidentes questions de temps de traitement, l’indexation de la base d’images est un processus off-line. Dans la section 2.1.1, nous avons abord´e la diff´erence entre la description d’une image faite par une machine et celle r´ealis´ee par un utilisateur. La machine rend compte d’une description perceptuelle de l’image tandis que l’humain favorise une repr´esentation conceptuelle du contenu visuel. Cette diff´erence fondamentale est la principale raison de l’inadaptation des syst`emes CBIR classiques pour la recherche d’images dans des bases ` a large ´echelle et h´et´erog`enes [24], [127]. Ainsi, la limite principale des syst`emes CBIR classiques vient du fait qu’un utilisateur consid`ere deux images comme proches si ces deux images partagent une coh´erence conceptuelle et une coh´erence perceptuelle [24]. Aussi, beaucoup de solutions hybrides combinant le CBIR et la recherche textuelle ont ´et´e propos´ees pour r´eduire cette limitation [84]. 2.3.2.1

Les syst` emes CBIR classiques

Du point de vue de l’utilisateur, le fonctionnement d’un syst`eme CBIR est relativement simple : une image question est choisie et le syst`eme propose des ´el´ements qui sont visuellement proches de cette requˆete. La mod´elisation des images `a l’aide de descripteurs de bas niveaux couvre un spectre assez large de techniques. Nous en proposons quelques unes ci-dessous : – Smith et al. [128] d´ecrivent les images `a l’aide d’un simple histogramme de couleurs. – Cox et al. [24] proposent un mod`ele qui inclut 18 caract´eristiques bas´ees sur la couleur et la texture. – Quack et al. [110] introduisent un mod`ele bas´e sur quatre descripteurs : un pour la texture, un pour les contours et deux pour la couleur. – Hoerster et al. [53] adoptent une description plus complexe des images bas´ee sur des sacs de mots visuels qui sont extraits d’un dictionnaire (codebook) constitu´e au pr´ealable (voir 2.1.2.2). Nous illustrons le principe de fonctionnement d’un moteur CBIR dans la figure 2.10. Le syst`eme dans la figure 2.10 est assez complexe car il inclut des parties comme la segmentation des images ou le retour de pertinence qui ne sont pas pr´esents dans tous les moteurs CBIR. Le haut de la figure illustre l’indexation des images `a partir des caract´eristiques de bas niveau. La partie basse pr´esente le processus de recherche par le contenu, avec comme point de d´epart une image exemple qui est segment´ee, index´ee et compar´ee aux images de la base d’images. De nombreuses exp´eriences montrent qu’une recherche d’images bas´ee uniquement sur une proximit´e perceptuelle produit des r´esultats peu pertinents d`es lors qu’on s’int´eresse `a des bases diversifi´ees et de grandes tailles, comme le corpus d’Internet. L’obser-

44

CHAPITRE 2. ETAT DE L’ART

Fig. 2.10 – Sch´ema de fonctionnement d’un syst`eme de recherche d’images par le contenu (cf. [38]). vation qui conclut l’article de Cox et al. [24] concernant la primaut´e de la coh´erence conceptuelle sur la coh´erence perceptuelle est judicieuse et doit servir de base `a la construction de syst`emes de recherche d’images qui proposent une modalit´e de recherche par le contenu. 2.3.2.2

Les syst` emes CBIR hybrides

Le succ`es limit´e de la recherche d’images par le contenu a fortement pouss´e la communaut´e scientifique ` a se tourner vers des m´ethodes hybrides combinant des descriptions bas-niveau, comme celles cit´ees dans 2.3.2.1 et des mod`eles plus conceptuels. Un bon ´etat de l’art est propos´e dans [84] qui regroupe les diff´erentes approches dans cinq cat´egories : 1. Utilisation d’une ontologie visuelle pour d´efinir des concepts de haut niveau. Le travail d´ej` a cit´e de [88] illustre bien cette approche. Chaque objet est d´ecrit par une ontologie ` a deux niveaux facilitant le passage de descripteurs de bas niveau vers la racine de l’ontologie compos´ee du nom de l’objet. 2. Introduction de techniques d’apprentissage pour relier les descripteurs de bas niveau au contenu s´emantique des images. 3. Architectures bas´ees sur l’active learning. Cette technique [42], [33], [78], [146] implique une intervention humaine pour affiner les r´esultats de la recherche. Habituellement, consid´erant une image question, l’utilisateur s´electionne des r´eponses

´ 2.3. RECHERCHE DANS LES BASES DE DONNEES TYPE INTERNET

45

` partir de ce choix, le syst`eme propose de nouvelles images qu’il juge pertinentes. A r´eponses. Ce processus peut se r´ep´eter plusieurs fois, une am´elioration sensible des r´esultats ´etant constat´ee apr`es quelques it´erations [78]. 4. G´en´eration de patrons s´emantiques pour guider la recherche d’images. L’approche utilise WordNet pour ´etendre des requˆetes textuelles et retourner des r´esultats enrichis [150]. 5. Utilisation du texte associ´e aux images et de leur contenu visuel. Une version de cette technique est impl´ement´ee dans notre travail et nous la pr´esentons plus en d´etail. Il y a deux types de bases photographiques utilis´ees : – celles ayant une description textuelle pr´ealable [17], [33], [142], [146], [151]. – celles o` u la description est produite par annotation automatique des r´egions de l’image [78] Une autre s´eparation importante est consid´er´ee selon le degr´e de structuration des donn´ees textuelles : – Le texte, sous forme de mots-clef, appartient `a des ressources s´emantiques pr´eexistantes. Par exemple, WordNet est utilis´e dans des applications de recherche d’images par le contenu pour calculer des distances entre diff´erents concepts dans la hi´erarchie [33], [146] ou pour proposer une navigation conceptuelle [68], [97], [80], [146]. – Des structures s´emantiques ad-hoc sont constitu´ees. Les auteurs de [17], [151] proposent la cr´eation d’un r´eseau de liaisons s´emantiques entre les images. Des algorithmes de fouille de donn´ees sont mis en place pour extraire, `a partir de pages Web, l’information pertinente pour les images contenues et pour structurer un graphe de parent´e entre les images. Beaucoup de travaux se situent dans plus d’une cat´egorie. Par exemple [146], [97], [33] tirent partie de l’active learning et d’une utilisation conjointe du contenu des images et du texte associ´e. Dans [78], ` a part l’active learning, des techniques d’apprentissage sont introduites dans l’architecture afin d’annoter les images. 2.3.2.3

Classification non supervis´ ee d’images

R´ecemment des ´evaluations de syst`emes de recherche d’information [2] ont montr´e que les utilisateurs pr´ef`erent une bonne couverture du champ conceptuel de la requˆete `a une tr`es bonne pr´ecision des r´esultats focalis´es sur un seul aspect de la requˆete. Le clustering d’images tente de s´eparer diff´erentes classes visuelles associ´ees `a une requˆete et ainsi de proposer ` a l’utilisateur une vision synth´etique et repr´esentative de l’ensemble des r´eponses. Il existe un nombre tr`es important de travaux s’int´eressant au clustering d’images, nous pouvons n´eanmoins extraire trois grandes cat´egories en fonction du type d’information utilis´e : – Approches exploitant uniquement le texte associ´e aux images. – Approches utilisant uniquement le contenu des images. – Approches hybrides.

46

CHAPITRE 2. ETAT DE L’ART

iGroup [141] est un bon exemple de la premi`ere approche. Le syst`eme exploite le moteur de recherche Microsoft Live. Les clusters sont cr´e´es `a partir du nombre de termes partag´es par les images. La technique est assez intuitive et permet de s´eparer plusieurs repr´esentations d’une requˆete, ce qui est tr`es utile pour les termes polys´emiques. Le probl`eme principal vient du temps de calcul puisque le processus n´ecessite plusieurs minutes. Le clustering bas´e uniquement sur le contenu est propos´e dans [152] ou, plus r´ecemment, dans [66] et [65]. Th´eoriquement, cette approche n’est pas conditionn´ee par l’existence d’un texte associ´e aux images. Toutefois, dans le cadre de la recherche dans des grands corpus [65], la technique est appliqu´ee `a la suite d’une requˆete textuelle permettant de restreindre efficacement l’espace de recherche. Cette approche n´ecessite d’abord une phase d’extraction des caract´eristiques de bas niveau suivie par la classification proprement dite. Les temps de calcul sont ici aussi relativement importants et une extraction off-line des caract´eristiques est souvent privil´egi´ee pour acc´el´erer le processus. Une autre solution revient ` a pr´e-classifier l’ensemble du corpus mais cette solution apparaˆıt irr´ealiste pour un corpus comme Internet [65]. De plus, il faudrait reproduire r´eguli`erement le processus pour suivre au mieux l’´evolution du corpus d’images. Enfin, notons que les travaux cit´es utilisent le plus souvent des descripteurs globaux, ceux-ci ´etant moins complexes ` a calculer que les approches locales, comme les sacs de mots visuels bas´es sur des points d’int´erˆets.

Fig. 2.11 – Clustering multimodal d’images g´eo-r´ef´erenc´ees (cf. [74]). Derni`erement, des travaux comme [49] et [74] explorent un clustering multimodal des images d’Internet, dans le cas des bases comme Flickr pour [49], respectivement des images g´eo-r´ef´erenc´ees pour [74]. [49] propose d’utiliser conjointement des clusters issus des informations textuelles (mots cl´es) et issus d’un clustering par le contenu (`a partir d’une approche par sacs de mots visuels). [74] analyse le cas des images g´eo-localis´ees et utilise le contenu des images, les mots-clef, la position spatiale des images et l’information temporelle. Le processus de clustering d´ecrit par les auteurs de [74] est illustr´e par la figure 2.11. Le clustering d’images permet d’extraire des images canoniques d´ecrivant diff´erentes repr´esentations de la requˆete et permettant `a l’utilisateur de choisir ensuite les ensembles d’images qui l’int´eressent le plus. [152] observe que, dans le cas d’images du Web, le clustering visuel s’applique aussi bien aux images repr´esentatives qu’au bruit, aussi estil n´ecessaire d’ordonner les clusters par pertinence. [65] utilise certaines caract´eristiques

´ 2.4. ETUDES UTILISATEURS

47

des clusters (leur densit´e ou leur connectivit´e) pour les trier et [74] propose d’ordonner les clusters en fonction de leurs informations spatiales et temporelles. 2.3.2.4

Consid´ erations sur les syst` emes de recherche par le contenu

Une s´eparation importante peut ˆetre faite entre les techniques analysant globalement les images (approches holistiques) et celles se focalisant sur des parties de l’image. Dans le premier cas, comme dans [24], [128], [110], les descripteurs de bas niveau sont majoritairement des histogrammes calcul´es sur toute l’image. [110] montre que ces descripteurs supportent mieux le passage `a l’´echelle (le plus grand volume d’images trait´e par un syst`eme CBIR ´etant — ` a notre connaissance — de onze millions d’images avec le syst`eme Cortina12 ) mais n’offrent pas de performances suffisamment int´eressantes pour des grandes bases d’images. Les approches locales [97], [78] donnent g´en´eralement des r´esultats plus pertinents mais restent probl´ematiques pour un passage `a l’´echelle n´ecessitant une plus grande complexit´e de calcul. Beaucoup de travaux s’int´eressent ` a l’active learning [42] comme une approche alternative pour am´eliorer la pr´ecision. Si cette approche a un int´erˆet certain pour des bases et des utilisateurs sp´ecialis´es (par exemple le corpus d’un mus´ee comme Le Louvre) l’intervention de l’utilisateur au cœur d’un processus it´eratif est difficilement envisageable pour un syst`eme grand public. L’obstacle le plus important quant `a l’utilisation d’une modalit´e de recherche par le contenu reste l’incoh´erence conceptuelle entre la requˆete et les r´esultats. Comme nous l’avons mentionn´e, une solution possible est de restreinte conceptuellement l’espace de recherche avant d’appliquer une recherche par le contenu. Les images r´eponses seront ainsi visuellement proches et d´ej` a conceptuellement similaires.

2.4

´ Etudes utilisateurs pour les applications de recherche d’images

Ici, nous pr´esentons les interactions entre les utilisateurs et les syst`emes en s’int´eressant plus particuli`erement : – aux pratiques des utilisateurs et leurs interactions avec les syst`emes de recherche d’information ; – l’exploitation des fichiers de log produits par les moteurs de recherche. L’analyse des pratiques des utilisateurs permet de comprendre leurs motivations et de souligner leur comportement face ` a un syst`eme de recherche. Cette analyse n´ecessite la cr´eation d’un protocole exp´erimentale g´en´eralement difficile `a mettre en place, en particulier parce qu’il implique la constitution d’un panel d’utilisateurs repr´esentatifs [45]. De plus, les r´esultats sont difficilement g´en´eralisables, aussi bien en termes de population ´evalu´ee et de la repr´esentativit´e des requˆetes propos´ees. [58] souligne que les fichiers de log sont difficiles `a obtenir puisqu’ils ne sont pas rendus publiques par les moteurs de recherche comme Google ou Yahoo !. L’avantage 12

http ://vision.ece.ucsb.edu/multimedia/cortina.shtml

48

CHAPITRE 2. ETAT DE L’ART

des fichiers de log est qu’ils contiennent un grand volume de donn´ees venant d’une population repr´esentative. Leur principale limitation vient du fait qu’il n’est pas possible de connaˆıtre quels ´etaient les objectifs des utilisateurs ni mˆeme leurs jugements par rapport aux r´eponses propos´ees [45]. Aussi, une ´etude directe avec un panel d’utilisateurs et l’analyse d’un fichier de log sont deux approches consid´er´ees comme fortement compl´ementaires.

2.4.1

Etudes de l’interaction entre les utilisateurs et les syst` emes de recherche d’information

La forme g´en´erale de ces ´etudes est la suivante [81], [113], [83] : l’utilisateur est mis en situation d’interagir avec le syst`eme et il lui est demand´e d’´evaluer diff´erents param`etres. Le protocole exp´erimental est important pour la pertinence des r´esultats puisque l’utilisateur doit avoir l’impression de r´ealiser ce test comme s’il ´etait dans une situation normale de recherche. Les r´esultats sont obtenus en analysant directement l’interaction entre l’utilisateur et le syst`eme et par l’interm´ediaire de questionnaires. L’analyse directe [45] ´evalue le comportement de l’utilisateur pendant la tˆache. Les questionnaires, qui peuvent aussi comporter des zones d’expression libre, s’int´eressent le plus souvent ` a: – La structure des r´esultats : dans [113], une pr´esentation des r´esultats d’une requˆete suivant des crit`eres de similarit´e visuelle est compar´ee `a une organisation conceptuelle et ` a une pr´esentation non-structur´ee. La structure conceptuelle et l’organisation visuelle des r´esultats sont compar´ees par dix-huit utilisateurs auxquels on demande de choisir des images pour trois requˆetes. L’organisation conceptuelle est pr´ef´er´ee par huit testeurs, sept trouvent que les deux m´ethodes sont ´equivalentes et trois que la coh´erence visuelle est pr´ef´erable. La structuration des r´esultats sur des crit`eres visuels et la pr´esentation sous forme de listes simples sont compar´ees avec un panel de dix utilisateurs. Six d’entre eux favorisent l’organisation visuelle, trois trouvent les deux ´equivalentes et un seul utilisateur pr´ef`ere la pr´esentation non-structur´ee. [81] compare une organisation issue d’un raffinement des requˆetes utilisant des fichiers de log `a une pr´esentation non-structur´ee. Sur un panel de 23 utilisateurs, la majorit´e trouve la pr´esentation structur´ee pr´ef´erable. [83] compare trois m´ethodes de pr´esentation des r´esultats : liste simple, organisation utilisant un regroupement sur des crit`eres visuels et leur m´ethode bas´ee sur une mod´elisation de l’attention visuelle. Sur dix utilisateurs, sept pr´ef`erent cette m´ethode, deux la pr´esentation utilisant un regroupement visuel et un seul pour la liste simple. – L’interactivit´e est ´etudi´ee dans [122] o` u des menus bas´es sur une organisation hi´erarchique des concepts sont propos´es `a l’utilisateur pour guider sa recherche. Les menus conceptuels sont compar´es avec une pr´esentation des images sous forme de liste. Les r´esultats indiquent une pr´ef´erence des utilisateurs pour l’interface utilisant les menus par rapport `a une pr´esentation classique des images sous forme de liste. Le comportement des utilisateurs indique ´egalement que la recherche dans une hi´erarchie conceptuelle est plus facile que la reformulation libre des requˆetes. – Des questions relatives aux usages associ´es aux moteurs de recherche d’images sont

´ 2.4. ETUDES UTILISATEURS

49

inclues dans [81] et [83]. Les utilisateurs citent le divertissement comme th`eme g´en´eral et la cr´eation de pages Web ou la r´edaction de rapports comme usages li´es `a une population particuli`ere (panel d’´etudiants en informatique). On retrouve une analyse plus d´etaill´ee dans [94] qui, en plus des deux usages pr´ec´edemment cit´es, ajoute la recherche encyclop´edique, destin´ee `a augmenter la connaissance de l’utilisateur en illustrant, par des images, un sujet donn´e.

2.4.2

Exploitation des fichiers de log

L’utilisation des fichiers de log produits par les moteurs de recherche est une approche fortement compl´ementaire des ´etudes utilisateurs [62]. Les requˆetes pour des documents textuels, des images, des vid´eos ou fichiers audio sont analys´ees dans [63] ou [106]. Des ´etudes d´edi´ees ` a la recherche d’images sont d´ecrites dans [41] ou [64]. Les ´etudes concernant la recherche d’images suivent, au moins en partie, la mˆeme m´ethodologie. Nous avons insist´e dans la section 2.2 sur le dynamisme d’Internet, il est ainsi devenu particuli`erement int´eressant de voir comment les requˆetes ´evoluent dans le temps. Les principales informations qui sont extraites `a partir des fichiers de log sont : – la longueur moyenne des requˆetes ; – la longueur moyenne des sessions utilisateur ; – le nombre de requˆetes analys´ees ; – le nombre d’utilisateurs uniques ; – le pourcentage des requˆetes images ; – les domaines d’appartenance des termes fr´equents. La longueur moyenne des requˆetes images est de 3,74 mots dans [41] et de 3,46 mots dans [62]. Il est ` a noter que, dans ces ´etudes men´ees en 2000 les moteurs ne proposaient pas encore une fonctionnalit´e d´edi´ee `a la recherche d’images. La s´eparation entre les requˆetes textuelles et les requˆetes images est faite en utilisant une liste de mots-clef sp´ecifiques pour les requˆetes images (ex. : photo, jpg, image etc.). La longueur des requˆetes images est plus grande en moyenne que celle des recherches de documents textuels (3,74 contre 2,35 dans [41]). Les r´esultats de [41] montrent que les utilisateurs formulent, en moyenne, quatre `a cinq requˆetes pendant une session de recherche. Cependant, la longueur moyenne d’une session est plus difficile ` a interpr´eter car une session longue peut aussi bien signifier que l’utilisateur a pos´e plusieurs requˆetes diff´erentes (ind´ependantes) ou qu’il a utilis´e plusieurs tentatives pour arriver ` a un r´esultat pertinent. La part de la recherche d’images dans le nombre total des requˆetes ne d´epasse pas 5% dans [41] ou [62]. Avec la proposition d’applications s´epar´ees d´edi´ees `a la recherche d’images, la part de ce type de recherche atteint environ 10% du nombre total de requˆetes [34]. [41] et [62] d´ecrivent les principaux domaines d’appartenance des requˆetes : les identifiants d’images, les termes relatifs ` a du contenu pornographique, le divertissement, les noms de personnes et termes associ´es `a l’art. Il faut toutefois noter que les domaines sont extraits uniquement ` a partir des requˆetes les plus fr´equentes, d´efavorisant ainsi les domaines incluant une grande diversit´e de termes.

50

CHAPITRE 2. ETAT DE L’ART

Le « divertissement » repr´esente une part importante des usages, mais il faut n´eanmoins citer des usages plus professionnels. [41] identifie un panel d’usages potentiels pour les moteurs de recherche d’images en listant des cat´egories professionnelles qui ont un usage important des moteurs images : les journalistes, les historiens, les professeurs, les artistes, les agences publicitaires. Ces r´esultats sont `a corroborer avec les constats de [81], [83] et [94] qui indiquent les mˆemes types d’usage dans des ´etudes impliquant directement les utilisateurs. Plus r´ecemment, [61] utilise les fichiers de log pour entraˆıner un classifieur automatiques de requˆetes. Jansen et al. reprennent les cat´egories g´en´erales des requˆetes Web d´efinies dans [14] : informationnelle, transactionnelle et de navigation. L’int´erˆet de ce travail tient ` a une meilleure adaptation des r´eponses compte tenu de l’intention de l’utilisateur mais les r´esultats pr´esent´es (75% de classifications correctes) sont pour l’instant encore insuffisantes pour esp´erer une utilisation dans une application grand public `a large ´echelle. En r´ealit´e, il serait certainement plus int´eressant de classifier automatiquement les requˆetes dans des cat´egories plus sp´ecifiques que dans les classes g´en´erales pr´esent´ees dans [61]. Notons enfin que les auteurs de l’´etude montrent que la plupart des erreurs de classification correspondent aux requˆetes courtes qui sont souvent ambigu¨es.

2.4.3

´ Etudes utilisateurs pour la recherche d’information sur Internet

[14] propose une classification des requˆetes selon trois cat´egories : – De navigation : la requˆete vise `a atteindre un site web (comme par exemple taper « l’´equipe » sur Google pour acc´eder au site du quotidien sportif). – Informationnelles : la requˆete vise `a obtenir diverses informations relatives `a cette requˆete. – Transactionnelle : la requˆete vise `a effectuer une activit´e `a l’aide du Web, par exemple acheter une voiture. La tr`es grande majorit´e des requˆetes images s’inscrit dans la deuxi`eme cat´egorie : les requˆetes informationnelles. Une diff´erenciation peut aussi se faire entre les requˆetes sp´ecifiques (recherche d’un document sp´ecifique) et les requˆetes cat´egorielles (la cible est une collection de documents) qui repr´esentent environ 15% du total des requˆetes [14]. Les buts des utilisateurs dans la recherche d’information sur Internet sont analys´es dans [115] qui pr´esente une classification similaire `a celle de [14] ainsi que des statistiques montrant que les requˆetes informationnelles sont majoritaires. Les recherches informationnelles sont de deux types : celles cens´ees r´epondre `a une question pr´ecise (directionnelles) et les requˆetes non-directionnelles. Les premi`eres peuvent ˆetre soit sp´ecifiques soit cat´egorielles tandis que les secondes sont toutes cat´egorielles. En recherche d’images les requˆetes sp´ecifiques et cat´egorielles sont traduites par la recherche d’une image sp´ecifiques et l’illustration d’un concept. Une tentative int´eressante de regrouper les requˆetes est d´ecrite dans [99]. Les auteurs proposent une caract´erisation des requˆetes en utilisant quatre propri´et´es : – l’ambigu¨ıt´e ; – l’auteur de la requˆete ; – le moment du lancement ;

´ 2.4. ETUDES UTILISATEURS

51

– la localisation de la requˆete. La d´etection de ces caract´eristiques devrait permettre une compr´ehension automatique des motivations des utilisateurs et une adaptation des r´eponses. Le probl`eme principal soulev´e par cette approche est justement la d´etection automatique de ces caract´eristiques. La majorit´e des syst`emes de recherche d’information est ´evalu´ee par des mesures quantitatives (pr´ecision, rappel. . .) mais, comme le montre [136] pour les syst`emes de recherche textuelle, l’am´elioration des r´esultats selon ces mesures n’est pas toujours accompagn´ee d’une am´elioration sensible du point de vue des utilisateurs. La conclusion de [136] peut ˆetre appliqu´ee aux syst`emes de recherche d’images et souligne l’importance d’une ´evaluation qui comprend aussi bien des mesures quantitatives que qualitatives. L’´evaluation de notre travail (chapitre 5) essaie de tenir compte de cette observation.

2.4.4

Consid´ erations relatives aux ´ etudes utilisateurs

Nous avons soulign´e la compl´ementarit´e entre les ´etudes bas´ees sur une ´evaluation directe d’un panel d’utilisateurs et celles bas´ees sur l’analyse de fichiers de log. Il est possible de proposer des m´ethodologies exploitant conjointement les avantages de ces deux approches. Les principales critiques apport´ees aux ´etudes utilisateurs concernent naturellement le coˆ ut humain, le nombre souvent r´eduit d’´evaluateurs dans le panel et la faible repr´esentativit´e de cet ´echantillon. Malgr´e ces difficult´es ou critiques justifi´ees, leur mise en place est essentielle pour une ´evaluation fiable des syst`emes et pour les faire ´evoluer de fa¸con ` a mieux tenir compte des pr´ef´erences (et des attentes) des utilisateurs. Les fichiers de log sont des sources d’informations riches mais aujourd’hui leur exploitation reste majoritairement statistique. Une ´etude selon une approche plus conceptuelle paraˆıt indispensable si l’on souhaite faire une liaison entre les requˆetes brutes et les usages des utilisateurs. Aujourd’hui, l’analyse de ces fichiers est faite au niveau des chaˆınes de caract`eres, s´eparant chaque terme, sans chercher `a consid´erer une expression compos´ee par plusieurs termes comme une seule et unique entit´e (requˆete). Par exemple, la requˆete berger allemand sera s´epar´ee en berger et allemand, de mˆeme pour les entit´es nomm´ees compos´es de plusieurs termes (ex : Port au Prince, Tour Eiffel, Fran¸cois Mitterand ). Dans ces cas (nombreux), les r´esultats sont bruit´es car, au lieu de traiter les requˆetes de fa¸con unitaire, on analyse chaque composante s´epar´ement. Une solution pour mieux traiter ces requˆetes serait d’introduire dans l’architecture d’analyse des dictionnaires et des listes d’entit´es nomm´ees. L’objectif principal des ´etudes utilisateurs en recherche d’images est la d´etermination des usages. Dans les approches actuelles, l’identification des usages reste tr`es partielle et les r´esultats ne sont pas pleinement exploitables [99]. [69] souligne que la cr´eation de services Web adapt´es aux utilisateurs passe par l’identification de communaut´es de pratiques dont les membres ont des besoins similaires quand ils interagissent avec les applications de recherche d’images.

52

2.5

CHAPITRE 2. ETAT DE L’ART

Construction et utilisation de structures s´ emantiques pour la recherche d’images

Dans cette th`ese, nous employons alternativement ressources s´emantiques, structures s´emantiques et structures linguistiques, ces termes englobant aussi bien les th´esauri, ontologies formelles, dictionnaires ou r´eseaux s´emantiques. Comme le montre des projets tels que Cyc [47], ConceptNet [82] ou WordNet [90] la construction de structures s´emantiques `a large ´echelle est une tˆache demandant un effort cons´equent mais le nombre important de travaux bas´es sur ces ressources t´emoigne de leur grande utilit´e. Cyc et WordNet sont d´evelopp´es manuellement par des sp´ecialistes des ontologies formelles et de la lexicographie. Le projet WordNet a rencontr´e plusieurs critiques mais la connaissance contenue dans cette ressource est globalement de bonne qualit´e. ConceptNet a ´et´e cr´e´e par une communaut´e d’utilisateurs qui instancie des relations conceptuelles du sens commun propos´ees par un syst`eme. Une approche alternative `a la construction de ressources s´emantiques est l’utilisation de corpus de documents pour en extraire (semi)automatiquement des connaissances [43], [117], [19], [93], [120]. L’effort impliqu´e par le processus de cr´eation est plus faible mais les ressources sont de moins bonne qualit´e. La plupart des ressources sont limit´ees `a un domaine donn´e [93], [120] mais Grefenstette [44] propose une approche plus g´en´eraliste reposant sur l’utilisation d’une tr`es grande quantit´e de textes disponibles sur Internet pour obtenir une carte s´emantique qui relie les diff´erents termes d’une langue. Un cas particulier de constitution automatique de ressources s´emantiques est l’utilisation de connaissances semi-structur´ees, comme celles de Wikip´edia, qui sont ensuite organis´ees pour enrichir des structures existantes [116]. La principale critique `a ce type d’approche est que la qualit´e des r´esultats obtenus est fortement conditionn´ee par les connaissances de d´epart. Une partie des ressources s´emantiques existantes se prˆetent `a ˆetre utilis´ees dans des applications de recherche d’images. Il a ´et´e soulign´e dans la section 2.3 qu’il existe deux modalit´es principales d’acc`es aux images : par mots-clef et par contenu visuel. Dans les deux cas, l’utilisation de ressources s´emantiques peut am´eliorer le processus de recherche. Si on utilise des mots-clef, une structure linguistique peut am´eliorer l’interactivit´e (par la proposition de requˆetes proches) [68], [122], permettre la reformulation et la d´esambigu¨ısation automatique des requˆetes ([81]) ou structurer les r´esultats en fonction de l’organisation des concepts dans la structure s´emantique [56], [81], [122].

2.5.1

Construction de ressources s´ emantiques

Les structures s´emantiques peuvent ˆetre class´ees en fonction de leur couverture (sp´ecifiques ` a des domaines donn´ees ou g´en´eralistes). Nous pr´esentons ici plusieurs exemples et accordons une description plus importante aux ressources g´en´eralistes qui sont plus pertinentes pour la recherche d’images sur Internet. Buitelaar et al. [15] affirment que la construction des ontologies n’est pas int´egralement automatisable car la sp´ecification des concepts et des relations dans un domaine rel`eve de l’accord entre les

´ 2.5. STRUCTURES SEMANTIQUES POUR LA RECHERCHE D’IMAGES

53

membres d’une communaut´e de pratiques et demande des connaissances implicites qu’il serait impossible d’extraire automatiquement `a partir d’un corpus. Ils identifient ensuite quelques grands probl`emes associ´es aux m´ethodologies de construction d’ontologies : – Quelles sont les informations pr´esentes dans un texte qui doivent ˆetre prise en compte lors de la mod´elisation d’une ontologie ? – Comment assister le processus de cr´eation d’un consensus sur la description d’un domaine ` a l’aide d’informations extraites de textes ? – Quel doit ˆetre le rˆ ole de la construction d’ontologies dirig´ee par les donn´ees dans le processus plus g´en´eral d’ing´enierie ontologique ? – Quelles sont les m´ethodologies d’int´egration de la construction d’ontologies dans des plateformes plus g´en´eriques d´edi´ees aux ontologies ? – Comment assister au mieux les cr´eateurs d’ontologies du point de vue des interfaces de visualisation des connaissances ? Dans la pr´eface de l’ouvrage [15], les auteurs identifient les quatre communaut´es scientifiques qui peuvent apporter une contribution importante `a la construction des ontologies et analysent leurs relations : – La communaut´e du traitement automatique de la langue (TAL). Le TAL permet d’extraire des termes et leurs relations s´emantiques. [135] et [117] proposent des m´ethodes d’extraction automatique de synonymes ; [50] rep`ere des relations d’hyp´eronymie entre les termes d’un texte tandis que [9] extrait des relations de m´eronymie. Des diff´erences importantes existent entre la vision de la construction des ontologies type « TAL » et celle de la communaut´e « repr´esentation de connaissances », comme le mapping entre les termes extraits en utilisant le TAL et les concepts, car ce passage n’est pas imm´ediat. De plus, dans une vision « repr´esentation de connaissances » [143], une diff´erence est faite entre les rˆoles et les types : les premiers repr´esentent des attributs temporaires d’un terme (Nicolas Sarkozy est le pr´esident de la France), alors que les derniers sont des propri´et´es permanentes (Nicolas Sarkozy est un homme). – La communaut´e de l’apprentissage (machine learning) intervient dans la plupart des m´ethodes de construction automatique d’ontologies. Les mod`eles supervis´es sont pr´edictifs (ils servent par exemple `a classer de nouveaux exemples) tandis que les mod`eles d’apprentissage non-supervis´e sont exploit´es afin de d´ecouvrir des r´egularit´es dans les donn´ees trait´ees (d´ecouvrir des r`egles d’association dans les textes par exemple). Cimiano et al. [20] exploitent des techniques de classification pour la construction automatique de hi´erarchies de termes. Dans [86], les auteurs appliquent des r`egles d’association pour d´ecouvrir des relations inter-conceptuelles. – La communaut´e de la repr´esentation des connaissances s’est focalis´ee sur le d´eveloppement de m´ethodes de raisonnement et d’inf´erences efficaces. Haarslev et M¨oller [138] d´ecrivent RACER, un moteur d’inf´erence exploitant des ontologies ` quelques exceptions pr`es, cette communaut´e a n´eglig´e d´ecrites en langage OWL. A des aspects importants associ´es aux ontologies : l’int´egration des m´ethodes du TAL dans la construction des ontologies ; la concordance entre la repr´esentation des concepts et leurs relations dans les ontologies formelles et la mani`ere d’exprimer

54

CHAPITRE 2. ETAT DE L’ART les connaissances propre au langage naturel. De plus, les techniques d’apprentissage sont insuffisamment prises en compte dans des travaux de la communaut´e acquisition de connaissances. – La communaut´e des interfaces H/M. Des interfaces utilisateurs plus performantes sont n´ecessaires afin de visualiser les connaissances incluses dans les ontologies. Ces interfaces sont d’autant plus utiles que le processus de construction d’ontologies est g´en´eralement interactif. SemIntel [27] est un syst`eme d´edi´e `a la v´erification interactive du contenu de structures linguistiques, permettant l’identification rapide des concepts probl´ematiques. Des logiciels comme Prot´eg´e13 sont tr`es utiles pour l’´edition des ontologies mais un nombre important d’am´eliorations sont `a apporter a ces syst`emes. Pour citer un exemple, il serait int´eressant de disposer d’outils ` de cr´eation d’ontologies collaboratifs permettant une ´evolution ais´ee des connaissances dans une ontologie. Ces th`emes de recherche sont notamment abord´es dans le cadre du projet europ´een NeOn [109].

2.5.2

Constitution de ressources s´ emantiques sp´ ecifiques ` a un domaine

Les structures s´emantiques sp´ecifiques `a un domaine sont souvent constitu´ees manuellement bien que de nombreuses techniques de constructions automatiques `a partir de corpus sp´ecifiques aient ´et´e propos´ees dans la litt´erature. Le recours `a un processus manuel s’explique par l’impr´ecision des techniques automatiques. Toutefois, beaucoup de travaux int´eressants sont r´eguli`erement propos´es et s’int´eressent `a l’exploitation des sources de donn´ees semi-structur´ees, comme Wikip´edia, qui permettent l’obtention des descriptions de domaines assez d´etaill´ees. 2.5.2.1

Le domaine g´ eographique

Le domaine g´eographique est un domaine pour lequel il existe une grande quantit´e d’informations structur´ees sous forme de th´esauri (en anglais : gazetteers). La structure minimale d’un th´esaurus g´eographique est d´efinie dans [52] et est compos´ee de trois ´el´ements : – le nom de l’entit´e ; – ses coordonn´ees g´eographiques ; – sa classe parent. Nous pr´esentons deux initiatives de recherche visant la constitution de bases de donn´ees g´eographiques : Alexandria Gazetteer et Geonames. Alexandria Gazetteer [52] contient environ six millions d’entr´ees provenant de deux services gouvernementaux am´ericains : Geographic Names Information System (GNIS) et Geographic Names Processing System (GNPS). La base de donn´ees est structur´ee hi´erarchiquement, les cat´egories les plus g´en´erales incluant : r´egions administratives, hydrographie, relief terrestre, artefacts. Ces cat´egories se divisent en des cat´egories plus sp´ecifiques comme pays, lac, ˆıle ou ´eglise. Le niveau le plus sp´ecifique de la hi´erarchie 13

http ://protege.stanford.edu/

´ 2.5. STRUCTURES SEMANTIQUES POUR LA RECHERCHE D’IMAGES

55

Fig. 2.12 – Illustration du contenu d’Alexandria (cf. [52]). d’Alexandria contient des noms de lieux comme : France,Lake Louise, Barbuda ou Saint Patrick’s Church. Nous illustrons le contenu d’Alexandria dans la figure 2.12. Pour Barbuda (figure 2.12), Alexandria contient le nom de l’entit´e (Barbuda), une version du nom (Variant Name), le type (islands), des informations d’inclusion (isPartOf ) et de localisation spatiale (Longitude, Latitude). Geonames14 est une autre base de donn´ees g´eographiques, construite de mani`ere assez similaire `a Alexandria mais plus riche car elle inclut, `a part des sources comme GNIS ou GNPS, des ´el´ements g´eo-r´ef´erenc´es extraits `a partir de Wikip´edia. Il faut toutefois noter que pour les entr´ees provenant de Wikip´edia, il n’existe pas d’information concernant la cat´egorie parent (type) des entit´es. Aussi, dans ces cas, la d´efinition minimale [52] d’un « gazetteer » n’est pas respect´ee. Dans Hill et al. [52] (1999) nous retrouvons aussi quelques probl`emes toujours d’actualit´es concernant la mod´elisation du domaine g´eographique. Parmi les plus int´eressants, nous citons : – La mise en place d’une hi´erarchie des cat´egories g´eographiques d´etaill´ee et extensible afin de mieux rendre compte de la structure et des particularit´es du domaine. – L’inclusion d’une dimension temporelle dans les bases de donn´ees g´eographiques. Cette information s’av`ere int´eressante puisque — par exemple — le nom ou la surface d’une entit´e peuvent changer dans le temps. – La description de l’´etendue des r´egions bien d´elimit´ees. Les gazetteers existants ne contiennent pas ou peu d’informations sur la surface et sont limit´ees `a un rectangle englobant toute la r´egion. L’utilisation de formes rectangulaires est impr´ecise puis14

http ://geonames.org

56

CHAPITRE 2. ETAT DE L’ART

qu’elles incluent souvent des parties significatives d’autres r´egions. – La description de l’´etendue de r´egions aux fronti`eres non d´elimit´ees. Nous pouvons donner l’exemple du Sud de la France : quelles sont les limites spatiales de cette r´egion ? Ce probl`eme est particuli`erement complexe car il n’existe pas de r`egles, comme dans le cas des r´egions bien d´elimit´ees, pour ´etablir les limites les plus ad´equates ` a ce type de r´egion. Wang et Ge [140] soulignent le besoin d’extraire (semi)automatiquement des donn´ees g´eographiques afin d’enrichir les th´esauri existants. Une tentative int´eressante de construire une base de donn´ees g´eographiques est d´ecrite dans [111]. Les auteurs retiennent un en` partir semble d’images g´eo-r´ef´erenc´ees de Flickr et les tags associ´es `a ces images. A d’approches statistiques, ils extraient des noms de lieux, des coordonn´ees et une valeur de pertinence. La structure r´esultante ne contient pas d’informations sur le type pour chaque entit´e mais inclut une valeur de pertinence qui permet d’ordonner efficacement les entit´es. Cet ordonnancement s’av`ere tr`es important lors de l’utilisation des bases de donn´ees g´eographiques en recherche d’information car il permet de proposer en priorit´e les entit´es les plus « saillantes ». Les auteurs rapportent une pr´ecision avoisinant 80% quand ils retiennent la moiti´e des noms g´eographiques candidats. La majorit´e des travaux montre que la construction automatique des bases de donn´ees g´eographiques donne des r´esultats tr`es prometteurs et m´erite d’ˆetre explor´ee plus en d´etail. 2.5.2.2

Autres domaines conceptuels

Le domaine m´edical a b´en´efici´e d’un important effort de recherche visant la structuration et l’int´egration de connaissances. UMLS (Unified Medical Language System) [12] est une compilation de vocabulaires m´edicaux qui inclut trois parties principales : – Metathesaurus : une collection de concepts et de relations inter-conceptuelles extraites ` a partir d’une vari´et´e de vocabulaires contrˆol´es. Le m´etath´esaurus comprend plus d’un million de concepts biom´edicaux et plus de cinq millions de noms de concepts, ainsi que des relations entre ces concepts. – Semantic Network : une liste des cat´egories et des relations utilis´ees afin de classifier les entr´ees du Metathesaurus. Il existe 135 types s´emantiques (comme organisme, structure anatomique ou fonction biologique) et 54 relations (hyp´eronymie, « spatialement li´e ` a » ou « temporellement li´e `a »). – SPECIALIST Lexicon : une base de donn´ees lexicographiques exploitable en traitement du langage naturel. Cette partie de la ressource contient des informations syntaxiques, morphologiques et orthographiques relatives aux concepts d´ecrits en UMLS. Outre le domaine m´edical, il existe un nombre important d’ontologies d´edi´ees `a des domaines sp´ecifiques. Nous citons ici quelques exemples pour illustrer cette diversit´e : – PlantOntology [23] comprend une description contrˆol´ee des termes botaniques repr´esentant les organes, les tissus, les cellules et leurs relations respectives. – Schlenoff et Messina [125] d´ecrivent une ontologie pour le domaine de la robotique et plus sp´ecifiquement pour les robots utilis´es dans des op´erations de sauvetage urbain. La ressource contient, entre autres, des informations relatives aux capacit´es

´ 2.5. STRUCTURES SEMANTIQUES POUR LA RECHERCHE D’IMAGES

57

des robots ` a naviguer, planifier et interagir avec des op´erateurs humains. – Karoui et al. [70] proposent une m´ethodologie de cr´eation d’ontologies reposant principalement sur l’exploitation de balises HTML dans les pages Web et sur des techniques de clustering de texte afin d’extraire une ontologie pour le tourisme. La constitution de cette ontologie est semi-automatique car elle implique un retour de pertinence des utilisateurs pour valider les connaissances extraites. – Wu et al. [144] d´efinissent une ontologie des ´ev´enements associ´es `a un domaine et appliquent leur approche pour indexer des d´epˆeches de presse. Chaque concept de l’ontologie est d´ecrit par ses attributs, par les ´ev´enements lui ´etant associ´es et par des synonymes. – LSCOM (Large Scale Concept Ontology for Multimedia) [98] est une ontologie d´edi´ee ` a la description de vid´eos. Cette ressource, de plus en plus populaire notamment via son utilisation dans la campagne TrecVid, propose des concepts comme des noms de personnes, d’objets, d’´ev´enements, de lieux qui sont associ´es `a des s´equences vid´eo. Dans sa version initiale l’ontologie comprend environ 2000 concepts dont plus de 400 ont ´et´e renseign´es avec des s´equences vid´eo. Le contenu de LSCOM est particuli`erement utile dans des applications relatives `a la recherche et annotation de vid´eos informatives [145]. 2.5.2.3

Utilisation de ressources s´ emantiques sp´ ecifiques en recherche d’images

Dans la suite, nous pr´esentons quelques exemples d’utilisation d’ontologies dans la recherche d’images. Le projet CLiMB (Computational Linguistics for Metadata Building) [75] se propose d’am´eliorer l’acc`es aux images par l’utilisation de techniques de traitement automatique de la langue. Ces techniques sont employ´ees pour extraire des informations `a partir de textes structur´es et pour les transformer en m´etadonn´ees exploitables en recherche d’images. Les cas d’utilisation incluent les images d’art et d’architecture, des domaines pour lesquels il existe souvent des informations structur´ees sous forme de catalogues ou autres. Parmi les objectifs actuels de CLiMB, nous citons la tentative d’analyse de textes non-structur´es qui s’av`ere bien plus difficile que l’exploitation de documents structur´es. Hyvonnen et al. [56] pr´esentent une application de recherche d’images artistiques bas´ee sur l’utilisation d’une hi´erarchie de concepts. Sept ontologies sont agr´eg´ees dans le syst`eme et contiennent 10000 relations RDFS (RDF Schema). Les mˆemes auteurs soulignent que la principale difficult´e de leur approche est la cr´eation des ontologies qui supportent le processus de recherche. Cette construction est r´ealis´ee manuellement et demeure, par cons´equent, tr`es laborieuse et implique la participation d’experts du domaine. Kong et al. [76] proposent la cr´eation d’ontologies personnalis´ees pour la recherche d’images li´ees au football. L’utilisateur est cens´e alimenter le syst`eme avec des images et des annotations, g´en´erant ainsi une ontologie qui d´ecrit les relations entre les concepts. Les auteurs pensent que l’implication de l’utilisateur dans la cr´eation de l’ontologie permettra d’obtenir une structure « personnalis´ee id´eale ». L’´evaluation est r´ealis´ee sur une base d’images contenant 1000 images de joueurs de football. Leur syst`eme est compar´e

58

CHAPITRE 2. ETAT DE L’ART

a` Google Images et ` a une expansion des requˆetes utilisant WordNet sur uniquement cinq requˆetes qui reproduisent bien la structure de l’ontologie pr´esent´ee dans l’article. Kong et al. avouent n´eanmoins, en fin d’article, que leur approche risque de s’av´erer probl´ematique pour un passage `a une plus large ´echelle. La r´eutilisation de ressources existantes est parfaitement illustr´ee par [139], o` u une 15 ontologie existante, la « BBC Science and Nature Animal Category » , est enrichie et utilis´ee en recherche d’images. Cette ressource contient `a la base des informations textuelles sur 620 concepts, les propri´et´es ontologiques ayant ´et´e d´ecrites manuellement. L’enrichissement consiste en l’addition de relations visuelles, comme la couleur ou la texture, sp´ecifiques aux cat´egories ontologiques. Les auteurs d´esignent la structure obtenue comme une « ontologie multim´edia » (figure 2.13). Soulignons que la d´efinition des caract´eristiques visuelles pour les concepts feuille de la hi´erarchie a du sens car il s’agit de cat´egories visuellement coh´erentes (par exemple une esp`ece canine pr´ecise), mais il ne serait pas possible d’instancier pr´ecis´ement de telles propri´et´es pour des concepts plus g´en´eraux (comme mammif`ere).

Fig. 2.13 – Illustration de l’ontologie des animaux (cf. [139]). Clough et al. [21] extraient des annotations manuelles associ´ees `a une collection d’images de l’universit´e St. Andrews et les organisent sous la forme de hi´erarchies conceptuelles. Il examine cinq types de relation inter-conceptuelles : « sous-type de », « aspect de » (« instance de » ou « partie de »), synonymie, antonymie et autres. Les auteurs discutent plusieurs types de proximit´es entre les cat´egories dans la hi´erarchie : visuelle (par exemple entre brique et mur) ; conceptuelle (par exemple entre chien et berger) ou descriptives (par exemple entre bˆatiment et bˆatiment haut). Ces relations 15

http ://www.bbc.co.uk/nature/animals/

´ 2.5. STRUCTURES SEMANTIQUES POUR LA RECHERCHE D’IMAGES

59

inter-conceptuelles sont extraites automatiquement et servent `a enrichir l’interactivit´e du syst`eme de recherche d’images. Plus pr´ecis´ement, les termes proches sont utilis´es pour regrouper des images annot´ees avec ces termes. L’application propose aussi bien des images pour la requˆete courante que des liens vers des clusters d’images consid´er´es comme proches. Les approches d´ecrites dans [56] et [76] s’int´eressent `a la cr´eation d’ontologies sans utiliser des ressources existantes. Ce processus suppose un effort important de la part des cr´eateurs du syst`eme [56] ou de la part des utilisateurs dans [76]. Si l’ontologie est cr´e´ee automatiquement ` a partir de textes libres, comme dans [21], la richesse et la qualit´e des relations conceptuelles peuvent s’av´erer probl´ematiques et peuvent r´eduire les capacit´es des syst`emes. Le travail dans [139] est limit´e par la couverture de l’ontologie initiale et par l’impossibilit´e de d´ecrire des relations visuelles pour des cat´egories appartenant `a d’autres domaines conceptuels. Un bon exemple est celui des artefacts qui, contrairement aux animaux, n’ont g´en´eralement pas des caract´eristiques chromatiques et de texture stables.

2.5.3

Constitution de ressources s´ emantiques g´ en´ eralistes

Les structures s´emantiques g´en´eralistes incluent un grand nombre de cat´egories et couvrent des domaines conceptuels diff´erents. Pour la plupart, il s’agit de structures cr´e´ees manuellement bien qu’il soit possible d’extraire des connaissances `a large ´echelle de fa¸con automatique ` a partir de grands corpus de documents. Parmi les ressources constitu´ees manuellement nous citons WordNet [32] ou Cyc [47]. [44] et [107] sont des travaux repr´esentatifs de l’exploitations de corpus documentaires `a grande ´echelle. Semantic Map [44] est un exemple de construction d’une structure linguistique `a grande ´echelle `a partir d’un corpus non-structur´e de tr`es grande taille. [107] nettoie la structure cat´egorielle de Wikip´edia afin d’en extraire une taxonomie `a large ´echelle. Cette m´ethode s’appuie sur la contribution implicite des ´editeurs de Wikip´edia pour r´ecup´erer les donn´ees brutes n´ecessaires. Une participation explicite `a la constitution d’une ressources s´emantique est requise dans OMCS (Open Mind Common Sense) [126] o` u les utilisateurs sont invit´es ` a compl´eter des phrases afin d’extraire des connaissances relatives aux concepts dans la phrase. 2.5.3.1

Cyc

Cyc [47] se donne comme but de recueillir la connaissance humaine du sens commun dans une structure formelle et d’exploiter le contenu de la ressource `a l’aide d’un langage de repr´esentation de connaissances d´edi´e : Cycl. Les unit´es de base dans cette ressource sont les cat´egories, qui peuvent correspondre `a un ou plusieurs termes. Cyc est organis´ee sous la forme d’une hi´erarchie, qui permet l’h´eritage multiple, constitu´ee de deux niveaux de repr´esentation : – Niveau ´epist´emologique : utilis´e principalement pour communiquer le contenu de l’ontologie. – Niveau heuristique : pour faire du raisonnement sur les cat´egories.

60

CHAPITRE 2. ETAT DE L’ART

Fig. 2.14 – Illustration du contenu de Cyc avec une requˆete pour dog (Source : http ://www.cycfoundation.org/concepts). Diff´erents types de relations inter-conceptuelles sont d´efinies et sont adapt´ees aux types de cat´egories. Au niveau g´en´eral, des distinctions sont faites entre les classes et les instances, entre les « substances » (ex. air ) et les « individus » (ex. George W. Bush) ou encore entre les « processus » (ex. marcher ) et les « objets » (ex. voiture). Pour les cat´egories sp´ecifiques, Cyc d´efinit des relations d´ecrivant des contextes prototypiques, qui permettent un raisonnement concernant ces situations. Ce type de description est apparent´e aux « frames » de Schank [92]. Pour illustrer le contenu de la base de connaissances, nous pr´esentons dans la figure 2.14 les concepts de Cyc qui sont retourn´es en r´eponse `a une requˆete avec dog. Le premier r´esultat renvoie vers le sens de dog comme animal (voir la figure 2.15). Les autres pointent vers des concepts contenant la chaˆıne dog dans leur nom mais qui ne sont pas associ´es ` a ce terme d’un point de vue lexical. Par exemple, pour Dog-IR-0004 il n’y a pas d’informations suppl´ementaires concernant le sens du concept. Parmi les r´esultats pour dog, le seul facilement utilisable en recherche d’information est le sens de dog comme animal. Les relations d’h´eritage conceptuel de la figure 2.15, comme dog isA canine ou afghan hound isA dog peuvent ˆetre utiles pour reformuler des requˆetes ou pour enrichir l’interactivit´e entre le syst`eme et l’utilisateur. Le mˆeme rˆole peut ˆetre jou´e par la hi´erarchie de noms de WordNet, qui contient en plus une s´eparation des diff´erents sens d’un mot (voir la figure 2.16). Dans sa version actuelle, la hi´erarchie de Cyc inclut plus de 300000 noeuds, ainsi que des assertions relatives ` a ces concepts. Le projet a une version « open source » disponible `a l’adresse http ://opencyc.org. Parmi d’autres applications, Cyc a ´et´e exploit´e dans des applications de « recherche d’information intelligente », une des applications d´ecrites bri`evement sur le site de la ressource concerne la recherche d’images16 . Par ailleurs, l’utilisation de Cyc dans des syst`emes de recherche multim´edia est pr´econis´ee dans [98], `a travers l’inclusion de parties de la base de connaissances au sein des architectures de recherche. 16

http ://www.cyc.com/cyc/technology/cycrandd

´ 2.5. STRUCTURES SEMANTIQUES POUR LA RECHERCHE D’IMAGES

61

Fig. 2.15 – Illustration du contenu de Cyc pour le premier r´esultat associ´e `a dog (Source : http ://www.cycfoundation.org/concepts). 2.5.3.2

WordNet

WordNet [32] est une base de donn´ees lexicale cr´e´ee par des lexicographes (initialement pour l’anglais) et cens´ee ˆetre utilis´ee dans des applications informatiques. Diff´erentes cat´egories grammaticales (noms, verbes, adjectifs) sont d´ecrites. Cette initiative a g´en´er´e un nombre tr`es impressionnant de travaux associ´es17 dans des domaines tr`es vari´es dont la recherche d’images. Les noms communs — une des parties de WordNet les plus int´eressantes pour la recherche d’images — sont organis´es sous la forme d’une hi´erarchie structur´ee [90] selon deux relations fondamentales : – La synonymie : les diff´erents concepts qui pointent vers la mˆeme entit´e sont regroup´es dans un synset, l’unit´e fondamentale de la hi´erarchie. – L’hyponymie : l’h´eritage cat´egoriel permet l’organisation en profondeur des noms dans WordNet. D’autres relations existent mais sont instanci´ees de fa¸con moins syst´ematique : 17

http ://lit.csci.unt.edu/ wordnet/

62

CHAPITRE 2. ETAT DE L’ART

– La m´eronymie : un concept est une partie d’un autre concept. – L’holonymie : relation inverse de la m´eronymie. Nous illustrons le contenu de la hi´erarchie de noms de WordNet dans les figures 2.16 et 2.17. La premi`ere figure pr´esente les diff´erents sens du terme dog inclus dans la hi´erarchie, ainsi que les relations inter-conceptuelles d´ecrites ci-dessus.

Fig. 2.16 – Illustration des diff´erents sens de dog dans WordNet (Source : http ://wordnet.princeton.edu/perl/webwn).

Fig. 2.17 – Illustration des hypernymes du premier sens de dog. (Source : http ://wordnet.princeton.edu/perl/webwn). Dans la figure 2.17, nous pr´esentons une partie des hypernymes du premier sens de dog. La structuration hi´erarchique de WordNet permet une repr´esentation des concepts g´en´eraux par l’interm´ediaire de leurs sous-concepts. Ainsi, pour une requˆete avec mammal, il est possible de reformuler cette requˆete en utilisant placental, carnivore, canine, dog et d’aller ensuite vers des concepts encore plus sp´ecialis´es, comme hunting dog, terrier, Norwich terrier. L’int´erˆet de cette op´eration est de remplacer des concepts g´en´eraux,

´ 2.5. STRUCTURES SEMANTIQUES POUR LA RECHERCHE D’IMAGES

63

ayant une repr´esentation visuelle tr`es diverse par des sous-concepts sp´ecifiques, correspondant `a des classes d’images plus homog`enes. La version courante de la hi´erarchie est WordNet 3.0 qui contient 117798 chaˆınes nominales uniques regroup´ees dans 82115 synsets. Une mˆeme chaˆıne textuelle peut pointer vers une ou plusieurs entit´es et, dans ce cas, on parle d’un terme polys´emique (qui appartient `a plusieurs synsets). La polys´emie moyenne dans la hi´erarchie des noms de WordNet est de 1,24. [77] montre que les concepts polys´emiques sont utilis´es plus fr´equemment que les concepts monos´emiques. La plupart des chaˆınes nominales sont monos´emiques mais un nombre important de termes poss`ede plusieurs sens comme point qui a 26 sens dans WordNet (le maximum). Dans Wordnet, certains domaines sont mieux d´ecrits que d’autres. On retrouve des descriptions bien d´etaill´ees pour les animaux, les plantes ou les villes (plusieurs milliers de sous-types) mais moins d´etaill´ees pour l’automobile (seulement quelques dizaines de sous-types). Pour les domaines les mieux d´ecrits, une pr´ef´erence est accord´ee aux entit´es du sens commun. Ainsi, il y a plus de 100 sous-types de chiens mais seulement 31 pour les papillons ou 12 pour les dauphins. Par comparaison, Wikip´edia recense plus de 500 races de chiens, plus de 200 types de papillons et quelques 50 sous-concepts de dauphins. Ceci montre le caract`ere incomplet de WordNet et souligne l’importance de son enrichissement en utilisant d’autres ressources. Une caract´eristique importante de WordNet est le fait que l’h´eritage multiple est autoris´e. Par exemple, le premier sens de chien h´erite de canid´e mais aussi de animal domestique. Cette propri´et´e mod´elise une situation r´eelle mais rend l’organisation de WordNet incompatible avec des langages de description d’ontologies notamment OWL. Une des critiques apport´ees par la communaut´e des ontologies formelles [102] aux premi`eres versions de WordNet est qu’aucune s´eparation n’existait entre les cat´egories et les instances. Dans la version actuelle, les instances repr´esentent environ un quart du nombre total des synsets et d´ecrivent notamment des noms de lieux, de personnes et d’organisations. Ces volumes sont nettement inf´erieurs `a ceux des ressources d´ecrivant des entit´es nomm´ees. Pour comparaison, Geonames contient plus de six millions d’entr´ees pour le domaine g´eographique et Wikip´edia plus de 80000 noms de personnes [8]. Une direction importante de recherche concernant WordNet est son internationalisation. Il existe d´esormais des r´eseaux lexicaux inspir´es directement par la base de donn´ees en une trentaine de langues18 , avec diff´erents degr´es de d´eveloppement. Les versions espagnole et italienne de WordNet sont strictement align´ees `a la hi´erarchie en anglais et contiennent respectivement 105494 et 32700 synsets. La version fran¸caise — h´elas — n’est pas align´ee `a la version anglaise et inclut moins de 20000 synsets. L’int´erˆet de l’alignement entre les versions est qu’une utilisation conjointe et multilingue de la ressource est rendue possible. Le principal d´esavantage d´ecoule le plus souvent du non-respect des particularit´es de chaque langue. En d´epit des nombreuses critiques apport´ees `a WordNet, cette hi´erarchie lexicale reste une ressource riche et exploitable dans de nombreux domaines, dont la recherche d’images. [6] est l’un des premiers travaux `a utiliser WordNet pour la recherche d’images. [146] d´ecrit une architecture de recherche d’images bas´ee sur l’utilisation de la hi´erarchie 18

http ://www.globalwordnet.org/

64

CHAPITRE 2. ETAT DE L’ART

lexicale dans laquelle les concepts de WordNet sont utilis´es pour am´eliorer l’interactivit´e avec l’utilisateur en proposant des concepts proches, mais aussi pour proposer une mesure de similarit´e incorporant une partie conceptuelle et une partie visuelle. Cette mesure de similarit´e est un cas de fusion pr´ecoce de donn´ees multim´edia, similaire `a celui pr´esent´e dans [33] qui exploite la hi´erarchie de noms de WordNet pour relier les termes associ´es `a une image ` a une s´erie de « termes clef » de la hi´erarchie et pour construire un vecteur de similarit´e s´emantique entre les images. Dans [146] et [33], le retour de pertinence est une composante importante des architectures de recherche ce qui soul`eve de nombreux probl`emes de passage ` a l’´echelle et d’utilisation par le grand public. [142] introduit une m´ethode de construction d’un catalogue visuel bas´e sur l’utilisation de WordNet et sur la r´ecup´eration d’images ` a partir d’Internet. Un probl`eme commun `a [142] et [146] est que les auteurs ne prennent pas en compte la s´eparation des sens pour les termes polys´emiques de WordNet. 2.5.3.3

ConceptNet

ConceptNet [82] est un r´eseau s´emantique constitu´e par une communaut´e d’utilisateurs, cens´e recenser les connaissances du sens commun sur le monde. La ressource a ´et´e cr´e´ee par la contribution de plus de 10000 volontaires `a qui on a demand´e de remplir des phrases incompl`etes d´ecrivant diff´erentes propri´et´es conceptuelles. Le projet, appel´e `a l’origine Open Mind Common Sense [126] est clairement inspir´e par WordNet [82] mais plusieurs diff´erences existent entre les deux structures s´emantiques. Ainsi, dans ConceptNet : – Il existe une plus grande vari´et´e de relations que dans WordNet. Les plus importantes sont : l’h´eritage conceptuel, la causalit´e et l’inclusion spatiale. – La relation d’hyponymie a un statut identique aux autres relations et la structuration hi´erarchique des noms perd son statut privil´egi´e de WordNet. – Les relations entre les concepts sont pond´er´ees. Deux concepts sont d’autant plus proches qu’ils sont mentionn´es plus souvent ensemble au regard d’une relation donn´ee. – Le nombre de termes inclus dans la hi´erarchie est plus petit que celui de WordNet. Cela se traduit notamment par une pr´esence tr`es r´eduite des concepts sp´ecialis´es et par la non-inclusion des instances. – La s´eparation entre les diff´erents sens d’un terme polys´emique est perdue. En recherche d’images, la s´eparation des sens est importante puisqu’elle permet de proposer ` a l’utilisateur des ensembles d’images s´epar´es pour chaque sens du mot. Un probl`eme important de ConceptNet est constitu´e par le d´es´equilibre qui existe entre la description des concepts commun´ement connus et les concepts sp´ecialis´es. Les premiers ont un grand nombre de relations associ´ees tandis que les derniers ne sont souvent d´ecrits que par une relation d’h´eritage conceptuel h´erit´ee de WordNet. ´ [54] utilise ConceptNet afin de reformuler des requˆetes en recherche d’images. Etant donn´e une requˆete, le syst`eme isole les noms et les remplace avec des concepts proches dans ConceptNet. Les r´esultats pr´esent´es montrent que l’expansion des requˆetes am´eliore l´eg`erement les r´esultats (une am´elioration d’environ 3% pour une pr´ecision avoisinant

´ 2.5. STRUCTURES SEMANTIQUES POUR LA RECHERCHE D’IMAGES

65

40%). Dans un autre travail [55], le mˆeme groupe montre la compl´ementarit´e de WordNet et de ConceptNet en comparant l’expansion des requˆetes `a partir des deux ressources. Leurs r´esultats montrent que les requˆetes reformul´ees avec WordNet sont plus discriminantes alors que celles reformul´ees avec ConceptNet sont plus diversifi´ees. 2.5.3.4

Semantic Map

Semantic Map [44] est une structure linguistique `a tr`es grande ´echelle extraite automatiquement ` a partir du Web. Les termes sont s´epar´es selon leur relation grammaticale avec le concept initial (ex. objet de, compl´ement de). Nous illustrons cette ressource avec le terme pain 2.18(a). Pour chaque terme d’un dictionnaire, Semantic Map consid`ere l’ensemble des mots dont le terme est le compl´ement (2.18(a)). Il est ´egalement possible de s´eparer les verbes dont il est le sujet (figure 2.18(b)) ou objet (figure 2.18(c)), les adjectifs proches (figure 2.18(d)) et les noms en apposition (figure 2.18(e)). Les relations entre les termes de la carte s´emantique ne sont pas conceptuellement typ´ees et il n’est pas possible, par exemple, de savoir si un nom est un sous-concept d’un autre. La version actuelle de Semantic Map ne propose pas de s´eparation des sens pour les termes polys´emiques. Cette s´eparation est importante en recherche d’images car les diff´erents sens d’un terme ont des repr´esentations visuelles diff´erentes. La ressource d´ecrite dans [44] pourrait ˆetre utile pour proposer des requˆetes proches mais structur´ees grammaticalement plutˆ ot que conceptuellement. Le rˆole de Semantic Map serait similaire `a celui de la structure linguistique exploit´ee par Ask, qui propose trois types de requˆetes proches : plus g´en´erales, plus sp´ecifiques et noms de personnes associ´es.

2.5.4

Travaux utilisant Wikip´ edia

Le succ`es de Wikip´edia a g´en´er´e de nombreux travaux de recherche dont une bonne partie sur l’utilisation de l’encyclop´edie en ligne pour la constitution de ressources s´emantiques. L’enrichissement automatique de WordNet `a partir de Wikip´edia est abord´e dans [117] et [116]. Une relation entre les synsets de WordNet et les pages de l’encyclop´edie est ´etablie automatiquement pour ensuite extraire des relations d’hyponymie, hyperonymie, holonymie et m´eronymie. Des patterns lexicaux d´efinissant les quatre types de relations sont appris `a partir de corpus textuels. Le taux de r´eussite d´epasse 50% dans les quatre cas mais il reste un nombre important de relations qui ne sont pas correctement d´efinies. La d´etection d’entit´es nomm´ees utilisant Wikip´edia est une autre application fr´equente [133], [57]. Parmi les premiers ` a proposer ce type d’applications, [133] analyse le texte des articles Wikip´edia et de WordNet pour cr´eer des dictionnaires de noms propres. Les noms de personnes sont correctement classifi´es dans 61% des cas. Dans [71], les auteurs mettent en place un traitement syntaxique de la premi`ere phrase des articles avec des techniques d’apprentissage et obtiennent un taux de pr´ecision approchant 90%. Une application de d´esambigu¨ısation de noms de personnes `a l’aide du contenu de l’encyclop´edie collaborative est d´ecrite dans [16].

66

CHAPITRE 2. ETAT DE L’ART

(a) Mots dont pain est le compl´ement.

(b) Verbes dont pain est le sujet.

(c) Verbes dont pain est l’objet.

(d) Adjectifs associ´es a ` pain.

(e) Termes en apposition avec pain.

Fig. 2.18 – Termes le plus souvent associ´es `a pain dans Semantic Map.

´ 2.5. STRUCTURES SEMANTIQUES POUR LA RECHERCHE D’IMAGES

67

Auer et al. ont introduit DBPedia [8], une pr´esentation de Wikip´edia sous la forme d’une base de donn´ees. L’approche est bas´ee sur un parsing des ´el´ements r´eguliers de la page, comme les fiches informatives associ´ees `a certains articles, les cat´egories ou les tableaux. Ces parties des articles permettent une caract´erisation assez compl`ete des concepts et pourraient ˆetre utilis´es en recherche d’information afin de reformuler des requˆetes ou de structurer les r´esultats. DBPedia est une ressource tr`es int´eressante car elle permet la formulation de requˆetes complexes. L’analyse du texte libre des articles permettrait la d´ecouverte d’autres relations conceptuelles int´eressantes mais cette analyse est difficilement automatisable et n’est pas abord´e dans le cadre de DBPedia. [148] et [7] proposent une analyse des textes de Wikip´edia afin d’associer des cat´egories plus g´en´erales (des super-senses de WordNet). Cette m´ethode est prometteuse mais ses r´esultats ne sont pas suffisamment pr´ecis pour une utilisation `a court terme en recherche d’information. De plus, le mod`ele propos´e est assez restrictif car il associe n´ecessairement tout nom `a un des 41 super-senses et la hi´erarchie conceptuelle r´esultante ne contient que trois niveaux hi´erarchiques. Ponzetto et Strube ont d´eriv´e une taxonomie des cat´egories de Wikip´edia `a partir de la m´ethode suivante [107] : – Nettoyage du graphe des cat´egories de l’encyclop´edie pour ´eliminer les cat´egories relatives ` a l’administration du portail. Le filtrage est r´ealis´e en utilisant des motsclef comme Wikip´edia, wikiprojects ou mediawiki. – Identification des liens de raffinement (Miles Davis Albums est un raffinement de Albums by artist) et assignation d’une relation is-refined-by `a ces liens. Analyse syntaxique pour d´eterminer des relations isA entre des cat´egories comme par exemple British Computer Scientists et Computer Scientists. – Utilisation de la connectivit´e entre les cat´egories. On caract´erise des instances et on les propage ensuite ` a des concepts. – Les liens non trait´es dans les ´etapes ant´erieures sont analys´es en appliquant une analyse lexico syntaxique bas´ee sur l’utilisation de motifs. – Une derni`ere analyse vise la d´ecouverte de relations isA par inf´erences comme fruits isA crops et crops isA edible plant donc fruit isA edible plant. [107] comparent la hi´erarchie obtenue avec celle d´ecrite dans Cyc. La pr´ecision de la m´ethode atteint 86,6%, avec un rappel de 89,1%. Dans un travail ult´erieur ([153]), le mˆeme groupe propose une s´eparation automatique entre les classes et les instances de Wikip´edia, mod´elisant ainsi mieux l’espace conceptuel d´ecrit par l’encyclop´edie. 2.5.4.1

Consid´ erations sur la constitution de ressources g´ en´ eralistes

La premi`ere critique que l’on peut formuler sur ces ressources tient `a leur caract`ere n´ecessairement incomplet ce qui, comme le montre Eco [29], est intrins`eque `a toute tentative de mod´elisation conceptuelle. Une deuxi`eme critique concerne l’ad´equation de certaines structures `a des mod`eles formels. [102] et [134] d´emontrent la non-conformit´e entre WordNet et les principes des ontologies formelles. Par exemple, dans la hi´erarchie lexicale, il n’existe pas de s´eparation entre rˆole (relation temporaire entre deux termes : X est ´etudiant) et h´eritage conceptuel

68

CHAPITRE 2. ETAT DE L’ART

(relation permanente entre deux termes : X est un homme). WordNet ne peut donc pas ˆetre utilis´ee imm´ediatement dans des tˆaches de raisonnement automatique. N´eanmoins, le ralliement ult´erieur d’un des auteurs de [102] au projet de transformation du contenu de WordNet dans des triplets RDFS est une preuve suppl´ementaire de l’utilit´e de cette ressource pour des applications du Web s´emantique. Une critique plus g´en´erale [123] vise les fondements mˆeme du Web S´emantique, montrant une s´erie d’incoh´erences concernant la d´efinition des ontologies ainsi que leur pr´etention d’encapsuler de la s´emantique. Dans le processus de construction d’ontologies formelles, il est suppos´e, ` a tort, que les relations conceptuelles sont fig´ees et qu’elles seront valables dans tous les contextes d’utilisation. [123] consid`ere que les ontologies sont uniquement des structures syntaxiques et qu’on attache une valeur s´emantique `a leur contenu uniquement lors d’un usage impliquant des utilisateurs. Notre vision s’accorde avec [124] notamment sur le fait que la s´emantique ´emerge de l’interaction entre l’utilisateur et le syst`eme et que les services dits « s´emantiques » doivent ˆetre anthropocentr´es. Nous consid´erons que les structures linguistiques sont utiles pour am´eliorer l’interaction utilisateur/syst`eme surtout quand il s’agit d’explorer des espaces conceptuels vastes. La difficult´e de construire manuellement des ressources s´emantiques `a grande ´echelle rend indispensable la cr´eation de techniques automatiques. Mais, comme nous l’avons d´ej`a mentionn´e, la qualit´e de la connaissance obtenue n’est souvent pas suffisante pour les applications envisag´ees. Pour faciliter l’extraction et atteindre un niveau de qualit´e suffisant, une voie ` a explorer est l’utilisation de corpus de documents semi-structur´es.

2.5.5

Rˆ oles des structures s´ emantiques en recherche d’images

La plupart des structures conceptuelles d´ecrites dans les sections pr´ec´edentes ne sont pas construites en vue d’une application particuli`ere et sont exploit´ees dans plusieurs domaines, parmi lesquelles la recherche d’images. Nous d´etaillons les rˆoles de ces structures en recherche par mots-clef et par le contenu. 2.5.5.1

Structures s´ emantiques en recherche par mots-clef

La recherche d’images par mots-clef est le paradigme de recherche d’images le plus r´epandu. Bien que l’usage de mots cl´es offre une grande libert´e `a l’utilisateur, une solution alternative est de proposer une hi´erarchie conceptuelle dans laquelle il est possible de naviguer [128], Picsearch Directory19 , Yahoo ! Directory20 . Cette modalit´e limite n´eanmoins l’espace de recherche aux p´erim`etres de la hi´erarchie. Le nombre de concepts contenus dans les hi´erarchies est limit´e `a quelques centaines, principalement pour une raison pratique, voire ergonomique. En effet, la navigation `a l’int´erieur des structures compos´ees d’un grand nombre de niveaux hi´erarchiques devient vite fastidieuse. Dans tous les cas, l’utilisation d’une ressource structur´ee pour am´eliorer une recherche par mots cl´es n´ecessite d’atteindre la couverture la plus optimale possible. WordNet inclut une partie importante des noms communs de l’anglais (environ 100000 entit´es), ainsi 19 20

http ://www.picsearch.com/image-dir.html http ://dir.yahoo.com/

´ 2.5. STRUCTURES SEMANTIQUES POUR LA RECHERCHE D’IMAGES

69

qu’une s´erie de noms propres, entit´es g´eographiques ou organisations (totalisant environ 20000 instances). Cyc inclut plus de 300000 cat´egories. Autant de cat´egories permettent d’obtenir une bonne couverture pour les requˆetes mono terme mais pas pour les requˆetes compos´ees. De plus, la structure conceptuelle doit rester « cach´ee » `a l’utilisateur dans le sens o` u celui-ci ne doit pas faire d’efforts suppl´ementaires — en manipulant directement la structure — pour avoir des r´esultats. En tenant compte du degr´e de formalisme, les bases de connaissances textuelles se s´eparent en : – des dictionnaires qui incluent des concepts et leurs d´efinitions ou leurs traductions en d’autres langues ; – des th´esauri contenant des termes et des concepts apparent´es, sans forcement sp´ecifier les types de relation ontologique entre ces termes ; – des ontologies formelles qui incluent des cat´egories, ainsi que des propri´et´es reliant ces cat´egories. Les ressources faiblement structur´ees sont plus faciles `a constituer que les ontologies formelles, mais un raisonnement automatique sur leur contenu s’av`ere beaucoup plus probl´ematique que celui sur le contenu des ontologies. N´eanmoins un probl`eme existe aussi pour les ontologies formelles, mais pour une raison diff´erente puisque le raisonnement automatique est rendu d´elicat (pour des applications en temps r´eel) par les temps de traitement induits [104]. Nous d´etaillons par la suite les quatre principaux avantages `a l’utilisation d’une structure linguistique dans le cas d’une recherche d’images par mots-clef. Reformulation automatique des requˆetes La reformulation automatique des requˆetes consiste `a affiner une requˆete initiale `a l’aide des connaissances inclues dans le syst`eme. Dans [Liao], Liao et al. citent deux types de reformulation fonctionnant pour des requˆetes simples : – Ajouter des termes ` a la requˆete initiale. Les auteurs impl´ementent cette approche `a l’aide des fichiers de log d’un moteur de recherche en partant de l’id´ee que les utilisateurs regroupent des termes proches dans leurs demandes. Ce type de reformulation est facile ` a mettre en œuvre et, comme nous l’avons mentionn´e dans la section 2.3.1, est couramment propos´e par les moteurs de recherche. – Reformuler la requˆete initiale en utilisant des termes proches dans une structure conceptuelle. Cette m´ethode est impl´ement´ee par Ask qui propose des versions plus sp´ecifiques et plus g´en´erales, ainsi que des noms de personnes proches de la requˆete initiale. Nous avons soulign´e dans 2.3.1 l’impr´ecision de ces propositions. [68] et [146] proposent une alternative qui consiste `a utiliser une structure conceptuelle (WordNet) pour obtenir les requˆetes proches et qui garantit la proximit´e entre le concept de d´epart et les autres concepts. Dans [146] et [68], la s´eparation des sens pour les termes polys´emiques n’est pas respect´ee, ce qui peut donner lieu `a des propositions de requˆetes non pertinentes pour l’utilisateur. Un int´erˆet particulier est port´e sur la reformulation des requˆetes permettant de d´esambigu¨ıser des r´esultats [142]. Dans la sous-section 2.5.3.2, nous avons soulign´e qu’il

70

CHAPITRE 2. ETAT DE L’ART

existe un grand nombre de termes polys´emiques et que les applications actuelles ne proposent pas de s´eparation des sens dans l’espace des r´esultats. Un exemple : angora repr´esente en mˆeme temps un type de lapin, de ch`evre ou de chat et le nom (l’ancien nom pour ˆetre exact) de la capitale de la Turquie. Sans s´eparation des sens, tous ces r´esultats sont pr´esent´es ensemble, alors que l’introduction d’une ressource textuelle comme WordNet rend possible la s´eparation des sens. Un deuxi`eme type d’ambigu¨ıt´e, moins fr´equent, apparaˆıt pour les mots qui ont la mˆeme forme mais des sens diff´erents dans deux ou plusieurs langues. L’utilisation de ressources multilingues peut r´esoudre ce type d’ambigu¨ıt´e. Ainsi, il existe des applications comme PanImages [31] qui exploite ce type de ressources multilingues pour am´eliorer la recherche d’images. Les auteurs de [31] proposent un alignement de plus de 100 dictionnaires de traduction, permettant un passage entre diff´erentes langues afin d’obtenir un nombre plus ´elev´e de r´eponses images. L’application est particuli`erement utile pour formuler des requˆetes dans une langue peu repr´esent´ee sur Internet et obtenir des r´eponses en d’autres langues, mieux repr´esent´ees. Les ´etudes de fichiers de log montrent que les utilisateurs introduisent un nombre important de requˆetes courtes, souvent ambigu¨es. [130] propose une r´eflexion th´eorique sur ce sujet, en montrant les principales difficult´es associ´ees au traitement des ambigu¨ıt´es. Par exemple, dans diff´erents contextes, une mˆeme requˆete exprime des besoins diff´erents. Pour reprendre un exemple des auteurs de [130], prix des maisons peut faire r´ef´erence aux prix mˆemes des maisons ou au contexte ´economique du moment. [119] analyse des requˆetes ambigu¨es, montrant que les ressources existantes, comme WordNet, ne comprennent qu’une partie des sens possibles d’un terme. De mˆeme, la mˆeme ´etude montre que les requˆetes ambigu¨es ne sont malheureusement pas bien prises en compte dans les collections de test actuelles ne permettant pas une ´evaluation compl`ete et r´ealiste des syst`emes. [2] fait l’hypoth`ese qu’un bon moteur de recherche proposera une bonne couverture des diff´erents sens d’un concept, mˆeme au d´etriment de la pr´ecision ´evalu´ee sur un seul sens. Structuration des r´esultats Les applications de recherche d’images proposent les r´esultats sous la forme d’une simple liste. La pr´ef´erence des utilisateurs pour une pr´esentation structur´ee des r´esultats est mise en ´evidence par des ´etudes comme [113] ou [83]. Les ressources textuelles facilitent une organisation des r´esultats en se basant sur leur propre structure. La structuration des r´esultats est en ´etroite liaison avec la reformulation des requˆetes. En effet, si un utilisateur demande des images pour chien avec l’utilisation d’une hi´erarchie conceptuelle, le syst`eme peut lui proposer des r´eponses correspondant aux sous-types de ce concept, notamment les diff´erentes races de chiens. Navigation dans l’espace des r´esultats Une critique touchant la majorit´e des applications de recherche d’images `a large ´echelle concerne leur manque d’options de navigation adapt´ees aux besoins des utilisateurs. Nous avons d´ecrit le mode de fonctionnement des moteurs de recherche d’images dans la section 2.3.1.1 et nous avons soulign´e qu’`a l’exception d’Ask et de Flickr, tr`es

´ 2.5. STRUCTURES SEMANTIQUES POUR LA RECHERCHE D’IMAGES

71

peu de place est accord´e ` a l’interaction entre les utilisateurs et les syst`emes. Pourtant, la proposition de termes proches, en aidant directement l’utilisateur `a affiner sa recherche, est particuli`erement utile pour des domaines qui ne sont pas bien connus par l’utilisateur [56]. [146] introduit les hi´erarchies s´emantiques dynamiques qui, ´etant donn´e une requˆete, extraient de WordNet les concepts proches les plus saillants, r´eduisant ainsi l’espace de recherche aux termes les plus pertinents. Une strat´egie proche est adopt´ee dans [68] et [80]. [122] propose une navigation guid´ee par des menus construits en fonction d’une structure s´emantique li´ee au syst`eme et [56] propose une navigation par menus extraits d’une s´erie d’ontologies. Diversifier les possibilit´es de navigation n’est ´evidemment pas sans risques, surtout si un effort suppl´ementaire de la part de l’utilisateur est demand´e par rapport ` a la simplicit´e des moteurs de recherche classiques. Cette critique s’applique notamment aux travaux de [56] ou [147], o` u il est demand´e `a l’utilisateur de choisir dans une trop grande diversit´e de menus. Les exp´eriences pr´esent´ees dans [147] montrent que les participants au test d’´evaluation jugent l’interface propos´ee comme ´etant trop difficile `a utiliser et qu’ils pr´ef`erent des modes d’interaction plus simples, tels que ceux dans les moteurs de recherche d’information actuels. Enrichissement de l’espace des r´esultats Un probl`eme fr´equent dans les applications de recherche d’images est le nombre insuffisant de r´esultats pour une requˆete donn´ee. L’utilisation de ressources conceptuelles offre une solution puisqu’il est possible de r´ealiser une expansion automatique de la requˆete (et donc acc´eder ` a un plus grand volume d’images r´esultats) en utilisant : – des sous-types [142] ou des synonymes pour des ressources mono-langues, – une traduction dans d’autres langues si on dispose d’une structure multilingue [22], [31]. Cet enrichissement doit s’accompagner de moyens ad´equats pour naviguer rapidement dans l’espace de recherche. Dans le cas des images, une navigation enrichie peut ˆetre bas´ee sur l’utilisation de la similarit´e visuelle (recherche par le contenu). 2.5.5.2

Structures linguistiques et recherche par le contenu

La fusion de l’information textuelle et des descripteurs bas niveau peut se r´ealiser selon une fusion pr´ecoce ou tardive [112]. Dans le cas de la fusion pr´ecoce ([33], [146]) on cherche `a fusionner les diff´erents canaux informationnels en un seul descripteur ou dans un seul espace de repr´esentation. Pour la fusion tardive, on consid`ere chaque information ind´ependamment. G´en´eralement, l’information textuelle est utilis´ee pour restreindre la recherche par le contenu (fusion hi´erarchique) `a une r´egion de la base photographique qui a en commun un ou plusieurs termes [78]. L’agr´egation s´equentielle donne le plus souvent un rˆ ole pr´epond´erant ` a l’information textuelle (voir les conclusions de [24] sur la pr´epond´erance de l’information textuelle). La fusion pr´ecoce implique g´en´eralement une consid´eration similaire du texte associ´e aux images et des descripteurs visuels, mˆeme s’il est possible de pond´erer les contributions de chaque information.

72

CHAPITRE 2. ETAT DE L’ART

Les structures linguistiques sont utilis´ees dans les deux types de fusion. Parmi leurs rˆoles au sein de l’architecture de recherche, un est de structurer la base de donn´ees images en suivant l’organisation de la ressource textuelle. WordNet est utilis´e `a cette fin dans [142] et [146] o` u des classes d’images sont associ´ees aux synsets de la hi´erarchie lexicale. Suite ` a cette structuration, il est possible de restreindre la recherche d’images par le contenu ` a des r´egions de la hi´erarchie qui sont conceptuellement et visuellement coh´erentes. Une impl´ementation de cette approche est d´ecrite dans [128], mais la limitation de la recherche ne va pas au-del`a de concepts assez g´en´eraux, comme chien, car la hi´erarchie conceptuelle est assez r´eduite. Avec l’utilisation de structures linguistiques `a large ´echelle, la recherche par le contenu peut ˆetre restreinte `a des espaces plus pr´ecis (comme par exemple des races de chien).

2.6

Conclusions

Dans ce chapitre nous nous sommes int´eress´es `a plusieurs aspects de la recherche d’images en portant un int´erˆet particulier au corpus photographiques du Web. L’interrogation par mots-clef et par images exemples ont ´et´e discut´ees tout en soulignant leur compl´ementarit´e. La recherche par mots-clef est bien plus r´epandue que la recherche par contenu visuel, ce qui s’explique par plusieurs facteurs : – La similarit´e de l’acc`es aux images et aux documents textuels quand les motsclef sont utilis´es : ce type de recherche s’apparente `a une pratique connue et (g´en´eralement) maˆıtris´ee par les utilisateurs. – L’inad´equation entre le mod`ele de similarit´e perceptuelle propos´e par les syst`emes CBIR et le mod`ele de similarit´e conceptuelle propre aux utilisateurs (le fameux foss´e s´emantique). – Une complexit´e algorithmique plus grande pour la recherche par le contenu rendant difficile leur utilisation pour des gros volumes de donn´ees. Actuellement, les moteurs de recherche d’images sont bas´es sur la comparaison des chaˆınes de caract`eres de la requˆete et de celles associ´es aux images dans la base de donn´ees. Un traitement plus conceptuel de l’information textuelle avoisinant les images, qui passe par l’introduction de ressources conceptuelles dans les architectures de recherche, peut am´eliorer plusieurs aspects du processus d’interrogation, notamment : – Une navigation enrichie. Des solutions `a large ´echelle commencent `a ˆetre d´eploy´ees, l’interface d’Ask en est un parfait exemple. – Une pr´esentation des r´esultats suivant la structure de la base de connaissances est possible. – Une am´elioration de la pr´ecision des r´esultats rendus par le syst`eme. ` cela s’ajoute la possibilit´e d’utiliser conjointement les deux modalit´es de recherche A des images, permettant une exploration des parties de la base photographiques en utilisant aussi des caract´eristiques visuelles (couleur, texture. . .) des images. Ces am´eliorations sont conditionn´ees par l’existence de bases de connaissances ` a large ´echelle, contenant des connaissances de bonne qualit´e et adapt´ees `a la recherche d’images qui assurent une couverture suffisante de l’espace de requˆetes introduites par les

2.6. CONCLUSIONS

73

internautes. Pour un emploi efficace sur le corpus d’Internet, une int´egration des bases de connaissances dans des architectures de recherche en temps r´eel est indispensable, ainsi qu’une pr´esentation des r´esultats qui sachent tirer profit des avantages de l’utilisation des structures s´emantiques tout en restant intuitive pour les utilisateurs.

74

CHAPITRE 2. ETAT DE L’ART

Chapitre 3

D´ emarche de la th` ese Les syst`emes de recherche d’images actuels, tels que Google Images, permettent de retrouver des images au sein d’un volume consid´erable de donn´ees (plusieurs milliards d’images) mais cet acc`es aux images du web est loin d’ˆetre optimale et ces syst`emes souffrent de nombreuses limites : – la recherche d’images est uniquement bas´ee sur l’utilisation de mots-clef ; – une grande partie des r´eponses n’est pas pertinente ; – les r´esultats de la recherche ne sont pas structur´es ; – les moyens d’interaction entre les utilisateurs et les syst`emes sont r´eduits. Pour r´epondre ` a ces limitations et am´eliorer les capacit´es des moteurs de recherche d’images sur Internet, nous proposons d’introduire des structures linguistiques `a large ´echelle au sein des architectures de recherche et de proposer une modalit´e de recherche par le contenu. Nous avons vu qu’il existe des ressources s´emantiques qui d´ecrivent un grand nombre de concepts et de relations et que la communaut´e scientifique propose des techniques appropri´ees pour enrichir ces ressources ou en cr´eer des nouvelles. N´eanmoins, l’adaptation et la construction des structures linguistiques `a grande ´echelle pour une utilisation en recherche d’images restent des processus d´elicats. L’adaptation des ressources consiste notamment ` a ordonner des concepts afin de favoriser les concepts les plus repr´esentatifs pour une requˆete donn´ee. Si les ressources existantes ne sont pas suffisantes, il devient alors n´ecessaire de construire — si possible automatiquement — des nouvelles ressources qui doivent assurer une bonne couverture et une bonne pr´ecision des connaissances extraites. Ce double imp´eratif est particuli`erement d´elicat pour des espaces conceptuels vastes comme ceux mis en jeux pour la recherche d’images sur Internet. Dans ce chapitre, nous pr´esentons et expliquons la d´emarche mise en place au cours de cette th`ese en nous int´eressant dans un premier temps `a l’´etude d’un fichier de log d’un moteur de recherche. Cette ´etude nous permet d’analyser les usages associ´es aux moteurs de recherche et de r´epondre `a la question « Quelles images cherchons-nous sur Internet ? ». Cette question sera aussi abord´ee, dans un deuxi`eme temps, d’une fa¸con plus th´eorique en analysant la relation entre les concepts et leur repr´esentation imag´ee (que nous nommons « figurabilit´e » d’un concept), ainsi que la notion de simi75

76

´ ` CHAPITRE 3. DEMARCHE DE LA THESE

larit´e entre les images. Ensuite, nous montrons comment sont construites les structures s´emantiques, en insistant sur les concepts et leur agr´egation. Finalement, nous d´ecrivons une m´ethodologie de cr´eation de syst`emes de recherche d’images bas´es sur l’utilisation conjointe de structures s´emantiques et de techniques de traitement d’images. Dans cette derni`ere partie, nous introduisons ´egalement les trois domaines d’application qui servent `a valider notre d´emarche : les noms communs, les toponymes et les noms de c´el´ebrit´es. Le choix de ces trois domaines est d´etermin´e par l’analyse statistique du fichier de log et par le fait que les concepts associ´es `a ces domaines sont facilement repr´esentables par des images.

3.1

Analyse d’un fichier de log

Nous avons eu la chance de travailler sur un fichier de log mis `a disposition par Exalead dans le cadre d’un accord avec le CEA LIST. L’´echantillon de requˆetes images ´etudi´e inclut 3055778 ´el´ements. Les r´esultats sont expos´es ici apr`es pr´esentation et accord d’Exalead. L’´etude des fichiers de log permet d’avoir une repr´esentation de l’espace de requˆetes exprim´ees par les utilisateurs des moteurs de recherche. Nous reprenons la m´ethodologie classique d’analyse de ces fichiers [62] qui permet de caract´eriser certaines dimensions des usages associ´es aux moteurs de recherche d’images, comme la complexit´e des requˆetes ou la distribution des pages de r´eponses consult´ees. Ces statistiques sont riches en enseignements et permettent notamment de confirmer la pertinence de l’introduction de structure s´emantique ou de l’ajout d’une modalit´e de recherche par le contenu. Par exemple, si l’hypoth`ese que de nombreuses requˆetes sont form´ees d’un seul concept est confirm´ee, l’utilisation de ressources conceptuelles est (partiellement) justifi´ee puisqu’elles permettent un traitement adapt´e ` a ce type de requˆetes. L’´etude de la distribution des pages de r´eponses consult´ees d´ecrit la mani`ere de naviguer parmi les r´esultats. Plus particuli`erement, il est possible de voir si les utilisateurs regardent souvent au-del`a de la premi`ere page de r´eponses, pour proposer une recherche par le contenu qui permettrait d’acc´eder plus rapidement et plus profond´ement `a des images pertinentes pour l’utilisateur. Cependant, l’analyse d´ecrite ci-dessus reste assez limit´ee et nous proposons de consid´erer l’espace des requˆetes selon une approche conceptuelle. Cette approche met en ´evidence des domaines conceptuels importants en recherche d’images pour lesquels il est possible d’adapter ou de construire des ressources linguistiques `a grande ´echelle. Ce type d’analyse nous permet d’obtenir une repr´esentation plus compl`ete des domaines conceptuels cibl´es par les utilisateurs que celle obtenue en ne consid´erant que les requˆetes les plus fr´equentes. Le choix des trois domaines trait´es dans le cadre de cette ´etude est d´etermin´e par trois facteurs : une analyse initiale des requˆetes fr´equentes, une mise en corr´elation avec les r´esultats d’autres ´etudes comme [41] et par la disponibilit´e de ressources linguistiques ` a large ´echelle : – les noms communs, repr´esent´es dans des ressources comme WordNet, – les noms g´eographiques, d´ecrits dans des th´esauri comme Geonames, – les noms de c´el´ebrit´es, bien repr´esent´es dans des ressources en ligne comme Wi-

3.1. ANALYSE D’UN FICHIER DE LOG

77

kip´edia. Notons qu’apr`es une rapide ´etude du fichier, nous avons d´ecid´e de normaliser les requˆetes en enlevant tous les guillemets, les espaces doubl´es, les accents et en transformant les majuscules en minuscules.

3.1.1

Analyse g´ en´ erique de fichiers de log

Dans un premier temps, nous reprenons une partie de la m´ethodologie propos´ee dans [62] pour proposer une analyse statistique du fichier de log. Notre analyse est toutefois diff´erente puisque nous ne nous int´eressons pas aux termes fr´equents, mais aux requˆetes (qui peuvent contenir plusieurs termes) les plus fr´equentes. L’´etude porte sur les caract´eristiques suivantes : la longueur des requˆetes, la longueur des sessions, la r´epartition des pages de r´esultats regard´ees, le domaine d’appartenance des requˆetes les plus fr´equentes et une comparaison entre l’analyse de termes et une analyse bas´ee sur des concepts. Bien que tr`es importante si l’on souhaite analyser l’espace des requˆetes, cette s´eparation entre terme et concept n’est pas, `a notre connaissance, ´evalu´ee dans d’autres ´etudes ant´erieures et constitue donc une particularit´e importante de ce travail. 3.1.1.1

Longueur des requˆ etes

Manipulant des structures linguistiques construites `a partir de ressources comme WordNet ou Geonames, nous allons plus ais´ement traiter des requˆetes mono-conceptuelles. Analyser la longueur des requˆetes ` a partir du fichier de log nous permet de mesurer le poids de ce type de requˆete. La figure 3.1 montre la distribution des requˆetes en fonction de leur longueur (nombre de termes).

Fig. 3.1 – Distribution des requˆetes en fonction du nombre de termes contenus. Les requˆetes compos´ees de un ou deux termes repr´esentent presque 80% du total.

´ ` CHAPITRE 3. DEMARCHE DE LA THESE

78

Le fichier de log contient un nombre quasiment ´egal de requˆetes form´ees de un ou deux termes. Ces deux types de requˆetes couvrent environ 80% du nombre total de requˆetes. Des pourcentages relativement significatifs sont aussi `a signaler pour les demandes contenant 3 ou 4 termes (respectivement 13,7% et 4,8%). Au total, les requˆetes de moins de cinq termes couvrent 96,6% du volume total de requˆetes. Ces r´esultats sont en accord avec ceux rapport´es dans des ´etudes ant´erieures [41], [64], montrant que la plupart des requˆetes Web sont peu complexes. Ce faible compl´exit´e confirme la pertinence d’un traitement des requˆetes images par des structures conceptuelles. De plus, ces requˆetes ´etant souvent ambigu¨es, puisque exprim´ees de mani`ere concise, les structures linguistiques permettent de s´eparer les diff´erents sens d’un concept. Ainsi, si un utilisateur cherche des images de Cambridge, une structure linguistique ad´equate proposera une s´eparation entre Cambridge en Angleterre et Cambridge, Massachusetts. 3.1.1.2

Analyse des sessions

La figure 3.2 illustre une r´epartition des sessions en fonction de leur longueur exprim´ee en nombre de requˆetes.

Fig. 3.2 – R´epartition des sessions compte tenu du nombre de requˆetes. Les sessions compos´ees d’au maximum cinq requˆetes repr´esentent plus de la moiti´e du volume total. Les sessions tr`es longues (>20) repr´esentent un volume non-n´eglig´eable (9%). Le plus grand nombre de sessions est atteint pour celles compos´ees d’une seule requˆete (18,9%). Les sessions contenant au maximum cinq requˆetes repr´esentent 55,2% du volume total. Le pourcentage de sessions tr`es longues (20 ou plus de requˆetes) est non n´egligeable (9,2%). Il est difficile d’interpr´eter le comportement de l’utilisateur en fonction du nombre de requˆetes dans une session, car une recherche, courte ou longue, peut aussi bien ˆetre satisfaisante ou infructueuse. Bien que cette analyse ne nous permette pas de savoir combien de tentatives sont n´ecessaires `a un utilisateur pour acc´eder ` a des r´esultats qu’il juge pertinents, l’importance des sessions longues (figure 3.2) permet n´eanmoins d’´emettre l’hypoth`ese que l’utilisateur, pour acc´eder `a des « bons » r´esultats, a besoin de plusieurs tentatives. Ce probl`eme est relativement connu des moteurs de recherche actuels qui ne guident d’aucune mani`ere l’utilisateur `a formuler plus effica-

3.1. ANALYSE D’UN FICHIER DE LOG

79

cement ses requˆetes. Exploiter des ressources conceptuelles au sein de l’architecture de recherche permet d’enrichir l’interaction entre le syst`eme et utilisateur, en proposant `a tout moment un ensemble de requˆetes conceptuellement proches. 3.1.1.3

R´ epartition des pages de r´ esultats regard´ ees

La plupart des moteurs de recherche ´etudient la r´epartition des pages consult´ees pendant les sessions de recherche pour cibler la ou les pages o` u il est souhaitable d’optimiser la qualit´e des r´eponses (c’est notamment l’objectif du r´ecent Visual Rank propos´e par Google en am´eliorant la pr´ecision des toutes premi`eres pages `a partir du contenu des images [65]).

Fig. 3.3 – R´epartition des pages de r´esultats regard´ees par les utilisateurs. Plus de la moiti´e des r´esultats consult´es sont ceux de la premi`ere page, mais les pages suivantes ne sont pas n´eglig´ees puisque les dix premi`eres pages repr´esentent 87% des consultations. Les r´esultats de la figure 3.3 montrent que la majorit´e des r´esultats consult´es (55,8%) apparaˆıt la premi`ere page. Les quatre premi`eres pages de r´eponses repr´esentent environ 75% du volume des r´esultats consult´es par les utilisateurs, volume qui monte `a 87% en consid´erant les dix premi`eres pages. On retrouve, tr`es naturellement, l’importance de la premi`ere page de r´esultats, mais ces chiffres montrent surtout que, dans le cas d’une recherche d’images, il ne faut pas n´egliger les pages suivantes. Il est ainsi remarquable que les utilisateurs vont au-del` a de la quinzi`eme page de r´esultats dans 7,6% des cas. Ces valeurs sont plus importantes que celles signal´ees pour les requˆetes textuelles [63], o` u les recherches se concentrent quasi exclusivement sur les deux ou trois premi`eres pages de r´eponses. Dans le cas de la recherche d’images, la distribution des pages consult´ees, plus vaste que celle d’une recherche d’information textuelle, est un argument en faveur de l’introduction d’une recherche d’images par le contenu, permettant une exploration en

´ ` CHAPITRE 3. DEMARCHE DE LA THESE

80

profondeur de l’espace des r´eponses. Cette modalit´e r´epondrait `a un sc´enario d’utilisation dans lequel un utilisateur trouvant une image int´eressante acc`ede directement `a d’autres images similaires sans avoir ` a regarder toutes les pages de r´eponses propos´ees par le syst`eme. 3.1.1.4

Analyse des requˆ etes fr´ equentes

Goodrum et al. [41] proposent une analyse manuelle des requˆetes images les plus fr´equentes et de les associer ` a des domaines conceptuels. Ils rapportent que le top 100 des demandes couvrent plus de la moiti´e du nombre total de requˆetes. Nous avons utilis´e une m´ethodologie similaire et nous pr´esentons les r´esultats class´es selon diff´erents domaines. Apr`es filtrage des requˆetes relatives `a la pornographie, le domaine le mieux repr´esent´e est celui des personnalit´es (12 requˆetes, avec un seul homme — Brad Pitt — en 56i`eme position). Parmi les autres domaines, nous citons : les animaux et plantes (7), l’informatique (5 termes), l’automobile (4), les termes g´en´eraux d´esignant des personnes (4), la g´eographie (3). Nous avons observ´e une pr´edominance des concepts assez g´en´eraux, comme animal, chien, wallpaper ou fleur. Le poids des 100 requˆetes les plus fr´equentes dans l’ensemble du fichier de log est de 4,33%, contre plus de 50% dans [41]. Cette forte diff´erence s’explique par la taille du fichier analys´e : environ trois millions de requˆetes ici et seulement 30000 dans [41]. Le poids de 4,33% relativise sensiblement la repr´esentativit´e d’une analyse des domaines de recherche bas´ee uniquement sur les termes les plus fr´equents et repr´esente un argument suppl´ementaire pour une ´etude plus d´etaill´ee des requˆetes. 3.1.1.5

Termes vs. concepts

Une diff´erence importante par rapport `a la m´ethodologie classique d’analyse vient du fait que nous ne consid´erons pas les requˆetes comme une suite de termes s´epar´es par des espaces mais plutˆ ot comme des concepts (simples ou compos´es). Ainsi, une recherche d’images pour labrador retriever ou Fran¸cois Mitterand sont toutes les deux consid´er´ees comme des requˆetes mono-conceptuelles. Nous avons examin´e manuellement 1000 requˆetes afin de mettre en ´evidence la diff´erence entre un comptage classique et une analyse prenant en compte les concepts. Pour obtenir ces 1000 requˆetes, nous avons ´echantillonn´e al´eatoirement le fichier de log et nous avons retenu chaque requˆete une seule fois. Sur ces 1000 ´echantillons, 837 ont ´et´e retenus (les requˆetes inconnues o` u en d’autres langues que le fran¸cais ou l’anglais n’ayant pas ´et´e prises en compte). Exalead ´etant un moteur de recherche essentiellement connu par un public francophone, les requˆetes fran¸caises sont naturellement plus nombreuses que celles en anglais. Les requˆetes identiques en fran¸cais et en anglais incluent notamment des noms de personnes, d’art´efacts et de lieux : – les requˆetes en fran¸cais : 296 ; – les requˆetes en anglais : 215 ; – les requˆetes identiques aux deux langues : 326.

3.1. ANALYSE D’UN FICHIER DE LOG

81

Fig. 3.4 – Comparaison entre une analyse classique bas´ee sur les termes et une analyse bas´ee sur le nombre de concepts dans une requˆete. Nous observons une diff´erence notable entre les requˆetes mono-termes et les requˆetes mono-conceptuelles.

La distribution des requˆetes en tant que suite de termes dans l’´echantillon analys´e manuellement suit approximativement la distribution globale du nombre de requˆetes de la figure 3.1. La comparaison avec une approche par concepts, pr´esent´ee dans la figure 3.4, montre des diff´erences significatives entre ces deux types d’analyse. Le volume des requˆetes mono-conceptuelles repr´esente 64,2% du total, alors que les requˆetes contenant un seul terme repr´esentent uniquement 34,9% de l’´echantillon. Si on additionne les requˆetes contenant deux concepts, le volume total d´epasse 94% de l’´echantillon. Les diff´erences de complexit´e entre les deux types d’analyse s’expliquent principalement par le fait que l’on consid`ere les noms de personnes (Tom Waits), d’art´efacts (Xsara Picasso) et de lieux (Charente Maritime) comme des requˆetes mono-conceptuelles. Ces r´esultats confirment le fait que les requˆetes mono-conceptuelles constituent la majorit´e des requˆetes images sur Internet et confirment la coh´erence de l’utilisation de structures linguistique adapt´ees aux diff´erents domaines conceptuels. Apr`es avoir caract´eris´e globalement les requˆetes des utilisateurs, nous nous focalisons sur nos trois domaines d’´etude : les noms communs, les noms de personnes et les entit´es g´eographiques. Nous tentons plus particuli`erement de r´epondre aux questions suivantes : – Quelle est la distribution des requˆetes dans chacun de ces domaines conceptuels ? – Comment les utilisateurs forment leurs requˆetes dans ces domaines et quel est le niveau de g´en´eralit´e de ces requˆetes ?

´ ` CHAPITRE 3. DEMARCHE DE LA THESE

82

3.1.2

Analyse utilisant WordNet

Nous avons utilis´e les termes inclus dans la hi´erarchie conceptuelle de la version anglaise de WordNet, contenant plus de 100000 chaˆınes nominales uniques. Cette ressource est aussi d´evelopp´ee qu’un dictionnaire et pr´esente l’avantage de contenir des relations d’h´eritage conceptuel, facilitant le regroupement des concepts dans diff´erentes sous-hi´erarchies. 3.1.2.1

Mesures statistiques

Nous avons extrait la liste de chaˆınes nominales uniques du WordNet anglais et nous avons consid´er´e son intersection avec l’ensemble de l’´echantillon du fichier de log. Nous pr´esentons tout d’abord quelques statistiques globales sur la distribution des requˆetes en nous basant sur les ´el´ements de WordNet (tableau 3.1). Tab. 3.1 – Statistiques g´en´eriques concernant la distribution des requˆetes images identiques ` a des termes de WordNet.

Monos´emiques Polys´emiques Instances Concepts Feuilles Non-feuilles Feuilles et non-feuilles Total

Nombre de concepts uniques 15236 7446 4827 17855 14721 3315 4646 22782

Volume de requˆetes 189421 168657 75060 283018 194353 51131 112594 358078

L’intersection entre le fichier de log et la hi´erarchie de noms du WordNet anglais repr´esentent 358078 requˆetes (dont 22782 requˆetes distinctes) soit environ 12% du nombre total de requˆetes exprim´ees par les utilisateurs. Sur les 358078 requˆetes de WordNet, 283018 concernent des concepts et 75060 des instances (tel que Paris ou Madonna). Nous n’avons pas eu ` a disposition une hi´erarchie des noms en fran¸cais pour r´ealiser une ´etude similaire, une perspective int´eressante serait n´eanmoins de refaire cette analyse pour les requˆetes en fran¸cais. Un volume de 168657 requˆetes (7446 concepts diff´erents) de WordNet correspond `a des termes polys´emiques, tandis que 189421 requˆetes (15236 termes uniques) sont associ´ees ` a des concepts monos´emiques. Le nombre moyen de requˆetes associ´ees `a chaque concept polys´emique est de 22,65 soit environ deux fois plus grand que pour les concepts monos´emiques. La distribution des requˆetes en fonction de leur caract`ere polys´emique montre que le poids des requˆetes ambigu¨es est important. Un volume de 75060 requˆetes (4827 termes diff´erents) est associ´e `a des instances de WordNet et 283018 requˆetes (17855 concepts uniques) correspondent `a des concepts de WordNet. La hi´erarchie de noms de

3.1. ANALYSE D’UN FICHIER DE LOG

83

WordNet n’est pas tr`es riche en instances, le pourcentage d’instances ´etant d’environ 25% du nombre total de nœuds de la hi´erarchie lexicale. Le rapport entre le nombre de requˆetes correspondant ` a des instances et `a des concepts dans le fichier de log est plus ´equilibr´e que celui r´esultant de l’utilisation de WordNet (voir les sections 3.1.3 et 3.1.4). WordNet permet de diff´erencier les concepts qui ont aucun, un ou plusieurs h´eritiers. Il faut pr´eciser que les deux cat´egories ne sont pas mutuellement exclusives car il existe des termes apparaissant dans les deux cas, comme dog, dont le premier sens (l’animal) est inclus dans un synset ayant des h´eritiers contrairement au quatri`eme sens, la contraction de hot dog. Le volume de requˆetes pour des termes feuille atteint 194353 (14721 uniques) tandis que le volume de requˆetes pour des concepts ayant des h´eritiers est de 51131 (3315 uniques) et l’intersection contient 112594 requˆetes (4646 uniques). Les feuilles constituent approximativement 75% du nombre total de nœuds de la hi´erarchie lexicale et elles sont mieux repr´esent´ees dans le fichier de log. Les r´esultats obtenus indiquent que les requˆetes des utilisateurs portent majoritairement sur des termes assez sp´ecifiques.

Tab. 3.2 – Distribution des concepts de WordNet en fonction du nombre de mots qui les composent. Mots/Concept 1 2 3 4 5 Plus

Nombre de concepts 57506 51522 7107 1265 271 54

Le tableau 3.2 repr´esente la distribution des concepts de WordNet en fonction du nombre de termes les composant. Cette distribution montre que plus de la moiti´e des concepts sont form´es de plus d’un mot. Dans les ´etudes de fichiers de log classiques, toutes les requˆetes portant sur ces termes seraient consid´er´ees comme compos´ees de plus d’un terme. Dans le tableau 3.3, nous pr´esentons une distribution des requˆetes mono-conceptuelles appartenant ` a WordNet en fonction du nombre de mots formant un concept. Confirmant les r´esultats de l’analyse manuelle de la section 3.1.1, les r´esultats du tableau 3.3 montrent qu’il y a une diff´erence significative entre notre et une analyse classique par termes. On observe ainsi que 7,8% des requˆetes mono-conceptuelles contiennent deux mots ou plus. L’´ecart par rapport `a l’analyse manuelle s’explique par la plus faible quantit´e de noms compos´es d’art´efacts et de personnes dans WordNet par rapport `a l’´echantillon trait´e dans la section 3.1.1.

´ ` CHAPITRE 3. DEMARCHE DE LA THESE

84

Tab. 3.3 – Distribution des requˆetes WordNet en fonction du nombre de mots dans un concept. Mots/Concept 1 2 3 4 5 Plus

3.1.2.2

Nombre de concepts uniques 17751 4462 404 56 7 0

Volume de requˆetes 330238 25795 1822 209 12 0

R´ epartition th´ ematique

L’utilisation de WordNet permet de classer les requˆetes en fonction de leur domaine conceptuel, cette classification ´etant plus adapt´ee qu’une classification manuelle des requˆetes les plus fr´equentes. Dans un premier temps, WordNet nous a permis de d´efinir un ensemble de domaines conceptuels potentiellement importants pour la recherche d’images. Nous avons ensuite calcul´e la distribution des requˆetes par rapport ` a ces domaines. Pour chaque classe, nous avons ´etudi´e le volume de requˆetes monos´emiques et polys´emiques, le nombre de requˆetes communes `a deux des domaines ´etudi´es et le nombre de requˆetes associ´ees uniquement au premier sens des termes. Les cat´egories sont les suivantes : – entit´es abstraites / concr`etes – entit´es vivantes / concepts naturels / art´efacts – animaux / plantes – instruments / structures – groupes / relations / caract´eristiques psychologiques Tab. 3.4 – Distribution des requˆetes WordNet dans les classes abstrait, concret et leur intersection.

Type de concept monos´emiques Entit´es polys´emiques abstraites monos´emiques Entit´es polys´emiques concr`etes Communs

Tous les sens Nombre de Volume de concepts requˆetes 4442 57619 1741 18772 10509 120860 2595 48568 4232 112257

Premier sens uniquement Nombre de Volume de concepts requˆetes 7626

118057

14925

238678





3.1. ANALYSE D’UN FICHIER DE LOG

85

Les r´esultats du tableau 3.4 montrent que les requˆetes relatives `a des concepts concrets sont plus nombreuses que pour des concepts abstraits (169428 contre 75399). Ce r´esultat est naturellement peu surprenant et renvoie `a la plus grande « figurabilit´e » des concepts concrets. Les requˆetes correspondant `a des termes abstraits constituent environ 1/3 du total et le nombre de requˆetes communes aux deux domaines (comme match, dont le premier sens est celui d’allumette et le deuxi`eme de comp´etition) est de 112257. Le rapport entre les deux types d’entit´es compar´ees est conserv´e quand on prend en compte uniquement le premier sens des mots (qui est, dans la grande majorit´e des cas, le sens de base). Tab. 3.5 – Distribution du nombre de requˆetes dans les classes entit´es vivantes, concepts naturels, art´efacts et leur intersection.

Type de concept monos´emiques polys´emiques monos´emiques polys´emiques monos´emiques Art´efacts polys´emiques Communs Entit´es vivantes Concepts naturels

Tous les sens Nombre de Volume de concepts requˆetes 5060 57414 1923 47767 276 1156 159 5643 2265 25780 1562 29365 829 24103

Premier sens uniquement Nombre de Volume de concepts requˆetes 6833

94488

248

3967

3126

45028





La s´eparation par domaines propos´ee dans le tableau 3.5 est inspir´ee par [72]. Nous observons que les entit´es vivantes sont les plus nombreuses, suivies par les art´efacts et par les concepts naturels. Notons que le premier domaine inclut les noms de personnes, cette classe ´etant repr´esent´ee par 72848 requˆetes, pour 4833 concepts uniques. Dans le cas des art´efacts, le rapport entre le volume de requˆetes monos´emiques et polys´emiques est en faveur des requˆetes polys´emiques, ce qui est en opposition avec la tendance g´en´erale observ´ee au niveau de la hi´erarchie lexicale. Nous diff´erencions ´egalement les requˆetes pour des noms d’animaux et de plantes (tableau 3.6). La classe des animaux est mieux repr´esent´ee que celle des plantes (31443 requˆetes contre 10637). Parmi les animaux, les sous-classes les mieux repr´esent´ees sont les mammif`eres (16365), les oiseaux (5216) et les reptiles (2216). Pour les plantes, les deux principaux sous-domaines sont les arbres et les fleurs. Pour les art´efacts (tableau 3.7), nous avons s´epar´e les instruments (comme knife ou computer ) qui totalisent 33701 requˆetes pour 2223 concepts uniques et les structures (dans le sens de construction, comme bridge ou airport) qui totalisent 8147 requˆetes pour 674 concepts uniques. La forte polys´emie des requˆetes concernant des art´efacts est encore plus importante pour les instruments, puisque environ 2/3 des requˆetes sont

´ ` CHAPITRE 3. DEMARCHE DE LA THESE

86

Tab. 3.6 – Distribution des requˆetes dans les classes animaux et plantes.

Type de concept monos´emiques polys´emiques monos´emiques Plantes polys´emiques Communs Animaux

Tous les sens Nombre de Volume de concepts requˆetes 1014 8686 636 22757 623 2983 385 7654 25 633

Premier sens uniquement Nombre de Volume de concepts requˆetes 1194

15336

835

7770





Tab. 3.7 – Distribution des requˆetes dans les classes instruments et structures.

Type de concept monos´emiques polys´emiques monos´emiques Structures polys´emiques Communs Instruments

Tous les sens Nombre de Volume de concepts requˆetes 1188 11795 1339 21906 370 3374 303 4773 166 3896

Premier sens uniquement Nombre de Volume de concepts requˆetes 1517

18883

522

5688





ambigu¨es. Le tableau 3.8 pr´esente la distribution des requˆetes pour les groupes, les relations (comme unemployment rate ou pace) et les caract´eristiques psychologiques (comme intelligence ou event). Le domaine le mieux repr´esent´e est celui des caract´eristiques psychologiques (avec 72476 requˆetes) dont les deux principales sous-classes sont les ´ev´enements (45667) et les concepts li´es ` a la cognition (32341). Puis, on trouve les sous-concepts de groupe (23954 requˆetes) puis des relations (5602 concepts). L’analyse du fichier de log en utilisant une comparaison avec WordNet permet d’analyser plus finement la distribution des requˆetes au sein de grands domaines conceptuels. Un nombre tr`es important de requˆetes portant sur des noms de personnes, nous allons proc´eder ` a une analyse plus approfondie de ce domaine dans la section suivante. D’autres domaines regroupent une quantit´e significative de requˆetes comme les ´ev´enements, les instruments ou les animaux1 . 1 Il serait int´eressant d’´etendre l’analyse pr´esent´ee ici en utilisant des listes de termes plus riches pour des domaines comme les art´efacts (incluant plus particuli`erement pour l’automobile, les marques, types et caract´eristiques des voitures).

3.1. ANALYSE D’UN FICHIER DE LOG

87

Tab. 3.8 – Distribution du nombre de requˆetes dans les classes groupes, relations, caract´eristiques psychologiques et leur intersection.

Type de concept monos´emiques polys´emiques monos´emiques Relations polys´emiques Caract. monos´emiques psycho. polys´emiques Communs Groupes

3.1.3

Tous les sens Nombre de Volume de concepts requˆetes 999 6403 434 17551 149 2283 147 3319 1883 27876 2281 44600 580 15630

Premier sens uniquement Nombre de Volume de concepts requˆetes 1251

10718

290

4349

3035

48044





Analyse des requˆ etes pour des noms de personnes

Les requˆetes compos´ees de noms de personnes correspondent majoritairement `a des personnalit´es c´el`ebres. Nous avons constitu´e une liste d’environ 70000 noms en exploitant Wikip´edia et NNBD2 . Cinq sous-domaines sont bien repr´esent´es dans cette liste : les acteurs, les sportifs, les chanteurs/musiciens, les mod`eles/mannequins et les politiciens. La liste inclut ´egalement des noms d’artistes, de scientifiques, d’´ecrivains, d’hommes d’affaires et d’autres cat´egories. Le tableau 3.9 pr´esente la distribution des requˆetes. Le fichier de log contient un volume total de 108062 requˆetes (9625 noms diff´erents) correspondant ` a des noms de personnalit´es. La cat´egorie la mieux repr´esent´ee est celle des acteurs, avec 44727 requˆetes, 59334 si on compte ´egalement les personnalit´es exer¸cant plusieurs activit´es, dont acteur. Les chanteurs et les mod`eles / mannequins sont ´egalement bien repr´esent´es, avec respectivement 14091 et 12879 requˆetes (21028 et 25095 requˆetes si on compte ´egalement les noms appartenant ` a plus d’une cat´egorie). Nous avons repr´esent´e dans le tableau 3.9 les cat´egories de personnalit´es repr´esent´ees par plus de 1000 requˆetes. Cette liste inclut, `a part celles d´ej` a mentionn´ees : les sportifs, les politiciens, les artistes (autres que ceux d´ej`a mentionn´es), les ´ecrivains, les hommes d’affaires et les scientifiques. Nous avons ´egalement calcul´e des intersections entre domaines. On observe des valeurs importantes pour les acteurs et mod`eles, acteurs et chanteurs ou chanteurs et mod`eles. Nous pr´esentons dans le tableau 3.10, les dix requˆetes les plus fr´equentes pour chaque cat´egorie. On note une forte proportion de personnalit´es anglo-saxonnes pour les acteurs, chanteurs et mod`eles et une bonne proportion de personnalit´es fran¸caises pour les ´ecrivains et hommes politiques. Les femmes sont particuli`erement repr´esent´ees pour les cat´egories acteurs, mod`eles, chanteurs et les hommes pour les sportifs, artistes, politi2

http ://nndb.com

´ ` CHAPITRE 3. DEMARCHE DE LA THESE

88

Tab. 3.9 – Distribution des requˆetes avec des noms de personnes par domaines. Domaine d’appartenance Acteurs Chanteurs / Musiciens Mod`eles / Mannequins Sportifs Politiciens / Personnages historiques Artistes Hommes d’affaires Ecrivains Acteurs et chanteurs Acteurs et mannequins Acteurs et politiciens Acteurs et sportifs Chanteurs et mannequins Chanteurs et sportifs Chanteurs et politiciens Sportifs et mannequins Sportifs et politiciens Autres Total

Nombre de concepts 3746 1586 693 1211

Volume de requˆetes 44727 14091 12879 6794

7

12

239 130 371 168 230 8 24 9 11 1 1 9 594 9625

2387 1190 1518 4488 9847 118 154 2366 64 19 3 35 2408 108062

` l’exception des ´ecrivains et ponctuellement des politiciens (Abraham ciens et ´ecrivains. A Lincoln) et des artistes (Leonardo Da Vinci ), la majorit´e des requˆetes porte sur des personnes ayant v´ecu au XXi`eme si`ecle. Les r´esultats du tableau 3.10 sont `a mettre en relation avec ceux obtenus pour les requˆetes les plus fr´equentes (section 3.1.1). Un nombre important de requˆetes visent des sex-symbols ou des actrices pornographiques (Pamela Anderson, Carmen Electra, Jenna Jameson, Paris Hilton, Aria Giovanni ou Tera Patrick ). En analysant plus finement les r´esultats, les actrices pornographiques repr´esentent 1/3 du total des requˆetes relatives aux acteurs et actrices. Apr`es avoir analys´e les requˆetes sur des noms complets, nous avons constitu´e une liste de pr´enoms et de noms et compar´e ces deux nouvelles listes au fichier de log. Les r´esultats du tableau 3.11 sont pr´esent´es sans filtrage et contiennent des termes pouvant correspondre ` a des pr´enoms ou des noms de c´el´ebrit´es tels qu’obtenus en utilisant la liste initiale de c´el´ebrit´es. Par exemple, un chanteur s’appelant B´eb´e Manga, Manga apparaˆıt parmi les patronymes. De mˆeme, on retrouve Ferrari, qui d´esigne `a la fois une marque de voiture et un nom de famille. Le volume de requˆetes du tableau 3.11 est assez surprenant

3.1. ANALYSE D’UN FICHIER DE LOG

89

Tab. 3.10 – Top 10 requˆetes pour chaque type de c´el´ebrit´e. Domaine d’appartenance Acteurs

Chanteurs / Musiciens

Mod`eles / Mannequins

Sportifs

Politiciens Personnages historiques

/

Artistes

Hommes d’affaires

Ecrivains

Nombre de concepts Pamela Anderson ; Brad Pitt ; Angelina Jolie ; Carmen Electra ; Jessica Alba ; Emma Watson ; Jenna Jameson ; Monica Bellucci ; Keira Knightley ; Scarlett Johansson ; Madonna ; Britney Spears ; Shakira ; Christina Aguilera ; Avril Lavigne ; Nelly Furtado ; 50 cent ; Bob Marley ; Marilyn Manson ; Mariah Carey ; Justin Timberlake ; Paris Hilton ; Aria Giovanni ; Adriana Lima ; Tera Patrick ; Carla Bruni ; Keeley Hazell ; Kyla Cole ; Victoria Silvstedt ; Vida Guerra ; Laetitia Casta ; Cristiano Ronaldo ; Rafael Nadal ; David Beckham ; Michael Jordan ; Serena Williams ; Ana Ivanovic ; Thierry Henry ; Valentino Rossi ; Fernando Torres ; Tony Parker ; S´egol`ene Royal ; Nicolas Sarkozy ; Che Guevara ; Rachida Dati ; Abraham Lincoln ; Rama Yade ; George Bush ; Jacques Chirac ; Angela Merkel ; Adolf Hitler ; Spencer Tunick ; Andy Warhol ; Jock Sturges ; Salvador Dali ; Edward Hopper ; Helmut Newton ; Pablo Picasso ; Paul Klee ; Leonardo Da Vinci ; Roy Lichtenstein ; Steve Jobs ; Bill Gates ; Louis Vuitton ; Walt Disney ; Enzo Ferrari ; Ray Kroc ; Nigel Godrich ; Henry Ford ; Thierry Breton ; Muhammad Yunus ; Victor Hugo ; Jean de La Fontaine ; Jules Verne ; Khalil Gibran ; Albert Camus ; Oscar Wilde ; Guy de Maupassant ; William Shakespeare ; Charles Dickens ; Arthur Rimbaud ;

puisqu’on pouvait s’attendre ` a ce que les utilisateurs formulent plus pr´ecis´ement leurs requˆetes. Le tableau 3.12 pr´esente les 20 requˆetes les plus fr´equentes pour des termes dont le sens premier est celui d’un pr´enom ou d’un nom. Les pr´enoms les plus fr´equents sont des pr´enoms f´eminins, alors qu’on trouve une r´epartition ´equilibr´ee pour les noms de famille. Deux exemples illustratifs et c´el`ebres sont celui de S´egol`ene Royal, dont le

´ ` CHAPITRE 3. DEMARCHE DE LA THESE

90

Tab. 3.11 – Distribution des requˆetes pour les pr´enoms et les noms.

Pr´enoms Noms

Nombre de concepts 2643 6141

Volume de requˆetes 50698 47322

pr´enom apparaˆıt fr´equemment mais pas le nom et de Nicolas Sarkozy dont on voit apparaˆıtre le nom mais peu le pr´enom. Les pr´enoms les plus fr´equents sont ceux relatifs `a des acteurs et des chanteurs tandis que les noms de famille se retrouvent pour une plus grande diversit´e de domaines, incluant aussi les politiciens et les footballeurs. Tab. 3.12 – Top 20 requˆetes pour les pr´enoms et les noms.

Pr´enoms

Noms

Requˆetes les plus fr´equentes Rihanna ; Britney ; Lorie ; Clara ; Segol`ene ; Pamela ; Jenna ; Mika ; Jennifer ; Eva ; Sophie ; Sandra ; Dora ; Alice ; Sabrina ; Laura ; Pauline ; Jessica ; Monica ; Lisa ; Sarkozy ; Chirac ; Zidane ; Sharapova ; Hilton ; Casta ; Spears ; Bellucci ; Manara ; Alba ; Merkel ; Aguilera ; Bayrou ; Beckham ; Silvstedt ; Jameson ; Nasri ; Messi ; Batista ; Nadal ;

Mˆeme en se restreignant au domaine des c´el´ebrit´es, les pr´enoms et les noms de famille, utilis´es seuls, pointent habituellement vers plusieurs personnes. Il serait donc pertinent de proposer ` a un utilisateur ayant propos´e un pr´enom, une liste de noms de c´el´ebrit´es permettant de d´esambigu¨ıser sa requˆete puis d’´etendre cette requˆete `a d’autres personnalit´es ayant une relation particuli`ere avec la requˆete. Cette fonctionnalit´e est d´ej`a impl´ement´ee dans Ask, mais elle repose sur une d´etection automatique de noms de personnes et les r´esultats sont bruit´es. Par exemple, pour une requˆete avec Royal, les deux premiers r´esultats propos´es sont Prince et Queen. L’analyse des requˆetes correspondant `a des noms de personnes montre que ce domaine a un poids important mais inf´erieur `a celui calcul´e en utilisant uniquement les requˆetes les plus fr´equentes [62] ou dans notre propre analyse (Section 3.1.1). Cette diff´erence s’explique par le fait que les requˆetes relatives `a des noms de c´el´ebrit´es sont surrepr´esent´ees parmi les demandes les plus fr´equentes. Cette surrepr´esentation est caus´ee par le nombre r´eduit de noms de personnes c´el`ebres compar´e au dictionnaire g´en´eral de la langue et par la relative invariance des noms par rapport `a la langue utilis´ee pour formuler les requˆetes. Cette ´etude souligne les principales cat´egories de personnalit´es recherch´ees par les

3.1. ANALYSE D’UN FICHIER DE LOG

91

utilisateurs d’un moteur de recherche. Le domaine le mieux repr´esent´e est celui des acteurs, suivi par les mannequins et mod`eles puis les chanteurs et musiciens. Ce r´esultat est en accord avec les classements des requˆetes les plus fr´equentes publi´es r´eguli`erement par les moteurs de recherche3 . D’autres domaines regroupent des quantit´es significatives de requˆetes : les sportifs et les politiciens, personnages historiques. Nous avons ´et´e surpris par la grande quantit´e de requˆetes compos´ees uniquement des pr´enoms ou des noms de famille, alors mˆeme que ces requˆetes sont fortement ambigu¨es.

3.1.4

Analyse des requˆ etes pour les noms g´ eographiques

Nous avons ´etudi´e le domaine des requˆetes g´eographiques en analysant l’intersection entre le fichier de log et Geonames. Geonames est une base de donn´ees g´eographiques contenant plus de six millions d’entr´ees pour des noms de lieux, class´es dans 645 cat´egories comme : ˆıle, pays, ville, parc ou gratte-ciel. Le volume de requˆetes correspondant exactement `a des toponymes est de 392868, reparties sur 43930 concepts diff´erents (tableau 3.13). Tab. 3.13 – Distribution des requˆetes pour des toponymes.

Uniquement Geonames Geonames et WordNet Geonames et mots fran¸cais Total

Nombre de concepts 33455 5285 5190 43930

Volume de requˆetes 162684 79156 151028 392868

´ Etant donn´e l’importance de l’intersection entre l’ensemble de toponymes et le vocabulaire g´en´eral, nous avons aussi crois´e les r´esultats avec WordNet (en excluant les noms de lieux trouv´es dans cette hi´erarchie) et avec une liste des noms communs (en fran¸cais). Nous observons une intersection significative dans les deux cas. Le nombre de requˆetes communes entre Geonames et WordNet est de 79156 entit´es, tandis que l’intersection avec le vocabulaire fran¸cais contient 151028 requˆetes. Il reste 162684 requˆetes apparaissant uniquement dans Geonames. Nous avons par la suite essay´e de classer les requˆetes en utilisant les cat´egories de Geonames mais cette approche n’a pas conduit `a des r´esultats concluants, car l’intersection entre Geonames et le vocabulaire g´en´eral est non n´egligeable : il existe dans Geonames des lieux nomm´es Sexy (localit´e au P´erou), Œil (rivi`ere en Auvergne) ou Earth (ville au Texas). La forte polys´emie des ´el´ements de la base de donn´ees g´eographiques constitue une deuxi`eme difficult´e quand on tente de cat´egoriser automatiquement des requˆetes g´eographiques. Par exemple, Parth´enon est `a la fois le nom du c´el`ebre temple d’Ath`enes, celui d’une ville et d’un bˆ atiment aux Etats-Unis et d’une ferme en Zambie. 3

http ://actu.abondance.com/2007/12/top-mots-cls-2007-google-fr.html

´ ` CHAPITRE 3. DEMARCHE DE LA THESE

92

New York est, entre autres, le nom d’un ´etat et de plusieurs villes am´ericains, d’une colline en Afrique du Sud, de deux villes en Jama¨ıque. On aurait pu suivre une d´emarche similaire ` a celle d´ecrite dans la section 3.1.2, c’est `a dire une analyse restreinte aux sens premiers de chaque terme, mais le classement automatique des diff´erents sens des termes ` d´efaut de pouvoir cat´egoriser automatiquement polys´emiques est loin d’ˆetre trivial. A les requˆetes g´eographiques, nous avons proc´ed´e `a une classification manuelle en gardant tous les termes apparaissant au moins 20 fois dans le fichier de log et en filtrant ceux dont le sens premier n’appartient pas au domaine g´eographique. En nous basant sur la r´epartition des requˆetes les plus fr´equentes du domaine g´eographique, nous avons choisi de pr´esenter les r´esultats de cette classification manuelle dans cinq grandes cat´egories, comprenant des divisions administratives (pays, r´egion, ville), des monuments connus et des entit´es naturelles. Nous avons inclus dans d’autres cat´egories les requˆetes plus rares, comme les noms de continents et de quartiers. Dans la cat´egorie R´egion, nous avons inclus des parties de pays comme les ´etats aux Etats-Unis ou les r´egions et les d´epartements de France. La classe nature contient des noms correspondant — entre autres — ` a des ˆıles, des parcs naturels ou des montagnes. La cat´egorie monuments inclut des noms de monuments connus, de mus´ees ou encore de gratte-ciels. Tab. 3.14 – Distribution des requˆetes pour des toponymes.

Pays R´egion Ville Monument Nature Autre Total

Nombre de concepts 85 36 199 38 57 7 422

Volume de requˆetes 5985 511 16768 2019 2520 613 29733

Le tableau 3.14 montre que les 422 requˆetes de notre ´echantillon ont ´et´e propos´ees 29733 fois par les utilisateurs. Si l’on compare les r´esultats des tableaux 3.14 et 3.15, on observe que 1% des requˆetes les plus fr´equentes du domaine g´eographique couvrent 10% du nombre total de requˆetes. Parmi les requˆetes les plus fr´equentes, la classe la mieux repr´esent´ee est celle des villes avec 16768 requˆetes sur un total de 29733, suivie par les pays (5985), les objets naturels (2520) et les monuments connus (2019). La plupart des requˆetes concernent des divisions administratives. Les r´esultats pr´esent´es incluent un grand nombre de termes familiers aux utilisateurs fran¸cais, confirmant la tendance g´en´erale observ´ee dans le fichier de log. Une grande partie des concepts du tableau 3.15 repr´esente des entit´es fortement touristiques confirmant un usage fr´equent associ´e aux moteurs de recherche d’images : la visualisation des lieux « int´eressants » du monde. Sur les dix monuments les plus fr´equents, huit sont situ´es

3.1. ANALYSE D’UN FICHIER DE LOG

93

Tab. 3.15 – Requˆetes les plus fr´equentes dans le domaine g´eographique.

Pays R´egion Ville Monument

Nature

Requˆetes les plus fr´equentes France ; Maroc ; Japon ; Portugal ; Canada ; Egypte ; Chine ; Inde ; USA ; Australie ; Bretagne ; Corse ; Quebec ; California ; Texas ; Normandie ; Pays Basque ; Yorkshire ; Alsace ; Paris ; New York ; Marseille ; Lyon ; Venise ; Londres ; Versailles ; Berlin ; Rome ; Las Vegas ; Tour Eiffel ; Big Ben ; Elysee ; Taj Mahal ; World Trade Center ; Buckingham Palace Louvre ; Moulin Rouge ; London Eye ; Trafalgar Square ; Tahiti ; Martinique ; Hawaii ; Sahara ; Seychelles ; Ile Maurice ; Mont Blanc ; Grand Canyon ; Atlantique ; Mayotte ;

dans deux grandes villes Paris et Londres, deux destinations touristiques majeures. Pour les entit´es naturelles, on observe une pr´edominance des noms d’ˆıles, elles-mˆemes des destinations touristiques importantes (Martinique, Seychelles ...). Les r´esultats des tableaux 3.14 et 3.15 montrent que la majorit´e des requˆetes fr´equentes d’images g´eographiques correspond ` a des objets g´eographiques assez g´en´eraux (comme les pays ou les villes). Ces r´esultats s’accordent avec les conclusions de [121] o` u les auteurs ´etudient le poids des requˆetes g´eographiques parmi les requˆetes textuelles. Toutefois, la pr´edominance des requˆetes g´eographiques calcul´ee `a partir des requˆetes les plus fr´equentes dans [121] est ` a relativiser. L’analyse pr´esent´ee dans cette section nous a permis de d´ecouvrir quels sont les sousdomaines les mieux repr´esent´es parmi les requˆetes g´eographiques, les noms de villes, de pays, les monuments et les entit´es naturelles. Il existe aussi une corr´elation entre les requˆetes les plus fr´equentes et les grandes destinations touristiques. Cela pointe vers un usage important des moteurs de recherche d’images : la recherche d’informations touristiques qui se traduit notamment par une tr`es forte croissance du e-tourisme et une prise en compte de plus en plus importante de ce secteur par les g´eants du web (Google, Yahoo !).

3.1.5

Conclusion

L’´etude pr´esent´ee est — ` a notre connaissance — la premi`ere analyse du contenu d’un fichier de log ` a grande ´echelle selon une approche conceptuelle. Nous avons exploit´e des ressources structur´ees associ´ees ` a trois domaines qui sont apparus comme importants pour la recherche d’images sur Internet : les noms communs, les noms de personnes et les noms de lieux. Nous avons trouv´e des diff´erences importantes du poids relatif des

´ ` CHAPITRE 3. DEMARCHE DE LA THESE

94

domaines par rapport aux autres ´etudes bas´ees sur une analyse des requˆetes les plus fr´equentes [41], [121], notamment pour les noms de personnes et les toponymes. Les principales nouveaut´es apport´ees par notre approche sont : – Une mise en ´evidence de la diff´erence entre une ´etude des requˆetes bas´ee sur des termes et une ´etude focalis´ee sur les concepts. – Une ´evaluation du poids des diff´erents sous-domaines pour les trois types de requˆetes trait´ees : les noms communs, les noms de personnes et les requˆetes g´eographiques. – Une classification automatique des requˆetes par rapport `a leurs domaines d’appartenance. Cette classification est particuli`erement difficile dans le cas des requˆetes ambigu¨es. – Une cat´egorisation des requˆetes en fonction de leur niveau de g´en´eralit´e. – Une d´etection automatique des requˆetes ambigu¨es, qui constituent une partie importante du nombre total des requˆetes mono-conceptuelles. Nos r´esultats confirment ceux dans [119] avec une fr´equence encore plus grande de termes ambigus. Les principales difficult´es rencontr´ees correspondent `a : – La couverture imparfaite offerte par les ressources d´ecrivant les domaines analys´es. – Le classement automatique des sens d’un concept ambigu, particuli`erement pour les requˆetes g´eographiques. – Les ´el´ements communs ` a plusieurs langues induisent des impr´ecisions de classification, surtout pour un fichier de log multilingue comme celui sur lequel nous avons travaill´e. Cette ´etude permet de proposer quelques pistes pour am´eliorer les architectures de recherche d’images sur Internet. La majorit´e des requˆetes ´etant mono-conceptuelles4 , elles peuvent plus aisement ˆetre trait´ees en utilisant des structures linguistiques `a large ´echelle. L’analyse met en ´evidence des domaines conceptuels importants en recherche d’images, donnant ainsi un ordre de priorit´es pour la mise en place de structures linguistiques. Il serait int´eressant d’´etendre l’´etude `a plusieurs langues, notamment par la constitution de ressources similaires `a celles en anglais pour le fran¸cais, langue qui semble dominante dans ce fichier de log. Ici aussi, ce probl`eme n’est pas trivial car la version fran¸caise de WordNet n’est pas aussi compl`ete que celle pour l’anglais. Une autre direction de travail concerne la constitution de ressources pour d’autres domaines bien repr´esent´es dans le fichier de log. Afin de r´eduire le p´erim`etre de cette th`ese, nous n’avons consid´er´e que trois domaines parmi les plus importants, mais l’analyse manuelle d’un ´echantillon de requˆetes (3.1.1) indique par exemple que les noms d’art´efacts ou les noms associ´es `a des jeux vid´eo poss`edent aussi un poids important dans le fichier de log. 4

Dans le futur, nous envisageons aussi d’analyser les requˆetes plus complexes afin d’obtenir plus d’informations sur le contenu de requˆetes. Cette tˆ ache n’est pas facile puisque la classification des requˆetes complexes par rapport a ` des domaines sp´ecifiques est encore plus difficile que celle de requˆetes contenant un seul concept.

3.2. CONCEPTS ET IMAGES

95

Enfin, il serait int´eressant d’appliquer une analyse similaire aux requˆetes textuelles, qui, d’apr`es Goodrum et al. [41], sont moins complexes que les requˆetes images et pourraient, tout autant que pour les requˆetes images, tirer partie de l’utilisation de structures linguistiques.

3.2

Concepts et images

L’´etude du fichier de log montre qu’il y a plus de requˆetes pour les entit´es physiques que pour les concepts abstraits (qui forment les deux grandes sous-hi´erarchies de noms dans WordNet), ces premiers ´etant moins ais´ement « figurables » que les entit´es physiques. N´eanmoins, il existe pour certaines cat´egories abstraites des repr´esentations imag´ees stables qui sont bien repr´esent´ees dans le fichier de log. Il s’agit notamment des ´ev´enements, rang´ees dans la sous-hi´erarchie des abstractions dans WordNet, comme manifestation ou match de basketball pour lesquels il est ais´e de s’en faire une repr´esentation. Pour d’autres cat´egories abstraites, il existe parfois une (ou plusieurs) repr´esentations symboliques comme la balance pour le concept justice. Dans ce travail, nous nous concentrons sur les concepts concrets qui, directement ou par l’interm´ediaire de leurs sous-types, forment des classes d’images conceptuellement et visuellement coh´erentes.

Fig. 3.5 – En haut : diverses repr´esentations de « Notre Dame de Paris » (Source : Flickr). En bas : premiers r´esultats de Google Images. La repr´esentation d’un concept est g´en´eralement sujette `a une forte variabilit´e spatiale et temporelle (figures 3.5, 3.6). Cette variabilit´e n’est pas prise en compte par les

96

´ ` CHAPITRE 3. DEMARCHE DE LA THESE

Fig. 3.6 – Diff´erentes images de Michael Jackson (Source : Google Images). moteurs de recherche actuels qui vont chercher `a am´eliorer leur performance en pr´ecision plutˆot qu’` a assurer une bonne couverture. N´eanmoins, des tendances actuelles en recherche d’information [2] donnent justement plus d’importance `a une bonne couverture des diff´erentes repr´esentations d’une requˆete plutˆot qu’`a l’am´elioration de la pr´ecision d’une seule repr´esentation. Dans [119], Sanderson focalise son travail notamment sur les termes ambigus ne se trouvant pas dans des dictionnaires ou des th´esauri et montre exp´erimentalement que, pour ce type de requˆete plus particuli`erement, les moteurs de recherche textuelle actuels ne fournissent pas des r´esultats diversifi´es. L’introduction de ressources linguistiques dans les architectures de recherche d’images assure une meilleure couverture puisqu’elles apportent des informations qui vont sp´ecifier et d´ecrire la richesse du voisinage conceptuel de la requˆete. Par exemple, en reprenant l’exemple de la figure 3.6, une structure linguistique se rapportant aux personnalit´es inclura des d´etails biographiques de la carri`ere de Michael Jackson permettant de proposer des images repr´esentatives de la carri`ere du chanteur am´ericain (notamment en fonction des p´eriodes de sorties de ces principaux disques). D’une fa¸con identique, pour des entit´es g´eographiques, comme Notre Dame de Paris (figure 3.5), une structure linguistique ad´equate tiendra compte d’informations de localisation (g´eo-r´ef´erencement) et de cat´egorisation des entit´es. De plus, notons que l’intervention des techniques de traitement d’images permet aussi de diversifier les r´eponses, par exemple avec des approches de classification non-supervis´ee d’images que nous d´ecrivons dans 2.3.2.3.

3.2.1

Similarit´ e entre les images

Bien que la perception de la similarit´e soit influenc´ee par de multiples facteurs, nous nous concentrons uniquement dans le cadre de cette th`ese sur deux types de similarit´e entre les images : bas´ee sur des descripteurs de bas niveau et conceptuelle. Ici, nous nous int´eressons au paradigme classique d’une recherche par le contenu par l’exemple (query by example). La similarit´e visuelle n’est actuellement pas utilis´ee par les syst`emes de recherche d’images destin´es ` a un large public car une recherche « brute » par le contenu n’est pas adapt´ee ` a l’exploration d’espaces conceptuels larges. La proximit´e entre deux objets peut ˆetre ´evalu´ee selon diff´erents niveaux. Prenons un exemple : l’image d’un doberman est en mˆeme temps celle d’un chien de garde, d’un chien, d’un mammif`ere, d’un animal... Si un syst`eme de recherche d’images retourne une

3.2. CONCEPTS ET IMAGES

97

r´eponse figurant un objet d’une de ces classes, nous pouvons fixer le seuil de similarit´e `a tous les niveaux de repr´esentation cit´es et dire qu’une image de setter irlandais est similaire `a celle d’un doberman puisque les deux repr´esentent un chien ou un animal. Mais la probabilit´e de juger deux images comme ´etant similaires d´ecroˆıt avec l’´elargissement de l’espace conceptuel. Pour illustrer notre propos, nous pr´esentons les r´esultats d’une recherche par le contenu ` a partir de la mˆeme image de doberman mais dans deux espaces conceptuels diff´erents. Dans la figure 3.7, l’image requˆete (en haut, `a gauche) est compar´ee `a d’autres images de chiens de la mˆeme classe et dans la figure 3.8, la requˆete est compar´ee ` a des repr´esentations d’autres mammif`eres.

Fig. 3.7 – R´esultat d’un syst`eme CBIR pour une image de doberman `a l’int´erieur de cette classe. Dans cette th`ese, nous proposons un mod`ele hybride de similarit´e entre les images, associant une description textuelle et une caract´erisation de bas niveau. Il s’agit plus pr´ecis´ement d’un mod`ele de fusion hi´erarchique car le processus CBIR est restreint `a des images partageant des descriptions textuelles communes. Notre approche consiste `a limiter l’espace de recherche ` a des concepts tr`es sp´ecifiques, rendue possible par l’int´egration de structures linguistiques ` a grande ´echelle dans les architectures de recherche d’images. Il est possible de proposer des mod`eles de similarit´e plus complexes incluant explicitement, par exemple, la sc`ene repr´esent´ee dans l’image. Dans ce cas, il faudrait consid´erer, en plus de l’objet repr´esent´e, son contexte (mˆeme si les descripteurs de bas niveau globaux que nous utilisons mod´elisent implicitement le contexte). Il est aussi important de prendre en compte l’intention de l’utilisateur dans la mod´elisation de la similarit´e. Le but de l’utilisateur n’est toujours pas bien d´efini au d´ebut du processus de recherche.

98

´ ` CHAPITRE 3. DEMARCHE DE LA THESE

Fig. 3.8 – R´esultats quand on restreint la recherche `a l’int´erieur de la classe mammif`eres. Cela se refl`ete g´en´eralement par une forte ambigu¨ıt´e de la requˆete (en premi`ere intention, une requˆete est souvent assez courte) fournissant peu d’informations sur le contenu des images ` a retrouver. Le but de la recherche peut se pr´eciser au fur et `a mesure de l’interaction entre l’utilisateur et le syst`eme. L’utilisateur ´evolue vers des espaces conceptuels plus restreints ou utilise une recherche par le contenu souvent plus adapt´ee qu’au d´ebut de la recherche. La similarit´e de la sc`ene et celle d´etermin´ee par l’intention de l’utilisateur sont plus difficiles ` a formaliser et m´eriteraient une ´etude s´epar´ee, aussi nous ne les incluons pas dans notre mod`ele de similarit´e entre les images.

3.3 3.3.1

Syst` eme de recherche d’images bas´ e sur la s´ emantique D´ efinition de structures s´ emantiques

En nous basant sur plusieurs travaux [4], [129], [11], [32], nous pr´esentons et illustrons un vocabulaire minimal d´ecrivant l’agr´egation des concepts dans des ressources s´emantiques. Definition 1 : L’unit´e de base dans les structures s´emantiques est le concept, d´efini par son nom. Nous avons illustr´e quelques concepts dans la figure 3.9. Notons qu’il n’y a aucune liaison entre les concepts dans la figure. D´efinition 2 : Dans une structure s´emantique, une diff´erence est faite entre les concepts et les instances [102]. Les concepts (ou cat´egories) pointent vers des classes

` ´ SUR LA SEMANTIQUE ´ 3.3. SYSTEME DE RECHERCHE D’IMAGES BASE

99

Fig. 3.9 – Structure s´emantique : repr´esentation d’une s´erie de concepts. d’entit´es du monde, les instances repr´esentent des entit´es bien d´etermin´ees, uniques et indivisibles en sous-concepts. Dans la figure 3.10, pays, chien ou chien de garde sont des cat´egories tandis que Ville Lumi`ere, Paris et France sont des instances. D´efinition 3 : La liaison entre deux concepts d’une ressource s´emantique se fait par l’interm´ediaire d’une relation (figure 3.11). Deux concepts peuvent ˆetre reli´es par une ou plusieurs relations. Les d´efinitions 1 et 3 repr´esentent le cadre minimal sur lequel repose une structure s´emantique et s’appliquent (avec des variations de vocabulaire) `a la construction de toute ressource conceptuelle. Jusqu’ici, cette derni`ere notion se d´efinit math´ematiquement comme un graphe non directionnel (3.11), contenant en plus de nœuds de la figure 3.10, des arrˆetes reliant ces nœuds. Les d´efinitions suivantes vont apporter plus de pr´ecisions sur la nature de ce graphe. D´efinition 4 : L’h´ eritage conceptuel est une relation fondamentale pour les concepts et est caract´eris´ee par les propri´et´es suivantes : – La relation d’h´eritage n’est pas sym´etrique. Si A h´erite de B, B ne peut pas h´eriter de A. – La relation d’h´eritage est transitive [4]. Si A h´erite de B et B h´erite de C, alors A h´erite de C. Un graphe dot´e de la relation d’h´eritage conceptuel (3.12) devient directionnel (et hi´erarchique), il est possible de d´eduire certaines propri´et´es d’un concept compte tenu du groupe de ses parents. Ainsi un doberman est un type de chien de garde qui est un h´eritier de chien etc. Dans la figure 3.12, Paris est `a la fois un sous-type de d´epartement et de ville et repr´esente un cas d’h´eritage multiple. La pr´esence de l’h´eritage multiple dans une hi´erarchie conceptuelle enrichit la structure de celle-ci, mais est en contradiction avec certains formalismes, comme les logiques de description, utilis´ees pour mod´eliser les

100

´ ` CHAPITRE 3. DEMARCHE DE LA THESE

Fig. 3.10 – Structure s´emantique : s´eparation entre concepts (fond bleu) et instances (fond jaune) dans les structures s´emantiques.

Fig. 3.11 – Structure s´emantique : repr´esentation des relations entre les nœuds.

` ´ SUR LA SEMANTIQUE ´ 3.3. SYSTEME DE RECHERCHE D’IMAGES BASE

101

Fig. 3.12 – Structure s´emantique : repr´esentation des relations d’h´eritage conceptuel.

Fig. 3.13 – Structure s´emantique : la relation de synonymie est repr´esent´ee en bleu.

102

´ ` CHAPITRE 3. DEMARCHE DE LA THESE

ontologies formelles [37]. Nous avons fait le choix de permettre l’h´eritage multiple dans les structures utilis´ees dans notre travail car ce choix rend mieux compte de l’organisation des concepts dans le monde. La r´eunion des sous-concepts d’une cat´egorie forme son domaine conceptuel. D´efinition 5 : La synonymie est la relation reliant diff´erents termes qui expriment un mˆeme concept (figure 3.13). La synonymie permet de r´eduire le nombre de nœuds dans un graphe en regroupant les termes synonymes. Le regroupement des synonymes est par exemple effectu´e dans WordNet [32] et structure les unit´es minimales de la hi´erarchie lexicale. Dans la figure 3.13, les termes Ville Lumi`ere et Paris sont regroup´es car ils pointent vers la mˆeme entit´e du monde. Les deux termes auront les mˆemes propri´et´es dans la hi´erarchie conceptuelle. D´efinition 6 : L’homonymie est une relation mettant en correspondance des termes s’´ecrivant de la mˆeme fa¸con mais qui pointent vers des entit´es diff´erentes.

Fig. 3.14 – Structure s´emantique : la relation d’homonymie est repr´esent´ee en bleu. L’homonymie (figure 3.14) permet de s´eparer les diff´erents sens d’un terme pr´esents dans une ressource s´emantique. Cette diff´erenciation est importante dans le contexte de la recherche d’images car, pour les termes polys´emiques, on attache des classes d’images s´epar´ees ` a chaque sens d’un terme. Par exemple, Paris peut ˆetre aussi bien une ville en France qu’une ville aux Etats-Unis. D´efinition 7 : La m´ eronymie est la relation reliant une partie de son ensemble et est caract´eris´ee par les propri´et´es suivantes : – La relation de m´eronymie n’est pas sym´etrique. Si A est une partie de B, B ne peut pas ˆetre une partie de A. – La relation de m´eronymie est transitive : si B est une partie de A et C est une partie de B, alors C est une partie de A. Dans la figure 3.15, nous avons illustr´e quelques relations de m´eronymie. On voit qu’une ville est une partie d’un d´epartement qui, `a sont tour, est une partie d’un pays.

` ´ SUR LA SEMANTIQUE ´ 3.3. SYSTEME DE RECHERCHE D’IMAGES BASE

103

Fig. 3.15 – Structure s´emantique : la relation de m´eronymie est repr´esent´ee en vert.

Fig. 3.16 – Structure s´emantique : les relations ACouleur and ACapitale sont repr´esent´ees en magenta.

104

´ ` CHAPITRE 3. DEMARCHE DE LA THESE

Notons que, ` a la diff´erence de l’h´eritage conceptuel, une instance peut se diviser en parties. Dans la figure 3.15, la France (une instance de pays) contient Paris (une instance de ville). La r´eunion des parties d’un concepts forme son domaine partonymique. En plus des relations d´ej` a mentionn´ees dans d´ef. 3 `a d´ef. 7, les structures s´emantiques peuvent ˆetre caract´eris´ees par des relations ayant un sens seulement pour une partie de la structure ou pour certains domaines d’applications utilisant la ressource. Les relations sp´ecifiques ` a des domaines conceptuels particuliers instancient des propri´et´es d´ecrivant la structure de ce domaine plus en d´etail que les relations s’appliquant `a toutes les cat´egories incluses dans la structure. La structure du graphe d´ecrivant la ressource s´emantique s’enrichit localement et permet une meilleure description des domaines conceptuels. Dans la figure 3.16, nous illustrons deux relations sp´ecifiques `a des domaines conceptuels : ACouleur relie Doberman et noir et marron ; ACapitale relie la France `a Paris. Les relation ACouleur et ACapitale n’ont de sens que dans des espaces conceptuels bien d´etermin´es. Les d´efinitions 1 ` a 7 nous permettent de construire des structures s´emantiques comprenant des concepts et des relations entre ces derniers. Le choix des relations `a d´efinir d´epend du domaine conceptuel mod´elis´e, ainsi que de l’application envisag´ee. Nous allons pr´esenter des exemples concrets de mod´elisation de domaines dans le chapitre 4. Notre usage des ressources s´emantiques est diff´erent de celui adopt´e par la communaut´e « Web S´emantique » car nous restons dans une perspective anthroponcentr´ee. Le but du Web S´emantique est de faire communiquer des machines de mani`ere « intelligente » utilisant une mod´elisation conceptuelle du contenu des pages Web [10]. Cela implique une description des connaissances sous forme d’ontologies formelles qui permettent un raisonnement automatique sur leur contenu. Nous introduisons les structures conceptuelles dans l’architecture de recherche uniquement pour aider l’utilisateur et les connaissances inclues dans ces structures ne sont pas aussi formalis´ees que celles contenues dans les ontologies formelles. Dans notre approche, le raisonnement automatique se r´esume ` a l’exploitation des relations de base, comme l’h´eritage conceptuel ou l’inclusion spatiale et est r´ealisable ` a l’int´erieur des formalismes comme les bases de donn´ees relationnelles.

3.3.2

Les fonctionnalit´ es offertes par les structures s´ emantiques

Nous d´ecrivons, dans les sous-sections suivantes, les principaux rˆoles des structures linguistiques dans les syst`emes de recherche d’images bas´es sur la s´emantique. 3.3.2.1

Reformulation automatique des requˆ etes

L’introduction de ressources s´emantiques dans la recherche d’images permet une reformulation automatique des requˆetes qui contribue `a l’am´elioration de la pertinence des r´eponses. La reformulation automatique est un processus de substitution d’une demande d’information initiale par des versions modifi´ees, mieux d´efinies. Rappelons que, dans le cadre de ce travail, nous nous int´eressons aux requˆetes mono-conceptuelles. La reformulation des requˆetes plus complexes est un sujet suffisamment vaste et complexe pour faire l’objet d’une ´etude s´epar´ee. Prenons un exemple de reformulation pour un nom

` ´ SUR LA SEMANTIQUE ´ 3.3. SYSTEME DE RECHERCHE D’IMAGES BASE

105

commun en utilisant WordNet : un utilisateur demande des images pour butterfly. Une premi`ere observation est que le terme d´esigne deux concepts diff´erents : un insecte et un style de nage. Avec l’utilisation du r´eseau lexical, le syst`eme va s´eparer ces deux sens. Si on consid`ere le sens de base du terme (l’insecte) on utilisera les nœuds terminaux dans le domaine conceptuel du premier sens de butterfly pour former des nouvelles requˆetes, compos´ees du concept initial et des termes feuilles : butterfly + monarch, butterfly + tortoiseshell ou butterfly + admiral (figure 3.17). La reformulation permet de structurer les r´esultats, de mieux borner la requˆete et ainsi de proposer des r´eponses plus pr´ecises puisque la probabilit´e de trouver une image non pertinente avec une nouvelle requˆete enrichie (butterfly + monarch par exemple) est plus faible que pour une requˆete compos´ee du seul concept (butterfly).

Fig. 3.17 – Images de diff´erents types de papillons : monarch, tortoiseshell et admiral.

3.3.2.2

Structuration des r´ esultats

Les moteurs actuels de recherche sur Internet ne proposent pas une organisation conceptuelle des r´eponses. L’introduction de ressources linguistiques mod´elise conceptuellement l’espace de recherche guide le processus de recherche en fonction des relations entre les concepts de la hi´erarchie. La relation type — sous-type est utilis´ee dans notre approche pour d´ecrire un concept par l’interm´ediaire de ses h´eritiers. Dans la figure 3.18, nous pr´esentons les r´esultats renvoy´es par Google `a la requˆete skyscraper (trois des images repr´esentent une maquette ou une image de synth`ese). Si on r´ealise d’abord une reformulation automatique avec des instances de gratte-ciel, comme Eiffel Tower, Empire State Building, Petronas Towers ou Sears Tower, les r´eponses obtenues seront celles de la figure 3.19, on notera la coh´erence et la diversit´e des r´esultats. 3.3.2.3

Navigation enrichie

L’exploitation de ressources linguistiques `a large ´echelle permet aux syst`emes de recherche d’images d’aider l’utilisateur ` a mieux d´efinir sa recherche mais aussi d’actualiser les connaissances de l’utilisateur ou de le faire en d´ecouvrir de nouvelles. La structure des hi´erarchies permet la pr´esentation de trois types de concepts associ´es `a la requˆete courante :

106

´ ` CHAPITRE 3. DEMARCHE DE LA THESE

Fig. 3.18 – Images de skyscraper de Google Images.

Fig. 3.19 – Images structur´ees de skyscraper.

` ´ SUR LA SEMANTIQUE ´ 3.3. SYSTEME DE RECHERCHE D’IMAGES BASE

107

– Concepts sp´ecialis´es : si la requˆete building est propos´ee, le moteur de recherche peut proposer des raffinements comme house, skyscraper ou theater qui elles-mˆemes peuvent conduire ` a d’autres concepts sp´ecialis´es comme Eiffel Tower, Empire State Building ou Petronas Towers dans le cas de skyscraper. – Termes g´en´eraux : si l’on reprend la requˆete building, les hyp´eronymes incluent des concepts comme structure, artifact ou object. Si la requˆete initiale porte sur les Petronas Towers, des termes comme skyscraper ou building apparaˆıtront parmi les propositions plus g´en´eriques. Dans ce cas, l’utilisateur est invit´e `a explorer des espaces conceptuels plus larges que celui de d´epart. – Termes du mˆeme niveau de g´en´eralit´e : pour une requˆete avec Empire State Building, les termes proches incluent Sears Tower ou Petronas Towers. L’am´elioration de l’interactivit´e obtenue en utilisant l’h´eritage conceptuel ne s’accompagne pas d’une complexification de l’interaction entre l’utilisateur et le syst`eme puisque l’utilisateur se voit proposer des r´esultats pour chacune de ses propres requˆetes, contrairement aux exp´eriences comme Yahoo ! Directory ou Picsearch Directory, o` u l’utilisateur doit choisir sa requˆete en naviguant dans plusieurs niveau d’une hi´erarchie de concepts. Ce dernier type de navigation devient vite fastidieux et inadapt´e `a une utilisation grand public et `a une mod´elisation de larges domaines. 3.3.2.4

Adaptation des r´ esultats par rapport aux concepts repr´ esent´ es

En fonction du domaine conceptuel et en utilisant des structures s´emantiques adapt´ees, il devient possible d’adapter les r´eponses du syst`eme en fonction de diff´erentes propri´et´es comme des propri´et´es temporelles ou spatiales. Pour les objets g´eographiques, il est ainsi tr`es utile d’adapter et structurer les r´eponses du syst`eme en fonction de caract´eristiques sur la localisation et les dimensions des entit´es g´eographiques. Par exemple, pour la requˆete Notre Dame de Paris on privil´egiera naturellement des images ayant des coordonn´ees spatiales (si accessibles) proches des coordonn´ees exactes du monument parisien. De mˆeme, en utilisant des techniques de classification supervis´ee [91], il est possible de s´eparer les vues int´erieures ou ext´erieures de la cath´edrale. Cette s´eparation est rendue possible en sachant a priori que Notre Dame de Paris est une cath´edrale (donc un bˆatiment) et que ce type de classification (int´erieur/ext´erieur) a un sens pour ce type d’objet (contrairement au Pont Alexandre III par exemple). Quant `a la mod´elisation des caract´eristiques temporelles, reprenons un exemple de c´el´ebrit´e, comme Jack Nicholson. Si on extrait la filmographie de l’acteur, il est possible de pr´esenter les r´eponses en reformulant la requˆete `a partir des titres de ses films les plus connus (ou des rˆ oles correspondants). La prise en compte des propri´et´es sp´ecifiques `a des domaines conceptuels peut am´eliorer la pr´esentation des r´esultats et enrichir l’interaction de l’utilisateur avec le syst`eme. Cette mod´elisation n’est pas faite actuellement par les moteurs de recherche standard. Cependant, on retrouve des contributions importantes dans des travaux comme [1], pour les concepts g´eographiques, ou dans [95] pour la dimension temporelle (d´etection d’´ev´enements), mais l’utilisation des relations entre les concepts est moins riche que dans notre approche.

108

3.3.3

´ ` CHAPITRE 3. DEMARCHE DE LA THESE

Architecture de recherche s´ emantique d’images

Dans cette section, nous pr´esentons notre approche de la recherche d’images sur Internet qui repose sur l’exploitation de structures linguistiques. Comme soulign´e dans la section 3.3.2, nous offrons une meilleure place `a l’utilisateur, en lui proposant une interaction enrichie, tout en gardant la simplicit´e d’utilisation des applications. Dans la figure 3.20, nous pr´esentons une architecture de recherche d’images int´egrant une ressource linguistique et des techniques de traitement d’images.

Fig. 3.20 – Architecture d’un syst`eme de recherche d’images bas´e sur la s´emantique. Les bases de donn´ees sont figur´ees sous forme de rectangles, les composants actifs comme des rectangles arrondis et les requˆetes sous forme d’ellipses. Le syst`eme dont l’architecture est pr´esent´ee dans la figure 3.20 permet `a l’utilisateur de poser deux types de requˆetes : textuelles et images. Nous rappelons que les requˆetes images ne viennent qu’en compl´ement des requˆetes textuelles. La structure linguistique contient un ensemble de concepts et de relations entre ces concepts utilisables pour la recherche d’images. Ses rˆ oles, incluant la reformulation automatique des requˆetes, la structuration des r´esultats ou l’am´elioration de la navigation, ont ´et´e d´ecrits plus en d´etail dans la section pr´ec´edente. La base d’images locale repr´esente la copie d’une partie du corpus d’images d’Internet, ce cache permettant d’am´eliorer le temps de r´eponse du syst`eme. La base locale est enrichie `a chaque fois qu’une nouvelle requˆete est lanc´ee par un utilisateur. Le s´electeur de concepts re¸coit en entr´ee la requˆete brute de l’utilisateur, la compare au contenu de la structure linguistique et en retient l’information utile pour traiter la requˆete initiale. Le collecteur d’images teste si la requˆete a ´et´e d´ej`a formul´ee. Dans le cas contraire, il va chercher les images correspondantes en utilisant le corpus d’Internet. Le moteur de recherche par le contenu r´ealise une indexation des images dans

´ ´ PAR NOTRE APPROCHE 3.4. LES DEFIS SOULEVES

109

la base locale et une recherche visuelle ` a chaque fois qu’une image est pos´ee en question. Un fonctionnement typique de l’application comprend : – La formulation d’une requˆete textuelle par l’utilisateur, qui est ensuite envoy´ee au s´electeur de concepts. – Le s´electeur de concept extrait l’information utile pour la requˆete donn´ee et l’envoie soit vers le collecteur d’images, soit vers l’utilisateur. Dans le premier cas, il s’agit de la requˆete reformul´ee ` a l’aide de la structure linguistique pour laquelle il est demand´e de trouver des images. Si les images existent dans la base locale, elles sont directement affich´ees, sinon elles sont t´el´echarg´ees `a partir d’Internet. L’information extraite de la structure linguistique envoy´ee directement `a l’utilisateur inclut une s´erie de requˆetes proches par rapport `a la requˆete initiale. – Chacune des requˆetes affich´ees peut amorcer une nouvelle recherche. Sur toutes les pages de r´eponses, une fois les images affich´ees, elles peuvent initialiser une recherche par contenu visuel. L’architecture de recherche d´ecrite dans cette section est g´en´erale, la structure linguistique pouvant mod´eliser des domaines diff´erents. Nous appliquons notre d´emarche `a nos trois domaines conceptuels : – Les noms communs : notre application, nomm´ee Olive, est d´ecrite dans la section 5.1 et exploite une version adapt´ee de WordNet (voir la section 4.1.1). – Les entit´es g´eographiques : notre application, nomm´ee ThemExplorer est d´ecrite dans la section 5.2. Elle utilise Geonames (voir la section 4.1.2), enrichi d’un th´esaurus g´eographique structur´e automatiquement (voir la section 4.2). – Les c´el´ebrit´es : notre application, nomm´ee Safir, est d´ecrite dans la section 5.3 et exploite une structure linguistique extraite `a partir de Wikip´edia (voir la section 4.3).

3.4

Les d´ efis soulev´ es par notre approche

Nous proposons une nouvelle m´ethodologie de recherche d’images bas´ee principalement sur l’utilisation de structures linguistiques `a grande ´echelle. Cette s’approche s’efforce de conserver les principaux avantages des moteurs de recherche actuels : la simplicit´e d’utilisation et la couverture de l’espace de recherche. Cette d´emarche soul`eve plusieurs d´efis ` a la fois th´eoriques et pratiques que nous relevons dans les deux chapitres sections suivantes.

3.4.1

D´ efis d’ordre th´ eorique

– Les ressources linguistiques doivent contenir des concepts et des relations de mani`ere `a mod´eliser une structure du domaine qui soit commun´ement accept´ee (dans notre cas, non pas accept´ee par une communaut´e de sp´ecialistes mais par le grand public). Les utilisateurs doivent reconnaˆıtre, dans les possibilit´es d’interaction propos´ees par le syst`eme, une mod´elisation coh´erente avec leurs pratiques li´ees au domaine donn´e.

110

´ ` CHAPITRE 3. DEMARCHE DE LA THESE – Malgr´e l’automatisation de certaines ´etapes constituant le processus de recherche d’images dans nos syst`emes, il nous paraˆıt important de laisser `a l’utilisateur une impression de contrˆ ole et de libert´e. – La pr´esentation de requˆetes proches doit pr´eciser, pour chaque proposition, quel est son rapport avec la requˆete initiale (s’il s’agit d’une sp´ecialisation, d’une g´en´eralisation ou d’une requˆete du mˆeme niveau de g´en´eralit´e. . .). Nous avons pr´esent´e, dans le chapitre 2, quelques exemples de propositions de requˆetes proches faites par Ask et nous avons soulign´e que ces propositions sont souvent inad´equates. – La mod´elisation de la notion de similarit´e entre les images, dont nous avons ´evoqu´e diff´erents aspects dans la sous-section 3.2.1 reste un d´efi important. Tout en ´etant conscients qu’une mod´elisation formelle de la similarit´e entre deux images reste partielle, nous nous donnons comme but de prendre en compte plus de dimensions que dans les syst`emes actuels en accord avec les th´eories de la similarit´e d´evelopp´ees en sciences cognitives. Les moteurs actuels proposent uniquement des recherches cat´egorielles, cens´ees retourner un ensemble d’images illustrant une requˆete et mod´elisent ainsi uniquement la similarit´e des concepts repr´esent´es. Nous proposons, en compl´ement de la recherche par similarit´e conceptuelle, une restriction de la recherche d’images bas´ee sur leur contenu visuel. Cette utilisation de deux types diff´erents de similarit´e entre les images donne une place privil´egi´ee `a la proximit´e conceptuelle et est motiv´ee par les faibles performances des syst`emes de recherche d’images bas´es sur le contenu. – La recherche par images exemple est un cas de recherche directionnelle [115], illustrant une situation o` u l’utilisateur est int´eress´e par un document particulier et veut explorer son voisinage. Elle est particuli`erement utile dans le cas de requˆetes pour lesquelles le syst`eme renvoie un grand nombre de r´eponses. Dans les syst`emes actuels, si un utilisateur a trouv´e une image qu’il consid`ere comme int´eressante parmi les premi`eres pages de r´esultats , il lui faudra parcourir les pages de r´eponses suivantes une par une pour trouver des images similaires (et sans doute encore plus adapt´ees ` a son besoin). Une recherche par le contenu renverra imm´ediatement un ensemble de photographies similaires. Comme le montrent les ´etudes de fichiers de log [63], [131], l’exploration lin´eaire est tr`es limit´ee, les utilisateurs regardant rarement au-del` a de la troisi`eme page de r´eponses textuelles, mais la situation est diff´erente pour la recherche d’images ce qui souligne l’importance des m´ethodes compl´ementaires d’exploration de l’espace des r´eponses. – Dans la section 2.1, nous avons pass´e en revue le standard MPEG et nous avons vu qu’il ´etait possible de d´ecrire le contenu des images en utilisant plusieurs caract´eristiques visuelles (couleur, texture, forme, contours etc.). Ces caract´eristiques sont extraites selon des approches globales ou locales, g´en´eralement `a partir de points d’int´erˆets [89]. Intuitivement, les deux types de descriptions sont compl´ementaires et de plus en plus de travaux utilisent ou ´etudient leur combinaison. N´eanmoins peu de travaux se sont int´eress´es `a mettre en relation le contenu visuel et le contenu conceptuel. Nous pouvons raisonnablement supposer que l’importance d’un type de descripteur varie en fonction du contenu de la photographie : une image de

´ ´ PAR NOTRE APPROCHE 3.4. LES DEFIS SOULEVES

111

coucher de soleil serait mieux d´ecrite par un descripteur global couleur que par un ensemble de descripteurs locaux comme les SIFTs, ce qui ne serait sans doute pas le cas pour une photographie de la Tour Eiffel.

3.4.2

D´ efis d’ordre pratique

Nous avons d´ej` a mentionn´e le besoin d’assurer une bonne couverture des ressources linguistiques employ´ees. Le processus de construction pose d’importants probl`emes li´es `a la disponibilit´e des donn´ees brutes. Ces derni`eres sont r´ecup´erables `a partir d’Internet, mais le processus de r´ecup´eration des donn´ees est long car il est n´ecessaire de ne pas encombrer les serveurs sources (et accessoirement de ne pas se faire « black-lister »). Par exemple, pour collecter les fr´equences associ´ees `a un million de concepts dans un moteur de recherche, en lan¸cant une requˆete toutes les dix secondes, plus de 100 jours sont n´ecessaires. La charge de calcul devient encore plus importante quand on s’attache `a ´evaluer les relations entre les concepts (nombre de requˆetes en n2 , avec n le nombre de concepts). Le processus d’indexation d’images par le contenu est ´egalement long. Les volumes index´ees actuellement d´epassent rarement les dizaines de millions d’images [110]. Encore plus important, la phase de recherche d’images par le contenu doit se faire en temps r´eel pour repr´esenter un r´eel int´erˆet pour les utilisateurs.

112

´ ` CHAPITRE 3. DEMARCHE DE LA THESE

Chapitre 4

Adaptation et construction de structures linguistiques pour la recherche d’images sur Internet Dans le chapitre pr´ec´edent, nous avons pr´esent´e quelques aspects th´eoriques sur la structure des ressources linguistiques. Partant du constat que les structures existantes sont utiles mais insuffisantes pour la recherche d’images sur Internet, nous pr´esentons ici l’adaptation de ces ressources et la construction de nouvelles structures s´emantiques.

4.1

Adaptation de WordNet et Geonames

L’exploitation de WordNet et Geonames dans un syst`eme de recherche d’images n´ecessite une adaptation de leur contenu. La modification du contenu de ces deux ressources est r´ealis´ee selon les mˆemes r`egles, `a savoir : – la s´election de l’information utile `a notre application ; – l’ajout d’une mesure de pertinence `a chaque concept ; – la mise en place d’un acc`es rapide aux connaissances dans les deux structures ; Nous d´etaillons ce processus d’adaptation des ressources dans les deux sections suivantes.

4.1.1

Adaptation de WordNet

Nous mod´elisons en priorit´e le domaine des noms communs, gardant toutefois les instances pr´esentes dans la hi´erarchie lexicale. Si nous nous rapportons aux d´efinitions d’une structure conceptuelle (section 3.3.1), nous remarquons que la ressource adapt´ee comprend plusieurs d´efinitions donn´ees dans ce chapitre : – le(s) nom(s) du concept (d´ef. 1) ; – la s´eparation entre les classes et les instances (d´ef. 2) ; – une structure bas´ee sur l’h´eritage conceptuel (d´ef. 4) ; – une valeur de pertinence associ´ee aux concepts (autres relations). 113

114

CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES

Ces d´efinitions permettent l’identification unique de tous les sens des noms inclus dans WordNet, une structuration de leur voisinage conceptuel et un ordonnancement des concepts et relations en fonction de leur pertinence. La base de donn´ees lexicales contient des informations concernant plusieurs types ´ grammaticaux, comme les noms, les verbes, les adjectifs. Etant donn´e le domaine d’application envisag´e, nous ne gardons que la hi´erarchie des noms. Comme d´ej`a mentionn´e, WordNet offre une bonne couverture des noms communs et est structur´e pour refl´eter les relations d’h´eritage conceptuel entre ces noms. Dasn sa version 3.1, la hi´erarchie des noms contient : – 81246 synsets ; – 117798 chaˆınes nominales uniques, correspondant `a un total de 145104 sens ; – le nombre de synsets feuille est d’approximativement 65000 ; – la polys´emie moyenne de la hi´erarchie des noms est de 1,23. 4.1.1.1

Ajout d’une valeur de pertinence

Ordonner les diff´erents concepts est un moyen efficace de rendre la navigation, dans ´ la volumineuse hi´erarchie de WordNet, moins fastidieuss. Etant donn´e la grande vari´et´e conceptuelle des noms ` a consid´erer, nous avons exploit´e Internet pour obtenir une valeur de pertinence pour chaque terme de WordNet. Notre objet d’´etude ´etant les images, il nous a sembl´e appropri´e d’interroger le corpus photographique de Google Images plutˆ ot que le moteur de recherche textuelle. Des requˆetes ont ´et´e lanc´ees pour chaque synset de la hi´erarchie, contenant le premier terme du synset et le premier terme du synset parent. Le terme parent est employ´e pour d´esambigu¨ıser les requˆetes et d’obtenir des valeurs de pertinence attach´ees ` a chaque sens d’un nom. Ce choix s’explique par le fait que nous attachons des ensembles d’images aux synsets et donc aux diff´erents sens d’un mot. Une premi`ere valeur de pertinence serait donc la fr´equence jointe (fr´equence de cooccurrence) de chaque terme et de son parent imm´ediat, que l’on notera f reqW eb. Dans un premier temps, nous avions utilis´e cette mesure pour ordonner les concepts mais elle s’est av´er´ee moins adapt´ee qu’une mesure prenant ´egalement en compte la structure de la hi´erarchie conceptuelle de WordNet : Soit c1 et c2 deux concepts de WordNet (c2 ´etant dans notre cas le concept parent de c1 ), la nouvelle mesure de pertinence, not´ee P ertin est : P ertin(c1 , c2 ) =

f reqW eb(c1 , c2 ) ∗ distance(c1 , c2 ) sens(c1 )

(4.1)

O` u: – f reqW eb : la fr´equence de cooccurrence des deux termes sur le Web ; – distance : le nombre de nœuds dans la hi´erarchie s´eparant c1 et c2 ; – sens : le nombre de sens diff´erents de c1 . Cette mesure pond`ere la fr´equence de cooccurrence sur le Web de deux concepts avec un terme repr´esentant la structure de la hi´erarchie qui favorise les parties les plus riches de la sous-hi´erachie d´etermin´ee par c2 et p´enalise les concepts polys´emiques qui sont plus susceptibles d’introduire du bruit dans les r´esultats. Si on prend l’exemple de dog (comme

4.1. ADAPTATION DE WORDNET ET GEONAMES

115

animal), les concepts feuilles jug´es les plus repr´esentatifs avec l’utilisation exclusive de statistiques du Web sont pooch, pug, Newfoundland et basset. Pour les premiers deux termes, il s’agit respectivement de deux h´eritiers directs de dog tandis que le troisi`eme est un mot polys´emique. Apr`es l’introduction du terme prenant en compte la structure de la hi´erarchie dans le calcul de la pertinence, les concepts feuilles consid´er´es comme les plus pertinents pour dog sont : collie, basset, german shepherd et doberman. Il s’agit dans ces cas de races de chien bien connues et la repr´esentativit´e du concept initial en est am´elior´ee 4.1.1.2

Modification du format

Le format natif de WordNet n’est pas adapt´e `a notre utilisation et il est n´ecessaire de r´ealiser des pr´e-calculs afin d’optimiser l’acc`es aux donn´ees. En fonction de son statut dans la hi´erarchie, l’entr´ee d´edi´ee ` a chaque synset contiendra un certain nombre d’informations relatives ` a son voisinage conceptuel. Nous pr´esentons un exemple de format de sortie pour un terme avec des h´eritiers 4.1. Le format pour les termes feuilles est similaire, `a l’exception naturellement des lignes concernant les h´eritiers. Tab. 4.1 – Entr´ee pour dog dans le format adapt´e de WordNet. Synset Membres Ambigu Feuille H´eritiers feuille H´eritiers Termes du mˆeme niveau Hyp´eronymes

dog 1 dog, domestic dog, canis familiaris oui non collie, basset, german shepherd, doberman poodle, corgi, spitz, cur, hunting dog, working dog, toy dog, dalmatian, griffon wolf, fox, hyena, wild dog, domestic cat, bitch, jackal domestic animal, canine, organism, living thing, physical entity, object

Les ´el´ements du tableau 4.1 offrent plusieurs types d’information sur le premier sens du terme dog : – le synset contient plusieurs termes ; – dog est ambigu ; – il s’agit d’un terme ayant des h´eritiers dans WordNet. Quant au voisinage conceptuel, le tableau contient une liste des termes feuilles les plus fr´equents qui seront utilis´es pour structurer les images. Il y a deux lignes diff´erentes pour les h´eritiers : la premi`ere contient exclusivement des termes feuilles et la seconde favorise la pr´esentation des termes ayant eux-mˆemes des h´eritiers dans WordNet. La relation d’h´eritage permet d’associer des classes d’images uniquement aux synsets feuilles de la hi´erarchie et de proposer, par propagation, ces images ´egalement pour les

116

CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES

concepts non-feuille. La description des termes contient un pointeur vers leur statut hi´erarchique, donnant ainsi une information concernant l’existence d’une classe d’images attach´ee directement au synset respectif. 4.1.1.3

´ Evaluation

Nous ´evaluons l’adaptation de WordNet en comparant la structure obtenue avec une structure linguistique d´edi´ee ` a la description des relations inter-conceptuelles, accessible via l’interface du moteur de recherche Ask. Nous effectuons deux types de tests : – un premier test pour ´evaluer la qualit´e du voisinage conceptuel des termes dans les deux structures ; – un second test pour comparer la couverture des deux structures. Nous avons s´electionn´e 20 concepts de WordNet (tableau 4.2) correspondant approximativement au niveau de repr´esentation de base de Rosch [114] et appartenant `a des domaines conceptuels diff´erents. Le choix des termes a ´et´e guid´e par les consid´erations suivantes : avoir un panel repr´esentatif pour les entit´es physiques de WordNet, proposer des termes g´en´eralement connus et ne pas surcharger l’utilisateur. Pour chaque terme, nous avons extrait un nombre maximal de dix requˆetes proches `a partir de la version adapt´ee de WordNet et de la base de connaissances propos´ee par Ask. Les requˆetes proches incluent ` a la fois des requˆetes plus g´en´erales et plus sp´ecifiques que le concept initial. Tab. 4.2 – Concepts de WordNet pour l’´evaluation du voisinage conceptuel. Classe g´en´erale Animaux Plantes Concepts naturels Art´efacts

Concepts dog ; bear ; duck ; shark ; frog apple ; maple ; poplar ; cactus ; rose cloud ; mountain ; windstorm ; forest bomb ; table ; ship ; sword ; car

L’´evaluation a ´et´e r´ealis´ee par sept utilisateurs auxquels on a demand´e d’´evaluer chaque proposition de nom proche sur une ´echelle de 1 (concepts non reli´es) `a 3 (forte relation entre les deux termes). Les concepts de test et leurs termes proches ont ´et´e pr´esent´es dans une mˆeme interface afin d’assurer la neutralit´e des ´evaluateurs. Le test ´etait con¸cu pour durer environ 30 minutes mais les utilisateurs avaient le choix de s’arrˆeter ` a tout moment. Sur les sept ´evaluations, quatre ´etaient compl`etes et trois incompl`etes. Comme le test incluant des termes (en anglais) dans des domaines conceptuels vari´es, certains termes pouvaient ne pas ˆetre connus par les ´evaluateurs. Dans ces cas, ces derniers avaient la possibilit´e de le signaler (indice 0 sur notre ´echelle). N´eanmoins, afin de limiter le nombre de termes inconnus, nous avons permis aux testeurs d’afficher des images illustratives pour les termes inconnus (mais par d´efaut les images n’´etaient pas affich´ees).

4.1. ADAPTATION DE WORDNET ET GEONAMES

117

Tab. 4.3 – Evaluation du voisinage conceptuel propos´e utilisant WordNet et Ask.

Testeur 1 Testeur 2 Testeur 3 Testeur 4 Testeur 5 Testeur 6 Testeur 7 Moyenne

Proximit´e WordNet 2,53 2,62 2,64 2,72 2,77 1,96 2,76 2,57

(max. 3) Ask 2,16 2,71 2,35 2,65 2,31 1,75 2,14 2,29

Termes inconnus WordNet Ask 7% 3,4% 25% 14,2% 8,5% 5,7% 3% 0,6% 19,5% 10,8% 8% 1,7% 0% 0% 10,1% 5,2%

Les r´esultats du tableau 4.3 montrent que la qualit´e moyenne du voisinage conceptuel d’un terme propos´e exploitant WordNet est sup´erieure `a celle d’Ask (2,57 contre 2,29 ` l’exception d’un utilisateur, les r´esultats pour chaque utilisateur suivent cette sur 3). A tendance. Il est int´eressant de remarquer que le r´esultat favorable `a Ask est obtenu pour ` l’exception du sixi`eme testeur, l’utilisateur ayant reconnu le plus de termes inconnus. A les r´esultats pour WordNet sont assez coh´erents, se situant entre 2,53 et 2,77, ceux pour Ask se situant entre 2,14 et 2,71. Nous avons observ´e une tendance des ´evaluateurs `a consid´erer positivement les requˆetes plus sp´ecifiques que le concept initial, montrant ainsi l’utilit´e d’une reformulation automatique dans un processus d’assistance `a la pr´ecision des requˆetes. De mˆeme, sont s´electionn´ees les requˆetes proches contenant explicitement le terme initial (ex. red maple ou vine maple pour maple). Le nombre de requˆetes inconnues est plus important pour WordNet que pour Ask (10,1% contre 5,2%). Cela s’explique principalement par le fait que, pour WordNet, nous proposons souvent des termes sp´ecialis´es ne faisant pas forc´ement partie du vocabulaire commun (ex. garganey ou lesser scaup pour duck ) et que l’anglais n’est pas la langue maternelle de la majorit´e des testeurs. Pour Ask, les requˆetes proches propos´ees par le moteur sont souvent des termes du mˆeme niveau de g´en´eralit´e que le concept initial (ex. horse ou monkey pour dog). Le voisinage conceptuel est plus riche quand on utilise WordNet qu’avec une reformulation d’Ask. Pour 13 des 20 termes test´es, Ask propose au moins dix requˆetes proches. Par exemple, pour cactus le moteur de recherche ne propose que cinq termes proches. Grˆace `a la richesse de la hi´erarchie conceptuelle de WordNet, le voisinage contient au minimum dix termes pour tous les concepts test´es. Pour ne pas surcharger l’utilisateur, il est souhaitable de ne pas repr´esenter un trop grand nombre de requˆetes proches, d’o` u l’importance de classer les termes proches par rapport `a leur relation avec la requˆete initiale comme nous l’avons pr´ec´edemment d´etaill´e avec l’´equation 4.1.

118

CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES

Dans le chapitre 2, nous avons mentionn´e l’impr´ecision des relations pr´esent´ees dans l’interface d’Ask. Par exemple, la cat´egorie « requˆetes plus g´en´erales » de dog inclut chihuahua et golden retriever, des requˆetes plus pr´ecises ou horse et monkey, des animaux qui ne sont pas des hyp´eronymes de dog. Quant aux requˆetes plus sp´ecifiques, Ask propose souvent des expansions contenant explicitement la requˆete initiale comme search free dog ou choosing a dog qui ont une utilit´e tr`es limit´ee en recherche d’images.

4.1.2

Adaptation de Geonames

4.1.2.1

S´ election de l’information utile

La structure de Geonames offre une bonne mod´elisation du domaine g´eographique mais, tout comme WordNet, Geonames doit ˆetre adapt´ee `a notre domaine d’application. Contrairement ` a WordNet, le contenu de Geonames est majoritairement compos´e d’instances (environ six millions) et simplement de deux niveaux hi´erarchiques sup´erieurs (huit cat´egories au niveau le plus g´en´eral et 645 au second niveau). La version adapt´ee de Geonames utilise la structure s´emantique suivante : – – – – –

nom du terme (d´ef. 1) ; s´eparation classe / instance (d´ef. 2) ; subsumption conceptuelle (d´ef. 4) ; inclusion spatiale (d´ef. 7) : relation sp´ecifique au domaine g´eographique ; valeur de pertinence (autres relations) : relation sp´ecifique au domaine d’application.

Geonames contient des informations utiles `a notre cas d’application comme le nom de l’objet g´eographique, sa position ou son hyp´eronyme. Il contient aussi des informations dont on peut se dispenser et qu’on retire de la structure finale de la base de donn´ees afin d’am´eliorer la vitesse d’acc`es aux informations : une liaison vers la cat´egorie la plus g´en´erale, les renseignements sp´ecifiques `a certains types d’entit´es (altitude maximale pour les montagnes, population pour les villes). Pour une utilisation en recherche d’information, il est n´ecessaire d’ajouter une valeur de pertinence aux entit´es inclues dans la version adapt´ee de Geonames. Similairement ` a la recherche de noms communs, nous essayons d’associer des images a` des entit´es bien d´efinies et on peut ´elaguer Geonames afin d’´eliminer les termes trop g´en´eraux. Les noms d’entit´es administratives (villes, d´epartements, r´egions, pays) sont ´elimin´es car ils n’ont pas une repr´esentation visuelle bien d´efinie. Ces r´egions de la carte seront repr´esent´ees par des objets sp´ecifiques (´eglises, mus´ees, monuments. . .), plus coh´erents du point de vue visuel. Apr`es cet ´elagage, il reste environ trois millions d’´el´ements dans la version adapt´ee du th´esaurus mais avec une r´epartition g´eographique non uniforme. Nous d´ecrivons dans la section suivante, une approche pour la construction automatique d’une base de donn´ees g´eographiques permettant d’´etendre Geonames et d’assurer une meilleure couverture.

4.1. ADAPTATION DE WORDNET ET GEONAMES 4.1.2.2

119

Valeur de pertinence associ´ ee aux noms g´ eographiques

Dans [96], Naaman et al. consid`erent que la difficult´e principale li´ee `a l’exploitation des ressources existantes en recherche d’information g´eographique est l’absence d’une valeur de pertinence attribu´ee aux ´el´ements d’un th´esaurus. Nous proposons une mesure de pertinence bas´ee sur la fr´equence d’apparition d’une entit´e dans deux corpus de r´ef´erence : Panoramio et Alltheweb. Panoramio est bien adapt´e puisqu’il est enti`erement d´edi´e aux images d’objets g´eographiques. N´eanmoins, malgr´e la qualit´e des renseignements, il n’assure pas — ` a l’heure actuelle — une couverture suffisante pour diff´erencier tous les ´el´ements d´ecouverts. Alltheweb, plus g´en´eraliste, est moins sp´ecialis´e mais assure une bonne couverture. Nous proposons donc le calcul d’une valeur de pertinence qui tient compte en premier lieu des informations de Panoramio puis d’Alltheweb. Afin de g´erer la polys´emie des noms g´eographiques (ex. Notre Dame Church va apparaˆıtre plusieurs fois), nous proposons une limitation de l’espace de recherche autour des coordonn´ees du monument et calculons la pertinence uniquement pour les images se trouvant dans un rayon de moins de 10 km autour des coordonn´ees de l’entit´e dans Geonames. Pour Panoramio, la valeur de pertinence est obtenue en utilisant l’´equation 4.2. pertinP ano(candidat) = f req(candidat) ∗ utilDif f (candidat)

(4.2)

O` u: – f req est le nombre d’images contenant le nom g´eographique candidat dans leur titre, – utilDif f est le nombre d’utilisateurs diff´erents qui ont mis en ligne des images contenant candidat dans leur titre. Le premier terme de l’´equation prend en compte le nombre total d’apparitions d’une image dans Panoramio. Le deuxi`eme terme introduit une notion de popularit´e de l’entit´e g´eographique. L’´equation 4.2 permet d’´eviter que des entit´es beaucoup photographi´ees par peu de personne soient mieux class´es que des objets photographi´es par beaucoup de personnes diff´erentes. Nous consid´erons comme plus repr´esentatif un objet apparaissant 100 fois dans Panoramio mais photographi´e par 50 personnes qu’un autre ayant 150 images mais photographi´e par seulement trois personnes. Fr´equemment, des valeurs de pertinence calcul´ees `a partir de Panoramio s’av`erent ´egales notamment pour les entit´es g´eographiques plus rares. Si deux entit´es g´eographiques ont une mˆeme valeur de pertinence alors on consid`ere comme plus importante celle ayant le plus de pages de r´eponses propos´ees par Alltheweb. 4.1.2.3

Modification du format

Geonames est fourni sous forme d’un fichier texte contenant 18 champs pour chaque objet de la base de donn´ees. Comme nous l’avons vu, nous ne conservons qu’une partie de ces informations. Nous pr´esentons un exemple de format de sortie dans le tableau 4.4 Les diff´erentes caract´eristiques des entit´es g´eographiques permettent de les associer `a une classe parent, de les localiser et de les classer par rapport `a d’autres objets du th´esaurus. Ces informations permettent d’interroger la base de donn´ees en limitant `a

120

CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES

Tab. 4.4 – Format de la version modifi´ee de Geonames. Nom de l’objet Classe parent Latitude Longitude Pertinence Panoramio Pertinence AlltheWeb

Golden Gate Bridge bridge 37,819 -122,479 253300 85000

la fois spatialement et conceptuellement la recherche. De plus, l’ajout d’une valeur de pertinence permet de pr´esenter les ´el´ements les plus saillants en priorit´e. Le th´esaurus obtenu est sauvegard´e en format SQL. L’´evaluation du classement des entit´es par ordre de pertinence est r´ealis´ee dans la section 4.2.8.

4.2

Construction automatique d’un th´ esaurus g´ eographique

Geonames offre une couverture des noms de lieux de qualit´e variable selon les r´egions du monde. Les Etats-Unis sont repr´esent´es par plus de 1800000 entit´es, la France environ 115000 et la Roumanie approximativement 25000. L’enrichissement manuel d’une ressource ` a large ´echelle, comme Geonames, serait particuli`erement coˆ uteux. Nous proposons ici une m´ethode automatique d’enrichissement, cr´eant un th´esaurus nomm´e Gazetiki qui inclut Geonames et des connaissances suppl´ementaires extraites `a partir du Web. Rattenbury et al. [111] furent parmi les premiers `a proposer une m´ethode automatique d’extraction d’informations g´eographiques avec une analyse statistique multi ´echelles des donn´ees textuelles associ´ees aux images g´eo-localis´ees de Flickr. La base de donn´ees obtenue contient les noms des entit´es, une mesure de pertinence attach´ee ` a chaque ´el´ement et des informations de localisation mais ne contient aucune information de cat´egorisation des instances dans des classes g´eographiques plus g´en´erales. Aussi, la structure minimale d’un th´esaurus g´eographique, telle que d´efinie par Hill et al. dans [52] n’est pas respect´ee dans [111].

4.2.1

Mod´ elisation du domaine

Nous partons de la structure de Geonames pour proposer un mod`ele de description du domaine g´eographique. Le choix de mod´eliser la structure construite automatiquement en se basant sur Geonames comporte deux avantages majeurs : – Le travail de mod´elisation repose sur celui des sp´ecialistes du domaine g´eographique. – L’int´egration des deux bases de donn´ees est quasi imm´ediate. Comme mentionn´e dans [96], si on analyse le mod`ele de Geonames (et d’autres th´esauri g´eographiques) du point de vue d’une exploitation en recherche d’information,

´ ´ 4.2. CONSTRUCTION AUTOMATIQUE D’UN THESAURUS GEOGRAPHIQUE121 on constate que le manque d’une information de pertinence de chaque ´el´ement rend les th´esauri difficilement utilisables. La structure construite automatiquement contient une partie des relations qui d´efinissent une structure s´emantique (voir 3.3.1) : – Nom g´eographique : identifie le terme et correspond `a la (d´ef. 1). Si l’on regarde la diff´erence entre concepts et instances (d´ef. 2), les noms g´eographiques sont des instances. – Classe parent : d´efinition d’une relation d’h´eritage conceptuel (d´ef. 4). – Coordonn´ees g´eographiques : association du nom g´eographique `a une position spatiale. Les coordonn´ees renseignent une relation sp´ecifique au domaine conceptuel mod´elis´e (d´ef. 8). – Valeur de pertinence : les valeurs de pertinence correspondent `a une relation sp´ecifique au domaine d’application envisag´e (d´ef. 8). Ces quatre ´el´ements permettent une identification unique de tout objet g´eographique et forment la structure de base de Gazetiki. Le vecteur (Nom g´eographique, Classe parent, Coordonn´ees g´eographiques, Valeur de pertinence) respecte la d´efinition minimale d’un th´esaurus donn´ee par [52] et inclut, en plus, une valeur de pertinence associ´ee `a chaque ´el´ement. Tout comme dans Geonames, nous allons extraire d’autres informations pour certains objets.

4.2.2

Sources d’information g´ eographique sur Internet

Nous avons identifi´e plusieurs ressources exploitables pour la cr´eation automatique de notre th´esaurus g´eographique mais aucune ne contient l’ensemble des informations n´ecessaires. Nous combinons donc des donn´ees provenant de sources h´et´erog`enes : Wikip´edia, Panoramio et Alltheweb. Wikip´edia La tr`es populaire encyclop´edie collaborative inclut un nombre important d’articles g´eo-r´ef´erenc´es. On peut en extraire des informations g´eographiques ou atteindre d’autres articles int´eressants mais non g´eo-r´ef´erenc´es. L’analyse du contenu de chaque article permet l’obtention du triplet (Nom g´eographique, Classe, Coordonn´ees) ou seulement la paire (Nom g´eographique, Classe). Dans les deux cas, il n’est pas possible d’associer une valeur de pertinence aux noms de lieux `a partir du contenu de Wikip´edia. Le mode de cr´eation des articles Wikip´edia (contribution communautaire) peut l´egitimement soulever des doutes quant `a la qualit´e des connaissances introduites. [39] a men´e une ´etude comparant la qualit´e de l’information pr´esente dans les articles Wikip´edia `a celle de la prestigieuse encyclop´edie Britannica sur une s´erie d’articles d’informations scientifiques. Les r´esultats de l’´etude montrent que les deux ressources encyclop´ediques contiennent des informations de qualit´e comparable pour l’´echantillon compar´e. Des informations fausses peuvent apparaˆıtre notamment pour les sujets dits « controvers´es » mais cela est rarement le cas pour les entit´es g´eographiques.

122

CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES

Panoramio Panoramio est une plateforme d´edi´ee `a la mise en ligne d’images g´eographiques, utilis´ee dans Google Earth et Google Maps afin d’illustrer diff´erents endroits du monde. Dans Panoramio, toute photographie doit ˆetre valid´ee comme pertinente par un autre utilisateur pour ˆetre incluse dans le corpus d’images. Cette proc´edure de validation assure un faible taux de bruit contrairement `a d’autres outils de partage photographique, mais freine naturellement la croissance du corpus. Une API permet la r´ecup´eration des informations relatives aux images de Panoramio notamment : le titre de l’image, ses ` partir de ces coordonn´ees et une information sur l’utilisateur l’ayant mise en ligne. A donn´ees, on peut extraire le triplet (Nom g´eographique, Coordonn´ees, Pertinence). Pour d´efinir la classe d’appartenance, une approche na¨ıve consiste `a prendre comme classe g´eographique celle apparaissant explicitement dans le nom. Cette approche ne fonctionne pas dans la majorit´e des cas et n’est pas exempte d’erreurs. Par cons´equent, il faut extraire la classe d’appartenance de chaque ´el´ement avec des m´ethodes plus robustes. Alltheweb Alltheweb est un moteur de recherche d’information sur Internet que nous avons utilis´e pour r´ecup´erer au maximum 50 r´eponses associ´es `a chaque nom g´eographique candidat obtenu ` a partir de Wikip´edia ou Panoramio. Le traitement de l’information de Alltheweb permet : l’am´elioration de la classification des noms de lieux extraits `a partir de Panoramio, l’´elimination des noms candidats non-repr´esentatifs et un raffinement de la mesure de pertinence obtenue en utilisant Panoramio.

4.2.3

Extraction des noms g´ eographiques

Les objets g´eographiques contiennent souvent une r´ef´erence explicite `a leur type, par exemple Eiffel Tower, Cathedral of Learning, Golden Gate Bridge, Versailles Castle. Cela facilite l’extraction en comparant simplement un vocabulaire de termes g´eographiques ` a des ressources textuelles li´ees au domaine, comme les titres de photographies de Panoramio. Pour les noms g´eographiques qui n’incluent aucune r´ef´erence `a leur classe, comme London Eye ou Parthenon, nous exploitons les articles de Wikip´edia correspondants. Nous constituons un vocabulaire g´eographique `a partir des classes interm´ediaires de Geonames (645 classes). Des adaptations sont n´ecessaires pour les noms de divisions administratives de Geonames et pour ajouter des classes n’existant pas dans le vocabulaire ´ initial. Etant donn´e les diff´erences dans les structures administratives des diff´erents pays, certaines divisions administratives ne sont pas explicites. Il faut par exemple remplacer des d´enominations comme ADM1, ADM2 par des termes plus explicites comme state, region, departement ou city. Il existe des termes ayant une forte connotation g´eographique mais qui ne sont pas inclus parmi les classes interm´ediaires de Geonames. Par exemple, bien que le vocabulaire initial contienne un certain nombre de noms d’organisations comme university ou academy, un certains nombres d’entre eux sont manquants comme laboratory, institute, faculty ou club. Apr`es cette adaptation et enrichissement, la version finale du vocabulaire inclut 675 classes g´eographiques.

´ ´ 4.2. CONSTRUCTION AUTOMATIQUE D’UN THESAURUS GEOGRAPHIQUE123 Pour Wikip´edia, nous extrayons d’abord la totalit´e des articles contenant des coordonn´ees g´eographiques. Les titres de ces articles vont constituer une premi`ere liste de noms g´eographiques candidats ` a l’inclusion dans Gazetiki. Un traitement est parfois n´ecessaire pour filtrer l’information de d´esambigu¨ısation ´egalement pr´esente dans le titre (ex. Queensland dans Hampton, Queensland ) et pour ne garder que le nom. Les articles g´eo-localis´es contiennent souvent des r´ef´erences `a d’autres articles qui sont aussi pertinents pour notre application. Par exemple, sur les pages des villes, on trouve souvent des liens internes « See also », « List of... » ou des sections comme « Mains sights », « Touristic attractions » dans lesquels on suit tous les liens pointant vers d’autres articles de Wikip´edia. Ces nouveaux articles extraits peuvent ˆetre eux-mˆemes g´eo-localis´es mais dans ce cas leur traitement serait redondant. Dans d’autres cas, les nouveaux articles ne contiennent pas de coordonn´ees g´eographiques et sont consid´er´es comme de nouveaux ´el´ements. Dans la liste des liens suivis, il faut faire la diff´erence entre les articles pertinents pour le domaine g´eographique et les autres. Pour ce faire nous proc´edons `a un double filtrage : – Un premier filtre est constitu´e par le traitement des liens commen¸cant par une majuscule : nous ne traitons pas par exemple un lien Wikip´edia renvoyant vers « chemistry ». – Un deuxi`eme filtre est constitu´e par la pr´esence dans la premi`ere phrase de chaque nouvel article d’une r´ef´erence ` a une classe g´eographique (voir l’exemple dans la figure 4.1). Par exemple, nous ´eliminons ainsi de la liste de candidats les noms des personnes. Pour les liens n’ayant pas de coordonn´ees g´eographiques, nous retenons comme coordonn´ees — provisoirement — celles de l’article d’origine.

Fig. 4.1 – Premi`ere phrase de l’article d´ecrivant la cath´edrale St. George de Timi¸soara. Dans Panoramio, les titres des photographies constituent les seules donn´ees textuelles exploitables. Nous utilisons notre vocabulaire g´eographique pour isoler des noms d’entit´es g´eographiques dans les titres. Prenons, par exemple, le titre View of the Carnegie Museum of Natural History from the top of the Cathedral of Learning. Nous trouvons des ´el´ements du vocabulaire g´eographique commen¸cant par une majuscule : Museum et Cathedral. Les noms complets sont obtenus par une recherche, `a gauche et `a droite de tous les mots ´ecrits en majuscule en excluant les mots de liaison (of, for, and ) en s’arrˆetant quand un article (the, a, an) ou un signe de ponctuation (’.’, ’ ;’, ’,’) est rencontr´e. Si l’on rencontre des mots de liaison, on continue la recherche pour voir si le terme suivant

124

CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES

` la fin du processus, nous obtenons, `a partir du titre commence par une majuscule. A initial, deux noms g´eographiques : Carnegie Museum of Natural History et Cathedral of Learning. Cette m´ethode d’extraction g´en`ere des erreurs mais, comme d´emontr´e par les tests dans la section 4.2.8, leur proportion est assez faible. Notons que, si l’algorithme d’extraction isole seulement un nom de classe g´eographique (ex. Museum), celui-ci n’est pas retenu car il ne s’agit pas d’une instance mais d’une cat´egorie. Nous avons observ´e que les titres des images de Panoramio peuvent contenir des erreurs orthographiques (Eiffle Tower ou Eifel Tower ). Comme la plupart des moteurs, Alltheweb propose une correction orthographique des requˆetes qui produit de bonnes performances pour les requˆetes portant sur des entit´es connues (comme Eiffel Tower ) permettant de corriger un certain nombre d’erreurs. De plus, nous proposons un filtrage des noms g´eographiques candidats bas´e sur leur fr´equence d’apparition sur le Web : si le candidat a moins de 15 pages de r´eponses (seuil d´efini empiriquement) dans Alltheweb, alors il est ´elimin´e.

4.2.4

Cat´ egorisation des noms g´ eographiques

L’association d’une classe parent est r´ealis´ee diff´eremment selon que les candidats proviennent de Wikip´edia ou de Panoramio. Dans le premier cas, nous avons adapt´e la m´ethode de cat´egorisation propos´ee dans [71], qui repose sur l’analyse du contenu de la premi`ere phrase de l’article Wikip´edia d´ecrivant l’objet g´eographique. Cette phrase est habituellement une d´efinition contenant une r´ef´erence explicite `a la classe parent de l’objet d´ecrit. Prenons par exemple Notre Dame de Paris. La premi`ere phrase est ˆ de la Cit´e. Notre Dame de Paris (...) is a Gothic cathedral on the eastern half of the Ile L’attribution de la classe parent est faite en deux ´etapes : Nous cherchons la premi`ere apparition du verbe to be et retenons la partie de la ˆ de la Cit´e. phrase ` a droite du verbe : a Gothic cathedral on the eastern half of the Ile Toutes les classes du vocabulaire sont compar´ees au contenu de la partie de phrase apr`es le verbe to be. Nous retenons comme classe parent celle qui apparaˆıt la premi`ere. Si aucune classe g´eographique n’est trouv´ee, l’´el´ement est ´elimin´e de la liste de candidats. Les noms g´eographiques candidats extraits de Panoramio contiennent une r´ef´erence explicite ` a une classe g´eographique. On pourrait donc se contenter de d´esigner cette classe comme hyperonyme du candidat mais cette cat´egorisation produit des erreurs pour des termes comme Cathedral of Learning (qui n’est pas une cath´edrale mais un gratte-ciel ), Palace of Fine Arts (un mus´ee et non pas un palais) ou Squirrel Hill ou Notting Hill (des quartiers et non pas des collines). Ces erreurs peuvent ˆetre corrig´ees en mettant en place une m´ethode de cat´egorisation bas´ee sur les fragments de texte pr´esents dans les pages de r´esultats d’Alltheweb. La m´ethode, illustr´ee dans le pseudo-code 4.2, s’inspire des travaux de [50] et est similaire `a celle propos´ee par [108] pour construire automatiquement des taxonomies. Notons aussi que l’usage des r´esum´es de documents pr´esent´es dans les pages de r´esultats des moteurs de recherche s’apparente `a celui r´ealis´e dans [13] pour une application de questions-r´eponses.

´ ´ 4.2. CONSTRUCTION AUTOMATIQUE D’UN THESAURUS GEOGRAPHIQUE125

Fig. 4.2 – Pseudo-code pour la cat´egorisation `a partir d’Alltheweb. Notations du pseudo-code de l’algorithme de cat´egorisation des noms g´eographiques (nomm´e CATEGORISATION dans la suite) utilisant les « snippets » : – candidat : nom g´eographique ` a cat´egoriser ; – concept : cat´egorie g´eographique ; – GeoVocabulaire : liste des cat´egories g´eographiques ; – CategExplicite : le concept dans le vocabulaire g´eographique pr´esent dans le nom candidat ; – categTemp : variable temporaire pour stocker CategExplicite ; – FreqSnip : fr´equence d’apparition des concepts du vocabulaire g´eographique dans les « snippets » ; – freqMax : valeur maximale de la fr´equence d’apparition ; – CompteurPages : nombre de r´eponses dans AlltheWeb pour des d´efinitions comme X is a (an) Y ; – def1, def2 : variables temporaires pour stocker les valeurs de CompteurPages. ` partir d’Alltheweb, nous r´ecup´erons les 50 premi`eres r´eponses associ´ees `a chaque A nom candidat, nous ´eliminons le nom mˆeme de ces textes afin de ne pas biaiser les r´esultats et calculons les fr´equences d’apparition de chaque classe dans le vocabulaire g´eographique. Si la classe associ´ee le plus souvent au nom candidat n’est pas celle apparaissant dans le nom, deux requˆetes suppl´ementaires sont lanc´ees dans Alltheweb afin de retrouver la classe parent. Supposons que la classe associ´ee le plus fr´equemment `a Squirrel Hill soit neighborhood. Nous formons une requˆete Squirrel Hill is a neighborhood et r´ecup´erons le nombre de pages avec Alltheweb (trois r´eponses). Ensuite, nous lan¸cons une requˆete avec Squirrel Hill is a hill qui ne renvoie aucune page et attribuons donc Squirrel Hill ` a la classe neighborhood.

126

4.2.5

CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES

Localisation des noms g´ eographiques

La localisation des noms g´eographiques est imm´ediate pour les candidats ayant des articles g´eo-localis´es dans Wikip´edia puisqu’il suffit d’enregistrer simplement les coordonn´ees. Nous proposons une recherche du nom dans un rayon de 10 km autour des coordonn´ees de l’image la plus populaire parmi les photographies de Panoramio.

Fig. 4.3 – Pseudo-code pour la localisation des entit´es. Notations du pseudo-code de l’algorithme de localisation (nomm´e LOCALISATION dans la suite) des noms candidats : – image : ´el´ement de Panoramio contenant le nom candidat dans son titre ; – (lat init, long init) : coordonn´ees de la premi`ere image Panoramio associ´ee `a candidat ; – dist limite : rayon maximal autour des coordonn´ees initiales `a l’int´erieur duquel nous s´electionnons des images repr´esentatives pour candidat ; – latitude(image) : latitude associ´ee `a image ; – longitude(image) : longitude associ´ee `a image ; – ListeLat : liste contenant toutes les valeurs de latitude(image) ; – ListeLong : liste contenant toutes les valeurs de longitude(image) ; – lat : valeur finale de la latitude pour le nom candidat ; – long : valeur finale de la longitude pour le nom candidat. Si aucune image n’est associ´ee au candidat, il est ´elimin´e. Dans le cas contraire, illustr´e par le pseudo-code de la figure 4.3, nous calculons la moyenne des coordonn´ees. Une proc´edure similaire est mise en place pour les candidats extraits de Panoramio. Pour les noms g´eographiques polys´emiques, nous mettons en place une proc´edure de s´eparation spatiale. La limitation de l’espace de recherche `a une r´egion autour du candidat permet d’´eviter les erreurs dues `a l’homonymie. Supposons qu’un nom candidat ait d´ej`a ´et´e trait´e. Toute image distante d’au moins 20 km des coordonn´ees d´ej`a calcul´ees sera consid´er´ee comme diff´erente. Si un tel ´el´ement est trouv´e, une recherche dans un rayon de 10 km autour de ses coordonn´ees est lanc´ee. Cette m´ethode de localisation fonc-

´ ´ 4.2. CONSTRUCTION AUTOMATIQUE D’UN THESAURUS GEOGRAPHIQUE127 tionne pour les objets ayant une surface n´egligeable par rapport `a un rayon de 10 km mais peut naturellement engendrer des doublons pour d’autres entit´es plus vastes, comme les parcs naturels. Dans l’application envisag´ee, l’apparition de doublons peut s’av´erer utile pour les objets ayant une grande surface puisqu’elle permet leur pr´esentation `a diff´erents endroits. Pour d’autres applications, nous pouvons envisager une adaptation du rayon de recherche par rapport au type d’entit´e cible.

4.2.6

Mesure de pertinence associ´ ee aux noms g´ eographiques

La valeur de pertinence associ´ee ` a chaque ´el´ement de Gazetiki est similaire `a celle calcul´ee pour l’adaptation de Geonames, d´etaill´ee dans la sous-section 4.1.2. La mesure de pertinence est bas´ee sur une combinaison de la popularit´e du terme candidat dans le corpus de Panoramio et dans celui d’Alltheweb, avec une priorit´e pour la valeur obtenue `a partir de Panoramio. L’utilisation de Panoramio plutˆot que d’un autre corpus comme Flickr, s’explique par le fait que ce corpus est d´edi´e aux images g´eo-r´ef´erenc´ees et permet d’obtenir une bonne estimation de la pertinence. On ajoute la fr´equence `a partir du Web car le corpus de Panoramio ne contient pas n´ecessairement suffisamment d’images pour ordonner toutes les entit´es g´eographiques (il y a environ six millions d’images dans Panoramio et approximativement quatre millions d’entit´es `a ordonner). Une limitation de l’espace de recherche ` a 10 km autour des coordonn´ees moyennes permet d’´eliminer le probl`eme des termes polys´emiques. L’algorithme de calcul de la pertinence est illustr´e par le pseudo-code de la figure 4.4, il exploite les coordonn´ees calcul´ees en utilisant l’algorithme de localisation.

Fig. 4.4 – Pseudo-code pour le calcul de la pertinence. Notations du pseudo-code de l’algorithme de calcul de la pertinence (nomm´e PERTINENCE dans la suite) : – freqPano : nombre d’images contenant candidat dans leur titre ; – utilDiff : nombre d’utilisateurs diff´erents ayant mis en ligne des photographies de candidat ; – pertinPano : mesure de pertinence calcul´ee `a partir de Panoramio ; – pertinWeb : mesure de pertinence calcul´ee sur le Web ; – pertinFinale : combinaison de pertinPano et pertinWeb.

128

4.2.7

CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES

Vue globale de l’algorithme

Nous pr´esentons dans le pseudo-code de la figure 4.5 une vue globale de l’algorithme de cr´eation de Gazetiki. L’algorithme parcourt les listes de candidats extraits `a partir de Wikip´edia et de Panoramio. Les m´ethodes de cat´egorisation, localisation et calcul de la pertinence renvoient aux descriptions des paragraphes pr´ec´edents.

Fig. 4.5 – Vue globale de l’algorithme de construction de Gazetiki. En haut, extraction d’entit´es g´eographiques ` a partir de Wikip´edia. En bas, extraction d’entit´es g´eographiques `a partir de Panoramio. Notons que l’algorithme traite s´epar´ement les noms candidats provenant des deux sources de donn´ees brutes. Ceci est une cons´equence de la structure diff´erente de Wikip´edia et de Panoramio. Pour chaque candidat, si les coordonn´ees et le concept parent sont d´etermin´es, la valeur de pertinence associ´ee au nom est ´egalement calcul´ee. Nous avons impos´e un seuil de 15 r´eponses sur le Web afin d’´eliminer les candidats rares parce ces derniers repr´esentent souvent des erreurs orthographiques.

4.2.8

Gazetiki — r´ esultats et ´ evaluation

Nous comparons les r´esultats de notre approche avec ceux obtenus pour l’autre base de donn´ees g´eographiques constitu´ee automatiquement, d´ecrits dans [111] et [1] et avec

´ ´ 4.2. CONSTRUCTION AUTOMATIQUE D’UN THESAURUS GEOGRAPHIQUE129 Geonames. Des r´egions d’environ 900 km2 autour de 15 villes de pays diff´erents et de dimensions variables (voir Table 4.5) ont ´et´e choisies manuellement. Nous leur avons appliqu´e la m´ethodologie d’extraction automatique de noms g´eographiques d´ecrite dans cette section. Nous avons s´electionn´e des villes de pays ayant une repr´esentation de qualit´e variable dans Geonames. L’algorithme d’extraction a g´en´er´e environ 6000 candidats et nous avons ´elimin´e ceux dont le nom ne se retrouve pas assez souvent sur le Web (un seuil de 15 apparitions dans les r´eponses fournies par Alltheweb a ´et´e fix´e empiriquement) filtrant ainsi environ 20% des candidats. Nous avons ensuite test´e les caract´eristiques suivantes de Gazetiki : – le pourcentage d’extractions correctes (´evalu´e manuellement) ; – la couverture de Gazetiki et celle de la ressource d´ecrite dans [111] ; – le taux de bonnes cat´egorisations des ´el´ements extraits dans des classes parents. L’exp´erience est bas´ee sur une comparaison des ´el´ements communs entre Gazetiki et Geonames ; – la pr´ecision de l’algorithme de positionnement des entit´es ; – les performances de la proc´edure d’ordonnancement. L’exp´erience consiste en une comparaison des entit´es les plus repr´esentatives de Gazetiki et de la structure dans [111] contre la liste des lieux les plus repr´esentatifs de chaque ville selon TripAdvisor1 ; 4.2.8.1

Extraction de candidats

Nous avons ´evalu´e le taux d’extractions correctes pour un total de 424 ´el´ements g´en´er´es automatiquement. Pour chacune des 15 villes s´electionn´ees, nous avons retenu, de mani`ere al´eatoire, un maximum de 30 entit´es existant aussi sur Panoramio. Notons que certaines villes, comme Toulouse ou Tunis, ont moins de 30 noms candidats associ´es. Nous avons consid´er´e comme extractions correctes les noms exacts des candidats (ex. University of Pittsburgh ou Eiffel Tower ) ainsi que les noms incomplets mais commun´ement employ´es pour d´ecrire certaines entit´es (comme Le Louvre `a la place de Louvre Museum). Les r´esultats du test sont pr´esent´es dans le tableau 4.5. Les r´esultats du tableau 4.5 montrent que notre algorithme extrait correctement les noms g´eographiques dans plus de 90% des cas. Des tr`es bons r´esultats sont obtenus pour Sydney et Londres et — de mani`ere g´en´erale — pour les villes situ´ees dans des pays anglophones. Des r´esultats moins satisfaisants sont `a rapporter pour des villes comme Toulouse ou Paris, mais il peuvent s’expliquer en partie par le fait que beaucoup d’annotations d’images localis´ees dans ces villes ne sont pas faites en anglais. Les erreurs observ´ees sont dues ` a des imperfections de la m´ethode d’extraction. Un premier type inclut des termes communs ´ecrits en majuscules, comme Big House, qui ont ´et´e retrouv´es en utilisant nos r`egles d’extraction. Une solution simple permettant d’´eliminer ce type d’erreurs serait de ne pas retenir les candidats form´es d’un adjectif et d’un ´el´ement du vocabulaire g´eographique. Nous n’avons pas appliqu´e cette m´ethode 1

http ://www.tripadivsor.com (leader mondial du e-tourisme) est un site proposant une description des destinations touristiques, avec leurs attractions, par les utilisateurs.

130

CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES

´ Tab. 4.5 – Evaluation du processus d’extraction de candidates de Gazetiki. Le tableau pr´esente le taux de bonnes extractions sur le nombre total d’´el´ements test´es. Nom de la ville Athens (Greece) Beijing (China) Bucharest (Romania) Kiev (Ukraine) London (UK) Moscow (Russia) Paris (France) Pittsburgh (US) San Francisco (US) Singapore Sydney (Australia) Timisoara (Romania) Tokyo (Japan) Toulouse (France) Tunis (Tunisia) Total

Extractions correctes/Total 28/30 26/30 28/30 27/30 29/30 27/30 26/30 28/30 28/30 29/30 30/30 29/30 28/30 7/10 22/24 394/424

car elle filtrerait aussi des noms g´eographiques correctes comme White Pagoda (Beijing) ou Red Square (Moscow ). Nous avons ´egalement jug´e comme des erreurs des termes vagues, par exemple Athens Theater, consid´erant qu’ils correspondaient `a plusieurs objets g´eographiques distincts. Pour Wikip´edia, la pr´ecision de l’extraction atteint pratiquement 100% parce qu’il s’agit de noms g´eographiques introduits manuellement par des utilisateurs et repr´esentant le titre de l’article. Comme approximativement un tiers du nombre total d’entit´es extraites provient de Wikip´edia, le taux de bonnes extractions avoisine 95%. Le dernier r´esultat est ` a comparer `a la pr´ecision de 82% rapport´ee dans [111], correspondant ` a l’autre base de donn´ees g´eographiques `a large ´echelle constitu´ee automatiquement dont nous avons connaissance. Nous rappelons au lecteur que notre comparaison ne porte pas sur la m´ethode d’extraction ou les corpus de donn´ees brutes, mais plutˆ ot sur les r´esultats obtenus. La m´ethode utilis´ee dans [111] est bas´ee sur une analyse statistique, alors que notre approche pour Gazetiki repose principalement sur l’utilisation de patrons linguistiques. Si l’on compare les corpus utilis´es, celui de base dans [111] contenait environ 30 millions d’annotations d’images g´eo-r´ef´erenc´ees `a l’´epoque de l’´ecriture de l’article [111] tandis que le corpus de Panoramio contient seulement cinq millions d’images et d’annotations. La pr´ecision de 82% rapport´ee dans [111] est obtenue en ´eliminant 50% des candidats (ceux apparaissant le moins fr´equemment), notre seuillage de Gazetiki ne filtre que 20% des noms candidats, aussi on peut conclure qu’on am´eliore

´ ´ 4.2. CONSTRUCTION AUTOMATIQUE D’UN THESAURUS GEOGRAPHIQUE131 la pr´ecision des r´esultats tout en retenant un plus grand nombre d’entit´es. 4.2.8.2

Couverture de Gazetiki

Nous avons r´ealis´e les exp´eriences en s´electionnant une r´egion rectangulaire d’environ 900 km2 autour des 15 villes cibles. Dans [1] et [111], les auteurs n’offrent aucune information concernant la couverture offerte par leur base de donn´ees g´eographiques cr´e´ee automatiquement ` a partir de Flickr. N´eanmoins, il est par contre possible d’interroger TagMaps via un service Web afin d’obtenir le nombre total de tags correspondant `a une r´egion. Nous comparons la couverture de Gazetiki `a celle de TagMaps dans le Tableau 4.6. Tab. 4.6 – Comparaison de la couverture dans TagMaps et Gazetiki. Nom de la ville Athens (Greece) Beijing (China) Bucharest (Romania) Kiev (Ukraine) London (UK) Moscow (Russia) Paris (France) Pittsburgh (US) San Francisco (US) Singapore Sydney (Australia) Timi¸soara (Romania) Tokyo (Japan) Toulouse (France) Tunis (Tunisia)

TagMaps 20 64 27 8 580 24 176 113 472 46 186 1 173 18 7

Gazetiki 214 489 129 145 1313 83 321 413 1006 827 534 31 548 10 24

Les r´esultats du tableau 4.6 montrent que la couverture globale de Gazetiki est sup´erieure `a celle de TagMaps pour les r´egions analys´ees, `a une exception pr`es : Toulouse. Un grand nombre de noms g´eographiques est extrait pour des villes qui ont une description d´etaill´ee dans Wikip´edia et qui sont ´egalement bien repr´esent´ees dans Panoramio, notamment pour des villes anglophones comme London (1313 tags), San Francisco (1006) ou encore Singapore (827). Tokyo (548 tags) et Beijing (489) sont ´egalement bien repr´esent´ees dans Gazetiki principalement `a cause du grand nombre de photographies de Panoramio annot´ees en anglais pour ces r´egions. Les articles Wikip´edia pour Tokyo et Beijing sont moins d´etaill´es que ceux pour London et San Francisco et ceci explique partiellement les meilleurs r´esultats obtenus pour ces deux derni`eres villes. Mˆeme si c’est une destination touristique majeure, le nombre de tags extraits pour

132

CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES

Paris (321) est inf´erieur ` a des villes moins visit´ees comme Beijing (489) ou Pittsburgh (413) alors que Paris est naturellement plus repr´esent´ee dans TagMaps. L’utilisation d’un vocabulaire anglais explique, au moins partiellement, cette situation et il est probable que ce rapport soit invers´e en utilisant des versions multilingues du vocabulaire g´eographique. Cette internationalisation du vocabulaire permettrait une am´elioration significative du nombre d’entit´es extraites, surtout pour les r´egions non anglophones, mais soul`eve des probl`emes d’alignement des termes synonymes qui auront des noms diff´erents dans les diff´erentes langues utilis´ees. Des diff´erences significatives en faveur de Gazetiki sont `a noter pour des villes comme Kiev (145 tags contre 8), Timi¸soara (31 contre 1) ou Athens (214 contre 20). Ces villes sont plac´ees dans des pays qui sont trop faiblement repr´esent´es dans TagMaps et Geonames. La plus-value apport´ee par notre m´ethode est particuli`erement importante pour ces r´egions. Si l’on compare Gazetiki ` a Geonames, la couverture du thesaurus constitu´e manuellement est sup´erieure mais, comme le montrent les r´esultats du tableau 4.7, les deux ressources sont plutˆ ot compl´ementaires. Sur environ 4800 instances de Gazetiki, uniquement 543 existent aussi dans Geonames. Les diff´erences sont de deux types et concernent la distribution des contenus et la couverture de l’espace. Dans le premier cas, il est ` a noter que Geonames assure une tr`es bonne couverture des r´egions administratives (ex. noms de villes, de r´egions, de quartiers) alors que notre m´ethode d’extraction favorise des entit´es contenant une r´ef´erence explicite `a une cat´egorie g´eographique. Quant `a la couverture, l’intersection serait probablement plus importante si nous utilisions uniquement des villes situ´ees dans des pays bien repr´esent´es dans Geonames. La couverture est quasi nulle dans des pays mal repr´esent´es dans ce th´esaurus comme la Roumanie ou Singapour. 4.2.8.3

Cat´ egorisation des noms g´ eographiques

L’h´eritage conceptuel est une relation de base dans la structure des th´esauri g´eographiques. L’attribution des noms g´eographiques `a des cat´egories plus g´en´erales, que nous d´ecrivons dans cette section, est l’une des principales composantes de la m´ethode d’acquisition automatique de connaissances. La qualit´e de la cat´egorisation peut ˆetre ´evalu´ee semi-automatiquement en utilisant les ´el´ements communs `a Gazetiki et Geonames, parce que tous les noms g´eographiques inclus dans cette ressource sont rattach´es `a des classes parents. Nous rappelons bri`evement la proc´edure de cat´egorisation utilis´ee : – Pour Wikip´edia : nous appliquons la m´ethode initialement d´ecrite dans [71] qui consiste ` a analyser la premi`ere phrase des articles. Wikip´edia ´etant de plus en plus normalis´ee, cette phrase est, dans la tr`es grande majorit´e des cas, de type d´efinitoire. Nous retenons comme classe parent du candidat le premier ´el´ement du vocabulaire g´eographique apparaissant apr`es le verbe « to be ». – Pour Panoramio : nous utilisons la proc´edure de cat´egorisation bas´ee sur l’exploitation des corr´elations statistiques entre les noms candidats et les ´el´ements du vocabulaire g´eographique afin de v´erifier si la cat´egorie apparaissant explicitement dans le nom est la vraie cat´egorie parente du candidat. Tout comme pour la

´ ´ 4.2. CONSTRUCTION AUTOMATIQUE D’UN THESAURUS GEOGRAPHIQUE133 proc´edure d’extraction, si un ´el´ement est commun `a Wikip´edia et Panoramio, nous retenons la cat´egorie issue de la premi`ere phrase de l’article de Wikip´edia. Sur un nombre total d’environ 4800 noms candidats retenus, 543 sont communs `a Gazetiki et `a Geonames, avec 217 termes provenant de Wikip´edia et 326 de Panoramio. Nous consid´erons qu’un ´el´ement a ´et´e correctement cat´egoris´e s’il est rattach´e au mˆeme concept g´eographique dans Gazetiki et Geonames ou, s’il s’agit d’un concept h´eritant de plusieurs classes parent, si une de ces classes a ´et´e trouv´ee dans Gazetiki. Ce dernier choix s’explique par le fait que Geonames ne g`ere pas l’h´eritage multiple tandis qu’il existe un nombre significatif de termes h´eritant de plusieurs cat´egories (par exemple, Eiffel Tower est ` a la fois une tour et un monument). Tab. 4.7 – Evaluation du processus de cat´egorisation de Gazetiki.

Nombre d’´el´ements Erreurs Pr´ecision

Wikip´edia 217 13 94%

Panoramio 326 32 90%

Gazetiki ∩ Geonames 543 45 92%

Les r´esultats, tr`es encourageants, pr´esent´es dans le tableau 4.7 montrent que la cat´egorisation est correcte dans 92% des cas, ce qui repr´esente un taux de succ`es satisfaisant pour une m´ethode compl`etement automatique. Les r´esultats obtenus pour Wikip´edia confirment ceux de [71], l’article qui a inspir´e notre d´emarche. Les erreurs sont caus´ees principalement par des d´efinitions compliqu´ees. Par exemple, le verbe « to be » est parfois suivi par une r´ef´erence `a la position g´eographique de l’objet et non par sa classe parent : X est situ´e ` a l’est de Y et est un Z. Dans ce cas, au lieu d’extraire Z, il est possible de trouver un ´el´ement du vocabulaire g´eographique dans Y qui sera extrait par notre algorithme. En perspective, nous ajouterons une analyse syntaxique destin´ee ` a ´eviter ce type d’erreurs. Quant `a Panoramio, les erreurs interviennent quand la cat´egorie apparaissant explicitement dans le nom n’est pas la vraie classe parent de l’objet et que la proc´edure par un moteur de recherche sur le Web ´echoue `a d´etecter cette situation. Nous ´etudions actuellement des variantes d’am´elioration de la proc´edure de classification utilis´ee pour Panoramio, par exemple par l’utilisation de « snippets » en plusieurs langues pour obtenir la classe parent correcte. La pr´ef´erence donn´ee `a la cat´egorisation bas´ee sur Wikip´edia est justifi´ee par les taux de r´eussite : 94% pour Wikip´edia et 90% pour Panoramio. 4.2.8.4

Positionnement spatial des candidats

Similairement ` a la cat´egorisation, nous employons l’intersection entre Geonames et Gazetiki pour ´evaluer la distance entre la position des ´el´ements de notre structure contre celle pr´esente dans Geonames. L’´evaluation ne peut se faire selon une cat´egorisation binaire (r´esultat pertinent/non pertinent) et nous pr´esentons les r´esultats (figure 4.6) en fonction de la r´epartition des erreurs de distance selon un pas de 200m (les r´ef´erences sont

134

CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES

les coordonn´ees donn´ees par Geonames). Les diff´erences de plus de 3 km sont regroup´ees en une seule classe.

Fig. 4.6 – Distribution des distances entre les coordonn´ees des ´el´ements de Gazetiki et ceux de Geonames. 80% des ´el´ements ont une erreur de localisation de moins de 600 m. Les r´esultats de la figure 4.6 montrent qu’une large majorit´e (92%) des coordonn´ees calcul´ees avec notre algorithme se trouvent `a moins d’un kilom`etre de la position des ´el´ements dans Geonames, 81% pour les moins de 600 m`etres. Le premier secteur examin´e (moins de 200 m`etres) contient la majorit´e des r´esultats (60%). Les impr´ecisions de la proc´edure de localisation sont en relation directe avec le nombre d’images utilis´ees pour le calcul et le type d’entit´e photographi´ee. Il y a souvent une diff´erence significative entre l’endroit d’o` u est prise l’image et la position r´eelle de l’objet, cela ´etant accentu´e pour des objets « d´egag´es » (comme la Tour Eiffel ). Pour Panoramio, la proc´edure ´etant bas´ee sur la moyenne des coordonn´ees des images, plus un objet est photographi´e, plus cette estimation s’approchera des vraies coordonn´ees. N´eanmoins, certaines entit´es ont une position de prise de vue favoris´ee (ex. le Sacr´e Cœur du bas de la colline Montmartre ou Notre Dame de Paris via le parvis), dans ces cas, la moyenne conservera ce biais de localisation. Notons que les coordonn´ees de Wikip´edia sont, en moyenne, plus proches de celles de Geonames que les coordonn´ees calcul´ees `a partir de Panoramio. Une analyse de la corr´elation entre le type de l’objet et l’impr´ecision de la localisation montre qu’on retrouve souvent parmi les positions correctement localis´ees des noms d’objets appartenant ` a des cat´egories comme : church, tower ou monument, c’est-`a-dire

´ ´ 4.2. CONSTRUCTION AUTOMATIQUE D’UN THESAURUS GEOGRAPHIQUE135 des objets bien localis´es, avec une surface relativement restreinte et habituellement photographi´es selon diff´erents points de vue. Nous avons ´egalement regard´e les entit´es dont la distance par rapport aux coordonn´ees de Geonames est sup´erieure `a 1 km. On retrouve g´en´eralement des concepts ayant une surface significative, comme gulf, river, borough, island, bay ou park. Mais, pour ces objets, une impr´ecision de l’ordre d’un kilom`etre est homog`ene avec leurs propres dimensions et n’affecte donc pas significativement la qualit´e de leur repr´esentation dans l’espace. La ressource d´ecrite ici sera exploit´ee dans une application permettant de visualiser des tags g´eographiques sur une carte interactive (voir le chapitre 5). Pour ce type d’application, les impr´ecisions de positionnement sont partiellement masqu´ees par le fait que le texte du tag couvre une certaine surface de la carte. La largeur du texte ´etant significativement sup´erieure ` a sa hauteur, les diff´erences de longitude seront mieux masqu´ees que celles de latitude. Naturellement, l’´echelle de visualisation rentre aussi en compte, l’erreur de localisation ´etant plus sensible `a l’´echelle d’un quartier que d’une ville ou d’une r´egion.

4.2.8.5

´ Evaluation du classement des ´ el´ ements de Gazetiki

Cette ´evaluation vise ` a comparer les r´esultats de l’ordonnancement des ´el´ements dans Gazetiki ` a ceux de TagMaps. Dans les deux ressources, la pertinence associ´ee aux lieux est bas´ee sur une mesure statistique, plus pr´ecis´ement sur le nombre total d’images associ´ees ` a un tag dans TagMaps, ce nombre ´etant pond´er´e, dans Gazetiki, par le nombre d’utilisateurs. Nous utilisons la vue « standard » des villes test´ees dans les deux applications et nous extrayons les dix ´el´ements les plus saillants selon cette mesure pour les comparer ` a ceux propos´es par TripAdvisor. La repr´esentativit´e des ´el´ements de cette ressource est calcul´ee en utilisant les opinions des utilisateurs sur les endroits `a visiter dans chaque ville (« Meilleures Attractions ») et restitue un regard communautaire sur l’importance des objets. Afin de normaliser notre test, nous ne retenons que les dix attractions de TripAdvisor apr`es avoir ´elimin´e celles pointant vers des entit´es en dehors du domaine g´eographique, comme « Bike guided tours ». TagMaps et Gazetiki utilisent des mesures purement statistiques sur deux autres sites communautaires : Flickr et Panoramio (respectivement). Notre ´evaluation s’int´eresse `a l’intersection de ces listes avec celle de TripAdvisor. Notons que, pour des villes comme Kiev, Timisoara ou Tunis, TripAdvisor recense un nombre d’objets saillant inf´erieur `a dix, dans ces cas, le calcul est fait en utilisant ce nombre comme nouvelle r´ef´erence. Les r´esultats du tableau 4.8 montrent que le nombre d’´el´ements communs `a TripAdvisor et TagMaps est inf´erieur ` a l’intersection avec Gazetiki (20 contre 36 sur 139). Si on regarde plus en d´etail, l’intersection TripAdvisor-Tagmaps est inf´erieure `a celle avec Gazetiki dans 10 cas sur 15. Dans les quatre cas o` u l’intersection avec TagMaps est sup´erieure ` a celle avec Gazetiki, la diff´erence est minimale (un seul objet d’´ecart). N´eanmoins, le classement de TripAdvisor n’est pas toujours repr´esentatif et l’exp´erience pourrait ˆetre r´ep´et´ee en utilisant un panel « d’experts » des diff´erentes villes pour fournir d’autres listes de v´erit´es terrain.

136

CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES

Tab. 4.8 – Comparaison du classement des objets g´eographiques dans TagMaps et Gazetiki contre TripAdvisor. Nom de la ville Athens (Greece) Beijing (China) Bucharest (Romania) Kiev (Ukraine) London (UK) Moscow (Russia) Paris (France) Pittsburgh (US) San Francisco (US) Singapore Sydney (Australia) Timisoara (Romania) Tokyo (Japan) Toulouse (France) Tunis (Tunisia) Total

4.2.9

TagMaps ∩ TripAdvisor 2/10 3/10 1/10 0/7 0/10 2/10 3/10 1/10 1/10 1/10 2/10 0/5 1/10 2/10 1/7 20/139

Gazetiki ∩ TripAdvisor 4/10 5/10 2/10 1/7 3/10 3/10 5/10 1/10 3/10 0/10 5/10 3/5 0/10 1/10 0/7 36/139

Relation entre Gazetiki et TagMaps et Geonames

Nous comparons Gazetiki avec deux autres bases de donn´ees g´eographiques, TagMaps, constitu´ee automatiquement comme notre th´esaurus, et Geonames, dont le contenu est obtenu manuellement. Les deux bases de donn´ees g´eographiques cr´e´ees automatiquement dont nous avons connaissance, TagMaps et Gazetiki, utilisent des donn´ees brutes du Web. Les m´ethodologies de constitution sont assez diff´erentes : principalement statistiques pour TagMaps et bas´ee sur une analyse structurale et linguistique pour Gazetiki. N´eanmoins, l’objectif affich´e par ces deux bases est clairement le mˆeme (am´eliorer la recherche d’images de notre monde), une comparaison entre ces deux ressources s’av`ere donc naturelle : – La structure de Gazetiki est plus compl`ete que celle de TagMaps car elle contient, en plus du triplet (nom, position, pertinence), une cat´egorisation des ´el´ements extraits automatiquement. Cela permet de proposer `a l’utilisateur une recherche th´ematique en lui donnant la possibilit´e de visualiser uniquement des cat´egories qui l’int´eressent ` a un moment donn´e. La pr´esence d’une information de cat´egorisation rend ´egalement possible l’affichage les r´esultats d’une requˆete suivant les diff´erents types d’images retourn´ees. – Pr´ecision : comme montr´e par nos exp´eriences, la pr´ecision de la m´ethode d’extraction de noms g´eographiques est sup´erieure `a celle de TagMaps. L’am´elioration est

´ ´ 4.2. CONSTRUCTION AUTOMATIQUE D’UN THESAURUS GEOGRAPHIQUE137 significative car elle permet d’avoir un taux de bruit inf´erieur `a 5% dans Gazetiki contre 18% dans TagMaps. – Couverture : bien que nous ignorons le volume total des noms g´eographiques dans TagMaps, la comparaison du nombre d’´el´ements dans des zones centr´ees autour de grandes villes indique que le nombre d’´el´ements dans Gazetiki est sup´erieur `a celui propos´e par TagMaps. – Le positionnement des ´el´ements : les ´el´ements d´ecouverts automatiquement en utilisant Panoramio sont majoritairement positionn´es `a moins de 200 m des coordonn´ees dans Geonames. Des diff´erences de plus de 1 km sont obtenues pour des objets g´eographiques ayant une surface significative. – L’ordonnancement des ´el´ements : le classement propos´e dans Gazetiki s’accorde mieux avec celui propos´e par une r´ef´erence du Web (TripAdvisor) que pour TagMaps. La comparaison de Gazetiki avec Geonames montre que : – La cat´egorisation des ´el´ements dans Gazetiki est satisfaisante pour une proc´edure compl`etement automatique (le taux de fausses classifications ´etant de 7%). – L’utilisation d’un mod`ele du domaine inspir´e par celui de Geonames permet une int´egration ais´ee des deux ressources. Notons aussi que le th´esaurus constitu´e automatiquement contient des cat´egories avec une forte composante spatiale qui ne se trouvent pas dans Geonames, enrichissant le mod`ele de ce dernier. – L’extraction automatique de noms g´eographiques est particuli`erement utile pour des r´egions du monde qui sont mal repr´esent´ees dans Geonames (des pays comme la Chine, la Roumanie, la Russie). Toutefois, il faut souligner qu’un nombre tout aussi important d’´el´ements suppl´ementaires est d´ecouvert pour des pays bien repr´esent´es dans Geonames, comme les Etats-Unis ou la France. – Le nombre d’entit´es d´ecouvertes dans Gazetiki reste naturellement plus petit que le volume de donn´ees dans Geonames mais l’intersection entre les deux jeux de donn´ees montre leur grande compl´ementarit´e. Les constats dress´es ci-dessus nous permettent d’affirmer que nous avons construit automatiquement un th´esaurus g´eographique `a large ´echelle, d’une qualit´e sup´erieure `a celui ` ce jour et ` d´ecrit dans [111]. A a notre connaissance, Gazetiki est une ressource unique en son genre et a rencontr´e un int´erˆet certain de la part de communaut´e scientifique s’int´eressant ` a ce domaine (notamment lors de pr´esentations `a ACM JCDL’08 ou IEEE CBMI’08). Gazetiki est parfaitement compl´ementaire `a Geonames et l’int´egration de ces deux ressources est relativement facile : nous retenons tous les ´el´ements qui apparaissent exclusivement dans une des deux ressources et, pour l’intersection, nous privil´egions les ´el´ements de Geonames. La structure r´esultante sera int´egr´ee dans une application de recherche d’images g´eo-localis´ees d´ecrit dans le chapitre suivant, nomm´ee ThemExplorer. Nous avons concentr´e des efforts importants sur cette application notamment `a cause de son int´erˆet pour des syst`emes et des applications futurs en lien avec le domaine, en pleine croissance, du e-tourisme.

138

CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES

4.3

Construction automatique d’une structure linguistique pour les personnalit´ es

Nous avons mentionn´e dans le chapitre 2 que les entit´es nomm´ees sont faiblement couvertes par WordNet. Comme pour les noms de lieux, Wikip´edia inclut un nombre consid´erable d’articles d´edi´es aux personnalit´es sous la forme d’informations semi-structur´ees. Certes, il existe d’autres sources d’information plus riches que Wikip´edia pour les c´el´ebrit´es, mais elles ne sont pas en libre acc`es comme IMDB2 , la base de donn´ees de r´ef´erence sur le cin´ema et la t´el´evision (s´eries t´el´evis´ees). Un travail relativement proche est propos´e dans [8] avec DBPedia, mais cette base contient seulement un passage des articles Wikip´edia au format SQL ce qui n’est pas suffisant pour exploiter cette structure en recherche d’information. Dans DBPedia, les concepts et leurs relations ne sont pas ordonn´es et il est donc impossible de proposer en priorit´e les concepts plus pertinents. De plus, Auer [8] n’utilise que les tableaux des articles Wikip´edia pour en extraire des informations. Dans l’approche que nous d´ecrivons dans cette partie, nous exploitons les tableaux de donn´ees et le texte des articles. La stucture linguistique r´esultante est nomm´ee CelebWiki.

4.3.1

Mod´ elisation du domaine

Pour les c´el´ebrit´es, il est possible de formaliser des connaissances relatives `a leur biographie et leurs activit´es. Le premier type d’informations, comprenant par exemple la date et le lieu de naissance, est commun `a toutes les cat´egories. L’activit´e est une information plus sp´ecifique et n´ecessite de d´efinir des relations liant la personne `a son (ses) domaine(s) d’activit´e. Nous appliquons une m´ethode d’extraction automatique de connaissances pour trois types de c´el´ebrit´es : – les chanteurs et musiciens ; – les acteurs ; – les footballeurs. Nous privil´egions ` a la fois des donn´ees d’ordre biographique et des connaissances sp´ecifiques ` a leur type d’activit´e : – le(s) nom(s) du concept (d´ef. 1) ; – la s´eparation entre les classes et les instances (d´ef. 2) ; – une structure bas´ee sur l’h´eritage conceptuel (d´ef. 4) ; – une valeur de pertinence associ´ee aux concepts (autres relations) ; – des relations sp´ecifiques a` chaque type de c´el´ebrit´e (autres relations). Ces donn´ees permettent une identification unique de tous les noms de c´el´ebrit´es inclus dans la ressource, une structuration de leur voisinage conceptuel et un classement des concepts et relations en fonction de leur pertinence. 2

http ://imdb.com

´ 4.3. STRUCTURE LINGUISTIQUE POUR LES PERSONNALITES

4.3.2

139

Extraction de connaissances pour les personnalit´ es ` a partir de Wikip´ edia

La liste d’articles ` a analyser est obtenue en utilisant les pages recensant les c´el´ebrit´es 3 par nationalit´e . On extrait un volume total de 5963 articles pour les chanteurs et musiciens, 13753 pour les acteurs et 25758 pour les footballeurs4 . La structure linguistique r´esultante contient 44474 entr´ees, ce qui est comparable avec le volume total de 70000 pages de personnes extrait ` a partir de Wikip´edia dans DBPedia [8]. La m´ethode d’extraction d´ecrite par la suite peut ˆetre assez facilement adapt´ee `a d’autres types de personnes afin d’enrichir la base de connaissances. Pour une br`eve discussion concernant la qualit´e des connaissances extraites, nous renvoyons le lecteur ` a la discussion de la section 4.2.2. Quant `a la compl´etude des informations, il serait na¨ıf d’esp´erer retrouver une structure compl`ete, la caract´erisation des concepts et de leurs relations ´etant sujette `a une modification continue. Tout au plus, nous pouvons esp´erer caract´eriser les concepts de mani`ere plus utile (`a un processus de recherche d’information) afin de proposer `a l’utilisateur une repr´esentation plus ad´equate des informations que celle obtenue par une simple recherche propos´ee par les moteurs de recherche classiques. Nous avons analys´e la structure des pages Wikip´edia d´edi´ees aux c´el´ebrit´es et isol´e les parties contenant les informations les plus int´eressantes `a notre application. Une premi`ere information commune ` a toutes les cat´egories, la nationalit´e, est obtenue facilement puisque les articles sont collect´es `a partir d’une liste par nationalit´e. La tr`es grande majorit´e des articles analys´es contient un tableau biographique (dans Wikip´edia, ceci constitue une norme pour les personnalit´es) dans lequel on trouve des informations sur le lieu, la date de naissance et — selon le cas — de d´ec`es. L’extraction de ces connaissances est facilit´ee par le fait qu’elles sont int´egr´ees dans l’encyclop´edie en ligne en suivant un nombre r´eduit de formats ou de patrons. Par exemple, la date de naissance est introduite, dans la majorit´e des cas par « Birthdate » ou « Date of birth ». Nous constituons une liste contenant tous les noms cit´es et comparons chaque ´el´ement de cette liste au contenu des pages Wikip´edia afin d’obtenir un ensemble de noms proches. Enfin, nous attribuons une valeur de pertinence `a chaque association. Pour les trois cat´egories de c´el´ebrit´es, on extrait : – – – – 3

date de naissance ; lieu de naissance ; la date de d´ec`es (si pertinent) ; une liste de c´el´ebrit´es associ´ees.

http ://en.wikipedia.org/wiki/Category :American film actors pour la liste des acteurs am´ericains Les statistiques pr´esent´ees correspondent au traitement de la version de Wikip´edia en anglais d’octobre 2007. 4

140

4.3.3

CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES

Cat´ egorie des chanteurs et musiciens

En plus des donn´ees biographiques g´en´erales, les tableaux biographiques des chanteurs peuvent contenir les informations suivantes (voir la figure 4.7) : – l’ann´ee du d´ebut de carri`ere, souvent introduite par « Years active » ; – les genres musicaux, introduits par « Genres » ; – les instruments maˆıtris´es, introduits par « Instruments » ; – les groupes musicaux dans lesquels les chanteurs ont ´evolu´e, introduits par « Associated acts ». L’analyse des ces parties du tableau permet l’extraction des connaissances correspondantes et l’enrichissement de la structure d´edi´ee aux chanteurs avec des informations sp´ecifiques au domaine. Il serait ´egalement possible de traiter la partie du corps du texte d´etaillant les noms des albums mais nous consid´erons que cette information n’est pas indispensable dans le cas d’une recherche d’images.

Fig. 4.7 – Extrait du tableau biographique de la page Wikip´edia anglaise d’Eric Clapton.

4.3.4

Cat´ egorie des acteurs

En plus des donn´ees biographiques g´en´erales, les tableaux biographiques des acteurs peuvent contenir les informations suivantes (voir la figure 4.8 et 4.9) : – le(s) noms(s) des ´epoux ou ´epouses de l’actrice ou l’acteur, introduit par « Spouse(s) » ; – la liste de prix accord´es, introduite par « Awards » ; – la filmographie de l’acteur (avec, au maximum le titre du film, l’ann´ee de r´ealisation et le rˆ ole). Le corps du texte de l’article contient habituellement une filmographie des acteurs avec les noms des films, l’ann´ee de r´ealisation et, pour les acteurs les plus connus, le rˆole jou´e dans chaque film. Dans certains cas, la filmographie constitue un article Wikip´edia

´ 4.3. STRUCTURE LINGUISTIQUE POUR LES PERSONNALITES

141

Fig. 4.8 – Extrait du tableau biographique de la page Wikip´edia anglaise de Robert De Niro.

Fig. 4.9 – Extrait de la filmographie de Robert De Niro dans l’article Wikip´edia de l’acteur.

142

CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES

d´edi´e qu’il faut r´ecup´erer. Nous avons identifi´e cinq configurations diff´erentes d’apparition des donn´ees relatives ` a la filmographie (nous en illustrons 3 dans les figures 4.9, 4.10 et 4.11). Il faut adapter notre m´ethode d’extraction des connaissances `a chaque type de pr´esentation de la filmographie.

Fig. 4.10 – Extrait de la filmographie de Brigitte Bardot dans l’article Wikip´edia de l’actrice.

Fig. 4.11 – Extrait de la filmographie de Jim Carrey dans l’article Wikip´edia de l’acteur. Les informations trouv´ees dans les sections des articles sont plus difficiles `a analyser et ` a extraire que celles se trouvant dans les tableaux biographiques, mais demeurent n´eanmoins particuli`erement utiles. Les informations sur la filmographie permettent ´egalement d’inf´erer la p´eriode correspondant `a la carri`ere de l’acteur. L’analyse d´ecrite dans cette sous-section permet l’enrichissement de la structure d´edi´ee avec des informations sp´ecifiques au domaine, utilisables pour am´eliorer l’interactivit´e en recherche d’images et pour adapter la pr´esentation des r´esultats.

´ 4.3. STRUCTURE LINGUISTIQUE POUR LES PERSONNALITES

4.3.5

143

Les footballeurs

En plus des donn´ees biographiques g´en´erales, les tableaux biographiques des footballeurs contiennent les informations suivantes (voir la figure 4.12) : – les positions de jeu, introduites par « Positions » ou « Playing position » ; – les club(s) dans lesquels le joueur a ´evolu´e, introduit(s) par « Club(s) » ou « Senior clubs » ; – le nombre de s´elections internationales, introduit par « National team » ; – le nombre de buts inscrits, introduit par « Gls ».

Fig. 4.12 – Extrait du tableau biographique de la page Wikip´edia anglaise de Zinedine Zidane. ` partir des informations sur les clubs, il est possible d’inf´erer la p´eriode corresA pondant `a la carri`ere du footballeur. Comme pour les chanteurs et les acteurs, l’analyse d´ecrite dans cette sous-section permet l’enrichissement de la structure d´edi´ee, am´eliorant l’interactivit´e et la pr´esentation des r´esultats.

4.3.6

Valeur de pertinence associ´ ee aux noms de personnes et aux relations entre ces noms

Nous ordonnons les informations relatives aux c´el´ebrit´es en exploitant leur fr´equence d’apparitions dans le corpus du Web. Le classement des noms de chanteurs, acteurs et footballeurs est r´ealis´e en utilisant

144

CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES

l’´equation 4.3 : pertin(candidat) =

f reqW eb(candidat, classe)2 f reqW eb(candidat)

(4.3)

O` u: – pertin est la valeur de pertinence associ´ee au nom candidat ; – classe est la classe d’appartenance du candidat (chanteur, acteur ou footballeur) ; – f reqW eb est la fr´equence dans le corpus du Web du couple candidat ; La combinaison de la fr´equence d’apparition conjointe du candidat et de la classe parente et de la fr´equence individuelle est r´ealis´ee afin de minimiser les biais li´es `a l’utilisation des fr´equences seules. La fr´equence brute des termes risque de favoriser ceux apparaissant plus fr´equemment dans d’autres domaines conceptuels : par exemple, Madonna est plus souvent associ´ee `a actor que Robert De Niro. Le classement des relations entre chaque c´el´ebrit´e et les autres noms associ´es est r´ealis´e avec une mesure de similarit´e prenant en compte ` a la fois des relations sp´ecifiques au type de concept et des statistiques de cooccurrence sur le Web. Nous pr´esentons les formules utilis´ees pour les trois types de personnalit´es dans les ´equations 4.4 (acteurs), 4.5 (chanteurs) et 4.6 (footballeurs). Dans les trois cas, les valeurs de sortie sont normalis´ees entre 0 et 1.

relation(A1 , A2 ) = f (f ilms(A1 , A2 ), prix(A1 , A2 ), f requence(A1 , A2 ), nationalite(A1 , A2 ))

(4.4)

O` u: – A1 , A2 sont les noms des acteurs `a mettre en relation ; – f ilms : d´esigne le ou les films dans lesquels les deux acteurs ont jou´e ensemble. Pour chaque film commun, on ajoute 0,1 au score : la contribution maximale de cette dimension ´etant 0,3 ; – prix : est le ou les prix communs obtenus par les deux acteurs. Pour chaque prix en commun, on ajoute 0,1 au score final avec une contribution maximale de 0,3 ; – f requence : si A2 est l’un des trois premiers noms le plus fr´equemment associ´es a A1 sur le Web, on ajoute 0,2 au score final. S’il s’agit de l’un des trois noms ` suivants, on ajoute 0,1 ; – nationalite : si les deux acteurs ont la mˆeme nationalit´e, on ajoute 0,1 au score.

relation(C1 , C2 ) = f (genres(C1 , C2 ), instruments(C1 , C2 ), f requence(C1 , C2 ), nationalite(C1 , C2 ), age(C1 , C2 ))

(4.5)

O` u: – C1 , C2 sont les noms des chanteurs `a mettre en relation ; – genres : le ou les genres musicaux communs aux deux chanteurs ou musiciens. Pour chaque ´el´ement commun, on ajoute 0,2 au score final (avec une contribution maximale de 0,4) ;

´ 4.3. STRUCTURE LINGUISTIQUE POUR LES PERSONNALITES

145

– instruments : le ou les instruments jou´es par C1 et C2 . Pour chaque instrument commun, on ajoute 0,1 au score final et la contribution maximale est de 0,2 ; – f requence : idem ` a 4.4 ; – nationalite : idem ` a 4.4 ; – age : si la diff´erence d’ˆ age entre C1 et C2 est plus petite que cinq ans, on ajoute 0,1 au score final.

relation(F1 , F2 ) = f (clubs(F1 , F2 ), positions(F1 , F2 ), f requence(F1 , F2 ), nationalite(F1 , F2 ), age(F1 , F2 ))

(4.6)

O` u: – F1 , F2 sont les footballeurs ` a mettre en relation ; – clubs : le ou les clubs auxquels les deux footballeurs ont ´evolu´e. Pour chaque club en commun, on ajoute 0,1 au score final, la contribution ne d´epassant pas 0,3 ; – positions est la ou les positions de jeu communes aux deux joueurs. Pour chaque ´el´ement commun, on ajoute 0,1 au score final, avec une contribution plafonn´ee `a 0,3 ; – nationalite : idem ` a 4.4 ; – age : idem ` a 4.5. Les poids donn´es aux termes des ´equations 4.4, 4.5 et 4.6 sont ´etablis empiriquement apr`es l’analyse de plusieurs r´esultats obtenus dans diff´erentes configurations. Si on reprend l’exemple de Robert De Niro, les cinq premiers noms associ´es sont : Al Pacino, Jack Nicholson, Tom Hanks, Joe Pesci, Angelina Jolie. Dans un premier temps, nous avions essay´e d’utiliser une m´ethode bas´ee strictement sur des statistiques obtenues ` a partir du Web mais les r´esultats obtenus n’´etaient pas convaincants car les noms de c´el´ebrit´es se retrouvent souvent ensemble sur le Web sans qu’il y ait de vraie relation entre eux. L’inclusion de termes d´ecrivant de fa¸con plus fine le concept am´eliore sensiblement les r´esultats mais n´ecessite un travail d’analyse des r´esultats pour ´etablir le poids de chaque terme. Le classement d’autres informations associ´ees `a chaque nom analys´e est r´ealis´e en appliquant la formule 4.3, dans laquelle le nom de la classe est remplac´e par chaque information d´ecouverte. Par exemple, s’il s’agit d’un acteur, nous ordonnons les films dans lesquels il a jou´e. Il y a d’autres informations, comme la date ou le lieu de naissance, pour lesquelles le classement n’a pas de sens. Nous avons mentionn´e que certaines informations peuvent ˆetre utilis´ees pour former des requˆetes plus g´en´erales ` a partir de chaque nom de c´el´ebrit´e. Si un utilisateur veut voir des images de Robert De Niro, on peut lui proposer de voir des images d’autres acteurs am´ericains ou d’autres acteurs ayant ´egalement gagn´e l’Oscar du meilleur acteur. La structure obtenue permettant la proposition d’un grand nombre de telles requˆetes, il est indispensable de les ordonner et d’en pr´esenter les plus pertinentes `a l’utilisateur.

146

4.3.7

CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES

´ Evaluation de CelebWiki

Nous ´evaluons notre approche en la comparant avec une autre structure linguistique d´edi´ee aux personnalit´es accessible via l’interface du moteur de recherche Ask. Nous effectuons deux types de tests : le premier vise `a ´evaluer la qualit´e du voisinage conceptuel d’une c´el´ebrit´e dans les deux structures, le second compare la couverture des deux structures.

4.3.7.1

Voisinage conceptuel

Nous avons s´electionn´e un total de 20 concepts repr´esentatifs pour les trois types de personnalit´es et, pour chaque concept, nous avons extraits un nombre maximal de cinq noms les plus proches dans CelebWiki et dans Ask. Les concepts et les noms proches ont ´et´e pr´esent´es dans une mˆeme interface. Le test a ´et´e effectu´e par six utilisateurs auxquels nous avons demand´e d’´evaluer chaque proposition de nom proche sur une ´echelle de 1 (concepts non reli´es) ` a 3 (forte relation entre les deux noms). Certains noms pouvant ˆetre inconnus pour des ´evaluateurs, nous avons offert la possibilit´e de marquer ces noms comme « inconnu ». Tab. 4.9 – Comparaison entre le module de pr´esentation de requˆetes dans Ask et dans CelebWiki. Pr´ecision moyenne (max. = 3) Noms connus

Ask 2,21 58%

CelebWiki 2,26 76,4%

Le tableau 4.9 montre que la performance des deux syst`emes est quasiment ´equivalente (avec une diff´erence de 0,05 sur 3 en faveur de Wikip´edia). Nous avons observ´e que les utilisateurs sont sensibles aux relations de parent´e (ex. Nancy Sinatra — Frank Sinatra) que nous n’avons pas consid´er´ees — `a tort — dans notre structure. L’extraction de ce type de relations ` a partir de Wikip´edia est relativement ais´ee et permettrait d’am´eliorer les performances par rapport ` a Ask pr´esent´es dans le tableau 4.9. La proportion de noms connus parmi les requˆetes proches est significativement plus ´elev´ee dans notre ressource (76% contre 58%). Ce r´esultat montre que la structure obtenue `a partir de Wikip´edia retourne un plus grand nombre de r´esultats connus et am´eliore les chances que ces liens soient suivis par les utilisateurs pour ´elargir ou focaliser leurs requˆetes. Il y a des ´ecarts significatifs entre les r´eponses des participants au test dans les deux ´evaluations. Toutefois, les moyennes pr´esent´ees dans le tableau 4.9 (quasi ´egalit´e pour la pr´ecision, avantage pour le nombre de noms connus) sont repr´esentatives pour les r´esultats de chaque ´evaluateur pris individuellement.

´ 4.3. STRUCTURE LINGUISTIQUE POUR LES PERSONNALITES 4.3.7.2

147

Couverture de CelebWiki

Nous avons test´e la couverture des deux structures conceptuelles en utilisant 370 noms (liste obtenue ` a partir des 20 noms de concepts du test pr´ec´edent). Pour ce deuxi`eme jeu de test, nous avons extrait le nombre de propositions de requˆetes dans les deux syst`emes. Tab. 4.10 – Comparaison de la couverture du domaine dans Ask et dans CelebWiki.

Nombre moyen de requˆetes proches Concepts avec aucune requˆete proche

Ask 5,27 48

CelebWiki 32,6 5

Les r´esultats du tableau 4.10 montrent clairement que la couverture offerte par Ask est bien plus r´eduite que celle offerte par notre structure (5,27 noms contre 32,6 en moyenne). Les articles Wikip´edia pour une c´el´ebrit´e permettent d’inclure un grand nombre d’autre noms qu’il est possible d’ordonner, comme nous l’avons vu, par rapport au concept initial en utilisant leurs propri´et´es conceptuelles et des statistiques sur le Web. Ask ne propose aucun nom proche pour 48 requˆetes sur 370, cela ne se produit que dans cinq cas pour notre structure. Il serait possible de ramener ce dernier chiffre au minimum en exploitant des similarit´es conceptuelles entre les articles (supposer que deux noms de personnalit´es sont proches mˆeme s’ils n’apparaissent pas ensemble dans un article). Les m´etriques de similarit´e `a utiliser dans ce dernier cas seraient identiques `a celles pour les noms apparaissant dans une mˆeme page de Wikip´edia.

4.3.8

Discussion et conclusions

Nous avons pr´esent´e une m´ethode d’extraction automatique d’une structure conceptuelle pour les c´el´ebrit´es ` a partir de Wikip´edia appliqu´ee `a trois sous-domaines conceptuels : les acteurs, les chanteurs et les footballeurs. La structure contient plus de 45000 noms de c´el´ebrit´es pour lesquels nous avons extrait et ordonn´e diff´erentes informations utiles en recherche d’images. Notre approche se distingue de celle de DBPedia [8] par un traitement plus d´etaill´e du contenu des articles et par le fait que nous proposons une m´ethode d’ordonnancement des entit´es proches d´ecouvertes. Cette derni`ere caract´eristique est fondamentale pour une utilisation en recherche d’information car elle permet de pr´esenter en priorit´e l’information la plus pertinente `a une requˆete donn´ee. L’ordonnancement des relations entre les concepts prend en compte `a la fois des propri´et´es conceptuelles et des statistiques obtenues `a partir du Web. Nous avons ´evalu´e la structure obtenue par rapport `a la seule ressource similaire dont nous avons connaissance : le module de proposition de requˆetes d’Ask. Les r´esultats obtenus montrent une qualit´e comparable pour les deux m´ethodes. Toutefois, la couverture du

148

CHAPITRE 4. CONSTRUCTION DE STRUCTURES LINGUISTIQUES

domaine offerte par la structure bas´ee sur Wikip´edia est bien plus ´elev´ee que celle d’Ask. L’´evaluation nous a permis de trouver des moyens d’am´elioration de la repr´esentativit´e des noms proches en incluant aussi des relations de parent´e. Une ´evaluation serait toutefois n´ecessaire pour d’autres types de relations que celles liant les noms mais cette ´evaluation n’est pas ais´ee car il n’existe pas, `a notre connaissance, de ressources comparables. La m´ethode pr´esent´ee ici est assez facilement adaptable `a d’autres types de c´el´ebrit´es. Nous souhaitons notamment la g´en´eraliser en prenant en compte les r´esultats de l’´etude du fichier de log (voir section 3.1) pour traiter, par exemple, le cas des politiciens, d’autres sportifs et des scientifiques.

Chapitre 5

Applications de recherche d’images sur Internet bas´ ee sur des structures linguistiques Dans ce chapitre, nous reprenons l’architecture g´en´erale introduite dans le chapitre le chapitre 3, nous y int´egrons les ressources linguistiques d´ecrites dans le chapitre 4, afin de proposer une plateforme de recherche d’images capable de r´epondre `a des requˆetes de nos trois domaines d’application : – Olive traite les noms communs et exploite la version adapt´ee de WordNet. – ThemExplorer recherche des images d’entit´es g´eographiques et utilise la version adapt´ee de Geonames et Gazetiki, notre th´esaurus constitu´e automatiquement. – Safir recherche des noms de c´el´ebrit´es et exploite CelebWiki, la ressource d´ecrivant les c´el´ebrit´es extraite ` a partir de Wikip´edia. Pour chaque application, nous d´ecrivons son architecture, ses principales composantes, des exemples d’utilisation et des ´evaluations. Les applications ont ´et´e impl´ement´ees en PHP. ThemExplorer inclut ´egalement une composante AJAX pour l’affichage de la carte interactive. Les scripts pour le t´el´echargement des images ont ´et´e ´ecrits en Perl. L’acc`es aux connaissances stock´ees dans les structures linguistiques est r´ealis´e via un script Perl dans Olive et via des requˆetes MySQL dans ThemExplorer et Safir. Des vid´eos illustrant le fonctionnement des applications sont disponibles `a l’adresse : http ://moromete.net/demos.html.

5.1

Olive — recherche de noms communs

Dans cette section, nous pr´esentons Olive, une application pour la recherche d’images de noms communs. Cette application est construite suivant les principes d’agr´egation d’une recherche bas´ee sur l’exploitation d’une structure linguistique et des techniques de traitement d’images discut´ees dans le chapitre 3. Nous commen¸cons cette section par 149

150

CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES

une analyse du mod`ele de donn´ees utilis´e, continuons par une description de l’architecture du syst`eme et par un d’exemple d’utilisation. Finalement, nous d´ecrivons une s´erie d’exp´eriences men´ees afin d’´evaluer et de valider notre approche.

5.1.1

Mod´ elisation des donn´ ees

Notre syst`eme utilise un mod`ele formel des donn´ees obtenu en se basant sur le contenu de la ressource linguistique exploit´ee pour les donn´ees textuelles et en utilisant l’indexation du contenu visuel pour les images. Tout concept de la version adapt´ee de WordNet est exprim´e par le vecteur 5.1 : Concept = (nom, synset, f euilles, heritiers, parents, siblings, images, pertinence) (5.1) O` u: – nom : concept dans la ressource linguistique. Ex. : dog 1 pour le premier sens de dog). – synset : les diff´erents synonymes pointant vers la mˆeme entit´e (s’ils existent). Ex. : dog et Canis familiaris pour dog 1. – f euilles : nœuds terminaux dans la sous-hi´erarchie d´etermin´ee par le concept. Ces termes sont rang´es en fonction de leur fr´equence dans le corpus d’images du Web (la mˆeme observation est vraie pour les h´eritiers, les parents, les siblings). La composante feuille est naturellement vide pour les feuilles. Ex. : doberman, Newfoundland, basset pour dog 1. – heritiers : termes h´eritant du concept, avec une pr´ef´erence donn´ee aux synsets non-feuilles. Ex. : poodle, corgi, hunting dog pour dog 1. – parents : les concepts plus g´en´eraux englobant le terme courant. Ex. : domestic animal, canine, organism, living thing pour dog 1. – siblings : les noeuds de la hi´erarchie ayant le mˆeme parent que le concept courant. Ex. : wolf, fox, hyena, wild dog pour dog 1. – images : les images associ´ees `a chaque feuille de la hi´erarchie. Cette dimension du vecteur n’est pas renseign´ee pour les termes ayant des h´eritiers (ex. dog 1 ) et les photographies repr´esentant ce type de termes sont obtenues en utilisant la liste des feuilles. – pertinence est la mesure bas´ee sur la fr´equence jointe du terme et de son parent imm´ediat calcul´ee ` a partir du corpus d’images du Web et sur la structure de la hi´erarchie. Le vecteur 5.1 d´ecrit plusieurs composantes des concepts dans WordNet, permettant de relier les concepts ` a des images repr´esentatives, de d´ecrire leur voisinage conceptuel et de les situer relativement ` a la pertinence d’autres concepts dans la hi´erarchie. Toutes ces informations seront exploit´ees pour proposer un traitement des requˆetes textuelles et pour introduire une forme de recherche d’images par le contenu dirig´ee par les concepts. Toute image associ´ee ` a un terme feuille de WordNet s’exprime par le vecteur 5.2 : Image = (nomF euille, index, classement)

(5.2)

5.1. OLIVE — RECHERCHE DE NOMS COMMUNS

151

O` u: – nomF euille : nom du concept feuille auquel l’image est associ´ee ; – index : repr´esentation vectorielle du contenu de l’image utilisant des descripteurs de bas niveau ; – classement : la position de chaque photographie dans l’ensemble des r´eponses obtenues par le moteur de recherche exploit´e. Les informations dans l’´equation 5.2 permettent une description `a la fois conceptuelle du contenu de l’image (via le nom du concept repr´esent´e) et de ses caract´eristiques perceptuelles (via l’index), se conformant `a la mod´elisation de la similarit´e d´ecrite dans la sous-section 3.2.1. Le passage des concepts aux images est r´ealis´e `a travers les composantes images dans l’´equation 5.1 qui est en fait une liste d’´el´ements d´ecrits dans l’´equation 5.2. Certaines composantes des vecteurs dans les ´equations 5.1 et 5.2 sont vectorielles. Il s’agit des listes de concepts (ex. feuilles, heritiers) pour la description des concepts, des listes de photographies (dimension images) et des descriptions du contenu. Comme nous l’avons pr´ecis´e dans la sous-section 2.3, les moteurs de recherche d’information actuels donnent de plus en plus d’importance `a l’interactivit´e de l’application, sans pour autant mod´eliser le voisinage conceptuel d’une requˆete comme c’est la cas avec Olive. La mod´elisation des donn´ees propos´ee dans Olive est plus complexe que celle dans les moteurs de recherche d’images existants, notamment par la description du voisinage conceptuel de la requˆete et par la description du contenu visuel des images.

5.1.2

Architecture d’Olive

Nous pr´esentons, dans la figure 5.1, l’architecture d’un syst`eme de recherche d’images pour les noms communs. L’architecture pr´esent´ee est un cas particulier de l’architecture g´en´erique de recherche d’images bas´ee sur des ressources linguistiques d´ecrite dans 3.3.3. WordNet est ici la ressource linguistique exploit´ee pour traiter les requˆetes textuelles et PIRIA [67] est le moteur de recherche par similarit´e visuelle d´evelopp´e par le CEA LIST utilis´e dans toutes les applications d´ecrites dans le pr´esent travail. Google Images sert de corpus photographique ` a partir duquel nous choisissons les images associ´ees aux requˆetes reformul´ees par le s´electeur de concepts. Google a ´et´e pr´ef´er´e `a d’autres moteurs pour des raisons de rapidit´e et parce qu’il assure une bonne couverture des noms communs. N´eanmoins, l’application fonctionnerait de mani`ere tout `a fait similaire avec d’autres corpus. 5.1.2.1

Fonctionnement d’Olive

L’utilisateur peut formuler des requˆetes textuelles classiques et des requˆetes par images exemples, ces derni`eres venant compl´eter les demandes textuelles. Une fois les requˆetes textuelles formul´ees, le s´electeur de concepts v´erifie si elles correspondent `a des ´el´ements existant dans la ressource linguistique (si la chaˆıne de caract`eres introduite est identique `a un ´el´ement de nom dans l’´equation 5.1). Si oui, la requˆete est reformul´ee en exploitant le contenu de la composante synset du mod`ele conceptuel et transmise au

152

CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES

Fig. 5.1 – Architecture d’un syst`eme de recherche d’images pour les noms communs. Les bases de donn´ees sont repr´esent´ees sous forme de rectangles, les modules logiciels par des rectangles arrondis et les requˆetes par des ellipses. collecteur d’images qui v´erifie si les images pour le concept respectif existent d´ej`a dans le corpus d’images local ou si elles doivent ˆetre r´ecup´er´ees `a partir de Google Images. En mˆeme temps, le s´electeur de concepts r´ecup`ere les ´el´ements stock´es dans les composantes heritiers, parents et siblings du vecteur de l’´equation 5.1 et compose un ensemble de requˆetes proches qui seront affich´ees dans l’interface. Toutes les images dans le corpus local sont index´ees en utilisant le descripteur LEP (Local Edge Pattern) impl´ement´e dans PIRIA, d´ecrit plus en d´etail dans la sous-section 2.1.2.2. Les images affich´ees sont toutes associ´ees ` a des termes feuilles de WordNet (par la composante nomFeuille du vecteur dans l’´equation 5.2), des concepts couvrant habituellement des entit´es coh´erentes de point de vue visuel. Toutes les images affich´ees peuvent initialiser une recherche par le contenu. Si une telle requˆete est lanc´ee, la contenu de la photographie choisie pour amorcer le processus CBIR est compar´e `a la description de bas niveau de toutes les autres images associ´ees au mˆeme terme feuille de WordNet. Nous pr´esentons, dans les sous-sections suivantes, les diff´erentes composantes de l’architecture d’Olive. 5.1.2.2

La ressource linguistique

La structure conceptuelle obtenue par l’adaptation de WordNet pour une utilisation en recherche d’images constitue la composante principale d’Olive et a ´et´e d´ecrite dans la section 4.1.1. Les relations d’h´eritage conceptuel et de synonymie sur lesquelles est construite la hi´erarchie lexicale servent `a reformuler les requˆetes des utilisateurs et `a proposer un voisinage conceptuel pour enrichir l’interaction entre l’utilisateur et le syst`eme.

5.1. OLIVE — RECHERCHE DE NOMS COMMUNS

153

Le nombre total de requˆetes trait´ees correspond au nombre total de chaˆınes uniques de WordNet, soit 145104. 5.1.2.3

Le corpus d’images local

Le corpus local constitue une copie partielle des photographies index´ees dans Google Images. Nous avons choisi de garder une copie locale des images associ´ees aux requˆetes d´ej`a exprim´ees afin de limiter le nombre de requˆetes lanc´ees dans Google. Ce moteur permet la r´ecup´eration de 1000 images maximum par requˆete. Afin de r´eduire le temps d’ex´ecution, nous avons limit´e le t´el´echargement `a 300 images, ce qui correspond `a une douzaine de pages de r´eponses standard de Google. Le corpus local s’enrichit au fur et `a mesure de l’utilisation du syst`eme. Pour refl´eter le caract`ere dynamique du corpus d’images du Web, il serait possible de mettre en place des proc´edures de rafraˆıchissement p´eriodique des classes d’images stock´ees en local. 5.1.2.4

Le s´ electeur de concepts

Le s´electeur de concepts re¸coit la requˆete brute de l’utilisateur, interroge la ressource linguistique et regarde si la requˆete correspond `a un ´el´ement de la ressource linguistique. Dans le cas n´egatif, la requˆete est transmise directement au collecteur d’images et les r´esultats affich´es sont identiques ` a ceux de Google Images. Les deux fonctionnalit´es principales de ce module visent la reformulation de la requˆete et la proposition de termes proches. Comme nous l’avons expliqu´e dans la sous-section 3.3.2.1, la reformulation consiste `a utiliser des sous-types feuilles du concept courant afin de rechercher des photographies repr´esentatives. Si besoin, nous utilisons ´egalement le regroupement des termes dans des synsets pour enrichir l’ensemble des r´eponses. Par exemple, les images d’ours polaires peuvent ˆetre rassembl´ees en utilisant les synonymes suivants : ice bear, polar bear, Ursus Arctos Horibilis. La s´eparation des sens d’un terme dans WordNet facilite une proc´edure de d´esambigu¨ısation des requˆetes courtes. Le s´electeur de concepts prend en compte la structure de la hi´erarchie lexicale et, pour les termes ambigus, reformule les requˆetes pour chaque sens d’un terme. La s´eparation des sens est r´ealis´ee via l’utilisation des hyponymes pour les termes ayant des h´eritiers et par l’expansion de la requˆete avec l’hyp´eronyme imm´ediat pour les termes feuille. Par exemple, une requˆete avec Angora sera reformul´ee en : Angora + rabbit, Angora + domestic goat, Angora + domestic cat. 5.1.2.5

Le collecteur d’images

Le collecteur d’images est un script Perl qui re¸coit en entr´ee les requˆetes reformul´ees par le s´electeur de concepts et cherche des images correspondant `a ces requˆetes sur Internet. Comme nous l’avons expliqu´e plus haut, la premi`ere ´etape est de v´erifier si les images associ´ees ` a la requˆete existent dans le corpus local. Dans ce cas, nous ne lan¸cons pas une collecte d’images via Google.

154

CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES

S’il s’agit d’une nouvelle requˆete, le script interroge Google Images pour collecter un maximum de 300 images pour chaque concept feuille transmis par le s´electeur de concepts. Pour am´eliorer la vitesse d’ex´ecution, une premi`ere requˆete vise `a r´ecup´erer les images qui vont ˆetre affich´ees sur la premi`ere page de r´eponses. Apr`es cet affichage, le script collecte le reste des images. Des contraintes li´ees `a la surcharge du serveur source conduisent ` a un temps de collecte total d’environ 10 secondes `a partir d’une connexion de 1Mbps. Ces performances sont obtenues en r´ecup´erant les vignettes d’images affich´ees par Google et non pas les images des sites d’origine. La collecte est bien plus rapide en utilisant les vignettes et, en plus, nous ´evitons le risque de suivre des liens cass´es associ´es aux sites index´es par le moteur de recherche. 5.1.2.6

PIRIA

La fonction de recherche par le contenu est r´ealis´ee en int´egrant PIRIA. Ce syst`eme permet l’indexation et la recherche d’images en utilisant une indexation de bas niveau bas´ee sur une s´erie de descripteurs globaux ou locaux du contenu visuel. Dans Olive, nous avons choisi d’indexer les images en utilisant le Local Edge Pattern (LEP) [18], un descripteur global prenant en compte la texture et la couleur. La grande vari´et´e d’images ` a indexer nous a incit´es `a utiliser un indexeur combinant ces deux propri´et´es qui donne des r´esultats int´eressants sur des corpus d’images vari´ees [100]. Certes, il aurait ´et´e possible de comparer plusieurs descripteurs ou d’essayer d’adapter le descripteur au type de concept repr´esent´e. Cela aurait demand´e une charge de travail importante d´epassant le cadre de notre ´etude. Notre approche vise plutˆot `a montrer comment combiner la recherche par mots-clef et celle par le contenu et non pas `a fournir une ´evaluation comparative des descripteurs de bas niveau. 5.1.2.7

L’interface d’Olive

Nous illustrons l’interface d’Olive (figure 5.2) avec la requˆete duck. Les principales composantes de notre interface sont : – la zone de pr´esentation des images ; – la barre de recherche textuelle ; – la zone de pr´esentation d’un voisinage conceptuel ; – la boˆıte d’aide. L’interface est con¸cue afin d’orienter la navigation de l’utilisateur dans la structure conceptuelle de WordNet. La pr´esentation du voisinage conceptuel permet d’actualiser les connaissances de l’utilisateur concernant les noms communs et de d´ecouvrir des nouveaux concepts de la hi´erarchie de WordNet. Nous pr´esentons, `a titre de comparaison les r´esultats pour duck obtenus dans Ask (figure 5.3) et Google (figure 5.4). L’interface d’Olive est plus proche de celle d’Ask que de celle de Google notamment ` a cause de la proposition d’un ensemble structur´e de requˆetes proches. Nous avons compar´e les performances du module de g´en´eration d’un voisinage conceptuel dans Olive et Ask et avons conclu que l’utilisation d’une structure conceptuelle construite manuellement

5.1. OLIVE — RECHERCHE DE NOMS COMMUNS

155

Fig. 5.2 – Interface d’Olive pr´esentant le r´esultat d’une requˆete avec duck.

rend des meilleurs r´esultats que la proc´edure d’Ask, bas´ee probablement sur l’utilisation de cooccurrences dans les fichiers de log. La pr´esentation structur´ee des r´esultats constitue une diff´erence importante entre notre application et les deux moteurs de recherche d’images. L’organisation conceptuelle des r´esultats sera compar´ee ` a une pr´esentation non-structur´ee dans la sous-section 5.1.4. WordNet inclut plusieurs types de concepts et nous prenons en compte deux crit`eres de s´eparation pour adapter la pr´esentation des r´esultats dans Olive : – l’ambigu¨ıt´e : si le terme demand´e `a plus d’un sens dans la hi´erarchie lexicale, on pr´esente les images associ´ees au premier sens, consid´er´e comme sens de base du mot. La polys´emie est g´er´ee par la proposition d’un lien vers une page incluant plusieurs sens du terme ou, alternativement, des liens individuels vers les sens secondaires attach´es au concept. Le traitement de l’ambigu¨ıt´e est une autre caract´eristique s´eparant Olive d’autres moteurs de recherche d’images existants. Il permet ` a l’utilisateur de s´electionner le sens du mot l’int´eressant `a un moment donn´e. – l’existence d’h´eritiers dans la hi´erarchie : nous avons d´ej`a mentionn´e que, si le

156

CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES

Fig. 5.3 – R´esultats d’une requˆete avec duck dans Ask (Mai 2008). terme demand´e poss`ede des h´eritiers, il sera repr´esent´e par l’interm´ediaire de ces derniers. Pour les termes feuille, Olive propose simplement une reformulation visant a lever l’´eventuelle ambigu¨ıt´e du concept. `

5.1. OLIVE — RECHERCHE DE NOMS COMMUNS

Fig. 5.4 – R´esultats d’une requˆete avec duck dans Google (Mai 2008).

157

158

CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES

5.1.3

Exemple d’utilisation

Nous illustrons le fonctionnement d’Olive avec un exemple d’utilisation incluant des requˆetes textuelles et une requˆete image. Gardons notre premier exemple de requˆete et supposons que l’utilisateur demande de voir des images pour duck. Le syst`eme retourne en premi`ere page les r´esultats de la figure 5.2. La deuxi`eme page de r´eponses pour duck (partiellement repr´esent´ee dans la figure 5.5) contiendra des r´esultats pour d’autres soustypes de la requˆete que ceux de la premi`ere page (figure 5.2).

Fig. 5.5 – Une partie de la deuxi`eme page de r´eponses pour duck dans Olive. Notons qu’il y a une diff´erence importante entre la navigation propos´ee par Olive, r´ealis´ee dans l’espace conceptuel de la requˆete, et celle propos´ee par les moteurs actuels dans lesquels les r´eponses sont seulement ordonn´ees en fonction de leur pertinence par rapport ` a la demande initiale (dans le cas de Google par Page Rank et `a venir par Visual Rank [65]). Si on veut restreindre la requˆete initiale, on peut demander `a ne voir que les images de teal (teal, le « canard Sarcelle » en fran¸cais, figure 5.6). Teal a deux sens dans WordNet (la couleur turquoise et le canard) et le syst`eme propose, dans le contexte donn´e, des r´esultats correspondant uniquement au deuxi`eme sens (canard).

5.1. OLIVE — RECHERCHE DE NOMS COMMUNS

159

Fig. 5.6 – Page de r´esultats pour teal dans Olive. Alternativement, ` a partir de la deuxi`eme page de r´eponses pour duck, on peut demander de voir des images pour une esp`ece particuli`ere (feuille de WordNet), comme canvasback (figure 5.7) et de lancer une recherche par le contenu parmi les images de cette classe (figure 5.8).

160

CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES

Fig. 5.7 – Page de r´eponses pour canvasback dans Olive.

Fig. 5.8 – Page de r´eponses pour une requˆete CBIR avec une image de canvasback dans Olive.

5.1. OLIVE — RECHERCHE DE NOMS COMMUNS

5.1.4

161

´ Evaluation d’Olive

Nous ´evaluons diff´erentes parties d’Olive et le syst`eme dans sa globalit´e par rapport `a des syst`emes existants. Une premi`ere partie de la validation a ´et´e pr´esent´ee dans la section 4.1.1, o` u nous avons compar´e le module de proposition de requˆetes proches d’Olive `a celui d’Ask. Nous ´evaluons d’abord la pr´ecision des r´esultats obtenus en utilisant notre reformulation des requˆetes contre celle de Google Images (choisi comme syst`eme de r´ef´erence) et une ´evaluation du module CBIR. Nous pr´esentons ensuite un test d’utilisation du prototype fonctionnel effectu´e sur un panel de dix utilisateurs. 5.1.4.1

Pr´ ecision des r´ esultats

Nous avons effectu´e deux ´evaluations de la pr´ecision : pour les requˆetes textuelles et pour les requˆetes par images exemples. Dans chaque cas, nous avons propos´e 20 requˆetes couvrant diff´erents domaines conceptuels aux utilisateurs et nous leur avons demand´e de s´electionner les images retourn´ees par le syst`eme qui sont repr´esentatives de la requˆete. La comparaison entre les r´esultats d’Olive et ceux de Google a ´et´e effectu´ee dans une mˆeme interface, les testeurs n’ayant aucune information concernant l’identit´e des syst`emes compar´es. Requˆetes textuelles La repr´esentativit´e des images est difficile `a ´evaluer en dehors d’un contexte. Afin d’aider les utilisateurs, nous avons pr´esent´e le texte suivant sur la premi`ere page du test : Imaginez que vous ˆetes en train d’´ecrire un rapport sur un sujet (par exemple les chevaux) et que vous devez l’illustrer avec des images. Vous trouverez, sur chaque page, le nom du concept cible (accompagn´e d’un terme plus g´en´eral aidant ` a le d´esambigu¨ıser) et des r´eponses retourn´ees par le moteur de recherche. Cochez la case en dessous de l’image si vous la consid´erez comme ´etant repr´esentative du concept recherch´e (vous l’utiliseriez en tant qu’illustration de votre rapport). Cette tˆache est suffisamment g´en´erale pour ne pas biaiser les r´esultats et correspond `a un usage classique des moteurs de recherche d’images [81]. Nous avons ´evalu´e la pr´ecision des 20 premiers r´esultats rendus par Olive et par Google Images. Le nombre d’images `a ´evaluer est approximativement celui pr´esent´e sur la premi`ere page de r´esultats des moteurs de recherche d’images (la page la plus regard´ee par les utilisateurs 3.1). Les concepts ` a ´evaluer (voir la figure 5.9) ont ´et´e choisis afin de couvrir un spectre relativement large de domaines. Pour Google, nous avons r´ecup´er´e les 20 premi`eres r´eponses associ´ees ` a chaque requˆete. Pour Olive, les r´esultats pr´esent´es sont obtenus apr`es reformulation en utilisant les concepts proches de WordNet. Dans la figure 5.9, nous pr´esentons les r´esultats de la comparaison entre Olive et Google Images sur un panel de 20 concepts, moyenn´es sur l’ensemble des utilisateurs. Les r´esultats globaux indiquent un meilleur comportement de notre syst`eme par rapport `a Google Images (12,8/20 contre 11,2/20). Des meilleurs r´esultats sont obtenus dans 15

162

CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES

Fig. 5.9 – Comparaison de la pr´ecision pour des r´esultats pour 20 requˆetes textuelles dans Olive et pour un CBIR classique — vue par concepts. cas sur 20 et il y a des diff´erences significatives pour dog, apple, cloud ou car. Inversement, nous trouvons une diff´erence significative en faveur de Google pour rose, cactus ou bomb. Olive se comporte bien au niveau de classes g´en´erales comme les animaux, les concepts naturels et les art´efacts ; pour les plantes, les r´esultats sont plus partag´es. Nous avons ´egalement ´etudi´e les r´esultats des deux syst`emes en consid´erant s´epar´ement chaque utilisateur (figure 5.10). La pr´ecision obtenue dans Olive est sup´erieure `a celle de Google Images pour tous les testeurs. Des diff´erences significatives sont `a signaler pour U1, U2, U4 et U5 ; la plus petite diff´erence est rencontr´ee pour l’utilisateur U6. Notons les diff´erences importantes entre les r´esultats individuels : pour U1, une pr´ecision de 15,7 pour Olive et 13,5 pour Google Images alors que pour U8 nous avons respectivement 6,7 et 6,2. Ces diff´erences soulignent la faible stabilit´e de la pr´ecision et la n´ecessit´e de tester les syst`emes sur des panels d’utilisateurs les plus repr´esentatifs possibles. Les r´esultats pr´esent´es dans cette section indiquent que les performances de notre syst`eme d´epassent celles de Google Images sur l’´echantillon de concepts utilis´e. Ils valident notre approche qui consiste `a reformuler automatiquement des requˆetes avec certains de leurs sous-concepts. Requˆetes images Nous avons fait l’hypoth`ese qu’une recherche par contenu visuel dans des espaces conceptuellement coh´erents est plus efficace qu’une recherche brute bas´ee uniquement sur les caract´eristiques de bas niveau. Pour tester cette hypoth`ese, nous avons s´electionn´e un sous-concept repr´esentatif pour chaque classe de la figure 5.9. Pour chaque sousconcept (figure 5.11), nous avons t´el´echarg´e 500 images afin de tester la recherche par le contenu dans des r´egions limit´ees du corpus d’images. Pour le CBIR classique, la base

5.1. OLIVE — RECHERCHE DE NOMS COMMUNS

163

Fig. 5.10 – Comparaison de la pr´ecision pour des r´esultats pour 20 requˆetes textuelles dans Olive et pour un CBIR classique — utilisateurs individuels. d’´evaluation contient, en plus de toutes les images pour les feuilles de WordNet test´ees, environ 30000 images associ´ees ` a 300 autres concepts feuilles de la hi´erarchie. Toutes les images ont ´et´e index´ees par le descripteur LEP (texture, couleur). Nous avons s´electionn´e une image de la premi`ere page de r´eponses pour chaque concept feuille et nous avons recherch´e les ´el´ements les plus similaires parmi les photographies associ´ees `a la mˆeme classe (Olive dans la figure 5.11) et dans toute la base d’´evaluation (CBIR classique dans 5.11). De mˆeme, pour se fixer un contexte, nous avons donn´e la consigne suivante aux utilisateurs : Imaginez que vous ˆetes en train d’´ecrire un rapport sur un sujet (par exemple les chevaux) et que vous devez l’illustrer avec des images. Vous trouverez, sur chaque page, une image exemple repr´esentative pour le sujet de votre rapport et des r´eponses consid´er´ees comme similaires par le moteur de recherche d’images. Supposez que vous avez trouv´e une image qui vous plaˆıt (l’« image exemple ») pour illustrer votre rapport, mais vous voulez voir si le corpus contient des photographies similaires ` a cet exemple. Cochez la case en dessous des images si vous les consid´erez similaires ` a l’image exemple (est-ce qu’elles pourraient la remplacer en tant qu’illustration de votre rapport ?). Afin de faciliter la tˆ ache des participants, nous avons ´etudi´e la pr´ecision des dix premiers r´esultats rendus par le moteur de recherche. Les r´esultats de la figure 5.11, qui sont moyenn´es sur l’ensemble des participants du

164

CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES

Fig. 5.11 – Comparaison de la pr´ecision pour des r´esultats pour 20 requˆetes images dans Olive et pour un CBIR classique — vue par concepts.

test, montrent qu’il y a une diff´erence tr`es significative entre les performances d’Olive et celle d’un syst`eme CBIR classique (PIRIA). Globalement, la pr´ecision `a 10 (P@10) est de 5,2 pour Olive et de 0,6 pour le CBIR classique. La recherche par le contenu visuel est r´ealis´ee sur un ´echantillon de seulement 40000 images. Pour Olive, la taille du corpus de test n’affecterait significativement pas les r´esultats puisque la recherche se r´ealise ` a l’int´erieur d’espaces conceptuellement coh´erents. Dans des cas comme doberman, saguaro, jeep ou Notre Dame de Paris, le CBIR classique ne rend aucun r´esultat similaire `a la requˆete. Pour ces mˆemes requˆetes, la pr´ecision dans Olive d´epasse 40%. Sur l’ensemble des images et des testeurs (160 pages de r´eponses pr´esent´ees), les participants au test n’ont trouv´e aucune r´eponse similaire ` a l’image requˆete que pour seulement six situations. Nous pr´esentons, dans la figure 5.12, une vue des performances en fonction de chaque utilisateur. Similairement ` a la recherche textuelle, il y a des diff´erences notables entre les participants, t´emoignant aussi de la subjectivit´e naturelle de la tˆache. La diff´erence globale entre les deux m´ethodes de recherche par le contenu visuel est bien refl´et´ee au niveau de chaque utilisateur. La m´ethode de recherche par images exemples propos´ee dans Olive est simple et efficace car elle n’implique qu’une reformulation des requˆetes textuelles et une indexation des images du corpus. Elle constitue une bonne solution pour introduire une recherche par similarit´e dans les moteurs de recherche d’images sur Internet car les r´esultats renvoy´es par le syst`eme rendent compte de la notion de similarit´e propre aux utilisateurs. En mˆeme temps, l’utilisation de l’information textuelle pour limiter l’espace de recherche r´esout le probl`eme de mise ` a l’´echelle des syst`emes CBIR.

5.1. OLIVE — RECHERCHE DE NOMS COMMUNS

165

Fig. 5.12 – Comparaison de la pr´ecision pour des r´esultats pour 20 requˆetes images dans Olive et pour un CBIR classique — vue utilisateurs. 5.1.4.2

Test utilisateurs

[136] montre qu’il y a des diff´erences notables entre les performances des syst`emes de recherche d’information estim´ees en utilisant des m´etriques comme la pr´ecision et l’utilit´e de ces syst`emes per¸cue par des utilisateurs. Nous avons mis en place un test utilisateurs afin de comparer Olive et Google Images. Nous avons demand´e `a un panel de dix utilisateurs de tester notre application afin d’´evaluer quelques unes de ses caract´eristiques. Chaque participant a commenc´e par tester une s´erie de concepts impos´es (duck, angora, apple, car, rock ), pour continuer avec une exploration libre d’Olive. Pour chaque page d’Olive, nous avons demand´e aux utilisateurs de regarder les r´esultats correspondants dans Google Images. Le test s’achevait par un questionnaire incluant une s´erie de questions impos´ees et une partie o` u les participants ´etaient libres de s’exprimer `a propos de leurs exp´eriences en tant qu’utilisateur. Les questions impos´ees (tableau 5.1) sont soit g´en´erales (QG), soit relatives au module de g´en´eration de requˆetes proches (QR). Les questions g´en´erales comparent Olive ` a Google Images et ´evaluent des options de notre syst`eme n’existant pas dans Google. ´ Etant donn´e les diff´erences de nature des questions du tableau 5.1, nous avons adapt´e les r´eponses en cons´equence : – Pour QG1 et QG2 nous avons utilis´e une ´echelle de 1 `a 5 : 1 indiquant une pr´ef´erence forte pour Google et 5 pour Olive. – Pour QG3, QG4 et QG6 nous avons demand´e une r´eponse binaire : Oui ou Non. – Pour QG5, les utilisateurs ont eu `a choisir entre une pr´esentation group´ee des images pour les termes ambigus (Non dans le tableau 5.2(b)) ou une pr´esentation dans des classes diff´erentes (Oui dans le tableau 5.2(b)). – Pour QR1 — QR4 nous avons propos´e une ´echelle de 1 `a 4 : 1 pour un manque de pertinence et 4 pour une forte pertinence des requˆetes proches.

166

CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES

Tab. 5.1 – Questions impos´ees dans le test d’interactivit´e. QG1 QG2

QG3 QG4

QG5

QG6

QR1 QR2 QR3 QR4

Veuillez noter la qualit´e globale des r´esultats dans Olive et Google Images. Vous avez observ´e que les r´esultats d’Olive sont structur´es. Compar´ee `a la pr´esentation de Google Images, cette pr´esentation est : Trouvez-vous l’utilisation d’Olive intuitive ? Olive propose une reformulation automatique des requˆetes. Trouvez-vous satisfaisantes les r´eponses du syst`eme dans cette configuration ? Il existe des mots ambigus. Veuillez indiquer votre pr´ef´erence concernant la pr´esentation des r´eponses d’un moteur de recherche d’image pour ces mots. Olive propose certaines possibilit´es d’interaction. Consid´erez-vous utile la mise en place d’une interaction enrichie ? Notez la pertinence globale des requˆetes proches pr´esent´ees dans Olive. Notez la pertinence des termes plus sp´ecifiques propos´es dans Olive. Notez la pertinence des termes du mˆeme niveau propos´es dans Olive. Notez la pertinence des termes plus g´en´eraux propos´es dans Olive.

Les r´eponses ` a QG1 (tableau 5.2(a)) montrent que les testeurs trouvent que les r´eponses pr´esent´ees dans Olive sont plus pertinentes que celles de Google Images, avec une pr´ef´erence assez marqu´ee pour le premier syst`eme (4,5/5). Ce r´esultat, obtenu pour une exploration combinant des concepts impos´es et des requˆetes choisies par les utilisateurs, renforce les conclusions de la sous-section 5.1.4.1. Il montre aussi que la proc´edure de reformulation automatique des requˆetes en utilisant des sous-concepts est b´en´efique en recherche d’images sur Internet. Les r´eponses ` a QG2, concernant la structuration conceptuelle des r´esultats, indiquent une pr´ef´erence pour la pr´esentation structur´ee et viennent s’ajouter aux r´eponses `a QG1 pour montrer que l’introduction d’une structure conceptuelle en recherche d’images est utile. Un seul utilisateur sur les dix testeurs a d´eclar´e pr´ef´erer la pr´esentation des r´esultats sous forme de liste non-structur´ee. Les r´esultats obtenus pour les autres questions g´en´erales (tableau 5.2(b)) indiquent de bonnes performances de notre syst`eme. L’utilisation d’Olive est jug´ee intuitive (QG3) ` une exception alors qu’aucun des participants n’avait utilis´e le syst`eme au pr´ealable. A

5.1. OLIVE — RECHERCHE DE NOMS COMMUNS

167

Tab. 5.2 – R´esultats du test utilisateurs ´evaluant Olive. L’´evaluation a ´et´e men´ee avec 10 utilisateurs. (a)

QG1 QG2

Moyenne 4,5 4

(b)

Ecart type 0,71 0,94

QG3 QG4 QG5 QG6

Oui 10 9 9 10

(c)

Non 0 1 1 0

QR1 QR2 QR2 QR2

Moyenne 3 3,1 2,9 2,9

Ecart type 0 0,74 0,57 0,87

pr`es, la reformulation automatique est jug´ee satisfaisante (QG4). Il serait pr´ef´erable de pr´esenter les r´eponses ` a des requˆetes ambigu¨es dans des classes de r´eponses s´epar´ees (QG5) et de proposer aux utilisateurs plus de moyens d’interaction avec le syst`eme (QG6). Les performances du module de g´en´eration de requˆetes proches ont ´et´e jug´ees assez satisfaisantes (tableau 5.2(c)). Concernant le type de requˆetes proches `a pr´esenter, les utilisateurs ont eu une faible pr´ef´erence pour les requˆetes plus sp´ecifiques (QR2) par rapport `a la pr´esentation de termes proches (QR3) ou plus g´en´eraux (QR4). Ce r´esultat ´etait attendu car les concepts plus sp´ecifiques facilitent une focalisation de la requˆete mais nous nous attendions ` a trouver un ´ecart plus important entre la proposition de requˆetes plus cibl´ees et les autres. Fort heureusement, les utilisateurs ont exprim´e un nombre important d’id´ees concernant l’am´elioration d’Olive dans la partie d’expression libre. Nous synth´etisons celles qui sont apparues le plus fr´equemment : – Extension de la hi´erarchie afin d’inclure plus de noms propres : WordNet ne contient qu’un nombre r´eduit d’instances et les testeurs ont essay´e de retrouver des noms de personnes connues n’appartenant pas `a la hi´erarchie lexicale. Les requˆetes avec des noms de personnes connues constituent une partie importante des recherches d’images sur Internet (section 3.1). Nous pr´esentons une application d´edi´ee dans la section 5.3. – Repr´esentativit´e des requˆetes proches : l’algorithme de pr´esentation de requˆetes proches obtient des performances g´en´eralement bonnes mais il existe des cas o` u les utilisateurs jugent que le r´esum´e du voisinage conceptuel n’est pas suffisamment pertinent. – S´eparation des images suivant le type de repr´esentation (photographie, clipart, cartes, peintures) : [91] pr´esente une solution int´eressante `a ce probl`eme bas´ee sur un apprentissage supervis´e (SVM) mais nous n’avons pas encore int´egr´e ce module dans l’architecture d’Olive. – Proposition d’une vue type graphe des classes proches : tout comme pour la pr´esentation des images r´esultats, certains utilisateurs trouvent qu’une pr´esentation structur´ee hi´erarchiquement des requˆetes proches serait plus adapt´ee que la pr´esentation actuelle comprenant trois grandes classes de termes proches.

168

5.1.5

CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES

Discussion et conclusions

Les r´esultats pr´esent´es dans cette sous-section et dans la pr´ec´edente confirment la validit´e de notre approche de recherche d’images en exploitant une hi´erarchie conceptuelle `a large ´echelle. Nous avons ´evalu´e les principaux modules du syst`eme mis en place par rapport ` a un syst`eme existant (Google Images). Les tests montrent les tr`es bonnes performances de notre syst`eme. Les r´esultats pr´esent´es ici sont en accord avec ceux d´ecrits dans [81] et [141] pour la structuration des r´esultats et avec les conclusions de [146] et [139] sur l’utilit´e d’une structure conceptuelle en recherche d’images. La pr´ecision des r´eponses ` a des requˆetes textuelles sur le panel de concepts retenus est am´elior´ee par rapport ` a Google Images et les valeurs de pr´ecision pour chaque utilisateur favorisent Olive. Comme les requˆetes appartiennent `a des domaines conceptuels diff´erents, on peut raisonnablement supposer que les r´esultats obtenus sont g´en´eralisables. Concernant la fonctionnalit´e de recherche par le contenu dans les moteurs de recherche d’images sur Internet, notre solution qui restreint l’espace de recherche `a des r´egions d´elimit´ees par les mˆemes concepts s’av`ere plus adapt´ee que la recherche classique par le contenu de bas niveau. Parall`element `a une am´elioration tr`es nette de la pr´ecision des r´esultats, la limitation de l’espace de recherche r´eduit drastiquement les temps de calcul du processus CBIR et permet d’envisager des passages `a de plus larges ´echelles [65]. L’´evaluation du syst`eme montre que les utilisateurs pr´ef`erent, majoritairement, la pr´esentation des r´esultats dans Olive `a celle de Google Images. L’am´elioration de la pr´ecision des r´esultats se refl`ete ´egalement dans le jugement global r´ealis´e par les utilisateurs et la structuration conceptuelle des r´esultats est per¸cue comme b´en´efique. L’enrichissement de l’interactivit´e, sans que l’utilisateur ressente une perte de contrˆole par rapport ` a Google Images, s’av`ere utile car il permet une exploration ais´ee de vastes espaces conceptuels. La proposition de requˆetes proches a ´et´e test´ee de mani`ere plus d´etaill´ee dans la section 4.1.1, o` u nous avons montr´e que les r´esultats obtenus en utilisant WordNet sont de meilleure qualit´e que ceux obtenus dans Ask, `a notre connaissance le seul moteur actuel de recherche d’images proposant une structuration des requˆetes proches. Une perspective int´eressante serait de r´ep´eter les exp´eriences `a une plus large ´echelle mais cela repr´esenterait une charge de travail trop importante qui exc´ederait le temps et les moyens impartis pour cette th`ese.

5.2

ThemExplorer — recherche d’entit´ es g´ eographiques

Dans cette section, nous pr´esentons ThemExplorer, une application permettant de visualiser des photographies associ´ees au domaine g´eographique. Tout comme pour Olive, dans ThemExplorer, nous utilisons conjointement une ressource linguistique et des techniques de traitement d’images pour proposer une m´ethode efficace de recherche d’images g´eo-r´ef´erenc´ees. L’application est construite autour du th´esaurus g´eographique d´ecrit dans la section 4.2 et de Geonames et elle propose une recherche th´ematique parmi les objets g´eographiques. Nous commen¸cons la pr´esentation de ThemExplorer par d´ecrire la mod´elisation des donn´ees, puis nous d´etaillons l’architecture du syst`eme. Nous d´ecrivons

´ GEOGRAPHIQUES ´ 5.2. THEMEXPLORER — RECHERCHE D’ENTITES

169

un exemple d’utilisation et, pour finir, nous d´ecrivons une s´erie de tests validant notre approche.

5.2.1

Mod´ elisation des donn´ ees

Nous pr´esentons ici un mod`ele formel des donn´ees textuelles exploit´ees dans ThemExplorer, d´eriv´e de celui du th´esaurus g´eographique enrichi automatiquement (section 4.2) et un autre mod`ele pour les images repr´esentant une entit´e g´eographique. La d´efinition d’un objet g´eographique dans ThemExplorer est donn´ee par l’´equation 5.3 : ObjetGeographique = (nom, classeP arent, coordonneesObjet, pertinenceObjet) (5.3) O` u: – nom : terme d´esignant l’objet g´eographique. Par exemple : Louvre ou Cathedral of Learning. – classeP arent : membre du vocabulaire g´eographique, repr´esentant l’hyp´eronyme de chaque nom g´eographique. Pour les exemples pr´ec´edents : museum et tower. – coordonneesObjet : ils pr´ecisent la position spatiale de l’objet par l’interm´ediaire du couple (latitude, longitude). – pertinenceObjet : la valeur de pertinence associ´ee `a chaque objet g´eographique. Elle est extraite en utilisant une mesure statistique sur un corpus sp´ecialis´e (Panoramio) et sur un corpus g´en´eraliste (Alltheweb) et permet d’ordonner les objets g´eographiques. Le vecteur 5.3 est une extension de la d´efinition minimale d’un concept inclus dans un th´esaurus g´eographique donn´ee dans [52] en ajoutant une valeur de pertinence pour chaque entit´e. Les diff´erents ´el´ements de la d´efinition d’une entit´e g´eographique permettent sa caract´erisation unique au sein du th´esaurus et offrent la possibilit´e de bˆatir une application de recherche d’information plus interactive et mieux structur´ee que les syst`emes existants, comme World Explorer1 [1] ou Flickr Map2 . Les photographies utilis´ees dans ThemExplorer sont repr´esent´ees par 5.4 : Image = (nom, index, coordonneesImage, pertinenceImage)

(5.4)

O` u: – nom : idem ` a 5.3. – index : repr´esentation vectorielle du contenu de l’image utilisant des descripteurs de bas niveau. – coordonneesImage : coordonn´ees g´eographiques de chaque image. – pertinenceImage : la position de chaque photographie dans l’ensemble de r´eponses h´erit´e du moteur de recherche exploit´e. Les informations dans l’´equation 5.4 fournissent une description complexe de l’image, incluant le concept repr´esent´e dans l’image par l’interm´ediaire de nom, le point de vue 1 2

http ://tagmaps.research.yahoo.com/worldexplorer.php http ://flickr.com/map

170

CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES

a` partir duquel la photographie a ´et´e prise (coordonneesImage), la popularit´e de l’image parmi les images g´eo-r´ef´erenc´ees autour de l’entit´e cible (pertinenceImage) et une description de bas niveau du contenu (index ). Ahern [1] ou Kennedy [74] ont montr´e la pertinence de l’information de localisation pour la recherche d’images g´eographiques. Notons que, par l’interm´ediaire de nom, nous faisons une liaison entre chaque image et les th´ematiques d´etermin´ees par les classes du vocabulaire g´eographique. La description du contenu par des caract´eristiques de bas niveau (index) est appliqu´ee aussi bien aux images d’Olive qu’`a celles de ThemExplorer. Cependant, il existe une diff´erence importante entre les deux vecteurs. Dans le second cas, nous avons jug´e utile d’enrichir la description du contenu des images g´eo-r´ef´erenc´ees en ajoutant un descripteur local bas´e sur des points d’int´erˆet et le descripteur SIFT. La fusion des descripteurs globaux et locaux est valid´ee par l’am´elioration des performances (voir 5.2.5 pour des d´etails). Les informations pr´esent´ees dans les ´equations 5.3 et 5.4 d´eterminent un mod`ele de donn´ees plus riche que celui inclus dans des applications comme World Explorer [1] ou Panoramio. Elles permettent la proposition d’une architecture de recherche d’images g´eor´ef´erenc´ees compl`ete et facilitent une interaction riche et plus intuitive entre le syst`eme et les utilisateurs. Les principales nouveaut´es par rapport aux applications existantes viennent de la possibilit´e d’une navigation th´ematique et de la proposition d’une recherche bas´ee sur le contenu visuel des images.

5.2.2

Architecture de ThemExplorer

La figure 5.13 pr´esente l’architecture d’un syst`eme de recherche d’images pour les objets g´eographiques. Cette architecture est un cas particulier de l’architecture g´en´erique bas´ee sur des ressources linguistiques d´ecrite dans la sous-section 3.3.3. La ressource linguistique est la version de Geonames enrichie automatiquement avec les noms g´eographiques composant Gazetiki et est utilis´ee pour traiter les requˆetes textuelles. Comme pour Olive, nous utilisons PIRIA pour indexer le contenu des images et r´ealiser la rechercher par similarit´e visuelle. Le corpus photographique constitue une copie locale d’une partie de l’ensemble d’images g´eo-r´ef´erenc´ees dans Flickr. Quand un objet n’est pas repr´esent´e par un nombre suffisant d’images g´eo-r´ef´erenc´ees, nous ajoutons des images provenant de Flickr non g´eo-r´ef´erenc´ees. S’il n’y a toujours pas assez de photographies, nous compl´etons avec des images de Google Images. L’ordre de pr´esentation des images (Flickr g´eo-r´ef´erenc´e, Flickr puis Google Images) est justifi´e par le niveau de pr´ecision de ces corpus. 5.2.2.1

L’interaction dans ThemExplorer

Dans ThemExplorer, l’utilisateur peut formuler des requˆetes textuelles et des requˆetes par images exemples, ces derni`eres ´etant limit´ees `a des espaces de recherches restreints par les requˆetes textuelles initiales. Une diff´erence importante entre ThemExplorer et Olive tient dans le fait que la formulation des requˆetes textuelles dans ThemExplorer est r´ealis´ee ` a l’int´erieur d’un ensemble ferm´e, par l’interm´ediaire d’une carte affichant

´ GEOGRAPHIQUES ´ 5.2. THEMEXPLORER — RECHERCHE D’ENTITES

171

Fig. 5.13 – Architecture d’un syst`eme de recherche d’images d’objets g´eographiques. Les bases de donn´ees sont repr´esent´ees sous forme de rectangles, les composants actifs par des rectangles arrondis et les requˆetes par des ellipses. des tags tandis que l’utilisateur d’Olive peut formuler librement sa requˆete. Le rˆole du s´electeur de concepts de ThemExplorer commence d`es qu’une r´egion de la carte et une s´erie de th`emes de recherche ont ´et´e s´electionn´ees. Quand un tag est choisi par l’utilisateur, le s´electeur de concepts extrait les informations associ´ees `a celui-ci (le nom, la position g´eographique et la classe parent) qui sont transmises au collecteur d’images. Le collecteur d’images v´erifie si l’objet g´eographique est d´ej`a repr´esent´e dans le corpus local. Si ce n’est pas le cas, des photographies repr´esentatives sont recherch´ees d’abord sur Flickr puis dans Google Images. Toutes les images du corpus local sont index´ees en fusionnant le descripteur LEP et celui bas´e sur les points d’int´erˆet. Chaque image affich´ee peut constituer le point de d´epart d’une requˆete visuelle. Si une telle recherche est amorc´ee, le contenu de la photographie choisie est compar´e ` a la description de bas niveau de toutes les autres images associ´ees au mˆeme nom g´eographique du th´esaurus. 5.2.2.2

Le th´ esaurus g´ eographique

Le th´esaurus g´eographique est constitu´e par la fusion de la version adapt´ee de Geonames et de Gazetiki (voir les sections 4.1.2 et 4.2 pour des d´etails). Chaque nom g´eographique est renseign´e pour ˆetre plac´e pr´ecis´ement sur une carte et ˆetre associ´e `a des concepts plus g´en´eraux du domaine g´eographique. Si un objet g´eographique apparaˆıt dans les deux ressources, une pr´ef´erence est accord´e `a Geonames puisque ce th´esaurus est constitu´e manuellement et donc moins sujet aux erreurs. La base de donn´ees finale contient un nombre total d’environ quatre millions d’entit´es g´eographiques qu’il est possible d’afficher sur une carte.

172 5.2.2.3

CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES Le corpus d’images local

Comme nous l’avons d´ej` a mentionn´e, la base d’images locale est une copie partielle du corpus de Flickr et de Google Images. Les images de Flickr sont pr´ef´er´ees `a celles de Google Images car elles sont plus repr´esentatives et plus facilement r´ecup´erables (et g´en´eralement sous des formats de meilleure qualit´e). L’addition d’une information de localisation dans les requˆetes am´eliore la pr´ecision des r´esultats [1], [74]. La formulation des requˆetes est expliqu´ee plus en d´etail dans la sous-section 5.2.2.5. En th´eorie, il est possible de r´ecup´erer toutes les images de Flickr correspondant `a un tag donn´e mais, afin d’am´eliorer le temps d’ex´ecution, nous limitons la collecte d’images `a environ 300 ´el´ements. Notons qu’il existe d’autres corpus d’images g´eo-r´ef´erenc´ees disponibles, comme Panoramio, mais ce dernier se prˆete mal `a une utilisation interactive `a partir d’une interrogation par tags. En effet, l’API de Panoramio ne permet pas une limitation de l’espace de recherche en fonction de l’information textuelle associ´ee aux images. Avec Panoramio, la r´ecup´eration des images pour une r´egion et un tag donn´es comporte deux ´etapes : 1. le t´el´echargement de tous les titres des photographies de la r´egion et 2. la s´election des images avec le tag question. Ce processus en deux temps devient beaucoup trop fastidieux si l’on consid`ere des r´egions autour d’objets bien repr´esent´es dans la base. De plus, avec plus de 50 millions d’images g´eo-r´ef´erenc´ees, la couverture du corpus Flickr est significativement plus importante que celle de Panoramio, qui contient environ cinq millions de photographies. 5.2.2.4

Le s´ electeur de concepts

Le rˆ ole du s´electeur de concepts est double puisqu’il intervient aussi bien dans la s´election des noms g´eographiques associ´es `a une r´egion et `a un th`eme donn´es que dans le choix d’un tag. La structure du th´esaurus g´eographique permet une double s´election des noms g´eographiques : par rapport `a leur position dans l’espace (d´efinie par la relation de m´eronymie entre un tag et une r´egion de la carte) et par rapport `a l’appartenance `a une classe parent du domaine g´eographique (d´efinie comme une relation d’h´eritage conceptuel). Les deux types de limitation de l’espace de recherche se traduisent par la s´election d’une partie de la carte et d’une s´erie de th`emes d’int´erˆet. Par exemple, si on se place sur le centre de Paris et que l’on demande `a voir des ponts et des mus´ees, ThemExplorer affiche des tags comme Pont Alexandre III, Pont des Arts, Pont Neuf, Louvre, Mus´ee d’Orsay, Centre Georges Pompidou, Mus´ee Rodin etc. (voir la figure 5.14).

5.2.2.5

Le collecteur d’images

Le collecteur d’images re¸coit la liste de requˆetes reformul´ees de la part du s´electeur de concepts et cherche ` a trouver des images correspondantes. Tout d’abord, le script v´erifie si la requˆete a d´ej` a ´et´e lanc´ee et si des images correspondant `a cette entit´e existent d´ej` a dans le corpus local. Si c’est le cas, elles sont affich´ees imm´ediatement dans l’interface.

´ GEOGRAPHIQUES ´ 5.2. THEMEXPLORER — RECHERCHE D’ENTITES

173

Fig. 5.14 – Ponts et mus´ees au centre de Paris dans ThemExplorer.

Dans le cas contraire, il s’agit d’un nouveau concept et le collecteur lance plusieurs requˆetes dans les corpus d’images du Web, selon l’ordre suivant : – – – – –

tag tag tag tag tag

+ r´egion autour des coordonn´ees de l’objet dans Flickr, + classe parent dans Flickr, + classe parent dans Google, dans Flickr, dans Google.

Comme nous l’avons expliqu´e, nous ne retenons que 300 photographies pour chaque entit´e, aussi n’est-il pas n´ecessaire de lancer toutes les requˆetes. Pour les objets connus, comme Eiffel Tower, nous obtenons habituellement assez d’images en n’utilisant que le premier type de reformulation. Des ´etudes comme [74] ou [73] montrent que la quantit´e d’images non pertinentes pour les requˆetes g´eographiques atteint 50% dans Flickr. L’utilisation des coordonn´ees g´eographiques r´eduit significativement le niveau de bruit mais beaucoup d’objets g´eographiques sont faiblement repr´esent´ees par des images g´eor´ef´erenc´ees. N´eanmoins, avec la croissance rapide de Flickr, notamment pour les donn´ees g´eo-r´ef´erenc´ees, nous pouvons esp´erer a` une meilleure couverture de l’espace des images g´eographiques.

174

CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES

Le th´esaurus g´eographique est structur´e par la relation d’h´eritage conceptuel et nous pouvons reformuler la requˆete initiale (par exemple Notre Dame) en utilisant la classe parent (Notre Dame + cathedral ). Ce choix de reformulation se base sur une hypoth`ese simple : il y a moins de chances qu’un utilisateur ait annot´e de mani`ere erron´ee une image avec Notre Dame et cathedral qu’avec Notre Dame seulement. Si jamais il n’y a pas assez d’images annot´ees avec l’objet et son type, nous formulons des requˆetes portant seulement sur le nom de l’objet. La pr´ef´erence pour le corpus de Flickr s’explique par sa meilleure pr´ecision pour le type d’images demand´ees, les photographies g´eo-r´ef´erenc´ees. La plateforme Flickr permet une interrogation en mixant les tags et les coordonn´ees g´eographiques. De plus, elle contient un nombre important de photographies touristiques (photographies de vacances, . . .) qui sont potentiellement tr`es int´eressantes pour notre application. Google Images est un corpus plus g´en´eraliste (et donc plus bruit´e) que Flickr et s’av`ere utile pour enrichir l’ensemble des r´esultats pour des entit´es moins connues et donc moins bien repr´esent´es dans Flickr. 5.2.2.6

PIRIA

L’indexation des images est faite en exploitant des descripteurs globaux et locaux de PIRIA. La caract´erisation globale de la photographie est r´ealis´ee en utilisant LEP, le mˆeme descripteur que dans Olive (pr´esent´e plus en d´etail dans 2.1.2.2). Les objets g´eographiques sont g´en´eralement rigides et peuvent ˆetre efficacement d´ecrits par des approches locales par points d’int´erˆets. Nous utilisons une approche dite par « sacs de mots visuels » (« bags of features » ou « bags of visual word ») [25] (voir aussi 2.1.2.2). Pour ThemExplorer, nous avons utilis´e un jeu de donn´ees comprenant 5000 images de Flickr, pour lesquelles nous avons extrait au maximum 1000 points d’int´erˆets (HarrisLaplace) afin de calculer un vocabulaire de 5000 mots visuels. Une version parall´elis´ee de K-means3 a ´et´e exploit´ee pour cr´eer le vocabulaire. Nous avons lanc´e plusieurs K-Means avec diff´erentes initialisations (al´eatoires) et nous avons s´electionn´e la partition la plus proche d’une partition optimale selon un crit`ere tenant compte de la distance intra- et inter-clusters. La distance finale entre deux images dans ThemExplorer est obtenue par la combinaison de celle obtenue en utilisant les descripteurs globaux et celle obtenue en employant les descripteurs locaux, sans pond´eration privil´egiant l’une ou l’autre des composantes. 5.2.2.7

L’interface de ThemExplorer

La figure 5.15, relie les actions des utilisateurs aux ´el´ements actifs et aux bases de donn´ees de l’architecture du syst`eme. Nous illustrons l’interface de ThemExplorer dans le cas d’une requˆete avec le Golden Gate Bridge de San Francisco. Les principales composantes de l’interface de ThemExplorer sont : 3

http ://www.ece.northwestern.edu/%7Ewkliao/Kmeans/index.html

´ GEOGRAPHIQUES ´ 5.2. THEMEXPLORER — RECHERCHE D’ENTITES

175

Fig. 5.15 – Interface de ThemExplorer pr´esentant les r´esultats d’une requˆete avec Golden Gate Bridge, ` a San Francisco.

– Une carte interactive : cette carte est librement propos´ee par Yahoo !. Sa principale particularit´e par rapport ` a d’autres interfaces de ce type est qu’elle permet l’affichage de tags, une propri´et´e qui la rend tr`es utile pour des tˆaches de recherche d’information multim´edia. L’affichage de tags s’av`ere en effet plus efficace que l’affichage, souvent peu visible, de petites vignettes propos´e dans d’autres applications (comme Panoramio ou Google Earth). – Un arbre de concepts g´eographiques : les concepts pr´esent´es dans la zone centrale de l’interface reprennent la structure hi´erarchique du th´esaurus et facilitent une navigation th´ematique dans la ressource. Dans la figure 5.15, nous pr´esentons le cas d’une s´election de plusieurs types d’art´efacts faisant apparaˆıtre sur la carte les tags les plus repr´esentatifs correspondant aux concepts g´eographiques d’int´erˆet. – La zone d’affichage d’images associ´ees `a la requˆete : les photographies r´ecup´er´ees `a partir de Flickr et Google Images sont affich´ees dans un format classique de moteur de recherche d’images. L’interface est construite afin d’exploiter la structure de donn´ees g´eographiques d´ecrite dans la sous-section 5.2.1 et de permettre `a l’utilisateur d’explorer facilement le contenu du th´esaurus g´eographique `a large ´echelle inclus dans l’architecture de ThemExplorer. Nous pr´esentons, ` a titre comparatif, l’interface de World Explorer (5.16), une application de recherche d’images g´eographiques d´evelopp´ee par Yahoo ! qui nous a inspir´e pour la construction de notre syst`eme.

176

CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES

Fig. 5.16 – Interface de World Explorer (Yahoo !) pr´esentant les r´esultats d’une requˆete avec Golden Gate Bridge, ` a San Francisco.

5.2.3

Comparaison de ThemExplorer et World Explorer

Les interfaces de ThemExplorer (figure 5.15) et de World Explorer (figure 5.16) utilisent la mˆeme carte interactive permettant d’afficher des tags g´eo-localis´es. Dans les deux cas, les images repr´esentatives proviennent de Flickr. Il y a toutefois deux diff´erences importantes : – Le degr´e de structuration de la base de donn´ees g´eographiques est sup´erieur dans ThemExplorer puisqu’on ajoute une information li´ee `a la cat´egorie des entit´es. Dans la figure 5.15, la restriction th´ematique porte sur des classes d’objets artificiels (bridge, building, museum ...). L’utilisateur peut naviguer facilement dans l’arbre de concepts g´eographiques et d´efinir ainsi ses centres d’int´erˆets. Par ailleurs, nous avons privil´egi´e la pr´esentation des noms g´eographiques sp´ecifiques car les images repr´esentant ces entit´es forment des classes conceptuellement et visuellement compactes. – La fonctionnalit´e de recherche d’images par similarit´e visuelle n’existe pas dans World Explorer. Elle est introduite dans notre syst`eme et porte sur les photographies du un mˆeme objet g´eographique. Ce dernier point m´erite d’ˆetre soulign´e puisque nous augmentons la possibilit´e de retrouver des r´eponses `a la fois visuellement et conceptuellement similaires. Il y a beaucoup plus de chances de retrouver (par le contenu) des images repr´esentant la Tour Eiffel dans un ensemble d’images annot´ees avec ce terme que dans un autre, plus large, correspondant `a Paris ou a France. De plus, la restriction de l’espace de recherche `a des objets sp´ecifiques ` permet de s’affranchir des probl`emes de temps de traitement qui handicapent les

´ GEOGRAPHIQUES ´ 5.2. THEMEXPLORER — RECHERCHE D’ENTITES

177

technologies de recherche par le contenu. La seule hypoth`ese faite dans notre approche de la recherche par contenu visuel est que l’utilisateur d´esire naviguer dans un espace conceptuellement coh´erent : nous supposons donc qu’il s’attend `a voir des photographies de la Tour Eiffel en r´eponse `a une requˆete image avec la Tour Eiffel. La comparaison des deux syst`emes de recherche d’images g´eographiques est reprise dans la section traitant de l’´evaluation.

5.2.4

Exemple d’utilisation

Supposons qu’un utilisateur d´esire voir des images repr´esentatives pour toutes les cat´egories g´eographiques de Gazetiki, `a partir de la carte centr´ee sur l’Europe (figure 5.17).

Fig. 5.17 – Noms g´eographiques les plus repr´esentatifs dans ThemExplorer, avec la carte centr´ee sur l’Europe. Le tag s´electionn´e est la Tour Eiffel. Les tags pr´esent´es dans la figure 5.17 sont des entit´es g´eographiques g´en´eralement connues et appartiennent ` a une grande vari´et´e de cat´egories. Il y a des ponts (Tower Bridge, Ponte Vecchio), des ´edifices r´eligieux (Sagrada Familia) ou des ˆıles (Capri ). La figure contient aussi des images de la Tour Eiffel. Dans la figure 5.18, nous avons demand´e de voir uniquement les ponts de la r´egion de San Francisco. Cette requˆete illustre la double restriction de l’espace de recherche compos´ee d’une limitation conceptuelle et d’une restriction spatiale. L’image de Golden Gate Bridge encadr´ee en rouge sur la figure 5.18 est l’image requˆete pour la recherche par le contenu. Les photographies les plus proches de cette requˆete sont affich´ees ` a la suite. La recherche par similarit´e visuelle est limit´ee aux

178

CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES

Fig. 5.18 – Pr´esentation de noms g´eographiques de la cat´egorie bridge, dans la r´egion de San Francisco. Une recherche par similarit´e visuelle est propos´ee pour une image de Golden Gate Bridge (encadr´ee en rouge).

images du Golden Gate Bridge puisque nous supposons que l’utilisateur voudra obtenir des r´eponses visuellement similaires et repr´esentant toujours ce mˆeme objet.

5.2.5

´ Evaluation de ThemExplorer

Nous avons effectu´e trois exp´eriences afin de valider notre approche de la recherche d’images g´eographiquess. La premi`ere ´evaluation compare la limitation de l’espace de recherche en utilisant uniquement des mots-clef et en ajoutant une restriction spatiale. La seconde exp´erience ´evalue les descripteurs (et leur fusion) pour la recherche par le contenu. Le dernier test compare ThemExplorer `a World Explorer en situation d’utilisation r´eelle. La structure linguistique int´egr´ee dans ThemExplorer a ´et´e ´evalu´ee en d´etail dans la section 4.2 et nous avons montr´e que la ressource utilis´ee dans notre syst`eme est de meilleure qualit´e que celle exploit´ee par World Explorer. Des travaux en relation avec le notre ont aussi propos´e des ´evaluations. [1] et [74] montrent que la qualit´e des r´eponses est am´elior´ee quand on utilise conjointement des mots-clef et des coordonn´ees spatiales par rapport `a la seule utilisation des mots-clef. Quant ` a la recherche par le contenu visuel, [100] montre que la restriction spatiale de l’espace de recherche rend des r´esultats plus pertinents qu’une simple recherche par le contenu sur l’int´egralit´e de la base.

´ GEOGRAPHIQUES ´ 5.2. THEMEXPLORER — RECHERCHE D’ENTITES 5.2.5.1

179

Restriction de la recherche par le contenu

Dans 5.1.4, nous avons montr´e que la r´eduction de l’espace de recherche pour le CBIR en utilisant des mots-clef am´eliore grandement les r´esultats du processus. [100] arrive `a des conclusions similaires pour une limitation spatiale de la recherche d’images g´eo-r´ef´erenc´ees. Nous comparons ici une restriction spatiale de la recherche `a une double limitation, par mots-clef et spatiale, de l’espace de recherche. Toutes les images ont ´et´e index´ees avec LEP. Pour notre ´evaluation, nous avons demand´e `a six utilisateurs de tester les r´eponses du syst`eme sur un panel de 20 images repr´esentant des monuments connus dans cinq grandes villes : San Francisco, Londres, Paris, Sydney et New York. Chaque objet est repr´esent´e par un maximum de 500 images obtenues `a partir de Flickr et Google Images, avec une priorit´e donn´ee aux images g´eo-localis´ees. La m´etrique d’´evaluation est la pr´ecision `a 10 (P@10). La tˆ ache est relativement similaire `a l’´evaluation du CBIR dans 5.1.4. Au d´ebut de chaque test, nous pr´esentons le texte suivant `a l’´evaluateur : Imaginez que vous ˆetes en train d’´ecrire un rapport sur un sujet (par exemple la Tour Eiffel) et que vous devez l’illustrer avec des images. Vous trouverez, sur chaque page, une image exemple repr´esentative du sujet de votre rapport et des r´eponses consid´er´ees comme similaires par le moteur de recherche d’images. Supposez que vous avez trouv´e une image qui vous plaˆıt (l’« image exemple ») pour illustrer le rapport, mais vous voulez voir si le corpus d’images contient des photographies similaires ` a cet exemple. Cochez la case en dessous des images si vous les consid´erez similaires ` a l’image exemple (est-ce qu’elles pourraient la remplacer en tant qu’illustration de votre rapport ?). La restriction spatiale est ´evalu´ee en lan¸cant le CBIR uniquement parmi les objets d’une mˆeme ville. Pour ´evaluer la restriction conceptuelle accompagn´ee d’une restriction spatiale, les images similaires sont recherch´ees uniquement parmi les photographies du mˆeme objet. Les r´esultats du test sont pr´esent´es dans la figure 5.19. Les r´esultats de la figure 5.19 montrent que le CBIR contraint avec les mots-clef et la localisation est plus efficace qu’une recherche par le contenu en n’utilisant que la ` l’exception du cinqui`eme utilisateur, la localisation des images (51% contre 29%). A diff´erence entre les deux m´ethodes est assez nette pour les participants au test. Pour la restriction spatiale, nous avons utilis´e un cas assez simple car la recherche est r´ealis´ee dans un corpus contenant uniquement cinq objets pour chaque ville. Dans des cas r´eels d’utilisation, l’´ecart de pr´ecision pr´esent´e dans la figure 5.19 serait probablement beaucoup plus prononc´e. Les deux types de restriction simplifient le processus de recherche par le contenu puisque ce dernier va avoir lieu dans des parties de corpus r´eduites par rapport au volume total d’images. 5.2.5.2

Fusion des descripteurs en recherche par le contenu

Apr`es avoir ´etudi´e la limitation de l’espace de recherche, nous avons fait l’hypoth`ese qu’une fusion des descripteurs sera plus efficace que l’utilisation d’un seul descripteur.

180

CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES

Fig. 5.19 – Comparaison de la pr´ecision du CBIR pour une restriction spatiale de l’espace de recherche (SPATIAL) et pour une limitation spatiale et par mots-clef (SPATIAL+MOTS-CLEF). Pour tester cette hypoth`ese, nous avons s´electionn´e 20 images appartenant aux mˆemes classes que celles de l’exp´erience pr´ec´edente. Ces images ont ´et´e index´ees en utilisant le descripteur LEP (approche globale) et les sacs de mots visuels (BAG — approche locale). La fusion des deux descripteurs est r´ealis´ee en combinant simplement les r´esultats de chaque descripteur (fusion tardive). Nous avons demand´e `a six utilisateurs (U1 — U6) d’´evaluer la pr´ecision ` a dix documents (P@10) pour chaque image de test. Les r´esultats du test sont pr´esent´es dans la figure 5.20. Les r´esultats de la figure 5.20 confirment ceux pr´esent´es dans la figure 5.19 et montrent que la recherche par contenu visuel dans des espaces conceptuellement coh´erents permet d’obtenir de bons niveaux de pr´ecisions (0.7 en moyenne pour la fusion). La diff´erence entre les moyennes obtenues en employant LEP (51% dans 5.19 et 57% dans 5.20) s’explique par le fait que le groupe d’utilisateurs n’´etait pas le mˆeme pour les deux exp´eriences. Les performances globales des deux descripteurs sont relativement similaires (57% pour LEP et 60% pour BAG) avec un l´eger avantage pour BAG qui se retrouve pour chaque utilisateur. La fusion des deux descripteurs am´eliore la pr´ecision d’environ 10% par rapport ` a BAG et 13% par rapport `a LEP. En prenant en compte les utilisateurs individuellement, la diff´erence varie entre 3% et 15% et demeure plus faible pour les trois testeurs les plus « exigeants ». Si notre hypoth`ese initiale semble ˆetre v´erifi´ee, cette am´elioration des r´esultats est obtenue au prix d’une augmentation de la complexit´e de traitements (notamment par l’utilisation de

´ GEOGRAPHIQUES ´ 5.2. THEMEXPLORER — RECHERCHE D’ENTITES

181

Fig. 5.20 – Pr´ecision en utilisant un descripteur global texture-couleur (LEP), un descripteur bas´e sur les sacs de mots visuels (BAG) et une fusion tardive des deux descripteurs. BAG). Des solutions algorithmiques bas´ees sur la parrall´elisation de certains processus permettraient de garder une phase d’indexation en temps r´eel. 5.2.5.3

Test utilisateurs pour ThemExplorer

Nous avons mis en place un test utilisateurs pour comparer ThemExplorer et World Explorer. Huit testeurs ont utilis´e ces deux syst`emes selon deux ´etapes : 1. Chaque utilisateur a explor´e trois lieux impos´es. Nous avons propos´e deux villes tr`es connues (Paris et San Francisco) et une ville moins connue : Timi¸soara (Roumanie). 2. Les utilisateurs ont ´et´e encourag´es `a explorer librement d’autres r´egions du monde (situation d’utilisation r´eelle). Au d´ebut du test, nous avons expliqu´e bri`evement le mode de fonctionnement des deux ` la fin du test, chaque utilisateur devait r´ediger un commentaire libre sur syst`emes. A les deux syst`emes puis r´epondre ` a une s´erie de questions impos´ees (QCM). Les questions impos´ees Q1 ` a Q4 (tableau 5.3) comparent plusieurs caract´eristiques communes `a ThemExplorer et World Explorer. Q5 et Q6 s’int´eressent `a l’utilit´e des deux principales fonctionnalit´es introduites dans ThemExplorer (la s´election th´ematique et la recherche par le contenu). Pour les questions Q1 `a Q4, nous avons utilis´e une ´echelle de 1 `a 5 : 1 repr´esentant une pr´ef´erence forte pour World Explorer et 5 une pr´ef´erence forte pour ThemExplorer. Pour les questions Q5 et Q6, nous avons propos´e une ´echelle de 1 (fonctionnalit´e inutile) ` a 5 (fonctionnalit´e tr`es utile). Le tableau 5.3 montre que les ´evaluateurs pr´ef`erent ThemExplorer `a World Explorer sur toutes les caract´eristiques test´ees (Q1 — Q4). Les nouvelles fonctionnalit´es intro-

182

CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES

Tab. 5.3 – Questions impos´ees pour le test comparant ThemExplorer et World Explorer.

Q1

Q2

Q3

Q4

Q5

Q6

Question La repr´esentation du domaine g´eographique dans ThemExplorer par rapport ` a World Explorer est : Le niveau de bruit (tags incorrects ou incomplets) dans ThemExplorer par rapport ` a celui de World Explorer est : Les premiers tags pr´esent´es pr´esent´es pour les r´egions dans ThemExplorer par rapport ` a ceux de World Explorer sont : L’enrichissement des modalit´es d’interaction dans ThemExplorer par rapport `a World Explorer est : Vous consid´erez la repr´esentation structur´ee des cat´egories g´eographiques dans ThemExplorer : Vous consid´erez la recherche par similarit´e visuelle propos´ee dans ThemExplorer :

Moyenne 4,5

Ecart type 0,53

3,88

0,83

3,13

1,13

4,38

0,52

4,63

0,52

4,63

0,52

duites sont consid´er´ees comme ´etant tr`es utiles (Q5, Q6). Nous avons montr´e dans la section 4.2.8 que la base de donn´ees g´eographiques int´egr´ee dans l’architecture de ThemExplorer couvre mieux le domaine g´eographique que celle de World Explorer. Cette diff´erence est aussi soulign´ee par les participants au test. Les r´eponses `a Q1 (moyenne de 4,5) rendent compte soit d’une pr´ef´erence forte pour notre syst`eme (5/5) dans quatre cas, soit d’une pr´ef´erence (4/5) dans les autres cas. L’´evaluation dans la sous-section 4.2.8 nous a permis de conclure que le niveau de bruit dans Gazetiki est plus faible que celui dans TagMaps, la base de donn´ee utilis´ee par World Explorer. Ce r´esultat se retrouve bien dans les r´eponses des utilisateurs ` a Q2 (moyenne de 3,88). Un seul participant au test a consid´er´e que les tags affich´es dans World Explorer sont plus pertinents que ceux de ThemExplorer. Les noms des entit´es g´eographiques pr´esent´es dans ThemExplorer sont complets dans la plupart des cas contrairement ` a ceux propos´es dans World Explorer (par exemple, notre syst`eme pr´esente les tags P`ere Lachaise et Tour Eiffel tandis que World Explorer propose Lachaise et Eiffel ). Ces diff´erences s’expliquent par les m´ethodes d’extraction utilis´ees pour construire les bases de donn´ees g´eographiques : nous proc´edons `a l’extraction des noms d’un th´esaurus existant, de Wikip´edia ou de Panoramio (en utilisant des patrons lexicaux) alors que [111] proposent une m´ethode purement statistique pour obtenir des tags repr´esentant des noms de lieux.

´ GEOGRAPHIQUES ´ 5.2. THEMEXPLORER — RECHERCHE D’ENTITES

183

Pour une r´egion donn´ee, les tags affich´es dans notre syst`eme sont consid´er´es comme ´etant l´eg`erement plus repr´esentatifs que ceux de World Explorer (moyenne de 3,13 pour Q3). Le r´esultat obtenu pour Q3 confirme celui d´ecrit dans la sous-section 4.2.8, o` u nous comparons les premiers noms affich´es par rapport `a l’ordonnancement des ´el´ements propos´es par TripAdvisor. C’est la plus petite diff´erence entre les deux syst`emes et elle s’explique principalement par le fait que ThemExplorer propose des noms g´eographiques sp´ecifiques `a tous les niveaux alors que World Explorer adapte les tags pr´esent´es en fonction de l’´echelle. Par exemple, si on se positionne `a l’´echelle de la France, notre syst`eme affiche des tags comme Louvre ou Tour Eiffel alors que World Explorer pr´esente des noms de villes comme Paris ou Nantes. La prise en compte de l’´echelle dans World Explorer est, en effet, une caract´eristique tr`es intelligente et repr´esente un axe int´eressant d’am´elioration future de notre syst`eme. Notons que, dans la version actuelle, nous ne pr´esentons pas les noms de divisions administratives (communes, d´epartements, r´egions) mˆeme si ces derni`eres existent dans Geonames, puisque nous avons essentiellement ax´e notre travail sur une recherche (et une navigation au sein) d’entit´es sp´ecifiques. L’enrichissement de l’interactivit´e dans notre syst`eme par rapport `a World Explorer est ´evalu´e positivement par tous les participants au test (moyenne 4,38 pour Q4). Cet enrichissement est r´ealis´e de mani`ere ` a ne pas compliquer l’interaction avec l’application et rend ThemExplorer aussi facile ` a utiliser que World Explorer, mais plus flexible. L’introduction d’une restriction th´ematique (Q5) est consid´er´ee comme ´etant « tr`es utile » par cinq participants au test et « utile » par trois ´evaluateurs. La s´election th´ematique est une diff´erence fondamentale entre ThemExplorer et World Explorer puisqu’elle symbolise l’int´erˆet d’utiliser des ressources structur´ees pour une application de recherche d’images. Les r´esultats ` a cette cinqui`eme question valident donc notre choix. La recherche par le contenu ` a l’int´erieur d’un espace conceptuel restreint (Q6) est consid´er´ee comme ´etant « tr`es utile » par cinq testeurs et « utile » par les trois autres. Le CBIR s’av`ere utile dans les cas o` u un utilisateur trouve une image int´eressante et veut voir si le corpus photographique contient d’autres images similaires. Plus particuli`erement, cette fonctionnalit´e est tr`es pertinente pour les objets connus, comme la Tour Eiffel ou le Golden Gate Bridge, qui poss`edent beaucoup de repr´esentations tr`es diff´erentes (voir par exemple sur Flickr). Heureusement, les participants au test ont exprim´e un grand nombre d’id´ees concernant les points forts et les points faibles des deux applications. Les commentaires ont pr´ec´ed´e les questions guid´ees et ne sont pas, par cons´equent, influenc´es par les r´eponses `a ces questions. Nous synth´etisons et commentons bri`evement ici les id´ees apparues le plus fr´equemment pour ThemExplorer et pour World Explorer. Points forts de ThemExplorer : – Organisation conceptuelle de la base de donn´ees g´eographiques. Cette observation est celle qui apparaˆıt la plus fr´equemment parmi l’ensemble des commentaires. – Bonne couverture du domaine g´eographique. Commentaire li´e aux r´eponses de Q1.

184

CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES – Lisibilit´e de l’interface (affichage des photographies) : Nous avons fait le choix de pr´esenter les images de mani`ere similaire `a la repr´esentation classique des moteurs de recherche contrairement `a la repr´esentation plus « moderne » mais plus « brouillonne » de World Explorer (superposition des images). – Bonne pr´ecision des r´esultats images : le choix d’afficher des tags sp´ecifiques et la collecte de photographies en combinant les noms de l’objet et ses coordonn´ees permettent de proposer des photographies tr`es pertinentes. Point faibles de ThemExplorer – Pr´esence de tags en double : certains noms g´eographiques sont retrouv´es `a partir de plusieurs sources distinctes. Nous n’avons pas encore proc´ed´e `a l’´elimination des doublons. – Absence d’images pour certaines entit´es : nous avons utilis´e deux types de sources diff´erentes (elles ne co¨ıncident pas) : (1) Geonames, Wikip´edia et Panoramio pour construire Gazetiki et (2) Flickr et Google Images pour rechercher des photographies. Gazetiki contient environ quatre millions de noms g´eographiques et Flickr contient environ 50 millions d’images g´eo-r´ef´erenc´ees. Ce ratio de dix est faible et montre que Gazetiki est plus « riche » que Flickr. Il est donc normal que des entit´es (notamment celles ne repr´esentant pas un « int´erˆet » important) dans Gazetiki n’aient pas (encore. . .) de repr´esentation dans Flickr. N´eanmoins, nous n’en sommes qu’au d´ebut de l’essor des donn´ees g´eo-r´ef´erenc´ees et la croissance du corpus de Flickr ou de Google Images ne peut que r´eduire le nombre d’entit´es n’ayant pas d’images associ´ees. – Les tags s’affichent trop lentement : ThemExplorer utilise un service Web d’affichage de cartes propos´e par Yahoo ! qui doit se connecter `a un troisi`eme serveur. Celui-ci stocke le th´esaurus g´eographique utilis´e par ThemExplorer. Points forts de World Explorer – Bonne corr´elation entre les tags pr´esent´es et les nombre d’images affich´es : les noms g´eographiques contenus dans TagMaps sont obtenus apr`es une analyse des informations textuelles associ´ees aux images de Flickr, le mˆeme corpus utilis´e pour pr´esenter des photographies. Points faibles de World Explorer – Interface de pr´esentation des photographies peu lisible : dans World Explorer, les images se superposent. Cette pr´esentation est certes « `a la mode » mais reste n´eanmoins un choix assez ´etrange de la part de Yahoo !, un acteur pourtant exp´eriment´e des interfaces web. – Informations pr´esent´ees de mani`ere non-structur´ee : cette observation est soulign´ee par le contraste avec ThemExplorer. – Tags trop g´en´eriques : Malgr´e l’int´erˆet d’une analyse de l’´echelle, il n’y a pas assez de noms g´eographiques sp´ecifiques dans TagMaps. Or, les utilisateurs naviguent rapidement dans des r´egions assez sp´ecifiques de la carte (par exemple `a l’´echelle des villes ou des quartiers). – Des r´egions enti`eres ne contiennent aucun tag : nous touchons ici le probl`eme de couverture de World Explorer. L’algorithme de s´election de tags g´eographiques de

´ 5.3. SAFIR — RECHERCHE DE NOMS DE PERSONNALITES

185

TagMaps est probablement trop restrictif et ne trouve pas d’entit´es pour un nombre important de r´egions. Une am´elioration de la couverture demeure difficile car [111] conclut qu’avec une relaxation des contraintes de s´election de noms g´eographiques, le niveau du bruit parmi les tags obtenus devient vite trop important. Les commentaires des utilisateurs permettent de d´egager quelques directions de d´eveloppement pour notre application : – Analyse du corpus de Flickr afin d’am´eliorer la couverture du domaine g´eographique de Gazetiki. – Calcul de la mesure de pertinence `a partir du corpus de Flickr afin d’obtenir une meilleure corr´elation entre les tags et les photographies affich´ees. – Elimination des doublons : cette op´eration est r´ealisable si on compare entre eux les noms g´eographiques spatialement proches afin d’´eliminer ceux ayant des noms identiques ou tr`es proches. Les r´esultats du test utilisateurs confirment les ´evaluations des diff´erentes composantes de ThemExplorer et valident le syst`eme dans sa globalit´e. De plus, la comparaison avec World Explorer est favorable `a notre syst`eme et nous permet de consid´erer ThemExplorer comme un syst`eme de recherche d’images g´eographiques comp´etitif.

5.3

Safir — recherche de noms de personnalit´ es

De fa¸con similaire aux deux autres domaines d’application, Safir exploite conjointement une ressource linguistique et des techniques de traitement d’images. L’application est construite autour de la structure conceptuelle d´ecrite dans la section 4.3 et propose une navigation enrichie parmi les noms de personnalit´es, avec notamment la pr´esentation de requˆetes proches et l’adaptation de l’affichage des r´esultats au domaine. Dans un premier temps, nous d´ecrivons le mod`ele de donn´ees exploit´e dans Safir, puis nous offrons un aper¸cu de l’architecture du syst`eme et de ses composantes principales. Enfin, nous pr´esentons un exemple d’utilisation du syst`eme et ´evaluons notre approche.

5.3.1

Mod´ elisation des donn´ ees

Nous d´ecrivons un mod`ele formel des donn´ees textuelles exploit´ees dans Safir, d´eriv´e de la ressource linguistique repr´esentant le domaine conceptuel (section 4.3) ainsi qu’un autre mod`ele pour les images. L’´etude du fichier de log de la section 3.1 montre que la plupart des requˆetes de ce domaine portent sur des noms pr´ecis de personnalit´es. Les connaissances relatives ` a une personnalit´e exploit´ees dans Safir sont r´esum´ees dans l’´equation 5.5. P ersonnalite = (nom, classeP arent, nationalite, personnalitesAssociees, activite, pertinence) O` u: – nom : nom de la personne.

(5.5)

186

CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES

– classeP arent : hyp´eronyme de chaque nom. Dans notre cas : acteur, chanteur / musicien, footballeur. – nationalite : nationalit´e de la c´el´ebrit´e. – personnalitesAssociees : une liste ordonn´ee de noms de personnalit´es ayant un lien avec la personnalit´e cible, extraite `a partir de l’article Wikip´edia sur la c´el´ebrit´e. – activite : ensemble d’informations d´ecrivant le profil « professionnel » de la personne. Nous d´etaillons ces informations dans les trois cas dans les ´equations 5.6, 5.7 et 5.8. – pertinence : valeur de pertinence associ´ee `a chaque nom de la structure. Elle est d´etermin´ee en combinant des propri´et´es conceptuelles de la personne et des statistiques du Web. L’´equation 5.5 contient des informations relatives `a toute personnalit´e d´ecrite dans la structure conceptuelle qui constituent autant de crit`eres pour enrichir simplement et efficacement l’interaction entre l’utilisateur et Safir. Les diff´erentes composantes de l’´equation 5.5 permettent une caract´erisation unique de chaque ´el´ement de la ressource ainsi que sa mise en relation avec d’autres concepts. Une valeur de pertinence est associ´ee ` a tout concept et ` a toute relation inter-conceptuelle de la structure permettant un ordonnancement des ´el´ements et donc une meilleure pr´esentation des r´esultats. Les informations relatives ` a l’activit´e des acteurs, des musiciens et footballeurs sont structur´ees de la fa¸con suivante : ActiviteActeur = (f ilms, roles, prix)

(5.6)

O` u: – f ilms : liste ordonn´ee des films dans lesquels l’acteur a jou´e. – roles : liste ordonn´ee (en suivant le mˆeme ordre que pour les films) des rˆoles de l’acteur. – prix : liste des prix obtenus par la personne. ActiviteChanteur = (genres, groupes, instruments, prix, albums)

(5.7)

O` u: – genres : liste ordonn´ee des genres musicaux du musicien. – groupes : liste ordonn´ee des groupes auxquels a appartenu la personnalit´e. – instruments : liste ordonn´ee des instruments jou´es. – prix : liste des prix obtenus. – albums : la liste ordonn´ee des albums. ActiviteF ootballeur = (postes, clubs) O` u: – postes : liste ordonn´ee des postes occup´es par le joueur. – clubs : liste ordonn´ee des clubs dans lesquels a jou´e le joueur.

(5.8)

´ 5.3. SAFIR — RECHERCHE DE NOMS DE PERSONNALITES

187

Les vecteurs des ´equations 5.6, 5.7 et 5.8 contiennent les principales informations concernant le parcours professionnel des personnalit´es inclues dans la structure conceptuelle. Avec les informations communes `a toutes les cat´egories (´eq. 5.5), ces connaissances facilitent une repr´esentation ad´equate des personnalit´es cible. Les photographies pr´esent´ees dans Safir sont repr´esent´ees par le vecteur suivant : Image = (nom, index, pertinenceImage)

(5.9)

O` u: – nom : le nom de la personne repr´esent´ee dans l’image. – index : le vecteur des caract´eristiques de bas niveau repr´esentant l’image. – pertinenceImage : la position de la photographie dans l’ensemble des r´eponses. La pertinence est h´erit´ee du moteur de recherche d’images utilis´e comme source. Les informations dans l’´equation 5.9 forment une description complexe de l’image, alliant le concept repr´esent´e, la repr´esentation de bas niveau du contenu et la popularit´e de l’image dans le corpus de r´ef´erence. La combinaison de ces trois types d’informations facilite une recherche ` a la fois conceptuelle et par le contenu (ce dernier type venant en compl´ement du premier). Notons que, ´etant donn´e la structure incompl`ete de Wikip´edia, des champs sont non renseign´es parmi les descripteurs d’un concept. Toutefois, comme l’ont montr´e les exp´eriences men´ees afin de valider la proc´edure de construction de la ressource linguistique d´edi´ee aux personnalit´es, la couverture du domaine est significativement plus importante par rapport `a Ask. Les ´equations 5.5, 5.6, 5.7 et 5.8 et 5.9 d´ecrivent un mod`ele de donn´ees plus riche et plus structur´e que celui d’Ask (` a notre connaissance la seule application comparable). Notre application repose sur une mod´elisation de domaines conceptuels qui permet de proposer une interaction plus riche et intuitive, aidant l’utilisateur `a se rep´erer dans des espaces conceptuels vastes. De plus, la recherche par le contenu facilite un acc`es rapide `a des photographies proches d’une image question dans des espaces conceptuels coh´erents.

5.3.2

Architecture de Safir

L’architecture de Safir (figure 5.21) est un cas particulier de l’architecture g´en´erique d´ecrite dans la section 3.3.3. Dans cette application, la ressource linguistique est repr´esent´ee par CelebWiki (section 4.3) et PIRIA est le moteur de recherche par similarit´e visuelle. La ressource linguistique sert ` a traiter les requˆetes textuelles apparent´ees au domaine tandis que PIRIA est utilis´e pour r´epondre aux requˆetes par images exemples. Comme pour Olive, nous avons choisi de r´ecup´erer les images `a inclure dans le corpus local `a partir de Google Images. Ce moteur assure une bonne couverture des noms propres et permet d’effectuer beaucoup de requˆetes dans un temps limit´e. L’application fonctionnerait de mani`ere tout ` a fait similaire en utilisant des corpus extraits d’autres moteurs. 5.3.2.1

Fonctionnement de Safir

L’utilisateur peut formuler deux types de requˆetes : textuelles et par images exemples. Dans le premier cas, les requˆetes sont transmises au s´electeur de concepts qui v´erifie si

188

CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES

Fig. 5.21 – Architecture d’un syst`eme de recherche d’images de noms de c´el´ebrit´es. Les bases de donn´ees sont repr´esent´ees sous forme de rectangles, les composants actifs par des rectangles arrondis et les requˆetes par des ellipses. elles correspondent ` a des ´el´ements de la structure. Si oui, les requˆetes sont reformul´ees en utilisant des informations relatives `a l’activit´e de la personne et transmises au collecteur d’images. Ce dernier v´erifie si les images associ´ees `a la requˆete courante existent d´ej`a dans le corpus local ou si elles sont a` t´el´echarger `a partir de Google Images. En parall`ele, le s´electeur de concept analyse le voisinage conceptuel de la requˆete initiale afin de formuler des requˆetes proches. La nationalit´e, la liste de personnalit´es associ´ees ou l’activit´e (voir ´eq. 5.5) sont utilis´ees pendant ce processus. Le voisinage conceptuel inclut les noms des personnalit´es consid´er´es comme les plus proches et des requˆetes plus g´en´erales, portant sur des caract´eristiques comme la nationalit´e, le classe parent de la c´el´ebrit´e ou son activit´e. Similairement ` a Olive, les photographies inclues dans le corpus local d’images sont index´ees en utilisant le descripteur LEP de PIRIA (voir la section 2.1.2.2 pour plus de d´etails). Les images sont toutes associ´ees `a des requˆetes contenant les noms de personnalit´es et quelques-unes de leurs caract´eristiques (par exemple, les films et les rˆoles les plus connus pour les acteurs). Toutes les images affich´ees peuvent constituer le point de d´epart d’une recherche par le contenu. Le processus CBIR est limit´e `a un espace conceptuellement coh´erent, incluant les photographies associ´ees `a la mˆeme c´el´ebrit´e. 5.3.2.2

La ressource linguistique

Safir exploite CelebWiki, la structure conceptuelle pour le domaine des personnalit´es cr´e´ee ` a partir de Wikip´edia, d´ecrite en d´etail dans la section 4.3. La ressource linguistique

´ 5.3. SAFIR — RECHERCHE DE NOMS DE PERSONNALITES

189

contient environ 13000 entr´ees pour les acteurs, 6000 pour les chanteurs et 26000 pour les footballeurs et est impl´ement´ee en utilisant le mod`ele de donn´ees d´ecrit en 5.3.1. Afin d’am´eliorer la vitesse de traitement, il est n´ecessaire de r´ealiser un certain nombre de pr´etraitements, comme l’ordonnancement des concepts et de leurs relations. La ressource est exploit´ee afin de reformuler automatiquement les requˆetes des utilisateurs portant sur son contenu et de proposer un r´esum´e pertinent du voisinage conceptuel de la requˆete. 5.3.2.3

Le corpus local d’images

Le t´el´echargement et l’indexation de bas niveau des images demandent un temps de traitement significatif. Afin d’am´eliorer la vitesse d’ex´ecution, nous utilisons un corpus local d’images contenant des photographies des requˆetes qui ont d´ej`a ´et´e formul´ees par les utilisateurs. Ce cache est une copie locale et partielle du corpus Google Images, que l’on utilise comme source de donn´ees pour notre application. 5.3.2.4

Le s´ electeur de concepts

Le s´electeur de concepts est un script Perl qui prend en entr´ee la requˆete de l’utilisateur et la compare au contenu de la ressource linguistique. Si la requˆete peut ˆetre trait´ee en utilisant CelebWiki, deux op´erations principales sont r´ealis´ees : sa reformulation et un processus destin´e ` a extraire un r´esum´e conceptuel de la requˆete. La reformulation implique l’exploitation des connaissances relatives `a chaque type de concept. Elle vise ` a am´eliorer la pr´ecision des r´esultats et `a les pr´esenter de mani`ere structur´ee. L’´etude des fichiers de log (section 3.1) montre que la grande majorit´e des requˆetes pour des images de c´el´ebrit´es porte sur leurs noms pr´ecis et nous nous sommes concentr´es ici sur ce type de reformulation. L’op´eration est adapt´ee `a chaque type de c´el´ebrit´e et comporte une expansion de la requˆete initiale en utilisant des informations relatives `a l’activit´e de chaque personne : – Pour les acteurs, une requˆete sera enrichie en nom + titre film et nom + rˆ ole. Les films (avec les rˆ oles correspondants) les plus repr´esentatifs pour un acteur sont pr´esent´es en priorit´e. – Pour les chanteurs, la reformulation implique l’expansion avec des noms de groupes (nom + album) et des instruments (nom + instrument). – Pour les footballeurs, on ajoute les noms des clubs (nom + club). Rappelons que les informations n´ecessaires au processus de reformulation des requˆetes ne sont pas disponibles pour tous les concepts de la ressource. Afin de g´erer ces manques, le s´electeur de concepts transmet ´egalement la requˆete initiale brute au collecteur d’images. L’expansion des requˆetes est r´ealis´ee afin de r´eduire le risque de trouver des images non pertinentes, partant du principe que la probabilit´e d’attacher deux annotations textuelles erron´ees `a une image est plus faible que celle d’en associer une seule. Le premier r´esultat souhait´e est une augmentation de la pr´ecision des r´eponses. Le second est la possibilit´e de pr´esenter les images de mani`ere structur´ee. Par exemple, la premi`ere page de r´eponses pour Jack Nicholson peut contenir des images de l’acteur dans quelques uns de ses films

190

CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES

les plus repr´esentatifs : Chinatown, One Flew over the Cuckoo’s Nest, The Shining, As Good as it Gets ou The Departed. Un second rˆ ole du s´electeur de concepts est de produire un r´esum´e du voisinage conceptuel de la requˆete utilis´e pour afficher des requˆetes proches. La ressource conceptuelle facilite une pr´esentation structur´ee de ces requˆetes associ´ees selon deux cat´egories : noms proches et requˆetes plus g´en´erales. Le premier groupe est une liste de cinq noms (au maximum) li´es ` a la requˆete courante et ordonn´es en utilisant aussi bien leur proximit´e conceptuelle que leur degr´e de cooccurrence dans le corpus du Web. La deuxi`eme cat´egorie contient des requˆetes plus g´en´erales, formul´ees `a partir des diff´erentes caract´eristiques du mod`ele de donn´ees utilis´ees, comme l’activit´e ou la nationalit´e. Reprenons l’exemple de Jack Nicholson ; la liste des c´el´ebrit´es proches contient : Robert de Niro, Al Pacino ou Leonardo di Caprio. Les requˆetes plus g´en´erales incluent : Actors from The Shining, Actors from As Good as it Gets, Actors on the Hollywood Walk of Fame, Best Actor Academy Award Winners, Best Supporting Actor Academy Award Winner. 5.3.2.5

Le collecteur d’images

La requˆete reformul´ee est transmise au collecteur d’images qui v´erifie s’il s’agit d’un ´el´ement d´ej` a pr´esent dans le corpus local. S’il s’agit d’un nouveau concept, le script utilisera la liste des reformulations pour r´ecup´erer des images `a partir de Google Images. Nous retenons au maximum 60 images pour chaque reformulation. Ces images sont stock´ees dans le corpus local, dans des r´epertoires d´edi´es `a chaque concept. 5.3.2.6

PIRIA

Le moteur d’indexation et de recherche par similarit´e visuelle est utilis´e de mani`ere similaire ` a Olive et nous renvoyons le lecteur `a la sous-section 5.1.2.6 pour une pr´esentation plus d´etaill´ee du module. Nous mentionnons seulement que le descripteur utilis´e ici est le descripteur LEP (couleur et texture) . 5.3.2.7

L’interface de Safir

La figure 5.22 pr´esente l’interface de SAFIR dans le cas d’une requˆete sur l’acteur Robert De Niro. Les principales composantes de l’interface sont : – une barre de recherche textuelle ; – une zone de pr´esentation des images ; – une zone de pr´esentation du voisinage conceptuel. La pr´esentation d’un voisinage conceptuel permet d’actualiser les connaissances de l’utilisateur concernant le nom de l’acteur demand´e et de naviguer utilisant des requˆetes proches. Les termes associ´es ` a une requˆete sont s´epar´es en deux cat´egories, l’une pr´esentant des noms d’acteurs proches et l’autre proposant une s´erie de requˆetes plus g´en´erales.

´ 5.3. SAFIR — RECHERCHE DE NOMS DE PERSONNALITES

191

Fig. 5.22 – Interface de Safir pr´esentant le r´esultat d’une requˆete avec Robert de Niro.

192 5.3.2.8

CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES Exemple d’utilisation

Supposons qu’un utilisateur cherche des images pour Robert De Niro. Le syst`eme retourne en premi`ere page les r´esultats de la figure 5.22. Cette structuration des r´eponses pour Robert De Niro permet ` a l’utilisateur d’avoir une vue temporellement ordonn´ee des images de l’acteur. Toutes les images pr´esent´ees sur une page de r´eponses de Safir peuvent constituer le point de d´epart d’une recherche par le contenu parmi les images de la mˆeme classe. Nous pr´esentons un exemple de recherche par le contenu pour une image repr´esentative pour le film Goodfellas (de Martin Scorsese) avec Robert de Niro dans la figure 5.23.

Fig. 5.23 – Page de r´eponses pour Robert De Niro dans Goodfellas. L’image requˆete est encadr´ee en rouge et les images visuellement similaires `a la requˆete sont pr´esent´ees de mani`ere ordonn´ee. La recherche par similarit´e visuelle est propos´ee uniquement ` a l’int´erieur de groupes d’images repr´esentant des requˆetes sp´ecifiques (ici Robert de Niro dans Goodfellas).

5.3.3

´ Evaluation de Safir

Le mode de fonctionnement de Safir est similaire `a celui d’Olive donc nous n’avons pas r´ep´et´e le test utilisateurs. Nous avons uniquement mesur´e la pr´ecision des r´esultats pour les requˆetes textuelles dans Safir et Google Images afin d’´evaluer l’utilit´e de la

´ 5.3. SAFIR — RECHERCHE DE NOMS DE PERSONNALITES

193

reformulation automatique. Comme pour nos pr´ec´edents tests, nous avons pr´esent´e le texte explicatif suivant en d´ebut de chaque ´evaluation : Imaginez que vous ˆetes en train d’´ecrire un rapport sur l’activit´e d’une personne connue (par exemple, Jack Nicholson) et que vous devez l’illustrer avec des images. Vous trouverez, sur chaque page, le nom de la requˆete et des r´eponses retourn´ees par le moteur de recherche. Cochez la case en dessous de l’image si vous la consid´erez comme ´etant repr´esentative du concept recherch´e (est que vous l’utiliseriez en tant qu’illustration de votre rapport ?). Nous avons ´evalu´e la pr´ecision des 20 premiers r´esultats (P@20) rendus par Safir et Google Images pour 20 noms de footballeurs, acteurs et chanteurs. Le nombre d’images `a ´evaluer est approximativement celui pr´esent´e sur la premi`ere page de r´eponses des moteurs de recherche d’images.

Fig. 5.24 – Comparaison de la pr´ecision des r´esultats pour Safir et Google Images pour chaque utilisateur et en moyenne. Les r´esultats de la figure 5.24 indiquent que la reformulation automatique n’am´eliore pas la qualit´e des r´esultats. Les r´eponses de Google Images sont plus pr´ecises que celles propos´ees par Safir (68% contre 60%) et, `a l’exception du premier utilisateur U1, la pr´ecision moyenne est plus importante pour Google Images. Des diff´erences significatives sont `a signaler entre la pr´ecision ´evalu´ee par chaque utilisateur. Par exemple pour le cinqui`eme participant, la pr´ecision atteint 0,29 pour Safir et 0,35 pour Google Images tandis que pour le troisi`eme ´evaluateur les valeurs correspondantes sont 0,75 et 0,84. Nous avons calcul´e les moyennes par type de c´el´ebrit´e. Pour les footballeurs, la pr´ecision des r´esultats (MOYENNE FOOT) dans Safir d´epasse celle de Googles Images

194

CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES

de 4%. Pour les acteurs (MOYENNE ACT) et les chanteurs ((MOYENNE MUS)) les pr´ecisions des r´esultats dans Google Images sont nettement sup´erieures (respectivement une diff´erence de 12% et15%). Les r´esultats pr´esent´es dans cette section indiquent que la reformulation automatique des requˆetes n’est pas efficace dans le cas des c´el´ebrit´es. Ce r´esultat peut s’expliquer par le fait qu’une image de c´el´ebrit´e est souvent entour´ee d’un grand nombre de noms. La reformulation choisie peut ´egalement expliquer le r´esultat obtenu. Pour les chanteurs, nous avons utilis´e les noms d’albums pour compl´eter les requˆetes et il semble que ce choix n’est pas appropri´e. Il reste donc `a trouver d’autres informations pouvant am´eliorer les performances actuelles de Safir. Il est par cons´equent pr´ef´erable d’utiliser les images fournies par Google Images pour illustrer les requˆetes avec des noms de c´el´ebrit´es. Par rapport `a Google Images, les principales contributions de Safir sont la proposition d’un voisinage conceptuel de la requˆete permettant ` a l’utilisateur du syst`eme d’affiner ou de g´en´eraliser sa recherche et l’introduction d’une fonctionnalit´e CBIR.

5.4

Participation ` a la campagne d’´ evaluation ImageCLEF

ImageCLEF4 est une campagne d’´evaluation internationale sur la recherche d’images dans des documents multilingues, proposant plusieurs tˆaches d’´evaluation, comme la recherche d’images m´edicales, l’annotation de concepts visuels ou la recherche d’images dans un corpus d’images de tourisme. En 2008, les organisateurs ont introduit une tˆache de recherche d’images de Wikip´edia5 en se basant sur la campagne d’´evaluation INEX Multimedia (2005-2006). Le but de cette ´evaluation est de tester des m´ethodes de recherche d’images sur un corpus h´et´erog`ene, avec des requˆetes diversifi´ees. Le corpus contient environ 150000 images de l’encyclop´edie, ainsi que les informations textuelles leurs ´etant associ´ees dans Wikip´edia (titre et description textuelle). Les requˆetes ont ´et´e propos´ees par les ´equipes participantes et contenaient obligatoirement une partie textuelle. Ces requˆetes pouvaient contenir une image exemple illustrative et / ou des concepts visuels aidant la recherche (par exemple : sc`ene d’int´erieur / ext´erieur, pr´esence d’un visage dans l’image). La figure 5.25 illustre une requˆete contenant du texte, une image exemple et un concept visuel. La requˆete pr´esent´ee (cities by night) contient deux concepts, city et night, un concept visuel(building) et une image exemple. Pour aider l’´evaluation, l’auteur d´ecrit plus en d´etail sa requˆete dans le champ intitul´e /textitnarrative. Cette description d´etaill´ee n’´etait pas disponible pour les participants. Elle est disponible seulement lors de l’´evaluation. Les participants pouvaient soumettre un nombre illimit´e de « runs » en combinant les param`etres suivants : – run automatique ou manuel : Pour les approches automatiques, aucune intervention humaine n’est tol´er´ee dans le processus de recherche ; 4 ImageCLEF — http ://imageclef.org/ — a d´ebut´e en 2003 comme campagne sp´ecifique de CLEF (Cross Language Evaluation Forum). La campagne est annuelle. 5 http ://imageclef.org/2008/wikipedia

` LA CAMPAGNE D’EVALUATION ´ 5.4. PARTICIPATION A IMAGECLEF

195

Fig. 5.25 – Exemple de la requˆete « cities by night » pour la tˆache Wikip´edia d’ImageCLEF 2008. – utilisation de l’expansion des requˆetes et du retour de pertinence ; – type de recherche : CBIR, textuelle, par concepts visuels ; Nous avons soumis deux ensembles de r´esultats (deux runs nomm´es ceaTxt et ceaTxtCon) `a partir d’approches automatiques et en utilisant une expansion des requˆetes. La diff´erence entre les deux soumissions est que dans la premi`ere (ceaTxt) la recherche ´etait purement textuelle alors que dans la deuxi`eme (ceaTxtCon) nous avons combin´e une recherche textuelle et une recherche bas´ee sur des concepts visuels. Pour ceaTxtCon, nous avons utilis´e le syst`eme de d´etection de concepts visuels d´ecrit dans [91] permettant de classer les images en fonction des attributs int´erieur / ext´erieur, image / dessin / carte ou pr´esence / absence de visage. Les requˆetes contenaient un ou plusieurs concepts, avec toutefois une forte repr´esentation des requˆetes mono-conceptuelles, par exemple : Eiffel Tower, Golden Gate Bridge, hunting dog ou beachvolley. Des exemples de requˆetes plus complexes ´etaient : red Ferrari, portrait of Hu Jintao, bridges by night ou female beachvolley players. L’´el´ement cl´e de notre approche est l’expansion des requˆetes. Nous avons isol´e les noms dans les requˆetes afin d’extraire un voisinage conceptuel exploitable pour reformuler les requˆetes. Pour certains noms propres, comme Eiffel Tower, nous avons extrait les traductions dans d’autres langues (Tour Eiffel, Eiffelturm etc.). Pour les termes plus g´en´eraux, comme hunting dog, Ferrari ou bridge, nous avons construit des listes d’hyponymes `a partir de Wikip´edia et de WordNet. Les ´el´ements du voisinage conceptuel ont ensuite ´et´e ordonn´es en utilisant une mesure de pertinence qui combine le poids de l’´el´ement dans Wikip´edia et la fr´equence d’apparition sur le Web. Le poids dans Wikip´edia est d´etermin´e par la longueur de l’article afin de favoriser les ´el´ements correctement d´ecrits de mani`ere d´etaill´ee dans l’encyclop´edie (suppos´es importants). La fr´equence sur le Web est obtenue en lan¸cant une requˆete avec le terme initial et chaque hyponyme. Nous avons aussi ´etabli une liste de concepts visuels, contenant des termes comme portrait, night, map, sky etc. qui n’ont pas ´et´e reformul´es mais qui ont ´et´e utilis´es pour r´eordonner les ´el´ements dans la recherche combinant le texte et les concepts visuels (ceaTxtCon). Notre strat´egie de recherche est focalis´ee sur le traitement des noms inclus dans les requˆetes, pour lesquels, nous avons d´efini des voisinages conceptuels `a partir de Wikip´edia

196

CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES

et de WordNet. Dans le cas des requˆetes contenant un seul concept, l’expansion est similaire ` a celle d´ecrite dans Olive et est bas´ee sur l’utilisation des hyponymes pour les concepts g´en´eraux et des synonymes pour les concepts sp´ecifiques. Par exemple, une requˆete avec hunting dog sera reformul´ee en hunting dog + afghan hound mais aussi en afghan hound. Dans le cas des requˆetes plus complexes, la strat´egie de reformulation d´epend du contenu de la requˆete. D’une mani`ere g´en´erale, on favorise respectivement : 1. les requˆetes contenant tous les termes initiaux et des hyponymes, 2. les requˆetes initiales, 3. des parties de la requˆete initiale et des hyponymes, 4. uniquement des hyponymes. Dans le cas o` u un adjectif est rattach´e `a un nom, comme dans red Ferrari, l’expansion de la requˆete est centr´ee sur le deuxi`eme terme. Nous obtenons alors : red + Ferrari + 250 GTO, red + Ferrari, red + 250 GTO et 250 GTO. Si un concept visuel apparaˆıt dans la requˆete, comme dans bridges by night, nous reformulons la requˆete en bridge(s) + night + Golden Gate Bridge, bridge(s) + night, night + Golden Gate Bridge, Golden Gate Bridge. La figure 5.26 pr´esente la premi`ere partie du classement de la tˆache Wikip´edia de ImageCLEF 2008.

Fig. 5.26 – Classement des « runs » de la tˆache Wikip´edia d’ImageCLEF en fonction de la MAP (mean average precision). Les soumissions du CEA se situent `a la deuxi`eme et quatri`eme place. Les deux strat´egies de recherche mises en place se sont av´er´ees tr`es comp´etitives. La recherche combinant le texte et les concepts visuels (ceaTxtCon) a ´et´e class´ee seconde et la recherche purement textuelle (ceaTxt) a ´et´e class´ee quatri`eme (sur 77 runs soumis par 12 ´equipes). Les r´esultats obtenus montrent que l’utilisation d’une expansion des requˆetes

5.5. COMMENTAIRES

197

bas´ee sur l’utilisation de voisinages conceptuels permet d’am´eliorer les performances des syst`emes de recherche d’images. L’ajout d’une d´etection de concepts visuels, en plus de l’expansion des requˆetes, am´eliore les r´esultats. Pour cette campagne, nous nous sommes focalis´es sur l’obtention d’une bonne pr´ecision des r´esultats et nos deux soumissions arrivent en deuxi`eme et troisi`eme positions en se basant sur la P@5 et la P@10 (0,5467 et 0,4653 pour ceaTxtCon et 0,5200 et 0,4427 pour ceaTxt). Les r´esultats obtenus prouvent que notre approche est efficace et qu’elle peut ˆetre ´etendue `a d’autres domaines que ceux trait´es dans le cadre de cette th`ese, `a condition de cr´eer ou d’adapter des structures linguistiques appropri´ees. Une autre conclusion importante de la campagne ImageCLEF 2008 est que notre approche s’applique aussi `a des requˆetes contenant plus d’un concept et permet donc d’assurer une couverture importante des requˆetes exprim´ees par les utilisateurs.

5.5

Commentaires sur l’utilisation d’autres techniques par le contenu

Pour chacun des trois syst`emes pr´esent´es, Olive, ThemExplorer et Safir nous avons pr´esent´e une approche utilisant des techniques classiques d’indexation et de recherche par le contenu. Nous avons n´eanmoins eu l’occasion d’exp´erimenter d’autres techniques faisant intervenir une analyse du contenu des images.

5.5.1

Filtrage et classification de la nature des images par apprentissage supervis´ e

Le module PIRIA offre la possibilit´e de classer les images selon plusieurs attributs li´es `a la nature de l’image (clipart, photographie couleur, photographie noir et blanc, reproduction artistique) ou ` a son contexte (image int´erieure/ext´erieure, jour / nuit, environnement urbain / naturel). Cette classification [91] est bas´ee sur un apprentissage supervis´e utilisant des Support Vector Machine (SVM, via la librairie en ligne LibSVM) et un ensemble de descripteurs de bas niveau (couleur, texture, forme). Cette approche a obtenu de bons r´esultats ` a la campagne d’´evaluation ImagEVAL6 . PIRIA propose aussi un filtrage des images ` a partir de la d´etection et la localisation de visages bas´ees sur la tr`es performante technique AdaBoost [137]. Dans un premier temps, nous avions utilis´e la classification des images selon leur nature pour filtrer et ´eliminer les cliparts des r´esultats du syst`eme Olive. Les r´esultats sont pertinents mais nous n’avons pas pu int´egrer dans les temps cette fonctionnalit´e dans le syst`eme op´erationnel final pour des raisons de temps de traitement. Ceci repr´esente n´eanmoins une perspective d’am´elioration `a court terme tr`es int´eressante. La classification des images en fonction de leur contexte est une fonctionnalit´e qui peut se r´ev´eler importante pour le syst`eme ThemExplorer pour diff´erencier et donc structurer les images repr´esentant l’ext´erieur ou l’int´erieur d’un monument ou d’un mus´ee 6

ImagEVAL — http ://www.imageval.org/e publications.html

198

CHAPITRE 5. APPLICATIONS DE RECHERCHE D’IMAGES

(par exemple Notre Dame de Paris ou Le Louvre), d’autant que les niveaux de performance de la classification int´erieur / ext´erieur sont particuli`erement ´elev´es (g´en´eralement sup´erieur ` a 90% de bonnes classifications dans l’´etat de l’art). Le temps nous a manqu´e pour d´epasser le stade de simples tests et int´egrer compl`etement cette fonctionnalit´e au syst`eme ThemExplorer. Enfin, la d´etection de visages par AdaBoost permettrait un filtrage efficace des r´esultats de Safir. Rappelons que cette fonctionnalit´e est devenue relativement classique dans les moteurs de recherche actuels comme Exalead ou Google Images.

5.5.2

Classification non-supervis´ ee d’images (clustering)

Le clustering d’images nous apparaˆıt comme une alternative tr`es pertinente — ou tout du moins fortement compl´ementaire — `a la recherche par le contenu `a partir d’une image exemple. En effet, le fonctionnement classique d’une recherche CBIR part du principe que l’utilisateur trouve assez rapidement une « image requˆete ». Or, dans beaucoup de cas, l’utilisateur souhaite simplement d´ecouvrir rapidement les diff´erents types de repr´esentations de sa requˆete, sans connaˆıtre et donc favoriser a priori une repr´esentation bien pr´ecise. Le clustering d’images permet d’offrir `a l’utilisateur un ensemble restreint mais repr´esentatif de la diversit´e des images r´epondant `a sa requˆete (on parle dans certains articles r´ecents d’un ensemble d’images canoniques). Nous avons essay´e une technique de clustering d’images d´evelopp´ee par le CEA LIST [49] bas´ee sur les Shared Nearest Neighbors (SNN) et test´ee en 2008 sur trois sous-corpus de Flickr. Les r´esultats sont particuli`erement prometteurs mais le niveau de maturit´e de la technologie (notamment l’optimisation des param`etres en fonction du type de requˆete et l’am´elioration des temps de traitement via une parall´elisation du SNN) ne nous ont pas permis d’int´egrer ce type de fonctionnalit´e dans Olive et ThemExplorer. N´eanmoins, les retours utilisateurs et les travaux r´ecents de la communaut´e sur cette question [74] nous ont persuad´es qu’une repr´esentation sous forme de clusters visuellement homog`enes associ´ee ` a notre repr´esentation conceptuellement structur´ee dans Olive ou ThemExplorer serait particuli`erement b´en´efique `a l’am´elioration des syst`emes. Dans le cas de ThemExplorer, la majorit´e de ces pistes compl´ementaires de recherche sera impl´ement´ee dans le cadre du projet ANR (Contenu et Interactions) GEORAMA regroupant le CEA LIST, Exalead et Telecom Bretagne.

Chapitre 6

Conclusions et perspectives Nous avons pr´esent´e une nouvelle approche de la recherche d’images sur Internet en alliant une r´eflexion th´eorique et en proposant un ensemble d’applications concr`etes. Dans le chapitre 2, nous avons d´ecrit les principaux travaux actuels relatifs `a notre approche. Puis, dans le chapitre 3, nous avons d´etaill´e les principales notions th´eoriques appuyant notre d´emarche comme et ´etudes utilisateurs, les structures linguistiques, la figurabilit´e et la similarit´e entre les images. Le quatri`eme chapitre a ´et´e d´edi´e `a l’introduction de m´ethodes d’adaptation et de construction de structures linguistiques `a large ´echelle pour la recherche d’images. Dans le cinqui`eme chapitre, nous avons d´ecrit une application de l’approche propos´ee `a trois domaines conceptuels d’int´erˆet : les noms communs, les noms g´eographiques et les noms de personnalit´es. Avant de conclure, nous d´etaillons les principales contributions apport´ees par notre travail, les limites de notre approche et les perspectives ouvertes par cette th`ese.

6.1

Contributions

Le travail propos´e dans cette th`ese se situe `a l’intersection de plusieurs domaines d’´etude comme l’extraction et la structuration de connaissances, les ´etudes des usages et la recherche d’images.

6.1.1

Structuration automatique de connaissances

La mise en place de syst`emes de recherche d’information s´emantiques telle qu’envisag´ee dans cette th`ese s’appuie sur l’exploitation de ressources conceptuelles `a grande ´echelle, dont la construction manuelle est une op´eration laborieuse. Comme nous l’avons montr´e, il existe sur Internet une masse importante de connaissances d´ej`a structur´ees ou semi-structur´ees mais elles doivent ˆetre adapt´ees et enrichies pour ˆetre utilisables par les applications de recherche d’images. Pour augmenter la couverture des ressources existantes ou en cr´eer des nouvelles, nous avons impl´ement´e des m´ethodes d’extraction automatique de connaissances ` a partir du Web. 199

200

CHAPITRE 6. CONCLUSIONS ET PERSPECTIVES

Le principal d´efi relev´e est de constituer des ressources avec une bonne couverture et assurant une bonne qualit´e des informations structur´ees. Afin d’atteindre ce but, nous privil´egions l’utilisation de sources de donn´ees semi-structur´ees, comme Wikip´edia ou Panoramio, dont l’exploitation est plus ais´ee que celle des corpus textuels non-structur´es. Les sources semi-structur´ees ne contiennent pas toute l’information n´ecessaire et nous avons ´egalement exploit´e les r´eponses des moteurs de recherche d’information du Web pour compl´eter les structures cr´e´ees. – Pour les noms communs, nous avons augment´e le contenu de WordNet, proposant un classement des synsets bas´e sur les propri´et´es des concepts et sur des statistiques issues du Web. Le classement des concepts facilite l’utilisation du r´eseau lexical en recherche d’images, permettant de classer les termes en fonction de leur pertinence. La structure r´esultante a ´et´e compar´ee `a celle exploit´ee dans le moteur Ask en analysant les requˆetes consid´er´ees comme proches du concept initial dans les deux syst`emes. Les r´esultats de l’exp´erience montrent que WordNet permet de proposer des requˆetes plus adapt´ees que celles issues de la base de connaissance d’Ask. – Dans le cas des noms g´eographiques, nous avons mis en place une m´ethodologie plus complexe, permettant aussi bien l’adaptation d’une ressource existante que son enrichissement automatique. Nous avons ´etendu le mod`ele minimal des gazetteers [52], proposant en plus du nom de l’objet, de sa classe parent et de son positionnement, un classement par ordre de pertinence. La m´ethode mise en place permet d’acqu´erir automatiquement ces quatre informations essentielles `a partir de sources h´et´erog`enes d’information. Comme pour WordNet, l’ajout d’un ordonnancement par pertinence ouvre la voie `a une utilisation efficace des bases de donn´ees g´eographiques en recherche d’images. La ressource constitu´ee a ´et´e compar´ee ` a Tagmaps [111], une autre tentative de structuration automatique de connaissances g´eographiques ` a partir du Web dont nous avons connaissance. Les r´esultats obtenus montrent que notre structure est plus riche et assure une meilleure qualit´e des connaissances inclues. – Pour les noms de personnalit´es, nous avons analys´e les pages Wikip´edia correspondantes et nous avons extrait des informations utiles en recherche d’images, comme une liste de noms associ´es, des donn´ees biographiques et des informations relatives a l’activit´e publique de la personne. Un classement par ordre d’importance des ` concepts et de leurs relations est ´egalement propos´e. Similairement `a WordNet, la structure obtenue a ´et´e compar´ee avec celle utilis´ee dans Ask et les r´esultats de la comparaison montrent que la qualit´e des requˆetes proches est similaire dans les deux structures mais que la couverture de notre ressource est meilleure.

6.1.2

Recherche d’images conceptuelle

Pour la recherche d’images sur Internet, les moteurs de recherche d’images actuels s’appuient sur l’utilisation classique d’un alignement de chaˆınes de caract`eres. Aucun des grands moteurs actuels n’utilise le contenu des images `a l’exception notable et tr`es r´ecente (annonc´e en avril 2008) de Google Images pour l’am´elioration du tri des r´eponses (Visual Rank) [65]. Nous proposons une approche bas´ee sur l’exploitation de structures

6.1. CONTRIBUTIONS

201

linguistiques ` a large ´echelle et sur l’utilisation d’une recherche par le contenu. Une architecture g´en´erique, int´egrant des ressources s´emantiques et un moteur de recherche par similarit´e visuelle, est d’abord d´ecrite puis appliqu´ee `a nos trois domaines d’applications. Les aspects suivants de la recherche d’images sont am´elior´es par l’introduction de ressources s´emantiques dans les architectures d´edi´ees : – L’interactivit´e — les relations conceptuelles servent `a proposer plus de choix `a l’utilisateur. Dans les cas des noms communs et des personnalit´es, cet enrichissement se traduit par la proposition d’un r´esum´e pertinent du voisinage conceptuel de la requˆete. Pour les noms g´eographiques, nous introduisons la possibilit´e de restreindre la recherche ` a des r´egions conceptuel du corpus int´eressantes pour l’utilisateur. – La structuration des r´esultats — les r´esultats pr´esent´es par les moteurs actuels de recherche d’images sont organis´es en se basant sur un l’alignement entre la requˆete introduite par l’utilisateur et l’index textuel associ´e `a l’image, ainsi que sur un retour de pertinence implicite. Les relations contenues dans les structures linguistiques facilitent une pr´esentation conceptuelle des r´esultats, qui s’ajoute `a la m´ethode actuelle de classement des images dans les moteurs de recherche. Dans le cas des noms communs, la structuration se traduit par une pr´esentation des r´esultats en utilisant des sous-concepts. Pour les personnalit´es, nous introduisons pr´esentation chronologique des images. Nous avons fait le choix de pr´esenter la structure des r´esultats de mani`ere explicite mais il est ´egalement envisageable de ne pas renseigner l’utilisateur sur l’appartenance des r´eponses `a des classes plus pr´ecises que la requˆete initiale. – La pr´ecision des r´esultats — la reformulation automatique des requˆetes en ajoutant leurs sous-concepts associ´es, d´etermine une am´elioration de la pertinence des r´eponses du syst`eme. Ceci s’explique par le fait que la probabilit´e d’annoter une image avec deux termes non-pertinents est plus faible que celle de lui attribuer un seul mot non-pertinent. Certes, l’introduction des structures linguistiques rend l’architecture du syst`eme plus complexe mais cela n’a aucune incidence quant `a l’interaction entre l’utilisateur et le syst`eme. Au contraire, les ´evaluations utilisateur montrent que l’interaction avec les applications pr´esent´ees dans cette th`ese reste intuitive et permet une meilleure exploration de l’espace de recherche compar´e aux syst`emes existants.

6.1.3

Recherche d’images par le contenu visuel

Malgr´e des efforts de recherche soutenus [84], les techniques de traitement d’images sont peu ou pas utilis´ees par les moteurs actuels de recherche d’images. Deux facteurs principaux expliquent cela : – La recherche par le contenu visuel rend des r´esultats inadapt´es aux attentes des utilisateurs quand elle est appliqu´ee `a des corpus diversifi´es, comme les images d’Internet. – Les temps de calcul n´ecessaires ` a la recherche par le contenu visuel sont significativement plus importants que ceux associ´es `a la recherche par mots-clef.

202

CHAPITRE 6. CONCLUSIONS ET PERSPECTIVES

Nous avons pr´esent´e une solution simple et efficace pour introduire une fonctionnalit´e de recherche par le contenu dans les syst`emes de recherche d’images en limitant l’espace de recherche ` a des r´egions conceptuellement coh´erentes du corpus. Dans le cas des noms communs, la reformulation automatique restreint la recherche `a des concepts sp´ecifiques. Pour les noms g´eographiques et les noms de personnalit´es, les utilisateurs visualisent uniquement des concepts pr´ecis. Les termes sp´ecifiques ont une apparence g´en´eralement stable et la comparaison entre les images repr´esentatives met en valeur les avantages de la similarit´e des caract´eristiques de bas niveau. Aussi, la premi`ere difficult´e cit´ee ci-dessus est r´esolue par une meilleure prise en compte de la notion de similarit´e entre les images, avec une description simultan´ee des concepts repr´esent´es et des caract´eristiques de bas niveau de l’image. La restriction de l’espace de recherche par le contenu s’accompagne d’une r´eduction du temps de traitement ` a un niveau acceptable par l’utilisateur (quelques secondes). Dans le cadre de cette th`ese, nous avons essay´e `a chaque fois d’appliquer nos hypoth`eses th´eoriques par l’interm´ediaire de syst`emes op´erationnels (modules logiciels et interfaces). Cette approche s’est traduite par la cr´eation de ressources linguistiques adapt´ees ` a la recherche d’images mais utilisables dans le cadre d’autres applications et par la cr´eation d’une plateforme de recherche d’images fonctionnelle, capable de g´erer des requˆetes portant sur les noms communs, les noms g´eographiques et les noms de personnalit´es.

6.2

Limites et perspectives

Suite ` a ce travail doctoral, il existe `a notre sens plusieurs directions qu’il serait possible de suivre, combinant, tout comme la th`ese, une dimension th´eorique et une dimension applicative. Nous pr´esentons ici quelques limitations de notre travail, ainsi que des solutions envisag´ees pour d´epasser ces limitations. Pr´ecisons que le domaine d’application le plus prommeteur parmi les trois analys´es dans le cadre de notre th`ese nous semble ˆetre celui des objets g´eographiques. Tout naturellement, il sera au centre de nos pr´eoccupations futures.

6.2.1

Incompl´ etude des structures conceptuelles

Les structures linguistiques sont intrins`equement incompl`etes car elles contiennent un nombre limit´e de concepts et de relations entre ces concepts. Cela ´etant, nous avons essay´e de mod´eliser les domaines conceptuels trait´es de mani`ere `a inclure les connaissances les plus utiles pour les utilisateurs. Une ´etude initiale des pratiques associ´ees aux moteurs de recherche d’images permet de d´eceler les domaines conceptuels les plus demand´es et d’orienter le travail de recherche. Nous avons suivi cette d´emarche et propos´e une plateforme de recherche d’images traitant des requˆetes appartenant ` a des r´egions conceptuelles bien repr´esent´ees dans l’ensemble des requˆetes. Il serait cependant n´ecessaire de continuer `a d´evelopper des structures similaires pour d’autres domaines bien repr´esent´es dans les fichiers de log, comme les

6.2. LIMITES ET PERSPECTIVES

203

noms de v´ehicules ou les personnages d’oeuvres artistiques. Pour chaque domaine, nous devons s´electionner les propri´et´es les plus repr´esentatives, aussi bien conceptuellement que visuellement, et nous devons essayer de les renseigner de la mani`ere la plus compl`ete possible. Une autre voie int´eressante ` a suivre concerne la cr´eation de structures conceptuelles multilingues. Nous avons travaill´e sur des ressources en anglais mais les requˆetes exprim´ees sur le Web appartiennent ` a une grande vari´et´e de langues. Dans le cas de la construction de ressources align´ees, il est possible d’enrichir les r´eponses du moteur avec des r´esultats en d’autres langues car les repr´esentations photographiques sont g´en´eralement ind´ependantes de la langue de la requˆete. L’Internet est un environnement hautement dynamique dans lequel les requˆetes des utilisateurs et les informations ` a indexer et `a organiser ´evoluent consid´erablement au fil du temps. Aussi, les structures conceptuelles doivent ˆetre remises `a jour p´eriodiquement pour suivre au mieux l’´evolution des pratiques et des connaissances.

6.2.2

Traitement des requˆ etes complexes

Dans le cadre de cette th`ese, nous traitons principalement des requˆetes mono-conceptuelles qui constituent une partie importante de l’espace de requˆetes sur Internet. Un traitement des requˆetes plus complexes, dans le cadre (limit´e) d’ImageCLEF, est ´egalement mis en place. Il nous parait important de continuer cet effort en explorant les modalit´es d’extension de notre approche ` a des requˆetes plus complexes dans un cas g´en´eral. La reformulation des requˆetes form´ees de plusieurs termes pourrait enrichir les r´esultats mais la tˆache n’est pas triviale puisqu’il n’est pas ais´e de d´eterminer quels concepts doivent ˆetre reformul´es et comment. Avec la croissance du nombre de composants d’une requˆete, le nombre de reformulations possibles devient vite tr`es cons´equent et il faut ordonner ces reformulations. Pour les requˆetes complexes, nous nous limitons simplement `a proposer une am´elioration simple `a mettre en œuvre dans ces cas — la proposition d’une recherche par le contenu parmi les r´eponses ` a ces requˆetes. L’utilisation de plusieurs termes dans une requˆete d´etermine souvent des classes de r´eponses visuellement coh´erentes (prenons l’exemple de black dog ou de cactus in the desert) et rend la recherche par similarit´e visuelle utile.

6.2.3

Qualit´ e des r´ esultats

Nous avons d´ecrit plusieurs tests ´evaluant la qualit´e des r´esultats fournis par les moteurs actuels de recherche d’images et les r´esultats issus d’une reformulation automatique des requˆetes. Nous avons montr´e que les performances varient en fonction du domaine conceptuel. Pour am´eliorer la qualit´e des r´eponses, il faudrait ´etudier des m´ethodes d’am´elioration de la pr´ecision en tenant compte d’indices de confiances appliqu´es aux sites en fonction du domaine conceptuel de la requˆete. Par exemple, dans le cas des c´el´ebrit´es, il serait utile de mettre en avant les photographies provenant de sites

204

CHAPITRE 6. CONCLUSIONS ET PERSPECTIVES

sp´ecialis´es comme IMDB1 ou ViewImages2 dont on connaˆıt la qualit´e des images. Dans cette th`ese, nous favorisons une pr´esentation conceptuellement structur´ee des r´eponses par rapport ` a une pr´esentation non-structur´ee mais sans que cela soit appliqu´ee au niveau du contenu visuel des images. Aussi, il faudrait aller plus loin et ajouter par exemple des m´ethodes de clustering d’images afin de proposer des r´esultats plus diversifi´es ` a l’utilisateur.

6.2.4

Structuration automatique d’une ressource g´ eographique

La structure conceptuelle d´ecrivant le domaine g´eographique est actuellement bas´ee sur l’exploitation de trois sources principales d’information : Geonames, Wikip´edia en anglais et Panoramio. Le processus d’extraction peut assez facilement ˆetre adapt´e ` a d’autres sources d’information, comme des versions de Wikip´edia en d’autres langues ou Flickr. Il existe un nombre important d’objets qui ne sont pas pas g´eo-r´ef´erenc´es dans la version anglaise de Wikip´edia mais qui le sont dans d’autres langues. L’utilisation de ces nouvelles sources d’information engendrera une meilleure couverture de la ressource obtenue. Flickr contient environ 10 fois plus d’images g´eo-r´ef´erenc´ees que Panoramio et son inclusion parmi les sources d’information d´eterminera ´egalement une meilleure couverture de la ressource, ainsi qu’un classement am´elior´e des objets g´eographiques. Nous extrayons actuellement uniquement le nom, les coordonn´ees et le type des objets d´ecrits par des pages Wikip´edia g´eo-localis´ees. Certaines de ces pages contiennent ´egalement d’autres informations int´eressantes comme : les r´egions englobant l’objet d´ecrit, la population et la surface dans le cas des entit´es administratives, des photographies illustratives. Toutes ces informations peuvent ˆetre extraites afin d’enrichir la structure du th´esaurus.

6.2.5

Annotation automatique d’images g´ eo-r´ ef´ erenc´ ees

Nous avons d´ecrit l’utilisation d’un th´esaurus g´eographique en recherche d’images g´eo-localis´ees. Il est ´egalement possible d’exploiter ce type de ressource pour l’annotation automatique des photographies du mˆeme type et nous explorons actuellement cette piste de recherche. La principale difficult´e en annotation automatique des images de corpus vari´es regarde la grande diversit´e du contenu. Il n’existe pas actuellement des m´ethodes de classification automatique rendant des r´esultats raisonnables si on s’attaque `a des espaces contenant des milliers (ou plus) d’objets. Il est donc obligatoire de proposer une r´eduction de la r´egion du corpus recherch´ee avant de proc´eder `a une classification. Dans le cas des images g´eo-r´ef´erenc´ees, cette r´eduction est envisageable en utilisant les coordonn´ees de la photographie (il ne sert pas `a grande chose de comparer une image prise pr`es de la Tour Eiffel ` a des objets de New York ou Tokyo pour tenter une classification). La localisation de l’espace de recherche r´eduit drastiquement la complexit´e du probl`eme, le rendant traitable avec des m´ethodes de classification existantes. 1 2

http ://imdb.com http ://viewimages.com

6.2. LIMITES ET PERSPECTIVES

205

Il est certes n´ecessaire de se constituer des bases de r´ef´erence afin de pouvoir classifier des nouvelles photographies. Des corpus comme Panoramio et Flickr sont aussi bien utilisables comme base de r´ef´erence pour la classification que pour la recherche d’images `a condition que l’objet en question soit assez bien repr´esent´e dans le corpus. De plus, la proc´edure de v´erification manuelle des images de Panoramio permet d’enlever la plupart du bruit et on peut utiliser ces photographies afin d’enrichir la base de r´ef´erence avec des images obtenues ` a partir de moteurs de recherche d’images g´en´eralistes. Deux cas d’utilisation sont envisag´es : celui des appareils photographies permettant une localisation directe des images et celui des appareils n’incorporant pas cette fonction. Dans le premier cas, le probl`eme est plus facile car l’image est bien localis´ee. Par cons´equent, nous pouvons savoir assez pr´ecis´ement quels sont les objets connus autour de ses coordonn´ees et donc les annotations possibles. Dans la seconde situation, on peut imaginer une interface permettant ` a l’utilisateur de situer sur une carte des r´epertoires comme « Photographies de vacances de Paris ». Ensuite le syst`eme comparera ces images aux objets saillants dans Paris, essayant d’attribuer des ´etiquettes aux images dans le r´epertoire.

6.2.6

Plateforme de tourisme virtuel interactive

Les applications de e-tourisme existantes, comme TripAdivsor, Schmap3 ou encore Google Earth, structurent bien la partie commerciale de leur offre mais proposent, au mieux, une organisation assez rudimentaire des lieux d’int´erˆet, prenant assez peu en compte les pr´ef´erences de l’utilisateur. Il est par exemple impossible actuellement d’introduire les requˆetes suivantes : – J’aimerais aller en Roumanie, y rester pendant une semaine et visiter des endroits repr´esentatifs pour l’architecture r´eligieuse du pays, ainsi que des mus´ees d’histoire et des chˆ ateaux. – J’aimerais visiter les ´eglises baroques de Paris en une journ´ee. Proposez moi un itin´eraire sachant que je veux manger marocain ` a midi et indien le soir. Je ne veux pas d´epenser plus de 20 euros par repas. – Je suis ` a Augsburg, j’ai trois heures avant de partir a ` l’a´eroport — proposez moi un circuit incluant les principales attractions touristiques de la ville. L’utilisation d’un th´esaurus g´eographique — enrichi avec des informations commerciales —, associ´ee ` a un syst`eme de cartes, tel que Google Maps , permettrait de r´epondre `a ce types de questions et de proposer des itin´eraires adapt´es aux pr´ef´erences exprim´es par l’utilisateur. Avec l’essor des appareils g´eo-localis´es, il est ´egalement possible de guider l’utilisateur pendant son excursion et de modifier les itin´eraires en temps r´eel. Le syst`eme peut int´egrer un outil comme ThemExplorer afin de proposer des « previews » des itin´eraires sugg´er´es, permettant ` a l’utilisateur de d´efinir plus pr´ecis´ement ce qu’il veut vraiment visiter. Cet outil de tourisme virtuel interactif peut ˆetre vu comme un service autonome ou comme un module int´egr´e `a un service plus large, proposant aussi des vols et des h´ebergements. Nous pensons qu’il sera plus utile dans le dernier cas et 3

http ://schmap.com

206

CHAPITRE 6. CONCLUSIONS ET PERSPECTIVES

permettra ` a la plateforme l’int´egrant de se d´emarquer par rapport `a d’autres applications existantes. Comme indiqu´e ` a la fin du chapitre pr´ec´edent, l’acceptation du projet ANR GEORAMA nous permet de centrer notre recherche future sur le domaine g´eographique. Les principaux objectifs du projet sont : l’am´elioration de la qualit´e et de la couverture du th´esaurus g´eographique mis en place, l’ach´evement du travail sur l’annotation automatique d’images d’objets g´eographiques et l’impl´ementation d’un prototype de la plateforme de tourisme virtuel d´ecrite ci-dessus.

Chapitre 7

Liste des publications Voici une liste des publications co-´ecrites au cours de cette th`ese.

7.1

Chapitres d’ouvrages

– Adrian Popescu, Gregory Grefenstette, Pierre-Alain Mo¨ellic. Improving Image Retrieval Using Semantic Resources, Dans Advances in Semantic Media Adaptation and Personalization, Springer Series in Computational Intelligence, 2008.

7.2 7.2.1 7.2.1.1

Conf´ erences Conf´ erences internationales Pr´ esentations orales

– Adrian Popescu, Gregory Grefenstette, Pierre-Alain Mo¨ellic. Gazetiki : Automatic Creation of a Geographical Gazetteer, Proceedings of JCDL 2008 , June 16 - 20, Pittsburgh, USA. – Adrian Popescu, Pierre-Alain Mo¨ellic, Ioannis Kanellos. A Conceptual Approach to Web Image Retrieval, LREC 2008, May 28 - 30, 2008, Marrakech, Maroc. – Adrian Popescu, Ioannis Kanellos. Multilingual and content based access to Flickr, ICTTA 2008, April 7 - 11, 2008, Damas, Syrie. – Davide Picca, Adrian Popescu. Using Wikipedia and supersense tagging for semiautomatic complex taxonomy construction, CALP workshop, in conjunction with RANLP 2007, September 30, 2007, Borovets, Bulgarie. – Adrian Popescu. Large Scale Semantic Structures for Image Retrieval, ACM Multimedia 2007 - doctoral symposium, September 24 - 29, Augsburg, Allemagne. – Christophe Millet, Isabelle Bloch, Adrian Popescu. Using the Knowledge of Object Colors to Segment Images and Improve Web Image Search, RIAO 2007, 30 mai ´ 1 juin, 2007, Pittsburg, Etats-Unis. 207

208

CHAPITRE 7. LISTE DES PUBLICATIONS – Adrian Popescu. Image Retrieval Using a Multilingual Ontology, RIAO 2007, May ´ 30 - June 1, 2007, Pittsburgh, Etats-Unis. – Christian Fluhr, Gregory Grefenstette, Adrian Popescu. Toward a common semantics between Media and Languages, Proceedings of IWRIDL, December 12-15, 2006, Kolkata, Inde – Adrian Popescu, Gregory Grefenstette, Pierre-Alain Mo¨ellic. Using Semantic Commonsense Resources in Image Retrieval, Proceedings of SMAP 2006, December 4 - 5, 2006, Ath`enes, Gr`ece. – Adrian Popescu, Christophe Millet, Pierre-Alain Mo¨ellic, Patrick H`ede, Gregory Grefenstette. Automatic Construction of a Grounded Multimedia Ontology of Objects to Illustrate Concepts in a Learning Process, Proceedings of the 10th NETTIES Conference, 6-9 septembre, 2006, Timisoara, Roumanie.

7.2.1.2

Posters et d´ emos

– Adrian Popescu, Sofiane Souidi, Pierre-Alain Mo¨ellic. See the World with ThemExplorer, JCDL 2008 - demos session, June 16 - 20, Pittsburgh, Etats-Unis. – Adrian Popescu, Pierre-Alain Mo¨ellic, Ioannis Kanellos. ThemExplorer : Finding and Browsing Geo-referenced Images, Proceedings of CBMI 2008 - posters session, June 18 - 20, London, Grande Bretagne. – Adrian Popescu, Pierre-Alain Mo¨ellic. Olive - A Conceptual Web Image Search Engine, ACM Multimedia 2007 - demos session, September 24 - 29, Augsburg, Allemagne. – Adrian Popescu, Christophe Millet, Pierre-Alain Mo¨ellic. Ontology Driven Content Based Image Retrieval, CIVR 2007 - posters session, 9-11 juillet, 2007, Amsterdam, Pays-Bas. – Adrian Popescu, Pierre-Alain Mo¨ellic, Christophe Millet. SemRetriev – an Ontology Driven Image Retrieval System, CIVR 2007 - demo session, 9-11 juillet, 2007, Amsterdam, Pays-Bas. – Adrian Popescu, Christophe Millet, Gregory Grefenstette, Pierre-Alain Mo¨ellic, Patrick H`ede. Imaging Word - Wording Images, SAMT 2006 - poster session, 6-9 d´ecembre, 2006, Ath`enes, Gr`ece.

7.2.2

Conf´ erences nationales

– Adrian Popescu, Pierre-Alain Mo¨ellic, Ioannis Kanellos. Utilisation de structures s´emantiques pour la recherche d’images sur Internet, ECOI Workshop, in conjunction with EGC 2008, January 29, 2008, Nice, France.

Bibliographie [1] S. Ahern, M. Naaman, R. Nair, J. Yang. “World explorer : visualizing aggregate data from unstructured text in geo-referenced collections”. In JCDL ’07 : Proceedings of the 7th ACM/IEEE-CS joint conference on Digital libraries, pages 1–10, New York, NY, USA, (2007). ACM. [2] A. Al-Maskari, M. Sanderson, P. Clough. “The good and the bad system : Does the test collection predict users’ effectiveness ?”. In Proceedings of the ACM SIGIR Conference on Research and Development in Information Retrieval, Singapore, (2008). [3] F.-X. Alario, L. Ferrand. “A set of 400 pictures standardized for french : Norms for name agreement, image agreement, familiarity, visual complexity, image variability, and age of acquisition”, Behavior research methods, instruments & computers, 31(3), pp. 531–552, (1999). [4] Aristote. Les cat´egories. Seuil, (2000). [5] J. Ashley, M. Flickner, J. Hafner, D. Lee, W. Niblack, D. Petkovic. “The query by image content (qbic) system”, SIGMOD Rec., 24(2), pp. 475, (1995). [6] Y. A. Aslandogan, C. Thier, C. T. Yu, J. Zou, N. Rishe. “Using semantic contents and wordnet in image retrieval”. In Proceedings of the 20th annual international ACM SIGIR conference on Research and development in information retrieval, pages 286–295, New York, NY, USA, (1997). ACM. [7] J. Atserias, H. Zaragoza, M. Ciaramita, G. Attardi. “Semantically annotated snapshot of the english wikipedia”. In Proceedings of the Sixth International Language Resources and Evaluation (LREC’08), Marrakech, Morroco, (2008). [8] S. Auer, C. Bizer, G. Kobilarov, J. Lehmann, R. Cyganiak, Z. Ives. “Dbpedia : A nucleus for a web of open data”. In Proceedings of the 6th International Semantic Web Conference (ISWC), Volume 4825 of Lecture Notes in Computer Science, pages 722–735. Springer, (2008). [9] M. Berland, E. Charniak. “Finding parts in very large corpora”. Technical report, Providence, RI, USA, (1999). [10] T. Berners-Lee, J. Hendler, O. Lassila. “The semantic web”. (May 2001). [11] T. Bittner, M. Donnelly, B. Smith. “Endurants and perdurants in directly depicting ontologies”, AI Commun., 17(4), pp. 247–258, (2004). 209

210

BIBLIOGRAPHIE

[12] O. Bodenreider. “The unified medical language system (umls) : integrating biomedical terminology.”, Nucleic Acids Res, 32(Database issue), (January 2004). [13] E. Brill, J. J. Lin, M. Banko, S. T. Dumais, A. Y. Ng. “Data-intensive question answering”. In TREC, (2001). [14] A. Broder. “A taxonomy of web search”, SIGIR Forum, 36(2), pp. 3–10, (2002). [15] P. Buitelaar, P. Cimiano, editors. Ontology Learning and Population : Bridging the Gap between Text and Knowledge, Volume 167 of Frontiers in Artificial Intelligence and Applications. IOS Press, Amsterdam, (2008). [16] R. C. Bunescu, M. Pasca. “Using encyclopedic knowledge for named entity disambiguation”. In Proceedings of 11st Conference of the European Chapter of the Association for Computational Linguistics, (2006). [17] D. Cai, X. He, Z. Li, W.-Y. Ma, J.-R. Wen. “Hierarchical clustering of www image search results using visual, textual and link information”. In Proceedings of the 12th annual ACM international conference on Multimedia, pages 952–959, New York, USA, (2004). [18] Y.-C. Cheng, S.-Y. Chen. “Image classification using color, texture and regions”, Image Vision Comput., 21(9), pp. 759–776, (2003). [19] P. Cimiano, S. Handschuh, S. Staab. “Towards the self-annotating web”. In Proceedings of the 13th WWW Conference, pages 462–471, New York, USA, (May 2004). [20] P. Cimiano, S. Staab. “Learning concept hierarchies from text with a guided hierarchical clustering algorithm”. In Proceedings of the ICML 2005 Workshop on Learning and Extending Lexical Ontologies with Machine Learning Methods, (2005). [21] P. Clough, H. Joho, M. Sanderson. “Automatically organizing images using concept hierarchies”. In Proceedings of the Multimedia Information Retrieval, 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Salvador, Brazil, (August 2005). [22] P. Clough, M. Sanderson, X. M. Shou. “Searching and organizing images across languages”. In Proceedings of Electronic Imaging, the Visual Arts and Beyond, Moscow, Russia, (2005). [23] T. P. O. Consortium. “The plant ontologytm consortium and plant ontologies”, Comparative and Functional Genomics, 3(2), pp. 137–142, (2002). [24] I. J. Cox, M. L. Miller, S. M. Omohundro, P. N. Yianilos. “Pichunter : Bayesian relevance feedback for image retrieval”. In ICPR ’96 : Proceedings of the International Conference on Pattern Recognition (ICPR ’96) Volume III-Volume 7276, Washington, DC, USA, (1996). IEEE Computer Society. [25] G. Csurka, C. R. Dance, J. W. L. Fan, C. Bray. “Visual categorization with bags of keypoints.”. In In Proc. of ECCV Workshop on Statistical Learning in Computer Vision, pages 1–22, (2004).

BIBLIOGRAPHIE

211

[26] C. Dorai, S. Venkatesh. “Guest editors’ introduction : Bridging the semantic gap with computational media aesthetics”, IEEE MultiMedia, 10(2), pp. 15–17, (2003). [27] K. Eckert, H. Stuckenschmidt, M. Pfeffer. “Semtinel : interactive supervision of automatic indexing”. In JCDL ’08 : Proceedings of the 8th ACM/IEEE-CS joint conference on Digital libraries, pages 425–425, New York, NY, USA, (2008). ACM. [28] U. Eco. A Theory of Semiotics. Indiana University Press, Bloomington, Indiana, (1976). [29] U. Eco. The Search for the Perfect Language. WileyBlackwell, Bloomington, Indiana, (1995). [30] P. G. B. Enser, C. J. Sandom, P. H. Lewis, J. S. Hare. “The reality of the semantic gap in image retrieval”. In Proceedings of the 1st International Conference on Semantic and Digital Media Technologiess, (2006). [31] O. Etzioni, K. Reiter, S. Soderland, M. Sammer. “Lexical translation with application to image search on the web”. In Proceedings of the 11th Machine Translation Summit, (September 2007). [32] C. Fellbaum, editor. WordNet : an electronic lexical database. MIT Press, (1998). [33] M. Ferecatu, N. Boujemaa, M. Crucianu. “Semantic interactive image retrieval combining visual and conceptual content description”, Multimedia Syst., 13(5-6), pp. 309–322, (2008). [34] T. A. S. for Images. “A review of image http ://www.tasi.ac.uk/resources/searchengines.html.

search

engines”.

[35] J. Fournier. Indexation d’images par le contenu et recherche interactive dans les bases g´en´eralistes. PhD thesis, Universit´e de Cergy-Pontoise, (octobre 2002). [36] B. Froba, A. Ernst. “Face detection with the modified census transform”. In Proceedings. Sixth IEEE International Conference on Automatic Face and Gesture Recognition, (2004). [37] F. Gandon. “Ontology engineering : a survey and a return on experience”. Technical Report 4396, INRIA - Sophia Antipolis, (mars 2002). [38] T. Gevers, A. W. M. Smeulders. Emerging Topics in Computer Vision, chapter Content-based Image Retrieval : An Overview. Prentice Hall, (2004). [39] J. Giles. “Internet encyclopaedias go head to head”, Nature, 438, pp. 900–901, (2005). [40] E. H. Gombrich. Histoire de l’art. Phaidon, (2002). [41] A. Goodrum, A. Spink. “Image searching on the excite web search engine”, Inf. Process. Manage., 37(2), pp. 295–311, (2001). [42] P.-H. Gosselin, M. Cord. “Active learning methods for interactive image retrieval”, IEEE Transactions on Image Processing, 17(7), pp. 1200–1211, (2008). [43] G. Grefenstette. Explorations in Automatic Thesaurus Discovery. Kluwer, (1994).

212

BIBLIOGRAPHIE

[44] G. Grefenstette. “Conquering language : Using nlp on a massive scale to build high dimensional language models from the web”. In Proceedings of the 8th International Conference on Computational Linguistics and Intelligent Text Processing, pages 35–49, (2007). [45] C. Grimes, D. Tang, D. M. Russel. “Query logs alone are not enough”. In Proceedings of the Query Log Analysis : Social and Technological Challenges Workshop, held in conjunction with WWW 2007, (2007). [46] W. I. Group. “Image annotation on the semantic web”. http ://www.w3.org/2005/Incubator/mmsem/XGR-image-annotation-20070814/. [47] R. V. Guha, D. B. Lenat. “Cyc : a mid-term report”, Appl. Artif. Intell., 5(1), pp. 45–86, (1991). [48] E. Hargittai. “Beyond logs and surveys : in-depth measures of people’s web use skills”, J. Am. Soc. Inf. Sci. Technol., 53(14), pp. 1239–1244, (2002). [49] J. E. Haugeard, P.-A. Mo¨ellic, G. Pitel. “Image clustering based on a shared nearest neighbors approach for tagged collections”. In Proceedings of the AACM International Conference on Image and Video Retrieval 2008, (July 2008). [50] M. A. Hearst. “Automatic acquisition of hyponyms from large text corpora”. In Proceedings of the 14th conference on Computational linguistics, pages 539–545, Morristown, NJ, USA, (1992). Association for Computational Linguistics. [51] P. B. Heidorn. Natural Language Understanding for Image Retrieval : Botanical texts. PhD thesis, University of Pittsburgh, (1997). [52] L. Hill, J. Frew, Q. Zheng. “Geographic names : The implementation of a gazetteer in a georeferenced digital library”, D-Lib Magazine, (January 1999). [53] E. H¨ orster, R. Lienhart, M. Slaney. “Image retrieval on large-scale image databases”. In CIVR ’07 : Proceedings of the 6th ACM international conference on Image and video retrieval, pages 17–24, New York, NY, USA, (2007). ACM. [54] M.-H. Hsu, H.-H. Chen. “Information retrieval with commonsense knowledge”. In SIGIR ’06 : Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval, pages 651–652, New York, NY, USA, (2006). ACM. [55] M.-H. Hsu, M.-F. Tsai, H.-H. Chen. “Query expansion with conceptnet and wordnet : An intrinsic comparison”. In Proceedings of the Third Asia Information Retrieval Symposium Information Retrieval Technology, pages 1–13, (2006). [56] E. Hyv¨ onen, S. Saarela, K. Viljanen. “Application of ontology techniques to viewbased semantic search and browsing”. In Proceedings of The Semantic Web : Research and Applications, First European Semantic Web Symposium, ESWS 2004, pages 92–106, (2004). [57] A. Iftene, A. B. Dobrescu. “Named entity relation mining using wikipedia”. In Proceedings of the 6th Language Resources and Evaluation Conference, (2008).

BIBLIOGRAPHIE

213

[58] J. B. Ilan. “Access to query logs — an academic researcher’s point of view”. In E. Amitay, C. G. Murray, J. Teevan, editors, Query Log Analysis : Social And Technological Challenges. A workshop at the 16th International World Wide Web Conference (WWW 2007), (May 2007). [59] E. J. M. Mart´ınez. “Mpeg7 standard”. http ://www.chiariglione.org/mpeg/standards/mpeg7/mpeg-7.htm. [60] A. Jaimes, S.-F. Chang. “A conceptual framework for indexing visual information at multiple levels”. In Proceedings of the IST/SPIE Internet Imaging 2000, (2000). [61] B. J. Jansen, D. L. Booth, A. Spink. “Determining the informational, navigational, and transactional intent of web queries”, Inf. Process. Manage., 44(3), pp. 1251– 1266, (2008). [62] B. J. Jansen, A. Goodrum, A. Spink. “Searching for multimedia : analysis of audio, video and image web queries”, World Wide Web, 3(4), pp. 249–254, (2000). [63] B. J. Jansen, A. Spink, T. Saracevic. “Real life, real users, and real needs : a study and analysis of user queries on the web”, Inf. Process. Manage., 36(2), pp. 207–227, (2000). [64] B. J. Jansen. “Search log analysis : What it is, what’s been done, how to do it”, Library & Information Science Research, 28(3), pp. 407–432, (2006). [65] Y. Jing, S. Baluja. “Pagerank for product image search”. In WWW ’08 : Proceeding of the 17th international conference on World Wide Web, pages 307–316, New York, NY, USA, (2008). ACM. [66] Y. Jing, S. Baluja, H. Rowley. “Canonical image selection from the web”. In CIVR ’07 : Proceedings of the 6th ACM international conference on Image and video retrieval, pages 280–287, New York, NY, USA, (2007). ACM. [67] M. Joint, P.-A. Moellic, P. Hede, P. Adam. “Piria : a general tool for indexing, search, and retrieval of multimedia content”. In Proceedings of SPIE Image Processing : Algorithms and Systems III, (2004). [68] D. Joshi, R. Datta, Z. Zhuang, W. P. Weiss, M. Friedenberg, J. Li, J. Z. Wang. “Paragrab : a comprehensive architecture for web image management and multimodal querying”. In VLDB ’06 : Proceedings of the 32nd international conference on Very large data bases, pages 1163–1166. VLDB Endowment, (2006). [69] I. Kanellos, T. L. Bras, F. Miras, I. Suciu. “Le concept de genre comme point de d´epart pour une mod´elisation s´emantique du document ´electronique”. In Actes du huiti`eme colloque international sur le document ´electronique (CIDE.8) : Le Multilinguisme, (2005). [70] L. Karoui, M. Aufaure, N. Bennacer. “Ontology discovery from web pages : Application to tourism”. In Proceedings of the ECML/PKDD Workshop on Knowledge Discovery and Ontologies, (2004). [71] J. Kazama, K. Torisawa. “Exploiting wikipedia as external knowledge for named entity recognition”. In Proceedings of the Joint Conference on Empirical Methods

214

BIBLIOGRAPHIE in Natural Language Processing and Computational Natural Language Learning, pages 698–707, (2007).

[72] F. C. Keil. Concepts, Kinds, and Cognitive Development. MIT Press, Cambridge, Massachusetts, (1989). [73] L. Kennedy, M. Naaman, S. Ahern, R. Nair, T. Rattenbury. “How flickr helps us make sense of the world : context and content in community-contributed media collections”. In MULTIMEDIA ’07 : Proceedings of the 15th international conference on Multimedia, pages 631–640, New York, NY, USA, (2007). ACM. [74] L. S. Kennedy, M. Naaman. “Generating diverse and representative image search results for landmarks”. In WWW ’08 : Proceeding of the 17th international conference on World Wide Web, pages 297–306, New York, NY, USA, (2008). ACM. [75] J. Klavans, T. Sidhu, C. Sheffield, D. Soergel, J. Lin, E. Abels, R. Passonneau. “Computational linguistics for metadata building (climb) text mining for the automatic extraction of subject terms for image metadata”. In Proceedings of the VISAPP Workshop Metadata Mining for Image Understanding, (2008). [76] H. Kong, M. Hwang, P. Kim. “The study on the semantic image retrieval based on the personalized ontology”, International Journal of Information Technology, 12(2), (2006). [77] C.-H. Kuo. “Building semantic indexing for image retrieval systems”. In Proceedings of the International Computer Symposium, ICS 2004, (2004). [78] A. Kutics, A. Nakagawa, S. Arai, H. Tanaka, S. Ohtsuka. “Relating words and image segments on multiple layers for effective browsing and retrieval”. In Proceedings of the International Conference on Image Processing, ICIP 2004, pages 2203–2206, (2004). [79] S. S. Layne. “Some issues in the indexing of images”, J. Am. Soc. Inf. Sci., 45(8), pp. 583–588, (1994). [80] J. Li, J. Z. Wang. “Real-time computerized annotation of pictures”. In MULTIMEDIA ’06 : Proceedings of the 14th annual ACM international conference on Multimedia, pages 911–920, New York, NY, USA, (2006). ACM. [81] S. P. Liao, P. J. Cheng, R. C. Chen, L. F. Chien. “Liveimage : Organizing web images by relevant concepts”. In Proc. of the Workshop on the Science of the Artificial 2004, pages 210–220, (2005). [82] H. Liu, P. Singh. “Conceptnet — a practical commonsense reasoning tool-kit”, BT Technology Journal, 22(4), pp. 211–226, (2004). [83] H. Liu, X. Xie, X. Tang, Z.-W. Li, W.-Y. Ma. “Effective browsing of web image search results”. In MIR ’04 : Proceedings of the 6th ACM SIGMM international workshop on Multimedia information retrieval, pages 84–90, New York, NY, USA, (2004). ACM. [84] Y. Liu, D. Zhang, G. Lu, W.-Y. Ma. “A survey of content-based image retrieval with high-level semantics”, Pattern Recogn., 40(1), pp. 262–282, (2007).

BIBLIOGRAPHIE

215

[85] D. Lowe. “Distinctive image features from scale-invariant keypoints”, International Journal of Computer Vision, 20, pp. 91–110, (2003). [86] A. Maedche, S. Staab. “Discovering conceptual relations from text”. In Proceedings of the 14th European Conference on Artificial Intelligence (ECAI), pages 321–325, (2000). [87] N. Maillot, M. Thonnat, A. Boucher. “Towards ontology based cognitive vision”. In International Conference on Computer Vision Systems, ICVS, pages 44–53, (avril 2003). [88] V. Mezaris, I. Kompatsiaris, M. Strintzis. “An ontology approach to object-based image retrieval”. In Proceedings of the IEEE International Conference on Image Processing, ICIP03, Volume 2, pages 511–514, (September 2003). [89] K. Mikolajczyk, C. Schmid. “A performance evaluation of local descriptors”, IEEE Trans. Pattern Anal. Mach. Intell., 27(10), pp. 1615–1630, (2005). [90] G. A. Miller. “Nouns in wordnet : A lexical inheritance system”, Int J Lexicography, 3(4), pp. 245–264, (January 1990). [91] C. Millet. Annotation automatique d’images : annotation coh´erente et cr´eation automatique d’une base d’apprentissage. PhD thesis, ENST Paris, (2007). [92] M. Minsky. “Framework for representing knowledge”. Technical report, (1974). [93] M. Missikof, R. Navigli, P. Velardi. “Integrated approach to web ontology learning and engineering”, Computer, 35(11), pp. 60–63, (2002). [94] P.-A. Mo¨ellic. “Rapport infomagique sur l’annotation d’images”. Technical report, (2006). [95] M. Naaman, , Y. J. Song, A. Paepcke, H. Garcia-Molina. “Automatic organization for digital photographs with geographic coordinates”. In Proceedings of the 4th ACM/IEEE-CS joint conference on Digital libraries, pages 53–62. ACM Press, (2004). [96] M. Naaman, , Y. J. Song, A. Paepcke, H. Garcia-Molina. “Assigning textual names to sets of geographic coordinates”, Computers, Environment and Urban Systems, 30(4), pp. 418–435, (July 2006). [97] A. Nakagawa, A. Kutics, K. Tanaka, M. Nakajima. “Combining words and objectbased visual features in image retrieval”. In ICIAP ’03 : Proceedings of the 12th International Conference on Image Analysis and Processing, page 354, Washington, DC, USA, (2003). IEEE Computer Society. [98] M. Naphade, J. R. Smith, J. Tesic, S.-F. Chang, W. Hsu, L. Kennedy, A. Hauptmann, J. Curtis. “Large-scale concept ontology for multimedia”, IEEE MultiMedia, 13(3), pp. 86–91, (2006). [99] B. V. Nguyen, M.-Y. Kan. “Functional faceted web query analysis”. In Query Log Analysis : Social And Technological Challenges. A workshop at the 16th International World Wide Web Conference (WWW 2007), (May 2007).

216

BIBLIOGRAPHIE

[100] N. O’Hare, C. Gurrin, A. F. Smeaton, G. Jones. “Combination of content analysis and context features for digital photograph retrieval”. In Proceedings of EWIMT 2005, (2005). [101] T. Ojala, M. Pietikainen, D. Harwood. “A comparative study of texture measures with classification based on feature distributions”, Computers, Environment and Urban Systems, 29(1), pp. 51–59, (1996). [102] A. Oltramari, A. Gangemi, N. Guarino, C. Masolo. “Restructuring wordnet’s toplevel : The ontoclean approach”. In Proceedings of 2nd International Workshop on Evaluation of Ontology-based Tools, (2002). [103] L. Page. “Method for node ranking in a linked database”. U.S. Patent 6285999. [104] Z. Pan. “Benchmarking dl reasoners using realistic ontologies”. In Proceedings of the Workshop on OWL : Experiences and Directions (OED’05), (2005). [105] E. Panofsky. Meaning in the Visual Arts. The University of Chicago Press, Chicago, Illinois, (1955). [106] G. Pass, A. Chowdhury, C. Torgeson. “A picture of search”. In InfoScale ’06 : Proceedings of the 1st international conference on Scalable information systems, New York, NY, USA, (2006). ACM. [107] S. P. Ponzetto, M. Strube. “Deriving a large scale taxonomy from wikipedia”. In Proceedings of the Twenty-Second AAAI Conference on Artificial Intelligence, (2007). [108] A. Potrich, E. Pianta. “L-isa : Learning domain specific isa-relations from the web”. In Proceedings of LREC 2008, (2008). [109] N. Project. “Neon project website”. http ://www.neon-project.org/web-content/. [110] T. Quack, U. M¨ onich, L. Thiele, B. S. Manjunath. “Cortina : a system for largescale, content-based web image retrieval”. In MULTIMEDIA ’04 : Proceedings of the 12th annual ACM international conference on Multimedia, pages 508–511, New York, NY, USA, (2004). ACM. [111] T. Rattenbury, N. Good, M. Naaman. “Towards automatic extraction of event and place semantics from flickr tags”. In SIGIR ’07 : Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval, pages 103–110, New York, NY, USA, (2007). ACM. [112] M. resultes from different media : experiments at ImageCLEF 2005. “R. besan¸con and c. millet”. In Working Notes for the ImageCLEF 2005 Workshop, (2005). [113] K. Rodden, W. Basalaj, D. Sinclair, K. Wood. “Does organisation by similarity assist image browsing ?”. In CHI ’01 : Proceedings of the SIGCHI conference on Human factors in computing systems, pages 190–197, New York, NY, USA, (2001). ACM. [114] E. Rosch, C. B. Mervis, W. D. Gray, D. M. Johnson, P. Boyes-Braem. “Basic objects in natural categories”, Cognitive Psychology, 8, pp. 382–439, (1976).

BIBLIOGRAPHIE

217

[115] D. E. Rose, D. Levinson. “Understanding user goals in web search”. In WWW ’04 : Proceedings of the 13th international conference on World Wide Web, pages 13–19, New York, NY, USA, (2004). ACM. [116] M. Ruiz-Casado, E. Alfonseca, P. Castells. “Automatic assignment of wikipedia encyclopedic entries to wordnet synsets”, Advances in Web Intelligence, pages 380– 386, (2005). [117] M. Ruiz-Casado, E. Alfonseca, P. Castells. “Automatising the learning of lexical patterns : An application to the enrichment of wordnet by extracting semantic relationships from wikipedia”, Data Knowl. Eng., 61(3), pp. 484–499, (2007). [118] D. M. Russell, C. Grimes. “Assigned tasks are not the same as self-chosen web search tasks”. In HICSS ’07 : Proceedings of the 40th Annual Hawaii International Conference on System Sciences, page 83, Washington, DC, USA, (2007). IEEE Computer Society. [119] M. Sanderson. “Ambiguous queries : Test collections need more sense”. In Proceedings of the 31nd annual international ACM SIGIR conference on Research and development in information retrieval, New York, NY, USA, (2008). ACM. [120] M. Sanderson, B. Croft. “Deriving concept hierarchies from text”. In SIGIR ’99 : Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval, pages 206–213, New York, NY, USA, (1999). ACM. [121] M. Sanderson, Y. Han. “Search words and geography”. In GIR ’07 : Proceedings of the 4th ACM workshop on Geographical information retrieval, pages 13–14, New York, NY, USA, (2007). ACM. [122] M. Sanderson, J. Tian, P. Clough. “Testing an automatic organisation of retrieved images into a hierarchy”. In Proceedings of International Workshop OntoImage’2006 Language Resources for Content-Based Image Retrieval, held in conjuction with LREC’06, pages 44–49, (2006). [123] S. Santini. “Summa contra ontologiam.”. In Lecture Notes in Computer Science, Volume 4254, pages 483–496. Springer, (2006). [124] S. Santini, A. Gupta, R. Jain. “Emergent semantics through interaction in image databases”, IEEE Trans. on Knowl. and Data Eng., 13(3), pp. 337–351, (2001). [125] C. Schlenoff, E. Messina. “A robot ontology for urban search and rescue”. In KRAS ’05 : Proceedings of the 2005 ACM workshop on Research in knowledge representation for autonomous systems, pages 27–34, New York, NY, USA, (2005). ACM. [126] P. Singh, B. Barry. “Collecting commonsense experiences”. In K-CAP ’03 : Proceedings of the 2nd international conference on Knowledge capture, pages 154–161, New York, NY, USA, (2003). ACM. [127] A. W. M. Smeulders, M. Worring, S. Santini, A. Gupta, R. Jain. “Content-based image retrieval at the end of the early years”, IEEE Transactions on Pattern Analysis and Machine Intelligence, 22(12), pp. 1349–1380, (2000).

218

BIBLIOGRAPHIE

[128] J. R. Smith, S.-F. Chang. “Visualseek : a fully automated content-based image query system”. In MULTIMEDIA ’96 : Proceedings of the fourth ACM international conference on Multimedia, pages 87–98, New York, NY, USA, (1996). ACM. [129] J. Sowa. Knowledge Representation : Logical, Philosophical, and Computational Foundations. Brooks/Cole Publishing Co., Pacific Grove, CA, (2000). [130] K. Sp¨ arck-Jones, S. E. Robertson, M. Sanderson. “Ambiguous requests : implications for retrieval tests, systems and theories”, SIGIR Forum, 41(2), pp. 8–17, (2007). [131] A. Spink, B. J. Jansen, C. Blakely, S. Koshman. “A study of results overlap and uniqueness among major web search engines”, Inf. Process. Manage., 42(5), pp. 1379–1391, (2006). [132] R. O. Stehling, M. A. Nascimento, A. X. Falc˜ao. “A compact and efficient image retrieval approach based on border/interior pixel classification”. In Proceedings of the eleventh international conference on Information and knowledge management, CIKM, pages 102–109, New York, NY, USA, (2002). ACM Press. [133] A. Toral, R. Mu˜ noz. “A proposal to automatically build and maintain gazetteers for named entity recognition by using wikipedia”. In NEW TEXT - Wikis and blogs and other dynamic text sources, Trento, (2006). [134] M. Trautwein, P. Grenon. “Roles : One dead armadillo on wordnet’s speedway to ontology”. In Proceedings of the 2nd International Global WordNet Conference, pages 341–346, (2004). [135] P. D. Turney. “Mining the web for synonyms : Pmi-ir versus lsa on toefl”. In EMCL ’01 : Proceedings of the 12th European Conference on Machine Learning, pages 491–502, London, UK, (2001). Springer-Verlag. [136] A. Turpin, F. Scholer. “User performance versus precision measures for simple search tasks”. In SIGIR ’06 : Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval, pages 11–18, New York, NY, USA, (2006). ACM. [137] P. Viola, M. Jones. “Robust real-time object detection”, International Journal of Computer Vision, ICVR, (2002). [138] V. Haarslev, R. M¨ oller. “Racer : A core inference engine for the semantic web”. In Proceedings of 2nd International Workshop on Evaluation of Ontology-based Tools, (2002). [139] H. Wang, S. Liu, L.-T. Chia. “Does ontology help in image retrieval ? : a comparison between keyword, text ontology and multi-modality ontology approaches”. In MULTIMEDIA ’06 : Proceedings of the 14th annual ACM international conference on Multimedia, pages 109–112, New York, NY, USA, (2006). ACM. [140] J. Wang, N. Ge. “Automatic feature thesaurus enrichment : extracting generic terms from digital gazetteer”. In Proceedings of the 6th ACM/IEEE-CS joint conference on Digital libraries, pages 326–333, New York, NY, USA, (2006). ACM.

BIBLIOGRAPHIE

219

[141] S. Wang, F. Jing, J. He, Q. Du, L. Zhang. “Igroup : presenting web image search results in semantic clusters”. In CHI ’07 : Proceedings of the SIGCHI conference on Human factors in computing systems, pages 587–596, New York, NY, USA, (2007). ACM. [142] X. J. Wang, W. Y. Ma, X. Li. “Data-driven approach for bridging the cognitive gap in image retrieval”. In Proceedings of the 2004 IEEE International Conference on Multimedia and Expo, Volume 3, pages 2231–2234, Taipei, Taiwan, (June 2004). IEEE. [143] C. Welty, N. Guarino. “Supporting ontological analysis of taxonomic relationships”, Data Knowl. Eng., 39(1), pp. 51–74, (2001). [144] S.-H. Wu, T.-H. Tsai, W.-L. Hsu. “Domain event extraction and representation with domain ontology”. In Proceedings of IJCAI-03 Workshop on Information Integration on the Web (IIWeb-03), August, pages 33–38, (2003). [145] J. Yang, A. Hauptmann. “Annotating news video with locations”. In Proceedings of International Conference on Image and Video Retrieval (CIVR), (2006). [146] J. Yang, L. Wenyin, H. Zhang, Y. Zhuang. “Thesaurus-aided approach for image browsing and retrieval”, Proceedings of ICME 2001, (2001). [147] K.-P. Yee, K. Swearingen, K. Li, M. Hearst. “Faceted metadata for image search and browsing”. In CHI ’03 : Proceedings of the SIGCHI conference on Human factors in computing systems, pages 401–408, New York, NY, USA, (2003). ACM. [148] H. Zaragoza, H. Rode, P. Mika, J. Atserias, M. Ciaramita, G. Attardi. “Ranking very many typed entities on wikipedia”. In CIKM ’07 : Proceedings of the sixteenth ACM conference on Conference on information and knowledge management, pages 1015–1018, New York, NY, USA, (2007). ACM. [149] R. Zhao, W. Grosky. “Bridging the semantic gap in image retrieval”, Distributed Multimedia Databases : Techniques and Applications, (2001). [150] Y. Zhuang, X. Liu, Y. Pan. “Apply semantic template to support content-based image retrieval”. In Proc. SPIE Vol. 3972, p. 442-449, Storage and Retrieval for Media Databases 2000, (2000). [151] H. Zhuge. “Retrieve images by understanding semantic links and clustering image fragments”, J. Syst. Softw., 73(3), pp. 455–466, (2004). [152] S. Zinger, C. Millet, B. Mathieu, G. Grefenstette, P. H`ede, P.-A. Mo¨ellic. “Clustering and semantically filtering web images to create a large scale image ontology”. In Proceedings of the IS&T/SPIE 18th Symposium Electronic Imaging, pages 89– 97, San Jose, Californie, USA, (janvier 2006). [153] C. Zirn, V. Nastase, M. Strube. “Distinguishing between instances and classes in the wikipedia taxonomy”. In M. Hauswirth, M. Koubarakis, S. Bechhofer, editors, Proceedings of the 5th European Semantic Web Conference, LNCS. Springer Verlag, (June 2008).