Utilisation de la Fouille de Données Images pour l'Indexation ...

Ordonez et al dans [ORDO99] ont appliqué un algorithme de découverte de r`egles d'asso- ciations `a ..... In Annual Review of Information Science and Tech-.
134KB taille 8 téléchargements 144 vues
Cat´egorie : Chercheur

Utilisation de la Fouille de Donn´ees Images pour l’Indexation Automatique des Images Hatem Haddad* Philippe Mulhem** ´ * Equipe Mod´elisation et Recherche d’Information Multim´edia Laboratoire CLIPS-IMAG, B.P. 53, 38041 Grenoble Cedex 9, France E-mail : [email protected] ** IPAL - CNRS KRDL, 21 Heng Mui Keng Terrace, Singapore 119613 E-mail : [email protected]

R´esum´e : Cet article introduit un nouveau challenge pour la fouille de donn´ees qui consiste en la d´ecouverte de connaissances dans des collections d’images, appel´e e´galement Fouille de Donn´ees Images (Image Mining (IM)). Dans le but d’une indexation s´emantique des images, nous nous focalisons sur le probl`eme de la d´ecouverte de connaissances a` partir du contenu des images d’un enesemble d’apprentissage, sous la forme d’associations entre des e´ l´ements symboliques (concepts) et des e´ l´ements du signal (caract´eristiques des images). Dans ce contexte, ces donn´ees, de natures tr`es diff´erentes, doivent eˆ tre trait´ees afin d’appliquer les processus de fouilles de donn´ees. Nous nous sommes int´eress´es ici aux diff´erences de dimensionnalit´e de ces donn´ees et a` leur influence sur la qualit´e de l’extraction de connaissances “inter-m´edia” entre les caract´eristiques du signal et les symboles. Dans le cadre de ce travail, l’impact des diff´erentes r´eductions de dimensions li´ees aux couleurs et aux textures des r´egions extraites a e´ t´e e´ tudi´e.

Mots-Cl´es : Recherche d’Information Multim´edia, Fouille de donn´es Images, R`egles d’Associations

1 Introduction Mati`ere premi`ere de l’activit´e et support de d´ecision, l’information doit eˆ tre accessible rapidement et de mani`ere fiable. L’information et, en particulier le document la contenant, joue un rˆole crucial dans l’am´elioration de la productivit´e et la comp´etitivit´e des entreprises. L’augmentation significative des informations au sein des organisations s’est accompagn´ee d’une prise de conscience de l’importance de d´evelopper des moyens informatiques pour traiter cette information, c’est-`a-dire la mod´eliser, la filtrer, la rechercher, l’indexer, etc. Le domaine de la recherche d’information essaye de trouver des solutions a` ce probl`eme. La probl´ematique de la recherche d’information peut eˆ tre vue comme la satisfaction du besoin en informations d’un utilisateur, qui est exprim´e par une requˆete, adress´ee a` un ensemble d’information. Les grands volumes des bases de donn´ees, la diversit´e et l’h´et´erog´en´eit´e des sources de donn´ees n´ecessitent une nouvelle philosophie de traitement des donn´ees. Dans ce contexte, la fouille de donn´ees (data mining) s’int´eresse a` d´ecouvrir des connaissances implicitement contenues dans un ensemble de donn´ees en s’appuyant sur diff´erentes techniques qui peuvent eˆ tre mises en oeuvre ind´ependamment ou coupl´ees. Ces techniques visent a` explorer les donn´ees, a` d´ecrire leur contenu, et a` en extraire l’information la plus significative. Parce qu’une grande partie de l’information qui existe dans les organisations est informelle et non structur´ee, ces techniques ne se limitent pas a` des donn´ees num´eriques et factuelles, mais doivent s’adresser aux donn´ees textuelles et multim´edias. Dans cet article, nous introduisons un nouveau champ d’application de la fouille de donn´ees aux collections d’images, que nous appelons Fouille de Donn´ees Images (FDI). Tous les aspects de la fouille de donn´ees peuvent eˆ tre int´eressants pour la FDI mais nous nous concentrons sur le probl`eme de d´ecouverte de connaissances a` partir du contenu des images sous la forme d’associations entre des e´ l´ements symboliques (concepts) et des e´ l´ements du signal (caract´eristiques ou propri´et´es des images). L’accroissement des donn´ees multim´edia oblige a` aller au-del`a d’une indexation manuelle et a` prendre en compte ces donn´ees au cours du processus d’interpr´etation et d’indexation. Notre but est alors d’exploiter l’information contenue dans ces donn´ees pour un besoin de recherche d’information (RI) et plus particuli`erement pour une indexation automatique des images dans un syst`eme de recherche d’information multim´edia (SRIM). Nous n’allons pas aborder dans cet article les probl`emes d’indexation multim´edia mais notre objectif est d’´etudier la combinaison de donn´ees multim´edia et des donn´ees textuelles. Pour cela, les techniques de la fouille de donn´ees nous semblent int´eressantes a` appliquer dans ce contexte. Plus particuli`erement, nous allons adapter la technique des r`egles d’associations pour aboutir a` notre objectif. La technique des r`egles d’associations traite traditionnellement des donn´ees stock´ees dans des bases sous la forme de transactions [HAN96]. Cette technique a e´ t´e utilis´ee dans de nombreux contextes, en particulier pour des collections de textes [HADD00] et les informations du web [GERY99]. La plupart des syst`emes de recherche d’images permettent aux utilisateurs de faire une recherche en utilisant des mots-cl´es avec une interface SQL et/ou une recherche a` partir d’une image exemple (les syst`emes QBE) [GEVE97] [SCLA97]. Ces syst`emes se basent explicitement sur les donn´ees textuelles ou bien sur le signal. Les travaux en RI sur des donn´ees textuelles traitent les probl`emes de la langue naturelle ainsi que la s´election de bons concepts d’indexation. Le cadre

du travail d´ecrit ici postule que des concepts d’indexation (mots-cl´es) sont associ´es a` des images par un op´erateur humain. Habituellement, les r´esultats des processus de traitement automatique d’images ne sont pas adapt´es a` un syst`eme de recherche d’information a` cause de la s´emantique faible et trop ambigu¨e des caract´eristiques extraites (par exemple la couleur bleue peut aussi bien caract´eriser un ciel, une voiture, une piscine, un vˆetement, etc.). Notre objectif est donc de combiner les donn´ees textuelles avec celles qui proviennent du signal pour am´eliorer la qualit´e d’un SRI et permettre une recherche symbolique et s´emantique dans des collections d’images. Cet article est organis´e comme suit: dans la partie 2 nous exposons les travaux relatifs a` ce travail, ensuite nous d´etaillons le processus de segmentation automatique de l’image utilis´e dans la partie 3, ainsi que celui du traitement des collections d’apprentissage dans la partie 4. Dans la section 5, nous traitons la probl´ematique des r`egles d’associations ainsi que l’algorithme utilis´e. Enfin, la section 6 pr´esente le processus d’´evaluation choisi et les r´esultats des exp´erimentations, avant de conclure.

´ 2 Etat de l’art On distingue deux axes de travaux pour la recherche d’image. Le premier est bas´e sur une indexation textuelle. Cet axe est confront´e au probl`eme de la taille des collections d’images de plus en plus gigantesques, ce qui rend l’annotation manuelle des images quasi impossible [RASM97]. Un deuxi`eme probl`eme majeur est celui de la subjectivit´e de la perception humaine. Le deuxi`eme axe est la recherche par le contenu des images qui n’a pas montr´e son efficacit´e dans le domaine de la RI. Un inconv´enient majeur de cet axe est qu’il est s´emantiquement tr`es faible ce qui le rend non adapt´e a` un besoin de RI [RUI98, MANJ96]. En effet, la plupart des syst`emes de recherche d’images traditionnels, tel que QBIC [FLIC95] ou Photobook [PENT94], sont bas´es sur des propri´et´es de bas niveau des images telles que les couleurs, la texture, etc. Une nouvelle approche en recherche d’image est la fouille de donn´ees images. Dans la plupart des travaux de FDI, l’objectif principal est de d´ecouvrir des patrons int´eressants dans des grandes quantit´es de donn´ees textuelles ou des donn´ees signal qui proviennent des images. Ordonez et al dans [ORDO99] ont appliqu´e un algorithme de d´ecouverte de r`egles d’associations a` des images de synth`ese. Ces images ont une description tr`es pauvre sous forme de “blobs”. Ils n’ont utilis´e que deux propri´et´es des images: la couleur et la texture. Un blob est donc une r´egion de pixels connexes coh´erente au niveau de la similarit´e de couleur et de texture entre ses pixels. Ces blobs sont obtenus en segmentant les images par une m´ethode d’“ExpectationMaximization” (EM). Les r`egles d’associations sont exprim´ees entre des blobs des images. Les r´esultats de [ORDO99] semblent prometteurs mˆeme si les propri´et´es auquelles le ” mining ” a e´ t´e appliqu´e sont assez simples. Notre objectif est d’utiliser de vraies images photographiques de tailles et de r´esolutions diff´erentes. Le processus de mining envisag´e ne se limite pas seulement aux donn´ees signal mais combine ces donn´ees avec des donn´ees textuelles. Une autre approche est de combiner des donn´ees textuelles avec des donn´ees visuelles de l’image pour les inclure dans un mˆeme espace [SCLA99, LACA98]. Un exemple de cette application pr´esent´e dans [WEST00] o`u les caract´eristiques des images sont extraites sous la forme de termes ( par exemple les couleurs sont “jaune”, “bleu”, etc) pour eˆ tre combin´es avec les termes du texte qui accompagnent les images. Ces e´ l´ements sont repr´esent´es dans le mˆeme espace en utilisant la technique d’indexation s´emantique latente (LSI). Les dimensions de l’espace vectoriel obtenu avec cette technique ne sont pas e´ tiquet´ees ce qui les rend s´emantiquement tr`es pauvres et

F IG . 1 – Segmentation de l’image “le jardin chinois”

difficilement interpr´etables. Dans notre approche, nous utilisons une repr´esentation des caract´eristiques symboliques et des caract´eristiques signal dans un mˆeme espace et d´etectons des relations s´emantiques entre les e´ l´ements de l’espace. Notre approche est bas´ee sur l’utilisation d’une collection d’apprentissage de photographies d´ecrites a` la fois par une annotation manuelle et par des r´egions segment´ees automatiquement. Cette collection permet de d´ecouvrir les r`egles associatives utilis´ees pour indexer ult´erieurement de nouvelles images. Chacun de ces e´ l´ements, la segmentation, l’annotation manuelle, la d´efinition des r`egles associatives consid´er´ees ainsi que les e´ valuations son d´ecrites dans la suite.

3 Processus de segmentation et d’extraction de caract´eristiques des images Le processus de segmentation a pour but de regrouper les pixels en r´egions d’apr`es des caract´eristiques propres aux pixels et a` leur pixels voisins. Apr`es e´ tude de nombreuses photographies, l’hypoth`ese de base de la segmentation utilis´ee ici est qu’un pixel peut appartenir a` une classe parmi quatre. Nous avons en effet d´etermin´e que ce nombre est le plus souvent n´ecessaire et suffisant pour calculer de mani`ere satisfaisante les r´egions connexes de pixels des photographies correspondant a` des objets. Le processus de segmentation est donc le suivant: dans un premier temps, on d´etermine le ” cluster ” de chaque pixel de l’image. La caract´erisation d’un pixel se base sur l’utilisation de sa couleur RGB normalis´e et sur un calcul de la texture englobant le pixel par un calcul de DCT (Transform´ee en Cosinus Discr`ete) 3x3 centr´ee sur le pixel. Une fois ces caract´eristiques extraites pour chaque pixel, on effectue un calcul de regroupement en 4 clusters, not´es C1, C2, C3 et C4, par un algorithme de K-mean dont le but est de trouver une partition qui minimise la somme des carr´es des distances entre les points correspondant aux donn´ees et les centres des clusters. Le r´esultat de cette premi`ere e´ tape est donc, pour chaque pixel de l’image trait´ee, une association a` un et un seul cluster. Dans un second temps, nous d´eterminons les r´egions de pixels connexes appartenant au mˆeme cluster. Les r´egions obtenues sont donc disjointes, i.e. ne partagent aucun pixel. La Figure 1 montre le r´esultat de la segmentation pour la photographie de la Figure 2. Une fois le processus de segmentation achev´e, nous calculons les caract´eristiques de chaque

F IG . 2 – Exemple d’image d’apprentissage: le jardin chinois

r´egion. Les caract´eristiques retenues sont les suivantes: – la couleur principale : la couleur la plus dominante de la r´egion. Ces couleurs sont repr´esent´ees dans l’espace RGB sous-´echantillonn´e pour obtenir 64 couleurs. – la couleur secondaire : la seconde couleur la plus dominante de la r´egion. Ces couleurs sont repr´esent´ees dans l’espace RGB sous-´echantillonn´e pour obtenir 64 couleurs. – la direction principale et la direction secondaire: nous d´eterminons les directions d’une r´egion en passant sur tous les pixels de la r´egion un filtre de gradient (op´erateur de Solbel) pour d´eterminer les pixels qui sont sur des zones de forts gradient d’´energie. L’int´erˆet de l’op´erateur de Sobel est de fournir e´ galement la direction de ce gradient. Pour chaque pixel de la r´egion, nous pouvons donc d´eterminer la direction de gradient la plus dominante, appel´ee direction principale (36 directions principales possibles), et la direction de gradient la plus dominante apr`es la direction principale, appel´ee direction secondaire (36 directions secondaires possibles) – la texture ou la non texture: en nous basant sur les r´esultats obtenus sur les coefficients DCT obtenus pour chaque pixel d’une r´egion, nous sommes en mesure de d´efinir si une zone est textur´ee ou non. Plus pr´ecis´ement, nous nous basons sur les moyennes des coefficients DCT des pixels. On a alors 2 choix de textures possibles. L’utilisation des couleurs et des directions dominantes est inspir´ee de l’une des propositions faites par Yihong Gong dans [GONG99]. Le nombre de dimensions des caract´eristiques provenant du signal est de 9 (RGB pour la couleur principale, RGB pour la couleur secondaire, l’angle pour la direction principale l’angle pour la direction secondaire, et une valeur bool´eenne pour la texture). Par contre, le nombre de valeurs possibles est tr`es important: il est de l’ordre de 10 millions (64 couleurs principales * 64 couleurs secondaires * 36 directions principales * 36 directions secondaires * 2 choix de texture). Ces caract´eristiques sont utilis´ees par la suite lors des op´erations de la fouille de donn´ees.

F IG . 3 – Annotation de l’image “le jardin chinois”

4 Processus d’annotation manuelle des images L’annotation manuelle des images est r´ealis´ee par l’interm´ediaire d’une interface pr´esent´ee Figure 3. La personne qui annote d´etermine le contour int´erieur approximatif d’une r´egion et associe cette r´egion a` un symbole pris parmi une liste pr´ed´efinie. Dans les travaux report´es ici, nous avons choisi de nous int´eresser a` des images d’ext´erieur comprenant des paysages et des bˆatiments. La Figure 2 pr´esente l’une de ces images. La liste de concepts d´etermin´ee est compos´ee de 26 e´ l´ements. La Figure 3 montre le processus d’annotation manuelle de la photographie de la Figure 2, les termes d’annotations de cette photographie sont les suivants: Ciel, Fa¸cade Immeuble, Rivi`ere, Autre Construction et Groupe Arbre.

5 Collections d’apprentissage Le corpus d’apprentissage est compos´e de 67 photographies d’ext´erieur (cf. section 4). En moyenne, le nombre de r´egions par image est de 9.8 et le nombre de concepts manuellement associ´es a` une image est de 7,6. Notre objectif est de d´ecouvrir des r`egles d’associations entre des caract´eristiques signal extraites de la segmentation et des caract´eristiques symboliques venant d’une annotation manuelle. Nous e´ tudions l’influence de trois e´ l´ements ind´ependants sur la qualit´e des r`egles associatives d´ecouvertes: – l’ind´ependance des caract´eristiques signal extraites, – les associations entre caract´eristiques et symboles dans une image ou une r´egion, – la dimension des caract´eristiques signal potentielles. Ces e´ l´ements sont d´etaill´es ci-dessous:

5.1 Param`etre d’ind´ependance des caract´eristiques signal Les caract´eristiques signal extraites peuvent eˆ tre utilis´ees de deux mani`eres : – l’ensemble des caract´eristiques d’une r´egion est consid´er´e comme atomique. – chacune des caract´eristiques d’une r´egion est atomique donc elles sont consid´er´ees comme ind´ependantes. Prenons l’exemple d’une r´egion segment´ee poss`edant comme couleur principale (40, 40, 29), comme couleur secondaire (30, 10, 0), comme direction principale 280 degr´es, comme direction secondaire 190 degr´es, et n’est pas textur´ee. Le premier choix consid`ere tous ces param`etres comme fournissant une caract´eristique de l’image. Le second choix consid`ere que l’image contient une r´egion poss´edant une r´egion de couleur (40, 40, 29), une r´egion de couleur secondaire (30, 10, 0) qui peut eˆ tre la mˆeme ou une autre, etc. Nous avons choisi ce second choix pour e´ tudier dans quelle mesure l’affranchissement des contraintes inter-caract´eristiques signal influe sur les r´esultats.

5.2 Param`etres li´es a` une image ou une r´egion Ce param`etre d´etermine si les liaisons entre signal et symboles fournis au processus d’apprentissage sont bas´ees sur les descriptions de l’image compl`ete ou bien sur chaque r´egion: – soit on applique l’apprentissage sur des descriptions utilisant une simple union des caract´eristiques signal et symboliques d’une image, dans ce cas il s’agit d’un apprentissage non supervis´e. Notre espoir est que l’apprentissage va permettre de retrouver les liaisons avec les symboles pertinents. – soit on utilise l’apprentissage sur des description utilisant une simple union des caract´eristiques signal et symboliques d’une image. Nous sommes donc dans le cas d’un apprentissage supervis´e. Nous allons montrer que, comme nous pouvons nous y attendre, ce param`etre a une grande influence sur la qualit´e des r`egles g´en´er´ees.

5.3 Param`etres li´es a` la dimmensionnalit´e des caract´eristiques signal Vu le nombre important de dimensions pour les caract´eristiques signal de l’image par rapport aux nombres de concepts, trois strat´egies ont e´ t´e appliqu´ees pour diminuer le nombre de dimensions signal et e´ quilibrer les dimensions signal et symboliques: la r´eduction des couleurs, la r´eduction des directions et la r´eduction des couleurs et les directions. – La r´eduction des couleurs. Nous avons choisi de r´eduire les dimensions des couleurs a` 8 couleurs possibles au lieu de 64, aussi bien pour les couleurs principales que pour les couleurs secondaires. Les combinaisons des caract´eristiques dans ce cas sont r´eduites a` 165888 combinaisons possibles. – la r´eduction des directions. Il s’agit de r´eduire les 36 directions a` 4 directions (Figure 4). Nous avons choisit de regrouper les directions verticales en une seule direction (direction 0), les directions horizontales en une seule direction (direction 2) et les directions obliques en deux directions (direction 1 et direction 3). Les combinaisons des caract´eristiques dans ce cas sont r´eduites a` 131072.

Direction 2

90 Direction 3

Direction 0

180

100 80

10

170

0

190

Direction 1

Direction 1

Direction 0

350

260 280

Direction 3

270

Direction 2

F IG . 4 – La r´eduction des directions a` 4 directions

– la r´eduction des couleurs et des directions. Il s’agit d’appliquer les deux processus de r´eduction d´ecrites dessus. Les combinaisons des caract´eristiques dans ce cas sont limit´ees a` 2048.

5.4 L’ensemble des collections d’apprentissage En utilisant les diff´erents choix d´ecrits plus haut, nous obtenons 16 collections d’apprentissage. Dans la Figure 5, qui pr´esente 12 de ces collections, nous utilisons le suffixe C8 pour les collections o`u l’on a r´eduit le nombre les couleurs, le suffixe D4 pour les collections o`u l’on a r´eduit le nombre de directions et le suffixe A pour les collections o`u l’on a appliqu´e un apprentissage supervis´e. Le processus de fouille de donn´ees est appliqu´e sur chacune de ces collections. Collection COL1 COL2 COL1 COL2 COL1 COL2 COL1 COL2 COL1 COL2 COL1 COL2

Niveau type de type de atomique r´eduction l’apprentissage r´egion non supervis´e caract´eristique non supervis´e C8 r´egion couleurs non supervis´e C8 caract´eristique couleurs non supervis´e A r´egion supervis´e A caract´eristique supervis´e A C8 r´egion couleurs supervis´e A C8 caract´eristique couleurs supervis´e D4 r´egion directions non supervis´e D4 caract´eristique directions non supervis´e C8 D4 r´egion couleurs et directions non supervis´e C8 D4 caract´eristique couleurs et directions non supervis´e F IG . 5 – Caract´eristiques des collections d’apprentissage

´ Etant donn´e la taille limit´ee de cet article, nous avons choisi de nous limiter a` l’´etude des

r´esultats obtenus pour les collections COL1 A C8,COL2 A C8, COL1 C8 D4 et COL2 C8 D4. Ce choix est dˆu au fait que ces collections nous donnent les r´esultats les plus significatifs pour notre e´ tude.

6 Les r`egles d’associations Une des fonctions de la fouille de donn´ees, qui revient le plus souvent dans les diff´erentes d´efinitions d´edi´ees aux bases de donn´ees, est le processus de compr´ehension d’un grand ensemble de donn´ees par la d´ecouverte de liens entre elles. Soit une base de donn´ees avec un grand nombre de transactions o`u chaque transaction contient un ensemble d’items 1. Il s’agit de trouver les r`egles qui associent la pr´esence d’un ensemble d’items avec la pr´esence d’un autre ensemble d’items. Formellement, soit I = i1; i2; ::::; in un ensemble d’items, D un ensemble de transactions, o`u chaque transaction T est un ensemble d’items tels que T  I . Une r`egle associative est une implication de la forme X ) Y o`u X 2 I , Y 2 I et X \ Y = . Deux mesures : le support et la conf iance sont traditionnellement utilis´ees pour d´ecouvrir les r`egles d’associations. Plusieurs algorithmes existent pour la construction des r`egles associatives. Notre choix s’est port´e sur l’algorithme APRIORI [AGRA94]. Des modifications ont e´ t´e apport´ees a` l’algorithme APRIORI pour l’adapter a` notre objectif de l’utilisation des r`egles d’associations. L’application de l’algorithme APRIORI pour la base d’images suppose que l’on d´efinisse dans ce cadre la notion de transaction et d’items. Pour cette application, on consid`ere que les caract´eristiques signal et les concepts sont des items. Dans le cas des collections COL1 C8 D4 et COL2 C8 D4, les transactions sont repr´esent´ees par les images alors que dans le cas des collections COL1 A C8 et COL2 A C8, les transactions sont repr´esent´ees par le couple caract´eristique signal et symbole.

7 Le processus d’´evaluation Nous avons envisag´e deux types d’´evaluations qualitatives des r`egles d’associations: d’une part du point de vue de l’´etiquetage s´emantique des r´egions et d’autre part du point de vue de l’indexation automatique des images.

7.1 Filtrage des r`egles d’associations La probl´ematique des r`egles d’associations est de d´ecouvrir s’il existe des associations fortes entre les caract´eristiques physiques de l’image, que ce soient les r´egions ou les caract´eristiques, et l’annotation symbolique. Pour cette raison, on a ajout´e la contrainte qui consiste a` avoir exclusivement une ou plusieurs caract´eristiques de l’image dans la partie gauche d’une r`egle d’associations et exclusivement un seul concept dans la partie droite d’une r`egle d’association.

7.2 Etiquetage s´emantique des r´egions Pour une r´egion C donn´ee d’une image, s’il existe une r`egle d’association R qui associe cette r´egion a` un concept S sous la forme C ) S alors on e´ value si cette r´egion correspond bien au 1. le terme “item” (traduction du terme anglais “article”) a pour origine les base de donn´ee de transactions de ventes. Un ensemble de n items est not´e “n-items”.

concept S . Dans le cas o`u plusieurs r`egles d’associations seraient s´electionn´ees pour une r´egion donn´ee, la r`egle qui poss`ede la plus grande valeur de confiance est utilis´ee pour associer un concept a` une r´egion. Deux mesures ont e´ t´e d´efinies pour e´ valuer les r´esultats. La premi`ere mesure, le Rappel des r´egions, not´ee Rappel r´egions, e´ value la capacit´e du syst`eme a` associer un concept avec une r´egion. nombre de r´egions associ´ees a` un concept Rappel r´egions = nombre de r´egions total de la collection La deuxi`eme mesure, not´ee Pr´ecision r´egions, e´ value la capacit´e du syst`eme a` associer le bon concept a` une r´egion. Pr´ecision r´egions =

nombre de r´egions correctement associ´ees a` un concept nombre de r´egions associ´ees a` un concept

Plus les valeurs de Rappel r´egion et de Pr´ecision r´egion sont importantes plus le syst`eme est jug´e performant pour e´ tiqueter s´emantiquement les r´egions des photographies.

7.3 Evaluation de l’indexation automatique Nous nous pla¸cons ici dans le cadre o`u les r`egles d’associations seront utilis´ees comme base d’indexation des photographies. Les concepts associ´es aux r´egions d’une image sont alors e´ valu´es par rapport aux concepts affect´es grˆace a` l’annotation manuelle des photographies. Nous avons d´efinit d’une part la compl´etude d’une image qui e´ value l’association d’un concept d’indexation correctement a` une image: nombre de concepts correctement associ´es a` une image Compl´etude d’une image = nombre de concepts associ´es manuellement a` une image La compl´etude moyenne des images est alors la moyenne des compl´etudes des images. Nous avons d´efinit d’autre part la compl´etude d’un concept qui e´ value l’association correcte d’un concept aux images: nombre d’association correcte du concept aux image Compl´etude d’un concept = nombre d’associations manuelles du concept aux images La compl´etude moyenne des concepts est alors la moyenne des compl´etudes des concepts. Ces deux mesures de compl´etude sont inspir´ees de [BERR97].

8 Exp´erimentations 8.1 Processus d’apprentissage Nous avons appliqu´e l’algorithme APRIORI aux 12 collections d’apprentissage. Les seuils de support minimum et de confiance minimum utilis´es pour les meilleures 4 collections d’apprentissage ainsi que les nombre de transactions, d’items, de 1-items fr´equents et de r`egles d’associations sont pr´esent´ees dans la Figue 6.

Nombre de transactions

Collection COL1 COL2 COL1 COL2

A C8 A C8 C8 D4 C8 D4

673 2866 67 67

Nombre de support confiance nombre de nombre de items dans minimum minimale 1-item r`egles la collection fr´equents d´ecouvertes 265 : : 200 33 158 : : 197 112 228 : : 59 996 120 : : 52 41557

0 002 0 001 0 02 0 06

0 05 0 05 01 02

F IG . 6 – Mesures utilis´ees pour lors du traitement des collections d’apprentissage

8.2 Processus d’´evaluation Nous avons s´electionn´e 100 images, qui ne font pas parties de la collection d’apprentissage, pour constituer notre collection test. A partir de cette collection, nous avons obtenu 12 collections tests en suivant la mˆeme approche que dans la section 4 appliqu´ee aux collections d’apprentissage. Pour les collections COL1 A C8 et COL1 C8 D4, le nombre de r`egles d’associations est tr`es faible. Les valeurs des mesures des rappels des r´egions et des concepts sont faibles, par cons´equent la compl´etude des images et la compl´etude des concepts le sont aussi. Ceci s’explique par le fait qu’il n’y a pas des r´ep´etitions fr´equentes dans ces collections. Cette approche de repr´esentation des caract´eristiques des images semble alors trop rigide pour permettre des d´ecouvertes d’associations entre des donn´ees de l’image et des donn´ees symboliques. L’utilisation des caract´eristiques ind´ependantes dans le cas des collections COL2 A C8 et COL2 C8 D4 permet d’indexer toutes les images. Ceci s’explique par le fait que cette approche est plus souple que la premi`ere. En effet, a` la diff´erence des collections mentionn´ees en haut o`u il faut que toutes les caract´eristiques d’une r´egions soient associ´ees a` un concept dans une r`egle d’association pour que la r´egion soit associ´ee a` ce concept, une r´egion est associ´ee a` un concept mˆeme si quelques caract´eristiques ne sont pas associ´ees a` ce concept. L’approche non supervis´ee a permis d’avoir des meilleures r´esultats que celle supervis´ee. En effet, cette derni`ere semble restrictive du fait qu’elle ne permet pas de construire des r`egles d’associations qui n’existent pas d´ej`a dans les donn´ees d’apprentissage. Avec les nouvelles donn´ees tests, elle n’est pas capable de se prononcer sur les associations latentes probables. Par contre, l’approche non supervis´ee est capable de d´ecouvrir des associations nouvelles entre les donn´ees de l’apprentissage. Cet avantage lui permet de d´ecouvrir un grand nombre de r`egles d’associations et donc d’ˆetre plus performante sur les donn´ees a` tester. Collection Nombre de couleur principale Nombre de couleur secondaire avant la r´eduction 67 88 apr`es la r´eduction 26 39 F IG . 7 – Nombre d’occurrence des couleurs avant et apr`es la r´eduction Les r´esultats des e´ valuations augmentent au fur et a` mesure qu’on r´eduit le nombre des couleurs et/ou les directions. La division des couleurs par 8 a permis de r´eduire le nombre des couleurs presque de la moiti´e (Figure 7). Du coups, le nombre total de caract´eristiques de la collection a diminu´e. Cette r´eduction du nombre de caract´eristiques s’explique en fait par la fusion de plusieurs caract´eristiques repr´esentant les couleurs principales ou secondaires en une seule caract´eristique

repr´esentant la couleur principale ou secondaire. Cette fusion permet aux caract´eristiques d’ˆetre plus fr´equentes, nous avons donc davantage 1-items fr´equents et donc davantage de r`egles d’associations. Directions direction principale 18 direction principale 00 direction secondaire 00 direction secondaire 18 direction secondaire 27

Nombre d’occurrences 105 81 66 58 31

F IG . 8 – Les cinq directions les plus fr´equentes avant la r´eduction des directions

La r´eduction des directions a moins d’influence que la r´eduction des couleurs sur le nombre d’ associations entre les r´egions et les concepts. Cela est dˆu au fait qu’il n’y a pas trop de variations des directions dans les r´egions c’est-`a-dire qu’un petit nombre de directions est plus pr´esent dans les r´egions et qui forme la majorit´e des directions associ´ees aux r´egions. La r´epartition des directions dans la collection n’est pas e´ gale (Figure 8). Avec la r´eduction des directions cette in´egalit´e est plus pertinente (Figure 9). Directions Nombre d’occurrences direction principale 0 202 direction secondaire 0 142 direction secondaire 2 62 direction secondaire 3 48 direction principale 2 47 F IG . 9 – Les cinq directions les plus fr´equentes apr`es la r´eduction des couleurs

Nous pr´esentons dans la Figure 10, les r´esultats des quatre collections jug´ees les meilleures pour notre objectif d’indexation automatique. La collection test COL2 C8 D4 est celle qui permet d’avoir les meilleures performances. COL1 A C8 Compl´etude moyenne des images compl´etude moyenne des concepts Rappel r´egions Pr´ecision r´egions

5 29% 1 10% 7 35% 40% :

:

:

COL2 A C8

44 72% 12 08% 78 36% 66 33% :

:

:

:

COL1 C8 D4 COL2 C8 D4

29 47% 6 87% 26 69% 50 26% :

:

: :

59 3% 19 33% 80 88% 87 27% :

:

:

:

F IG . 10 – R´esultats des e´ valuations

On remarque que la compl´etude moyenne des images est sup´erieure a` la compl´etude moyenne des concepts. Ceci s’explique par le fait que le nombre d’occurrences de certains concepts, tels que Ciel ou Fa¸cade Immeuble, qui sont pr´esents dans presque toutes les images, est tr`es important par

rapport au nombre d’occurrence des autres concepts tels que Piscine ou Rocher qui occurrent dans une ou deux images ce qui fait qu’ils ne sont pas des 1-items fr´equents et donc ces concepts ne peuvent pas eˆ tre associ´es a` une r´egion.

9 Conclusion Notre objectif est de combiner les donn´ees textuelles avec celles qui proviennent du signal dans un but d’indexation automatiques des images. Il s’agit d’am´eliorer la qualit´e d’un SRIM en vue d’obtenir une indexation s´emantique. On a e´ t´e emmen´e a` r´efl´echire sur l’approche a` suivre pour aboutir a` cet objectif. Pour l’atteindre, nous avons consid´er´e des associations entre des caract´eristiques signal et des caract´eristiques symboliques. La technique des r`egles d’associations permet de r´epondre pr´ecis´ement a` ce besoin. Nous avons choisit une approche par apprentissage dans un contexte de collection d’images homog`enes. Les r´esultats de nos exp´erimentations montrent qu’un processus de fouille peut eˆ tre utilis´e pour combiner deux sources de donn´ees diff´erentes, dans notre contexte des donn´ees signal et des donn´ees symboliques. La FDI est alors une perspective int´eressante pour l’indexation automatique des images. Nous avons montr´e dans cet article la faisabilit´e et l’efficacit´e de notre approche. Les prochaines phases de notre e´ tude consistent a` augmenter la taille des collections tout en essayant d’avoir plus d’´equilibre entre le nombre de caract´eristiques signal et le nombre de caract´eristiques symboliques ainsi qu’une meilleure r´epartition des symboles dans les images. La phase suivante consistera a` appliquer notre approche dans un SRIM. Une indexation automatique des images a` l’aide d’un processus de FDI et une repr´esentation des index avec les graphes conceptuels permettront d’´evaluer l’impact de notre approche sur des sessions de recherche d’images.

R´ef´erences [AGRA94] R. Agrawal and R. Srikant. Fast algorithms for mining association rules. In Proc. of the 20th International Conference on Very Large Databases, Santiago, Chile, pages 487–494, Septembre 1994. [BERR97] C. Berrut. Indexation des donn´ees multim´edia, utilisation dans le cadre d’un syst`eme de recherche d’information, Octobre 1997. Habilitation a` diriger des recherches, Universit´e Joseph Fourrier. [FLIC95]

M. Flickner, H. Sawhney, W. Niblack, J. Ashley andQ. Huang, , B. Dom, and al. Query by image and video content: The qbic system. In IEEE Computer, 28(9), pages 23–32, 1995.

[GERY99] M. G´ery and M. H. Haddad. Knowledge discovery for automatic query expansion on the world wide web. In Workshops on Evaluation and Change in Data Managemen, Reverse Engeneering in Information Systems and the World Wide Web and Conceptual Modeling, Paris, France, pages 334–347, Novembre 1999. [GEVE97] T. Gevers and A. W. M. Smeulders. Pictoseek: A content-based image search engine for the www. In In Proceedings of VISUAL’97, San Diego, USA, 1997. [GONG99] Y. Gong. Advancing content-based image retrieval by expoliting image color and region features. Multimedia Systems, 7(6):449–457, 1999.

[HADD00] M. H. Haddad, JP. Chevallet, and MF. Bruandet. Relations between terms discovered by association rules. In th European conference on Principles and Practices of Knowledge Discovery in Databases PKDD’2000, Workshop on Machine Learning and Textual Information Access, Lyon France, Septembre 2000. [HAN96]

Jiawei Han. Data mining techniques. In ACM-SIGMOD’96 CONFERENCE TUTORIAL, page 545, Juin 1996.

[LACA98] M. La Cascia, S. Sethi, and S. Sclaroff. Combining textual and visual cues for contentbased image retrieval on the world wide web. In Proc. IEEE Workshop on ContentBased Access of Image and Video Libraries, Santa Barbara, CA., pages 24–29, Juin 1998. [MANJ96] B. S. Manjunath and W. Y. Ma. Texture features for browsing and retrieval of image data. In IEEE Transactions on Pattern Analysis and Machine Intelligence, pages 18(8):837–42, Aoˆut 1996. [ORDO99] C. Ordonez and E. Omiecinski. Discovering association rules based on image content. In Proceedings of the IEEE Advances in Digital Libraries Conference (ADL’99), Mai 1999. [PENT94] A. Pentland, R. Picard, and S. Sclaroff. Photobook: Tools for content-based manipulation of image databases. In SPIE Storage and Retrieval of Image & Video Databases II, pages 34–47, F´evrier 1994. [RASM97] E. Rasmussen. Indexing images. In Annual Review of Information Science and Technology (ARIST), 32:169–196, 1997. [RUI98]

Y. Rui, T. Huang, and S. Chang. Image retrieval: Past, present and future. Journal of Visual Communication and Image Representation, 10:1–23, 1998.

[SCLA97] S. Sclaroff, L. Taycher, and M. La Cascia. Imagerover: A content-based image browser for the world wide web. In IEEE Workshop on Content-based Access of Image and Video Libraries, pages 10–17, Juin 1997. [SCLA99] S. Sclaroff, M. La Cascia, L. Taycher, and S. Sethi. Unifying textual and visual cues for content-based image retrieval on the world wide web. In Journal of Computer Vision and Image Understanding special issue on content-based access of image and video libraries, pages 86–98, Juin 1999. [WEST00] T. Westerveld. Image retrieval: Content versus context. In RIAO 2000, Coll`ege de France, Paris, France, pages 276–284, Avril 2000.