Modélisation des métadonnées pour une ... - Semantic Scholar

Nous avons élaboré ce prototype à l'aide de OWS (Oracle Web Server) et nous avons construit non pas des documents XML mais des documents XHTML qui ...
79KB taille 13 téléchargements 420 vues
Modélisation des métadonnées pour une recomposition dynamique des documents Ikram Amous, Anis Jedidi IRIT, Université Paul Sabatier, Equipe SIG 118 route de Narbonne, 31062 Toulouse Cedex 4 Tel : 05 61 55 63 22 Fax : 05 61 55 62 58 {amous, jedidi}@irit.fr RÉSUMÉ.

Ce papier présente une solution pour faire face aux problèmes de présentation et d’organisation de documents. Cette solution passe par la création d’un entrepôt de documents multimédia enrichi par les métadonnées élicitées (pour chaque type de média), modélisées et structurées dans des méta-documents. Pour homogénéiser les structures de représentation de ces méta-documents, nous utilisons une phase d’indexation et de segmentation de documents. L’entrepôt ainsi créé est vu comme l’hyperbase sur laquelle l’utilisateur pourra appliquer des mécanismes de personnalisation, d’interrogation, etc. La personnalisation visée passe par des solutions permettant la restructuration et la reconstruction dynamique d’une collection de documents. Cette démarche est basée sur l’extension de la méthodologie OOHDM en exploitant le concept de métadonnées. ABSTRACT.

This paper presents a solution to cope with document management problems. This solution is based on a document warehouse enriched by metadata (for each media type) elicited, modeled and structured in meta-documents. To homogenize these meta-document representation, we use a document indexing and segmentation process. The warehouse thus created is seen as the hyperbase to which the user will apply personalization and querying mechanisms. The personalization allows dynamic structuring and re-construction of documents. This approach is based on the OOHDM methodology extension with the concept of metadata. MOTS-CLÉS : Génération dynamique des documents, documents semi-structurés, métamodélisation, métadonnées. KEYWORDS:

Dynamic document generation, semi-structured documents, meta-modeling, metadata.

1. Introduction L’augmentation du volume d’informations sur le net et le besoin de les personnaliser posent le problème de la gestion des profils utilisateurs. Ces difficultés sont à l’origine de la mise en œuvre de « portails » sur le Web mais surtout de nombreux travaux sur la nécessité d’organiser les documents afin de faciliter l’échange de données entre plusieurs applications d’entreprise [CPE 01]. Une solution partielle repose sur la création d’un entrepôt de documents au sens d’une base d’objets documentaires personnalisée [SED 98]. Cette dernière est utilisée pour proposer une structure locale aux documents et organiser les données de façon dynamique selon les besoins des utilisateurs. L’approche que nous proposons s’intéresse à des collections de documents multimédia. À partir de ces collections de documents, nous soumettons une extension basée sur un ensemble de métadonnées spécifiques à chaque type de média. L’extraction de métadonnées est réalisée au moyen de fonctions spécifiques à chaque média. Les métadonnées élicitées sont structurées dans des documents appelés « méta-documents », utilisés pour enrichir l’entrepôt ainsi créé. Pour créer des documents de façon dynamique, nous proposons d’utiliser une des méthodologies de conception d’applications hypermédia : la méthodologie OOHDM (Oriented Object Hypermedia Design Methodology) [SCH 95]. Cette dernière intervient ici pour assurer l’homogénéité et la cohérence globale de cet ensemble de documents semi-structurés. Nous proposons donc d’étendre cette méthodologie par l’introduction des métadonnées dans les documents et la capacité de les interroger comme toute autre donnée. Pour construire les documents de façon dynamique, nous utilisons les vues abstraites définies à l’aide des ADVs (Abstract Data View), proposées par la méthode. Dans ce papier, nous allons présenter notre réflexion concernant d’abord la modélisation des méta-documents, ensuite la restructuration des documents à l’aide de OOHDM. Cet article se décompose comme suit. La section 2 présente la modélisation des méta-documents. La section 3 présente notre proposition d’extension de la méthodologie OOHDM par les métadonnées. La section 4 présente le positionnement de nos travaux par rapport à des travaux adressant la même problématique et la section 5 conclut. 2. Modélisation des métadonnées Une récente branche d’activités touchant à la description des documents par leur contenu a fait l’objet d’un appel à proposition du groupe MPEG pour la norme MPEG-7 [MPE 01]. Cette dernière conduit à une description du contenu dans un mode indépendant du langage. MPEG-7 s'attache seulement à la description standardisée des informations audiovisuelles. Ces descriptions permettent en particulier la recherche et le filtrage des données audiovisuelles, mais ne fournissent pas une représentation des bases

de données antérieures. Pour couvrir ces besoins, nous proposons des métadonnées structurées en méta-documents [AMO 01]. Pour homogénéiser les structures de représentation des documents multimédia par des métadonnées, nous utilisons une première phase d’indexation et de segmentation de documents (élaborées médium par médium). Nous présentons dans ce qui suit une modélisation des méta-documents ainsi créés pour chaque type de média et leur méta modélisation. Si les outils de reconnaissances d’indexation et de segmentation ne donnent pas de résultats exploitables, l’utilisateur peut procéder par une annotation manuelle des métadonnées. 2.1 Le médium texte L’annotation de ce type de medium est réalisée par un ensemble de métadonnées pouvant être extraites par le moyen d’outils comme Exrep (EXtended Regular Expression Processor) [CHR 95] (IRIT). Ces métadonnées sont structurées dans un méta-document ayant la racine « fichier_texte ». La reconnaissance de structures dans un texte passe par l’identification de granules documentaires, indexés par les mots clés caractéristiques extraits de leur contenu. L’indexation du document texte peut s’appliquer à différents niveaux de granularité, chapitre, section, paragraphe, … Afin d’éviter de fixer un niveau a priori et de s’adapter au besoin et contexte, nous proposons d’attribuer le nom « Unité Textuelle » (UT) pour le niveau de granularité choisi par l’utilisateur. Chaque UT est identifiée par l’attribut « id_ut » : une chaîne de caractères constituée du contenu d’une balise suivi d’un numéro d’ordre attribué en fonction de la position relative des UTs et du niveau d’imbrication [SED 98]. Nous proposons l’annotation de chaque UT, par des métadonnées telles que : les mots clés, les liens sortants et les liens entrants. Cet ensemble de métadonnées est modélisé comme suit : f ic h ie r _ t e x t e n o m la n g a g e t a ille t y p e

1 ..* U T

0 ..*

id _ u t t it r e _ u t t y p e _ u t 0 ..* lie n _ s o r t a n t id _ ls

Figure 1 : Le modèle du médium texte

0 ..* lie n _ e n t r a n t id _ le

0 ..* m o t _ c le id _ m c

2.2 Le médium audio La description des documents sonores nécessite des techniques développées permettant la résolution des problèmes de segmentation, d’indexation et d’extraction : - les processus d’indexation utilisant par exemple les techniques de reconnaissance de paroles, permettent d’élaborer des motifs d’indexation de ces documents via les mots clés reconnus [SCH 99], - les processus de segmentation permettent de construire une liste de segments par nature de son (parole, musique, bruit) [GAU 00], - les outils d’extraction de signal permettent de répertorier les différentes ondes sonores par amplitude, par largeur, … comme l’outil Transcriber [BAR 98]. Les résultats de ces trois processus sont utilisés pour annoter les documents audio par les métadonnées, en se basant sur le niveau d’indexation ‘segment’. Chaque segment audio est représenté par la classe « segment », identifié par l’attribut « id_segment » [PIN 01] (IRIT). Dans notre modélisation, nous utilisons deux natures de segment : ‘parole’ et ‘musique’, tout en les découpant respectivement en segments parole par locuteur et segments musique par instrument. Cet ensemble de métadonnées est modélisé de la façon suivante : fic h ie r _ a u d io n o m la n g a g e ta ille ty p e

1 ..* s e g m e n t id _ s e g m e n t d u r e e n a tu r e

0 ..*

s e g m e n t_ p a r o le 0 ..*

1 lo c u te u r n o m _ lo c u te u r s e x e _ lo c u te u r

1 ..* m o t_ c le _ lo c u te u r id _ m c l

s e g m e n t_ m u s iq u e 0 ..* 1 in s tr u m e n t n o m _ in s tr u m e n t

0 ..* 1 ..* s o n _ c le id _ s c

Figure 2 : Le modèle du médium audio 2.3 Le médium image Dans le cas du médium image, nous proposons des métadonnées textuelles et graphiques extraites en se basant sur des techniques de traitements, d’analyse et de reconnaissance de formes [DES 97] (IRIT) en plus des techniques d’OCR (Optical Character Recognition) permettant la recherche de mots clés dans l’image.

Les métadonnées sont structurées dans un méta-document ayant la racine « fichier_image ». Les processus de segmentation s’attachent à identifier des régions ou formes auxquelles sont associés des motifs tels que couleur, texture,… Nous utilisons les résultats de ces processus de segmentation en décomposant une image en plusieurs régions. Une région est représentée par la classe « region », identifiée par l’attribut « id_region ». Pour chaque région, on identifie des textures, des formes, un histogramme de couleur et un ensemble de mots clés, représentés respectivement dans les classes « texture », « forme », « hist_couleur » et « mot_cle_image ». Cet ensemble de métadonnées est modélisé de la façon suivante : fic h ie r _ im a g e n o m la n g a g e ta ille ty p e

1 ..* r e g io n id _ r e g io n

0 ..1 h is t_ c o u le u r id _ R id _ G id _ B

0 ..*

te x tu r e id _ te x tu r e

0 ..* fo r m e id _ fo r m e

0 ..* m o t_ c le _ im a g e id _ m c i

Figure 3 : Le modèle du médium image

2.4 Le médium vidéo Le processus d’extraction et d’indexation de mots clés se retrouve pour la vidéo avec les techniques de reconnaissance de caractères adaptées à la vidéo (VOCR), en plus des techniques d’extraction d’images clés et de sons clés [RUI 01] (IRIT) pour générer une table des matières. Le résultat de cette indexation est utilisé pour annoter un document vidéo dans un méta-document ayant la racine « fichier_video ». Dans le cas du médium vidéo, nous utilisons le niveau d’indexation ‘séquence’. Une séquence est identifiée par l’attribut « id_sequence ». Pour chaque séquence, nous représentons les métadonnées mots, sons et images clés respectivement par les classes « mot_cle_vdo », « son_cle_vdo » et « image_cle_vdo ».

Cet ensemble de métadonnées est modélisé de la façon suivante : fic h ie r _ v id e o n o m la n g a g e ta ille ty p e

1 ..* s e q u e n c e id _ s e q u e n c e d u r e e n b _ s c e n e n b _ p la n

0 ..* m o t_ c le _ v d o id _ m c v

0 ..* im a g e _ c le _ v d o id _ ic v

0 ..* s o n _ c le _ v d o id _ s c v

Figure 4 : Le modèle du médium vidéo 2.5 Le métamodèle Notre premier objectif est l’annotation des documents multimédia en utilisant des structures de métadonnées homogènes médium par médium. Ces structures sont appliquées selon les niveaux d’indexation et de segmentation des documents. Le métamodèle de représentation de ces structures de documents regroupe cinq classes d’entités qui sont les suivantes : - la classe « fichier » avec l’attribut « nom_f », permettant d’identifier chaque fichier, - la classe « type_fichier » avec l’attribut « typ_f », faisant référence aux quatre types de média, - la classe « element » avec l’attribut « nom_e », permettant d’identifier les éléments par lesquels vont être annotés les documents de la base, - la classe « type_element » avec l’attribut « typ_e », faisant référence aux quatre types de média, - la classe « attribut » avec l’attribut « nom_a », annotant l’ensemble des attributs référençant les différents éléments et la balise racine.

Cet ensemble de classes est modélisé de la façon suivante : 0 ..* E s t d e

fic h ie r n o m _ f

0 ..* e le m e n t n o m _ e

1

ty p e _ fic h ie r ty p _ f

1

ty p e _ e le m e n t ty p _ e

ty p e

0 ..* D e ty p e

0 ..* 0 ..* 0 ..*

a ttr ib u t n o m _ a

Figure 5 : Le méta modèle global Notre deuxième objectif étant de restructurer les documents selon les besoins des utilisateurs, nous proposons alors d’utiliser la méthodologie OOHDM et de la combiner avec une approche par les métadonnées. 3. Recomposition dynamique des documents OOHDM est basée sur plusieurs modèles pour la construction d'applications hypermédia. Elle comprend quatre étapes dont chacune est décrite par un ensemble de modèles : modélisation conceptuelle, conception navigationnelle, conception de l’interface et implémentation. Nous allons illustrer cette méthodologie sur un exemple d’application concernant des sites Web, un site Web étant vu comme une collection de documents. Cet exemple est utilisé pour montrer comment étendre la méthodologie OOHDM par les métadonnées afin de créer des documents dynamiques. 3.1 Modélisation conceptuelle Le but de cette étape est de capturer la sémantique du domaine qui sera représentée dans un modèle du domaine d’applications, à l’aide d’une notation UML. Chaque classe est composée d’attributs et de clés qui font partie des attributs. Chaque classe est reliée à d’autres classes par des liens ayant un type, un nom et des cardinalités. Pour chaque classe, on propose d’associer une classe méta contenant des métadonnées extraites [AMO 01] à partir des documents et regroupant tous les « méta-documents ». La classe méta est elle-même une classe générique. Chaque classe méta est alors composée de zéro ou plusieurs fichiers (fichiers contenant les métadonnées d’un fichier image, fichiers contenant les métadonnées d’un fichier texte, etc.).

Nous nous sommes basés dans cette étape sur les travaux antérieurs de l’équipe, parmi lesquels [DJE 99], [RIA 00] qui présentent un méta-schéma utilisé pour assurer le stockage des documents dans une base de données. Le méta-schéma conceptuel utilisé pour concevoir notre application est comme suit : e s t r e lié e à

0 ..* 0 ..* E st d e

fic h ie r n om _f

c la sse _ g e n

0 ..*

0 ..*

0 ..* 0 ..*

0 ..*

ty p e _ fic h ie r ty p _ f

0 ..* 1 ty p e _ e le m e n t E st d e ty p e ty p _ e

e le m e n t n om _e

c la s s e _ m é t a

c la s s e

1

0 ..*

C lé _ c la s s e

0 ..* 0 ..*

a ttr ib u t n om _a

0 ..*

a t t r ib u t _ c la s s e

Figure 6 : Méta-schéma global La figure 7 montre une instance du méta-schéma (cf. figure 6), relative à l’application utilisée dans ce papier. Ce schéma n’est pas un schéma de base de données classique mais il est issu de documents électroniques représentant un site quelconque (exemple : site de l’IRIT). r e g ion i d _ r e g ion

1..*

0 ..*

0 .. *

0 . .1 h is t_ co u le u r id _ R id _ G id _ B

te x tu r e i d _ t e x tu r e

for m e id _ fo r m e

segment id_segment duree nature

segment_parole 0..*

0..* 1

0 ..*

fichier_au dio

0..* 1 instrument nom_instrument

sequence id _ s e q u e n c e d u re e nb _scene n b _ p la n

0 ..* m o t_ c le _ v d o id _ m c v

1 ..*

segment_musique

1..* mot_cle_locuteur id_mcl

locuteur sexe_locuteur nom_locuteur

0 . .* m o t_ c l e_ i m a g e id _ m c i

UT

0 ..* s o n _ c le _ v d o id _ sc v

1 ..*

id _ ut titr e_ ut typ e_ u t 0..* lien _ sor tan t id _ ls

0 ..* lien _ en tr ant id _le

no m lang age taille typ e

0..* m ot_cle id _m c

Figure 7 : Instance du méta-schéma

S it_m éta

U D _m é ta

1 ..* D o c u m e nt D o c _m éta

fich ier_ video no m lan g age taille type

0 ..*

f ichier_ tex te

0 ..*

n om lan gage taille typ e

UD N° ty pe

0 ..*

0..* 1..* son_cle id_sc

1 ..*

0 ..* im a g e _ c le _ v d o id _ ic v

fichier_ im age n om 0 ..* lan gag e taille typ e

R a p po rt_ in te rne

S ite

1..* N° T itre D es c

M a n u e l_ utilis a te u r

N° Nom URL

P u b lic a tio n

P a g e _p e rs o

C om p te_ re n d u

Chaque site (ayant un nom et une URL) contient plusieurs documents et chaque document est composé d’une ou de plusieurs unités documentaires (UD) (cf. 2) ayant un type particulier (image, texte, audio, vidéo). Chaque document peut être un rapport interne, un manuel utilisateur, une publication, une page personnelle, etc. A chacune de ces classes, on attribue une classe méta contenant toutes les métadonnées utilisées pour annoter tout type de document. L’instanciation des classes méta relatives à chaque site et document donne un méta-document contenant les métadonnées extraites. 3.2 Conception navigationnelle La conception navigationnelle est exprimée dans deux schémas : le schéma de classes navigationnelles et le schéma de contextes navigationnels [AMO 01]. 1. Le schéma de classes navigationnelles Les objets navigables d’une application hypermédia sont définis par un schéma de classes navigationnelles dont les classes reflètent une vue choisie autour du domaine d’application. On ne représente dans ce schéma que les éléments importants et les attributs de type ‘Ancre’ utilisés pour représenter les liens entre les classes. 2. Le schéma de contexte navigationnel L’espace de navigation est structuré en utilisant la notion de contexte navigationnel. Ce contexte est complémentaire de la définition des classes navigationnelles et indique quelle information est vue et quelles ancres sont valables quand on accède à un objet dans un contexte particulier. Nous proposons d’intégrer les métadonnées même dans le contexte de navigation comme par exemple « afficher les documents par mots clés » (sachant que « mots clés » est considéré comme une métadonnée). 3.3 Définition de l’Interface Les ADVs permettent de définir l’apparence de l’interface des objets navigationnels et ceux d’interface (barre de menu, bouton, etc.). Les métadonnées générées seront prises en compte dans les ADVs et peuvent même être visualisées dans les nouveaux documents créés dynamiquement. Elles sont considérées comme toute autre donnée faisant partie des documents. 3.4 Validation Notre but est de générer dynamiquement « à la volée » des documents répondant aux requêtes des utilisateurs. Ces documents (au nombre de N, par exemple) avec leur métadocuments (M, sachant que M>=N) existent dans la base d’objets documentaires. Le résultat de chaque requête est constitué de documents (K, sachant que K METADONNEES … … document suivant // la fonction p_these.affich_doc permet de revenir à la liste des documents du site (‘IRIT’ par exemple) pour pouvoir //sélectionner et afficher les données et les métadonnées du document suivant du site site suivant // la fonction p_these.affich_sit permet de revenir à la liste des sites s’intéressant à la ‘RI’ dans ce cas.

Pour améliorer le mode d’affichage de cette vue, nous proposons de la décomposer pour être représentée sur deux vues différentes : par exemple, la première contient les données sélectionnées et la deuxième contient les métadonnées sélectionnées. Dans ce cas, on ajoute aussi des liens Xlink pour permettre le passage entre les deux vues. Le contenu de ces deux vues est alors : < ?xml version=”1.0”> DONNEES … …. vue suivante // la fonction p_these.affich_md permet de passer à la vue 2 // pour afficher les métadonnées sélectionnées. Vue 1 du document

< ?xml version=”1.0”> <METADATA> METADONNEES … … vue précédente // la fonction p_these.affich_d permet de passer à la vue 1 // pour afficher seulement les données sélectionnées. Vue 2 du document

Figure 10 : Représentation d’un document sur deux vues - La deuxième consiste à n’afficher pour chaque document que les unités documentaires (cf. figure 7) qui intéressent l’utilisateur et leurs métadonnées [AMO 02].

Les documents générés sont dans ce cas une combinaison « à la volée » d’unités documentaires répondant aux requêtes (ces unités sont structurées dynamiquement en documents). Ce principe de génération de documents répondant à la requête peut être résumé dans le schéma suivant : Vue du document 1 du site IRIT

Deuxième méthode

Sites

RI

IRIT IMAG UT1

Liste des documents IRIT du ²ite



- Système



- Gestion de Profils

… ⑤

Données: le contenu de l’UD1 le contenu de l’UD2

Page dynamique Données (UD) Métadonnées

Afficher



Métadonnées: de -l’ud1 Mots_cles:… Liens entrants:…



de l’ud2 … Document suivant Site suivant

Figure 11 : Restructuration des documents selon la deuxième méthode Dans l’exemple, les unités documentaires affichées sont celles relatives à la « RI ». Dans ce cas, nous proposons d’utiliser outre Xlink [W3C 00], Xpointer [W3C 01] pour passer d’une unité à l’autre. En utilisant cette deuxième méthode, le contenu de chaque document est alors représenté à l’aide de la syntaxe XML comme suit : DONNEES ud1... //contenu de l’UD 1 DONNEES ... //contenu de l’UD METADONNEES … … … …. vue précédente // la fonction p_these.affich_d2 permet de passer à la vue 1 pour // afficher les unités documentaires

Vue 1 du document

Vue 2 du document

Figure 12 : Représentation d’un document sur deux vues Nous avons élaboré ce prototype à l’aide de OWS (Oracle Web Server) et nous avons construit non pas des documents XML mais des documents XHTML qui tiennent compte des formes de représentation HTML et les appliquent au code XML représenté ci-avant. 4. Approches similaires L’absence de structuration des documents au sein de collections (comme on en rencontre sur le Web) empêche leur repérage et rend difficile leur parcours. Cette problématique a conduit à l’apparition de plusieurs travaux proposant l’utilisation des métadonnées pour mieux appréhender les documents et améliorer leur consultation. En effet, [ADI 99] propose un modèle orienté objet pour une représentation spatiotemporelle des documents multimédia. [BOH 94] présente une classification et une identification des métadonnées pour les documents multimédias. MPEG7 [MPE 01] fournit un ensemble riche d’outils standardisés pour décrire le contenu multimédia. Il vise à offrir un ensemble complet d’outils de description audiovisuelle créant ainsi des descriptions pour les documents et permettant l’accès au contenu.

Ces travaux proposent des ensembles de métadonnées utiles pour l’annotation des collections de documents à venir mais ne tiennent pas compte des métadonnées média (instanciées par des valeurs audio ou image) qui peuvent être élicitées et modélisées. Notre proposition concerne donc l’introduction et la modélisation des métadonnées média en plus des métadonnées textuelles existantes pour représenter les bases de données antérieures. Plusieurs systèmes ont été créés pour la reconstruction de documents de façon dynamique. Araneus [ATZ 97] et Strudel [FER 98] se basent sur des systèmes de gestion de bases de données pour la création de sites Web. WebML [CER 00] quant à lui est un langage qui supporte une syntaxe XML permettant l’implémentation des sites Web. Ses propositions incluent HDM, OOHDM et Araneus. Ces travaux proposent un ensemble de concepts utiles pour la conception de collections de documents mais ne tiennent pas compte des métadonnées pouvant être élicitées et modélisées. C’est ici qu’intervient notre proposition par l’introduction des métadonnées dans la conception de documents de façon dynamique. 5. Conclusion Le besoin de personnaliser pose plusieurs problèmes de gestion de profils utilisateurs, de stockage de données, de gestion de droits et temps d’accès. Les mécanismes de personnalisation utilisent des services locaux, dans le but d’adapter les contenus et/ou les structures (si elles existent), de contrôler leurs flux et surtout d’en assurer la persistance. La solution que nous proposons passe par la création d’un entrepôt de documents pour donner une structure locale aux documents et organiser les données de façon dynamique selon les besoins des utilisateurs. L’existence des documents semi-structurés a amené à introduire la notion de métadonnées que nous proposons de modéliser et d’ajouter dans notre modèle de conception afin d’améliorer la recherche. Nous proposons d’intégrer ces métadonnées dans la conception des applications et de les utiliser dans le cadre de la méthodologie OOHDM afin de construire et restructurer les documents de façon dynamique. Les perspectives de nos travaux concernent : - la prise en compte dans le prototype des différentes métadonnées qui peuvent être elles même multimédia (c’est à dire instanciées par des valeurs audio, vidéo), - l’extension des opérateurs des langages de requête pour pouvoir interroger non seulement du texte mais aussi des segments vidéo, audio, et image. 6. Références [ABI 99] Abiteboul S., “On views and XML”, PODs99, Proceedings of the Eighteenth ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems, p. 1-9, May 1999.

[ADI 99] Adiba M., Zechinelli-Martini JL., “Spatio-temporal Multimedia Presentations as Database Objects”, DEXA’99, Vol. 1677, p. 974-985, 1999. [AMO 01] Amous I., Chrisment C., Sèdes F., “Etendre une approche méthodologique pour la réingénierie des sites Web“, Revue Ingénierie des Systèmes d’Informations (ISI), vol. 6, n° 3, p. 119-144 , 2001. [AMO 02] Amous I., Sèdes F., “Reconstruction dynamique de documents”, Revue Extraction des Connaissances et Apprentissage (ECA), vol. 1, n° 4, p. 363-374, 2002. [ATZ 97] Atzeni P., Mecca G., Merialdo P., “To Weave the Web“, In Proceedings of the 23rd International Conference on Very Large Databases (VLDB'97), p. 206-215, 1997. [BAR 98] Barras C., Geoffrois E., Wu Z., Liberman M., “Transcriber: a Free Tool for Segmenting, Labeling and Transcribing Speech“, First International Conference on Language Resources and Evaluation (LREC), p. 1373-1376, may 1998. http://www.etca.fr/CTA/gip/Projets/Transcriber/ [BOH 94] Böhm K., Rakow TC., “Metadata for multimedia documents“, SIGMOD-RECORD, vol. 23, n° 4, p. 21-26, décembre 1994. [CER 00] Ceri S., Fraternali P., Bongio A., “Web Modeling Language (WebML): a modeling language for designing Web sites“, 9th International World Wide Web Conference The Web : the next generation, Amsterdam, May 15 - 19, 2000. http://www9.org/w9cdrom/177/177.html [CHR 95] Chrisment C., Comparot C., Julien C., Lambolez P.Y., Sèdes F., “EXREP : un outil générique de réécriture pour l’extraction d’informations textuelles“, ISI Ingéniérie des systèmes d’Information, Vol. 3, n° 4, p. 471-487, 1995. [CPE 01] CPExchange Working Group – CPExchange, “Global standards for privacy-enabled customer data exchange“, 2001. http://www.cpexchange.org [DES 97] Desachy J., “Image processing, signal processing, and synthetic aperture radar for remote sensing“, SPIE proceedings series, vol. 3217, London, Eds: SPIE, septembre 1997. [DJE 99] Djennane S., “Modélisation d’hyperbase : Intégration de documents semi-structurés et composante sonore“, thèse UPS, mai 1999. [FER 98] Fernandez M., “Overview of Strudel – A Web site management system“, Networking and information system journals, Vol. 1, n° 1, p. 115-140, 1998. [GAU 00] Gauvain J-L., Lamel L., Adda G., “Transcribing Broadcast News for Audio and Video Indexing“, Communication of the ACM, Vol. 43, n° 2, p. 64–67, février 2000. [MPE 01] Mpeg-7, “A gateway into the world of content management and the interface between industry and the MPEG community“, Juillet 2001. http://www.mpeg-7.com [PIN 01] Pinquier J., “La première étape d'un système d'indexation audio (Parole/Musique/Bruit)“, Rencontres Jeunes Chercheurs en Parole (RJC Parole'2001), p. 107-109, septembre 2001, Belgique.

[RUI 01] Ruiloba Rosario I., “Analyse et description du montage vidéo numérique“, Thèse Université Pierre et Marie Curie Paris 6, décembre 2001. [RIA 00] Riahi F., “Elaboration automatique d’une base de données à partir d’informations semistructurées issues du web“, thèse, UPS – Toulouse 3, mai 2000. [SCH 99] Scheirer ED., “Towards music understanding without separation: segmanting music with correlogram comodulation“, In Proc IEEE Workshop on signal Processing to Audio and Acoustics, 1999, Mohonk, NewYork. [SCH 95] Schwabe D., Rossi G., “The Object-Oriented Hypermedia Design Model“, CACM, vol. 38, n° 8, p. 45-46, 1995. [SED 98] Sèdes F., “Bases documentaires - Hyperbases : Proposition d'un modèle générique et contribution à la spécification d'un langage pour l'intégration et la manipulation d'informations semi-structurées“, HDR, UPS – Toulouse 3, décembre 1998. [W3C 00] W3C Recommendation, “XML Linking Language (XLink) Version 1.0“, 20 December 2000. http://www.w3.org/TR/xlink/ [W3C 01] W3C Recommendation, “XML Pointer Language (XPointer) Version 1.0“, W3C Last Call Working Draft, 8 January 2001. http://www.w3.org/TR/xptr