Quelle vision pour le matching à large échelle - LIRIS

Plusieurs travaux de matching [1, 2,3] ont été proposés comme solution à la .... de matching de classes hiérarchiques volumineuses (type d'ontologies à large ...
216KB taille 41 téléchargements 79 vues
MCSEAI, April 28-30, 2008 – Oran, Algeria.

Quelle vision pour le matching à large échelle ? Sana Sellami, Aïcha-Nabila Benharkat, Youssef Amghar LIRIS, Institut National des Sciences Appliquées de Lyon, France {sana.sellami,nabila.benharkat,youssef.amghar}@insa-lyon.fr Abstract Ce papier présente une étude détaillée des travaux de Matching à large échelle. Il focalise sur les approches Pair-wise et holistique. Nous en donnons une classification selon les techniques et méthodes d’optimisation utilisées. Cette étude nous a permis de synthétiser le plus intéressant de ces techniques pour asseoir notre vision du matching à large échelle. Key words: Large échelle, Matching, techniques d’optimisation

1. Introduction Aujourd’hui, il existe des centaines voire même des milliers de schémas disponibles sur le Web qui nécessitent d’être rassemblés, organisés et mis en correspondances. La diversité de ces sources d’information distribuées et leur hétérogénéité sont une des principales difficultés rencontrées par les utilisateurs du Web aujourd’hui. Cette hétérogénéité peut provenir du format ou de la structure des sources (sources structurées : bases de données relationnelles, sources semi-structurées : documents XML, ou non structurées : textes), de l’hétérogénéité sémantique, etc. Les challenges inhérents à l’intégration des données deviennent alors nombreux : la gestion des données, l’évolution des données, le mapping et le matching des données. Le matching, plus particulièrement, est un pré requis à des processus facilitant l’interopérabilité (échange, intégration, transformation). Le matching représente une opération cruciale dans plusieurs domaines d’application tels que l’intégration des données (schémas, taxonomies, ontologies), le web sémantique, les entrepôts de données…. Le matching est par définition un processus qui vise à identifier et découvrir les correspondances sémantiques entre différents formats de données tels que les schémas, les ontologies, les taxonomies, interfaces web,… Plusieurs travaux de matching [1, 2,3] ont été proposés comme solution à la problématique de l’intégration des données. La plupart de ces travaux se sont focalisés sur le matching des schémas simples et de petite dimension entre 50 et 100 composants (éléments, attributs) alors que dans un matching à large échelle les données du monde réel sont très volumineuses (une centaine voire même un millier d’éléments). Par conséquence, dès que l’on passe à un contexte fortement dynamique et à large échelle, on remarquera que la plupart des algorithmes de matching proposés se heurtent à plusieurs problèmes. En effet,

L'accroissement de la quantité de données entraîne des problèmes d'efficacité en temps d'exécution des algorithmes. De plus, le processus de matching est tellement complexe qu’un passage à l’échelle, en utilisant les algorithmes de matching classiques, devient presque impossible. Nous présentons dans cet article une étude complète et détaillée des approches de Matching à large échelle. L’objectif de notre étude est de proposer une approche et une méthodologie de Matching qui résiste au passage à l’échelle. Le présent article est organisé comme suit : Dans la section 2, nous présenterons la motivation de notre travail ainsi qu’une classification des facteurs qualité pour le matching à large échelle. La section 3 représente une étude de l’état de l’art et une classification qui réunit les approches proposées dans la littérature. Nous décrirons dans la section 4 notre vision du système de Matching large échelle et nous terminerons finalement par une conclusion et quelques perspectives.

2. Motivation L’objectif de notre travail est de relever le challenge de matching des schémas à grande échelle afin d’assurer l’intégration des sources de données hétérogènes dans un contexte où l’on constate l’émergence de l’intégration des données, du web sémantique ou encore du Web profond (Deep Web), etc…. Notre intérêt vient du constat de naïveté et de fragilité des algorithmes et systèmes de matching actuels confrontés à un contexte fortement dynamique tel que le Web. Ces algorithmes traitant souvent des schémas simples, structurés, généralement de petite dimension rencontrent des problèmes d’efficacité, de performance, de redondance, de scalabilité (passage à l’échelle) et de précision dans les mesures de similarité lors du matching des schémas volumineux du monde réel. Nous avons donc dégagé un certain nombre de facteurs qui peuvent avoir un impact sur les performances des systèmes de Matching et par ailleurs sur la qualité du Matching (QoM). Nous définissons la qualité de Matching (QoM) comme l’évaluation des systèmes de Matching à large échelle. En effet, les facteurs qui peuvent influer sur le passage à l’échelle et les problèmes qui peuvent surgir dans le matching à grande échelle sont essentiellement liés aux données (entrées/sorties) et aux algorithmes/systèmes de matching.

2.1 Classification des facteurs qualité pour le matching à large échelle

MCSEAI, April 28-30, 2008 – Oran, Algeria. Les Facteurs liés aux données  Les entrées : La qualité du Matching dépend de la qualité des sources de données utilisées (cohérence, complétude, homogénéité etc.). Elle dépend également du type et des structures de ces données (schémas, ontologies, taxonomies, interfaces Web, etc).  Le domaine : Les données sont fortement liées au domaine. Cependant, lors d’un Matching, les données peuvent être hétérogènes si elles sont extraites de domaines différents. Par conséquence, les données peuvent être incomplètes, bruités et ceci peut influer considérablement la qualité du Matching. Il est donc primordial de déterminer le type et les caractéristiques du domaine associé aux données. Les Facteurs liés aux algorithmes/systèmes de Matching  Techniques : La mesure de qualité de matching nécessite une connaissance approfondie des algorithmes et techniques utilisés (e.g le type de matchers implémentés). En effet, certaines de ces techniques peuvent être relativement coûteuses (e.g utilisation des ressources sémantiques auxiliaires).  Besoins en temps d’exécution : La qualité de Matching dépend fortement du temps d’exécution nécessaire à chaque algorithme de Matching et techniques utilisés. Les algorithmes les plus efficaces sont ceux qui présentent un minimum de temps d’exécution.  Complexité : Dans un contexte fortement dynamique et à large échelle, la complexité et la taille des schémas XML posent des problèmes de performances pour les algorithmes de matching les plus usuels ce qui influe considérablement la qualité de Matching.  Effort Humain : Le Matching est en général semi automatique. En effet, l’utilisateur est très sollicité lors d’un processus de Matching. Cet effort humain peut avoir des conséquences dans un contexte à large échelle. Il est donc important d’évaluer et de prendre en considération ce genre d’effort en spécifiant le type d’utilisateur (expert du domaine ou simple utilisateur) et l’effort fourni pour aboutir à un résultat de Matching.

3. Approches de Matching à Large échelle Il existe dans la littérature deux approches de Matching à large échelle : Le matching « pairwise » et le Matching « holistique ». Nous allons décrire, dans cette partie, les travaux liés à ces deux approches en mettant l’accent sur les techniques d’optimisation qui ont été utilisées. L’objectif de cette étude est montrer les différences majeures de ces deux approches, d’exposer l’importance d’intégration des techniques d’optimisation pour améliorer la qualité de Matching (QoM) à large échelle.

L’approche dite classique de détermination du Matching est l’approche « pairwise ». La plupart des travaux de matching adoptent cette approche. Son principe est trouver les correspondances entre paires d’éléments de deux schémas/ontologies. 3.1.1. Matching de schémas Plusieurs travaux de matching de schémas à large échelle ont été proposés dans la littérature [4,5,6,7,8,9]. Les approches [7,8] proposent un processus de matching de schémas pair-wise qui fait appel à des techniques de découpage, de fragmentation, de clustering etc. En effet, dans [7], les auteurs ont développé une approche de Matching basée sur la fragmentation des schémas . Cette approche consiste à décomposer le problème de matching de schémas volumineux en un matching simple de petits fragments de schémas. L’outil COMA++ [10] présente une implémentation de cette approche. Cependant, la limite de cette approche est que les critères de fragmentation ne prennent pas en considération les liens sémantiques entre les schémas. En effet il s’agit plus d’une décomposition structurelle « basique » sans prendre en considération le contexte et la sémantique liés aux éléments des schémas. De plus, COMA++ présente une interface qui prend en entrée uniquement deux schémas et non pas un ensemble de schémas. Contrairement à la fragmentation a priori (réalisée avant le Matching), l’approche proposée dans [8] insère une étape de regroupement (clustering), après avoir mis en correspondance un schéma personnel et un répertoire de schémas, comme étape intermédiaire pour identifier les régions qui peuvent être constituées de bons mappings. Il s’agit la d’un regroupement a posteriori (après le Matching). Le regroupement est réalisé grâce à l’adaptation de l’algorithme K-means [11]. Cet algorithme est connu pour sa simplicité et sa complexité non exponentielle. De plus, le regroupement a été combiné avec l’utilisation de l’algorithme « meilleur d’abord » (Branch and Bound [12] (B&B)) pour déterminer les meilleures solutions de Matching (tous ceux qui ont un rang élevé). Cependant, l’utilisation de telles techniques dans cette approche peut conduire à la perte de certains résultats de matching. En plus, la technique de clustering a été utilisée sans évaluer la qualité des clusters afin de décider de ceux qui aboutiront à un bon résultat de Matching qui est uniquement de type 1 :1. Ces techniques ont été implémentées dans le système Bellflower [13]. Les entrées de ce système sont un répertoire de schémas (regroupant un ensemble de petits schémas) et un petit schéma cible ce qui représente une première tentative pour la conception d’un système de Matching qui résiste au passage à l’échelle mais loin de représenter le système de matching à large échelle. 3.1.2. Matching d’ontologies

3.1. Approches de Matching pairwise

MCSEAI, April 28-30, 2008 – Oran, Algeria. Le matching d’ontologies permet de trouver les correspondances entre des entités d’ontologies reliées sémantiquement. Ces correspondances peuvent être utilisées pour différentes applications telles que le fusionnement d’ontologies, la transformation des données ou pour le web sémantique. Plusieurs approches [14,15,16,17,18] ont été proposées pour étudier le problème de Matching d’ontologies volumineuses. Par exemple, dans [15] les auteurs proposent une approche de matching de classes hiérarchiques volumineuses (type d’ontologies à large échelle) en utilisant une méthode de partitionnement en blocs. L’idée principale est de sélectionner les paires de blocs mis en correspondance en combinant deux types de relations déterminées par des Anchor prédéfinis et des documents virtuels. Le partitionnement est réalisé grâce à des algorithmes de clustering tel que l’algorithme ROCK [20] qui est un algorithme de clustering hiérarchique qui emploie les liens pour mesurer la similarité/ proximité au moment du fusionnement des clusters. Cependant, cette approche n’est pas applicable aux ontologies volumineuses. Pour résoudre le problème de Matching et de partitionnement d’ontologies volumineuses, les auteurs dans [14] ont proposé une approche basée partitionnement pour le matching en blocs. Cette approche utilise la notion de liens pondérés qui reflètent l’information sur la proximité entre les classes. Le partitionnement est réalisé grâce à l’utilisation d’un algorithme de partitionnement agglomératif hiérarchique inspiré de ROCK. Une autre catégorie d’approches [18] propose la modularisation d’ontologies en utilisant des techniques telles que les Econnections [21]. L’epsilon-Connection est une méthode définie comme la combinaison d’autres formalismes logiques. Elle représente un formalisme approprié pour la combinaison des bases de connaissances (knowledge base KB) et pour la réalisation de développement d’ontologies modulaires dans le web. Toutes ces approches, cependant, ne permettent pas de déterminer les matchings complexes entre les ontologies. De plus, les systèmes et architectures développés intégrant ces approches prennent uniquement en entrée deux ontologies.

3.2. Approches de Matching Holistique L'approche holistique permet de réaliser le matching de schémas multiples (il s’agit d’interfaces Web représentant des requêtes sur des bases de données du Web profond) pour trouver les attributs correspondants parmi tous les schémas en une seule fois. Ce type de matching de schémas est surtout une approche statistique basée sur des observations (cooccurrences patterns…). Le domaine d’application de cette approche est le Web profond (Deep Web). Plusieurs approches de matching holistique ont été proposées dans la littérature [22, 23,24,26,27,28,29,19]. L’approche holistique a été introduite dans [23,24] en proposant deux cadres d’application MGS (Modélisation, Génération, Sélection) [24] et DCM

(Dual Correlation Mining) [23]. Ce sont, en effet, des approches d’évaluation holistiques qui ont été proposées pour la découverte d’attributs synonymes et des mappings complexes. MGS est une évaluation globale qui considère le matching comme la découverte d’un modèle caché. C’est une approche statistique basée sur des observations plutôt que sur l’information linguistique ou du domaine. Elle a été testée selon le test du Khi-deux X² qui permet d’évaluer la différence entre les probabilités estimées et les fréquences observées. Cependant, les matchings découverts par MGS ne sont basés que sur des statistiques et des observations des attributs les plus fréquents. De plus, cette approche ne prend pas en considération les mappings complexes. DCM (évaluation locale) a donc été proposé par les mêmes auteurs pour remédier au problème de découverte des mappings complexes. Le matching holistique dans cette approche est basé sur la détermination de la cooccurrence des attributs entre les schémas. Cependant, ces approches ne donnent de bons résultats que si une évidence peut être observée. Donc, seuls les attributs qui apparaissent fréquemment peuvent être mis en correspondance. De plus, ces approches souffrent de la présence d’attributs erronés (représentations confuses d’attributs, attributs flous, attributs mal orthographiés,…). Les travaux dans [22] sont donc une extension de ces approches car ils rajoutent des techniques d’échantillonnage (réalisées a priori) et de vote (a posteriori) inspirées des « bagging predictors » pour rendre leur système plus robuste vis à vis de ces données erronées. D’autres approches [29,19] se sont plus focalisées sur la découverte de mappings complexes sans la connaissance du domaine et sont assez similaires à l’approche DCM [23]. La différence est que ces nouvelles approches utilisent un algorithme de découverte de matching de complexité polynomiale et une nouvelle mesure de score de matching qui différencie les attributs fréquents des attributs rares. HSM (Holistic Schema Matching) [29] et PSM (Parallel Schema Matching) [19] sont donc basées sur la comparaison d’interfaces web en les mettant en parallèle et en supprimant les attributs communs qui apparaissent (attributs communs) pour saisir les correspondances de matching entre le groupement d’attributs (attributs ayant le même concept). Une autre approche de matching de schémas basé corpus [26] utilise un corpus de schémas comme une formation de schémas pour améliorer le matching. Un tel corpus contient plusieurs schémas qui modélisent des concepts similaires ce qui facilite la découverte des variations des éléments ainsi que leurs propriétés et des mappings entre certains schémas. Cette approche est donc basée sur l’hypothèse que les schémas sont souvent désignés d’une manière similaire et par conséquence partagent des propriétés communes. Le corpus est utilisé pour découvrir les patterns des schémas. Un moyen pour découvrir ces patterns est en formant les groupes (clusters) d’éléments similaires du corpus. Cette approche utilise donc un algorithme de regroupement hiérarchique qui permet de fusionner ces

MCSEAI, April 28-30, 2008 – Oran, Algeria. concepts similaires au sein d’un seul groupe. Seulement la plupart de ces approches présentent des limites car elles souffrent de données erronées et d’une faible performance. Pour remédier à ces problèmes, des approches telles que [27,28] ont proposé d’intégrer une étape de regroupement a priori. Par exemple, l’approche [27] propose une méthode d’échantillonnage en utilisant un algorithme de clustering K-Means pour extraire les attributs stables et instables à partir d’une collection de données. Ces approches se sont focalisées sur les matchings de type 1 :1.

3.3 Synthèse et classification des approches de Matching Nous présentons dans cette partie une classification des approches et des techniques décrites dans les sections précédentes. Cette classification (figure 1) est divisée en deux niveaux : le premier niveau représente les différentes données en entrée des approches holistiques et pair-wise. Le deuxième niveau est consacré aux méthodes reliées aux techniques d’optimisation utilisées dans ces approches. Notre classification est en effet inspirée de celle proposée dans [3] en prenant en considération uniquement les techniques de Matching à large échelle. En effet, nous avons remarqué, suite à notre étude de l’état de l’art, que les approches de Matching pair-wise et holistiques partagent le même objectif qui est la détermination du Matching mais y aboutissent de manière très différente. Premièrement, dans les approches pairwise, les systèmes et architectures proposés prennent uniquement en entrée deux schémas ou ontologies. Cependant, ces données sont volumineuses et variées (schémas XML, onotolgies, taxonomies, etc.). En revanche, le matching holistique prend un ensemble de schémas en entrée et détermine le matching en une seule fois. Les schémas utilisés lors d’un matching holistique sont des interfaces Web de petite taille (petit nombre d’attributs) et extraites d’un même domaine le Web profond. Deuxièmement, nous avons constaté que pour la détermination des correspondances, les approches pair-wise ont souvent recours à des ressources sémantiques (utilisation de l’information auxiliaire, dictionnaires, thésaurus, etc) pour l’identification des synonymes spécifiques au domaine ou des correspondances plus complexes [5, 25, 1]. Cependant, les travaux de matching holistique ne font pas référence à l’utilisation de telles ressources. Enfin, les approches holistiques se différencient des approches pair-wise car elles représentent des approches statistiques basées sur les observations comme illustré à la figure 1. Enfin, ces deux approches partagent l’utilisation de techniques d’optimisation soit a priori soit a posteriori pour améliorer la qualité de Matching (QoM).

Figure 1. Classification des approches de Matching à large échelle

4. Notre vision du matching à large échelle Suite à nos observations et notre étude de l’existant, nous illustrons dans cette section notre vision d’un système de matching à large échelle qui regroupe les différents points suivants :  Nous pensons intéressant de combiner les deux approches holistique et pair-wise. En effet, malgré leurs différences, la combinaison des deux pourrait aboutir à une approche hybride efficace.  Nous avons remarqué que l’utilisation des techniques d’optimisation est primordiale pour améliorer la qualité de Matching. En effet, notre premier objectif est de proposer un système efficace et optimisé de Matching. Nos techniques d’optimisation seront intégrées a priori (avant le matching) et a posteriori (après le Matching).  La qualité de Matching (QoM) représente une évaluation du système de Matching. Plus précisément, la qualité de Matching nous permet de tester la performance, la précision, la scalabilité, l’adaptabilite et l’extensibilité du système.  Les ressources sémantiques sont utilisées pour affiner et apporter de la sémantique au résultat de Matching. Elles représentent aussi un moyen pour la détermination des mappings sémantiques entre les différentes données en entrée. Notre travail consiste donc à proposer et adapter des techniques et algorithmes efficaces de Matching de schémas XML qui résistent au passage à l’échelle et qui regroupe tous les points décrits précédemment. Aussi, nous définissons l’architecture générale (Fig.2) d’un système de Matching de schémas XML à large échelle.

MCSEAI, April 28-30, 2008 – Oran, Algeria.

Figure 2. Architecture générale du système de Matching à large échelle

L’architecture du système est divisée en trois grandes parties :  Etape de PréMatching : Dans cette étape nous déterminons les caractéristiques communes et similaires entre plusieurs schémas XML volumineux de manière efficace afin de faciliter le processus de Matching. En effet, cette phase représente un prétraitement des schémas. Le module « approche holistique » représente le cœur de cette étape. Il considère que les schémas extraits d’un même domaine peuvent partager des sous structures communes. Nous utiliserons donc une technique d’extraction des données telle que les algorithmes d’extraction d’arbres fréquents pour identifier ces sous structures occurrentes (ou fréquentes). Une fois identifiées, ces sous structures seront par la suite élaguées des schémas pour former une partition à part ce qui réduira considérablement la taille des schémas d’origine. Ils seront par ailleurs référenciés par des labels dans leurs schémas d’origine. Suite à cette étape, on testera la taille des schémas. Si les schémas restent volumineux c'est-à-dire que nous n’avons pas eu de résultats suite à l’étape d’extraction ou bien que les résultats obtenus ne permettent pas de réduire la taille des schémas, dans ce cas on applique une méthode de décomposition (a priori) qui permettra de diviser les schémas encore volumineux en des sous schémas. Sinon on passe directement à l’étape de Matching. Durant l’étape de décomposition, une évaluation de la qualité des sous schémas décomposés sera appliquée afin de déterminer la fiabilité des fragments obtenus.  Etape de Matching : Nous obtenons suite à l’étape précédente un ensemble de schémas de taille réduite. Nous allons utiliser dans cette étape le processus de Matching Pair-wise. Le module « matcher pair-wise » peut inclure un matcher élémentaire ou une combinaison de matchers [10] dépendant de l’application. Nous appliquerons cependant des techniques d’optimisation qui permettront d’optimiser le temps de calcul des correspondances et améliorer par ailleurs l’efficacité du processus. Nous utiliserons de plus des ressources sémantiques qui permettront de déterminer les correspondances les plus complexes.  Etape de PostMatching : Une fois le matching réalisé, l’ensemble des correspondances sera sauvegardé

pour être réutilisé. On regroupera (Regroupement a posteriori) par la suite toutes les similarités déterminées dans des clusters pour sélectionner les correspondances qui ont le rang le plus élevé afin de limiter l’espace de recherche et de disposer d’un résultat de matching plus pertinent.. Nous évaluerons la qualité de cette sélection pour prouver l’exactitude et la pertinence du résultat. Ceci nous permettra la réutilisation d’un résultat de matching qui soit fiable. L’évaluation de la qualité interviendra durant cette étape à deux reprises. Nous évaluerons au début la qualité des clusters obtenus suite à l’étape de regroupement et ensuite la qualité des résultats finals obtenus ainsi que la performance du système de Matching.

5. Conclusion et perspectives Dans cet article, nous avons présenté un état de l’art et une étude détaillée des catégories et caractéristiques des travaux de Matching à large échelle. Nous avons présenté les deux approches de Matching existantes : Pair-wise et holistique. Cette étude nous a permis d’aboutir à plusieurs observations telles que l’importance de l’utilisation de techniques d’optimisation pour l’amélioration de la qualité de matching, les critères à prendre en considération pour le passage à l’échelle, etc. Pour conclure, le Matching de schémas représente un domaine large et complexe qui nécessite la prise en considération de plusieurs connaissances des données, du domaine, des techniques, etc. Il n’existe, en effet, aucun système de Matching qui peut résoudre complètement tous les problèmes mentionnés dans cette étude. Nous avons néanmoins présenté notre vision d’un système de Matching à large échelle. Nous proposons pour des travaux futurs de concevoir et réaliser ce système de Matching incluant : une formalisation de la qualité de Matching (les métriques) pour l’évaluation du système, les techniques d’extraction, de décomposition et de regroupement (clustering). Ce système sera une plateforme complète pour le matching à large échelle de plusieurs schémas, ontologies, taxonomies relatifs à des domaines variés tels que la biologie, phylogénie, etc.

6. Références [1] Do, H.H., Melnik, S., and Rahm, E.2002. Comparison of schema Matching Evaluations. In GI-Workshop Web and Databases (Erfurt, Germany, October 7-10, 2002), 221-237. [2] Rahm, E., Bernstein, P.A.2001. A survey of approaches to automatic schema matching. In The International Journal on Very Large Data Bases, 2001. [3]

Shvaiko P., and Euzenat J.2005. A Survey of Schemabased Matching approaches. Journal on Data Semantics IV 3730 (2005) 146-171.

[4] Avesani, P., Yatskevich, M., Giunchiglia, F.2007. A Large Scale Dataset for the Evaluation of Matching

MCSEAI, April 28-30, 2008 – Oran, Algeria. Systems. In Proceedings of the 4th European Semantic Web Conference, ESWC’07. [5] Bernstein, P. A., Melnik, S.,Petropoulos, M., and Quix, C. 2004. Industrial-Strength Schema Matching. In ACM SIGMOD Record 33, 4 (December 2004), 38-43. [6] Lu, J., Wang, S., and Wang, J. 2005. An experiment on the Matching and Reuse of XML Schemas. In Proceedings of the 5th International Conference on Web engineering (Sydney, Australia, July 27-29, 2005). ICWE’05. .273-284. [7] Rahm, E., Do, H.H., and Maβmann, S.2004. Matching Large XML Schemas. In SIGMOD Record. ACM Press, New York, NY, 26-31. [8] Smiljanic, M., Keulen, M., and Jonker, W.2006. Using Element Clustering to Increase the Efficiency of XML Schema Matching. In Proceedings of the 22nd International Conference on Data Engineering Workshops (Atlanta, GA, USA, April 3-7, 2006), ICDE Workshops’06. 45. [9] Wang, S., Lu, J., and Wang, J.2005. Approximate Common Structures in XML Schema Matching. In Proceedings of the 6th International Conference on WebAge Information Management (Hangzhou, China, October 11-13, 2005). WAIM’05. 900-905. [10] Aumuller, D., Do, H.H., Maβman, M., and Rahm, E.2005. Schema and Ontology Matching with COMA++. In Proceedings of the ACM SIGMOD International Conference on Management of Data (Baltimore, Maryland, USA, June 14-16, 2005). ACM Press, New York, NY, 906-908. [11] Xu, R., and Wunsch, D. 2005. Survey of Clustering Algorithms.. Neural Networks, IEEE Transactions, (May2005), 645-678. [12] Clausen, J., and Zilinskas, A.2002. Subdivision, Sampling, and Initialization Strategies for Simplical Branch and Bound in Global Optimization. Computer and Mathematics with Applications, (2002). [13] Smiljanic, M.2006. XML Schema Matching Balancing Efficiency and Effectiveness By means of clustering. Doctoral thesis. University of Twente. [14] Hu, W. and Qu, Y.2006. Block Matching for Ontologies. In Proceedings of the 5th International Semantic Web Conference (Athens, GA, USA, November 5-9, 2006).ISWC’06. 300-313. [15] Hu, W., Zhao, Y., and Qu,Y. 2006. Partition-Based Block Matching of Large Class Hierarchies. In Proceedings of the First Asian Semantic Web Conference (Beijing, China, September 3-7, 2006).ASWC’06. 72-83. [16] Qu, Y., Hu, W., and Cheng, G. 2006. Constructing Virtual Documents for Ontology Matching. In Proceedings of the 15th International Conference on World Wide Web (Edinburgh, Scotland, May 23 - 26, 2006). WWW '06. ACM Press, New York, NY, 23-31. [17] Stuckenschmidt, H., and Klein, M.2004. Structurebased Partitioning of large concept hierarchies. In Proceedings of the 3rd International Semantic Web Conference (Hiroshima, Japan, November 7-11, 2004).ISWC’04. 289-303. [18] Wang, Z., Wang, Y., Zhang, S., Shen, G. and Du, T. 2006. Effective Large Scale Ontology Mapping. In Proceedings of the First International Conference

Knowledge Science, Engineering and Management (Guilin, China, August 5-8, 2006). KSEM’06. 454-465. [19] Su, W., Wang, J., and Lochovsky, F. 2006. Holistic Query Interface Matching using Parallel Schema Matching. In Proceedings of the 22nd International Conference on Data Engineering (Atlanta, GA, USA, April 3-8, 2006) ICDE’06. 122. [20] Guha, S., Rastogi, R., and Shim, K.1999. ROCK: A Robust Clustering Algorithm for Categorical Attributes. In Proceedings of the 15th International Conference on Data Engineering (Sydney, Austrialia March 23-26 1999). ICDE 1999. 512-521. [21] Grau, B. C., Parsia, B., Sirin, E., and Kalyanpur, A. 2005. Automatic Partitioning of OWL Ontologies Using ε -Connections. In Proceedings of the 2005 International Workshop on Description Logics (Edinburgh, Scotland, UK, July 26-28, 2005). DL’05. [22] He, B., and Chen-chuan Chang, K. 2005. Making Holistic Schema Matching Robust: An Ensemble Approach. In Proceedings of the Eleventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (Chicago, Illinois, USA, August 21-24, 2005).KDD’05. ACM Press, New York, NY, 429-438. [23] He, B., Chen-Chan Chang, K., and Han, J.2004. Discovering complex matchings across Web Query Interfaces: A Correlation Mining Approach. In Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (Seattle, Washington, USA, August 22-25, 2004). KDD’04. ACM Press, New York, NY, 148-157. [24] He, B., Chen-Chan Chang, K.2003. Statistical Schema Matching across Web Query Interfaces. In Proceedings of the 2003 ACM SIGMOD International Conference on Management of Data (San Diego, California, USA, June 9-12, 2003).217-228. [25] Sabou M., D’Aqui M., Motta E. 2006. Using the Semantic Web as Background Knowledge for Ontology Mapping. In Proceedings International Workshop on Ontology Matching (OM-2006), collocated with ISWC'06. [26] Madhavan, J., Bernstein, P. A., Doan, A., and Halevy, A.Y. 2005. Corpus-based Schema Matching. In Proceedings of the 21st International Conference on Data Engineering (Tokyo, Japan, April 5-8, 2005). ICDE’05. 57-68. [27] Pei, J., Hong, J., Bell, D.A. 2006. A Novel Clusteringbased Approach to Schema Matching. In Proceedings of the 4th International Conference on Advances in Information Systems (Izmir, Turkey, October 18-20, 2006).ADVIS’06. 60-69. [28] Pei, J., Hong, J., and Bell, D.A.2006..A Robust Approach to Schema Matching over Web Query Interfaces. In Proceedings of the 22nd International Conference on Data Engineering Workshops (Atlanta, GA, USA, April 3-7, 2006). ICDE Workshops’06. 46. [29] Su, W., Wang, J., and Lochovsky, F. 2006. Holistic Schema Matching for Web Query Interface. In Proceedings of the 10th International Conference on Extending Database Technology (Munich, Germany, March 26-31, 2006). EDBT’06. 77-94.