Tableau de Bits Indexé (TBI) pour la Recherche de Séquences Fréquentes Lionel Savary, Karine Zeitouni Laboratoire PRiSM, Université de Versailles, 45 Avenue des Etats-Unis, 78035 Versailles {Lionel.Savary, Karine.Zeitouni}@prism.uvsq.fr
A la différence de la fouille d’articles fréquents, la recherche de sous-séquences fréquentes tient compte de l’apparition multiple et de l’ordre des articles. L’algorithme proposé parcourt la base de données une seule fois. Durant cette passe, il construit un vecteur VS contenant toutes les combinaisons de séquences présentes dans la base. A ce vecteur est associé un tableau de bit TB codant toutes les séquences de la base en correspondance avec les articles codés dans VS. Les bits à 1 indiquent les articles présents dans la séquence et les bits à 0 ceux qui ne le sont pas. Les séquences sont représentées dans chaque ligne du tableau et regroupées par taille dans l’ordre décroissant. Un index associé au tableau permet de pointer directement les séquences de taille choisie. Ce qui évite des comparaisons superflues et améliore les performances. Le tableau NB associé au TB, indique les fréquences associées à chaque séquence. Dans l’exemple de la figure 1, la séquence (M) de taille 1 se trouve à la première ligne dans le TB et a une fréquence de 500. Cette structure est construite dynamiquement au cours de l’unique passe dans la base de données. Un deuxième algorithme TBI2, basé sur un tableau de booléens, offre de meilleures performances mais nécessite plus d’espace mémoire. TBI et TBI2 affichent de meilleures performances que les algorithmes existants tel que Prefixspan [1]. Index
VS
1 4 6 8 9
M T E S M R T M 0 1 1 0 1 0 1 1 0 1 0 0 1 0 1 1 0 1 0 0 1 0 0 1 … ... ... … ... ... … … 0 1 0 0 0 0 0 0
1
5 180
...
240 389
1 0 0 0 0 0 0 0
500
TB
NB
Temps (secondes) 120 110 100 90
Prefixspan TBI
80
TBI2
70 60
50 40 30 20 10
0
0.1
0.2
0.3
0.4
0.5
0.6 0.7 0.8 Support
Fig. 1. Structure de données et performance pour 500000 séquences
Références 1. J. Pei, J. Han, B. Mortazavi, H. Pinto, Q. Chen, U.Dayal, and M-C. Hsu. PrefixSpan: mining sequential patterns efficiently by prefix-projected pattern growth. Proceedings of the 17th International Conference on Data Engineering, 215-224, Heidelberg, Germany, Apr. 2001.
Extraction de la localisation des termes pour le classement des documents. Annabelle MERCIERâ, Michel BEIGBEDERâ. â Ãcole des Mines de Saint-Etienne.
chaînes de traitement ont également été développées pour le chinois et le ..... Ce corpus est ensuite exploité comme corpus d'acquisition pour construire des ...
Concernant la couleur, un problème est la réduction du nombre de ... Nous nous situons ici dans le cadre de la recherche de catégorie. Le problème est la.
Ces outils sont chargés de diminuer la quantité d'informations remontée et de focaliser l'attention ... 2 Description et représentation des données .... traitement des sous logs est du même ordre de grandeur que celle du traitement du log entier.
désavantages de l'utilisation de BPEL pour gérer les flux de données d'une ..... distants. Il a donc été nécessaire d'adapter l'architecture de notre solution et le ...
simulation dans le cadre de cette approche se réalisent avec les formalismes ... problème de la Tour de Hanoi qui consiste à changer la place de 3 disques de ...
Résumé. Cet article propose une méthode d'alignement automatique de défi- nitions destinée à améliorer la fusion entre des terminologies spécialisées et un vocabulaire médical généraliste par un classifieur de type SVM (Support Vecteur. Machine) et u
mining ont été proposées afin d'analyser des flux de données en temps réel. ... ning, se propose d'inverser radicalement cette architecture et de mettre en ...
La segmentation est associée à l'exploitation des données élicitées tout au .... L'architecture globale est donc fondée sur le module de segmentation, qui produit.
l'analyse exploratoire de données. Françoise ... La carte. SOM suppose de fixer a priori l'architecture initiale (le nombre de prototypes et la topologie du réseau).
30 nov. 2018 - système basé sur des données quantitatives, le cycle d'évaluation par les pairs des activités de recherche de l'ensemble des départements ...
PDF Ebook amical version numerique pour tbi Free Download, Save or Read Online amical version numerique pour tbi PDF file for free from our online library.
Dans A. R. Murphy, The Blackwell Companion to Religion and Violence (pp. 568-593). Wiley-Blackwell. Rice, C., e. (2005). Reconciliation as the Mission of God: ...