PRINCE

règles. A cet effet, PRINCE construit la relation d'ordre partiel. Son originalité est que cette .... Gauche : contexte d'extraction K. Centre : le treillis des générateurs ..... Proposition 9 ayant en main les générateurs minimaux de chaque classe.
538KB taille 14 téléchargements 870 vues
PRINCE : Extraction optimisée des bases génériques de règles sans calcul de fermetures T. Hamrouni - S. Ben Yahia -Y. Slimani Département des Sciences de l'Informatique, Campus Universitaire, 1060 Tunis, Tunisie. {sadok.benyahia, yahya.slimani}@fst.rnu.tn RÉSUMÉ.

La découverte des itemsets fermés fréquents s'est imposée comme une solution potentielle pour l'extraction de bases génériques de règles. Cependant, un survol de la littérature montre que tous les algorithmes qui leur sont dédiés ont négligé une composante essentielle : la relation d'ordre régissant les itemsets fermés. Dans ce papier, nous proposons un algorithme, appelé PRINCE permettant l'extraction optimisée des bases génériques de règles. A cet effet, PRINCE construit la relation d'ordre partiel. Son originalité est que cette relation d'ordre partiel est maintenue entre les générateurs minimaux et non plus entre les itemsets fermés. Une structure appelée treillis des générateurs minimaux est alors construite et à partir de laquelle la dérivation des règles associatives génériques devient immédiate. Une évaluation expérimentale, menée sur des contextes épars et denses, montre l'efficacité de l'approche proposée comparée aux trois algorithmes de référence CLOSE, A-CLOSE et TITANIC. ABSTRACT. The problem of the relevance and the usefulness of extracted association rules is becoming of primary importance, since an overwhelming number of association rules may be derived even from reasonably sized databases. This requires the extraction of generic bases of association rules, of reduced size and which summarize the same information. Using the concept of minimal generator, we propose an algorithm, called PRINCE, allowing an optimized extraction of the generic bases of rules. To this end, PRINCE builds the partial order. Its originality is that this partial order is maintained between minimal generators and no more between closed itemsets. A structure called minimal generator lattice is then built, from which the derivation of the generic association rules becomes straightforward. An experimental evaluation, carried out on benchmarking sparse and dense datasets, have shown that the proposed approach largely outperforms the pioneer algorithms CLOSE, ACLOSE and TITANIC. MOTS-CLÉS :

fouille de données, théorie des concepts formels, base générique de règles, treillis des générateurs minimaux.

KEYWORDS:

lattice.

data mining, Formal Concept Analysis, generic rules base, minimal generator

1. Introduction La dernière décennie a été marquée par un effort algorithmique « obsessionnel » pour la réduction du temps de calcul de l'étape d'extraction des motifs intéressants. Le succès obtenu est essentiellement dû à des prouesses de programmation avec la conjonction de la manipulation de structures de données compactes en mémoire centrale. Cependant, il semble évident que cette frénésie a fait perdre de vue l'objectif essentiel de cette étape, i.e., extraire une connaissance fiable, de taille « exploitable » pour les utilisateurs finaux. Ainsi, la quasi-totalité de ces algorithmes se sont focalisés sur l'énumération de tous les motifs - présentant une fréquence d'apparition jugée satisfaisante - maximaux ou fermés (Goethals et al., 2003). Le revers de la médaille de ce succès est que cette énumération va générer un nombre impressionnant et inexploitable de règles associatives, même pour un contexte de taille raisonnable. Dans cette situation, l'approche basée sur l'extraction de motifs (ou itemsets) fermés présentait une promesse claire de réduire considérablement la taille des listes des règles associatives. Cette approche, puisant dans les fondements mathématiques issus de l'analyse formelle de concepts (Ganter et al., 1999), propose de réduire l'espace de recherche par la détection de propriétés structurelles intrinsèques. Ainsi, le problème de découverte des règles associatives, considéré sous l'optique de découverte des itemsets fermés (fréquents), pourrait alors être reformulé comme suit (Ben Yahia et al., 2004) : 1) extraire deux « systèmes de fermeture » distincts, à savoir : l'ensemble des itemsets fermés et l'ensemble des générateurs minimaux. Aussi, la relation d'ordre sous-jacente devrait être déterminée; 2) à partir de toute l'information collectée durant la première étape, dériver des bases génériques de règles associatives. Le constat essentiel après un survol de l'état de l'art des algorithmes basés sur la découverte des itemsets fermés, à part des performances quelconques sur des contextes épars 1 , est que ces algorithmes se sont focalisés sur l'extraction des itemsets fermés en négligeant la composante relation d'ordre sous-jacente. Dans ce papier, nous proposons un nouvel algorithme appelé PRINCE pour l'extraction des bases génériques de règles associatives. PRINCE effectue une exploration nivelée de l'espace de recherche. Sa principale caractéristique est qu'il est le seul à construire la relation d'ordre partiel dans l'objectif de l'extraction de bases génériques de règles associatives. Son originalité est que cette relation d'ordre est maintenue entre les générateurs minimaux et non plus entre les itemsets fermés. Ainsi, les bases génériques de règles sont obtenues par un simple balayage de la structure ordonnée sans avoir à calculer les fermetures. Les résultats des expérimentations, menées sur des benchmarks typiques, sont très encourageants. En

1. En effet, la détermination des fermetures des itemsets dans ce type de contextes pèse lourd sur les performances de ces algorithmes.

effet, les performances de PRINCE, comparées aux algorithmes de référence d'exploration nivelée, i.e., CLOSE, A-CLOSE et TITANIC, sont largement supérieures. L'article est organisé comme suit. La section 2 introduit les fondements mathématiques de la théorie des concepts formels et sa connexion avec la dérivation des règles associatives génériques. La section 3 passe en revue les algorithmes d'exploration nivelée pour l'extraction des itemsets fermés. La section 4 est dédiée à la présentation de l'algorithme PRINCE. Les résultats des expérimentations montrant l'utilité de l'approche proposée sont présentés dans la section 5. La conclusion et les travaux futurs font l'objet de la section 6. 2. Fondements mathématiques 2.1. Notions de base Contexte de fouille : Un contexte de fouille est un triplet K = (O,I,R) décrivant un ensemble fini O d'objets (ou transactions), un ensemble fini I d'items (ou attributs) et une relation (d'incidence) binaire R (i.e., R ⊆ O¯I ). Chaque couple (o,i)∈R, désigne le fait que l'objet o∈O, possède l'item i∈I. Nous définissons deux fonctions, f et g 2 , résumant les liens qui pourraient exister entre des sous-ensembles d'objets et des sous-ensembles d'attributs induits par R. Ainsi, - f = P(O) → P(I), f(X)=X′={i∈I| ∀ o∈X, (o,i) ∈R}, - g = P(I) → P(O), g(Y)=Y′={o∈O| ∀ i∈Y, (o,i) ∈R}. Les opérateurs f et g, tels que définis, constituent une correspondance de Galois (Barbut et al., 1970). De plus, les opérateurs composites f◦g et g◦f (notés par '') sont des opérateurs de fermeture définis respectivement sur P(O) et P(I). Itemset fermé fréquent: Un itemset f ⊆I est dit fermé si f=f'' (Pasquier et al., 1999a). f est considéré comme fréquent si son support relatif, Supp(f)=|f'|/|O|, dépasse un seuil minimum fixé par l'utilisateur noté minsup. L’ensemble des itemsets fermés fréquents du contexte K sera noté IFFK. Générateur minimal (Bastide et al., 2000a) (ou itemset clé (Stumme et al., 2002)) : Un itemset g ⊆ I est dit générateur minimal d'un itemset fermé f, ssi g''=f et il n’existe pas un itemset g1 ⊆I tel que g1''=f. L'ensemble GMf des générateurs minimaux d'un itemset fermé f est : GMf ={g⊆I |g''=f ∧ ¬∃ g1 ⊆ g tel que g1''=f}. L’ensemble des générateurs minimaux fréquents du contexte K sera noté GMFK. Treillis d'Iceberg de Galois : Quand nous considérons seulement l'ensemble des itemsets fermés fréquents ordonnés par la relation d'inclusion ensembliste, la structure obtenue (LI,⊆) préserve seulement l'opérateur Sup (Ganter et al., 1999). Cette structure forme un semi-treillis supérieur et elle est désignée par « treillis 2. Dans la suite, f et g sont désignées par ′.

d'Iceberg de Galois » (Bastide et al., 2000b ; Stumme et al., 2002 ; Valtchev et al., 2002). Face : Soient f, f1 ∈ IFFK. Si f couvre f1 dans LI alors la face de f par rapport à f1 est égale à la différence entre f et f1 (Pfatz et al., 2002). Bloqueur : Soit G={G1,G2,...,Gn} une famille d'ensembles. Un bloqueur B de la famille G est un ensemble dont l'intersection avec tout ensemble Gi∈G est non vide (Pfatz et al., 2002). B est dit minimal s'il n'existe aucun bloqueur B1 de G inclus dans B (Pfatz et al., 2002). Treillis des générateurs minimaux (Ben Yahia et al., 2003): Un treillis des générateurs minimaux est équivalent au treillis d'Iceberg de Galois tel que dans chaque classe d'équivalence (i.e., un nœud du treillis), nous ne trouvons que les générateurs minimaux correspondants. {AB} {AE} (ABCE;2)

({AB} {AE};2)

A B C D E 1 × × × 2 × × × 3 × × × × 4 × × 5 × × × ×

{A} ({A};3)

({BC} {CE};3)

({C};4)

({B} {E};4)

{BC} {CE}

(AC;3)

(BCE;3)

{C}

{B} {E}

(C;4)

(BE;4) {∅}

({∅};5)

(∅;5)

Figure 1. Gauche : contexte d’extraction K. Centre : le treillis des générateurs minimaux associé pour minsup=2. Droite : le treillis d’Iceberg de Galois associé pour minsup=2. 2.2. Dérivation des règles associatives La formalisation du problème d’extraction des règles associatives a été introduite par Agrawal et al. (Agrawal et al., 1993). La génération des règles associatives est réalisée à partir d’un ensemble F d’itemsets fréquents, dans un contexte d’extraction K, pour le seuil minimal de support minsup. Une règle associative R est une relation entre itemsets de la forme R : X⇒(Y-X), dans laquelle X et Y sont des itemsets fréquents, tels que X⊂Y. Les temsets X et (Y-X) sont appelés, respectivement, prémisse et conclusion de la règle R. Les règles associatives valides sont celles dont la mesure de confiance, Conf(R)=Supp(Y)/Supp(X), est supérieure ou égale à un seuil minimal de confiance minconf. Une règle associative R est dite exacte si Conf(R)=1 sinon elle est dite

approximative (Pasquier et al., 1999b). Dans la suite, Supp(X) désignera le support absolu de X. Dans la suite, nous allons considérer les règles associatives informatives formées par l’union de la base générique de règles exactes et la réduction transitive de la base informative (Bastide et al., 2000a) et qui sont définies comme suit : 1. La Base générique de règles associatives exactes est définie comme suit : Définition 2 La base générique de règles associatives exactes BG est donnée par : BG={R : g ⇒ (f-g) | f∈IFFK et g∈GMf et g≠f 3 }. 2. La réduction transitive de la base informative (Bastide et al., 2000a), qui est elle-même une base pour toutes les règles approximatives et est définie comme suit : Définition 4 La réduction transitive RI est donnée par : RI={R : g ⇒ (f-g) | f∈ IFFK et g∈ GMFK et g'' p f 4 et Conf(R) ≥ minconf}. Ainsi, étant donné un treillis d’Iceberg de Galois, la dérivation de ces règles peut se faire d’une manière directe. En effet, les règles approximatives génériques sont des implications « inter-noeuds » assorties d’une mesure de confiance. Une telle implication met en jeu deux classes d’équivalence comparables, i.e., d’un itemset fermé vers un autre itemset fermé le couvrant immédiatement dans la structure partiellement ordonnée. Par exemple, pour le contexte K de la figure 1, la règle approximative générique C⇒A, de confiance égale à 0,75, est générée à partir des deux classes d’équivalence, dont leurs sommets respectifs sont les itemsets fermés "C" et "AC". Par contre, les règles génériques exactes sont des implications « intranoeud », avec une confiance égale à 1, extraites de chaque noeud dans la structure partiellement ordonnée. Par exemple, à partir de l’itemset fermé "ABCE", deux règles génériques exactes sont obtenues : AB⇒CE et AE⇒BC. 3. Extraction des itemsets fermés fréquents D’après la définition des règles associatives informatives, nous constatons qu’elles nécessitent l’extraction des itemsets fermés fréquents et leurs générateurs minimaux respectifs ainsi que la relation d’ordre partielle sous-jacente. Cette relation d’ordre est une condition, sine qua non, pour l’obtention des règles associatives informatives approximatives (Ben Yahia et al., 2004). Les notions de générateur minimal et d’ordre partiel sont donc primordiales. Une étude critique de la bibliographie nous a permis de dégager que : 1) beaucoup d’algorithmes orientés fouille de données (Pasquier et al., 1999a ; Pasquier et al., 1999b ; Pei et al., 2000 ; Stumme et al., 2002 ; Zaki et al., 2002) permettent l’extraction des itemsets fermés fréquents. Cependant, seuls certains (Pasquier et al., 1999a ; Pasquier et al., 1999b ; Stumme et al., 2002), se basent sur 3. La condition g≠f permet de ne pas retenir les règles non informatives de la forme g ⇒ ∅. 4. La notation p indique que f couvre g'' dans (LI,⊆).

la notion de générateur minimal 5 . Toutefois, ces algorithmes ne construisent pas la relation d’ordre partielle. Ils nécessitent alors l’exécution en aval d’un autre algorithme tel que celui proposé par Vatchev et al. (Valtchev et al., 2000),. 2) les algorithmes orientés concepts formels permettent de générer l’ensemble des concepts formels ainsi que la relation d’ordre (Kuznetsov et al., 2002). Toutefois, ils ne génèrent pas l’ensemble des générateurs minimaux associés. Ils nécessitent alors l’application d’un autre algorithme, tel que JEN (Floc’h et al., 2003), permettant de retrouver les générateurs minimaux étant donné que l’ordre est déjà construit. Les principaux algorithmes permettant l’extraction des itemsets fermés fréquents et leurs générateurs minimaux associés sont CLOSE (Pasquier et al., 1999a), ACLOSE (Pasquier et al., 1999b), et TITANIC (Stumme et al., 2002). Ces algorithmes, reposant sur la technique « Tester-et-générer », explorent l’espace de recherche d’une façon nivelée. Pour réduire cet espace, des stratégies d’élagage sont utilisées. Parmi ces stratégies d’élagage, deux sont communes aux trois algorithmes, à savoir la métrique du support, i.e., minsup, et la notion d’ordre idéal des générateurs minimaux. CLOSE et A-CLOSE calcule la fermeture d’un générateur minimal g via des opération d’intersections sur les transactions auxquelles appartient g. La différence entre les deux algorithmes est que CLOSE calcule la fermeture et le support des candidats générateurs minimaux d’une taille k donnée lors d’une même étape alors que A-CLOSE détermine tous les générateurs minimaux fréquents des différentes tailles puis calcule leurs fermetures. Ayant l’information relative aux fermetures (resp. supports), CLOSE (resp. A-CLOSE) élague tout candidat g de taille k inclus dans la fermeture (resp. ayant un support égal à celui) d’un de ses sousensembles de taille (k-1). Pour réaliser ce troisième test d’élagage, CLOSE et ACLOSE effectue un balayage des générateurs minimaux fréquents de taille (k-1). Signalons que A-CLOSE utilise une variable notée Level (Pasquier et al., 1999b) permettant de ne pas calculer la fermeture des générateurs minimaux dont nous sommes sûr qu’ils sont aussi fermés. De son côté, TITANIC calcule la fermeture des générateurs minimaux fréquents de taille k lors de l’itération (k+1) en évitant l’accès au contexte d’extraction et ceci en adoptant un mécanisme de comptage par inférence (Bastide et al., 2000b). Le mécanisme employé est fondé sur le fait que le support d’un itemset non générateur minimal peut être retrouvé en utilisant l’ensemble formé par l’union de l’ensemble des générateurs minimaux fréquents GMFK et la bordure négative des générateurs minimaux notée GBd− (Kryszkiewicz, 2001). TITANIC utilise les mêmes stratégies d’élagage que A-CLOSE. Cependant, TITANIC évite le balayage coûteux effectué par A-CLOSE pour tester la troisième stratégie d’élagage. Pour cela, il utilise, pour chaque candidat g de taille k, une variable où il stocke son support estimé, i.e., le minimum du support de ses sous ensembles de taille (k-1), et qui doit être différent de son support réel sinon g n’est pas minimal. 5. En réalité, ces algorithmes utilisent les générateurs minimaux comme étape intermédiaire pour extraire les itemsets fermés.

Il faut noter qu’en plus du fait de ne pas construire l’ordre et donc de ne pas générer les règles associatives informatives, ces algorithmes présentent un autre inconvénient à savoir le coût du calcul de la fermeture surtout dans des contextes épars d’autant plus qu’un itemset fermé fréquent pourrait être calculé plusieurs fois. En effet, un itemset fermé fréquent peut admettre plusieurs générateurs minimaux. Afin de pallier aux lacunes des algorithmes décrits auparavant, i.e., le coût du calcul de la fermeture ainsi que le fait de ne pas construire l’ordre, nous allons introduire un nouvel algorithme appelé PRINCE. PRINCE réduit sensiblement le coût de calcul de fermetures et génère la relation d’ordre sous-jacente, ce qui lui permet d’extraire les bases génériques de règles sans avoir recours à un autre algorithme. 4. L'algorithme PRINCE PRINCE prend en entrée un contexte d’extraction K, le seuil minimum de support minsup et le seuil minimum de confiance minconf. Il donne en sortie : la liste des itemsets fermés fréquents et leurs générateurs minimaux respectifs ainsi que les bases génériques de règles. PRINCE opère en trois étapes successives : 1. Détermination des générateurs minimaux. 2. Construction de la relation d’ordre partielle. 3. Extraction des bases génériques de règles. 4.1. Détermination des générateurs minimaux Cette étape est inspirée de l’algorithme TITANIC (Stumme et al., 2002). En suivant la technique « Tester-et-générer », PRINCE parcourt l’espace de recherche par niveau pour déterminer l’ensemble des générateurs minimaux fréquents GMFK trié par ordre décroissant des supports ainsi que la bordure négative des générateurs minimaux GBd− 6 . Les générateurs minimaux fréquents seront ordonnés sous forme d’un treillis des générateurs minimaux lors de la seconde étape. Comme dans le cas de TITANIC (cf. Proposition 5), la bordure négative sera utilisée, dans la deuxième étape, pour déterminer le support d’un itemset non générateur minimal. PRINCE utilise, dans cette étape, les mêmes stratégies d’élagage que TITANIC à savoir minsup, l’ordre idéal régissant des générateurs minimaux et le support estimé. 4.2. Construction de la relation d’ordre partiel Dans cette étape, les générateurs minimaux fréquents seront ordonnés sous forme d’un treillis des générateurs minimaux et ceci sans aucun accès au contexte

6. Les générateurs minimaux non fréquents de taille 1 peuvent être éliminés car ils ne sont plus utilisés dans la suite.

d’extraction. Pour atteindre cet objectif, les listes des successeurs immédiats 7 seront complétées d’une manière itérative. Ainsi, nous parcourons l’ensemble GMFK en introduisant un par un les générateurs minimaux fréquents dans le treillis des générateurs minimaux. Chaque générateur minimal fréquent g de taille k (k ≥ 1) est introduit dans le treillis des générateurs minimaux en le comparant avec les successeurs immédiats de ses sous-ensembles de taille (k-1) 8 . Ceci est basé sur la propriété d’isotonie de l’opérateur de fermeture (Davey et al., 2002). En effet, soit g1, de taille (k-1), un des sous-ensembles de g, (g1⊆g) ⇒ (g1″⊆g″). Ainsi, la classe d’équivalence à laquelle appartient g est successeur (pas forcément immédiat) de la classe d’équivalence à laquelle appartient g1. En comparant g à la liste des successeurs immédiats de g1, disons L, deux cas sont à distinguer. Si L est vide alors g est simplement ajouté à L. Sinon, g est comparé aux éléments appartenant à L à ce moment de l’exécution de l’algorithme (cf. la Proposition 7). Pour chaque comparaison, les deux cas présentés dans la Proposition 7 sans alors à distinguer en remplaçant X par g et Y par un des éléments de L. Lemme 6 (Stumme et al., 2002) Soient X, Y⊆ I, X ⊆ Y ∧ Supp(X)=Supp(Y) ⇒ X″=Y″. Proposition 7 Soient X, Y ∈ GMFK, CX et CY dénotent leurs classes d’équivalences respectives : a. Si Supp(X)=Supp(Y)=Supp(X ∪ Y) alors X et Y appartiennent à la même classe d’équivalence. b. Si Supp(X)