Méta-apprentissage d'expériences

Mots-Clés : méta-apprentissage, bases de données, modélisation. ... Dans ce décor changeant, l'exploitation de méthodes, de structures et d'outils est devenue .... le vecteur de l'exemple X comme spécifié dans le jeu d'essai. Dans la phase ...
586KB taille 7 téléchargements 207 vues
Méta-apprentissage d’expériences Concepts, stratégies et perspectives C. Dussart * , M. Lamure ** * 1 Hôpital Desgenettes 108 Boulevard Pinel 69003 Lyon [email protected]

** 2 Equipe Santé, Individu, Société-EA 4128 11, rue Guillaume Paradin 69372 Lyon cedex 08 [email protected]

Résumé. Dans certains domaines de la vie économique, notamment dans le domaine de la santé, de nombreuses expériences réparties dans le temps et/ou dans l’espace traitent d’un même sujet et y apportent leur éclairage. De chaque expérience, on peut élaborer une prédiction, une connaissance selon différentes techniques d’apprentissage. La problématique de notre article vise à répondre à la question suivante : comment traiter automatiquement les résultats obtenus par apprentissage sur des expériences distribuées ? Le méta-apprentissage répond à cette question. Il s’agit d’élaborer une méta-connaissance. Cette méta-connaissance permet de définir une prédiction finale mais aussi d’expliquer les variations observées sur les prédictions issues de chaque apprentissage. Classiquement, le métaapprentissage peut alors être conduit selon trois stratégies : la stratégie par vote, par combinaison et par arbitrage. Après avoir développé ces trois stratégies, nous décrivons les perspectives dans le domaine du méta-apprentissage : le méta-apprentissage méta-analytique qui permet d’élaborer de la métaconnaissance à partir d’expériences distribuées et indépendantes, et le méta-apprentissage de trajectoires qui permet de traiter des données qui évoluent dans le temps. Mots-Clés : méta-apprentissage, bases de données, modélisation.

Studia Informatica Universalis.

182

Studia Informatica Universalis.

1. Introduction Le monde de la science et de la technique se transforme rapidement et profondément, allant toujours vers plus de complexité. Les spécialités se multiplient, et les frontières qui les délimitent sont de plus en plus floues. La prise de connaissance de l’existence de ces domaines et la compréhension de leurs activités sont de plus en plus difficiles à maîtriser. Dans ce décor changeant, l’exploitation de méthodes, de structures et d’outils est devenue indispensable pour mieux appréhender cette complexité. Les entreprises sont particulièrement concernées par ces rapides changements. Pour qu’une entreprise soit compétitive, elle doit constamment être informée des dernières découvertes, inventions ou innovations. Elle doit pour cela s’imposer une constante observation des mutations scientifiques, techniques et technologiques. Les entreprises, sous cet incessant besoin d’informations qui les environnent, mettent en place de nouveaux systèmes spécialisés dans la gestion de la collecte et du traitement de l’information. Toutefois, pour parvenir à ce niveau de performance, il est nécessaire de disposer d’une architecture technique spécifique, capable d’affronter le défi de l’ampleur des volumes (stockage) et des traitements (analyse). Cette nouvelle activité nécessite l’application de méthodes adaptées. Des réflexions ont déjà été menées pour échafauder des méthodes de surveillance performantes et adaptées au monde industriel. Par contre, l’absence d’outil d’aide dans cette activité est un obstacle au bon fonctionnement de ces méthodes. Ainsi, si les nouvelles bases de données permettent de stocker des volumes d’informations toujours plus importants à des coÃz˙ ts de plus en plus faibles, force est de constater que les technologies d’analyse et de visualisation de ces informations n’ont pas connu les mêmes progrès. Le problème revient à canaliser ce torrent fougueux de données en vue d’aider les entreprises à accomplir leurs missions. Pour faire face à un environnement concurrentiel, les entreprises, et de façon générale toutes organisations, ont besoin de transformer le plus rapidement possible le kilo-octet, cette matière première inerte, en produit fini, la connaissance. Celle-ci sera à son tour utilisée pour prendre

Méta-apprentissage

183

des décisions, par exemple, en orientant les stratégies marketing, la gestion des risques. . .Cette alchimie de transformation d’une suite de 0 et de 1 en informations peut transformer les bases de données en facteurs de différenciation et en avantages concurrentiels. Cette situation n’est qu’un des symptômes de ce que nous appelons le paradoxe malthusien de l’information : l’information connaît une croissance exponentielle alors que notre capacité à l’utiliser croît pour sa part, de manière linéaire. Espérer faire face aux volumes sans se doter de nouveaux outils d’exploitation est une utopie. En effet, de nombreuses expériences traitent d’un sujet donné. Après apprentissage, chaque expérience permet d’élaborer une prédiction, une connaissance donnée. Notre recherche vise alors à traiter ces connaissances relevant d’un même sujet. Nous avons ainsi cherché à établir automatiquement un indicateur commun représentant la tendance principale exprimée par les expériences distribuées et à élaborer une méta-connaissance capable d’influer sur l’exploitation des connaissances. 2. Méta-apprentissage : concepts Le terme de méta-apprentissage est apparu aux USA sans approfondissement de ses fondements. Tchan donne une définition simpliste de méta-apprentissage : c’est l’apprentissage de l’apprentissage. Nous comprendrons vite que cette définition est insuffisante. Le métaapprentissage est une forme de méta-modélisation. C’est une action automatisée de méta-modélisation. La méta-connaissance est une connaissance particulière. Elle n’apportera pas de solution à un problème posé. Elle agit sur la connaissance. Par exemple, dans un système expert, des règles de métaconnaissance vont sélectionner un certain nombre de règles. L’espace de recherche est réduit. Les temps de traitement seront réduits. Bien entendu, la méta-connaissance n’est pas qu’un accélérateur de traitement, elle peut jouer d’autres rôles. Classiquement, le méta-apprentissage doit pouvoir s’exercer dans le domaine des expériences distribuées.

184

Studia Informatica Universalis.

Qu’entend-t-on par expériences distribuées ? Les expériences conduites et les résultats obtenus ont été réalisés sur plusieurs sites ou dans un même site mais à des moments différents ou sur des bases de données indépendantes. Une pseudo-distribution peut être organisée en partitionnant aléatoirement une base de données. Toutes ces expériences doivent satisfaire à un même protocole d’expérimentation. On observe que le méta-apprentissage opère sur les résultats issus de systèmes d’apprentissage d’expériences distribuées ou non.

Figure 1 – Concept de méta-apprentisage

Dans ce cas, comme le montre la figure 1, le méta-apprentissage correspond à un apprentissage des prédictions obtenues à partir des classifieurs des bases de données. Un classifieur (ou modèle) est la sortie

Méta-apprentissage

185

obtenue d’un système d’apprentissage. Une prédiction (ou classification) est la classe de données prévue générée par le classifieur quand une instance est appliquée. Afin de clarifier la suite de nos propos, nous allons définir quelques notions. – Un classifieur de base est le résultat issu de l’application d’un algorithme d’apprentissage directement sur une base de données. Le classifieur de base fournit une prédiction de sa classe inconnue lorsqu’on injecte une instance. – Un combinateur ou un arbitreur est généré par un algorithme d’apprentissage qui travaille sur des prédictions (générées par un ensemble de classifieurs de base). L’arbitreur et le combinateur sont également des classifieurs. Par conséquent, d’autres arbitreurs ou combinateurs peuvent être calculés à partir de l’ensemble de prédictions d’autres combinateurs ou arbitreurs d’une façon hiérarchique – Soit x, une instance de la classification que nous recherchons. C1 (x), C2 (x), ...Ck (x) sont les classifications prévues de x par k classifieurs de base, C1 , C2 , ...Ck . Des exemples sont extraits aléatoirement de la base de données afin de constituer un jeu de validation, noté E. Il est employé pour produire un jeu d’essai d’un méta-niveau (métajeu) selon les stratégies qui vont être décrites. ´n class(x) Âz˙ et ´n attributevector(x) Âz˙ indiquent la classification correcte et attribuent le vecteur de l’exemple X comme spécifié dans le jeu d’essai. Dans la phase de méta-apprentissage, un algorithme d’apprentissage est employé pour apprendre à intégrer les résultats donnés par des classifieurs issus de l’apprentissage. Plutôt que d’avoir à prédéterminer et à fixer la règle d’intégration, cette règle est apprise à partir du comportement des classifieurs retenus. Rappelons qu’un classifieur de base est le résultat issu de l’application d’un algorithme d’apprentissage directement sur une base de données. Le classifieur de base fournit une prédiction de sa classe inconnue lorsqu’on injecte une instance. Le méta-apprentissage s’inscrit dans un système global qui s’exprime en deux phases : - la phase d’élaboration du méta-classifieur (cf. figure 2), - la phase d’exploitation du méta-classifieur (cf. figure 3).

186

Studia Informatica Universalis.

La mise en œuvre de la première phase exige plusieurs étapes : – 1ère étape : un algorithme d’apprentissage génère un classifieur de base, à partir d’une base de données ou de plusieurs bases de données qui stockent des expériences (qui servent d’exemples), – 2ème étape : les classifieurs de base produisent une prédiction à partir d’une base de données à utiliser, – 3ème étape : une méta-base est construite à partir des prédictions issues des différentes bases de données, – 4ème étape : un méta-classifieur (classifieur final) est formé par le méta-apprentissage. Il permet d’établir la méta-connaissance du domaine d’application.

Figure 2 – Phase d’élaboration du méta-classifieur

Méta-apprentissage

187

Observons que ce système s’appuie sur des bases de données réparties et hétérogènes. Les algorithmes d’apprentissage peuvent être différents. La mise en œuvre de la seconde phase consiste en l’élaboration d’une instance de méta-niveau (selon une règle de sélection). A partir de cette méta-instance, le méta-classifieur produit une prédiction finale

Figure 3 – Phase d’exploitation du méta-classifieur

La méta-modélisation est un acte de modélisation qui s’applique à un modèle. Il s’agit de concevoir un modèle par lui-même, ou d’utiliser un modèle pour expliquer ou concevoir un autre modèle. Ceci permet d’écrire qu’un méta-modèle est un modèle de modèle. Les techniques de méta-modélisation sont des techniques de modélisation des outils de modélisation. Elles créent ce qu’on appelle de la méta-connaissance.

188

Studia Informatica Universalis.

Le concept de méta-modélisation permet d’exprimer, dans un langage pivot (formalisme à choisir parmi ceux existants ou à concevoir), toutes les techniques de modélisation impliquées dans une même démarche de conception. Ainsi, par analogie avec les systèmes de développement objet dans lesquels on trouve des méta-classes qui décrivent la structure des informations permettant de définir les classes qui à leur tour permettent de créer les objets utilisés dans une application, un méta-modèle va permettre de définir les structures du système de représentations permettant de bâtir les modèles désirés et leurs règles d’utilisation. Liés au métamodèle, les environnements de méta-modélisation fournissent, plus ou moins automatiquement, les éditeurs de modèles conformes à la spécification du méta-modèle. Ils permettent aussi de définir des transducteurs de modèles réalisant la traduction de tout modèle décrit dans le système de représentation défini vers un autre système de représentation. Il est possible de réaliser par ce moyen un outil de génération automatique d’application à partir de la définition de spécifications dans un langage ´n métier Âz˙ . Il permet d’améliorer l’accumulation des savoir-faire et des expertises notamment issues d’expériences. Reste le problème fondamental : peut-on apprendre par des moyens automatiques cette métaconnaissance ? 3. Stratégies de méta-apprentissage d’expériences Il existe trois stratégies distinctes pour combiner des prédictions multiples issues de classifieurs séparément appris. 3.1. Stratégie par vote Actuellement, la littérature propose principalement deux procédures de vote pour réaliser un méta-apprentissage d’expériences distribuées : le vote simple et le vote pondéré. Plusieurs des techniques les plus simples qui visent à combiner de multiples évidences dans une prédiction singulière sont basées sur le vote. Le premier arrangement que nous examinons est le vote simple. C’est-à-dire, basé sur les prédictions de différents classifieurs de base, une prédiction finale est choisie comme

Méta-apprentissage

189

le classification avec le vote de la majorité. Une variation du vote simple est le vote pondéré (Weighted voting WV). Chaque classifieur est associé à un poids, qui est déterminé par la performance statistique d’un classifieur exécutant des tests sur un jeu de validation. Un jeu de validation est un ensemble d’exemples sélectionnés aléatoirement à partir de la base de donnée initiale. Puisque chaque classifieur est formé sur seulement un sous-ensemble, les exemples des autres sous-ensembles qui contribuent au jeu de validation fournissent une mesure du caractère prédictif. Chaque prédiction est pondérée par le classifieur assigné d’un poids. Les poids de chaque classification sont additionnés et la prédiction finale est la classification qui a le poids le plus élevé. Littlestone et Warmuth (1989) proposent une stratégie basée sur le vote pondéré (Weighted Majority WM) pour combiner différents classifieurs. Les classifieurs sont les différents algorithmes de prédiction (qui ne sont pas nécessairement des algorithme d’apprentissage). Ces algorithmes de combinaison sont semblables à la méthode de vote pondéré décrite ci-dessus ; la principal différence est la manière dont les poids sont obtenus. L’algorithme de base, appelé WM, associe chaque classifieur issu de l’apprentissage à un premier poids. Chaque exemple est alors traité par les classifieurs. La prédiction finale pour chaque exemple est produite comme dans le vote pesé. Si la prédiction finale est erronée, les poids des classifieurs dont les prédictions sont incorrectes sont multipliés par un coefficient correcteur β, avec 0 < β < 1, cela diminuera leur contribution dans les prédictions finales. Une variation de l’algorithme de base WM, appelée WML, ne permet pas aux poids de dépasser une certain limite prédéfinit. La limite peut seulement se produire si le poids est plus grand que x fois le poids total de tous les classifieurs, avec x = nγ où n désigne le nombre de classifieurs, et 0 < γ < 0, 5. Une autre variation, appelée WMR, produit des réponses randomisées. La probabilité qu’une classification sélectionnée soit la prédiction finale est le poids total de cette classification divisée par le poids total de toutes les classifications. Les poids sont formés comme dans l’algorithme de WM. En réalité, la stratégie par vote est riche en possibilité. Au delà du vote simple et du vote pondéré, il existe en effet de nombreuses procédures de vote : pluralité, procédure d’amendements avec agenda fixé, procédure du KO avec agenda, procédures de Borda, de Condorcet, de

190

Studia Informatica Universalis.

Hare, de Rubinstein, de Shuhe Li, de Greenberg, de Diffo-Moulen. . . Ces procédures nous permettent alors d’apporter un éclairage intéressant et novateur au méta-apprentissage d’expériences distribuées. La rigueur scientifique nous pousse à explorer complètement cette voie. Nos travaux avec une méthode de type BORDA ont donné de bons résultats sans charger les temps de traitements. Nous avons donc de bonnes raisons de penser qu’une procédure par vote, adaptée au problème, permettra d’extraire une information pertinente et fiable (sans biais) à partir d’expériences distribuées. 3.2. Stratégie par combinaison Dans la stratégie par combinaison, les prédictions des classifieurs de base issus de l’apprentissage à partir des jeux d’essai forment la base du jeu d’essai du méta-apprentissage. Une règle de composition, qui varie selon différentes combinaisons, détermine la teneur des exemples pour le méta-apprentissage. De ces exemples, le méta-apprentissage produit un méta-classifieur. Ce méta-classifieur est appelé combinateur. Le but de cette stratégie est de fusionner les prédictions des classifieurs de base par l’apprentissage du rapport entre ces prédictions et la prédiction correcte. En classifiant une instance, les classifieurs de base produisent leurs prédictions. Basée sur la même règle de composition, une nouvelle instance est générée à partir des prédictions. Elle est ensuite classée par le combinateur (cf. figure 4). Le combinateur calcule une prédiction qui peut être entièrement différente de celles proposées par un classifieur de base (tandis qu’un arbitreur choisit une des prédictions des classifieurs de base et de l’arbitreur lui-même).

Méta-apprentissage

191

Figure 4 – Stratégie par combinaison

Les prédictions, C1 (x), C2 (x), ...Ck (x), pour chaque exemple x dans l’ensemble de validation, E, sont produits par les k classifieurs de base. Ces classifications prévues sont employées pour former un nouvel ensemble d’instances d’un méta-niveau, T , qui est utilisé comme entrée à un algorithme d’apprentissage qui calcule un combinateur. La façon dont T est calculé dépend donc de la règle de composition. Cette règle peut être : class − combiner : ajouter au jeu d’essai de méta-niveau avec la classification correcte et les prédictions [Wolpert92], ce qui correspond à : T = {(class(x), C1 (x), C2 (x), ...Ck (x))/x ∈ E} class − attribute − combiner : ajouter au jeu d’essai de méta-niveau avec la classification correcte, les prédictions et les vecteurs attributs.

192

Studia Informatica Universalis.

Ainsi, on a : T = {class(x), C1 (x), C2 (x), ...Ck (x), attribute−vector(x))/x ∈ E} binary − class − combiner : le principe est le même que pour classcombiner à l’exception que chaque prédiction Ci (x) possède m prédictions binaires, Ci1 (x), ..., Cim (x) (avec m le nombre de classes). Chaque prédiction, Cij (x), est produite à partir d’un classifieur binaire, qui est formé sur les exemples qui sont étiquetés avec les classes j et −j. En d’autres termes, nous utilisons des classifieurs de base plus spécialisés et essayons d’apprendre la corrélation entre les prédictions binaires et la prédiction correcte. On a alors : T = {class(x), C11 (x), ..., C1m (x), ..., C21 (x), ..., C2m (x), ..., Ckm (x)/x ∈ E} Exemple

Classe

Vecteur

Prédiction issue du

attribut

classifieur de base

x

class(x)

attrvec(x)

C1 (x)

C2 (x)

X1

Table

attrvec1

Table

Table

X2

Chaise

attrvec2

Table

Chaise

X3

Table

attrvec3

Chaise

Chaise

jeu d’essai obtenu selon la règle "class-combiner" Instance

Classe

Vecteur attribut

1

Table

(Table,Table)

2

Chaise

(Table, Chaise)

3

Table

(Chaise, Chaise)

Méta-apprentissage

193

jeu d’essai obtenu selon la règle "class-attribute-combiner" Instance

Classe

Vecteur attribut

1

Table

(Table,Table, attrvec1)

2

Chaise

(Table, Chaise, attrvec2)

3

Table

(Chaise, Chaise, attrvec3)

Figure 5 – exemples de jeux d’essai obtenus selon la règle "classcombiner" et "class-attribute-combiner"

jeu d’essai obtenu selon la règle "binary-class-combiner" Instance

Classe

Vecteur attribut

1

Table

(oui, non, oui, non)

2

Chaise

(oui, oui, non, oui)

3

Table

(non, oui, non, oui)

194

Studia Informatica Universalis.

Figure 6 : exemples de jeux d’essai obtenus selon la règle "binary-classcombiner" Ces trois arrangements (pour la règle de composition) sont définis dans l’objectif de former un jeu d’essai pour le combinateur. Ces règles de composition sont également utilisées d’une façon semblable pendant la classification après qu’un combinateur ait été calculé. Quand on donne une instance dont le classification est recherchée, les classifications prévues par chacun des classifieurs de base sont calculées dans un premier temps. La règle de composition est alors appliquée pour produire une instance de méta-niveau, qui est classée alors par le combinateur afin de produire la classe finale prévue. 3.3. Stratégie par arbitrage Dans la stratégie d’arbitrage, le jeu d’essai pour le métaapprentissage est un sous-ensemble du jeu d’essai destiné aux systèmes d’apprentissage. Ainsi, les instances de méta-niveau sont une distribution particulière du jeu d’essai brut. Les prédictions des classifieurs de base issues de l’apprentissage et une règle de sélection (qui varie de différentes manières) déterminent quel sous-ensemble constituera le jeu d’essai du méta-apprentissage. Ceci diffère de la stratégie par combinaison, qui a le même nombre d’exemples pour le classifieur de base que pour le combinateur. Basé sur ce jeu d’essai, le méta-apprentissage génère un méta-classifieur, appelé dans ce cas-ci arbitreur. En classifiant une instance, les classifieurs de base produisent leurs prédictions. Ces prédictions, ainsi que la prédiction de l’arbitreur et une règle correspondante d’arbitrage, génèrent une prédiction finale (cf. figure 7). Dans cette stratégie, on apprend à arbitrer parmi les prédictions potentiellement différentes des classifieurs de base (au lieu d’apprendre à fusionner les prédictions comme dans la stratégie par combinaison).

Méta-apprentissage

195

Figure 6 – Arbitreur avec deux classifieurs

Ainsi, les arrangements choisissent les exemples qui sont perturbant pour les classifieurs de base, desquels un arbitreur est appris. Un jeu d’essai T pour l’arbitreur est produit en sélectionnant des exemples à partir du jeu de validation E. Le choix des exemples sélectionnés parmi E est dicté par une règle de sélection, qui biaise les données de l’arbitreur. Classiquement, il existe trois arrangements utilisés pour définir la règle de sélection. – dif f erent − arbitrer : sélectionner une instance à partir deE si aucune des classes présentes dans les k prédictions de base ne rassemble une classification majoritaire (> k2 ). Ce qui correspond à : T = Td = {x ∈ E/no − majority(C1 (x), C2 (x), ..., Ck (x)}

196

Studia Informatica Universalis.

Le but de cette règle est de choisir des données qui sont dans un certain sens perturbantes, i.e. la majorité des classifieurs ne sont pas d’accord sur la manière dont la donnée doit être classée. – dif f erent−incorrect−arbitrer : sélectionner des instances dont les prédictions ne recueillent pas une majorité, Td, (comme dans le cas précédent) mais aussi les instances qui ont des prédictions qui sont majoritaires mais incorrectes c’est-à-dire : T =D∪I où I = Ti = {x ∈ E/majority(C1 (x), C2 (x), ..., Ck (x) 6= class(x)} – dif f erent − incorrect − correct − arbitrer : ajouter un jeu de trois jeux d’essai : Td , Ti et Tc (où les exemples ont la même prédiction). On a alors : T = {Td , Ti , Tc } avec Tc = {x ∈ E/majority(C1 (x), C2 (x), ..., Ck (x) = class(x)} Dans ce cas, nous visons à séparer les données en trois catégories puis à distinguer chaque catégorie par l’apprentissage d’un sous-arbitre. Td , Ti et Tc génèrent respectivement Ad , Ai et Ac . Exemple

Classe

Vecteur

Prédiction issue du

attribut

classifieur de base

x

class(x)

attrvec(x)

C1 (x)

C2 (x)

X1

Table

attrvec1

Table

Table

X2

Chaise

attrvec2

Table

Chaise

X3

Table

attrvec3

Chaise

Chaise

Méta-apprentissage

197

jeu d’essai obtenu selon la règle "different-arbitrer" Instance

Exemple

Classe

Vecteur attribut

1

x2

Chaise

attrvec2

jeu d’essai obtenu selon la règle "different-incorrect-arbitrer" Instance

Exemple

Classe

Vecteur attribut

1

x2

Chaise

attrvec2

2

x3

Table

attrvec3

jeu d’essai obtenu selon la règle "different-incorrect-correct-arbitrer" Set

Instance

Exemple

Classe

Vecteur attribut

Different(Td )

1

x2

Chaise

attrvec1

Incorrect(Ti )

1

x3

Table

attrvec2

Correct(Tc )

1

x1

Table

attrvec3

Figure 8 : exemples de jeux d’essai selon les trois règles d’arbitrage Nous venons ainsi de présenter le principales stratégies par combinaison et par abitrage utilisées pour le méta-apprentissage. Il est important de noter la différence entre la stratégie par combinaison et celle par arbitrage. La stratégie par combinaison essaie de trouver les rapports entre les prédictions produites par les classifieurs et les prédictions correctes. Un combinateur est une "fonction d’apprentissage" qui détermine la prédiction finale donnée par un ensemble de prédictions. En comparaison, la stratégie par arbitrage essaie d’arbitrer parmi les prédictions divergentes. Un arbitreur est juste un autre classifieur, mais exercé sur une distribution biaisée des exemples initiaux.

198

Studia Informatica Universalis.

3.4. Stratégie hybride Basés sur ces notions présentées précédemment, il existe des arrangements hybrides qui fusionnent certaines idées des stratégies par arbitrage et par combinaison. En prenant en compte des prédictions issues des classifieurs de base, la règle de sélection choisit des exemples à partir du jeu d’essai comme dans la stratégie par arbitrage. Cependant, le jeu d’essai pour le méta-apprentissage est produit par une règle de composition appliquée à la distribution des données (un sous-ensemble de E) comme cela a été défini dans la stratégie par combinaison. Ainsi, les stratégies hybrides tentent d’améliorer la stratégie par arbitrage en corrigeant les prédictions des exemples "confus". Les prédictions sont fusionnées par combinaison au lieu de simplement subir un arbitrage entre elles. Un algorithme d’apprentissage produit alors un méta-classifieur, (en réalité un combinateur), à partir du jeu d’essai. Quand une instance est classée, les classifieurs de base génèrent leurs prédictions. Ces prédictions sont alors composées pour former une instance de méta-niveau pour le méta-classifieur en utilisant la même règle de composition. Le méta-classifieur produit alors la prédiction finale. N’importe quelle combinaison de règle possible est bien entendu envisageable. Nous présentons deux combinaisons de règles de composition et de sélection qui peuvent être employées : – different-class-attribute-hybrid : ce schéma intègre celui de "different-arbiter" et de "class-attribute-combiner", – different-incorrect-class-attribute-hybrid : ce schéma intègre celui de "différent-incorrect-arbiter" et de "class-attribute-combiner".

Méta-apprentissage

Exemple

Classe

Vecteur

Prédiction issue du

attribut

classifieur de base

x

class(x)

attrvec(x)

C1 (x)

C2 (x)

X1

Table

attrvec1

Table

Table

X2

Chaise

attrvec2

Table

Chaise

X3

Table

attrvec3

Chaise

Chaise

199

jeu d’essai obtenu selon la règle "different-class-attribute-hybrid" Instance

Classe

Vecteur attribut

1

Chaise

(Table, Chaise, attrvec2 )

jeu d’essai obtenu selon la règle "different-incorrect-class-attribute-hybrid" Instance

Classe

Vecteur attribut

1

Chaise

(Table, Chaise, attrvec2 )

2

Table

(Chaise, Chaise, attrvec3 )

Figure 9 : exemples de jeux d’essai obtenus selon des règles hybrides Notons que les arrangements "class-combiner", "class-attributecombiner" et "different-arbiter" sont les plus employés. Les autres arrangements sont plus complexes et n’apportent pas d’information supplémentaire.

200

Studia Informatica Universalis.

4. Perspectives 4.1. Méta-apprentissage d’expériences distribuées et indépendantes 4.1.1. Problématique Le sujet de notre recherche vise à apprendre une méta-connaissance à partir de résultats issus d’un apprentissage effectué sur des expériences conservées sous forme de bases de données distribuées et indépendantes. Il répond à la question suivante : comment résoudre le problème posé par la synthèse des résultats issus de plusieurs expériences ? Dans les parties précédentes de notre travail, nous avons présenté trois stratégies de méta-apprentissage : la stratégie par vote, par combinaison et par arbitrage. En effet, classiquement, il est possible de réaliser un métaapprentissage à partir d’une unique et volumineuse base de données. Afin de gagner en temps d’acquisition d’une prédiction finale, on effectue une partition de cette base de données en n ensembles. Une prédiction est obtenue par apprentissage de chaque ensemble. Une prédiction finale est ensuite élaborée par méta-apprentissage. Cependant, lorsque nous nous plaçons dans un environnement d’expériences distribuées et indépendantes, ces stratégies ne semblent pas adaptées à l’acquisition de méta-connaissances. Afin de répondre à cette demande, nous proposons une stratégie méta-analytique du méta-apprentissage d’expériences. Notre stratégie regroupe l’ensemble des techniques permettant de combiner de manière qualitative, quantitative et reproductible les résultats d’expériences indépendantes. L’idée est d’analyser un ensemble de bases de données distribuées traitant d’un sujet donné, en éliminant la plus grande part possible de subjectivité. Cette stratégie ne résume pas seulement la tendance principale de ces expériences mais aussi explique leurs variations. Ainsi, nous nous plaçons bien dans le cadre d’une élaboration de méta-connaissance. Notre stratégie permet d’obtenir une prédiction finale mais aussi, et ce contrairement aux stratégies décrites précédemment, d’expliquer les différences observées entre les différentes expériences. Une méta-connaissance est apprise et non pas une connaissance puisque notre stratégie permet d’agir sur les expériences. Cette stratégie méta-analytique fait alors référence à toute méthode systématique basée sur des techniques statistiques visant à com-

Méta-apprentissage

201

biner des résultats d’expériences indépendantes dans le but d’obtenir un estimateur de l’effet global de l’intervention testée. 4.1.2. Stratégie de méta-apprentissage méta-analytique Classiquement, la réalité sur un sujet donné peut être déterminée soit par dénombrement des expériences en trois catégories (par exemple : favorable à la stratégie A, favorable à la stratégie B ou non concluant), soit par la combinaison des résultats issus d’un apprentissage. Pour résoudre le problème lié à la synthèse de résultats issus de plusieurs expériences, la première idée qui vient à l’esprit est de combiner directement les effectifs et les nombres d’événements de tous les essais, par sommation (pooling en anglais). A partir de ces totaux, un estimateur commun est présenté. Considérons deux essais thérapeutiques évaluant chacun le même traitement, avec comme critère de jugement le nombre de complications. Individuellement, les essais montrent une diminution de la fréquence des complications dans le groupe traité (groupe T) par rapport au groupe de contrôle (groupe C). Les deux risques relatifs sont très proches (0,86 et 0,72) donnant ainsi une forte cohérence à ces deux résultats. La synthèse que l’on fait intuitivement est de conclure à un effet positif du traitement. Cependant, contre toute attente, la combinaison par sommation de ces deux résultats conduit à une estimation inverse, avec un risque relatif de 1,11. Cette situation est connue sous le nom de paradoxe de Simpson. Elle illustre bien l’inefficacité et les dangers de cette méthode. La méta-analyse propose un nouvel éclairage. Ce terme, qui signifie en effet "l’analyse des analyses" du grec meta "qui englobe" les autres analyses, a été introduit en 1976 par Glass pour désigner ces méthodes visant à regrouper plusieurs expériences afin d’obtenir des informations qu’aucune prise isolément ne peut apporter avec un degré de certitude satisfaisant. Ainsi il s’agit d’une étude scientifique comme une autre, à la différence près que l’unité statistique étudiée n’est pas l’individu mais un groupe d’individus inclus dans une expérience pour lesquels on ne connaît pas le résultat des mesures individuelles mais seulement celles de l’ensemble du groupe. Cette stratégie méta-analytique ne consiste pas à regrouper les sujets car ils ne sont pas comparables d’une expérience à l’autre. Il faut regrouper les estimations de l’effet en faisant l’hypothèse que l’association étudiée a le même effet dans toutes les expériences (hypothèse d’homogénéité). Une carac-

202

Studia Informatica Universalis.

téristique importante de cette approche est son efficacité statistique, qui permet de détecter des effets de faible ou moyenne importance. Il suffit de combiner les résultats de différentes expériences pour obtenir des échantillons dont la taille (et par conséquent l’efficacité statistique) est beaucoup plus grande que celle des échantillons des différentes expériences. Cette stratégie permet également des estimations numériques des effets, de sorte qu’il est plus facile de comparer les divers indicateurs de risque par rapport à leur importance relative. En calculant la variance des constatations de toutes les expériences, on peut déterminer la mesure dans laquelle les facteurs de risque s’appliquent aux différents contextes et échantillons. L’ensemble des expériences relatives à un objectif donné apporte une quantité d’informations non négligeable. Chaque expérience contribue dans la recherche à une question donnée. On distingue ainsi une partie commune à chaque expérience qui permet de tester l’hypothèse initiale et une partie spécifique relative aux caractéristiques et aux fluctuations (dues au "hasard") de chaque échantillon. Il faut donc prendre en compte toutes les expériences et bien séparer les deux "types" d’information, chacun ayant leur propre rôle. Notre stratégie méta-analytique se différencie ainsi du simple pooling de données provenant d’expériences indépendantes où il n’est pas postulé de différence entre effet spécifique et effet commun, puisque le pooling fait l’hypothèse que les individus sont identiques d’une expérience à l’autre. Abusivement présentée comme méta-analyse, le pooling néglige la variance inter-étude et donne alors des résultats trop optimistes. De même, cette stratégie est différente d’une simple revue d’articles puisque la recherche objective d’explications de variations des résultats est inscrite dans la démarche méta-analytique. Notre stratégie méta-analytique permet alors, outre de répondre de façon formelle lorsque les différentes expériences aboutissent à des conclusions divergentes, également de réduire l’intervalle de confiance autour d’un estimateur. L’algorithme de méta-apprentissage méta-analytique (MAMA) que nous proposons exploite plusieurs composants logiciels. Ils ont chacun un rôle particulier. La base contextuelle Elle aide à choisir les outils statistiques qui doivent être mis en œuvre. L’utilisateur doit seulement définir le contexte et le domaine d’application. Les connaissances sont représentées par un système expert à règles de production. Il permet une adaptation fine et des modifications faciles de la part de l’expert.

Méta-apprentissage

203

Ce module permet de construire un outil adapté à un problème sous l’aide d’un spécialiste des statistiques. Mais pour éviter un biais d’ancrage, l’utilisateur est autorisé à ajouter d’autres techniques. La métabase de connaissances Elle réunit souvent les connaissances du terrain pour le domaine choisi. Elle permet de nuancer des résultats, voire de les contredire, et éventuellement de demander des travaux complémentaires. Elle utilise une représentation hypermédia facile à mettre en œuvre par l’expert du domaine. Par exemple, sans remettre en cause la convergence des expériences sur les qualités de tel vaccin, la métabase apportera une contrainte d’utilisation en milieu tropical. Le module de médiation dans la recherche d’information L’accessibilité la plus complète à l’information, est un besoin croissant notamment dans le domaine de la recherche et de la pratique médicale. Notre modèle concerne la recherche d’information (information retrieval). Il ne s’intéresse pas à la recherche des données (data retrieval). Les modèles de recherche d’information fournissent habituellement des références à des documents qui contiennent ce qui est cherché. De ce fait, il y a dans la réponse fournie des informations pertinentes mélangées à des informations qui ne le sont pas. Observons que les informations pertinentes trouvées ne correspondent pas nécessairement à l’ensemble des informations pertinentes disponibles. La qualité du modèle de recherche dépend de sa capacité à réduire le ´n bruit Âz˙ et le ´n silence Âz˙ surtout dans l’utilisation de grandes masses d’information. D’après les études publiées, on constate que les techniques de traitement automatique de langage naturel n’améliorent pas cette recherche, ni l’efficacité en temps de réponse. 4.1.3. conclusion Les travaux de recherche présentés dans notre article ont pour objectif de répondre à la question suivante : comment traiter automatiquement les résultats obtenus par apprentissage sur des expériences distribuées ? Le méta-apprentissage apparaît être la réponse adaptée à notre problématique. Selon nous, il s’agit d’une fonction qui permet d’élaborer automatiquement de la méta-connaissance qui va agir sur l’exploitation des connaissances. La finalité de cette fonction est double : extraire une information pertinente (sous la forme d’un indicateur reflétant la tendance principale exprimée par les différentes expériences)

204

Studia Informatica Universalis.

et expliquer leurs variations. Notre travail nous a conduit à approfondir le concept de méta- apprentissage ainsi que ses trois principales stratégies : la stratégie par vote, par combinaison et par arbitrage. La stratégie par vote est souvent négligée car considérée comme trop simpliste. Seules les techniques du vote simple et du vote pondéré sont envisagées. Un état de l’art des nombreuses méthodes de sélection d’un classifieur permet au lecteur de comprendre que cette stratégie mérite d’être explorée davantage. Notre recherche nous a conduit à la conclusion suivante : les stratégies classiques de méta-apprentissage ne sont pas adaptées à un environnement d’expériences distribuées et indépendantes. Pour faire face à cette difficulté, nous avons développé une stratégie répondant à ces exigences. Il s’agit de la stratégie méta-analytique de méta-apprentissage. Cette stratégie regroupe l’ensemble des techniques permettant de combiner de manière qualitative, quantitative et reproductible les résultats d’expériences indépendantes. Elle permet d’obtenir une prédiction finale mais aussi, et ce contrairement aux stratégies existantes, d’expliquer les différences observées entre les différentes expériences. Nous avons donc réussi à apprendre une méta-connaissance, et non pas une connaissance, puisque notre stratégie permet d’agir sur les expériences. Le méta-apprentissage de trajectoires permet de traiter des données qui évoluent dans le temps. Les méta-trajectoires vont permettre soit une interprétation, soit une prédiction à partir d’expériences. Les stratégies de méta-apprentissage dans un environnement d’expériences distribuées se proposent de favoriser l’élaboration d’outils conçus pour permettre l’analyse des expériences et pour offrir une aide pertinente à la prise de décision. Elles favorisent la participation et le partage des responsabilités entre experts d’un domaine et informaticiens, entre maître d’ouvrage et maître d’œuvre.

Méta-apprentissage

Figure 7 – Exemple de trajectoires patients

205

206

Studia Informatica Universalis.

Figure 8 – Exemple de méta-trajectoires

Plusieurs applications dans domaine de la santé ont été développées. Citons, par exemple, l’analyse du risque de décès d’un patient après arrêt cardiaque à partir du taux d’oxygène mesuré toutes les demi-heures pendant 48 heures. Cette étude a porté sur 800 cas fournis par le SAMU. Elle a permis de mettre en relief cinq méta-trajectoires c’est-à-dire cinq types d’évolution du risque de décès en fonction d’un indicateur : le taux de SpO2. L’approche originale que nous avons développée s’attache alors à apporter un nouvel éclairage à des problèmes de choix thérapeutique et s’inscrit dans le cadre de la planification des soins et de l’aide à la décision .

Méta-apprentissage

207

5. Conclusion Les travaux de recherche présentés dans cette thèse ont pour objectif de répondre à la question suivante : comment traiter automatiquement les résultats obtenus par apprentissage sur des expériences distribuées ? Le méta-apprentissage apparaît être la réponse adaptée à notre problématique. Selon nous, il s’agit d’une fonction qui permet d’élaborer automatiquement de la méta-connaissance qui va agir sur l’exploitation des connaissances. La finalité de cette fonction est double : extraire une information pertinente (sous la forme d’un indicateur reflétant la tendance principale exprimée par les différentes expériences) et expliquer leurs variations. Notre travail nous a conduit à approfondir le concept de métaapprentissage ainsi que ses trois principales stratégies : la stratégie par vote, par combinaison et par arbitrage. La stratégie par vote est souvent négligée car considérée comme trop simpliste. Seules les techniques du vote simple et du vote pondéré sont envisagées. Nous avons alors présenté une amélioration de la stratégie par vote existante en proposant un vote préférentiel basé sur la notion de similarité entre les classifieurs. Un état de l’art des nombreuses méthodes de sélection d’un classifieur permet au lecteur de comprendre que cette stratégie mérite d’être explorée davantage. Notre recherche nous a conduit à la conclusion suivante : les stratégies classiques de méta-apprentissage ne sont pas adaptées à un environnement d’expériences distribuées et indépendantes. Pour faire face à cette difficulté, nous avons développé une stratégie répondant à ces exigences. Il s’agit de la stratégie méta-analytique de méta-apprentissage. Cette stratégie regroupe l’ensemble des techniques permettant de combiner de manière qualitative, quantitative et reproductible les résultats d’expériences indépendantes. Elle permet d’obtenir une prédiction finale mais aussi, et ce contrairement aux stratégies existantes, d’expliquer les différences observées entre les différentes expériences. Nous avons donc réussi à apprendre une méta-connaissance, et non pas une connaissance, puisque notre stratégie permet d’agir sur les expériences. La qualité de cette stratégie dépend bien entendu de la qualité intrinsèque des informations qu’elle contient, mais également de l’adéquation

208

Studia Informatica Universalis.

des procédures de recherche de ces informations. Nous avons donc pris en compte ce paramètre en développant et intégrant dans notre stratégie un outil de médiation dans la recherche d’information. La stratégie méta-analytique de méta-apprentissage dans un environnement d’expériences distribuées se propose d’être un outil conçu pour permettre l’analyse des expériences et pour offrir une aide pertinente à la prise de décision. Notre stratégie favorise la participation et le partage des responsabilités entre experts d’un domaine et informaticiens, entre maître d’ouvrage et maître d’œuvre. Références