Le rôle des données, informations et ... - Semantic Scholar

supervision de systèmes dynamiques. .... linéaire sur une fenêtre glissante temporelle, appelée échelle caractéristique, dont la taille dépend de la ... supervision de la ventilation mécanique chez les nourrissons, des connaissances et.
57KB taille 1 téléchargements 82 vues
Le rôle des données, informations et connaissances dans la construction de scénarios médicaux Anne-Sophie Silvent* — Catherine Garbay* — Pierre-Yves Carry** — Michel Dojat*,*** * Laboratoire TIMC-IMAG, Grenoble {sophie,silvent}{catherine.,garbay}@imag.fr

** Hospices Civils de Lyon *** Unité mixte INSERM-UJF U438 "RMN Bioclinique"CHU de Grenoble Pavillon B BP 217 38043 Grenoble Cedex 9 {[email protected]}

RESUME. La reconnaissance automatique de scénarios est cruciale pour l’aide à la supervision de systèmes dynamiques. La construction de tels scénarios représentatifs de situations de bon ou de mauvais fonctionnement n’est pas réalisable à partir de la connaissance experte. Notre objectif est donc d’extraire, à partir des données et des informations disponibles, des séquences d'événements pertinents et ensuite de construire des scénarios validés par les experts. Nous présentons notre méthodologie d’abstraction des données qui permettra au fur et à mesure de construire des séquences de granularité croissante, puis des scénarios. Cette méthodologie s’appuie sur un processus incrémental de manipulation des informations et des connaissances basé sur une ontologie de ces concepts. Elle est appliquée à la surveillance de patients hospitalisés en unités de soins intensifs ABSTRACT. The automatic recognition of typical pattern sequences (scenarios), as they are developing, is of crucial importance for computer-aided patient supervision. However, the construction of such scenarios directly from medical expertise is unrealistic in practice. Starting from the monitored data and clinical information available, our objective is to extract typical abstracted pattern sequences and then construct scenarios, eventually validated by clinical experts as representative of a class of situations to recognize. In this paper, we present a methodology for data abstraction that gradually allows the construction of such scenarios. MOTS-CLES : abstraction, raisonnement temporel, apprentissage, supervision, monitoring KEYWORDS : data abstraction, temporal reasoning, machine learning, monitoring

Nom de la revue. Volume X – n° X/2001, pages 1 à X

Nom de la revue. Volume X – n°X/2002

1. Introduction Ce papier propose une méthodologie d’abstraction des données dans le but de construire des scénarios médicaux représentatifs de situations de bon ou de mauvais fonctionnement qu'il s'agira ensuite de reconnaître au plus tôt. Notre objectif est d’extraire, à partir des données monitorées et des informations disponibles, des séquences abstraites d'événements pertinents et ensuite de construire des scénarios validés par les experts comme représentatifs d’une classe de situations à reconnaître. Cette construction passe par différentes étapes, et nous nous intéressons particulièrement à la première, l’abstraction progressive des données. Nous insistons sur l’importance d’une gestion explicite des informations et des connaissances dans ce processus.

2. Le rôle de l’abstraction dans le processus d’extraction de connaissances Dans [FAY 96], le processus d’extraction de connaissances à partir des données comprend 5 étapes : sélection, pré-traitement, transformation, fouille de données et interprétation. L’étape de sélection permet de se focaliser suivant des critères prédéfinis, sur des données supposées à la fois « interprétables » et à potentiel informatif. Le pré-traitement concerne le traitement des données bruitées et manquantes. L’étape de transformation sert à définir des représentations et/ou des abstractions des données adaptées à la tâche d’extraction de connaissances. L’étape de fouille de données permet de trouver des régularités (patterns) et l’étape d’interprétation de sélectionner les plus pertinentes et extraire de la connaissance. Le processus global est incrémental. Selon Fayyad, il peut contenir des boucles entre 2 étapes et en particulier, l’étape d’interprétation peut guider toutes les autres étapes. Ici, nous étudions les 3 premières étapes que nous appellerons « abstraction ». Dans ce processus, nous accordons un rôle central à la notion d’information ainsi qu’aux notions de données et de connaissances. Ces notions méritent une définition claire. Les données sont le résultat d’observations ; les informations sont le résultat de l’interprétation de ces données ; les connaissances définissent la manière dont les données et les informations vont être manipulées [KAI 97]. Pitrat [PIT 90], décrit la connaissance comme les éléments permettant de construire de nouveaux faits ou permettant de déterminer de nouvelles actions à entreprendre et non pas comme des éléments descriptifs. C’est sur cette définition que nous nous appuyons. Nous proposons (voir Figure 1) une version modifiée du processus décrit par Fayyad, qui met l’accent sur la notion d’information, le rôle des connaissances et sur son aspect incrémental et dynamique. Ce processus est complexe ; la connaissance est nécessaire pour transformer des données en informations et ce, dès les étapes précoces de pré-traitement. A chaque étape, de nouvelles informations sont produites qui permettent en retour de contrôler l’interprétation. L’étape d’abstraction permet de transformer des données en informations puisqu’elle permet de les résumer et de

titre

les interpréter. La connaissance du domaine et/ou la connaissance extraite vont contrôler ce processus d'abstraction. Sélection

Données

Description

Données ciblées

Interpré tation

Données pré-traitées

Fouille de données Informations

Interprétation/ évaluation Scénarios

Connaissance

« Abstraction »

Figure 1. Processus d'extraction de connaissances mettant en exergue l'abstraction

Afin de clarifier l’approche proposée, il nous paraît nécessaire d’organiser les concepts manipulés sous la forme d’ontologie. Une ontologie est la classification des éléments d'un domaine qui vise à déborder des cadres d'un thésaurus classique et à atteindre des aspects associatifs plus profonds comme la causalité, la correction/remediation, la succession temporelle… Elle permet de clarifier la structure de la connaissance d’un domaine et ainsi, permet une représentation concise de cette connaissance et facilite son utilisation. Nous discernons 3 concepts : les données, les informations et les connaissances : Les données sont les valeurs observées des paramètres. Les informations peuvent être fournies ou extraites par le processus d'abstraction. Pour la supervision de systèmes, elles sont essentiellement représentées sous forme d’objets temporels de type événement et état [DOJ 98]. Un événement est classiquement un changement instantané du système. Dans notre problématique, nous appelons événement tout changement ou intervention sur le système ou son environnement (exemples : des réglages sur les machines, des soins apportés au patient,…). Pour la suite, nous discernons 3 sortes d’événements : 1) les événements internes (changements des valeurs des paramètres), 2) les événements externes (exemples : intervention médicale, soin), et 3) les alarmes (dépassement d’un seuil pour un paramètre). Les événements externes et les alarmes nous sont rapportés et annotés par un clinicien pendant l’acquisition des données. Des liens causaux existent entre les événements. Un état sous-entend une notion de durée, donc de persistance. Il représente une période de temps pendant laquelle une interprétation sur un ou plusieurs paramètres est valide (exemple, fréquence respiratoire stable pendant 5 minutes). Ces états doivent être abstraits par le processus d'abstraction. Les états et les événements sont liés temporellement. Les connaissances se divisent de la même manière. Les connaissances à apprendre sont les scénarios descriptifs de comportements. Un scénario est constitué d’une succession d’événements et d’états et traduit un changement de comportement du système dans la mesure où il décrit son comportement dynamique. Une représentation d’un scénario peut se faire à l’aide d’un graphe de contraintes temporelles [DOJ 98]. Les connaissances fournies sont des règles de classification, des relations causales entre les paramètres, des connaissances contextuelles ou autres suivant le système à modéliser.

Nom de la revue. Volume X – n°X/2002

3. Manipulation des informations et des connaissances à travers l’abstraction des données L’abstraction des données est un processus dépendant de la connaissance, qui évolue dans l’espace des paramètres du domaine à plusieurs niveaux de granularité temporelle. La fusion de la connaissance et de l’information est centrale dans notre approche. De plus, pour construire un ensemble fiable, chaque étape d’abstraction est validée par les experts du domaine. Plusieurs approches ont été proposées pour l’abstraction de données médicales qui diffèrent selon leur façon d’utiliser la connaissance et les informations. Dans [CAL 00], les auteurs proposent une méthodologie pour l’extraction de tendances locales à partir de données médicales. Les tendances sont calculées par régression linéaire sur une fenêtre glissante temporelle, appelée échelle caractéristique, dont la taille dépend de la dynamique du paramètre. L’écart-type donne un index de stabilité locale. Des notions qualitatives comme « augmentant » et « diminuant » ou « stable » et « instable » sont obtenues directement par le partitionnement du plan tendance versus stabilité. Le partitionnement nécessite l’introduction de connaissances a priori pour fixer les seuils. Basé sur la définition de patrons de tendances, TrenDx [HAI 96], permet leur reconnaissance automatique dans les données de monitoring. Dans VIE-VENT [MIK 96], un système de contrôle en boucle ouverte pour la supervision de la ventilation mécanique chez les nourrissons, des connaissances et des informations extraites sont combinées. Seul Shahar [SHA 97]a étudié en profondeur l’implication des connaissances dans le mécanisme d’abstraction temporelle. L’objectif de l’abstraction des données est de transformer des données numériques instantanées en des données symboliques sur des intervalles de temps, et de générer plusieurs niveaux d’abstraction résumant l’évolution des paramètres. Ce processus doit être contrôlé afin d’apporter de l’information fiable : un niveau trop bas d’abstraction « noie » l’information, et un niveau trop haut perd de l’information qui peut s'avérer pertinente. De plus, le processus d’abstraction doit reposer sur des valeurs de paramètres fiables, cette exigence n’étant pas vérifiée automatiquement, en particulier dans les applications médicales à cause du bruit qui entache les données et des données manquantes. Aussi, nous avons restreint le domaine de validité du processus d’abstraction aux domaines où le comportement du paramètre concerné est considéré comme valide. La fiabilité de notre processus d’abstraction est obtenue grâce à plusieurs éléments : 1) sa modélisation de façon incrémentale, 2) son contrôle et son domaine de validité gérée par des connaissances et 3) la validation de chaque étape par les experts. En pratique, notre méthodologie d’abstraction repose sur 3 sous-étapes, effectuées de manière cyclique à chaque étape du processus incrémental : 1) définition des paramètres sur lesquels l’abstraction va s’effectuer, choix des les méthodes d’abstraction (calculs de moyennes, agrégation des intervalles temporels,…) et identification de la connaissance a priori et/ou de l’information extraite nécessaire pour contrôler l’abstraction ; 2) définition du domaine où l’abstraction est valide, en termes de

titre

contraintes opérant sur les données brutes, les informations et les connaissances ; 3) contrôle par les cliniciens du processus d’abstraction via une interface graphique.

4. Application dans le contexte d’unités de soins intensifs La méthodologie proposée a été appliquée dans le contexte du sevrage de la ventilation mécanique en unités de soins intensifs. Plusieurs éléments sont à notre disposition : les données brutes : ce sont des valeurs numériques, échantillonnées à environ un hertz, d’une douzaine de paramètres ; les informations extraites : afin de qualifier les variations des paramètres et ainsi de contrôler au mieux le processus d’abstraction, les tendances symboliques sont calculées pour chaque paramètre avec leur échelle caractéristique associée [CAL 00] ; trois sortes de connaissances a priori sont utilisées : les connaissances contextuelles : au lit du patient, un clinicien qualifie chaque alarme selon sa pertinence (par exemple, fausse positive) et note les événements externes ; les connaissances physiologiques ou causales consistent en des relations temporelles ou causales entre les paramètres physiologiques; les connaissances cliniques sont utilisées pour lier les valeurs numériques et symboliques (valeurs “normales” ou “ anormales” des paramètres fournies par les cliniciens). Le processus d’abstraction est détaillé en [SIL 02].

5. Premiers résultats Une illustration de la méthodologie proposée est fournie dans la Figure 2. Nous avons pris comme exemple le volume courant (volume inspiré/expiré à chaque cycle). Le graphe du haut correspond aux valeurs brutes et instantanées. Celui du milieu porte les annotations médicales ainsi que les valeurs symboliques du paramètre. Le graphe du bas présente le résultat des abstractions réalisées. On distingue trois sortes d’événements : les aspirations des sécrétions, la toux et les réglages du respirateur. On voit que le paramètre n’est pas globalement stable puisqu’il oscille entre des états normaux et anormaux. Dans le graphe du bas, après abstraction, nous remarquons, une classification plus concise : les états sont mieux identifiés. Les événements « aspiration » et « toux » sont déclencheurs de perturbation sur le volume courant ; ceci est confirmé par les experts.

Nom de la revue. Volume X – n°X/2002

Figure 2. Des données brutes aux abstractions

6. Conclusion & perspectives Un processus fiable d’abstraction des paramètres est nécessaire et indispensable pour la construction de scénarios. Nous avons proposé, une méthodologie pour diriger ce processus. Cette méthodologie est définie comme incrémentale, liant les données, les informations et les connaissances de différentes manières. Elle a conduit à définir des domaines valides d’abstractions. Appliquer cette méthodologie sur de grandes quantités de données permettra de la raffiner et de la rendre plus robuste. Remarquons que des travaux plus avancés pourraient se concentrer sur l’extraction de connaissances dépendantes du patient et sur le développement de méthodes plus adaptatives au patient.

Remerciements Ce travail est soutenu par le programme RNTS OSSCAR et a bénéficié des échanges fructueux entre les participants.

7. Bibliographie [Cal 00] Calvelo D., Chambrin M.-C., Pomorsky D., Ravaux P., “Towards symbolisation using data-driven extraction of local trends for ICU monitoring”, Artificial Intelligence in Medicine, 19(3): 203-223, 2000. [Doj 98] Dojat M., Ramaux N., Fontaine D., “Scenario recognition for temporal reasoning in medical domains”, Artificial Intelligence in Medicine, 14(1,2):139-155, 1998. [Fay 96] Fayyad U., Piatetsky-Shapiro G., Smyth P., “From data mining to knowledge discovery in databases”, AI magazine, 37-54, 1996. [Hai 96] Haimowitz I. J., Kohane I. S., “Managing temporal worlds for medical trend diagnosis”, Artificial Intelligence in Medicine, 8(3): 299-321, 1996. [Kay 97] Kayser D., La représentation des connaissances, Paris, Editions Hermès, 1997. [Mik 96] Miksch S., Horn W., Popow C., Paky F., “Utilising temporal data abstraction for data validation and therapy planning for artificially ventilated newborn infants”, Artificial Intelligence in Medicine, 8(6):543-576, 1996. [Pit 90] Pitrat J., Métaconnaissance. Futur de l’intelligence artificielle, Paris, Editions Hermès, 1990. [Sha 97] Shahar Y., “A framework for knowledge-based temporal abstraction”, Artificial Intelligence, 90 (1-2), 79-133, 1997.

titre Silvent A.-S., Garbay C., Carry P.-Y., Dojat M., “Data abstraction for medical scenario construction”, workshop “Knowledge discovery from temporal and spatial data”, ECAI‘02, Lyon, 22 juillet 2002.