Professional Documents
Culture Documents
Résumé—L’objectif de ce travail est d’élargir le champ et peuvent se présenter de façon multimodales, elles sont
d’utilisation des méthodes de fouille de données pour qu'elles souvent représentées dans des formats différents (textes,
soient adaptées aux spécificités et aux caractéristiques des images, son, vidéos, bases de données, etc.), provenant de
données complexes comme les données biomédicales. Dans ce sources différentes (scanners, satellites, enregistrements,
contexte, nous proposons une architecture de fusion dans un vidéos, compte-rendu médicaux, web, etc.), ayant une
cadre possibiliste de données de type hétérogène (donnée sémantique différente (langues différentes, échelles
numérique ou linguistique et une IRM). La théorie des
différentes, évolution de la définition d’une donnée dans le
ensembles flous a été retenue pour la modélisation des
connaissances issues du dossier médical; quand à la temps, etc.). De telles données sont désignées par le terme
représentation de l'image, une hybridation entre l'algorithme de données complexes. Malgré les extensions
AntClust, basé sur une population d'agents fourmis, et méthodologiques qui ont été proposées pour exploiter ce
l'algorithme flou FCM a été proposée. Pour pallier aux défauts type de donnée, la fouille de données s'est jusque là
du FCM à savoir, l'initialisation et la sensibilité aux données contentée de traiter un seul type de donnée à la fois :
aberrantes, AntClust servira comme phase d'initialisation, données tabulaires, données textuelles « text mining »,
pour découvrir, automatiquement, le nombre de classes. La données images « image mining », de manière indépendante
sensibilité aux données aberrantes, est traitée, cependant, lors des autres, ce qui a conduit a un développement uni modale.
de la phase de fusion avec la donnée issue du dossier médical.
La fouille de données provenant d’une seule modalité a
Mots clés : Fouille de données complexes, Segmentation montré ses limites dans la compréhension du contenu des
d’images, fusion de données, FCM, fourmis artificielles. informations. C’est pourquoi, une voie prometteuse pour
analyser la sémantique des informations consiste en la prise
Abstract—The aim of this work is to broaden the scope of en compte simultanée de la totalité des données disponibles
use of methods of data mining to be adapted to the specificities sur une entité, ainsi l’utilisation combinée de modalités
and characteristics of complex data such as medical data. In multiples est devenu une nécessité. L’enjeu désormais est
this context, and applied to biomedical data, we propose a donc de pouvoir fusionner, combiner, des informations de
merger in a possibiliste two heterogeneous data types (numeric
nature différente et les rattacher à une même unité
or linguistic data and an image modality MRI). The theory of
fuzzy sets was chosen to represent the digital data from sémantique.
medical records, when displaying the image, Hybrids between Le dossier médical est le meilleur exemple qui illustre cette
AntClust algorithm based on a population of ant agents and problématique. En effet, les systèmes d'aide à la décision
fuzzy FCM algorithm was proposed. To overcome the médicale nécessitent l'analyse de données hétérogènes,
shortcomings of FCM namely, initialization and sensitivity to chaque dossier peut contenir des données tabulaires telles
outliers, AntClust serve as initialization phase, automatically que des résultats d’analyse biologique, des données
discovering the number of classes, when the sensitivity to textuelles venant des rapports cliniques, des données images
outliers, it is treated during the phase Merge with data from telles que des radiographies, des IRM ou des
the medical record.
électrocardiogrammes. Dans un cadre de prise de décision,
Index Terms—Keywords: Complex data mining, clustering, le traitement de chaque type d'information séparément a des
data fusion, FCM, artificial ant. inconvénients sérieux. Il semble donc de plus en plus
nécessaire de considérer ces données différentes
I. INTRODUCTION simultanément, entourant de ce fait toute leur complexité.
Ce papier s’inscrit dans le cadre général du traitement de ces
images IRM et des données tabulaires qui contiendront les être utilisées et manipulées dans des systèmes de
données structurées du dossier médical. raisonnement. Formellement, une variable linguistique est
Ainsi, un élément crucial dans des systèmes souhaitant définie par un quintuplet , où x est le
aboutir à une telle prise de décision est l’existence d’un nom de la variable, T(x) l'ensemble des valeurs de x
mécanisme capable de modéliser, de fusionner et (appelées termes), S est le domaine ou univers sur lequel les
d’interpréter, en même temps, les informations disponibles. valeurs de la variable sont définies, G est une règle
syntaxique permettant de générer le nom X de chaque valeur
II. APPROCHE PROPOSEE de x, et M est une règle sémantique, M(X) étant l'ensemble
Afin de mettre en évidence notre approche, nous avons flou défini sur S représentant la signification de X [3].
conçu un algorithme constitué de trois parties essentielles : Cette définition représente une conversion symbolique-
− Modélisation des données. numérique, et établit des liens entre le langage et les échelles
− Fusion de données. numériques.
− Prise de décision. Mais dans le cas de cette étude l'ensemble flou M(x) sera
une simple approximation qui sera donnée par un expert.
A. Modélisation des données La donnée issue du dossier médical sera donc modélisée en
Nous nous intéressons dans ce travail à une fusion de théorie des ensembles flous, une échelle de valeurs
données de type hétérogène, le but est de modéliser le traduisant l’avis d’un expert est établie. Par exemple les
comportement humain via la fusion de données afin variables d'entrée pour la maladie d’Alzheimer pour
d’améliorer la segmentation. Pour se faire, nous avons l’information âge seront :"risque faible", "risque moyen" et
utilisé deux types d'informations différents : "risque haut". A chacune de ces dernières est associée une
− les informations extraites de l'image, de type numérique, échelle de valeurs traduisant pertinemment le jugement d'un
qui concernent les tissus cérébraux. expert.
− les informations issues du dossier médical (âge, sexe, 2) Modélisation de l’image
antécédents héréditaires etc..) pouvant être numériques Les informations numériques extraites des images le sont ici
ou linguistiques. à partir s’acquisitions IRM. Ces images à caractère
De ce fait la modélisation de ces deux informations dans un anatomique sont utilisées pour classifier les tissus cérébraux
cadre théorique commun est la première tâche à faire. et obtenir le degré d'appartenance de chaque voxel à ces
1) Modélisation de la donnée issue du dossier médical derniers. La classification est opérée pour diverses raisons,
Des études statistiques ont permis de mettre en évidence parmi lesquelles une meilleure compréhension des
certains facteurs de risque qui sont : l’âge, le sexe, les pathologies atteignant le fonctionnement du cerveau ou la
antécédents médicaux du patient, facteur héréditaire 1 , etc. détection de structures cérébrales ou de régions
Ces informations peuvent être utilisées comme des pathologiques .
connaissances a priori, et intégrées dans le processus de En reprenant la taxinomie de Bezdek et al [11], nous
segmentation. En effet, elles participent et aident le praticien devons, tout d’abord, préciser si l’approche doit être
à l’interprétation des images médicales facilitant ainsi la supervisé ou non.
prise de décision. De ce fait, la modélisation de ces données
− Nous souhaitons obtenir un processus entièrement
dans un cadre théorique est la première étape pour leur automatique, ce qui exclut les méthodes supervisées ;
future intégration lors du processus de segmentation. Parmi d’autre part l’emploi d’un algorithme supervisé
ces données, on trouve celles qui sont structurées ou non, nécessite, une base d’apprentissage pour chaque classe,
numériques, catégorielles ou textuelles. Dans ce papier on ce qui constitue une tâche fastidieuse pour l’expert, pour
s’est limité aux données numériques structurées. ces raisons ainsi qu’à d’autres non citées dans ce papier
Il arrive souvent que les représentations numériques ne la méthode non supervisée a été choisi.
soient pas adaptées pour décrire une situation, dans ce cas, il
est préférable d’utiliser des termes plus qualitatifs issus du − Les images de modalité IRM traitées dans ce papier
langage naturel pour regrouper plus ou moins grossièrement présentent deux caractéristiques, que ce soit dans les
en des sous-ensembles [2]. Ce type de représentation est zones de transition entre tissus (effet de volume partiel,
appelé variable linguistique. information imprécise et vague) ou en raison du bruit
présent dans l’image (information incertaine).
• Variables linguistiques L’approche floue, est parfaitement adaptée à la
Ce sont des variables dont les valeurs sont des mots, des
manipulation de données incertaines et imprécises.
groupes de mots ou des phrases. Leur intérêt est
essentiellement que les caractérisations linguistiques − Dans les travaux de Bezdek [12], les conditions
peuvent être moins spécifiques que les caractérisations nécessaires de la minimisation du critère général qui
numériques, et nécessitent donc moins d'information pour définit la famille d’algorithmes connus sous le nom des
c-moyennes floues (FCM), ont été établies. Les
méthodes floues de regroupement atteignent une
1
TUMEURS INTRACRANIENNES (147) www.univ-lyon1.fr/servlet/
3
certaine maturité. Bien qu'il existe un bon nombre de une image de modalité IRM et une information issue du
variantes du FCM, qui s'avèrent plus précises et plus dossier médical.
spécifiques que l'algorithme des C-moyennes floues [4]. • Cadre théorique de fusion : De nombreuses théories ont
le FCM nous paraît le plus approprié dans le cadre de été proposées pour représenter et gérer l'incertain et
cette étude, répondant assez bien aux objectifs visés. En l'imprécis dans les informations, notamment les théories
effet ces derniers sont simples à implémenter et de l’incertain telles que les approches bayésiennes, la
convergent rapidement avec une solution localement théorie des possibilités et des sous-ensembles flous et
optimale. Cependant leurs majeurs inconvénients est enfin la théorie des fonctions de croyance.
qu’ils nécessitent de fournir en entrée une partition Si la théorie probabiliste repose sur une base mathématique
initiale de bonne qualité ainsi que le nombre possible de solide, elle présente cependant un inconvénient qui la
classes. discrimine de nos choix, car même si elle représente bien
Pour remédier à ce problème, nous avons eu recours à des l'incertain qui entache l'information, elle ne permet pas
stratégies sous-optimales ou à des heuristiques sujettes aux aisément de représenter son imprécision, conduisant ainsi
minima locaux. Les résultats obtenus dépendent bien souvent à confondre ces deux notions [1]. La théorie des
évidemment de la configuration initiale choisie. Le choix ensembles flous quant à elle s’avère plus intéressante mais
des paramètres initiaux est un problème vaste de la reste inadapté dans le cadre de cette étude, car elle
recherche opérationnelle et de nombreuses méthodes sont représente essentiellement le caractère imprécis des
possibles dans le cas de la classification. informations, l'incertitude étant représentée de manière
L’introduction d’une recherche stochastique à la place d’une implicite et n'étant accessible que par déduction à partir des
recherche déterministe peut aussi améliorer les résultats, par différentes fonctions d'appartenance [1]. Il reste à choisir
exemple avec un algorithme génétique (Jones and Beltrano, entre la théorie possibiliste et évidentielle, notre choix s’est
1991 dans [5]; Cucchiara, 1993 dans [6]) ou une population porté sur la théorie possibiliste pour les raisons suivantes:
de fourmis. L’utilisation de fourmis artificielles pour la La richesse de l’étape de modélisation des données en
classification, à la place d’un AG par exemple, est pertinente théorie des croyances est indéniable. Cependant elle
dans le sens où les fourmis réelles ont ce genre de problèmes demeure rigide quant à la combinaison des informations [1],
à résoudre. Dans un certain sens, le modèle de fourmis et se résume la plupart du temps à l’application de
artificielles pour la classification est certainement plus l’opérateur orthogonal de Dempster contrairement à la
proche du problème de la classification que le modèle théorie des possibilités qui offre quant a elle une grande
génétique. Cependant le majeur inconvénient de ces variété d’opérateurs ayant des comportements différents
algorithmes est la détermination des paramètres de suivant la situation présentée.
l'algorithme et le temps d'exécution.
Pour pallier à ce problème, et améliorer la robustesse de • Opérateur de fusion
notre approche nous proposons une hybridation du FCM Parmi les différents opérateurs présentés dans la
avec l'algorithme AntClust proposé par différents auteurs: littérature, nous avons choisi d’utiliser un opérateur à
Labroche et al , Kanade et al dans [7] et Batouche et comportement constant et indépendant du contexte, notre
Ouadfel dans [8]. Ce dernier possédant l'avantage de fournir choix s’est porté sur la moyenne, qui forme un opérateur
une segmentation d’une image en des classes pertinentes prudent agissant comme un compromis entre les deux
sans disposer d’une partition de départ et sans connaître le sources. Les deux sources (image et la donnée issue du
nombre de classes nécessaires. De ce fait AntClust sera dossier médical) présentent toutes les deux des sources
lancé en premier avec un nombre limité d'itération qui fiables mais à des degrés différents. Un degré de fiabilité
permettra de déterminer le nombre de classes initiales, (une pondération) est attribué à chacune des deux sources,
fournissant ainsi une bonne initialisation au FCM, lequel soit respectivement t1 et t2, tel que :
devrait corriger des erreurs d’AntCust qui aurait mis t1+ t2=1 et
(1)
beaucoup plus de temps à les corriger. Apres l’introduction d’une pondération, on ne parle plus
de moyenne, mais plutôt de moyenne pondérée appelée
B. Fusion des données aussi OWA (Ordered Weighted Average). Ce dernier
La fusion envisagée est une fusion entre deux types de opérateur est considéré comme l’un des plus directs pour
données hétérogènes, d’un coté l’image IRM et de l’autre effectuer la fusion d’images [19], et il est souvent
une donnée issue de dossier médical, ces deux sources sont sélectionné dans le cas où les contributions des différentes
considérées complémentaires, car en fusionnant on cherche sources ne sont pas de même importance vis à vis de
à apporter des informations supplémentaires sur l’existence l’application ce qui est le cas de cette étude.
éventuelle d’une pathologie, pour cette raison la fusion Dans les OWA les poids ti sont définis par le rang des
envisagée sera appliquée à l’ensemble de l’image. valeurs à combiner.
Soient s1,s2,…,sn ses valeurs. Elles sont ordonnées en une
• Niveau de fusion : La fusion envisagée porte sur le suite sj1, sj2,...,sjn telle que :
niveau des données, elle concerne l’agrégation entre sj1 sj2... sjn
4
Alors, pour un ensemble de poids ti vérifiant: − le critère de maximum : la solution retenue est celle
pour laquelle la distribution fusionnée atteint son
(2) maximum de degré de possibilité,
− le critère de seuil, qui consiste à choisir un seuil de
L’opérateur OWA est défini par l'expression : degré de possibilité, et les valeurs du paramètre pour
lesquelles le degré de possibilité est supérieur sont les
ij (3) solutions.
• Opérateur proposé Le choix du critère dépend de ce que l’on attend ; une
Le nouvel opérateur proposé DOWA, est en fait un opérateur solution unique ou une plage de solutions. L’étendue de la
OWA mais dont les pondérations sont dynamiques c'est-à- plage solution peut par ailleurs être considérée comme un
dire, le poids affecté à une source change en fonction de la indicateur de la précision et/ou de la fiabilité du résultat
valeur de l’autre source (son degré d’appartenance). obtenu.
Si on reprend l’exemple cité plus haut, le risque d’être La visualisation de la distribution fusionnée permet
atteint de la maladie d’Alzheimer peut être élevé, moyen, ou d’observer facilement la plage solution lorsqu’on applique le
faible, selon le degré d’appartenance de la donnée aux trois critère de seuil, pour cette raison notre choix s'est porté sur
classes i.e.: !"#$%& !'()& !*%&+* . ce dernier critère.
En parallèle une classification de l’image IRM en cinq (ou
six) classes est effectuée, où chaque voxel aura un degré L 5 L -<#=>(%(?& M"NO(* L P 9QR (5)
d’appartenance !,-. ! / ! !0 10. !234 ,
La décision comme l'opérateur choisi est à comportement
respectivement aux classes : LCR, MB, MG, TUMEUR,
prudent, ce qui nous guidera dans le choix du seuil.
FOND.
L'opérateur proposé DOWA s’écrit :
• Architecture de fusion
456789 4:*9 ;!<#=>(%(?& @ !A(*& (4) Images
IRM Données
Tel que P et T sont les pondérations attribuées Degrés issues du
Initialisation
Fuzzification
respectivement à l'image et à la donnée, respectant la d’appartenance dossier
Défuzzification
if FGHI!"#$%& !'()& !*%&+* J !"#$%& then Image segmentée
attribuer à la donnée la pondération la plus faible soit
FCM Degrés d’appartenance
else
if FGHI!"#$%& !'()& !*%&+* J !'()& then Figure1. Architecture de fusion.
attribuer à la donnée la pondération la plus faible soit
else • Présentation de l’algorithme général
attribuer à la donnée la pondération la plus faible soit
K
endif Algorithme général
endif Fuzzification de la donnée issue de dossier médical
Modélisation de l'image
L'objectif de la fusion ici est de confirmer ou d'affirmer AntClust {initialisation}
l'existence d'une éventuelle pathologie qui avant la fusion FCM {corriger les erreurs de AntClust}
n'apparaît pas clairement sur l'image IRM, mais sera plus Fusion
clair après la fusion, et cela grâce l'introduction des Fusion Possibiliste {entre image et donnée du
informations issues du dossier médical. dossier médical}
Après la satisfaction de la condition de convergence, la Prise de décision
défuzzyfication consiste à appliquer la règle floue choisie. Il
s’agit de la technique du maximum d’appartenance. On III. RESULTATS ET DISCUSSION
affecte chaque pixel à la classe pour laquelle il a le plus
grand degré d’appartenance. Dans cette partie, nous appliquons les méthodes proposées
dans la partie précédente et nous les évaluons
C. Prise de décision quantitativement et qualitativement à partir des différents
L’étape finale du processus de fusion, a pour objectif la critères d’évaluation proposés dans la littérature. Le choix
prise de décision quant à l’appartenance d’un voxel à une des données participant à la fusion étant la première étape,
classe. Les deux critères les plus couramment utilisés sont : suivi des méthodes proposées appliquées sur ces dernières,
5
• Images réelles
Les images réelles sur lesquelles nous avons travaillé ont été
acquises dans le cadre de la collaboration entre le laboratoire
LSI (Laboratoire Systèmes Intelligents : équipe image et Image réelle Méthode proposée Antclust +FCM
signaux) de l’université Ferhat Abbas de Sétif avec une
équipe d'un laboratoire français. Figure2 - Comparaison de la méthode proposée i.e. avec la prise en
compte ou non de la donnée âge.
C. Critères de validation
• Résultats de classification sur des données de
Pour tester la méthode développée de façon pertinente, nous synthèse
jugeons la qualité de la segmentation obtenue par rapport à On remarque sur les images de la figure3 que la tumeur
plusieurs estimateurs souvent utilisés dans la littérature [9] : et les trois matières à savoir liquide céphalorachidien,
matière blanche et la matière grise apparaissent bien
pour les deux algorithmes, cependant la pathologie est
2
http://www.bic.mni.mcgill.ca/brainweb/ mieux délimitée dans les images segmentées par la
3
www.univ-lyon1.fr/servlet/}{www.univ-lyon1.fr/servlet/
6