Professional Documents
Culture Documents
R.R.
1 Objectif
Dtection et traitement des points aberrants avec Tanagra ( partir de 1.4.24). Dans le processus Data Mining, la dtection et le traitement des points aberrants sont incontournables lors de la prparation des donnes, ou mme aprs coup, pour analyser et valider les rsultats. On parle de point aberrant (point atypique) lorsque quun individu prend une valeur exceptionnelle sur une variable (ex. un client dune banque aurait 158 ans) ou sur des combinaisons de variables (ex. un athlte de 12 ans aurait effectu le 100 m en 10 secondes). Ces points sont problmatiques car ils peuvent biaiser les rsultats, notamment pour les mthodes bases sur des distances entre individus, ou plus dramatiquement encore, des distances par rapport des barycentres. Il importe donc didentifier ces individus et de les considrer attentivement. Dans ce didacticiel, nous prsentons le composant UNIVARIATE OUTLIER DETECTION destin dtecter les points atypiques sur chacune des variables, prises individuellement . Les techniques intgres dans ce composant sont largement inspires du texte sur le site de NIST (http://www.itl.nist.gov/div898/handbook/prc/section1/prc16.htm). Nous avons implment : Le test de Grubbs (http://www.itl.nist.gov/div898/handbook/eda/section3/eda35h.htm). Ce test repose sur la normalit de la distribution. On devrait donc tester pralablement la crdibilit de cette hypothse. Mais lorsque lon se rend compte que les tests de normalit eux mmes sont sensibles aux points aberrants, on ne sen sort plus. Voil pourquoi on se contente au pralable de techniques graphiques simples destines se faire une ide de la rpartition des donnes. La rgle de x sigmas. Elle consiste dclarer comme atypique les observations scartant de x carts types autour de la moyenne. Cest une rgle trs fruste. Elle est aussi base sur une normalit sous jacente des donnes. On sait par exemple que pour la loi normale, 99.73% des observations sont situes dans lintervalle savoir pourquoi elle est prsente dans les donnes. La rgle de la bote de Tukey (http://en.wikipedia.org/wiki/Box_plot). La bote moustaches (BOXPLOT) permet de reprsenter graphiquement la distribution dune variable. On peut mettre en vidence les points extrmes en utilisant une rgle simple. Nous calculons le 1 quartile Q1 et le 3
me er
m 3 ; m 3 .
Toute observation qui sort de cet intervalle a une trs faible probabilit dapparatre . Il faut
On dit quune observation est moyennement atypique (mild outlier) sil est en de de LIF = Q1 1.5 * IQ ou au del de UIF = Q3 + 1.5 * IQ (LIF : lowr inner fence, UIF : upper inner fence). Elle est extrmement atypique si elle en de de LOF = Q1 3 * IQ ou au del de UOF = Q3 + 3 * IQ (LOF : lower outer fence, UOF : upper outer fence). La relation entre la rgle des x sigmas et la rgle de Tukey, lorsque la distribution des donnes est normale, peut tre rsume graphiquement (Figure 1).
26 juin 2012
Page 1 sur 10
R.R.
Figure 1 Lien entre les rgles de dtection pour la distribution normale (http://en.wikipedia.org/wiki/Image:Boxplot_vs_PDF.png)
Nous essayerons de les combiner au mieux avec les statistiques descriptives dans ce document. On se rendra vite compte que des stratgies simples, notamment les approches graphiques, sont au moins aussi intressantes finalement. Les techniques numriques ci-dessus ne sont rellement dcisives que dans le cadre du traitement automatis de fichiers comportant de trs nombreuses colonnes. Dans ce cas, leurs indications nous permettent de nous orienter rapidement vers les variables problmes.
2 Donnes
Notre fichier de donnes body_mass_index.xls
1
mesures sont le poids en kg (WEIGHTKG), la taille en mtres (HEIGHTM) et lindice de masse corporelle (BODYMASS = WEIGHTKG / HEIGHTM^2). Lobjectif est de vrifier si des observations se dtachent des autres selon au moins une de ces variables.
http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/body_mass_index.xls Lautre possibilit dimportation est douvrir le fichier dans le tableur. Puis laide du nouveau menu
TANAGRA dans EXCEL, insr via la macro complmentaire TANAGRA.XLA, nous transfrons les donnes. Voir : http://tutoriels-data-mining.blogspot.com/2008/03/importation-fichier-xls-excel-macro.html
26 juin 2012
Page 2 sur 10
R.R.
la machine (voir : http://tutoriels-data-mining.blogspot.com/2008/03/importation-fichier-xls-excelmode.html). Il faut en revanche que les donnes soient dans la premire feuille de calcul, alignes en haut gauche, la premire ligne correspondant aux noms des variables. Notre configuration respecte ces spcifications. Attention, il ne faut pas qu e le fichier soit en cours ddition lors de limportation. Aprs avoir dmarr TANAGRA, nous activons le menu FILE / NEW pour crer un nouveau diagramme. Dans la bote de slection, nous spcifions le nom du fichier (body_mass_index.xls) et le nom du fichier diagramme. de donnes
26 juin 2012
Page 3 sur 10
R.R.
Puis, nous branchons le composant MORE UNIVARIATE CONT STAT (onglet STATISTICS). Quelques indicateurs usuels et lhistogramme de frquences sont calculs (Tanagra cre automatiquement 10 intervalles de largeur gales).
26 juin 2012
Page 4 sur 10
R.R.
Description Moyenne Mdiane Ecart type (chantillon) et coefficient de variation (rapport entre lcart
type et la moyenne, permet la comparaison de la dispersion de variables mesures sur des units diffrentes)
MAD [MAD / STDDEV] Min, Max [Full Range] 1st * 3rd quartile [Range] Skewness (std dev)
Ecart absolu moyen3. Rapport entre lcart absolu moyen et lcart type. Lorsque la distribution est normale, ce rapport est proche de 0.8. Minimum, maximum, tendue 1er et 3me quartile ; intervalle inter quartile Coefficient dasymtrie et son cart type. Lorsque la distribution est normale, skewness = 0 Coefficient daplatissement et son cart type. Lorsque la distribution est normale, kurtosis = 0
WEIGHTKG.
HEIGHTM.
http://en.wikipedia.org/wiki/Absolute_deviation
26 juin 2012
Page 5 sur 10
R.R.
Les distributions de WEIGHTKG et HEIGHTM nappellent pas de commentaires particuliers. Il y a certes un talement droite, avec deux observations qui semblent se dmarquer pour les deux variables (1 observation dans les deux dernires barres). Cela devient patent avec la variable BODYMASS, 2 observations valeurs leves scartent rellement des autres. On ne sait pas sil sagit des mmes observations dans les 3 situations.
26 juin 2012
Page 6 sur 10
R.R.
En un coup dil, il apparat que les observations n19 et n22 son t douteuses si lon considre le nuage de points. Lcartement est surtout imputable la variable WEIGHTKG, il y a des individus qui psent lourd dans lchantillon. Nous savons maintenant, par rapport notre interrogation prcdente (section 3.2), les 2 individus qui sont plus grands que les autres (HEIGHTM, dans les deux dernires barres de lhistogramme) ne sont pas ceux qui sont plus corpulents que les autres (dans les deux dernires barres de lhistogramme de la variable WEIGHTKG). Croisons maintenant les variables WEIGHTKG et BODYMASS.
Il ny a plus de doute, ces deux individus (n19 et n22) sont singulirement dodus, surtout relativement leur taille.
26 juin 2012
Page 7 sur 10
R.R.
Dans longlet PARAMETERS, nous choisissons dafficher les individus dtects dans le rapport dexcution. Dans longlet FILTERING, nous choisissons de supprimer de lensemble de donnes les individus atypiques, en nous basant uniquement sur le critre OUTER FENCE c.--d. retirer des donnes les individus extrmement atypiques (voir section 1). Nous validons ces paramtres et nous activons le menu VIEW pour accder aux rsultats.
26 juin 2012
Page 8 sur 10
R.R.
Dans la premire partie du rapport [1], nous observons les valeurs limites utilises et le nombre dobservations atypiques dtectes pour chaque critre.
Le test de Grubbs nous dit quau risque de 5%, la valeur la plus extrme de BODYMASS peut tre considre comme atypique.
Selon la rgle des 3-sigmas, nous dtectons 2 donnes atypiques pour la variable BODYMASS. Selon la rgle INNER FENCE, il y a 1 individu atypique pour WEIGHTKG, 2 pour BODYMASS. La rgle OUTER FENCE produit le mme rsultat que 3-sigmas.
Dans la seconde partie [2], un tableau numre les observations incrimines sur lensemble des critres.
Lobservation n19 est atypique selon les variables WEIGHTKG et BODYMASS. Ce qui nest gure tonnant lorsque lon se remmore son positionnement dans les graphiques ci -dessus. Lobservation n22 en revanche a t dtecte uniquement pour la variable BODYMASS. Enfin, dans la troisime partie du rapport [3], Tanagra nous indique quau final 2 individus ont t exclus selon les critres dfinis pour le filtrage, en loccurrence seule la rgle OUTER FENCE a t active ici.
26 juin 2012
Page 9 sur 10
R.R.
Pour chaque variable, comparons la moyenne, indicateur sensible aux points atypiques, sur les 50 et 48 observations. La colonne cart nous indique que la prsence de ces 2 observations affecte manifestement les rsultats, surtout en ce qui concerne la variable BODYMASS. Variable WEIGHTKG HEIGHTM MODYMASS Moyenne pour 50 obs. 76.0402 1.6581 27.6806 Moyenne pour 48 obs. (sans n19 et n22) 74.3796 1.6623 26.8400 Ecart (en %) +2.23 % -0.25 % +3.13 %
http://cc.uoregon.edu/cnews/spring2000/outliers.html http://tutoriels-data-mining.blogspot.com/2008/04/points-aberrants-et-influents-dans-la.html
26 juin 2012
Page 10 sur 10