Professional Documents
Culture Documents
Page: 2
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
Avant-propos
Ce support dcrit quelques techniques statistiques destines valider et amliorer les rsultats fournis par la rgression linaire multiple. Il correspond la dernire partie des enseignements d'conomtrie (je prfre l'appellation Rgression Linaire Multiple ) en L3-IDS de la Facult de Sciences Economiques de l'Universit Lyon 2 (http://dis.univ-lyon2.fr/). Ce support se veut avant tout oprationnel. Il se concentre sur les principales formules et leur mise en oeuvre pratique avec un tableur. Autant que possible nous ferons le parallle avec les rsultats fournis par les logiciels de statistique. Le bien-fond des tests, la pertinence des hypothses opposer sont peu ou prou discutes. Nous invitons le lecteur dsireux d'approfondir les bases de la rgression consulter le document "conomtrie - Rgression Linaire Simple et Multiple" ([18]), accessible sur ma page de fascicules (http://eric.univ-lyon2.fr/~ricco/cours/cours_econometrie.html). Un document ne vient jamais du nant. Pour laborer ce support, je me suis appuy sur direntes rfrences, des ouvrages disais-je plus tt, mais aussi des ressources en ligne qui sont de plus en plus prsents aujourd'hui dans la diusion de la connaissance. Les seuls bmols par rapport ces documents sont (1) le doute que l'on pourrait mettre sur l'exactitude des informations prodigues, mais la plupart de leurs auteurs sont des enseignants-chercheurs qui font srieusement leur travail ; (2) une disponibilit plus ou moins alatoire, au gr des migrations des serveurs et de la volont de leurs auteurs, auquel il est trs dicile de remdier ; (3) les informations sont disparates, avec une absence d'organisation, la dirence des ouvrages qui suivent une ligne pdagogique trs structurante. Nanmoins, ces ressources en ligne renouvellent profondment le panorama des documents disponibles pour les enseignements. La gratuit n'est pas le moindre de leurs atouts. Ce support n'engage que son auteur. Toutes suggestions ou commentaires qui peuvent en amliorer le contenu sont le bienvenu.
1. Je fais systmatiquement des copies... mais je me vois trs mal les diuser moi mme via ma page web.
Page: 3 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
Page: 4
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
Page: 5
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
3.1.2 Illustration de l'eet nocif de la colinarit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.3 Quelques techniques de dtection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Traitement de la colinarit - Slection de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Slection par optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2 Techniques bases sur le F partiel de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Rgression stagewise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Coecient de corrlation partielle et slection de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.1 Coecient de corrlation brute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.2 Coecient de corrlation partielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.3 Calcul de la corrlation partielle d'ordre suprieur 1 . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.4 Procdure de slection fonde sur la corrlation partielle . . . . . . . . . . . . . . . . . . . . . . . 3.4.5 quivalence avec la slection fonde sur le t de Student de la rgression . . . . . . . . . 3.5 Les rgressions partielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5.1 Principe des rgression partielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5.2 Traitement des donnes CONSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6 Rgressions croises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.1 Principe des rgressions croises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.2 Rgressions croises sur les donnes CONSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52 52 55 56 62 65 67 67 68 70 72 73 74 74 75 77 77 79 82 83 83 84 84 87 87 88 89 90 90 90 91 92 92 95 98
4.5.1 Rgression sur les indicatrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 4.5.2 Prise en compte des interactions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 4.5.3 Ajout de nouvelles indicatrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
Page: 6
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
4.5.4 Tester la signicativit de l'interaction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 4.5.5 Interprtation des coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 4.6 Rgression avec un mix d'explicatives qualitatives et quantitatives . . . . . . . . . . . . . . . . . . . . 108 4.6.1 Interprtation des coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 4.6.2 Prise en compte des interactions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 4.6.3 Lien avec la comparaison de rgressions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 4.7 Slection de variables en prsence d'exognes qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 4.7.1 Traitement group des indicatrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 4.7.2 Traitement individuel des indicatrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 4.8 Codage d'une exogne qualitative ordinale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 4.8.1 (In)adquation du codage disjonctif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 4.8.2 Utilisation du codage cumulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 4.9 Le codage "centered eect" d'une exogne qualitative nominale . . . . . . . . . . . . . . . . . . . . . . . 125 4.9.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 4.9.2 Lecture des rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 4.9.3 Application aux donnes LOYER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 4.10 Le codage "contrast eect" d'une exogne qualitative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 4.11 Les erreurs ne pas commettre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 4.11.1 Codage numrique d'une variable discrte nominale . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 4.11.2 Codage numrique d'une variable discrte ordinale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 4.12 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
Rupture de structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
133
5.1 Rgression contrainte et rgression non-contrainte - Test de Chow . . . . . . . . . . . . . . . . . . . . 135 5.1.1 Formulation et test statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 5.1.2 Un exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 5.2 Dtecter la nature de la rupture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 5.2.1 Tester la stabilit de la constante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 5.2.2 Tester la stabilit du coecient d'une des exognes . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 5.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
145
6.1 Non linarit dans la rgression simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 6.1.1 Linarisation par transformation de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 6.1.2 Dtecter numriquement la non-linarit dans la rgression simple . . . . . . . . . . . . . . 147 6.1.3 Tester l'adquation d'une spcication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 6.2 Non linarit dans la rgression multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 6.2.1 Lecture des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 6.2.2 Rsidus partiels et rsidus partiels augments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 6.2.3 Un exemple "raliste" : traitement des donnes "mtcars" sous R . . . . . . . . . . . . . . . . 158
Page: 7 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
A Table de Durbin Watson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B Gestion des versions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . C Fichiers associs ce support . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . D Tutoriels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Littrature
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
Page: 8
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
Partie I
Page: 1
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
Page: 2
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
Notations
Le point de dpart est l'estimation des paramtres d'une rgression mettant en jeu une variable endogne Y et p variables exognes Xj . Nous disposons de n observations. L'quation de rgression s'crit :
yi = a0 + a1 xi,1 + + ap xi,p + i
(0.1)
o yi est la i-me observation de la variable Y ; xi,j est la i-me observation de la j-me variable ; i est l'erreur du modle, il rsume les informations manquantes qui permettrait d'expliquer linairement les valeurs de Y l'aide des p variables Xj . Nous devons estimer (p + 1) paramtres. En adoptant une criture matricielle : (0.2)
Y = Xa +
les dimensions de matrices sont respectivement : Y (n, 1) X (n, p + 1) a (p + 1, 1) (n, 1)
La matrice X de taille (n, p + 1) contient l'ensemble des observations sur les exognes, avec une premire colonne forme par la valeur 1 indiquant que l'on intgre la constante a0 dans l'quation.
2. http://www.itl.nist.gov/div898/handbook/pmd/section4/pmd41.htm
Page: 3 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
Remarque 1 (Rgression sans constante). Dans certains problmes, la rgression sans constante peut se
justier. Il y a p paramtres estimer dans la rgression. On peut aussi voir la rgression sans constante comme une rgression avec la contrainte a0 = 0. Il faut simplement faire attention aux degrs de libert pour les tests. Il faut noter galement que le coecient de dtermination R2 n'est plus interprtable en termes de dcomposition de la variance, il peut prendre des valeurs ngatives d'ailleurs.
Donnes
Autant que possible, nous utiliserons le mme chier de donnes pour illustrer les dirents chapitres de ce support. On veut expliquer la consommation en L/100km de vhicules partir de p = 4 variables : le prix, la cylindre, la puissance et le poids (Figure 0.1). Nous disposons de n = 31 observations. Nous connaissons la marque et le modle de chaque vhicule, cela nous permettra d'aner certains commentaires.
Fig. 0.1.
Nous eectuons sous TANAGRA une premire rgression sur l'ensemble des exognes. Nous en extrayons quelques informations importantes (Figure 0.2) :
Page: 4 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
la rgression semble de trs bonne qualit puisque que nous expliquons R2 = 95.45% de la variance de l'endogne ; impression conrme par le test de Fisher, F = 136.54 avec une p-value < 0.000001 : le modle est globalement trs signicatif ; mis part la variable cylindre, toutes les variables sont signicatives au risque de 10%.
Fig. 0.2.
Rsultat de la rgression sur les donnes CONSO (cf. Donnes, gure 0.1)
La mme rgression sous EXCEL donne exactement les mmes rsultats (Figure 0.3) ! . Seul le mode de prsentation des rsultats est un peu dirent. Nous avons calcul dans la foule la prdiction ponctuelle
Remarque 2 (Interprtation des coecients). D'ores et dj, sans trop renter dans les dtails, on note des
bizarreries dans le rle des variables. Que le prix et la consommation soient d'une certaine manire lis, on peut le comprendre. En revanche, imaginer que le prix inue directement sur la consommation parat trange. Cela voudrait dire qu'en diminuant articiellement le prix d'un vhicule, on pourrait diminuer la consommation. Concernant la cylindre, la taille du moteur, on s'tonne quand mme qu'elle ne joue aucun rle sur la consommation. Cela voudrait dire qu'on peut augmenter indniment la taille du moteur sans que cela ne soit prjudiciable la consommation de carburant... Nous reviendrons plus en dtail sur la slection des variables et l'interprtation des rsultats plus loin.
3. Fonction DROITEREG(...)
Page: 5 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
Fig. 0.3.
Logiciels
Nous utiliserons principalement le tableur EXCEL. Mais plusieurs reprises nous ferons appel des logiciels gratuits tels que TANAGRA " , REGRESS # , LAZSTATS/OPENSTAT $ et R % ; et des logiciels commerciaux tels que SPSS & et STATISTICA ' . Qu'importe le logiciel en ralit, le plus important est
univ-lyon2.fr/~ricco/tanagra/fr/tanagra.html 5. http://tutoriels-data-mining.blogspot.com/2011/05/regress-dans-la-distribution-sipina.html 6. http://tutoriels-data-mining.blogspot.com/2011/05/regression-avec-le-logiciel-lazstats.html 7. The R Project for Statistical Computing - http://www.r-project.org/ 8. Pour une lecture dtaille des rsultats fournis par SPSS, voir http://www2.chass.ncsu.edu/garson/PA765/ regress.htm 9. Pour une lecture des rsultats de STATISTICA, voir http://www.statsoft.com/textbook/stmulreg.html
Page: 6 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
L'infrence statistique relative la rgression (estimation par intervalle des coecients, tests d'hypothses, etc.) repose principalement sur les hypothses lies au terme d'erreur qui rsume les informations absentes du modle. Il importe donc que l'on vrie ces hypothses an de pouvoir interprter les rsultats . Rappelons brivement les hypothses lies au terme d'erreur : sa distribution doit tre symtrique, plus prcisment elle suit une loi normale ; sa variance est constante ; les erreurs i (i = 1, . . . , n) sont indpendantes. Pour inspecter ces hypothses, nous disposons des erreurs observes, les rsidus, i produites par la dirence entre les valeurs observes de l'endogne yi et les prdictions ponctuelles de la rgression yi
i = yi yi
avec yi = a0 + a1 xi,1 + + ap xi,p
(1.1)
Remarque 3 (Moyenne des rsidus). Dans un modle avec constante, la moyenne des rsidus =
1 n
i i
est mcaniquement gale zro. Ce rsultat ne prjuge donc en rien de la pertinence de la rgression. En revanche, si elle est dirente de 0, cela indique coup sr des calculs errons. Ce commentaire n'a pas lieu d'tre pour une rgression sans constante.
apprhendent mal. Toute analyse de rgression devrait tre immdiatement suivie des graphiques des rsidus observs... car il y en a plusieurs. Avant d'numrer les dirents types de graphiques, donnons quelques principes gnraux (Figure 1.1) : les rsidus sont ports en ordonne ; les points doivent tre uniformment rpartis au hasard dans un intervalle, que nous prciserons plus loin , sur l'ordonne ; aucun point ne doit se dmarquer ostensiblement des autres ; on ne doit pas voir apparatre une forme de rgularit dans le nuage de points. Le type du graphique dpend de l'information que nous portons en abcisse.
Fig. 1.1.
Cas pathologiques
Il est dicile de prtendre l'exhaustivit, nous nous contenterons de caractriser quelques situations singulires qui doivent attirer notre attention.
Fig. 1.2.
Un point prsente une valeur atypique pour une des exognes. De plus, elle est mal reconstitue par la
Les points inuents sont des observations qui psent exagrment sur les rsultats de la rgression. On peut les distinguer de plusieurs manires : ils sont "isols" des autres points, on constate alors que la distribution des rsidus est asymtrique (Figure 1.3) ; ils correspondent des valeurs extrmes des variables, en cela ils se rapprochent des points atypiques. Bien souvent la distinction entre les points atypiques et les points inuents est dicile. Elle est assez mal comprise : un point peut tre inuent sans tre atypique, il peut tre atypique sans tre inuent. La meilleure manire de le circonscrire est de recalculer les coecients de la rgression en cartant le point : si les rsultats dirent signicativement, en termes de prdiction ou terme de dirence entre les
Page: 9 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
10
coecients estims, le point est inuent. Cela est dicilement discernable dans un graphique des rsidus, il est plus appropri de passer par des calculs que nous dtaillerons dans le chapitre consacr la dtection des points atypiques et inuents (Chapitre 2).
Fig. 1.3.
Non-linarit
Dans ce cas, la relation tudie est en ralit non-linaire, elle ne peut pas tre modlise l'aide de la rgression linaire multiple. Les rsidus apparaissent alors en "blocs" au-dessus (prdiction sous-estime) ou en-dessous (prdiction sur-estim) de la valeur 0 (Figure 1.4). On peut y remdier en ajoutant une variable transforme dans le modle (par ex. en passant une des variables au carr, ou en utilisant une transformation logarithmique, etc.). On peut aussi passer une rgression non-linaire (ex. rseaux de neurones, etc.).
Rupture de structure
Dans certains cas, il arrive que la relation entre les exognes et l'endogne ne soit pas la mme sur tout le domaine de dnition : on parle de rupture de structure. Il y a en ralit deux ou plusieurs
Page: 10 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
11
Fig. 1.4.
rgressions mener. Ils peuvent tre totalement indpendants. On peut aussi imposer que les coecients de quelques variables soient identiques d'une rgression l'autre. L'erreur dans ce cas est d'imposer une seule rgression pour tous les groupes d'individus. Nous obtenons alors des rsidus en "blocs", qui peuvent tre assez proches de ce que l'on obtient lorsque les relations sont non-linaires (Figure 1.4), ils indiquent en tous les cas qu'il y a bien des groupes distincts que l'on ne peut pas modliser de manire identique dans la population (Figure 1.5).
Fig. 1.5.
Htroscdasticit
Souvent associe une des exognes en abcisse, ce type de graphique (Figure 1.6) indique que la variance des rsidus n'est pas constante, et qu'elle dpend d'une des exognes. Il existe des tests spciques pour dtecter l'htroscdasticit (Bourbonnais, pages 130 143).
Page: 11
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
12
Fig. 1.6.
La variance des rsidus augmente avec les valeurs d'une des exognes
Fig. 1.7.
Page: 12
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
13
Fig. 1.8.
leves (en valeur absolue) sur ces observations. Nous dtaillerons l'analyse de ces vhicules dans le chapitre consacr l'analyse des points atypiques et inuents.
Remarque 4 (Test l'autocorrlation pour les donnes transversales). Tester l'autocorrlation des rsidus
n'a aucun sens sur les donnes transversales. En eet, il n'y a pas d'ordonnancement naturel des observations. Il sera toujours possible de les mlanger diremment de manire ce que les rsidus ne suivent
3. Best Linear Unbiased Estimator
Page: 13 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
14
Fig. 1.9.
aucun processus particulier. Il est nanmoins possible de retrouver un agencement particulier des rsidus en les triant selon l'endogne par exemple. Mais il faut rester trs prudent par rapport aux tests, le plus sage est de s'appuyer sur les techniques graphiques simples pour dtecter d'ventuelles anomalies (ex.
Page: 14
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
15
les valeurs ngatives des rsidus sont regroups sur les petites valeurs de Y , les valeurs positives sur les grandes valeurs de Y : manifestement il y a un problme dans le modle...).
i = . i1 + i , avec i N (0, )
Le test d'hypothses s'crit :
(1.2)
H0 : = 0 H1 : = 0
On utilise la statistique de Durbin-Watson
n d=
(1.3)
Par construction, 0 d 4, d = 2 lorsque = 0. Elle a t tabule par Durbin et Watson (Annexes A) pour direntes tailles d'chantillon n et de nombre de vraies variables explicatives k (sans compter la constante). La rgle de dcision n'est pas usuelle, nous pouvons la rsumer de la manire suivante pour un test bilatral (Bourbonnais, pages 115 et 116) : Acceptation de H0 si dU < d < 4 dU Rejet de H0 si d < dL ( > 0) ou d > 4 dL ( < 0) Incertitude si dL < d < dU ou 4 dU < d < 4 dL Le test de Durbin-Watson est assez limit. Il ne teste que les autocorrlation des rsidus d'ordre 1. De plus, son utilisation est encadre par des conditions draconiennes (Johnston, page 189) : la rgression doit comporter un terme constant ; les variables X sont certaines (non-stochastiques), en particulier elles ne doivent pas comporter l'endogne retarde " .
Remarque 5 (Autres formes d'autocorrlation des rsidus). D'autres tests ont t mis au point pour valuer
d'autres formes de relation entre les rsidus (ex. processus auto-rgressif d'ordre 4 pour les donnes trimestrielles, etc. Johnston, pages 180 200).
4. On doit utiliser une version modie du test de Durbin (Johnston, page 190)
Page: 15 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
16
Fig. 1.10.
Fig. 1.11.
yi = a0 + a1 xi,1 + a2 xi,2 + i , i = 1, . . . , 17
o y est la consommation en textile, x1 le prix du textile et x2 le revenu par habitant.
5. Theil, H.,
Principles of Econometrics, Wiley, 1971. Page 102. L'exemple et la description des rsultats du
17
Les calculs sont organiss comme suit (Figure 1.11) : 1. A l'aide de la fonction DROITEREG() d'EXCEL, nous obtenons les coecients a0 = 130.71, a1 =
1.38 et a2 = 1.06.
2. Nous formons la prdiction yi avec ces coecients. 3. Nous calculons l'erreur de prdiction, le rsidu de la rgression i = ei = yi yi . 4. Nous pouvons alors calculer la statistique de Durbin-Watson. En formant le numrateur 874.66 et le dnominateur 433.31, nous obtenons d = 2.02. 5. Pour un test bilatral 10%, nous rcuprons les valeurs critiques dans la table de Durbin-Watson (Annexes A). Pour n = 17 et k = 2, dL = 1.02 et dU = 1.54. 6. Nous constatons que nous sommes dans la rgion dU < d < 4 dU , l'hypothse d'absence d'autocorrlation d'ordre 1 des rsidus n'est pas contredite par les donnes ( = 0).
Principe
Bien entendu, les donnes doivent tre ordonnes pour que le test puisse oprer. Notre rfrence est la date pour les donnes longitudinales. Le test repose sur la dtection des squences de valeurs positives '+' ou ngatives '-' des rsidus. La statistique du test r est le nombre total de squences dans la srie d'observations.
Exemple 1. Si tous les rsidus ngatifs sont regroups sur les petites valeurs de Y , et inversement, les
rsidus positifs, sur les grandes valeurs de Y , nous aurons simple r = 2 squences. C'est minemment suspect si l'on se rfre l'hypothse H0 selon laquelle les rsidus sont gnrs alatoirement. Posons n+ (resp. n ) le nombre de rsidus positifs (resp. ngatifs) dans la srie des rsidus. Sous l'hypothse H0 le processus de gnration des donnes est alatoire, la statistique r suit asymptotiquement % une loi normale de paramtres :
Nonparametric statistics for the behavioral sciences, McGraw-Hill, 1988, pages 58 64, section "The one-Sample runs test of randomness"
6. Voir Siegel, S., Castellan, J., Castellan, Table G, page 331. Curieusement, je n'ai pas pu en trouver en ligne...
Page: 17 job: la_regression_dans_la_pratique macro: svmono.cls
7. Pour les petites valeurs de n+ et n , les valeurs critique de r ont t tabules. Voir par exemple Siegel-
date/time: 9-Jul-2011/7:43
18
r =
2n+ n +1 n (r 1)(r 2) r = n1
rr r .
Nous pouvons former la statistique centre et rduite z = l'hypothse de gnration alatoire des rsidus s'crit :
Remarque 6 (Le test de squences est un test bilatral). Attention, le test des squences est bien un test
bilatral. Des '+' et '-' alterns (r lev) sont tout aussi suspects que des blocs de '+' et '-' (r faible). Ce test permet autant de dtecter les autocorrlations ngatives que positives.
Fig. 1.12.
Reprenons l'exemple de la consommation de textile (Theil, 1971), nous reproduisons les calculs l'aide d'un tableur (Figure 1.12) : 1. A l'aide de la fonction DROITEREG() d'EXCEL, nous obtenons les coecients a0 = 130.71, a1 =
1.38 et a2 = 1.06.
Page: 18 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
19
2. Nous formons la prdiction yi avec ces coecients. 3. Nous calculons l'erreur de prdiction, le rsidu de la rgression i = ei = yi yi . 4. Nous annotons avec le caractre '+' (resp. '-') les rsidus positifs (resp. ngatifs). 5. Nous comptons le nombre de valeurs positives et ngatives, n+ = 9 et n = 8, nous vrions que
n = n+ + n = 17.
6. Nous pouvons calculer la moyenne et l'cart-type de la statistique de test sous l'hypothse nulle :
r = 9.47 et r = 1.99.
7. Nous aectons un numro chaque squence de '+' et '-', nous obtenons ainsi le nombre de squences
r = 7.
8. Nous calculons enn la statistique centre et rduite z = et rduite u0.95 = 1.64. Nous sommes dans la rgion d'acceptation de H0 . Nous pouvons conclure que les rsidus sont indpendants, ils sont gnrs par un processus purement alatoire.
79.47 1.99
= 1.24 ;
9. Que nous comparons au fractile d'ordre 0.95 (pour un test bilatral 10%) de la loi normal centre
hii est lue sur la diagonale principale de la hat matrix H = X(X X)1 X . Et surtout, la covariance
2 cov(i , j ) = hij entre deux rsidus observs n'est pas nulle en gnral.
De fait, la loi des statistiques sous H0 (normalit des erreurs) que l'on pourrait utiliser dans cette section sont modis, induisant galement une modication des valeurs critiques pour un mme risque . Comment ? Il n'y a pas vraiment de rponses tablies. Il semble nanmoins que les tests usuels restent valables, pour peu que l'on ait susamment d'observations (n 50) ' . Il faut surtout voir les tests comme
8. Pour un tour d'horizon des consquences des violations des hypothses dans la rgression, nous conseillons l'excellent document de J.Ravet disponible en ligne http://homepages.ulb.ac.be/~jravet/stateco/docs/
econometrie.pdf 9. Cette valeur est vraiment donn comme un ordre d'ides. En ralit, le problme de l'utilisation des rsidus
pour valuer la normalit des erreurs est souvent pass sous silence dans la littrature. Le seul ouvrage o cela est pos clairement est celui de Capra P., Van Cutsem B., Mthodes
et modles en statistique non paramtrique - Expos fondamental, Dunod, Presse de l'Universit de Laval, 1988 ; pages 306 et 307
Page: 19 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
20
des indicateurs supplmentaires pour valuer la rgression, il faut rellement s'inquiter si la distribution empirique des rsidus s'carte trs fortement de l'hypothse de normalit c.--d. avec des p-value trs faibles lorsque les tests sont mis en oeuvre. C'est en ce sens que nous les prsentons .
Remarque 7. Pour plus de dtails, nous conseillons la lecture du document en ligne http://eric.
3. Calculer les quantiles thoriques normalises zi en utilisant la fonction inverse de la loi normale centre
Normalite.pdf. Des liens vers d'autres documents et des chiers exemples sont disponibles sur notre site de
supports de cours http://eric.univ-lyon2.fr/~ricco/cours/supports_data_mining.html, section Statistique 11. En toute rigueur, nous devrions utiliser l'estimateur sans biais de l'cart-type de l'erreur ( ). Mais cette petite entorse ne tire pas consquence dans notre procdure. Il s'agit simplement d'un changement d'chelle. Si les rsidus sont compatibles avec la distribution normale, les points formeront une droite que l'on utilise l'un ou l'autre des estimateurs.
Page: 20 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
21
Fig. 1.13.
Bien souvent, on peut se contenter de ce diagnostic. Nous ragissons uniquement si l'cart avec la normalit est trs marque. Nanmoins, pour les puristes, nous pouvons consolider les conclusions en s'appuyant sur la batterie des tests de normalit. Nous nous contenterons de tests asymptotiques simples.
1 =
3 3
(1.6)
o 3 est le moment centr d'ordre 3, et l'cart-type. On sait que 1 est gal 0 si la distribution est normale. Le test d'hypothses s'crit de la manire suivante :
H0 : suit une loi normale, par consquent 1 = 0 H1 : ne suit pas une loi normale, par consquent 1 = 0
Remarque 8. Attention, les hypothses ne sont pas symtriques. Si on tablit que 1 = 0, nous savons
que la distribution n'est pas gaussienne. En revanche, conclure 1 = 0 indique que la distribution est seulement compatible avec une loi normale.
Page: 21
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
22
g1 = ( 1
n
3 i i
2 i i
)3 2
(1.7)
1 0 1
Nous formons le rapport c1 =
g1 1 .
6 n
R.C. : |c1 | u1 2
o u1 est le fractile d'ordre 1 2
2
5. Nous observons que |c1 | < 1.6449 = u0.95 , pour un test bilatral 10%. Nous ne sommes pas dans la rgion critique. Si l'on se rfre au rsultats du test, l'hypothse de compatibilit avec la normale ne peut pas tre rejete.
3 dans la procdure.
cours/cours/Test_Normalite.pdf
Page: 22 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
23
Fig. 1.14.
Test de normalit des rsidus fond sur le coecient de symtrie sur les donnes CONSO
H0 : suit une loi normale, par consquent 1 = 0 et 2 = 0 H1 : ne suit pas une loi normale, par consquent 1 = 0 ou 2 = 0
o 4 est le moment centr d'ordre 4, est l'cart-type.
Remarque 9 (Rejet de l'hypothse de normalit). Ici galement, le test n'est pas symtrique. Si la distribution est compatible avec la loi normale, 1 et 2 sont simultanment zro. En revanche, il sut que l'un des deux soient dirents de zro pour que l'hypothse de normalit soit rejete. Autre point important, on conjecture que les statistiques associes chaque coecient sont indpendants (asymptotiquement).
g2 =
(1.8)
Page: 23
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
24
2 0 2
24 n
g2 2
N (0, 1).
Statistique de Jarque-Bera
Maintenant, il faut trouver une manire de combiner les deux statistiques g1 et g2 . Puisqu'ils sont indpendants (asymptotiquement), le plus simple est de proposer la statistique de Jarque-Bera ! :
(n p 1) T = 6
(
2 g1
g2 + 2 4
)
(1.9)
Remarque 10 (Degr de libert). La valeur (n p 1) reprsente le degr de libert : nous disposons d'un
chantillon de taille n, il y a (p + 1) coecients estimer dans la rgression avec constante. Cette prise en compte des degrs de liberts entrane une correction des rsultats fournis par les logiciels (ex. la fonction jarqueberaTest(.) du package fBasics de R) d'autant plus importante que le nombre de variables vraies p est grand et que la taille de l'chantillon n est faible. Sous H0 , la statistique T suit une loi du 2 2 degrs de libert. La rgion critique du test, au risque
, s'crit :
= 0.2909. [
(0.7626)2 4
3 = 0.7626.
3141 6
(0.2909)2 +
= 0.9967.
6. Que l'on compare avec le seuil critique 2 (2) = 4.6052. 0.90 Au risque de = 10%, nous ne pouvons pas rejeter l'hypothse d'un distribution gaussienne des rsidus.
13. http://fr.wikipedia.org/wiki/Test_de_Jarque_Bera
Page: 24 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
1.4 Conclusion
25
Fig. 1.15.
Test de Jarque-Bera pour vrier la normalit des rsidus sur les donnes CONSO
1.4 Conclusion
Examiner les rsidus est un des moyens les plus srs d'valuer la qualit d'une rgression. Nous avons prsent dans ce chapitre quelques outils, plus ou moins sophistiqus, pour apprcier correctement les informations qu'ils peuvent nous apporter. Dans la majorit des cas, les cueils qui peuvent invalider une rgression sont : la liaison tudie est non-linaire ; un problme de spcication, par ex. une variable exogne importante manque ; l'existence de points atypiques ou exagrment inuents ; les erreurs ne sont pas indpendants et/ou dpendent d'une des exognes ; il y a une rupture de structure dans la relation ou les donnes sont organises en blocs non homognes,... Malgr la puissance des procdures numriques avances, les techniques graphiques trs simples sont privilgier, au moins dans un premier temps : leurs conditions d'applications sont universelles, elles proposent un diagnostic nuanc de situations qui peuvent s'avrer complexes. Rien ne nous empche par la suite de complter le diagnostic visuel l'aide des tests statistiques.
Page: 25
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
Page: 26
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
L'objectif de la dtection des points aberrants et inuents est de reprer des points qui jouent un rle anormal dans la rgression, jusqu' en fausser les rsultats. Il faut s'entendre sur le terme anormal, nous pourrons en rsumer les direntes tournures de la manire suivante : L'observation prend une valeur inhabituelle sur une des variables. Nous parlons alors de dtection univarie car nous tudions les variables individuellement. Par exemple, un des vhicules a une puissance 700 cv, nous avons intgr une Formule 1 dans notre chier de vhicules. Une combinaison de valeurs chez les exognes est inhabituelle. Par exemple, une voiture trs lgre et trs puissante : le poids pris individuellement ne se dmarque pas, la puissance non plus, mais leur concomitance est surprenante (Figure 2.1). L'observation est trs mal reconstitue par la rgression, n'obissant pas de manire ostensible la relation modlise entre les exognes et l'endogne. Dans ce cas, le rsidu observ est trop lev. L'observation pse de manire exagre dans la rgression, au point que les rsultats obtenus (prdiction, coecient, ...) sont trs dirents selon que nous l'intgrons ou non dans la rgression.
Fig. 2.1.
Outre les ouvrages enumrs en bibliographie, deux rfrences en ligne compltent merveille ce chapitre : le document de J. Confais et M. Le Guen [12], section 4.3, pages 307 311 ; et la prsentation de
Page: 27 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
28
outilsdiag.ppt.
Fig. 2.2.
On pense tort que les extrmits de la bote correspond aux valeurs minimales et maximales. En ralit il s'agit des valeurs minimales et maximales non atypiques. Les seuils dsignant les valeurs atypiques sont dnies par les rgles suivantes :
29
Remarque 11 (Rgle des 3-sigma). Une autre rgle empirique est largement rpandue dans la communaut
statistique, il s'agit de la rgle des 3-sigma. Elle xe les bornes basses et hautes 3 fois l'cart-type autour de la moyenne. Si l'on considre que la distribution est normale, 99.7% des observations sont situes dans cet intervalle. La principale faiblesse de cette approche est l'hypothse de normalit sous-jacente qui en rduit la porte.
LOF = Q1 3 IQ U OF = Q3 + 3 IQ
Pour distinguer les points dtects selon la rgle inner ou outer, on parle de "points moyennement atypiques" (mild outlier) et "points extrmement atypiques" (extreme outlier).
2 observations suspectes qui consomment largement plus que les autres vhicules : la Ferrari 456 GT et
la Mercedes S 600. Une autre manire de procder est d'utiliser simplement le tableur EXCEL (Figure 2.3) : 1. de produire le 1er et le 3me quartile ; 2. d'en dduire l'intervalle inter-quartile ; 3. de calculer les bornes LIF et U IF ; 4. et de s'appuyer sur la mise en forme conditionnelle pour distinguer les points "suspects" pour chaque variable. Il semble que 3 vhicules soient assez dirents du reste de l'chantillon, sur la quasi-totalit des variables. Nous produisons dans un tableau rcapitulatif les associations "observation-variable" suspects (Tableau 2.1).
Page: 29
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
30
Fig. 2.3.
Dtection univarie des points atypiques pour chaque variable Prix Cylindre Puissance Poids Consommation * * * * * * * * * * *
Page: 30
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
31
Fig. 2.4.
Le point et le centre de gravit sont situs aux mmes coordonnes dans les graphiques (a) et (b).
Le levier hii de l'observation i est lue sur la diagonale principale de la matrice H , dite Hat Matrix, dnie de la manire suivante
H = X(X X)1 X
(2.1)
La matrice H joue un rle trs important dans la rgression, elle permet de passer des valeurs observes de Y vers les valeurs prdites Y , elle permet aussi le passage de l'erreur thorique vers les rsidus observs ! . Les lments hij de la matrice H prsentent un certain nombre de proprits. Concernant les lments de la diagonale principale hii , on parle de levier car il dtermine l'inuence de l'observation i sur les estimateurs obtenus par les moindres carrs (Dodge, page 130). Mme s'il n'utilise que les informations en provenance des exognes Xj , le champ d'action du levier dpasse la dtection multivarie des points aberrants. Nous le retrouverons dans la grande majorit des formules de dtection des points atypiques et inuents que nous prsenterons dans la suite de ce chapitre.
hii = hi = xi (X X)1 x i
o xi reprsente la i-me ligne de la matrice X .
Rgion critique
Nous disposons d'un indicateur. Il nous faut maintenant dterminer partir de quelle valeur de hi nous devons nous pencher attentivement sur une observation. Autrement dit, quelle est la valeur critique qui permet d'indiquer qu'un point est "suspect" ?
3. = [I X(X X)1 X ]
Page: 31 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
32
Pour cela, penchons-nous sur quelques proprits du levier. Par dnition 0 hi 1, et surtout n i=1 hi = p + 1, o p + 1 est le nombre de coecients estimer dans une rgression avec constante. On considre que le levier d'une observation est anormalement lev ds lors que :
R.C. : hi > 2
p+1 n
(2.2)
Remarque 12 (Seuil de coupure et tude des points). La rgle dnie ci-dessus, aussi rpandue soit-elle,
est avant tout empirique. Dans la pratique, il est tout aussi pertinent de trier les observations selon la valeur de hi de manire mettre en vidence les cas extrmes. Une tude approfondie de ces observations permet de statuer sur leur positionnement par rapport aux autres.
Fig. 2.5.
Page: 32
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
33
Nous appliquons les calculs ci-dessus sur les donnes CONSO. Nous avons utilis le logiciel TANAGRA (Figure 2.5) " . La valeur de coupure est 2
4+1 31
mmes que pour la dtection univarie : la Ferrari (h8 = 0.8686), la Mercedes (h9 = 0.4843) et la Maserati (h10 = 0.6418). Les raisons semblent videntes : il s'agit de grosses cylindres luxueuses, des limousines (Mercedes) ou des vhicules sportifs (Ferrari, Maserati). Essayons d'approfondir notre analyse en triant cette fois-ci les observations de manire dcroissante selon hi . Les 3 observations ci-dessus arrivent bien videmment en premire place, mais nous constatons que d'autres observations prsentaient un levier proche de la valeur seuil. Il s'agit de la Toyota Previa Salon, et dans une moindre mesure de la Hyundai Sonata 3000 (Figure 2.6). La premire est un monospace (nous remarquons proximit 2 autres monospaces, la Seat Alhambra et la Peugeot 806) qui se distingue par la conjonction d'un prix et d'un poids levs ; la seconde est une voiture de luxe corenne, les raisons de son loignement par rapport aux autres vhicules tiennent, semble-t-il, en la conjonction peu courante d'un prix relativement moyen et d'une cylindre leve.
Fig. 2.6.
4. Nous avons utilis un logiciel spcialis par commodit. L'enchanement des calculs peut tre facilement reproduit sur un tableur, il sut d'utiliser bon escient les fonctions matricielles.
Page: 33 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
34
i = (1 hi ) 2 2
o hi est lue dans la Hat Matrix H , = 2
i i np1
(2.3)
ti =
i i = i (1 hi )
(2.4)
Rgion critique
Pour dcider du statut d'un point, il nous faut dnir une valeur seuil au del de laquelle le rsidu standardis est anormalement lev (en valeur absolue). Nous pouvons nous appuyer sur un appareillage statistique ici. En eet, par hypothse i N (0, ), nous en dduisons que i N (0, i ). On peut montrer facilement que i suit une loi du 2 (n p 1) 2 degrs de libert. De fait, le rsidu standardis, dni par le rapport (Equation 2.4) entre une loi normale et la racine carre d'une loi du 2 normalise), suit une loi de Student (n p 1) degrs de libert
ti T (n p 1)
(2.5)
Nous dcidons qu'une observation est particulirement mal reconstitue par le modle (d'une certaine manire atypique) lorsque
Il s'agit bien d'un test bilatral. Le rsidu est suspect s'il est particulirement lev en valeur absolue. Au nal, un point apparat comme aberrant avec un rsidu standardis lev si :
Page: 34 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
35
il est mal prdit c.--d. i est lev ; la rgression est prcise c.--d. est faible ; en eet, si la rgression est globalement prcise, un point mal prdit apparat comme d'autant plus suspect ; le point est loign des autres dans l'espace des exognes ; en eet, plus hi est lev (hi 1), plus
Fig. 2.7.
Remarque 13 (Taille d'chantillon et risque ). Autre approche pragmatique, nous pouvons trier les donnes selon |ti |. Les vhicules suspects sont trs facilement mis en vidence (Figure 2.8). Cette technique est d'autant plus intressante que le nombre de vhicules situs dans la rgion critique s'accrot mcaniquement mesure que la taille n de l'chantillon augmente, laissant croire un nombre lev d'observations
5. Graphique ralis avec le logiciel R, il est trs facile de placer des tiquettes aux coordonnes choisies.
Page: 35 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
36
aberrantes. Il faudrait ajuster le risque en accord avec la taille d'chantillon n. Mais il s'agit l d'une opration dlicate. En utilisant un tri simple, nous pouvons considrer, par ordre d'importance, les points les moins bien reconnus par le modle sans se poser la question d'un seuil critique convenable.
Fig. 2.8.
Les calculs aboutissent des rsultats contrasts, correspondant des situations trs direntes (Figure 2.8) : La Mercedes cumule un rsidu fort (1.374) et un levier lev (0.4843). Ce type de vhicule appartient une catgorie spcique qui n'a rien en commun avec les voitures recenss dans ce chier. La "Ferrari" est mal reconstitue parce qu'elle est avant tout trs dirente des autres h = 0.8686. Le rsidu brut = 0.610 n'est pas trs lev, on prdit correctement sa consommation au regard de ses caractristiques. Mais le rsidu rapport l'cart-type montre qu'il s'agit quand mme d'un vhicule bien particulier. La Hyundai et la Mitsubishi Galant correspondent une tout autre situation. Ces observations se fondent dans l'ensemble de la population, le levier est en de du seuil critique. En revanche ils n'obissent pas la relation mise en vidence entre les exognes et l'endogne (Equation 0.1). La Hyundai consomme fortement par rapport ses caractristiques = y y = 11.7 10.264 = 1.436 ; la Mitsubishi est en revanche particulirement sobre (au regard de sa cylindre) = 7.6 9.168 =
1.568.
Page: 36
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
37
Fig. 2.9.
Exemple de rgression simple o l'observation est certes bien modlise ( 0) mais elle fausse
observation participe ou non aux calculs. Parmi les pistes possible, nous nous penchons sur l'erreur
de prdiction. Une mesure objective devrait ne pas faire participer le point i dans la construction du modle utilis pour prdire la valeur yi . Le rsidu studentis, on parle de rsidu studentis externe ou
RSTUDENT dans certains ouvrages, s'appuie sur ce principe, il utilise la procdure suivante (Dodge,
page 135) : Pour chaque observation i, Nous la retirons de l'ensemble des donnes, et nous calculons les paramtres de la rgression.
Page: 37
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
38
t = i
(2.6)
i dans la rgression. Si, exclue de la rgression, elle reste bien prdite, elle est fondue dans la masse des
points ; en revanche, si son exclusion des calculs entrane une trs mauvaise prdiction, on peut penser qu'elle pse fortement, peut-tre tort, sur les calculs (Figure 2.10).
Fig. 2.10.
y = a0 + a1 x1 + . . . + ap xp + b z +
(2.7)
Le rsidu studentis correspond au t de Student du test de signicativit du coecient b. Nous savons que cette statistique suit une loi de Student T (n p 2) (n p 2) degrs de libert. En eet, il y a bien (p + 2) coecients estimer dans l'quation 2.7.
Page: 38
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
39
Calcul pratique
Si le concept sous-jacent semble relativement simple, il reste produire les rsultats. Quelle que soit l'approche adopte, il faudrait eectuer n rgressions. Si n est lev, le calcul est trs lourd, il peut se rvler rdhibitoire.
est possible de le calculer pour chaque observation i sans avoir procder explicitement aux n rgressions. Nous utilisons
pour cela d'une formule de transformation du rsidu standardis (Tenenhaus, page 95) $ : np2 t = ti i n p 1 t2 i Le calcul supplmentaire demand est ngligeable.
(2.8)
Rgion critique
A partir de la formulation sous forme d'quation de rgression (quation 2.7), il est possible d'crire rigoureusement le test d'hypothses permettant de dterminer si une observation est atypique/inuente ou non. On oppose :
H0 : b = 0 H1 : b = 0
Sous H0 , la statistique t T (n p 2), on en dduit la rgion critique du test : i
R.C. : |t | > t1 (n p 2) i 2
o t1 (n p 2) est le fractile d'ordre 1 2
2
Il s'agit bien d'un test bilatral. Le rsidu est suspect s'il est particulirement lev en valeur absolue.
Dans
On constate que sur les donnes CONSO (Figure 2.11), aucune observation n'est atypique avec cette
40
10% est 1.7081. Nous trions les donnes selon la valeur absolue de cette colonne. Nous constatons que ce
sont les mmes points que prcdemment (cf. le rsidu standardis) qui se dmarquent ((Mercedes S600, Hyundai Sonata, Ferrari 456 GT et Mitsubishi Galant, gure 2.11).
Fig. 2.11.
Dans notre exemple, les deux indicateurs ti et t concordent. Ce n'est pas toujours le cas en pratique. i Il faut alors privilgier le rsidu studentis pour les raisons voques ci-dessus : le fait de considrer l'observation numro i comme un point supplmentaire permet de mieux apprhender son inuence sur la rgression.
Page: 40
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
41
2.5.1 DFFITS
Le DFFITS s'appuie sur le mme principe que le RSTUDENT, mais il compare cette fois-ci la prdiction en resubstitution yi et la prdiction en donne supplmentaire yi (i). Dans le premier cas, l'ob servation a particip la construction du modle de prdiction, dans le second, non. Nous pouvons ainsi mesurer l'inuence du point sur la rgression. Dans notre exemple ctif (Figures 2.9 et 2.10), la dirence serait trs marque, conrmant le rle mysticateur de l'individu . Le DFFITS est normalise de la manire suivante
DF F IT Si =
yi yi (i) (i) hi
(2.9)
p+1 n
mais le plus simple toujours est de trier les observations selon |DF F IT Si | pour mettre en vidence les points suspects.
Sur le chier CONSO, le seuil critique est 2 4+1 = 0.8032. Nous constatons que la Ferrari (tout 31
particulirement), la Mercedes et la Hyundai se dmarquent toujours. La Mitsubishi en revanche ne dpasse pas le seuil (0.7800) mais en est susamment proche pour qu'on ne remette pas en cause l'analyse propose dans la section sur le rsidu studentis. On voit l tout l'intrt de ne pas prendre pour argent comptant les valeurs seuils (Figure 2.12).
DF F IT Si = t i
hi 1 hi
(2.10)
42
Fig. 2.12.
(2.11)
Ainsi, pour valuer l'inuence du point i sur la rgression, nous la supprimons du calcul des coecients, et nous comparons les prdictions avec le modle complet (construit avec tous les points) et le modle valuer (construit sans le point i). Si la dirence est leve, le point joue un rle important dans l'estimation des coecients. Il nous faut dnir la valeur seuil partir de laquelle nous pouvons dire que l'inuence est exagre. La rgle la plus simple est :
R.C. : Di > 1
(2.12)
Mais elle est juge un peu trop permissive, laissant chapper tort des points douteux, on lui prfre parfois la disposition plus exigeante suivante (Confais, page 309) :
R.C. : Di >
4 np1
(2.13)
La distance de Cook a t calcule pour chaque observation du chier CONSO. Les individus ont t tris selon Di dcroissants. La Ferrari, encore une fois trs fortement, et la Mercedes se dmarquent selon la premire rgle de dtection (quation 2.12). Si nous passons la seconde rgle Di > (quation 2.13), la Hyundai se rvle galement suspecte (Figure 2.13).
4 np1
= 0.1538
43
Fig. 2.13.
Di =
t2 hi i (p + 1) (1 hi )
(2.14)
Di =
(2.15)
o a est le vecteur des (p + 1) coecients estims (0 , a1 , . . . , ap ) avec les n observations ; a(i) le a mme vecteur estim sans l'observation i. La distance de Cook s'interprte, dans ce cas, comme l'amplitude de l'cart entre les coecients estims de la rgression, avec et sans le point i. Il va sans dire que la valeur calcule Di est exactement la mme que celle obtenue avec la premire dnition (quation 2.11). De ce point de vue, la distance de Cook peut se lire comme la statistique du test de comparaison de deux vecteurs de coecients. Sauf que qu'il ne peut s'agir d'un vritable test puisque les chantillons ne sont pas (pas du tout) indpendants. Nanmoins, si l'on poursuit l'ide, la distance de Cook suivrait une loi de Fisher (p + 1, n p 1) degrs de libert. On s'appuie sur la p-value du test pour dtecter les points atypiques : on considre qu'un point est suspect ds lors que la p-value calcule est infrieure
50% % . On peut aussi imaginer une procdure plus souple et simplement trier les observations selon la
p-value de la distance de Cook. Dans le cas du chier CONSO, on constate que la Ferrari et la Mercedes se dmarquent fortement par rapport aux autres vhicules (Figure 2.14).
7. http://www-stat.stanford.edu/~jtaylo/courses/stats203/notes/diagnostics.pdf
Page: 43 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
44
Fig. 2.14.
2.5.3 DFBETAS
La distance de Cook value globalement les disparits entre les coecients de la rgression utilisant ou pas l'observation numro i. Si l'cart est important, on peut vouloir approfondir l'analyse en essayant d'identier la variable qui est l'origine de l'cart : c'est le rle des DFBETAS. Pour chaque observation i et pour chaque coecient aj , j = 0, . . . , p, nous calculons la quantit
DF BET ASj,i =
(2.16)
o aj est l'estimation du coecient de la variable Xj (a0 pour la constante) ; aj (i) l'estimation du mme coecient lorsqu'on a omis l'observation i ; (i) l'estimation de l'cart-type de l'erreur de rgression sans l'observation i ; (X X)1 est lue sur la diagonale principale de la matrice (X X)1 . j On considre que l'observation i pse indment sur la variable Xj lorsque
(2.17)
(2.18)
Bien entendu, il est toujours possible de trier les observations selon les DFBETAS, mais cela peut tre rapidement fastidieux lorsque le nombre de variables est lev. Appliqu sur les donnes CONSO, les DFBETAS nous permettent de mieux situer l'action des observations mis en avant par la distance de Cook. On compare les valeurs calcules avec le seuil
Page: 44 job: la_regression_dans_la_pratique macro: svmono.cls
2 31
= 0.3592.
date/time: 9-Jul-2011/7:43
45
On constate que la Ferrari et la Mercedes psent sur quasiment toutes les variables ds lors qu'on les retire ou qu'on les rajoute dans les eectifs pour la rgression. La Hyundai, qui semble moins peser globalement (cf. Di ), a aussi une action sur l'ensemble des coecients mis part la constante. Enn, la Maserati, la Mitsubishi et la Toyota Previa agissent de manire anecdotique sur quelques coecients (Figure 2.15).
Fig. 2.15.
Calcul pratique
Encore une fois, il est hors de question d'eectuer n rgressions, on s'en sort en utilisant la formule suivante
[ DF BET ASj,i = t i
(X X)1 X
]
j,i
(2.19)
(X X)1 (1 hi ) j
2.5.4 COVRATIO
A la dirence de la distance de Cook, au lieu de mesurer la disparit entre les estimations des coecients, avec ou sans l'intervention de l'observation i, le COVRATIO mesure les disparits entre les prcisions des estimateurs c.--d. la variance des estimateurs. A cet eet, il nous faut proposer une mesure de la variance globale des estimateurs, dite variance
46
var((i)) a var() a
(2.20)
Si COV RAT IOi > 1, la prsence de l'observation i amliore la prcision au sens o elle rduit la variance des estimateurs ; A l'inverse, si COV RAT IOi < 1 indique que la prsence de l'observation i dgrade la variance.
Remarque 14. Attention, une diminution de la variance (COV RAT IO > 1) n'est pas forcment un signe
du rle bnque de l'observation i. Une rduction excessive de la variance peut vouloir dire que l'observation pse exagrment par rapport aux autres observations. Il faut manipuler avec beaucoup de prcautions cet indicateur. A partir de quel moment doit-on s'inquiter de l'inuence d'une observation ? La rgle de dtection la plus rpandue est
(2.21)
(2.22)
Le COVRATIO a t calcul pour chaque observation du chier CONSO. Le tableau est tri selon
|COV RAT IOi 1| dcroissant (Figure 2.16). Nous portons notre attention sur la premire partie du
tableau. Nous retrouvons la Ferrari, la Maserati et la Toyota Previa rapparaissent (cf. levier). Nous notons aussi qu'ils sont suivis d'autres monospaces (Seat Alhambra et Peugeot 806, mme s'ils ne sont pas signicatifs).
Calcul pratique
Il est possible d'obtenir le COVRATIO partir du rsidu studentis et du levier
1
np2 np1
(t )2 i np1
](p+1)
(2.23)
(1 hi )
47
Fig. 2.16.
Page: 47
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
48
Fig. 2.17.
Tableau rcapitulatif - Dtection des observations atypiques (Confais et Le Guen, Modulad, 35, 2006)
Remarque 15 (Techniques graphiques vs. techniques numriques). A ce sujet, prenons toujours de la hauteur par rapport aux techniques numriques, on peut se demander si nalement cet attirail tait bien ncessaire dans la mesure o, ds les graphiques des rsidus, la Ferrari et la Mercedes taient systmatiquement l'cart des autres. Elles auront surtout servi conrmer et prciser le rle perturbateur de ces 2 observations. Nous eectuons la rgression sur les 29 observations restantes. En tudiant de nouveau les points atypiques, nous constaterons que la Mitsubishi est particulirement mal modlise, ce n'est pas tonnant
Page: 48 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
49
car elle prsente une consommation anormalement basse au regard de ses caractristiques, sa cylindre notamment. Nous mettrons galement de ct la Maserati qui est un vhicule sportif turbo-compress hautes performances.
Remarque 16 (Quand la suppression des observations atypiques devient abusive ?). Nous voyons bien l
les limites de l'approche consistant liminer les observations considres atypiques. En continuant ainsi, nous nirons par vider le chier : aucun risque de voir des disparits entre les individus si nous n'avons plus qu'une seule observation.
Fig. 2.18.
Dornavant, nous utiliserons le chier des 27 observations, expurg des 4 vhicules numres ci-dessus, pour illustrer les autres thmes abords dans ce support (Figure 2.18). Nous obtenons des rsultats bien dirents avec des graphiques des rsidus autrement plus sympathiques (Figure 2.19). La variable prix a disparu des paramtres signicatifs. On s'tonne en revanche que ni puissance ni cylindre ne soient pertinents pour expliquer la consommation. Peut-tre faut-il y voir l l'eet de la colinarit ? Nous approfondirons cette question dans le chapitre suivant.
Page: 49
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
50
Fig. 2.19.
Graphiques des rsidus, chier CONSO aprs suppression des 4 points atypiques
Page: 50
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
L'un des objectifs de la rgression est d'essayer de dcrire le processus de causalit entre les exognes et l'endogne. Pour cela, nous tudions le signe et la valeur des coecients. L'ide est de circonscrire au possible le rle de telle ou telle variable dans l'explication des valeurs prises par Y . S'il est tabli qu'une variable n'est d'aucune utilit, il est conseill de l'liminer, elle perturbe la lecture des rsultats. Les problmes surgissent lorsqu'il va falloir dnir une stratgie de slection de variables. Peut-on simplement liminer le bloc de variables qui ne sont pas signicatifs au sens du test de Student ? Ce serait ngliger l'eet conjoint des variables. Doit-on les liminer unes unes, comment doit-on organiser la suppression ? Est-ce que la suppression squentielle est la meilleure stratgie, ne peut-on pas envisager une procdure o l'on slectionne petit petit les variables intressantes ou lieu d'liminer celles qui ne sont pas pertinentes ? etc. Les procdures de slection de variables que nous prsentons dans ce chapitre rpondent ces questions. Souvent certaines variables exognes sont redondantes, elles emmnent le mme type d'information : c'est le problme de la colinarit, elles se gnent mutuellement dans la rgression. Dans ce chapitre, nous dcrivons quelques techniques simples de dtection de la colinarit. Puis, nous prsentons une solution simple pour y remdier par le truchement de la slection de variables.
1. Borcard, D.,
umontreal.ca/BIO2042/Regr_mult.pdf
Page: 51 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
52
Plusieurs problmes peuvent surgir : les valeurs/signes des coecients sont contradictoires, elles ne concordent pas avec les connaissances du domaine ; les variances des estimateurs sont exagres ; au point que les coecients ne paraissent pas signicatives (au sens du t de Student du test de nullit des coecients), poussant le statisticien les supprimer indment ; les rsultats sont trs instables, l'adjonction ou la suppression de quelques observations modie du tout au tout les valeurs et signes des coecients. Il y a un vrai risque de passer ct d'une variable exogne importante tout simplement parce qu'elle est redondante avec une autre. La colinarit entre variables exognes rend illusoire la lecture des rsultats sur la base des valeurs et de la signicativit des coecients. Il est indiqu de la dtecter et de la traiter avant toute interprtation approfondie.
trs leves. Il en est de mme pour la matrice de variance covariance des coecients estims a a = (X X)1 . Ds lors, le t de Student taj = aj pour tester la signicativit des coecients 2
j
prsente mcaniquement de trs faibles valeurs. La variable parat non signicative, elle est limine par le statisticien.
2. Foucart, T.,
53
Fig. 3.1.
vj =
1 2 1 Rj
(3.1)
V (j ) = a
2 vj n
vj .
Plus vj sera lev, plus la variance V (j ) de l'estimation sera forte. L'estimation aj sera donc trs a instable, il aura moins de chances d'tre signicatif dans le test de nullit du coecient dans la rgression. A partir de quelle valeur de vj doit-on s'inquiter ? Si les variables taient 2 2 indpendantes, vj = 1 et V (j ) = a
2 n .
54
simples. Une rgle usuelle de dtection de la colinarit est de prendre un seuil o l'on multiplierait d'un facteur de 2 l'cart-type de l'estimation. On dcide qu'il y a un problme de colinarit lorsque
vj 4
Certains utilisent une rgle moins contraignante et prfrent # les seuils 5 ou mme 10 c.--d. la multicolinarit n'est signale que si elle est vraiment leve. A vrai dire, l'essentiel est d'identier les variables qui posent problme dans la rgression.
2 Tolrance. La quantit 1 Rj , appele tolrance, est galement fournie par les logiciels statistiques.
Plus elle est faible, plus la variable Xj soure de colinarit. En drivant la rgle de dtection du VIF, on s'inquiterait ds que la tolrance est infrieure 0.25.
2 autres pour obtenir les Rj et donc vj , serait vite fastidieux. Nous pouvons proter des calculs existants
pour produire le VIF. En eet, si C est la matrice des corrlations entre les exognes, de taille (p p), la quantit vj peut tre lue la coordonne j de la diagonale principale de la matrice inverse C 1 . Nous en reparlerons plus loin (section 3.6), il est mme possible de produire les rsultats des rgressions croises partir des valeurs de la matrice C 1 .
Fig. 3.2.
55
pdf/N173R963.pdf ; voir aussi Saporta, section 17.3.2.2, page 422, sur les relations entre le VIF et les
valeurs propres de la matrice C ). Ils s'appuient tous sur une dmarche similaire, l'hypothse nulle est l'orthogonalit des variables exognes, on value dans quelle mesure on s'carte de cette hypothse. Sans remettre en doute la pertinence de ces tests, force est de constater que les approches simples susent souvent pour apprcier au mieux les multiples situations.
Fig. 3.3.
56
Dans ce chapitre, nous traiterons plus particulirement de la slection de variables. L'objectif est de trouver un sous-ensemble de q variables exognes (q p) qui soient, autant que possible, pertinentes et
Critre du R2
Le R2 semble de prime abord vident. Il exprime la part de la variance explique par le modle. C'est le premier critre que l'on regarde dans une rgression. On essaie de trouver la combinaison de variables qui maximise le R2 . En ralit, il ne convient pas. En eet, le R2 augmente de manire mcanique avec le nombre de variables : plus on ajoute de variables, meilleur il est, mme si ces variables ne sont absolument pas pertinentes. A la limite, on connat d'oce la solution optimale : c'est le modle comportant les p variables candidates. Dans un processus de slection de modle, le R2 conviendrait uniquement pour comparer des solutions comportant le mme nombre de variables.
Critre du R2 corrig
Le R2 corrig, not R2 , tient compte des degrs de libert, donc du nombre de variables introduits
dans le modle. Il rend comparable des rgressions comportant un nombre d'exognes dirent. Pour bien
Page: 56 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
57
R2 = 1
o SCR =
2 i (yi yi )
Le R2 introduit une correction par les degrs de libert, il s'crit SCR/(n q 1) CM R =1 R2 = 1 CM T SCT /(n 1)
(3.3)
o CM R sont les carrs moyens rsiduels, CM T les carrs moyens totaux, q est le nombre de variables dans le modle valu.
On voit bien le mcanisme qui se met en place. Deux eets antagonistes s'opposent lorsque l'on ajoute une variable supplmentaire dans le modle : R2 augmente parce que R2 s'amliore, R2 diminue parce que le nombre d'exognes q prend une valeur plus leve. Tant que la prcision du modle quantie par R2 prend le pas sur la complexit du modle quantie par q , nous pouvons ajouter de nouvelles variables. Si le principe est sain, on se rend compte dans la pratique que ce critre est trop permissif. L'eet contraignant de q n'est pas assez fort dans la formulation du R2 (quation 3.4). Le critre favorise les solutions comportant un grand nombre de variables. Il faut trouver des formulations plus restrictives.
R2 (ou le SCR, c'est la mme chose puisque SCT est constant quel que soit le modle valuer) avec la
complexit du modle quantie par le nombre de variables qu'il comporte. Avec le critre Akaike (AIC), nous cherchons la rgression qui minimise la quantit suivante :
AIC = n ln
SCR + 2(q + 1) n
(3.5)
BIC = n ln
SCR + ln(n)(q + 1) n
(3.6)
Ds que n > e2 7, on constate que le critre BIC pnalise plus fortement les modles complexes. Il favorise les solutions comportant peu de variables.
Remarque 17 (Complexit et colinarit entre les exognes). Notons que ces techniques de slection ne
tiennent pas compte explicitement de la redondance entre les variables. Cela est fait de manire implicite
Page: 57 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
58
avec la pnalisation de la complexit : deux explicatives corrles n'amliorent gure le SCR mais sont pnalises parce que la complexit augmente, elles ne peuvent pas tre simultanment prsentes dans le modle.
Critre du PRESS
Maximiser le coecient de dtermination R2 n'est pas appropri. Rappelons que
R2 = 1
SCR SCT
o SCT , la somme des carrs totaux est constante quelle que soit la rgression considre ; SCR est dnie de la manire suivante :
SCR =
n (yi yi )2 i=1
Lorsque l'on rajoute de nouvelles variables dans le modle, mme non pertinentes, SCR diminue mcaniquement (au pire il reste constant), et par consquent R2 augmente. Cela provient du fait que l'on confronte la vraie valeur yi avec la prdiction yi alors que l'observation i a particip l'laboration du modle. A l'extrme, si on se contente que crer autant de dummy variable qu'il y a d'observations, nous sommes assurs d'obtenir un R2 = 1 puisque nous ralisons une interpolation. Pour avoir une estimation honnte des performances en prdiction, il ne faudrait pas que l'observation
i participe la construction du modle lorsqu'on veut prdire sa valeur de l'endogne. Elle intervient ainsi
comme une observation supplmentaire $ . On dduit alors un indicateur similaire au SCR que l'on appelle PRESS (Predicted Residual Sum of Squares) % :
n (yi yi (i))2 i=1
P RESS =
(3.7)
o yi (i) est la prdiction de la valeur de l'endogne pour l'observation i utilise en donne suppl mentaire dans la rgression numro i.
yi yi (i) =
yi yi 1 hi
(3.8)
6. Cela n'est pas sans rappeler la distinction que nous faisions entre les rsidus standardiss et studentiss dans la dtection des points atypiques. 7. http://www.ltrr.arizona.edu/~dmeko/notes_12.pdf
Page: 58 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
59
Remarque 18 (Wrapper). Notons pour l'anecdote que ce type de stratgie de slection de variables dans le
domaine de l'apprentissage automatique (grosso modo, il s'agit de problmes de prdiction o la variable prdire est qualitative) est connu sous le terme gnrique wrapper. Sauf, qu' ma connaissance, les procdures construisent explicitement les n modles de prdiction (moins si on dcide d'exclure non pas une seule mais k observations chaque phase de construction de modle) & .
Fig. 3.4.
eduzSz~ronnykzSzwrappers.pdf/kohavi97wrappers.pdf
Page: 59 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
60
1. Nous utilisons les coecients de la rgression pour calculer la prdiction en resubstitution yi ; 2. Nous formons alors l'erreur de prdiction i = yi yi ; 3. Nous calculons les lments diagonaux de la Hat Matrix, qui sont ni plus ni moins que les leviers (leverage) hi = [X(X X)1 X ]ii ; 4. Nous formons l'erreur de prdiction en donne supplmentaire yi yi (i) = n 5. Nous en dduisons le P RESS = i=1 [yi yi (i)]2 = 13.54.
i 1hi
Notons pour rappel que SCR = 9.33 (Figure 2.18), nous avons systmatiquement la relation SCR
P RESS . Plus l'cart entre ces deux indicateurs est lev, plus nous suspectons un
relation qui existe dans la population.
sur-apprentissage
c.--d. le modle "colle" trop aux donnes, il intgre des spcicits du chier et ne restitue plus la vraie
13.54 prcdemment.
Cela montre combien la recherche d'un modle parcimonieux est tout sauf une lucubration esthtique. Elle permet d'amliorer (souvent) l'ecacit des modles lors du dploiement dans la population. Les prdictions sont plus prcises.
Page: 60
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
61
Fig. 3.5.
Calcul du PRESS sur les donnes CONSO - Rgression 2 explicatives (CYLINDRE, POIDS)
Appliqu sur le chier CONSO de 27 observations, nous obtenons la squence de calculs ' :
tape
AIC
cylindre 17.4625
20.6188
21.9986
Au dpart, tape 1, avec toutes les variables, AIC = 18.69 = 27 ln 9.328 + 2(4 + 1). La suppression 27 de la variable puissance entrane la plus grande diminution du critre, il passe alors 20.6188, etc. A l'tape 3, on constate qu'aucune suppression de variable n'amliore le modle courant.
9. Nous avons utilis la fonction
Page: 61
stepAIC
job: la_regression_dans_la_pratique
62
Remarque 19 (Recherche forward). Si nous avions adopt une recherche forward c.--d. partir du modle
compos de la seule constante, ajouter au fur et mesure une variable de manire diminuer au possible le critre AIC, nous aurions obtenu le mme ensemble nal de variables exognes.
F = t2 . Nous sommes en situation de comparaisons multiples. La loi sous l'hypothse nulle est modie.
On n'est pas sr de prendre rellement un risque d'accepter tort une variable. Pour viter cet aspect trompeur, certains logiciels proposent de xer directement une valeur seuil de F pour accepter ou rejeter la meilleure variable chaque tape. Cela peut paratre arbitraire, d'autant que les valeurs par dfaut correspond peu ou prou des niveaux de risques usuels (ex. Dans STATISTICA, le seuil de 3.84 propos est peu prs le fractile de la loi de Fisher 5%). Mais au moins, le statisticien vitera de faire rfrence explicitement un niveau de risque erron. D'autres logiciels tels que SPSS ore les deux possibilits l'utilisateur : il peut xer un risque critique ou directement un seuil critique. L'essentiel tant de bien comprendre ce que l'on est en train de manipuler. Enn, le principal reproche que l'on peut adresser cette approche est qu'une variable choisie une tape n'est plus jamais remise en cause par la suite.
Page: 62
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
63
R2
t2 j = F (p-value) a
y = poids + cte
prix
Tableau 3.1.
Parmi les 4 rgressions simples, c'est la variable poids qui prsente un t2 = F = 207.63 le plus lev, elle est trs signicative, en tous les cas avec un p-value largement en-de du niveau que l'on s'est x (5%). La variable poids est donc intgre. A l'tape 2, nous essayons de voir quelle est la variable qu'on pourrait lui adjoindre. Nous eectuons 3 rgressions 2 variables (poids et une autre) : cylindre se rvle tre la plus intressante, avec un F = 11.66, elle est signicative 5%. Elle est intgre. A l'tape 3, nous avons 2 rgressions 3 variables (poids, cylindre et une autre) tester. Nous constatons que la variable la plus intressante, prix avec un F = 0.53, n'est plus signicative (pvalue > 5%). On s'en tient donc au modle 2 variables : poids et cylindre. Dans le chier CONSO, l'optimisation du AIC et la slection forward bas sur le F donnent des rsultats identiques. Ce n'est pas toujours vrai dans la pratique.
64
favorise par rapport celle d'en ajouter. Notamment parce que la colinarit peut masquer le rle de certaines d'entre elles . La valeur = 10% est propose par dfaut dans la logiciel SPSS par exemple. La plupart des logiciels procdent ainsi.
tape
R2
0.5666 (0.4596) 8.2287 (0.0089) 0.5344 (0.4721) 9.4345 (0.0054) 33.7761 (0.0000)
0.9277
puissance avec un t2 = 0.0620, elle n'est pas signicative 10% (pvalue = 0.8057). Nous pouvons la
retirer. Le modle suivant, 3 exognes, propose un R2 = 0.9293. La variable la moins pertinente est
prix qui n'est pas non plus signicative, elle est galement limine. La rgression 2 exognes, cylindre
et poids, possde des variables qui sont toutes signicatives 10% : c'est notre modle dnitif avec un
R2 = 0.9277.
On note que le R2 diminue mcaniquement mesure que nous supprimons des variables. Mais la dgradation est minime au regard du gain en simplicit obtenu en rduisant le nombre de variables du modle.
65
Gnralement, on xe un risque plus exigeant pour la slection (ex. 5%, on ne fait entrer la meilleure variable que si elle est signicative 5%) que pour la suppression (ex. 10%, on supprime la variable la moins pertinente si elle est non signicative 10%).
(n 2) degrs de libert ta =
r
1r 2 n2
Comme il s'agit de tester un coecient qui a fait l'objet d'une optimisation pralable, le vrai risque du test n'est pas . Mais dans la pratique, il ne faut pas attacher trop d'importance un calcul prtendument pointu du vrai risque qui, de toute manire, dpend de la prfrence la simplicit de l'utilisateur : on diminue si on veut moins de variables dans le modle, on l'augmente si on en veut plus. C'est plus en ce sens qu'il faut lire la valeur de . 2. On veut choisir la variable Xb qui est la plus corrle avec la fraction de Y non-explique par Xa . Pour ce faire, on calcule le rsidu de la rgression
e1 = y (0 + a1 xa ) a
La variable Xb est celle qui est la plus corrle avec e1 . On l'intgre dans le modle si la corrlation est signicativement dirent de 0 au risque . Attention, les degrs de libert sont modis (n 3), il en est de mme pour la statistique du test . On utilise
11. La description donne par Dodge est un peu dirente. La mthode Stagewise est utilise pour slectionner les variables, et les coecients de la rgression nale sont dduits des calculs intermdiaires. Il distingue donc les paramtres fournis par stagewise des paramtres estims l'aide de la MCO. 12. Lorsque les eectifs sont levs, cette correction a peu d'eet
Page: 65 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
66
tb =
r
1r 2 n3
3. Si la variable Xb est intgre, nous cherchons la variable suivante Xc qui explique au mieux la fraction de Y non-explique conjointement par Xa et Xb . Le plus simple toujours est de prendre le rsidu
e2 = y (0 + 1 xa + 2 xb ) b b b
de choisir la variable qui lui le plus corrl, et de tester la signicativit du coecient de corrlation avec un tc de Student (n 4) degrs de libert
tc =
r
1r 2 n4
4. on continue ainsi jusqu' ce qu'aucun ajout de variable ne soit possible. 5. Au nal, le plus simple est de re-estimer la droite de rgression avec les variables slectionnes.
Xj
poids prix
r 0.9447 0.9426
cylindre 0.9088 puissance 0.8883 La variable la plus corrle avec l'endogne est poids : r = 0.9447 2. Vrions si la corrlation est signicativement dirente de 0. Pour ce faire, nous formons la statistique de Student t =
0.9447
est signicativement suprieure zro en valeur absolue, elle est accepte. 3. Pour choisir la variable suivante, nous procdons en deux temps : (a) nous calculons les coecients de la rgression y = 1.0353+0.0068poids ; (b) nous calculons le rsidus e1 = y(1.0353+0.0068poids). 4. Nous calculons les corrlations re1 ,Xj pour dterminer la variable la plus corrle avec e1
10.94472 272
Xj
0.1471 0.0000
Bien videmment, la corrlation re1 ,poids = 0 puisque e1 est la fraction de Y qui n'est pas explique
67
5. La variable la plus intressante est cylindre, nous formons le t de Student t = avec une p-value gale 0.1495. de variables est stoppe.
0.2908
10.29082 273
= 1.4891,
6. Au risque de 5%, la variable cylindre n'est signicativement corrle avec e1 . Le processus de slection
Au nal, le "meilleur" modle d'explication de la consommation selon la procdure stagewise intgre uniquement la variable poids :
y,x =
cov(y, x) y x
C'est une mesure symtrique. Par dnition 1 +1, > 0 (resp. < 0) si la liaison est positive (resp. ngative). Lorsque les variables sont indpendantes, = 0, l'inverse n'est pas vrai. Le coecient de corrlation empirique est l'estimation de sur un chier de n observations : i (xi x)(yi y ) ry,x = (3.10) 2 2 i (xi x) i (yi y ) On parle de corrlation brute parce que l'on mesure directement la liaison entre Y et X sans qu'aucune autre variable n'intervienne. Nous l'opposerons la corrlation partielle expose plus bas. Pour vrier que la corrlation entre deux variables est signicativement dirent de zro, nous posons le test d'hypothses
H0 : = 0 H1 : = 0
La statistique du test s'crit
t=
r
1r 2 n2
13. http://en.wikipedia.org/wiki/Correlation
Page: 67 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
68
Nous constatons que toutes ces corrlations sont leves et trs signicativement direntes de zro.
Exemple 2. Ventes de lunettes de soleil et ventes de glaces : aucune des deux n'a un eet sur l'autre, il
s'agit plutt de la temprature qui les fait varier dans le mme sens.
Exemple 3. La corrlation entre la taille des personnes et la longueur de leurs cheveux est ngative. Avant
d'y voir un quelconque phnomne de compensation, on se rend compte qu'il y a 2 populations dans le chier : les hommes et les femmes (Figure 3.6). En gnral, les hommes sont plus grands et ont les cheveux plus courts. La variable "sexe" est la variable intermdiaire qui fait apparatre une relation factice entre la taille et la longueur des cheveux. L'ide de la corrlation partielle justement est de mesurer le degr de liaison entre 2 variables en neutralisant (en contrlant) les eets d'une troisime variable. Il peut y avoir plusieurs types d'eets (Figure 3.7 ; le texte en ligne qui accompagne ce schma est trs instructif - http://www2.chass.ncsu.
edu/garson/pa765/partialr.htm).
Pour calculer la corrlation partielle, nous utilisons les corrlations brutes
Page: 68 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
69
Fig. 3.6.
Fig. 3.7.
(3.11)
L'ide sous-jacente est simple : on retranche de la liaison brute mesure entre y et x, l'eet induit par
z.
Page: 69
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
70
H0 : y,x/z = 0 H1 : y,x/z = 0
La statistique du test s'crit :
ry,x/z t= 2
1ry,x/z n3
faire attention au degr de libert, il y a bien 3 paramtres estims dans la statistique tudie.
t=
0.1600
10.16002 273
= 0.7940
Le t calcul est 0.7940, avec une p-value de 0.4350. Au risque de 5% (et bien au-del), on ne constate pas de liaison signicative entre consommation (y) et puissance, une fois retranche l'explication apporte par la cylindre. Autre lecture : cylindre gale, la consommation ne varie pas avec la puissance.
Page: 70
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
71
Il existe une formule de passage qui permet de gnraliser la premire expression (quation 3.11). Mais elle devient dicile manipuler mesure que le nombre de variables zj augmente, d'autant plus qu'elle impose de calculer de proche en proche toutes les corrlations croises. Il est plus ais d'utiliser une autre formulation de la corrlation partielle. Pour calculer la corrlation partielle ry,x/z1 ,z2 , nous procdons par tapes : 1. nous enlevons de y toute l'information achemine par z1 et z2 en calculant le rsidu de la rgression
e1 = y (0 + a1 z1 + a2 z2 ) a
2. nous procdons de mme pour la variable x
e2 = x (0 + 1 z1 + 2 z2 ) b b b
3. la corrlation partielle peut tre obtenue par la corrlation brute entre les 2 rsidus
t=
r
1r 2 n4
e1 = y (0 + a1 z1 + ak zk ) a e2 = x (0 + 1 z1 + k zk ) b b b
Et la statistique du test s'crit
t=
r
1r 2 nk2
Page: 71
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
72
= 0.0903 ;
p-value
73
Fig. 3.8.
Applique sur les donnes CONSO, le modle choisi comporte les exognes poids et cylindre (Figure 3.8). Dtaillons ces rsultats : 1. A la premire tape, la variable la plus corrle avec l'endogne est poids avec r = 0.9447 et t2 =
F = 207.63. La liaison est trs signicative p value < 0.0001. Elle est donc intgre dans le modle
dont le coecient de dtermination serait R2 = 0.8925. 2. La variable la plus corrle avec l'endogne, conditionnellement poids, est cylindre avec ry,cylindree/poids =
0.5719 et t2 = F = 11.66. La liaison est signicative, p value = 0.0023. Nous slectionnons donc
cette seconde variable, le coecient de dtermination du modle y = a0 + a1 poids + a2 cylindree est
R2 = 0.9277.
3. La variable la plus corrle avec l'endogne, conditionnellement poids et cylindre, est prix avec
74
t2 q a t2 q + (n q 1) a
(3.12)
Ainsi, tester la nullit du coecient de Xq dans la rgression q variables quivaut tester la nullit du coecient de corrlation partielle d'ordre (q 1). Il est tout fait normal que l'on retrouve exactement les mmes tests, avec les mmes degrs de libert, chaque tape du processus de slection. De mme, nous comprenons mieux maintenant pourquoi nous faisions rfrence un F-partiel dans le processus de slection forward bas sur le t de Student des coecients de rgression (Section 3.2.2).
partielle. Il permet galement d'identier les observations atypiques et/ou inuentes de la rgression. Pour xer les ides, mettons que l'on souhaite valuer l'inuence de Xp dans la rgression
Y = a0 + a1 X1 + + ap1 Xp1 + ap Xp +
Aprs estimation des paramtres aj , nous pouvons produire les rsidus de cette rgression. Le graphique de la rgression partielle pour la variable Xp est construit de la manire suivante " : 1. Nous ralisons la rgression de Y sur les (p 1) explicatives
Y = b0 + b1 X1 + + bp1 Xp1 + Y
Avec les coecients estims, nous calculons les rsidus de la rgression Y . 2. Nous expliquons maintenant Xp l'aide toujours des (p 1) explicatives
Xp = c0 + c1 X1 + + cp1 Xp1 + Xp
Nous en dduisons les rsidus Xp .
3. Le graphique de la rgression partielle pour Xp est le nuage de points (Xp , Y ) c.--d. avec Xp en
abcisse et Y en ordonne. 4. Le coecient de corrlation linaire calcul sur les rsidus (Xp , Y ) nous fournit le coecient de corrlation partielle entre Y et Xp . Cette approche est trs pratique pour calculer les corrlations partielles d'ordre suprieur 1 (section 3.4.3).
14. http://www.itl.nist.gov/div898/software/dataplot/refman1/auxillar/partregr.htm ; et, ouh l il y a du copier-coller dans l'air, http://en.wikipedia.org/wiki/Partial_regression_plot
Page: 74 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
75
Y = d Xj + e + r
Et en tirer les rsidus r . Le graphique des rsidus r cumule des proprits trs intressantes # :
1. Nous constatons que e = 0, c'est tout fait normal puisque les variables intervenant dans la rgression sont centres c.--d. Y = X = 0.
p
2. Nous constatons surtout que d = ap . Nous retrouvons le coecient du modle complet incluant Xp .
3. Le rsidu r est identique au rsidu du modle complet c.--d. i,r = i , i = 1, . . . , n. 4. Les observations inuentes sont facilement identiables dans ce graphique. 5. Nous pouvons galement dtecter rapidement les autres situations pathologiques (ex. htroscdasticit, groupes d'observations atypiques, non linarit...). Dans le cadre de l'valuation inuence de la variable Xp dans la rgression, nous pouvons lire le graphique sous l'angle suivant (Cornillon et Matzner-Lober $ , page 96) : 1. Si le nuage de points ne prsente pas de "forme particulire", s'il est globalement horizontal (de pente nulle), la variable Xp n'apporte pas d'information supplmentaire pertinente par rapport aux variables dj prsentes. 2. Si les points forment une droite de pente non nulle, Xp inue linairement dans la rgression. 3. S'ils forment une courbe non linaire, il est judicieux de remplacer Xp par une de ses transformes (ex. en appliquant le logarithme, en passant au carr, etc.). Cette dernire ide n'est pas sans rappeler la notion de "rsidus partiels" dveloppe par ailleurs (section 6.2.2). Mais, la dirence de celle-ci, qui est un outil ddi la dtection de la forme de liaison la plus approprie entre Xp et Y en prsence des (p 1) autres explicatives, le nuage de points des rgressions partielles, notamment parce que les valeurs de Xp n'apparaissent pas explicitement dans le graphique, ne donne pas d'indications sur la fonction utiliser pour transformer Xp et linariser la
Pour le traitement de la non-linarit, il est prfrable de passer par les rsidus partiels.
relation.
76
Fig. 3.9.
conso = 0.00121 puissance + 0.0000 Eectivement, la constante de la rgression est nulle. Quant la pente d = 0.00121, conformment au
graphique, elle est trs proche de 0, conrmant l'ide d'une faible inuence additionnelle de puissance dans la rgression. Le coecient de dtermination est R2 = 0.00035. Nous formons les rsidus r (RES.R).
Page: 76 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
77
4. Voyons maintenant ce qu'il en est de la rgression incluant toutes les explicatives, nous avons
conso = 0.00449 poids + 0.00126 cylindree + 0.00121 puissance + 1.41143 a) Premier rsultat qui saute aux yeux, nous constatons bien l'galit entre les coecients ap = d = 0.00121.
b) Autre rsultat important, en calculant les rsidus (RES) de cette rgression, nous retrouvons exactement les valeurs de r (RES.R). 5. Enn, dernire information importante, en calculant la corrlation entre Y et puissance , nous retom bons eectivement sur la corrlation partielle obtenues par ailleurs (Tableau 3.3), soit
Fig. 3.10.
directement la valeur de vj sur la diagonale de l'inverse de la matrice des corrlations C 1 . Dans cette section, nous approfondissons cette ide. Nous montrons qu'il est possible de reconstituer les rsultats des rgressions croises partir de la matrice C 1 .
Page: 77 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
78
Notons vkj les lments de la matrice C 1 , qui est de dimension (p p) ; vjj = vj est le VIF de la variable Xj lue sur la diagonale de C 1 . Nous nous intressons la rgression
1 vl
(3.13)
Fl =
(3.14)
Sous H0 , tous les coecients de la rgression sont nuls (hormis la constante), Fl suit une loi de Fisher (p 1, n p) degrs de libert.
de qualit de l'ajustement, est aussi dduite du VIF. Elle est corrige par la variance de la variable :
j = 2
(n 1)
s2 xl vl
n (p 1) 1
(n 1)
s2 xl vl
np
(3.15)
s2 l = x
1 (xil xl )2 n 1 i=1
n
Coecients standardiss de la rgression. Dans un premier temps, nous produisons les coecients standardiss de la rgression. Contrairement aux coecients usuels, ils permettent la comparaison de l'impact des variables indpendantes sur la variable dpendante en les ramenant sur une chelle commune. Leur obtention est immdiate partir de la matrice C 1
vkl kl = vl
(3.16)
Coecients de la rgression.
sx akl = kl l , k = 0 sxk
Page: 78 job: la_regression_dans_la_pratique macro: svmono.cls
(3.17)
date/time: 9-Jul-2011/7:43
79
a0l = xl
k=l
akl xk
(3.18)
Corrlations partielles.
partielles entre les variables, prises deux deux, partir de la matrice C 1 . Pour mesurer la liaison entre les variables Xk et Xj en contrlant l'inuence des autres, nous calculons
(3.19)
L'objectif est de mesurer la "vritable" relation entre les variables, en dehors de toute inuence. Un dcalage ventuel (forte rduction en valeur absolue) entre les valeurs de rxk ,xj et rxk ,xj /X{xk ,xj } est rvlateur du caractre articiel de la relation mesure l'aide de la corrlation brute que l'on peut lire dans la matrice C .
C (Figure 3.1 - l'ordre des variables est PRIX, CYLINDREE, PUISSANCE, POIDS) 1 0.92 0.93 0.95
C 1
19.79 1.45 7.51 11.09 1.45 12.87 9.80 1.36 = 7.51 9.80 14.89 2.86 2.86 1.36 2.86 10.23
80
1 1 =1 = 0.9495 vj 19.79
Le coecient de dtermination est trs lev, la variable PRIX est fortement corrle avec une combinaison linaire des autres variables. On peut vrier la signicativit globale de la rgression en utilisant le test F, avec
F1 =
Sachant que la variance de PRIX est gal s2 = 158812189.1, nous calculons l'cart-type de l'erreur prix de la rgression
1 =
(n 1)
s2 x1 v1
np
Pour obtenir les coecients standardiss de la rgression de PRIX, nous nous intressons la 1ere colonne de la matrice C 1 , nous calculons
v21 1.45 21 = = = 0.0734 v11 19.79 v31 7.51 31 = = = 0.3796 v11 19.79 v41 11.09 41 = = = 0.5601 v11 19.79
Nous les "d-standardisons" en utilisant les carts-type estims s1 = 12602.07, s2 = 634.42, s3 = 32.79 et s4 = 314.21 ; soit :
A l'aide des moyennes des variables xj , nous pouvons produire la constante de la rgression a01 = x1 ak1 xk
k=1
http://tutoriels-data-mining.blogspot.com/2011/07/tanagra-version-1440.html.
Page: 80 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
81
Fig. 3.11.
par exemple que la relation entre prix et cylindre (rprix,cylindree = 0.92 - lue dans la matrice C ) est en ralit inuence par puissance et poids (rprix,cylindree/puissance,poids = 0.091) (Figure 3.12). En eet, partir de la matrice C 1 ,
Fig. 3.12.
Vrication avec la rgression explicite. A titre de vrication, nous avons calcul explicitement
sur les donnes le modle PRIX = f(CYLINDREE, PUISSANCE, POIDS) l'aide du logiciel TANAGRA (Figure 3.13). Nous constatons que les rsultats concordent en tous points (R2 , F , , aj ) avec les valeurs issues du post-traitement de la matrice C 1 (Figure 3.11).
Page: 81
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
82
Fig. 3.13.
3.7 Conclusion
La colinarit devient un problme ds lors que l'on veut lire et interprter les rsultats de la rgression. La slection de variables compte parmi les solutions possibles. Nanmoins, il ne faut surtout pas prendre au pied de la lettre les sous-ensembles de variables fournis par les algorithmes de slection. tudier de prs les rsultats intermdiaires en compagnie d'un expert du domaine (ex. un mdecin, un conomiste, etc.) est indispensable pour bien apprhender les interdpendances en jeu et reprer les alas qui peuvent altrer les rsultats.
Page: 82
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
La rgression telle que nous l'tudions met en relation des variables exclusivement continues. Si on veut introduire des variables qualitatives nominales, la stratgie consistant procder au simple recodage des variables incrimines, le codage 0/1 dit codage disjonctif complet est certainement la plus connue. Mais il faut vrier la validit des hypothses probabilistes et structurelles lies la technique des MCO. Il faut galement savoir interprter les rsultats. Si c'est l'endogne qui est qualitative, on parle de rgression logistique. Les hypothses lies aux erreurs de la MCO ne sont plus respectes. Nous entrons dans un cadre qui dpasse largement notre propos, nous ne l'aborderons pas dans ce chapitre. Pour les lecteurs intresss par le sujet, je conseille la lecture du document accessible en ligne "Pratique de la Rgression Logistique - Rgression Logistique Binaire et Polytomique" (http://eric.univ-lyon2.fr/~ricco/publications.html). Si ce sont les exognes qui sont qualitatives, nous pouvons procder au codage, mais encore faut-il : 1. dnir le type de codage utiliser ; 2. donner un sens aux rsultats et tester les coecients fournis par la rgression. Le cas des exognes qualitatives nous fait mettre un pied dans le vaste domaine de la comparaison de populations. La technique paramtrique privilgie dans ce cadre est l'analyse de variance (ANOVA). Nous prsentons trs brivement un cas particulier de cette technique .
http://spiral.univ-lyon1.fr/mathsv/cours/pdf/stat/Chapitre9.pdf. Le chapitre 9 fait partie d'un document plus gnral "Probabilit et Statistique", http://spiral.univ-lyon1.fr/mathsv/
Page: 83 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
84
Fig. 4.1.
On veut rpondre la question suivante : le loyer au m2 est-il signicativement dirent d'une zone l'autre ?
Y selon le groupe d'appartenance (Figure 4.2). Plus les boxplot seront dcals, plus forte sera la direnciation. Autre information trs importante que nous communique ce graphique, nous pouvons nous faire une ide de la dispersion des valeurs dans chaque groupe. Nous verrons plus loin la porte de cette information.
Remarque 20 (Facteurs xes et facteurs alatoires). On parle de facteurs xes lorsque tous les groupes
sont reprsents dans le chier de donnes, de facteurs alatoires lorsque seulement un chantillon des groupes sont prsents. Dans le cas de l'ANOVA 1 facteur, cette distinction n'a aucune consquence sur les calculs.
Page: 84 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
85
Fig. 4.2.
Statistique du test
On passe par l'quation de dcomposition de la variance pour construire la statistique du test. Elle s'crit
K nk k=1 i=1
o yi,k reprsente la valeur de Y pour l'individu i du groupe k ; y est la moyenne globale de Y , yk est la moyenne conditionnelle, la moyenne de Y dans le groupe k . Cette dcomposition se lit comme suit : SCT est la somme des carrs des carts totaux, elle indique la variabilit totale de Y ; SCE est la somme des carrs des carts inter-groupes, expliqus par l'appartenance aux groupes ; SCR est la somme des carrs des carts intra-groupes, rsiduels l'intrieur des groupes. La somme SCT est constante. Par consquent, une valeur de SCE leve indique que l'appartenance aux groupes dtermine la valeur de la variable d'intrt. Nous construisons le tableau d'analyse de variance partir de ces informations Sources de variation Degrs de libert (ddl) Somme des carrs (SC) Carrs moyens (CM) Expliqus (inter) Rsiduels (intra) Totaux Sous H0 , la statistique F =
Page: 85
CM E CM R
K 1 nK n1
CM E = CM R =
-
SCE K1 SCR nK
job: la_regression_dans_la_pratique
86
R.C. : F > F1 (K 1, n K)
o F1 (K 1, n K) est le quantile d'ordre (1 ) de la loi de Fisher.
Conditions d'applications
L'ANOVA 1 facteur est un test paramtrique, elle est assortie d'un certain nombre de conditions pour tre rellement oprationnelle : les observations doivent tre indpendantes, notamment les K chantillons compars doivent tre indpendants ; la variable d'intrt doit suivre une loi normale ; la variance de Y dans les groupes doit tre homogne (homoscdasticit). Notons 2 points importants : l'ANOVA 1 facteur est assez robuste ; ces conditions, et c'est ce qui nous intresse ici, ne sont pas sans rappeler certaines hypothses de la rgression linaire multiple. Nous y reviendrons plus loin.
= 29.44458 ;
6. Obtenir enn la p-value l'aide de la loi de Fisher (2, 12) degrs de libert, p value = 0.00002. Au risque de 5%, l'hypothse d'galit des moyennes peut tre rejete : le lieu d'habitation a une inuence sur le montant du loyer.
Remarque 21 (Analyse des contrastes). On complte gnralement l'ANOVA avec l'analyse des contrastes.
Elle vise dterminer quelle est la moyenne qui dire le plus des autres, ou encore quelles sont les couples (triplets, etc.) de moyennes qui s'opposent le plus. Nous garderons l'esprit cette ide car elle nous aidera mieux comprendre les rsultats de la rgression applique aux exognes qualitatives.
87
Fig. 4.3.
yi,k = + k + i,k
o k est l'eet du facteur k , i,k N (0, ). Il s'agit, ni plus ni moins, d'une droite de rgression que l'on peut rsoudre avec la MCO. Il sut de coder convenablement la variable exogne qualitative. L'hypothse nulle de l'ANOVA devient
H0 : 1 = 2 = = K = 0
qui s'apparente au test de signicativit globale d'une rgression linaire multiple. Il nous faut donc dnir une transformation approprie de la variable exogne qualitative pour que la rgression puisse rsoudre un problme d'ANOVA. Le codage est d'autant plus important qu'il conditionne l'interprtation des coecients de l'quation de rgression. C'est ce que nous allons voir maintenant.
indicatrice
variable
1 si X = k i = 0 sinon
Sur l'exemple LOYER, cela nous emmnerait produire un nouveau tableau de donnes (Figure 4.4), et nous dnirions naturellement la rgression de la manire suivante
Page: 87
88
Fig. 4.4.
habitation
Pourtant, eectuer cette rgression provoquerait immdiatement une erreur en raison d'un problme agrant de colinarit. En eet, pour tout individu i
Fig. 4.5.
Nous lanons les MCO pour obtenir les coecients (Figure 4.5).
Page: 88
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
89
Lecture de coecients
Penchons nous sur les coecients. Nous ne sommes pas sans noter une certaine similitude avec les valeurs des moyennes conditionnelles prsentes dans le tableau de l'ANOVA 1 facteur (Figure 4.3). Nous observons que a1 = ybanlieue , a2 = ycampagne et a3 = ycentre .
Remarque 22 (Moyenne conditionnelle). Pour rappel, nous pouvons dnir la moyenne conditionnelle yk
de la manire suivante, selon qu'on utilise ou non la variable recode
yk = =
1 nk
i:zi,k =1
yi
1 yi nk
i:xi =k
Dans la rgression sans constante mettant en jeu des exognes codes 0/1 partir d'une variable qualitative, les coecients s'interprtent comme des moyennes conditionnelles de la variable endogne.
Dcomposition de la variance
La dcomposition de la variance en revanche est incorrecte. Si la SCR = 2.54324 est calcule correctement par DROITEREG, la SCE = 722.49676 est fausse (cf. celle fournie par l'ANOVA un facteur, gure 4.3, o SCE = 12.48076). Tout simplement parce que dans la rgression sans constante, l'quation d'analyse de variance dcomposant la variabilit totale en variabilit explique et rsiduelle n'est plus
Nous ne pouvons donc pas dduire des rsultats de la rgression (sans constante) la solution du test de comparaison des K moyennes conditionnelles.
licite.
(K1) variables binaires 0/1. Reste savoir comment introduire dans ces nouvelles variables l'information
sur la dernire modalit. Ce point est loin d'tre anodin, il dnit le mode de lecture des coecients de la rgression lorsqu'on introduit les variables exognes recodes dans l'analyse.
Page: 89
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
90
Remarque 23 (Choix de la modalit de rfrence). Le choix de la modalit de rfrence K est trs important. Il faut qu'elle soit bien circonscrite pour que les interprtations subsquentes aient une certaine consistance. Par exemple, prendre la modalit "autres" comme rfrence n'est pas une bonne ide parce qu'on ne sait pas trs bien souvent ce qu'elle recouvre. De fait, la direnciation avec les autres groupes est mal dnie. Prenons le cas des symptmes grippaux, il y a 4 cas possibles : pas de symptmes, toux grasse, toux sche, autres symptmes. Pour l'interprtation, il semble judicieux de prendre comme rfrence l'absence de symptmes. En ce qui concerne les eectifs, il est souhaitable que le groupe de rfrence comporte susamment d'observations pour que l'estimation de la moyenne conditionnelle associe soit prcise.
91
Cela nous emmne tirer plusieurs conclusions : 1. Les coecients de la rgression s'interprtent comme une moyenne conditionnelle de l'endogne (la constante) ou comme des carts cette moyenne (les autres coecients). 2. On parle de cornered eect car la constante reprsente la moyenne conditionnelle de l'endogne pour les observations portant la modalit exclue. Elle nous sert de moyenne de rfrence. 3. Du coup, le test de signicativit globale de la rgression correspond
Fig. 4.6.
Nous eectuons la rgression sur notre chier de donnes cod selon la technique "cornered eect" (Figure 4.6). Il y a bien p = 2 variables exognes. Nous obtenons les rsultats de l'quation de rgression (Equation 4.1), nous en dduisons les moyennes conditionnelles : a0 = ycentre = 7.69 ;
92
Pour tester la signicativit globale de la rgression, nous exploitons toujours les sorties du tableur EXCEL : Indicateur Valeur
12.48076 2.54324 2 12
12.48076/2 2.54324/12
= 29.44458
0.00002
Ces rsultats - la dcomposition de la variance (SCT = SCE + SCR) et les degrs de libert - correspondent exactement ceux de l'ANOVA 1 facteur (Figure 4.3). Les deux approches sont totalement quivalentes.
taj =
aj aj
(4.2)
Elle suit une loi de Student ddl = (n p 1) degrs de libert sous H0 . N'oublions pas que dans notre conguration, p = K 1, ainsi ddl = n K . Le test est bilatral.
93
abanlieue = 0.9657 abanlieue = 0.2696 0.97 = 3.5825 tabanlieue = 0.27 ddl = 15 3 = 12 p value = 0.0038
Au risque = 5%, nous rejetons l'hypothse nulle. Le loyer moyen en banlieue est dirent de celui du centre-ville.
D = yj yK
Nous constatons immdiatement que D = aj . La dirence se joue sur l'estimation de la variance. En eet,
( D 2 =s
2
1 1 + nj nK
Avec
s2 =
Si l'estimation de l'cart est la mme (j = D), il n'y aucune raison en revanche que les estimations a des variances concident. Les degrs de libert sont dirents. Numriquement, les rgions critiques ne seront pas identiques. Notons un lment trs important, les autres groupes n'interviennent pas dans cette criture de la
comparaison directe. Alors que dans la rgression, ils psent dans le calcul de la variance de la statistique
de test et dans la dnition des degrs de libert.
Page: 93
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
94
Fig. 4.7.
s2 k
yk
2. Nous en dduisons D = 6.7200 7.6857 = 0.9657, ce qui correspond exactement au coecient de l'indicatrice "banlieue" obtenue dans la rgression. 3. Concernant la variance de D, nous calculons successivement
s2 = 2 D
4. Nous formons le rapport
(5 1) 0.1220 + (7 1) 0.3014 = 0.2297 5+72 ( ) 1 1 = 0.2297 + = 0.0787 5 7 D 0.9657 0.9657 = = = 3.4415 D 0.2806 0.0787
tD =
5. Avec un loi T (5 + 7 2) T (10), nous avons une probabilit critique de 0.0063. 6. Au risque 5%, tout comme avec la rgression, nous rejetons l'hypothse d'galit des moyennes. Les conclusions sont identiques, certes. Mais que cela ne masque pas les disparits au niveau de la variance de la statistique de test et des degrs de libert.
95
En revanche, nous utilisons une autre estimation de la variance commune, la variance intra-classes vue dans l'ANOVA (section 4.1), c.--d.
SCR s = = nK
2
k=1 (nk
1) s2 k nK
est la somme des carrs des carts la moyenne intra-groupes. Elle correspond galement la somme des carrs rsiduels de la rgression. Les degrs de libert deviennent
SCR (n K) dans ce contexte.
La variance de la statistique de test est obtenu avec ( ) 1 1 D = s2 2 + nj nK Et au nal, nous avons
D tD = D
0.9657. Pour la variance intra-classes, nous reprenons les rsultats de l'ANOVA (Figure 4.3), s2 =
Puis, nous calculons
( D = s2 2
1 1 + nj nK
Enn,
Exactement la mme valeur que la statistique tabanlieue , le degrs de libert tant galement identiques. Le test issu de la rgression et le test de comparaison directe des moyennes sont dont quivalents si, et seulement si, nous prenons la variance empirique intra-classes intgrant tous les groupes pour estimer
2 la variance Y de Y dans la seconde procdure ! .
96
H : = 0 l j H1 : l = j
al = l K aj = j K
On montre trs facilement que le test de comparaison de moyennes est quivalent au test de comparaison de coecients
H : a = a 0 l j H1 : al = aj
E = al aj
(4.3)
Jusque l, c'est plutt facile. La vraie gageure est de calculer correctement la variance de E . Elle est dnie comme suit
2 V (E) = E = V (l ) + V (j ) 2 COV (l , aj ) a a a
(4.4)
Nous introduisons une nouvelle notion : la covariance entre les coecients estims. En eet, puisque les variables (les indicatrices) ne sont pas indpendantes, la covariance entre les coecients n'est pas nulle. Elle est lue dans la matrice de variance covariance des coecients qui est estime avec
1 2 a = (Z Z)
O est l'estimation de la variance de l'erreur ; Z est la matrice des indicatrices avec, la premire 2 colonne, le vecteur des valeurs 1 pour matrialiser la constante ([18], section 9.6.2). Rappelons que l'on retrouve sur la diagonale principale de la matrice a les variances estimes des coecients. Sous H0 ,
tE =
E E
suit une loi de Student (n K) degrs de libert. Le test est bilatral. La rgion critique correspond aux valeurs extrmes de tE .
Remarque 24 (Test de contraintes linaire sur les coecients). La comparaison des coecients de la
rgression peut s'inscrire dans un cadre plus gnral, les tests de contraintes linaires. Nous dcrivons en dtail l'approche dans notre premier support ([18], section 11.3). Ainsi, nous pouvons comparer plusieurs ( 2) moyennes, ou encore tester des formes linaires plus gnrales (ex. 1 = 2 2 + 7 3 , etc.). Notre champ d'investigation est considrablement largi.
Page: 96
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
97
Fig. 4.8.
0.03028 0.10092
Nous piochons dans cette matrice les valeurs ncessaires l'estimation de la variance de E ,
98
1.45333 1.45333 = = 4.32278 tE = 0.33620 0.11303 Avec la loi T (12), nous avons la probabilit critique p value = 0.00099.
Au risque 5%, nous rejetons l'hypothse nulle d'galit des loyers moyens en banlieue et la campagne.
Encore une fois, nous constatons que le test bas sur les rsultats de la rgression et celui bas sur une comparaison directe des moyennes, pour peu que l'on utilise l'estimation s2 de la variance de Y , sont totalement quivalentes.
Noise du serveur DASL " . Il s'agit d'expliquer le niveau de pollution sonore de vhicules (NOISE, en
dcibels) partir de la taille (SIZE, 3 valeurs possibles) et du type de silencieux (TYPE, 2 valeurs). Nous avons choisi d'ignorer la variable SIDE prsente dans la base, elle indiquait le ct du vhicule partir duquel la mesure a t eectue.
4. http://lib.stat.cmu.edu/DASL/Datafiles/airpullutionfiltersdat.html
Page: 98 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
99
Fig. 4.9.
Premire tape pour xer les ides, nous calculons les moyennes de la variable d'intrt conditionnellement aux valeurs de SIZE et TYPE (Figure 4.9). Dans ce qui suit, nous noterons kl les esprances conditionnelles et ykl les moyennes empiriques ; k. (resp. .l ) est la moyenne de Y conditionnellement aux seules valeurs de la premire explicative (resp. la seconde explicative) ; .. = est la moyenne globale de Y . Dans notre exemple, nous lisons : Moyennes S1 S2 S3 SIZE T1 T2 TYPE
y11 = 825.8333 y12 = 822.5000 y21 = 845.8333 y22 = 821.6667 y31 = 775.0000 y32 = 770.0000
Par exemple, la moyenne du bruit chez les voitures (SIZE = S1), quel que soit le type de silencieux utilis, est y1. = 824.1667 ; elle est de y21 = 845.8333 chez les vhicules (SIZE = S2) etc.
Page: 99 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
et (TYPE = T1) ;
100
Manifestement, il y a des dirences entre les moyennes conditionnelles. Notre objectif consiste valuer jusqu' quel point et selon que processus ces carts sont signicatifs. Les connaisseurs auront reconnu un problme d'analyse de variance (ANOVA) 2 facteurs. Nous avons donc un double objectif en ralisant les rgressions sur indicatrices : 1. Voir dans quelle mesure la rgression peut rpondre la problmatique de l'analyse de variance c.--d. valuer l'impact des exognes sur la variable d'intrt Y , en faisant la part entre chaque explicative. Mieux mme, est-ce qu'il est possible de retrouver les rsultats numriques de l'ANOVA ? 2. Montrer de quelle manire et quelles conditions nous pouvons retrouver le tableau des moyennes conditionnelles ci-dessus partir des coecients de la rgression.
Fig. 4.10.
sans
N OISE = a1 T 2 + a2 S3 + a3 S2 + a0
L'opration n'est pas anodine. En introduisant les indicatrices de cette manire, nous considrons que les variables n'interagissent pas dans la dnition de NOISE. DROITEREG nous fournit tous les lments ncessaires l'analyse (Figure 4.11) :
Page: 100 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
101
Fig. 4.11.
Donnes NOISE - Rgression sur indicatrices, sans prise en compte des interactions
La rgression est de bonne qualit avec R2 = 0.90739, elle est globalement signicative avec un
Page: 101
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
102
ta1 =
Avec un loi de Student 32 degrs de libert, nous avons une probabilit critique de 0.001411. O est l'analogie avec l'analyse de variance sans interaction ? On sait que qu'il y a une relation directe entre la loi de Student et la loi de Fisher, T (ddl) F(1, ddl). Dans notre exemple, on constate aisment que
F =
(4.5)
Page: 102
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
103
2 Pour les donnes NOISE, nous disposons dj de R1 = 0.90739 via la rgression sur toutes les indica-
trices (Figure 4.11). Reste raliser la rgression sans les indicatrices de SIZE (Figure 4.12), nous avons
2 R0 = 0.03536. Nous formons la statistique destine valuer la signicativit de SIZE : 2 2 (R1 R0 )/q (0.90739 0.03536)/2 2 )/(n p 1) = (1 0.90739)/(36 3 1) = 150.659 (1 R1
Fsize =
Fig. 4.12.
Au risque 5%, en contrlant l'eet de TYPE, on conclut que la taille (SIZE) des vhicules inue sur le niveau sonore puisque la p-value est (largement) infrieure au seuil. Nous retrouvons exactement les valeurs (F, degrs de libert, p-value) fournies par l'ANOVA sans interaction (Figure 4.10).
825.8333 822.5000 = 3.3333, y21 y22 = 845.8333 821.6667 = 24.1667 et y31 y32 = 775.0000
L'hypothse sous-jacente est que TYPE (resp. SIZE) pse de la mme manire sur NOISE, quelle que soit la valeur de SIZE (resp. TYPE). Ce qui n'est pas tout fait vrai si l'on se rfre au tableau des
770.0000 = 5.0000), on aboutit un indicateur d'cart "moyen" qui devient signicatif.
Page: 103 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
104
moyennes conditionnelles. Nous constatons que cette hypothse simplicatrice n'est pas sans rpercussions sur la lecture des coecients.
(kl ) partir des rsultats de la rgression (Figure 4.11). Les calculs sont facilits par le fait que nous y
T1
y11 = a0 = 829.58 y21 = a0 + a3 = 839.17 y31 = a0 + a2 = 777.92
829.58+839.17+777.92 3
T2
y12 = a0 + a1 = 818.75 y22 = a0 + a1 + a3 = 828.33 y32 = a0 + a2 + a1 = 767.08
818.75+828.33+767.08 3
Total
y1. = y2. = y3. =
829.58+818.75 2 839.17+828.33 2 777.92+767.08 2
= 815.56 y.2 =
= 804.72
y.. = y = 810.14
Nous rcapitulons les rsultats en confrontant les moyennes calcules et les moyennes reconstitues (Figure 4.13) :
Fig. 4.13.
Une premire information trs importante saute aux yeux : les moyennes marginales sont parfaitement reconstitues, tant pour SIZE (k. = yk. , k) que pour TYPE (.l = y.l , l). y y Il en est de mme en ce que concerne la moyenne globale y.. = y.. = 810.14 Les divergences apparaissent lorsque nous calculons les moyennes conditionnelles. Preuve que nous ne tenons pas compte des interactions dans la rgressions, nous constatons que les carts sont constants entre les deux colonnes T 1 et T 2 (colonne carts) quelle que soit la valeur de SIZE (S1, S2 ou S3) c.--d. (k1 yk2 ) = 10.83, k . y
Page: 104 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
105
Pour SIZE, la dmonstration est un peu plus dicile. Il faut calculer la sommes des carrs des carts (variabilit explique) de SIZE selon les valeurs de TYPE, nous avons SCEl = k 6 (kl y.l )2 = y
13025.69, l.
Ces deux rsultats sont en contradiction avec ceux obtenus via le tableau des moyennes calcules directement partir des donnes, moyennes qui tiennent compte des interactions entre SIZE et TYPE. Les carts ne sont pas constants d'une ligne l'autre, les SCE ne sont pas les mmes d'une colonne l'autre.
nous considrons que l'eet de TYPE (resp. SIZE) sur le bruit peut dpendre de la valeur prise par SIZE (resp. TYPE).
et TYPE cette fois-ci (Figure 4.14). Maintenant, Voyons de quelle manire nous pouvons retrouver ces rsultats l'aide de la rgression.
Fig. 4.14.
avec
N OISE = b1 S3 T 2 + b2 S2 T 2 + b3 T 2 + b4 S3 + b5 S2 + b0
La variable S3 T 2 (resp. S2 T 2) est aussi une indicatrice. Elle prend la valeur 1 si et seulement si les indicatrices S3 et T 2 (resp. S2 et T 2) prennent simultanment la valeur 1. Elle est gale zro dans tous les autres cas. Voyons deux exemples pour bien situer le rle des coecients. Par rapport la rfrence (S1, T 1) avec un niveau de bruit moyen b0 : un vhicule (S3, T 1) prsente un niveau de bruit (b0 + b4 ) ;
Page: 105 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
106
un vhicule (S3, T 2) prsente un niveau de bruit (b0 + b4 + b3 + b1 ). Nous verrons plus loin que notre modle tant satur, c.--d. tous les eets possibles sont pris en compte dans la rgression, il sera possible de reconstituer l'identique le tableau des moyennes conditionnelles partir des coecients du modle.
Fig. 4.15.
Donnes NOISE - Rgression sur indicatrices, avec prise en compte des interactions
Pour l'heure, lanons la fonction DROITEREG pour obtenir les estimations (Figure 4.15) : La rgression est de trs bonne qualit avec un R2 = 0.93431. Elle est globalement signicative 5% avec une p-value < 0.00001. Par rapport l'ANOVA avec interaction (Figure 4.14), nous constatons que la variabilit rsiduelle, non explique par le modle, est la mme : SCR = 1962.50, avec les mmes degrs de libert
107
Fig. 4.16.
Pour tester la pertinence de l'interaction, nous devons tester la signicativit simultane des coecients de (S3 T 2) et (S2 T 2) (Figure 4.16). Nous appliquons une dmarche analogue celle prsente prcdemment pour tester la nullit des coecients de plusieurs indicatrices ( 2) associes une variable qualitative (page 102) : La rgression sur toutes les variables, y compris les (q = 2) termes d'interaction (S3 T 2, S2 T 2),
2 prsente un coecient de dtermination R1 = 0.93431. 2 La rgression sans les termes d'interaction propose un R0 = 0.90739. 2 2 R1 est forcment suprieur R0 puisque que nous avons des variables additionnelles, mais l'est-il
Fsize:type =
Avec une distribution de Fisher F(2, 30), nous obtenons une p-value de 0.0057915. Les termes d'interaction sont justis dans la rgression. Et par la mme occasion, nous constatons que nous avons reproduit l'identique les rsultats de l'ANOVA avec interaction (Figure 4.14). Nous sommes contents.
Premire vrication immdiate, la constante 0 = 825.83 correspond bien la moyenne conditionnelle b de Y pour la combinaison des modalits exclues (S1, T 1). C'est plutt rassurant. Reste reconstituer les
Page: 107 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
108
autres moyennes conditionnelles partir de l'association de ces coecients. Notons la logique d'obtention des moyennes partir des j . b Enn, nous gardons toujours l'esprit que les eectifs sont totalement quilibrs, nkl = 6, k, l ; cela explique les formules simplies utilises pour le calcul des moyennes marginales.
ykl
S1 S2 S3 SIZE y.1 =
T1
y22 y32
TYPE
825.83+822.50 2 845.83+821.67 2 775.00+770.00 2
= 815.56 y.2 =
= 804.72
y.. = y = 810.14
Set" $ accessible sur le serveur UCI Machine Learning Repository. 4.6.1 Interprtation des coecients Rgression avec la variable CARBURANT seule
Automobile Data
Dans un premier temps, nous tentons d'expliquer la consommation uniquement l'aide du carburant utilis. Le modle s'crit
109
Fig. 4.17.
Le modle n'explique que R2 = 42.8% de la variance de l'endogne. Mais il est globalement signicatif 5% avec un F = 22.428 et une p-value de 4.90725 105 . La pente de la droite, qui reprsente l'cart entre les moyennes conditionnelles de consommation des vhicules essence et diesel, est signicative galement (ta1 = 4.73585, avec une p-value de
4.90725 105 ). Ce rsultats n'est pas tonnant. Tester le modle dans sa globalit et tester la
pente sont quivalents dans la rgression simple. Nous pouvons donc dire que les vhicules essence consomment signicativement plus que les diesels. L'cart est estim a1 = 2.49316 litres au 100 km. Pour obtenir les consommations moyennes conditionnelles, nous formons :
110
A cylindre gale, les essences consomment 3.47220 litres au 100km de plus que les gazoles.
est que cet cart reste constant quelle que soit la cylindre des vhicules.
consommation de 0.00296 litres au 100 km. On
L'ide
type de carburant gal, l'augmentation de la cylindre d'1 cm3 entrane une augmentation de la
Ces deux hypothses sous-jacentes la rgression sans interactions introduisent une lecture intressante des coecients. Il permettent d'analyser l'impact de chaque explicative en contrlant l'eet des autres variables. Mais elles en limitent la porte galement. Nous n'explorons pas la conguration selon laquelle l'eet de l'une dpend des valeurs prises par l'autre. C'est prcisment l'objet de l'introduction des termes d'interaction.
valeur de la cylindre. Par exemple, pour les vhicules de 1500 cm3 , l'cart est de (0.000162 0
Page: 110 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
111
Fig. 4.18.
1500 + 0.002872 1500 + 3.10093 0 + 1.95224) (0.000162 1 1500 + 0.002872 1500 + 3.10093 1 + 1.95224) = 3.34452 ; il devient 3.42572 si la cylindre passe 2000 cm3 .
Le coecient de CYLINDREE (2 = 0.002872) correspond l'augmentation de la consommation c conscutive un accroissement de 1 cm3 de la cylindre du moteur pour les vhicules gazole. Si nous souhaitons obtenir la mme information pour les vhicules essence, il faut former c2 + c1 =
tc1 = 0.38516 et une p-value de 0.70303. Les donnes ne contredisent pas l'hypothse (H0 : c1 = 0),
on peut considrer que le surcrot de consommation conscutif une augmentation de cylindre est le mme chez les gazoles et les essences. Nous pouvons nous contenter de la rgression sans interaction dans l'explication de la consommation partir du type de carburant et de la cylindre.
Page: 111
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
112
Remarque 25 (Explicative qualitative plus de 2 modalits). Dans le cas o l'explicative qualitative est
exprime par plusieurs indicatrices, il faudrait tester la nullit simultane des coecients associs tous les termes d'interactions.
Fig. 4.19.
Nous avons autant de rgressions que de modalits de l'explicative qualitative. Ici, nous avons 2 modles, l'un pour les vhicules fonctionnant au
Par rapport aux coecients cj de la rgression avec prise en compte des interactions (Figure 4.18),
voyons les relations :
Page: 112
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
113
1. La constante de Mgazole concide avec la constante de la rgression, soit gazole = c0 = 1.952237. b Son interprtation est purement thorique, elle correspondrait la consommation des vhicules gazole de cylindre nulle. 2. La pente de Mgazole est identique au coecient de CYLINDREE agazole = c2 = 0.002872. Le mcanisme est relativement simple, lorsque CARBURANT = GAZOLE, CARBURANT vaut
Fig. 4.20.
Rgressions spares avec contrainte d'galit des pentes - Non prise en compte de l'interaction
5. Le terme d'interaction permet de situer la concomitance entre les pentes. Si le coecient as-
dans la rgression sans terme d'interaction, nous les obligeons explicitement tre parallles. Les rgressions ssoci est nul, l'cart entre les droites serait stable. De fait, pares seraient contraintes par cette exigence (Figure 4.20 ; les coecients sont comparer avec ceux de la rgression sans interaction CON SO = 0.00296 CY LIN DREE + 3.47220
Page: 113
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
114
Fig. 4.21.
La premire approche consiste traiter en bloc les indicatrices relatives une exogne tout simplement parce que nous sommes dans un schma de slection de variables. On cherche identier celles qui sont pertinentes pour expliquer l'endogne. Dissocier les indicatrices d'une exogne qualitative ne parat pas judicieux car l'interprtation des coecients qui en dcoulerait devient hasardeux (apparemment, c'est justement sur cet aspect que nous reviendront dans la section suivante). Prenons un schma backward pour xer les ides (section 3.2.2). Pour rappel, il s'agit d'une procdure de retrait pas--pas des variables jusqu' ce qu'elles soient toutes signicatives un risque qui constitue le paramtre de l'algorithme. A chaque tape, on retire la variable la moins signicative c.--d. dont la p-value est la plus leve, et suprieure bien videmment, puis on relance la rgression.
Page: 114 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
115
Pour les variables quantitatives, la dcision est base sur le t de Student du test de signicativit ([18], section 10.3). Pour les variables qualitatives, on se base sur le F de Fisher de nullit simultane des coecients associes aux indicatrices ([18], section 10.4). Nous utilisons le chier "CARDIO" pour illustrer la procdure (Figure 4.21, n = 35 observations). On souhaite expliquer le risque de maladie cardio-vasculaire. Il s'agit d'une note comprise entre 0 et 5 attribue par des experts la suite de la lecture du dossier mdical de patients, plus la note est leve, plus le risque de maladie est lev. Les variables explicatives candidates sont : le sexe, code 0 (femme) / 1 (homme) ; l'indice de masse corporelle (IMC, voir http://fr.wikipedia.org/wiki/Indice_de_masse_
corporelle) ; le comportement par rapport au tabac (FUMER), avec 4 valeurs possibles ("jamais",
"ancien", "occasionnel", "rgulier"). Cette dernire a t recode en 3 indicatrices, la modalit "jamais" servant de rfrence. Nous ralisons tous les tests = 10% dans tout ce qui suit.
Fig. 4.22.
Donnes CARDIO - Rgression avec SEXE, IMC, et toutes les indicatrices de FUMER
La rgression avec la totalit des variables fournit une rgression qui n'est pas globalement signicative (F = 1.4502, p-value = 0.236412) et un R2 = 0.200021. Du ct des explicatives, l'IMC et l'indicatrice (FUMER = REGULIER) sont signicatives (Figure 4.22). Ce dernier rsultat n'a pas trop de sens pour nous puisque nous voulons traiter la variable FUMER comme un tout. Nous calculons donc le F-partiel et la p-value associe pour chaque exogne. Pour les variables individuelles (quantitatives ou binaires), il s'agit tout simplement du carr du t de Student. Pour FUMER, il s'agit de confronter le coecient de dtermination de la rgression comprenant toutes les variables avec celui de la rgression avec les seules variables IMC et SEXE (Figure 4.23, R2 = 0.075983).
Page: 115 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
116
Fig. 4.23.
FUMER F =
= 1.498832 3
Ce sont les rsultats que l'on obtiendrait avec la PROC GLM de SAS par exemple (Figure 4.24). La variable la moins intressante est SEXE, elle n'est pas signicative 10%. Nous la retirons. Nous relanons la rgression avec IMC et toutes les indicatrices de FUMER (Figure 4.25). Nous obtenons
R2 = 0.186395. De nouveau, il nous faut calculer les F-partiels. Pour cela nous avons besoin de la
rgression avec IMC seule (Figure 4.26, R2 = 0.063405). Variable IMC FUMER F = F
F = (1.837727) = 3.377241
(0.1863950.063405)/3 (10.186395)/30
29 0.076025 29 0.231622
= 1.511667 3
La variable la moins intressante est FUMER, que nous retirons puisque la p-value est plus grande que 10%. Reste donc que la variable IMC qui est limine aussi nalement puisque, seule, elle n'est pas signicative au risque = 10% (Figure 4.26). Finalement, il n'est pas possible d'expliquer le risque cardio-vasculaire avec les variables initialement disponibles.
Page: 116
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
117
Fig. 4.24.
Fig. 4.25.
118
Fig. 4.26.
attentivement les sorties du logiciel, on se rend compte que l'on obtient des rsultats qui ne sont pas inintressants. Nous avons utilis la procdure BACKWARD ELIMINATION REG de TANAGRA, toujours avec un seuil = 10%. Dtaillons les informations fournies par le logiciel (Figure 4.27) : Nous avons un R2 = 0.184447 et, surtout, le R2 ajust qui tient compte des degrs de libert, atteint ici sa valeur la plus leve avec R2 = 0.133475. Nous avons l le modle le plus avantageux - compte tenu du nombre d'explicatives utilises - parmi toutes les tentatives eectues jusqu' prsent. Le modle est maintenant globalement signicatif 10% avec F = 3.6186 et une p-value de
0.0038303.
Penchons-nous sur le processus de slection Backward Elimination Process. Initialement le coecient de dtermination ajust de la rgression avec la totalit des explicatives est de R2 = 0.062. 1. La premire variable limine a t l'indicatrice F _OCCAS , avec une p-value de 0.8856. Le R2 ajust de la rgression qui en rsulte est de R2 = 0.093.
2. La seconde est F _AN CIEN , R2 passe 0.118. 3. La troisime est SEXE, R2 passe 0.133.
4. Les deux variables restantes, IMC (p-value = 0.0619) et F _REGU LIER (p-value = 0.0368) sont signicatives 10%. Le processus est stopp. Les caractristiques de la rgression avec les deux variables retenues sont aches dans la partie haute de la fentre (Figure 4.27).
Comment expliquer ce rsultat ? En s'accordant la possibilit de traiter individuellement les indicatrices, on s'ore une libert supplmentaire dans le processus exploratoire. La contrainte de traitement
Page: 118 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
119
Fig. 4.27.
en bloc des indicatrices de variables qualitatives ne pse plus. Nous avons accs des combinaisons plus nes des variables explicatives. Clairement, la solution propose ici est introuvable si nous traitons les indicatrices de FUMER en bloc. Par ailleurs, je me suis rendu compte qu' la sortie, nous obtenons souvent des modles plus performants en prdiction (si on se base sur le critre du PRESS par exemple, section 3.2.1).
prtation ? Est-ce que les rsultats ont un sens ? Le noeud du problme est ici. La lecture du coecient de IMC, explicative quantitative, n'est pas modie. Quand l'IMC augmente d'une unit, le risque est augment de 0.077550. Concernant le comportement tabagique, les modalits de rfrence deviennent maintenant ("jamais", "ancien" et "occasionnel"). Les
Page: 119
job: la_regression_dans_la_pratique
120
de rfrence. C'est lorsque l'on est un fumeur rgulier qu'il y a un surcrot de risque de maladie. Ici,
nous lisons : fumer rgulirement, par rapport aux 3 autres types comportements (qui sont mis dans le mme panier), entrane un risque de maladie accru de 0.883481.
Quelques commentaires.
n'est pas trs usuel. Les praticiens, essentiellement pour des questions d'interprtations, prfrent le traitement en bloc. Pourtant, nous le constatons sur notre exemple, en se donnant la possibilit de traiter individuellement les indicatrices, nous avons accs des solutions (des modles) plus performantes. La seule contrainte est qu'il nous faut reconsidrer les modalits de rfrences pour les variables catgorielles dont les indicatrices auraient t dissocies. L'interprtation est modie. Elle est peut tre aussi un peu plus subtile.
grosso modo la technique des intervalles de largeur gales. Elle a pour mrite de ne pas
modier la distribution des donnes ; elle a pour inconvnient d'tre trs sensible aux points atypiques, certains intervalles peuvent tre vides. Nos donnes tant trs simples, elle donne entirement satisfaction.
Page: 120 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
121
Fig. 4.28.
Fig. 4.29.
Y = a0 + a2 C2 + a3 C3 +
Auscultons les rsultats (Figure 4.30) : Le coecient de dtermination est R2 = 0.825. La rgression est globalement pertinente avec F = 63.656, comparer avec un F0.95 (2, 27) = 3.35 pour un test 5%.
Page: 121 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
122
Fig. 4.30.
La constante a0 = 17.12 correspond la moyenne de Y dans le premier intervalle, l'intervalle de rfrence. Nous l'appellerons moyenne de rfrence y1 = 17.12. Ce rsultat est tout fait conforme au comportement des rgressions sur variables indicatrices.
Le second coecient a2 = 18.82 indique le dcalage entre la moyenne dans le second intervalle et la
rfrence c.--d. y2 = y1 + a2 = 17.12 + 18.82 = 35.94. L'cart entre les moyennes conditionnelles est signicatif 5% dixit le t de Student du test de signicativit du coecient de la rgression
(ta2 = 10.674).
Le troisime coecient enn matrialise l'cart entre la moyenne dans le 3-me intervalle et la rfrence. Ainsi, y3 = y1 + a3 = 17.12 + 22.26 = 39.38. Ici aussi la dirence est signicative. Reprsentes graphiquement, les relations entre les moyennes conditionnelles et les coecients de la rgression prennent tout leur sens (Figure 4.31). Tout cela est cohrent. Il reste pourtant une information importante qui apparat clairement dans le graphique et que la rgression n'a pas mis en vidence. Visiblement, la dirence entre les moyennes du 2-me et 3-me intervalle semble faible, voire non signicatif ( conrmer par les calculs...). Or dans le
Page: 122
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
123
Fig. 4.31.
cadre du traitement des variables ordinales, ce n'est pas tant l'cart par rapport la premire modalit qui nous intresse, mais plutt l'tude du passage d'un palier (modalit) un autre (le suivant). Comment coder la variable explicative ordinale pour que la rgression fournisse des coecients propices ce type d'analyse ?
Nous introduisons des contraintes supplmentaires dans la construction des indicatrices. Nous notons plusieurs particularits ici : A l'instar du codage usuel, si un individu appartient la modalit de rfrence (la premire), toutes les indicatrices prennent la valeur 0 (D2i = D3i = 0). Si un individu appartient au k-me intervalle (k > 2), l'indicatrice associe prend la valeur 1, et toutes les indicatrices de niveau infrieur galement c.--d. Dki = 1 D2i = = D(k 1)i = 1. Seul le premier intervalle est cod de manire identique dans les deux approches C2i = D2i . Quelles sont les consquences de ce codage dit "cumulatif" sur la rgression ? Nous nous empressons de vrier cela tout de suite. Nous implmentons la rgression
Page: 123 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
124
Fig. 4.32.
Y = b0 + b2 D2 + b3 D3 +
Analysons les rsultats (Figure 4.32) : Par rapport la rgression prcdente, la qualit globale n'est pas modie (R2 , F test). Ce constat est trs important.
L'introduction du nouveau codage ne dgrade pas les qualits prdictives et explicatives du modle.
La vraie nouveaut se situe au niveau des coecients. La constante 0 = 17.12 correspond toujours b la moyenne y1 = 17.12 de la modalit de rfrence. Le coecient de la premire indicatrice 2 = 18.82 constitue toujours au dcalage entre les moyennes b conditionnelles y2 = y1 + 2 = 17.12 + 18.82 = 35.94. b En revanche, le coecient de
la seconde indicatrice indique le dcalage entre la moyenne conditionnelle du troisime intervalle et la prcdente ! Ici, y3 = y2 + 3 = 35.94 + 3.44 = b
39.38. Et il apparat que cet cart n'est pas signicatif 5% puisque dans la rgression t3 = 1.698 b
avec une p-value de 0.1011.
Page: 124
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
125
La gnralisation est immdiate : tous les coecients des indicatrices correspondent au dcalage des moyennes conditionnelles entre les intervalles successifs. Nous mettons bien en vidence l'eet du passage d'un pallier un autre. La reprsentation des moyennes et des coecients dans le nuage de points illustre parfaitement le phnomne (Figure 4.33).
Fig. 4.33.
Zi,j
1 si Xi = j = 1 si Xi = k 0 sinon
La modalit k (centre-ville ) sert toujours de rfrence. Mais, cette fois-ci, nous signalons explicitement sa prsence pour l'individu i en attribuant la valeur 1 toutes les variables recodes Zj . Nous estimons les coecients de la rgression : (4.6)
date/time: 9-Jul-2011/7:43
126
0 = y si et seulement si nj = n b k Les autres coecients se lisent comme la dirence entre la moyenne conditionnelle et cette valeur centrale. Pour le cas de la banlieue, 1 = ybanlieue 0 b b
Le test de signicativit globale de la rgression (tous les coecients excepts la constante sontils tous gaux zro ?) correspond toujours au test d'galit des moyennes conditionnelles. Nous devrions retrouver les rsultats de l'ANOVA 1 facteur.
127
Fig. 4.34.
Le codage n'inue pas sur la qualit de la modlisation. Il pse en revanche sur la lecture des coecients. Ce constat est conrm dans la 3-me solution
tests sont totalement quivalents. propose dans la section suivante.
Les blocs sont construits de manire mettre en vidence les oppositions les plus intressantes.
les moyennes de la variables dpendante par groupes de modalits. Reprenons l'exemple du chier LOYER (Figure 4.1, page 84). Nous souhaitons mener une analyse en deux temps : (1) tout d'abord, vrier que la moyenne des loyers en centre-ville est dirent de la moyenne des loyers la campagne et en banlieue ; (2) puis, dans ce second temps, eectuer la comparaison l'intrieur de ce second groupe c.--d. comparer les loyers en banlieue et la campagne. Nous devons utiliser un codage de type "contrastes" pour raliser cette analyse. Il repose sur une srie de spcications bien prcises ([5], pages 71 75) : (a) si l'explicative nominale possde K modalits, nous crerons (K 1) variables contrastes ; (b) les codes de chaque contraste doit tre dnis de manire crer une opposition entre groupes, la somme des codes du premier bloc doit tre gal 1, la somme pour le second gale 1 (ou vice versa ), la somme totale doit tre nulle ; (c) les codes des variables contrastes doivent tre deux deux orthogonaux c.--d. le produit scalaire doit tre nul. Vite un exemple pour bien comprendre le mcanisme. La variable "lieu d'habitation" est compose de 3 modalits, nous crons donc 2 variables contrastes C1 et C2. Nous adoptons le codage suivant pour raliser l'analyse en deux temps spcie ci-dessus c.--d. opposer centre-ville au couple (campagne, banlieue), puis opposer campagne et banlieue. Lieu Banlieue Centre
Page: 127 job: la_regression_dans_la_pratique
C1 0.5 -1
C2 1 -1 0
macro: svmono.cls date/time: 9-Jul-2011/7:43
Campagne 0.5
128
Notons que : La somme des codes tant pour C1 [0.5 + 0.5 + (1) = 0] que pour C2 [1 + (1) + 0 = 0] sont nuls. Pour chaque contraste, la somme des codes positifs est gal 1, celle des codes ngatifs 1. Les signes sont opposs : ("banlieue", "campagne") d'une part, ("centre") d'autre part pour C1. Concernant C2, "centre" n'entrant plus en ligne de compte, son code est gal 0. "Campagne" et "banlieue" sont de signes opposs. Enn, le deux contrastes sont bien orthogonaux puisque [0.5 1 + 0.5 (1) + (1) 0] = 0. Ces vrications faites, nous pouvons construire notre tableau de donnes et lancer la rgression
LOY ER = a2 C2 + a1 C1 + a0
Fig. 4.35.
Pour faciliter la lecture, nous avons report dans la feuille Excel les moyennes conditionnelles et les rsultats de l'ANOVA (section 4.1). Voyons voir tout cela (Figure 4.35) : Premire conclusion importante, encore une fois, la qualit globale de l'ajustement n'est pas aecte par le type de codage. La variabilit rsiduelle est exactement la mme SCR = 2.54324 pour la
Le type de codage ne modie pas le pouvoir explicatif du modle. En revanche, il met en lumire des aspects dirents des informations que reclent les donnes. L'intrt est de pouvoir en tirer des interprtations en rapport avec les
rgression et l'analyse de variance. objectifs de notre tude.
Page: 128 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
129
a0 =
Ce rsultat rejoint celui du codage "centered eect" (Figure 4.34). Les coecients aj nous permettent d'obtenir les carts entre les moyennes (non pondres des moyennes) des modalits dans les groupes que l'on oppose. Si k1 (resp. k2 ) est le nombre de modalits dans le premier (resp. second) groupe, nous avons :
ej = a j
k1 + k2 k1 k2
(4.7)
Pour le premier contraste, nous obtenons a1 = 1.12825. Nous avons k1 = 2 (banlieue et campagne) dans le 1er groupe, et k2 = 1 (centre) dans le 2nd . Nous calculons
e1 = 1.12825
2+1 = 1.69238 21
Qui correspond l'cart entre les moyennes (non pondre des moyennes conditionnelles) dans les groupes c.--d.
e2 = a 2
Il correspond l'cart
Conclusion. Certes, l'outil n'est pas trs limpide au premier abord. Il faut proposer un codage qui
rpond des spcications assez restrictives. L'aaire devient complique lorsque le nombre de modalits est lev. Mais une fois que nous avons mis en place le bon schma de codage, les avantages sont apprciables. Nous pouvons dcomposer l'analyse en une cascade d'oppositions entres groupes. Nous obtenons une estimation des carts, et nous pouvons tester de surcrot s'ils sont signicatifs. Tout cela la lecture des rsultats d'une seule rgression. L'eort initial est largement rcompens.
Remarque 26 (Lorsque les eectifs sont quilibrs.). Lorsque les eectifs sont quilibrs c.--d. nous avons
les mmes eectifs dans chaque groupe, une pratique quand mme bien rpandue en statistique, nous opposons bien les moyennes conditionnelles. Ainsi, la procdure n'est pas sans rappeler les schmas de comparaisons multiples que l'on initie la suite d'une ANOVA dtectant des dirences globalement signicatives entre les moyennes conditionnelles.
Page: 129 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
130
habitation du chier LOYER, il n'y a pas de hirarchie entre les zones de rsidence : vivre la campagne
n'est pas mieux que vivre en ville, etc. Dans ce cas, le codage suivant est totalement inappropri
1 si Xi = centre Zi =
2 si Xi = banlieue 3 si Xi = campagne
semble tout fait licite. Notons cependant que ce codage n'est pas totalement innocent, il introduit une information supplmentaire dont tiendra compte la rgression dans le calcul des coecients : l'amplitude de l'cart. Avec ce codage nous sommes en train de dire que
Page: 130
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
4.12 Conclusion
131
l'cart entre "centre" et "banlieue" est de 1, il en est de mme pour l'cart entre "banlieue" et "campagne" ; et de plus, nous armons galement que l'cart entre "campagne" et "centre" est 2 fois plus lev que l'cart entre "centre" et "banlieue". En ralit, nous ne savons rien de tout cela. Peut-tre est-ce vrai, peut tre est-ce erron. Quoi qu'il en soit, le pire serait de lancer les calculs sans tre conscient de ce qu'on manipule.
4.12 Conclusion
Il y a 2 ides matresses retenir de ce chapitre : 1. Il est possible d'eectuer une rgression linaire multiple avec des exognes qualitatives, le tout est de produire une transformation approprie des donnes ; 2. Le codage est primordial car il dtermine les informations que nous extrayons des donnes initiales et, par consquent, l'interprtation des coecients fournis par la rgression. L'analyse devient particulirement intressante lorsque nous introduisons plusieurs exognes qualitatives ou un mlange de variables qualitatives et quantitatives. La technique est riche et ses applications multiples. L'tude des interactions, entres autres, se rvle particulirement passionnante (voir [6]).
Page: 131
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
Page: 132
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
Le test de changement structurel est dni naturellement pour les donnes longitudinales : l'ide est de vrier qu'au l du temps, la nature de la relation entre l'endogne et les exognes n'a pas t modie. Statistiquement, il s'agit de contrler que les coecients de la rgression sont les mmes quelle que soit la sous-priode tudie. Prenons un cas simple pour illustrer cela. On veut expliquer le niveau de production des entreprises d'un secteur en fonction du temps. En abcisse, nous avons l'anne, en ordonne la production. A une date donne, nous observons que la relation est modie brutalement, parce qu'il y a eu, par exemple, une mutation technologique introduisant une hausse de la productivit (Figure 5.1). Il est vident dans ce cas qu'il n'est pas possible d'eectuer une seule rgression pour toute la priode, la pente de la droite de rgression est modie.
Fig. 5.1.
Mettons maintenant qu' la date t = 11 est survenue une catastrophe dtruisant une partie de l'outil de travail. Dans ce cas, la production connat un recul fort, puis volue de la mme manire que nagure. Dans ce cas, la pente de la rgression reste identique, seule est modie l'origine (la constante) de la rgression (Figure 5.2).
Page: 133
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
134
5 Rupture de structure
Fig. 5.2.
Fig. 5.3.
technologie des moteurs fonctionnant au gazole et l'essence est quelque peu dirente. Fractionner les donnes en 2 parties, selon le type de carburant, permet de mettre jour l'existence de 2 populations avec des comportements, ventuellement, dirents. Bref, le test de changement structurel vise avant tout constater statistiquement des modications de comportement dans l'chantillon tudi. A charge au statisticien de caractriser au mieux ce qui permet de dnir les sous-ensembles que l'on confronte (en utilisant des informations externes ou une variable supplmentaire disponible dans les donnes) et dceler la nature du changement survenu (modication des coecients relatifs quelles variables ?).
Pour une tude approfondie de la dtection et de la caractrisation des changements structurels dans la rgression, je conseille la lecture attentive du chapitre 4 de l'ouvrage de Johnston (pages 111 145).
Page: 134 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
135
C'est une des rares rfrences, en franais, qui explicite avec autant de dtails l'tude des ruptures de structure dans la rgression.
yi = a0 + a1 xi,1 + + ap xi,p + i , i = 1, . . . , n
(5.1)
(b) On eectue 2 rgressions indpendantes sur les 2 sous-populations. Ce sont les rgressions "noncontraintes" dans le sens o nous n'imposons pas que les coecients soient les mmes sur les 2 sous-populations (sous-priodes).
yi = a0,1 + a1,1 xi,1 + + ap,1 xi,p + i , i = 1, . . . , n1 yi = a0,2 + a1,2 xi,1 + + ap,2 xi,p + i , i = n1 + 1, . . . , n (n2 obs.)
Il y a alors plusieurs manires d'apprhender le test de rupture de structure. 1. Est-ce que la rgression contrainte est d'aussi bonne qualit que les 2 rgressions non-contraintes ? Si oui, cela indiquerait qu'il n'y a pas distinguer les rgressions dans les 2 sous-populations : ce sont les mmes. Pour cela, nous confrontons la somme des carrs des rsidus (qui est un indicateur de qualit de la rgression, plus elle faible, meilleure est l'approximation) (a) Rgression contrainte : SCR (b) Rgressions non-contraintes : SCR1 et SCR2
1. Sur l'ide de confronter 2 rgressions, dont une serait une restriction de l'autre, voir l'excellent document de T. Duchesne, Chapitre 3, Section 3.6 "Le principe de somme de carrs rsiduels additionnelle" ; http://
136
5 Rupture de structure
Par construction,
a0,2 a0,1 a0 a1 a1,1 a1,2 H0 : . = . = . . . . . . . ap,2 ap ap,1 H1 : un des coecients (au moins) dire des autres
La statistique du test de Chow s'appuie sur les sommes des carrs rsiduels des rgressions contraintes (SCR) et non-contraintes (SCR1 et SCR2 ). Elle s'crit :
F =
Plus que les valeurs gnriques des degrs de libert, voyons en dtail le mcanisme de leur formation an que nous puissions le reproduire dans d'autres congurations. Pour ddld , qui est le plus facile apprhender, nous avons la runion de 2 rgressions indpendantes :
137
Sous H0 , la statistique F suit une loi de Fisher (p + 1, n 2p 2) degrs de libert. La rgion critique du test s'crit
R.C. : F > F1 (p + 1, n 2p 2)
o F1 (p + 1, n 2p 2) est le quantile d'ordre (1 ) de la loi de Fisher (p + 1, n 2p 2) degrs de libert.
5.1.2 Un exemple
Nous reprenons un exemple dcrit dans Johnston (pages 134 138). Nous voulons eectuer une rgression linaire simple Y = aX + b + . Les donnes (chier CHOW) peuvent tre subdivises en 2 sous-parties (sous-priodes) correspondant une variable supplmentaire ! (Figure 5.4).
Fig. 5.4.
Pour raliser le test global de Chow c.--d. la rgression est-elle la mme dans les 2 sous-parties du chier ?, nous ralisons 3 rgressions : (a) sur la totalit du chier, (b) sur la premire partie, (c) sur la seconde partie. Nous obtenons les rsultats suivants (Figure 5.5) : a : Y = 0.52X 0.07 avec SCR = 6.56 et ddl = 13 ; b : Y = 0.44X 0.06 avec SCR1 = 0.69 et ddl1 = 3 ; c : Y = 0.51X + 0.40 avec SCR2 = 2.47 et ddl2 = 8. Calculons les degrs de libert : ddln = 13 (3 + 8) = 2 et ddld = 3 + 8 = 11. La statistique du test est donc gale
F =
3. C'est un peu abstrait j'en conviens. Mettons que l'on veut expliquer la consommation (Y) en fonction de la taille du moteur (X). Les donnes regroupent les vhicules fonctionnant au gazole et l'essence.
Page: 137 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
138
5 Rupture de structure
Fig. 5.5.
La p-value associe est 0.0181. Au risque de 5%, ces deux sous-parties du chier donnent bien lieu 2 rgressions direntes " .
139
di,1 =
1 , i = 1, . . . , n
di,2
0 , i = n1 + 1, . . . n 0 , i = 1, . . . , n 1 = 1 , i = n1 + 1, . . . , n
Et nous construisons la rgression suivante (Equation 5.2), c'est la rgression non-contrainte que nous opposons l'quation initiale (Equation 5.1) o la constante est la mme sur les deux priodes.
(5.2)
Attention, nous n'introduisons plus de constante dans cette rgression car di,1 + di,2 = 1, le calcul ne serait pas possible. Bien entendu, nous pourrions eectuer le test d'hypothses (H0 : a0,1 = a0,2 ) directement sur l'quation 5.2 (Voir "Tests de comparaisons de coecients et tests de combinaisons linaires de coecients" ; Bourbonnais, page 69 ; Johnston, pages 95 101). Mais il est plus simple, et plus cohrent avec notre dmarche dans ce chapitre, de procder en opposant le modle contraint et le(s) modle(s) non contraint(s).
Fig. 5.6.
Pour illustrer notre propos, nous reprenons notre exemple ci-dessus (Figure 5.4). Rappelons que la rgression contrainte (quation 5.1) a fourni (Figure 5.5) : SCR = 6.56 et ddl = 13. Nous ralisons maintenant la rgression non-contrainte destine tester la stabilit de la constante (quation 5.2), elle nous propose les rsultats suivants (Figure 5.6) : SCR3 = 3.49 et ddl3 = 12 ; pour opposer les modles contraints et non-contraints (resp. quations 5.1 et 5.2), nous calculons tout d'abord les degrs de libert : ddln = ddl ddl3 = 13 12 = 1 et ddld = ddl3 = 12 ; nous formons alors la statistique F = avec un p-value = 0.0070.
Page: 139 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
(SCRSCR3 )/ddln SCR3 /ddl3
3.07/1 3.49/12
= 10.54 ;
140
5 Rupture de structure
Conclusion : la dirence de structure dtecte par le test global de Chow serait due, au moins en partie, une dirence entre les constantes des rgressions construites dans chaque sous-chantillon. "En partie" car nous n'avons pas encore test l'inuence de la pente de rgression, c'est l'objet de la section suivante.
5.2.2 Tester la stabilit du coecient d'une des exognes Une formulation errone
Il s'agit maintenant de tester si la rupture est imputable une modication de la pente de la rgression c.--d. un ou plusieurs coecients associs des exognes ne sont pas les mmes sur les deux priodes. Nous traitons dans cette section, sans nuire la gnralit du discours, du test du coecient associ la variable x1 de la rgression. Forts des schmas dcrit prcdemment, nous drivons deux variables intermdiaires z1 et z2 partir de la variable x1 avec :
zi,1 =
zi,2
i,1 , i = 1, . . . , n1 0 , i = n1 + 1, . . . n 0 , i = 1, . . . , n 1 = xi,1 , i = n1 + 1, . . . , n
Nous pourrions alors tre tent de proposer comme formulation non-contrainte de la rgression :
(5.3)
1. Une modication de la pente entrane de facto une modication de l'origine de la rgression. Un exemple ctif, construit sur une rgression simple illustre bien la situation (Figure 5.7). 2. En contraignant les deux quations, contraints et non-contraints, avoir la mme origine, nous faussons les rsultats relatifs au test de la pente (Figure 5.8).
En conclusion, pour tester la stabilit des coecients sur 2 sous-ensembles de donnes, il faut absolument relcher, dans le modle de rfrence, la contrainte de stabilit de la constante.
Page: 140 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
141
Fig. 5.7.
Fig. 5.8.
En imposant la mme origine aux deux rgressions, on fausse l'apprciation des pentes
(5.4)
Page: 141
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
142
5 Rupture de structure
Fig. 5.9.
Reprenons notre chier de donnes et mettons en place ces calculs. Pour notre modle de rfrence (quation 5.2), nous avions obtenu SCR3 = 3.49 et ddl3 = 12. Dans la nouvelle rgression (Equation 5.4), nous avons (Figure 5.9) : SCR4 = 3.16 et ddl4 = 11 ; on calcule les degrs de liberts ddln = ddl3 ddl4 = 12 11 = 1 et ddld = ddl4 = 11 ; la statistique du test s'crit alors F = avec une p-value = 0.3068. Les dirences dtectes entre les rgressions sur les 2 sous-parties du chier ne sont pas imputables une modication de la pente. En d'autres termes, la pente de la rgression est la mme dans les 2 sous-populations. Moralit de tout ceci, concernant notre chier de donnes : il y a bien une rupture de structure entre les
(SCR3 SCR4 )/ddln SCR4 /ddld
(3.493.16)/1 3.16/11
= 1.15 ;
2 sous-populations, elle est essentiellement due une modication de la constante. A vrai dire, un nuage
de points nous aurait permis de trs vite aboutir aux mmes conclusions (Figure 5.10), la dirence que la dmarche dcrite dans cette section est applicable quelle que soit le nombre de variables exognes.
5.3 Conclusion
L'tude des changements structurels peut tre tendue l'analyse de k sous-populations (ou souspriodes). Il s'agit tout simple de dnir correctement le modle contraint, qui sert de rfrence, et le(s) modle(s) non-contraint(s), qui servent identier la nature de la rupture. Seulement, les tests et la comprhension des rsultats deviennent diciles, voire prilleux, il faut procder avec beaucoup de prudence. Le vritable goulot d'tranglement de cette dmarche est la dtection intuitive du point de rupture. Encore pour les donnes longitudinales, quelques connaissances approfondies du domaine donnent des indications sur les vnements (conomiques, politiques, etc.) qui peuvent inchir les relations entre les variables. En revanche, pour les donnes transversales, deviner le point d'inexion sur une variable
Page: 142
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
5.3 Conclusion
143
Fig. 5.10.
Nuage de points (X,Y) et droites de rgression pour les deux sous-populations de notre chier exemple
(Figure 5.4)
exogne, ou encore dterminer le facteur externe qui vient modier la structure des dpendances, relve du saut dans l'inconnu. Trs souvent, les graphiques, notamment des rsidus, sont d'une aide prcieuse pour airer les ruptures dans les donnes.
Page: 143
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
Page: 144
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
Nous avions abord le sujet de la non-linarit dans notre support consacr la rgression linaire simple (et multiple) [18](chapitre 6). Nous nous tions surtout intresss aux congurations o, sur la base des connaissances du domaine et de l'interprtation que l'on souhaitait donner aux rsultats, nous choisissions une forme particulire de la relation. Il tait possible de retrouver une forme linaire, dont les coecients pouvaient tre estims avec la mthode des moindres carrs ordinaires, en appliquant les fonctions de transformations idoines. Nous allons plus loin dans ce chapitre. Nous nous basons sur un processus guid par les donnes et non plus par les connaissances du domaine. Il y a toujours une double tape : valuer la compatibilit des donnes avec l'hypothse d'une relation linaire ; si elle est rfute, trouver la transformation de variables la plus approprie de manire amliorer la qualit de l'ajustement. Bien videmment, il y a une limite (trs dicile trouver) ne pas dpasser dans la recherche du meilleur modle. Il s'agit d'exploiter au mieux les informations vhicules par les donnes, sans en ingrer les spcicits qui ne sont pas gnralisables dans la population. En apprentissage supervis, on parlerait du problme de sur-ajustement des modles.
Page: 145
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
146
Fig. 6.1.
Il nous faut proposer les bonnes transformations de variables. L'aaire est loin d'tre vidente. Dans notre exemple, on voit bien que la relation est logarithmique. Pourtant, en tentant la transformation
Z = ln(X), V = Y n'tant pas modie, la qualit de l'ajustement (V = a Z + b) laisse dsirer avec R2 = 0.8842 (Figure 6.2). Nous constatons galement un autre lment gnant : la dispersion de V selon
les valeurs de Z n'est visiblement pas constante, nous sommes en situation d'htroscdasticit.
Fig. 6.2.
Page: 146
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
147
La "bonne" solution nous est fournie par Avazian (pages 149 et 150), il propose les transformations
V = log10 (Y ) 1 Z= X
Bien malin aurait t celui qui y aurait pens. Il faut la fois de l'intuition, de bonnes connaissances du domaine, une certaine pratique, pour proposer rapidement les bonnes formules. Concernant notre exemple, elles sont tout fait justies puisque la qualit de l'ajustement est grandement amliore (R2 = 0.9612) (Figure 6.3).
Fig. 6.3.
Bref, la recherche du "bon" modle travers les transformations de variables peut s'avrer trs fructueux. Passer d'un R2 de 0.6199 0.9612 est une avance indniable. Mais il faut tre capable d'introduire les bonnes transformations de variables. La solution n'est pas toujours vidente.
148
le premier, le rapport de corrlation, ne fait aucune hypothse sur la forme de la liaison ; le second, le coecient de corrlation linaire de Pearson, mesure la force d'une liaison linaire. La divergence entre ces indicateurs permet de caractriser la nature non-linaire de la relation.
Le rapport de corrlation
Le rapport de corrlation est une mesure "universelle" de la liaison entre deux variables quantitatives. "Universelle" car elle est valable quelle que soit la forme de la relation, mme si cette dernire est nonmonotone. Le rapport de corrlation est une mesure asymtrique. Il rsulte de la confrontation de deux esprances mathmatiques ([17], section 3.6.) : la moyenne de la variable dpendante, et sa moyenne conditionnellement aux valeurs de X . Plus fort sera l'impact de X sur Y , plus lev sera l'cart entre ces deux quantits. Concrtement, sur un chantillon de taille n pour lequel nous disposons de K valeurs distinctes de
(6.1)
On distingue au numrateur la variance inter-classes, la variabilit de Y explique par X ; et au dnominateur, la variance totale de Y . Les habitus de l'analyse de variance ne seront pas dpayss. On peut d'ailleurs utiliser le rapport de corrlation pour mesurer l'inuence d'une variable indpendante qualitative nominale sur une variable dpendante quantitative.
2 Par dnition, le rapport de corrlation varie entre 0 et 1 (0 y/x 1). Il est nul si la liaison n'existe
pas ; il est gal 1 si X explique parfaitement les valeurs prises par Y . Il est possible de mettre en place un test de signicativit ([17], section 3.6.2).
Remarque 27 (Cas des donnes individuelles, non-groupes). Dans le cas des donnes non-groupes c.-d. chaque valeur de X , on dispose d'une seule valeur de Y , nous avons K = n et nk = 1, k . Par
2 construction, y/x est toujours gal 1, laissant croire une liaison parfaite. Dans ce cas, il est judicieux
de procder articiellement des regroupements en dcoupant en intervalles les valeurs de X . On peut, par exemple, utiliser la technique des intervalles d'amplitudes gales . Le choix du nombre de classes est crucial. Il faut qu'il soit susamment faible pour que l'eectif dans chaque classe permettent d'obtenir des moyennes yk qui aient un sens ; il faut qu'il soit susamment lev pour que la forme de la relation entre Y et X ne soit pas occulte. Il dpend aussi du nombre d'observations disponibles.
X ([17], chapitre 2). Le coecient de corrlation empirique, calcul partir d'un chantillon, est obtenu
1. http://www.info.univ-angers.fr/~gh/wstat/discr
Page: 148 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
149
de la manire suivante :
ryx =
(6.2)
On reconnat au numrateur la covariance entre Y et X , elle est normalise au dnominateur par le produit des carts-type. Le coecient est compris entre 1 et +1 (1 ryx +1), le signe tient compte
2 2 du sens de la relation. Nous perdons cette information en passant au carr ryx (ryx 0). Mais nous y
Il y aurait galit si et seulement si la relation est parfaitement linaire. Nous exploitons l'amplitude de la dirence entre ces indicateurs pour caractriser le caractre non linaire de la liaison entre Y et X . Le test de linarit de la relation revient donc tester la signicativit de la dirence entre ces deux indicateurs. Nous utilisons la statistique de test (Avazian, page 121 ; Veysseyre, page 368 ; Dagnelie ! , page 483)
W2 =
(6.3)
Sous H0 , W 2 suit une loi de Fisher (K 2, n K) degrs de libert. La rgion critique correspond aux valeurs leves de W 2 . Nous pouvons aussi calculer la probabilit critique du test (p-value). Dans ce cas, nous rejetons l'hypothse nulle si la p-value est infrieure au risque du test.
2. Et de la rgression de X sur Y aussi d'ailleurs. 3. Dagnelie, P., Statistique thorique et applique entre les deux indicateurs.
Page: 149 job: la_regression_dans_la_pratique
2006 ; la prsentation est un peu dirente mais le principe est le mme : on teste la signicativit de la dirence
macro: svmono.cls
date/time: 9-Jul-2011/7:43
150
Fig. 6.4.
Avec l'outil "tableau croiss dynamiques", nous obtenons les moyennes de Y pour chaque valeur
2 distincte de X . Nous calculons le numrateur de y/x : K k=1
Ds lors,
K y 2 1561.7387 k=1 nk (k y ) = 0.9508 = n = 2 1642.5267 i=1 (yi y ) Pour obtenir le coecient de corrlation, nous utilisons la fonction COEFFICIENT.CORRELATION
2 y/x
W2 =
Page: 150
job: la_regression_dans_la_pratique
151
Avec la loi de Fisher F(52, 215), nous avons une probabilit critique (p-value) largement infrieure au niveau de signication = 5% que nous nous sommes choisis. Les donnes ne sont pas compatibles avec l'hypothse de linarit.
Z=
1 X.
La structure de la feuille de calcul n'est pas modie par rapport la prcdente. Nous obtenons
Toujours avec un F(3, 16), nous avons une p-value de 0.3462. Aprs transformation judicieuse des variables, l'hypothse de linarit devient licite. L'analyse graphique est conrme (Figure 6.3).
Fig. 6.5.
Page: 151
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
152
(6.4)
(X, Y ) (Figure 6.6). Manifestement, la courbe d'ajustement n'est pas satisfaisante mme si elle introduit
une amlioration sensible par rapport au modle linaire.
Fig. 6.6.
Voyons si cette intuition est conrme par le test de spcication dvelopp dans cette section.
Page: 152 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
153
Fig. 6.7.
Nous disposons des valeurs pour les variables X et Y dans une feuille Excel (Figure 6.7) Nous ajoutons la colonne Z = ln(X) pour former la rgression
Y = 7.3344 Z + 16.9715
Nous formons alors la colonne de prdiction yi (ex. y1 = 7.3344 ln(1) + 16.9715 = 16.9715). A l'aide de l'outil "tableaux croiss dynamiques", nous calculons les statistiques intermdiaires pour chaque valeur distincte de X (ces valeurs sont {1, 2, 3, 7, 28}). Nous retrouvons de gauche droite dans la grille :
nk 1 yi (ex. y1 = 12.7) nk i=1
yk =
1 nk
i=1
(n K)
Et le dnominateur
Page: 153
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
154
(K g)
2 =
Avec un F(3, 16), nous obtenons une probabilit critique (p-value) de 0.0028. Les donnes ne cadrent pas avec un modle logarithmique. Nous devons trouver une spcication plus approprie. Ce que nous avons fait avec les transformations V = log10 (Y ) et Z = pleinement satisfaction (Figure 6.3).
1 X
qui donnent
Page: 154
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
155
Fig. 6.8.
Y = a0 + a1 X1 + + ap Xp +
Les rsidus partiels de la variables exogne Xj sont dnis comme suit
(6.5)
Si la liaison entre Xj et Y est linaire, les n couples de points reprsents dans le repre (xj , j )
le nuage nous donne une indication sur la transformation oprer pour amliorer l'ajustement. C'est son principal atout.
doivent former une droite # . Dans le cas contraire,
Un exemple numrique
Sans restreindre la porte de notre propos, nous dcrivons les calculs pour une rgression simple. Ils sont directement transposables la rgression multiple.
4. http://en.wikipedia.org/wiki/Partial_residual_plot 5. Dans certains logiciels, une rgression permet de souligner l'alignement des points. Ex. la fonction prplot(.) du package "faraway" du logiciel R.
Page: 155 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
156
tape 1
Nous disposons de n = 100 observations d'un couple de variables Y et X . Nous ralisons la rgression linaire Y = a X + b. Nous obtenons a = 1218.1841 et = 1865.1907, avec un coecient de b dtermination R2 = 0.9697. La rgression est de trs bonne qualit. Nous en dduisons les prdictions yi = 1218.1841 xi 1865.1907 et les rsidus i = yi yi . Pour valuer la forme de la liaison entre X et Y , nous calculons les rsidus partiels. Nous projetons alors les observations dans le repre (xj , j ) (Figure 6.9).
Fig. 6.9.
Les points sont plus ou moins aligns en formant une courbure assez marque. Ce constat apparat clairement lorsque nous ajoutons une courbe de tendance linaire dans le graphique $ . Manifestement, il y a une forme de relation entre X et Y que l'on ne prend pas en compte dans la rgression linaire simple.
tape 2
Sur la base du graphique, nous souhaitons amliorer l'ajustement en ajoutant la variable Z = X 2 dans la base. Nous ralisons maintenant la rgression Y = a0 + a1 X + a2 Z . Dans notre exemple, il ne s'agit pas de substituer Z X car, malgr tout, nous avons constat que la rgression linaire est de trs bonne qualit dj (R2 = 0.9697). Nous voulons vrier que Z = X 2 amne de l'information supplmentaire pertinente dans l'explication de Y . Nous obtenons le modle
157
Voyons ce que nous en annonce les rsidus partiels. De nouveau, nous ralisons la prdiction yi =
324.9884 + 350.5567 xi + 84.1142 x2 . Avec la mme dmarche, nous calculons les rsidus partiels i i,x = (yi yi ) + 350.5567 xi et nous construisons le graphique (Figure 6.10).
Fig. 6.10.
La situation est incontestablement meilleure, sauf pour les petites valeurs de X proches de 0 o il reste une distorsion par rapport la droite. Il faut la prendre en compte. Pour ce faire, nous introduisons la variable supplmentaire W = ln(X).
Remarque 28 (Rsidus partiels par rapport la variable modie). Nous aurions pu galement calculer le
rsidu partiel
i = (yi yi ) + 84.112 x2 i
La conclusion aurait t du mme ordre c.--d. la ncessit d'introduire une variable de type W = ln(X).
tape 3
Nous introduisons la variable W = ln(X) dans la rgression Y = b0 +b1 X +b2 Z +b3 W , nous obtenons :
Page: 157
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
158
Fig. 6.11.
Pour tre tout fait honnte, les situations sur donnes relles ne sont pas toujours aussi idylliques. Nous avons travaill sur des variables gnres articiellement dans cette section et, eectivement, nous avons utilis X , X 2 et ln(X) pour obtenir Y . Il est heureux que l'on retrouve le bon rsultat en nous appuyant sur les rsidus partiels.
i = i + a1 X + a2 X 2
(6.6)
L'intrt de ce nouvel indicateur n'est pas dterminant dans notre contexte de recherche des direntes transformes possibles des variables exognes introduire dans la rgression. L'usage des rsidus partiels est amplement susant.
Page: 158
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
159
Fig. 6.12.
Donnes
mtcars
- Logiciel R
Elle comporte n = 32 observations et 11 variables (Figure 6.12). Dans notre contexte, nous n'utiliserons que 3 variables. Nous essayons d'expliquer la consommation (mpg ), le nombre de miles que l'on peut parcourir l'aide d'un galon de carburant, l'aide de la puissance (ht) et le poids (wt). Nous obtenons les rsultats la rgression.
> modele <- lm(mpg ~ hp + wt, data = mtcars) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 37.22727 hp wt --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 2.593 on 29 degrees of freedom Multiple R-squared: 0.8268, Adjusted R-squared: 0.8148 F-statistic: 69.21 on 2 and 29 DF, p-value: 9.109e-12
Page: 159 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
1.59879 23.285 < 2e-16 *** 0.00903 -3.519 0.00145 ** 0.63273 -6.129 1.12e-06 ***
-0.03177 -3.87783
160
Le modle est plutt de bonne qualit avec un coecient de dtermination corrig % R2 = 0.8148. La
rgression est globalement signicative 5%, les deux variables le sont galement, largement mme. Voyons maintenant ce qu'il en est des rsidus partiels. Nous utilisons le package mandes adquates sont
#librairie pour les rsidus partiels > library(faraway) #rsidus partiels > par(mfrow=c(1,2)) > prplot(modele,1) > prplot(modele,2)
Les deux graphiques des rsidus partiels sont achs dans la mme fentre (Figure 6.13). Ici commence les choses dlicates. En eet, il faut choisir la transformation approprie partir d'informations purement visuelles. Il y a quand mme une certaine part de subjectivit l-dedans.
Fig. 6.13.
Donnes
mtcars
Compte tenu des formes plus ou moins curvilinaires des nuages de points, nous tentons les deux transformations suivantes : zhp = hp2 et zwt = ln(wt). Nous les ajoutons parmi les explicatives. Nous lanons de nouveau la rgression.
> zhp <- mtcars$hp^2 > zwt <- log(mtcars$wt) > modele.bis <- lm(mpg ~ hp + wt + zhp + zwt, data = mtcars)
7. Nous privilgions cet indicateur car il tient compte des degrs de libert. Et nous aurons comparer des modles avec un nombre d'explicatives dirent par la suite.
Page: 160 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
161
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4.217e+01 1.911e+00 22.072 < 2e-16 *** hp wt zhp zwt --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 2.101 on 27 degrees of freedom Multiple R-squared: 0.8941, Adjusted R-squared: 0.8785 F-statistic: 57.01 on 4 and 27 DF, p-value: 8.922e-13
Le modle est meilleur que le prcdent avec un R2 = 0.8785. Les deux variables additionnelles zhp
et zwt sont signicatives, wt ne l'est plus en revanche. En passant aux rsidus partiels,
-9.777e-02 3.110e-02 -3.143 0.00403 ** 2.384e+00 1.887e+00 1.806e-04 7.893e-05 1.263 0.21741 2.287 0.03023 *
> modele.ter <- lm(mpg ~ hp + zhp + zwt, data = mtcars) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4.179e+01 1.906e+00 21.920 < 2e-16 *** hp zhp zwt --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
8. Ca apparat plus clairement maintenant, il y a aussi un mchant point atypique sur hp (et zhp). On passera outre. Mais il est clair que dans une tude relle, il faudra se pencher attentivement sur ce quidam avant de poursuivre l'analyse.
Page: 161 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
-9.736e-02 3.143e-02 -3.098 0.00441 ** 1.809e-04 7.977e-05 2.268 0.03122 * -1.082e+01 1.886e+00 -5.737 3.73e-06 ***
162
Fig. 6.14.
Donnes
mtcars
Residual standard error: 2.123 on 28 degrees of freedom Multiple R-squared: 0.8879, Adjusted R-squared: 0.8759 F-statistic: 73.91 on 3 and 28 DF, p-value: 2.034e-13
La rgression 3 explicatives donne amplement satisfaction, R2 = 08759 est quivalente la rgression
prcdente (on ne va pas commencer gloser pour une dirence la 3eme dcimale). Toutes les variables sont signicatives maintenant. Concernant les rsidus partiels,
163
Fig. 6.15.
Donnes
mtcars
Page: 163
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
Page: 164
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
http://www.jourdan.ens.fr/~bozio/stats/dw.pdf
Fig. A.1.
Table de Durbin-Watson
Page: 165
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
Page: 166
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
Premire version
La premire version de ce document a t mis en ligne en septembre 2007. Elle n'a pas t numrote.
Version 2.0
La seconde version, 2.0, a t mise en ligne n juin 2011. Elle se distingue (et celles qui suivront) par les graphiques en couleur (h oui, on apprend tout ge...). Plus srieusement, un chapitre a t ajout, d'autres ont t complts. Je distinguerais volontiers :
Ce chapitre a t profondment
de M.A. Hardy, Regression with dummy variables [5]. Mon travail a surtout consist reprendre les parties qui me paraissaient les plus intressantes, en l'inscrivant dans mon propre canevas de prsentation et en utilisant mes propres exemples. Le chier LOYER, entres autres, est mis toutes les sauces dans ce chapitre.
Chapitre 6 - Dtection et traitement de la non linarit. Ce chapitre fait cho une premire
approche de la non-linarit concernant la rgression simple dvelopp dans mon premier volume sur la rgression ([18], chapitre 6). Des approches plus gnriques sont mises en avant dans ce document, dans un premier temps pour la rgression simple, dans un second temps pour la rgression multiple. Ce chapitre doit beaucoup l'extraordinaire ouvrage de Avazian [1]. Je l'ai depuis plus de 20 ans. A chaque fois que je l'ouvre, je (re)dcouvre des choses intressantes. Je l'ai galement beaucoup mis contribution dans mon fascicule consacr la corrlation [17].
1. Comme je le dis toujours, reprendre en citant, c'est faire honneur au travail des collgues, reprendre sans citer, c'est du plagiat.
Page: 167 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
Page: 168
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
Un certain nombre de jeux de donnes ont servi illustrer ce support. Ils ont t traits. De nombreuses copies d'cran sont prsentes tout le long du texte. Pour que le lecteur puisse accder aux dtails des calculs et, s'il le dsire, les reproduire, ces chiers sont accessibles en ligne. Les chiers peuvent tre classs en 3 principales catgories : 1. Les classeurs EXCEL contiennent, dans la premire feuille, les donnes ; dans les feuilles suivantes, les traitements associs aux problmes statistiques. Ils ont contribu l'laboration des copies d'cran de ce support de cours. 2. Les chiers au format CSV contiennent les donnes destines tre traits avec le logiciel R. 3. Les scripts R dcrivent les traitements relatifs chaque chapitre du support. Concernant l'utilisation
du logiciel R pour la rgression, nous conseillons vivement la lecture du didacticiel de J. Faraway qui est rellement d'une qualit exceptionnelle : il est aussi intressant pour l'apprentissage de la rgression que pour l'apprentissage du logiciel R (Voir la rfrence en bibliographie).
Les chiers et les thmes rattachs sont dcrits dans "_description_des_chiers.txt", intgr dans l'archive "chiers_pratique_regression.zip", accessible sur le net - http://eric.univ-lyon2.fr/~ricco/
cours/exercices/fichiers_pratique_regression.zip.
Page: 169
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
Page: 170
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
D Tutoriels
blogspot.com/. Sauf mention contraire, j'utilise principalement les logiciels TANAGRA (http://eric. univ-lyon2.fr/~ricco/tanagra/fr/tanagra.html) et R (http://www.r-project.org/).
Plutt que d'intgrer dans ce fascicule la description de la mise en oeuvre des techniques l'aide des logiciels, j'ai prfr crire des tutoriels dans des documents part. L'ide est de pouvoir construire une histoire complte autour d'une base de donnes analyser, en partant de l'importation des donnes jusqu'au dploiement et l'interprtation des rsultats. Chaque tutoriel peut ainsi couvrir plusieurs thmes de la pratique de la rgression. Dans ce qui suit, je recense les sujets abords dans chacun d'entre eux. 1.
2.
3.
4.
Colinarit et rgression,
http://tutoriels-data-mining.blogspot.com/2008/04/colinarit-et-rgression.html. Logiciels :
Tanagra, R. Thmes : colinarit, slection de variables, analyse en composantes principales, rgression pls1.
5.
6.
http://tutoriels-data-mining.blogspot.com/
172
D Tutoriels
SIPINA - http://sipina.over-blog.fr/). Thmes : points aberrants, points atypiques, points inuents, normalit des rsidus, test de Jarque-Bera, droite de Henry, q-q plot. 7.
8.
Page: 172
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43
Littrature
Ouvrages
1. Avazian, S.,
tude statistique des dpendances, dition de Moscou, 1978. Economtrie. Manuel et exercices corrigs, Dunod, 2 dition, 1998. Analyse de rgression applique, Dunod, 2 dition, 2004. Economtrie, Presses Universitaires de France (PUF), 1989.
2. Bourbonnais, R.,
Regression with dummy variables, Sage University Paper series on Quantitative Applications in Interaction Eects in Multiple Regression (2nd ed), Sage University Paper series on Mthodes Economtriques, Economica, 4 dition, 1999.
the Social Sciences, series no. 07-093, Newbury Park, CA : Sage, 1993. 6. Jacquard, J., Turrisi, R., Quantitative Applications in the Social Sciences, series no. 07-072, Newbury Park, CA : Sage, 2003. 7. Johnston, J., DiNardo, J., 8. Labrousse, C., 9. Saporta, G.,
Introduction l'conomtrie. Matrise d'conomtrie, Dunod, 1983. Mthodes Statistiques en Gestion, Dunod, 1996.
Probabilits, Analyse des donnes et Statistique, Technip, 2me dition, 2006. Aide mmoire - Statistique et probabilits pour l'ingnieur, Dunod, 2006.
Supports en ligne
12. Confais, J., Le Guen, M.,
Premier pas en rgression linaire avec SAS, Revue Modulad, numro 35, 2006 ; et infrence en conomtrie, traduction franaise de Estimation
http://www-rocq.inria.fr/axis/modulad/numero-35/Tutoriel-confais-35/confais-35.pdf
13. , Davidson, R., MacKinnon, J.G., Estimation 14. Faraway, J., 15. Genest, C.,
and inference in econometrics, http://russell.vcharite.univ-mrs.fr/EIE/ Practical Regression and ANOVA using R, July 2002, http://cran.r-project.org/doc/
contrib/Faraway-PRA.pdf
Modle de rgression linaire multiple, sur http://archimede.mat.ulaval.ca/pages/genest/ regression/chap3.pdf. Voir aussi le chapitre 2 (chap2.pdf), Rgression linaire simple, et le chapitre 4 (chap4. pdf), Critres de slection de modle. Modle de rgression linaire, sur http://ecolu-info.unige.ch/~haurie/mba05/ Analyse de corrlation. tude des dpendances - Variables quantitatives, http://eric.
univ-lyon2.fr/~ricco/publications.html
Page: 173 job: la_regression_dans_la_pratique macro: svmono.cls date/time: 9-Jul-2011/7:43
174
Littrature
~ricco/publications.html
Rgression Linaire Multiple, sur http://fr.wikipedia.org/wiki/Rgression_linaire_multiple Xycoon Online Econometrics Textbook, sur http://www.xycoon.com/index.htm#econ
Page: 174
job: la_regression_dans_la_pratique
macro: svmono.cls
date/time: 9-Jul-2011/7:43