You are on page 1of 60

La rgression multiple

Economtrie applique
Cours de M1 deuxime partie
Quand utiliser la rgression
multiple
Pour estimer la relation entre une variable
dpendante (Y ) et plusieurs variables
indpendantes (X
1
, X
2
, )
Exemples
Expliquer le prix dun appartement par la
superficie, les prestations, lemplacement,
Expliquer les ventes dun magasin par le
march total, le prix, linvestissement, la
publicit,
Expliquer la consommation des vhicules par le
prix, la cylindre, la puissance et le poids.
Le modle linaire de rgression
multiple
Equation de rgression multiple
Cette quation prcise la faon dont la variable
dpendante est relie aux variables explicatives :


o |
0
, |
1
, |
2
, . . . , |
p
sont les paramtres et c est un
bruit alatoire reprsentant le terme derreur.

c | | | | + + + + =
p p
X X X Y ...
2 2 1 1 0
Le modle linaire de rgression
multiple
Les termes de lquation
i pi p i i i
x x x y c | | | | + + + + = ...
2 2 1 1 0
i
me
observation
de Y
Terme constant
Influence de la
variable X
1
Influence de
la variable X
p
Rsidu de la i
me

observation
Le modle linaire de rgression
multiple
Ecriture matricielle du modle
c |
c
c
|
|
|
+ =
(
(
(

+
(
(
(
(
(

(
(
(

=
(
(
(

X y
x x
x x
y
y
n
p
p n n
p
n

1
1
0
, , 1
, 1 1 , 1 1
1
1
Le modle linaire de rgression
multiple
Les hypothses du modle
Les hypothses de nature probabiliste

Les variables X
i
sont alatoires
E(c
i
)=0 pour tout i
V(c
i
)=o
2
pour tout 1ip (homoscdasticit des
erreurs)
Cov(c
i
, c
i
)=0 pour tout ij
Le vecteur alatoire c suit une loi normale n
dimensions N(0, o
2
I
n
)
Les hypothses structurelles
Det(X
T
X)0 (absence de colinarit entre les
variables explicatives).
n>p+1

Le modle linaire de rgression
multiple
Interprtation gomtrique
Le modle gnral dfinit un hyperplan de dimension
p. Nous illustrons le cas p=2.
X
1
X
2
Y

|
0
(X
1i
, X
2i
)
E(Y
i
|X
1i
, X
2i
) = |
0
+|
1
X
1i
+|
2
X
2i
c
i
Y
i
: observation
Le processus destimation
Modle de rgression multiple
Y = |
0
+ |
1
X
1
+ |
2
X
2
+. . .+ |
p
X
p
+ c
Hyperplan de rgression multiple
E(Y|X
1
,,X
p
) = |
0
+ |
1
X
1
+ |
2
X
2
+. . .+ |
p
X
p

Paramtres inconnus
|
0
, |
1
, |
2
, . . . , |
p

Donnes:
x
1
x
2
. . . x
p
y
. . . .
. . . .




Estimateurs de
|
0
, |
1
, |
2
, . . . , |
p

p
| | | |

,...,

2 1 0
p
| | | |

,...,

2 1 0
p p
X X X Y | | | |

...

2 2 1 1 0
+ + + + =
Equation estime
Estimateurs
Le processus destimation
Interprtation gomtrique
Illustration du cas p=2.
X
1
X
2
Y

(X
1i
, X
2i
)
y
i
: observation
i i i
X X y
2 2 1 1 0

| | | + + =
0

|
i i i
y y
= c
Le processus destimation
Estimation des coefficients de rgression
La mthode : les moindres carrs ordinaires
Le principe de lestimation des coefficients de
rgression :


consiste minimiser la somme des carrs des
rsidus :



Le calcul numrique lui-mme (calcul matriciel)
peut seffectuer laide de logiciels statistiques
(SAS, SPSS, S+, R, Gretl,).

= =
=
n
i
i i
n
i
i
y y
1
2
1
2
)

( c
p
| | | | ,..., , ,
2 1 0
Le processus destimation
Estimation des coefficients du modle
La mthode des moindres carrs donne pour
rsultat :


suit une loi

est sans biais :
Parmi les estimateurs de | linaires par rapport
X, sans biais, les lments de ont la plus petite
variance.
( ) Y X X X
T T
1


= |
|

( ) ( )
1
2
, 0 N

X X
T
c
o
|

| | = )

( E
|

Le processus destimation
Interprtation des coefficients de
rgression estims
La pente (k0)
Lestime de Y varie dun facteur gal
lorsque X
k
augmente dune unit, les autres
variables tant maintenues constantes.
Lordonne lorigine
Cest la valeur moyenne de Y lorsque toutes les
X
i
sont nulles.
k
|

k
|

|
Le processus destimation
Estimation de la variance des rsidus
1

1
2
2

=

=
p n
n
i
i
c
o
Le processus destimation
Les intervalles de confiance
On peut calculer pour chaque coefficient du
modle un intervalle de confiance de niveau (1-o)
donn par :


o t
o/2
se calcule partir de :


T suivant une de Student n-p-1 d.d.l.
o | | |
|
o
|
o
= + < < 1 )

(
2 / 2 /
i i
s t s t P
i i i
2 / 1 ) (
2 /
o
o
= > t T P
Le processus destimation
Les donnes
Taille de lchantillon
Les donnes doivent tre suffisamment
nombreuses : 15 20 par variable au moins.
La nature des variables
Dans la pratique, Y est une variable
quantitative et les X
i
peuvent tre quantitatives
ou binaires.


Qualit de la rgression
Dcomposition de la somme des carrs
totale
SCT : somme des carrs totale
SCR : somme des carrs des rsidus
SCE : somme des carrs expliqus par le modle




( ) ( )

= = =
+ =
n
i
i i
n
i
i
n
i
i
y y Y y Y y
1
2 2
1
2
1
) (
SCT = SSE + SCR
Qualit de la rgression
Interprtation gomtrique de la
dcomposition en somme de carrs
y y

y
2 2 2
y y y y y y + =
Thorme de Pythagore
|
|
|
.
|

\
|
=
n
y
y
y
1
|
|
|
.
|

\
|
=
Y
Y
y
|
|
|
.
|

\
|
=
n
y
y
y

Qualit de la rgression
Les coefficients de dtermination
Le coefficient de dtermination R
2


Il exprime le pourcentage de la variance de Y
explique par le modle. Il donne une ide
globale de l'ajustement du modle.
Le R
2
ajust se calcule en fonction du R
2
:


Il traduit la fois la qualit de lajustement
(liaison entre Y et les X
i
) et la complexit du
modle (nombre de variables explicatives).
R
2
= SCE/SCT
) 1 (
1
1
1
2 2
R
p n
n
R
a



=
Qualit de la rgression
Remarques sur le R
2

0R
2
1
Lorsque le R
2
est proche de 1, cela se signifie que la
variable dpendante Y est bien explique par les
variables X
i
.
La racine carre de R
2
, R, porte le nom de coefficient de
corrlation multiple entre Y et les X
i
.
Lorsque lon ajoute de nouvelles variables explicatives
au modle, le R
2
augmente (mme dans le cas o les
nouvelles variables explicatives sont trs lies la
variable dpendante).
Cest la raison pour laquelle on introduit le R
2
ajust.
Qualit de la rgression
Le test global de Fisher
Il permet de rpondre la question : la liaison
globale entre Y et les X
i
est-elle significative ?
Hypothses
H0: |
1
= |
2
= ... = |
p
= 0
Y ne dpend pas des variables X
i
.

H1: Au moins un coefficient est non nul
Y dpend dau moins une variable X
i
.
Qualit de la rgression
Statistique utilise




Rgle de dcision
Au risque o, on rejette H0 si : o p-value
(calcule avec une loi de Fisher p et n-p-1
degrs de libert)

1
SCR
SCE
MSR
MSE
F

= =
p n
p
Qualit de la rgression
R
2
et test de Fisher
F bon, R mauvais F bon, R bon
Qualit de la rgression
Le test de Student sur un coefficient de
rgression
Il permet de rpondre la question suivante :
lapport marginal dune variable X
j
est-il
significatif ?
Hypothses
H
0
: |
j
= 0 (j0)
On peut supprimer la variable X
j
H
1
: |
j
= 0
Il faut conserver la variable X
j

Qualit de la rgression
Statistique utilise sous lhypothse H0



Rgle de dcision
Au risque o, on rejette H0 si : o p-value
(calcule partir dune loi de Student
n-p-1 degrs de libert).
i
i
i
i
i
s
s
t |
|
|
|

de estim type - cart : ,

=
Analyse des rsidus
Normalit
QQ plot
Tests de normalit
Homoscdasticit
La variance des rsidus nest pas stable.
Transformation des donnes
Indpendance des rsidus
Test de Durbin-Watson
Dtection des valeurs atypiques

Les variables indicatrices
Variable muette ou indicatrice (dummy
variable)
Variable prenant les valeurs 0 ou 1 pour indiquer
que lobservation prsente une certaine
caractristique, par exemple une priodicit
(trimestre, mois,).
Exemple : la consommation de fuel trimestrielle


d
i
= 1 pour le i
me
trimestre
d
i
= 0 sinon
t t
d d d t X c | | | | | + + + + + =
4 4 2 3 1 2 1 0
Multicolinarit
Dfinition
Cest lexistence de corrlations leves (au del
de 0.70) entre les variables indpendantes
(variables explicatives).
La multicolinarit a notamment pour
consquences :
- de fausser la prcision de lestimation des
coefficients de rgression
- de rendre sensible lestimation des coefficients
de petites variations des donnes.

Multicolinarit
X
1

Variables indpendantes
X
3

X
2

Variables colinaires
X
2

Multicolinarit
Dtection
Examen de la matrice de variance covariance
ou de corrlation.
R
2
lev mais peu de variables significatives.
Fortes corrlations entre les X
i
Fortes corrlations partielles entre les variables
indpendantes.
Slection des variables
Problmatique
Comment choisir le modle comportant la
meilleure combinaison de variables indpendantes
expliquant la variable dpendante ?
Stratgies
Examiner tous les modles possibles
Slection progressive
Rgression pas pas descendante
Rgression pas pas ascendante
Slection des variables
Examiner tous les modles possibles
Cette stratgie consiste envisager tous les
modles et retenir le meilleur.
Inconvnients
Lenteur (2
p
modles si p est le nombre de variables
explicatives) et cot de cette approche
Cest quoi le meilleur modle ?

Slection des variables
Le test de Fisher
Il permet de tester si le fait dajouter une
variable indpendante un modle comportant
dj une variable (ou de supprimer une variable
dun modle comportant deux variables) est
statistiquement significatif.



La p-value correspondante est utilise comme
critre de dcision pou ajouter ou supprimer une
variable.
) 1 /( ) , (
) , ( ) (
2 1
2 1 1

=
p n X X SCE
X X SCE X SCE
F
Rgression pas pas
Calcul de F et de la
p-value pour chaque X
i

du modle
Dbut



p-value > seuil

?
Arrt
La variable X
i
ayant la
plus grande p-value est
supprime du modle
Calcul de F et de la
p-value pour chaque X
i
ne se trouvant pas
Dans le modle



p-value < seuil

?
La variable X
i
ayant la
plus petite p-value est
entre dans le modle
Non
Non
Oui
Oui
Rgression pas pas descendante
Arrt
Calcul de F et de la
p-value pour chaque X
i

p-value > seuil
?
La variable X
i
ayant
la plus grande p-value est
supprime du modle
Non
Oui
Au dpart
toutes les variables X
i
sont dans le modle
Exemples
Deux exemples sont traits en cours
laide du logiciel SPSS :
lun dentre eux illustre la mise en uvre
dune rgression multiple et lautre la
slection des variables dans un modle
laide de la mthode de rgression
descendante.
Une tude empirique
Titre de larticle : Reliving the 50s: the Big
Push, Poverty Traps, and Take-offs in
Economic Development, William Easterly
(2005)

Donnes utilises : Maddison, Angus. The
World Economy : Historical Statistics.
OECD 2003.
Une tude empirique
Lauteur William Easterly
Expert reconnu du dveloppement conomique
et de l'Afrique
Professeur lUniversit de New York
Chercheur au Center for Global Development
(Washington)
Il a travaill en tant quconomiste pendant 16
ans la Banque Mondiale. Il a d quitter
linstitution la suite de la parution de son
ouvrage : Les pays pauvres sont-ils
condamns le rester ? (juin 2006).
Une tude empirique
Termes importants dans le titre de larticle
conomie du dveloppement
Big Push
Poverty traps
Take-offs

Economie du dveloppement
Quest ce que lconomie du dveloppement ?
Branche de lconomie qui applique les mthodes
macroconomiques et microconomiques ltude
des problmes conomiques, sociaux,
environnementaux et institutionnels rencontrs par
les PVD (Pays en Voie de Dveloppement).
Points focaux
Dterminants de la pauvret et du sous
dveloppement
Politiques mettre en uvre pour sortir les PVD
de leur sous-dveloppement.
Une tude empirique
Le big push
Les conomistes du dveloppement des annes
50 prconisaient la thorie du "Big Push":
les pays les plus pauvres se trouvent enferms
dans une trappe pauvret. Daprs eux, seul un
effort massif d'investissement financ par l'aide
internationale peut leur permettre de dcoller.
Une tude empirique
La problmatique de larticle
Le rapport des Nations unies sur les objectifs du
millnaire de janvier 2005 et celui de la
Commission britannique pour l'Afrique de mars
2005 sont marqus par le retour de lide quune
combinaison dinvestissements peut permettre
aux conomies africaines de sortir des trappes
pauvret.
William Easterly a voulu tester cette approche du
big push comme rponse aux trappes
pauvret en utilisant des rgressions sur le taux
de croissance.
Une tude empirique
Comment tester lexistence de trappes
pauvret ?
Revue de la littrature
Les pays pauvres ont-ils une croissance par
tte significativement infrieure celle des
autres pays et cette croissance est-elle nulle ?

Donnes : revenu par tte de 1950 2001
pour 137 pays.
Une tude empirique
Test de stationnarit sur le taux de
croissance par tte
Une tude empirique
Que signifie la stationnarit ?
Si lhypothse dune trappe pauvret est vraie,
alors le Log du revenu par tte pour les pays les
plus pauvres doit tre stationnaire. Le revenu va
fluctuer dune faon alatoire autour de son
niveau moyen.
Une tude empirique
Formulation dun test de stationnarit
Hypothse H0 : le Log du revenu par tte
est stationnaire.
Hypothse H1 : le Log du revenu par tte
nest pas stationnaire.
Une tude empirique
Divergence Big Time (Pritchett,1996)
Le creusement considrable de lcart de
revenu entre les pays les plus riches et les plus
pauvres du monde.
Le ratio de revenu par habitant entre le pays le
plus riche et le plus pauvre du monde a t
multipli par 6 au cours du dernier demi-sicle.
Selon la Banque Mondiale, le revenu moyen
dans les 20 pays les plus riches est 37 fois plus
lev que le revenu moyen dans les 20 pays
les plus pauvres, et ce ratio a doubl depuis
1960.
Une tude empirique
Big time divergence
Utilisation dune rgression :
pour expliquer le taux de croissance par tte par
le revenu initial et des indicateurs de dmocratie
des institutions politiques.
Une tude empirique
Une tude empirique
Les indicateurs de dmocratie
Lindicateur de Freedom House (ONG) attribue:
deux notes, lune relative aux droits politiques et
lautre aux droits civils.
une lettre dpendant de la moyenne des deux notes
prcdentes.
Lindicateur Polity IV
Ce coefficient (qui va de 1, niveau de contrainte le plus
faible, 7) rend compte de la qualit initiale des
institutions politiques, mesure par les contraintes
pesant sur le pouvoir excutif.
Une tude empirique
Take-off (dcollage)
Une suite continue de rgimes croissance
nulle suivie dune suite continue de rgimes
croissance positive.
La croissance sera considre comme nulle ds
que le taux de croissance se trouve dans
lintervalle [-0.5%,0.5%].
La croissance par tte est considre comme
positive et stable lorsquelle est au-dessus de
1.5% su une priode suffisamment longue.
Une tude empirique
Situation de dcollage
t
Taux de croissance
0.5%
-0.5%
1.5%
Take-offs dans les pays riches
Take-offs in rich countries (data from Maddison 2003)
1600-1700 1700-1820- 1820-1870 1870-1913 1913-1960 1960-2001 1820-2001
Australia 3.7% 0.9% 1.1% 1.8% 2.1%
Austria 0.2% 0.2% 0.8% 1.4% 1.3% 2.8% 1.6%
Belgium 0.2% 0.1% 1.4% 1.0% 1.1% 2.7% 1.5%
Canada 0.6% 1.3% 2.2% 1.4% 2.3% 1.6%
Denmark 0.2% 0.2% 0.9% 1.6% 1.7% 2.4% 1.8%
Finland 0.2% 0.2% 0.8% 1.4% 2.3% 2.9% 1.6%
France 0.1% 0.2% 1.0% 1.4% 1.6% 2.5% 1.6%
Germany 0.1% 0.1% 1.1% 1.6% 1.6% 2.2% 1.6%
Greece 0.1% 0.2% 0.6% 1.4% 1.4% 3.4% 1.8%
Ireland 0.2% 0.2% 1.4% 1.0% 1.0% 4.1% 1.6%
Italy 0.0% 0.0% 0.6% 1.2% 1.8% 2.9% 1.9%
Japan 0.1% 0.1% 0.2% 1.5% 2.2% 4.0% 1.4%
Netherlands 0.4% -0.1% 0.8% 0.9% 1.5% 2.4% 1.7%
New Zealand 1.2% 1.4% 1.2%
Norway 0.2% 0.2% 0.5% 1.3% 2.3% 3.0% 1.5%
Portugal 0.1% 0.1% 0.1% 0.6% 1.8% 3.8% 1.5%
Spain 0.0% 0.1% 0.4% 1.2% 0.9% 4.0% 1.6%
Sweden 0.2% 0.2% 0.7% 1.4% 2.2% 2.1% 1.7%
United Kingdom 0.2% 0.3% 1.3% 1.0% 1.2% 2.1% 1.4%
United States 0.7% 1.3% 1.8% 1.5% 2.3% 1.7%
median growth of rich
countries 0.2% 0.2% 0.8% 1.3% 1.6% 2.7% 1.6%
Une tude empirique
Take-offs dans les pays riches
Parmi les pays riches, seul le Japon rpond la
dfinition donne du dcollage.
Pour tous les autres pays on observe plutt
une acclration graduelle de la croissance
plutt quun dcollage.
Cela nest pas compatible avec la notion dun
big push entranant une transition
soudaine dune stagnation vers une croissance
vigoureuse.
Take-offs dans les rgions en
dveloppement
Rgion
1820-1870 1870-1913 1913-1950 1950-1975 1975-2001
Africa
0.3% 0.6% 0.9% 1.8% 0.2%
Caribbean
countries (24)
-0.3% 1.8% 1.4% 3.2% 1.0%
East Asian
countries (16
)
-0.1% 0.5% -0.1%
3.5% 3.4%
East European
Countries (7)
0.6% 1.4% 0.6% 3.7% 0.4%
Latin America
0.0% 1.8% 1.4% 2.5% 0.8%
West Asian
countries (15)
0.4% 0.9% 1.3% 4.4% 0.2%
Une tude empirique
Take-offs dans les rgions en dveloppement
Seule la rgion du sud est asiatique satisfait la
dfinition propose du take-off.
LAmrique latine et les Carabes ont connu
pendant la priode 1870-1913 un pr-dcollage
mais il na pas t soutenu.
Une tude empirique
Take-offs dans les pays
Sur les 44 pays tudis, seuls 5 dentre eux
satisfont la dfinition dEasterly dun take-
off.
Une tude empirique
Sur lexistence des trappes pauvret
Easterly rejette lhypothse de lexistence des
trappes pauvret sur la base des deux
arguments suivants :
- il y a trs peu de pays taux de croissance sur
lintervalle [-0.5, 0.5] pour la priode 1950
2000
- le logarithme du revenu par tte nest pas
stationnaire.
Cependant sur le premier point, on peut
argumenter que cette conclusion est dpendante
des priodes ou sous priodes considres.
Une tude empirique
Conclusions de larticle
Aucun des pays tests dans ltude nest dans
une trappe pauvret (dfinie par une
absence totale et durable de croissance).
L'influence de l'aide sur l'investissement et la
croissance nest pas vidente. Il ne semble pas
non plus que l'aide soit un facteur
dterminant pour les rares pays avoir
dcoll.
Pour Easterly, la qualit des institutions
politiques est un facteur bien plus important
pour le dveloppement que lapport dune
d'aide massive et soudaine.
Une tude empirique
Remarque importante
Ce working paper est controvers sur un certain
nombre de points par dautres conomistes. Donc
prudence dans les conclusions quen tire lauteur.
Dans ce cours, cela a surtout servi introduire
une problmatique de recherche et mettre en
vidence un certain nombre de mthodes et
outils.
Une tude empirique
Mthodes et outils
Cet article montre la ncessit dutiliser, entre
autres, des mthodes de rgression et des tests
pour valider des hypothses dans les tudes
empiriques.
La rgression et les tests dhypothses sont deux
outils fondamentaux dans les tudes empiriques.

You might also like