Professional Documents
Culture Documents
Économétrie I
À l’usage des étudiants inscrits en S5
Parcours : Économie
Option : Sciences-Économiques
1
Support de cours : le manuel
Économétrie
Cours et exercices corrigés
9ème édition
RÉGIS BORBONNAIS
Maître de conférence à l’université de Paris-Dauphine
Économétrique économétrie
On distingue entre :
Un modèle économique
Un modèle économétrique
Prévision ou prédiction
III. Applications
Pr. Amale LAHLOU S5 : Sciences Economiques 7
Introduction
Variable X explicative
Quantitatif Qualitatif
à expliquer
Variable Y
Ct a0 a1 Rt t ou Ci a0 a1Ri i
La variable aléatoire ɛt (ou ɛi) regroupe trois types d’erreur :
– Erreur de spécification
– Erreur de mesure
– Erreur de fluctuation d’échantillonnage
Y Y
Linéarité Non-linéarité
X X
0< β <1
α αe
β <0
α
1 1/ β
y x ln y ln ln x y e x ln y ln x
On pose On pose
y ln y et x ln x y ln y et x x
Pr. Amale LAHLOU S5 : Sciences Economiques 19
Linéarisation de certaines fonctions
avec des transformations
0< β <1
1/ α
β/α
x 1 1 e x y
y y ln x
x y x 1 e x
1 y
On pose On pose
1 1 y
y
et x
y ln et x x
y x 1 y
Pr. Amale LAHLOU S5 : Sciences Economiques 20
(H2) :
Les valeurs xt sont observées sans erreur
( xt non aléatoire)
xt mesurée xt vraie
yt mesurée yt vraie t
Homoscédasticité Hétéroscédasticité
t N 0, 2
13
12
11
10
6
8 10 12 14 16
Revenu (Milliers)
0
Pr. Amale LAHLOU x1 S5 : Sciences Economiques
xt 30
Pour déterminer les estimateurs des Moindres Carrés Ordinaires aˆ0 et aˆ1
on doit minimiser analytiquement la quantité S a0 , a1 :
n n
Min t Min yt a0 a1 xt Min S a0 , a1
2 2
a0 , a1 a0 , a1 a0 , a1
t 1 t 1
e
t 1
t 0
S n
0
t 1 xe
t 1
t t 0
S n
0 2 xt yt aˆ0 aˆ1 xt 0
a1 t 1
a0 2
2 n 0
a12
2 t 1
xt 0
2
n n
La première équation donne : naˆ0 aˆ1 x y
t 1
t
t 1
t
t 1 t 1 t 1
en remplaçant â par son expression dans (*), on obtient :
0 n
n n
x x yt y
x y nx y x x y y
t
n 1 Cov x, y
t t t t t 1
aˆ1 t 1
t 1
n n n
Var x
x nx xt x xt x
2 2 2 2
t
t 1 t 1 t 1
n 1
Pr. Amale LAHLOU S5 : Sciences Economiques 32
Le coefficient représentant la pente de la droite ou la propension marginale est
donné par :
n n
x y t t nx y x t x yt y
Cov x, y
aˆ1 t 1
t 1
n n
Var x
xt2 nx 2 xt x
2
t 1 t 1
aˆ0 y aˆ1 x
autre relation utile,
yˆ t y aˆ1 xt x
xct xt x yct yt y
Alors
n
xct yct
aˆ1 t 1
n 2
t 1
x ct
années xt yt xt x yt y xt x
2
xt x yt y
1 8 000,00 7 389,99 -3 280,00 -2 595,59 10 758 400,00 8513518,8
2 9 000,00 8 169,65 -2 280,00 -1 815,93 5 198 400,00 4140309
3 9 500,00 8 831,71 -1 780,00 -1 153,87 3 168 400,00 2053879,7
4 9 500,00 8 652,84 -1 780,00 -1 332,74 3 168 400,00 2372268,3
5 9 800,00 8 788,08 -1 480,00 -1 197,50 2 190 400,00 1772292,6
6 11 000,00 9 616,21 -280,00 -369,37 78 400,00 103422,2
7 12 000,00 10 593,45 720,00 607,88 518 400,00 437670
8 13 000,00 11 186,11 1 720,00 1 200,54 2 958 400,00 2064920,2
9 15 000,00 12 758,09 3 720,00 2 772,52 13 838 400,00 10313755,8
10 16 000,00 13 869,62 4 720,00 3 884,05 22 278 400,00 18332692,4
Somme 112 800,00 99 855,75 0 0 64 156 000,00 50104729
Moyenne 11 280,00 9 985,58 0 0
x
t 1
t x yt y
50 104 729,00
aˆ1 = 10
= =0,78
xt x
2 64 156 000,00
t 1
12,00
x, y
10,00
y 9985,58
8,00
6,00
4,00
2,00
aˆ0 1176,1
0,00 x 11280, 00
0,00 2,00 4,00 6,00 8,00 10,00 12,00 14,00 16,00
revenu (Milliers)
Coefficients
Constante 1176,089634
Variable X 1 0,780982745
Par calcul,
ˆ1 = 0,78
a
ˆ0 1 176,08
a
n
â0
â1
xt x t
2 2
x x
De même t 1 t 1
1 n
aˆ0 y aˆ1 x yt x
n
xt x yt
n
xt x
n t 1 t 1 2
t 1
n
aˆ0
1
n
xt x x
yt
t 1 n
t
2
x x
t 1
Pr. Amale LAHLOU S5 : Sciences Economiques 42
Les estimateurs sont sans biais
Les estimateurs des Moindres Carrés Ordinaires sont non-biaisés si les
observations xt sont non aléatoires (H2) et l’espérance mathématique de
l’erreur est nulle (H3).
Estimateur de la pente E aˆ1 a1 : on exprime â1 en fonction de a1
n
x t x yt y
aˆ1 t 1
n
x x
2
t
Comme, t 1
yt a0 a1 xt t
yt y a1 xt x t
y a0 a1 x
Donc, n n
xt x xt x
2 2
t 1 t 1
x x E
t t
E a1 t 1
n (H3) : E t 0
x x
2
t
t 1
n
x x E
t t
= a1 t 1
n
x x
2
t
t 1
En conclusion, E aˆ1 = a1
E aˆ0 a0
Où Var aˆ0 ,Var aˆ1 sont les variances respectives de aˆ0 , aˆ1
Pour cela , les hypothèses (H4) et (H5) doivent être vérifiées.
Var a
ˆ1 E aˆ1 a1
2
Car
n
n
2
x x
t t
t t
x x aˆ1 a1 t 1
E
t 1 n
x x
2
n
2
xt x t 1
t
t 1
n
2
xt x t
E t 1
n 2
2
xt x
t 1
Pr. Amale LAHLOU S5 : Sciences Economiques 46
n
2
E xt x t
t 1
Var aˆ1
2
n 2
xt x
t 1
n n
E xt x t 2 xt x xt x t t
2 2
t 1 t t
(H4) n 2
2
Var t E t2 2 cste xt x
t 1
2 x
n n
x x E x xt x E t t
2 2
t t t
t t
t 1
2
n 2
t x x
t 1
Var t
n
x x (H5) E t t 0
2
t
t 1
2
n
x x
2
t
t 1
xt x
2
t 1
E aˆ1 a1 x
2
E aˆ1 a1 x E 2 2 E aˆ1 a1 x
2
1 n
2
x E aˆ1 a1 E t
2 2
n t 1
1 n n
x aˆ1 2 E t 2 t t
2 2 2
n t 1 t t
t 1
2 1 n
x2 n
2 nE 2
t 2 E t t
xt x
2 n t t
t 1
2 1 2
x2 n
xt x
2 n
t 1
1 x 2
2 n
n
xt x
2
t 1
Pr. Amale LAHLOU S5 : Sciences Economiques 50
Ainsi, les variances théoriques de ces estimateurs:
1 x2
Var aˆ0 = a2ˆ0 2
n
n
x x
2
t
t 1
2
Var aˆ1 = a2ˆ1 n
x x
2
t
t 1
2
Var aˆ0 = x 2 Var aˆ1
n
Pr. Amale LAHLOU S5 : Sciences Economiques 51
Montrons Cov aˆ0 , aˆ1 x Var aˆ1
x y t t
si Cov aˆ0 , aˆ1 0 x 0 aˆ0 y et aˆ1 t 1
n
t
x 2
t 1
Pr. Amale LAHLOU S5 : Sciences Economiques 52
Matrice variance covariance
xt x x x
2 2
t
t 1 t 1
Pr. Amale LAHLOU S5 : Sciences Economiques 53
En résumé :
Probabilité σ σ
P(Y)
Y
aˆ x
yˆ t aˆ 0 1 t
x1 x2 X
Distribution des valeurs projetées sur la droite des Moindres Carrés
La variable Y suit aussi une loi normale
yt a0 a1 xt t 1
et yt yˆ t
y a0 a1 x 2
yt aˆ0 aˆ1 xt et 3
y aˆ0 aˆ1 x 4
yˆt aˆ0 aˆ1 xt 5
1 2 : yt y a1 xt x t
D’où,
3 4 : yt y aˆ1 xt x et
et a1 aˆ1 xt x t
a aˆ x x
n n n
2 t 2 a1 aˆ1 xt x t
2 2
t
2 2
1 1 t
t 1 t 1 t 1
n n n
t 1 t 1 t 1
n n
n a1 aˆ1 x x
2 2 n
x x
2 2
t t
t t
t 1 t 1
aˆ1 a1 t 1
1n n
n n n
t2 2 t t a1 aˆ1 xt x x x
2 2 2 2
t t
t 1 n t 1 t t t 1 t 1
1 n 2 2 n n
1 t t t a1 a1 xt x
2 2
ˆ
n t 1 n t t t 1
t 1 n t 1 n t t t 1
1 n 2 n n
1 E t E t t xt x Var aˆ1
2 2
n t 1 n t t t 1
ˆ1 =E aˆ1 a1
2
1 2 Var a
1 n 2
2
n Var aˆ1 n
n 2
2
2 x t x
t 1
e y ˆt
2
2
t t y
SCR
ˆ
2 t 1
t 1
n2 n2 n2
ˆ 2
ˆ 2
aˆ1 n
x x
2
t
t 1
1 x2
ˆ a2ˆ ˆ 2
n
n
x x
0
2
t
t 1
Somme 99 855,75 112 800,00 50 104 729,00 39 296 098,18 64 156 000,00 0,00 165 169,38
n
n
x x x x
2 2
t t
Pr. Amale LAHLOU t 1
S5 : Sciences Economiques t 1 61
Cliquer ici (R.B. C2EX1, eco9)
(LAHLOU-Régression-Linéaire.xls, feuille rapport)
Statistiques de la régression
Coefficient de détermination multiple R 0,997896187
Coefficient de détermination R2 0,995796799
Coefficient de détermination ajusté 0,995271399
Erreur-type 143,6877615
ˆ
Observations 10 n
Coefficients Erreur-type
Constante 1176,089634 207,3920575 ˆ aˆ
0
Variable X 1 0,780982745 0,01793912
ˆ aˆ
1
â0
â1
ˆ aˆ0
ˆ aˆ 1
n
â0
â1
ˆ
t N 0, 2
Si on suppose que
aˆ0 a0 aˆ1 a1
Tn 2 et Tn 2
ˆ aˆ0 ˆ aˆ1
t 1 ˆ a2ˆ ˆ 2
2 2 1
ˆ 2 ˆ 2 aˆ
1
aˆ1 n
xt x
2
t 1
1 x2
aˆ
2 2
0 n
n
x x
2
ˆ a2ˆ ˆ 2
t
t 1
2 2 0
aˆ
1
0
2 x 2
ˆ aˆ0 ˆ
2
n ˆ a2ˆ ˆ a2ˆ
n
x x
2
ˆ 2
t
1
2 2
0
t 1 alors
aˆ2
aˆ
1 0
et 0
t N 0, et t t iid
2
N 0,1
n
et t 1
n
2 t
e 2
2 1 n
t 1
ˆ 2
n 2
t 1
et
2
ˆ 2
n 2 2 n22
ˆ a2ˆ1 ˆ 2
n 2 2 n22 et n 2 20 n22
aˆ
aˆ1 aˆ0
aˆ
0
0 aˆ 0
n2
Le rapport d’une loi normale centrée réduite à la racine N 0,1
carrée d’un Chi-deux divisé par son degré de liberté (n-2) Tddl
2
ddl
suit une loi de Student de degré de liberté (n-2) ddl
aˆ1 a1 aˆ1 a1
aˆ1 a1 aˆ aˆ
1
1
Tn 2
ˆ aˆ1 ˆ aˆ ˆ a2ˆ
n 2 2
1
aˆ
1
1 aˆ 1
n2
Pr. Amale LAHLOU S5 : Sciences Economiques 67
Mise en place de l’inférence statistique
Comparaison d’un coefficient de régression par rapport à une valeur fixée (test
d’hypothèse au risque α. α étant le risque du premier espèce, c’est la probabilité de
rejeter à tort l’hypothèse nulle P RH 0 H 0vraie )
H0 : a1 a
H1 : a1 a
Test de significativité. En général, on cherche à tester si le propension marginale est
significativement différente de zéro au risque α, c’est-à-dire, on s’interroge sur la
contribution (peu importe si positive ou négative) de la variable explicative :
H0 : a1 0
H1 : a1 0
Détermination d’un intervalle de confiance au niveau de confiance (1 – α)
-tα/2 tα/2
Valeur critique Valeur critique
ta *<- tα/2 |ta *| tα/2
inférieure ta*>tα/2 supérieure
ˆ aˆ , aˆ1 t ˆ aˆ
I a0 0 t 2
n2
0
2
n2
0
La loi de Student est approximée par une normale centrée réduite si n-2 > 30
I a1 aˆ1 z ˆ aˆ1 , aˆ1 z ˆ aˆ1
I a0 aˆ 0 z ˆ aˆ0 , aˆ1 z ˆ aˆ0
Pr. Amale LAHLOU S5 : Sciences Economiques 70
C2EX2
Nous avons déterminé la droite de régression :
yˆt aˆ0 aˆ1 xt 1 176, 08 0, 78 xt
aˆ1 0,780982745
aˆ1
ˆ taˆ1
*
43,535175 > t 80,025 2, 306
aˆ1 0,01793912
ˆ aˆ1
Sur la table de Student donnée en annexe on lit :
P( T8 2,306) 0,05
Ou encore, on calcule la p-value :
P( T8 43,53) 8,557 10-11 0,05
aˆ1 a1
P Tn 2 tn 2 1 P tn 2
2
tn 2 0,95
2
ˆ
ˆ
a1
Somme 99 855,75 112 800,00 50 104 729,00 39 296 098,18 64 156 000,00 0,00 165 169,38
aˆ1
t *
aˆ1 ˆ aˆ1 43,535175 >t80,025 On rejette (H0 : a1 = 0)
aˆ0
â0 ˆ aˆ 0
taˆ0 ˆ aˆ0
Probabilité ou p-valeur :
On rejette
p 2 P Tn 2 taˆ aˆ0 tn 2ˆ aˆ0
/2
H0 : a1 = 0
aˆ1 tn/ 22ˆ aˆ1
Puisque p-valeur
p 2 P Tn 2 t aˆ est inférieur à α
ˆ aˆ0
ˆ aˆ 1
t â0 tâ1
n
â0
â1
P value tâ0
P value t
â1
ˆ
e
t 1
t 0
n n n
e
t 1
t yt yˆ t
t 1
y
t 1
t aˆ0 aˆ1 xt
ny naˆ0 naˆ1 x
ny n y aˆ1 x naˆ1 x
0
En effet, e
t 1
t 0 yt yˆ t 0 yt yˆ t
t 1 t 1 t 1
ainsi (y
t 1
t y) 2
(y
t 1
t y
ˆt y
ˆt y ) 2
n n n
yˆ y ( yt y
ˆ t ) 2 ( yt y
ˆt ) y
ˆt y
2
t
2
t 1 t 1 t 1
n n
yˆ y ( yt y
2
t
ˆt )2
t 1 t 1
yˆ
n n
et2
2
t y
ˆ Terme nul
t 1 t 1
yˆ
n n
(et e ) 2
2
t y
ˆ
En effet, t 1 t 1
n n
y
t 1
t
ˆ t y
y ˆt y e yˆ
t 1
t t y
n
n n
Car et 0
et yˆ t y et
t 1 t 1
t 1
n
n xe 0
e aˆ ˆ1 xt
t t
t 0 a t 1
t 1
n n
ˆ 0 et a
a ˆ1 et xt
t 1 t 1
0
t t yt yˆ t
2
( y y ) 2
( ˆ
y y ) 2
t 1 t 1 t 1
(TSS :Total Sum of Squares) (RSS: Regression Sum of Squares) (ESS: Error Sum of Squares)
SCT la variabilité totale des yt. C’est la somme des carrés des
écarts des observations yt par rapport à la moyenne y
SCE la variabilité expliquée par le modèle. C’est la dispersion
totale - la dispersion résiduelle
SCR la variabilité résiduelle. C’est la Somme des carrés des
écarts des observations yt par rapport aux valeurs estimés
par le modèle yˆ t
n n n
yt ˆt e et e
2 2
y 2
t
t 1 t 1 t 1
0 xt
Ecart total yt y = écart dû au modèle yˆt y + écart résiduel yt yˆt
n
n (y t y )2
SCT ( yt y ) 2 n 1 t 1
n 1 y2
t 1 n 1
n
n (x t x )2
Cov 2 ( x, y )
SCE ( yˆ t y ) n 1 aˆ
2 2 t 1
n 1
t 1
1
n 1 x2
n
n n e t
2
SCR ( yt yˆt ) 2 et 2 n 2 t 1
n 2 ˆ 2
t 1 t 1 n2
81
n n n
t
( y
t 1
y ) 2
t
( ˆ
y
t 1
y ) 2
t
e 2
t 1
SCE t
( ˆ
y y ) 2
0 R2 1
R 2
t 1
n
(y
SCT
t y )2
t 1
n n
SCR ( yt yˆt ) 2
t
e 2
R2 1 1 t 1
n
1 n
t 1
( yt y ) t
SCT 2
( y y ) 2
yˆt yt
yˆt y 0 R2 1
Plus le R 2 se rapproche
x
R2 0
x
de 0, plus le nuage de R 1
2
( x x )( y y )
t t x y n x y
t t
XY t 1
t 1
n n n n
( xt x )
t 1
2
( yt y )
t 1
2
x n x
t 1
2
t
2
t
y 2
t 1
n y 2
Ce qui implique : 2
X X
r aˆ1 r aˆ1
2
Y Y
En plus : 2 n n n
aˆ1 xt x aˆ1 xt aˆ1 x
tˆ
2 2 2
y y
SCE
2 nt 1 t 1
n
t 1
n
R2
t y y 2
ty y 2
ty y 2 SCT
t 1 t 1 t 1
Nulle
Aucune relation
entre les variations
Négative Positive
des valeurs de l’une
Les valeurs de l’une des Augmentation ou
des variables et les
variables augmentent, les diminution simultanée
valeurs des autres
valeurs de l’autre variable des valeurs des deux
variables
diminuent variables
forte
forte
parfaite
parfaite
nulle
-1 -0,5 0 0,5 1
x x x
Relation parfaite Relation forte Relation modérée
y y
x x
Relation faible Pas de relation
Pr. Amale LAHLOU S5 : Sciences Economiques 88
Y Y Y
v
v
X X X
r 1 r 0 r 1
il existe une corrélation corrélation linéaire nulle. il existe une corrélation
linéaire négative parfaite Alors, aucune linéaire positive parfaite
entre X et Y : droite de dépendance linéaire entre X et Y : droite de
régression décroissante. entre X et Y. régression croissante.
1 R 2
n 1
Il peut être
négatif
Ra2 1
SCR n 2
SCT n 1
R2
n2
1 1 R2
n2
Lorsque l’on ajoute des variables explicatives au modèle le R2
peut seulement croître même si ces nouvelles variables sont très
liées à la variable à expliquer. Il peut être ainsi amplifié
artificiellement par l’addition de n’importe quelle variable
explicative. Tandis que le R2 ajusté peut croître ou décroître.
Il est préférable de comparer les valeurs des R2 ajustés pour
déterminer si l’introduction d’une variable supplémentaire est utile
Pr. Amale LAHLOU S5 : Sciences Economiques 90
Cliquer ici (R.B. C2EX1, eco9)
(LAHLOU-Régression-Linéaire.xls, feuille coefficient de détermination)
Année yt xt yt y xt x yt y xt x yt y
2
xt x
2
ˆt
y et yt yˆt et2
1 7 389,99 8 000,00 -2 595,59 -3 280,00 8 513 518,80 6 737 061,49 10 758 400,00 7 423,95 -33,96 1 153,39
2 8 169,65 9 000,00 -1 815,93 -2 280,00 4 140 309,00 3 297 583,61 5 198 400,00 8 204,93 -35,28 1 244,98
3 8 831,71 9 500,00 -1 153,87 -1 780,00 2 053 879,70 1 331 404,44 3 168 400,00 8 595,43 236,28 55 830,26
4 8 652,84 9 500,00 -1 332,74 -1 780,00 2 372 268,30 1 776 182,58 3 168 400,00 8 595,43 57,41 3 296,40
5 8 788,08 9 800,00 -1 197,50 -1 480,00 1 772 292,60 1 433 994,28 2 190 400,00 8 829,72 -41,64 1 733,93
6 9 616,21 11 000,00 -369,37 -280,00 103 422,20 136 430,50 78 400,00 9 766,90 -150,69 22 707,43
7 10 593,45 12 000,00 607,88 720,00 437 670,00 369 512,02 518 400,00 10 547,88 45,57 2 076,39
8 11 186,11 13 000,00 1 200,54 1 720,00 2 064 920,20 1 441 284,29 2 958 400,00 11 328,87 -142,76 20 379,08
9 12 758,09 15 000,00 2 772,52 3 720,00 10 313 755,80 7 686 839,43 13 838 400,00 12 890,83 -132,74 17 620,12
10 13 869,62 16 000,00 3 884,05 4 720,00 18 332 692,40 15 085 805,56 22 278 400,00 13 671,81 197,81 39 127,39
Somme 99 855,75 112 800,00 50 104 729,00 39 296 098,18 64 156 000,00 0,00 165 169,38
SCR n 2
n n n n
SCR yt yˆ t et2 SCT ( yt y ) 2 SCE ( yˆt y ) 2 R 2 SCE
2
Ra2 1
t 1 t 1 t 1 t 1 SCT SCT n 1 R R2
Pr. Amale LAHLOU S5 : Sciences Economiques 91
Cliquer ici (R.B. C2EX1, eco9)
(LAHLOU-Régression-Linéaire.xls, feuille rapport)
R
Statistiques de la régression
Coefficient de détermination multiple R 0,997896187
Coefficient de détermination R2 0,995796799 R2
Coefficient de détermination ajusté 0,995271399
Erreur-type 143,6877615
Ra2
Observations 10
ˆ
n
99,58% de la variabilité dans la consommation peut s’expliquer par la variabilité
du revenu. Seulement 0,42% restants s’expliquent très mal : parfaite corrélation
ˆ aˆ
0
ˆ aˆ
1
t â*0 tâ*1
n
â0
â1
P value tâ*0
P value t
*
â1
R2
Ra2
ˆ
SCE
Régression n
linéaire
Variables
k 1
t 1
( yˆ t y ) 2 MCE SCE
F
MCE
MCR
explicatives
k
n
SCR et2
t 1 SCR
Résidu n k 1 n MCR
( yt yˆt ) 2
n k 1 k nombre de facteurs. Pour
t 1 la régression simple k = 1
SCT
Total n 1 n
t
( y
t 1
y ) 2
( yˆ
n
Régression y )2 1
t
n
ˆ
( yˆ
2
1 y) 2 ( y y ) t
linéaire t t 1 F t 1
n
Variable t 1
explicative x
1 e n 2
t 1
2
t
(y yˆ t ) 2 n
Résidu n2
t 1
n
t
t
e 2
t 1
e
t 1
2
t n2
Dans la variance
n 1 n
(y
n
e
n
Total (y y) y
ˆt )
2 2 2
t t t
t 1 t 1 t 1
n
Il y a n écart et deux
Dans la variance ( yt y )
2
t 1
contraintes connues :
n n
e e x
Il y a une seule
Il y a n écart et une contrainte t 0 et t t 0
variable explicative.
connue : n t 1 t 1
D’où, le degré de
liberté est : 1
(y t 1
t y) 0
D’où, le degré de liberté est :
D’où, le degré de liberté est : n 1 n2
Degrés Sommes
F
Source de Moyenne des
de des Fisher
variation carrées
liberté carrées
SCR
Résidus n2 SCR MCR
n2
Fisher de degrés
Total (y) n 1 SCT de liberté 1 et n-2
SCE SCE 2 2
MCE 1 (n 2) SCT (n 2) R R
F
MCR SCR SCR 1 R 2
(1 R 2 ) (n 2)
n2 SCT
Si la variance expliquée par le modèle est significativement supérieure à
la variance résiduelle, alors la variable X est réellement explicative.
Pr. Amale LAHLOU S5 : Sciences Economiques 96
Le test de Fisher (analyse de la variance) permet d’intégrer la taille de
l’échantillon n dans l’appréciation de la qualité de la représentation. Soit
le test d’hypothèses : H : SCE SCR
0
H1 : SCE SCR
SCE
1
Calculer le Fisher empirique : F SCR
n2
F
Comparer F avec 1, n 2 , le Fisher tabulé à (1,n-2) degré de liberté
et au seuil
Conclure : si F F1, n 2 ou la p-valeur associée est inférieur à α on
rejette l’hypothèse nulle d’égalité des variances et donc la variable X est
significative et explicative de la variable Y
Pr. Amale LAHLOU S5 : Sciences Economiques 97
Équivalence des tests
dans un modèle de régression linéaire simple
H 0 : a1 0
Test sur le coefficient de régression linéaire (pente de la 1
droite de régression) H1 : a1 0
H 0 : rxy 0
Test sur le coefficient de corrélation linéaire entre les 2 H : r 0
variables x et y 1 xy
H 0 : SCE 0
Test de signification de la Somme des Carrés Expliqués 3
H1 : SCE 0
H0 : R2 0
Test de signification du coefficient de détermination 4
H1 : R 0
2
n2
Pr. Amale LAHLOU S5 : Sciences Economiques 99
Le test (3) se fait au moyen de la statistique de Fisher F1, n 2 :
H 0 : SCE 0
3
H1 : SCE 0
H 0 : R2 0
4
H1 : R2 0
sous H0 et au risque : R2
1 F1, n 2
1 R 2
n2
Pr. Amale LAHLOU S5 : Sciences Economiques 100
En effet, sous l’hypothèse H 0 : a1 0 Cov( x, y )
aˆ1 r
t aˆ1 Tn 2 Déjà montré x y
*
ˆ aˆ1
De même : r Cov( x, y )
1 Tn 2 aˆ1
1 r 2 x2
n2
n
tx x 2
t 1
aˆ1
n n
y y aˆ1 x x
2 2
r t t
1 r t 1 t 1
n2 n2 n2
1 r 2
1 r 2 n n n
x x y y aˆ x x
2 2 2 2
n2 t t 1 t
1 t 1
n
t 1 t 1
y y
2
t
t 1
Équation
n n
fondamentale
aˆ1 x x aˆ1 x x de l’analyse
2 2
t t
t 1 t 1 aˆ1 de la variance
Tn 2
n ˆ ˆ aˆ1
et2
t 1 yˆ t y aˆ1 xt x
n2
Pr. Amale LAHLOU S5 : Sciences Economiques 101
SCE
De même, 1 F1, n 2
SCR
n2
n n
yˆ t y
0 1t 0 1
ˆ ˆ ˆ ˆ
2 2
SCE a a x a a x
1 n 2 t 1
n
n 2 t 1
n
SCR
n 2 y yˆ t e
2 2
ˆ t aˆ0 aˆ1 xt
t t
t 1 t 1 y
2
y aˆ0 aˆ1 x
n
x x aˆ2
aˆ2 2
1 t 1
a2ˆ
n 2 t 1
n
n 2 n
1
n n
e
t 1
2
t e
t 1
2
t t t t
( y ˆ
y )
2
e 2
t 1 t 1
2
aˆ1 a1
2
aˆ 2 aˆ1
1 aˆ
aˆ n
2
xt x 2
2 1
n 2 n 2 1 2
2
aˆ1 1
n
et et
2 aˆ1
e
n n t 1
2
t
t 1 t 1
t 1
2 n 2
SCE 12
1 1 F1, n 2
SCR 2
n 2 n2
n2
S5 : Sciences Economiques 102
2
puisque, et
n
et
t N 0, 2 N 0,1 n2 2
t 1
2
aˆ1 a1 Une seule normale centrée
2
aˆ 1 réduite au carré
1
Le rapport (de deux variables indépendantes) d’un
Donc, SCE Chi-deux divisé par son degré de liberté (1) à un
1 F1,n 2
SCR Chi-deux divisé par son degré de liberté (n-2) suit
n2 une loi de Fisher de degrés de liberté (1, n-2)
Il est à noter qu’en régression linéaire simple, on se ramène à un test par analyse de la
variance où le Fisher empirique est le carré de Student empirique :
n n
SCE yˆ y aˆ 1 xt x
2
aˆ 12 aˆ1
2
t
1 n 2 n 2 2 t a*ˆ 2
F
* t 1 t 1
SCR n n
ˆ aˆ1 ˆ aˆ1
n 2 t t
1
2 2
e e
t 1 t 1
n2
n n n
Somme 99 855,75 112 800,00 50 104 729,00 39 296 098,18 64 156 000,00 0,00 165 169,38
ˆ aˆ
0
ˆ aˆ
1
t â*0 tâ*1
n
â0
â1
P value tâ*0
P value t
*
â1
R2 y
Ra2 y
ˆ
SCR
*
F
P value F *
n2
Pr. Amale LAHLOU S5 : Sciences Economiques 109
Calculons r: rappelons que le signe de rest celui de â1
r
1 ta*ˆ1 r 2
t
* 2
aˆ1
10,22
0,556 r 0,746 r 0,746
1 r n 2 t
* 2 83 10,2
2 2
aˆ1
n2
i 1 i 1 i 1
85
SCT ( yi y ) 2
i 1
(y
SCT SCT
t y )2
i 1
85
la connaissance de SCR ei2 6234, 32 permet de déterminer
i 1
SCR
SCT 14041, 261 ainsi que SCE SCT r 2
7806, 941
1 r 2
A. Prévision ponctuelle
B. Intervalle de prédiction
n
1 2
2 1 xn 1 x n
2
n
2
x x t
t 1
1 xn 1 x 1
2
Var en 1
2
n
n
2
x t x
Pr. Amale LAHLOU
t 1
S5 : Sciences Economiques 116
L’intervalle de prédiction de niveau de confiance (1 - α) % :
en 1 yn 1 yˆ n 1 2 1
N 0, ˆ
xn 1 x 2 1
n n
t x x 2
t 1
Soit, yn 1 yˆ n 1
Tn 2
ˆ
1
xn 1 x 2
1
n
n
t x x 2
t 1
yn 1 yˆ n 1 t n 2 2ˆ
1
xn 1 x 2 1
n
xt x
n 2
t 1
Année yt xt yt y xt x yt y xt x yt y
2
xt x
2
ˆt
y et yt yˆt et2
1 7 389,99 8 000,00 -2 595,59 -3 280,00 8 513 518,80 6 737 061,49 10 758 400,00 7 423,95 -33,96 1 153,39
2 8 169,65 9 000,00 -1 815,93 -2 280,00 4 140 309,00 3 297 583,61 5 198 400,00 8 204,93 -35,28 1 244,98
3 8 831,71 9 500,00 -1 153,87 -1 780,00 2 053 879,70 1 331 404,44 3 168 400,00 8 595,43 236,28 55 830,26
4 8 652,84 9 500,00 -1 332,74 -1 780,00 2 372 268,30 1 776 182,58 3 168 400,00 8 595,43 57,41 3 296,40
5 8 788,08 9 800,00 -1 197,50 -1 480,00 1 772 292,60 1 433 994,28 2 190 400,00 8 829,72 -41,64 1 733,93
6 9 616,21 11 000,00 -369,37 -280,00 103 422,20 136 430,50 78 400,00 9 766,90 -150,69 22 707,43
7 10 593,45 12 000,00 607,88 720,00 437 670,00 369 512,02 518 400,00 10 547,88 45,57 2 076,39
8 11 186,11 13 000,00 1 200,54 1 720,00 2 064 920,20 1 441 284,29 2 958 400,00 11 328,87 -142,76 20 379,08
9 12 758,09 15 000,00 2 772,52 3 720,00 10 313 755,80 7 686 839,43 13 838 400,00 12 890,83 -132,74 17 620,12
10 13 869,62 16 000,00 3 884,05 4 720,00 18 332 692,40 15 085 805,56 22 278 400,00 13 671,81 197,81 39 127,39
Somme 99 855,75 112 800,00 50 104 729,00 39 296 098,18 64 156 000,00 0,00 165 169,38
â1 = 0,780982745
Estimation de yˆt aˆ1 xt aˆ0 0, 78 x 1176, 08
â0 = 1176,089634
2 1
Var (et * ) ˆ n
xn 1 x
2
1 18 352,15
Consommation pour un revenu xt*=10 000 n
xt x 2
Prédiction ponctuelle : yˆt* aˆ0 aˆ1xt* 1176,08 0,78 10000 ŷ t 985,917086 *
t 1
1 xn 1 x 2
l’intervalle de prédiction yn 1 yˆ n 1 t n 2ˆ
2
n
1
xt x
n 2
t 1
et
ˆ et
SCR n2
ˆ et ˆ 135,4701208
n 1 n 1
Pr. Amale LAHLOU 119
R.B. Exercice 5, CEX2, page 41
Nous reprenons le modèle consommation-revenu spécifié série temporelle :
yt 1176, 08 0, 78 xt et t 1,...,10
Les ratios de Student empiriques sont : ta*ˆ1 43,53 et ta*ˆ0 0,21
t a2ˆ1 43 ,532
Alors, r 2 0,99579 et puisque
n 2 t aˆ1 8 43,53
2 2
xt x 6415600 ; x 11280 ; n 10
2
t 1
Alors,
16800 11280
2
1
y11 14280, 08 2, 306 143, 69 1
10 64156000
y11 14280, 08 415,81792
122
Déterminons IC12 l’intervalle de prédiction à l’année 12 (la
réalisation à 95% de se trouver dans cet intervalle) :
x12 x
2
1
ˆ12 tn/ 22ˆ
y12 y n
1
xt x
n 2
t 1
x x
2
t 6415600 ; x 11280 ; n 10
t 1
1 17000 11280
2
Alors:
y12 14436,08 2,306 143,69 1
10 64156000
y12 14436,08 420,42992
haˆ1 faˆ1
t *
haˆ1 5,2 t380,025 t0,025 z 0,05 1,96 t *faˆ1 2,5 t230,025 2,069
ˆ haˆ1 ˆ faˆ1
L’écart type est L’écart type est
haˆ faˆ1 0, 7
ˆ haˆ 1
1,8
0,35 ˆ faˆ 0,28
1
5, 2 5, 2
1
2, 5 2, 5
et PT38 5,2 7,10 10-6 et PT28 2,5 0,02
125
Question 2 : Existe-il une différence significative entre la rémunération
des hommes et des femmes ?
On se ramène à un test de différence de moyennes de variables aléatoires
normales indépendantes et de variances inégales :
H 0 : ha1 fa1 Ou encore H 0 : d ha1 fa1 0
H1 : ha1 fa1 H1 : d ha1 fa1 0
Soit donc la distribution haˆ1 faˆ1 ha1 fa1
Tn1 n2 4
ˆ haˆ1 faˆ1
On pose dˆ haˆ faˆ donc
1 1
ˆ ˆ
2
dˆ
2
haˆ1 faˆ1 ˆ ha
2
ˆ1 ˆ 2
faˆ1 2 cov( ˆ
ha1 , ˆ
fa1 ) ˆ 2
haˆ1 ˆ 2
faˆ1
yt 32,95 1, 251xt et
n 20
R 2 0, 23
ˆ 10, 66
SCR
ˆ 10, 66 SCR 10, 66 18 2045, 44
2
n2
SCR SCR 2045, 44
R 1
2
0, 23 SCT 2656, 42
SCT 1 R 2
1 0, 23
SCT SCE SCR SCE SCT SCR 2656, 42 2045, 44 610,98
R2 SCE 610,98
F *
18 5, 40
1 R 2
n 2 SCR n 2 2045, 44
t 5, 40 t
2
F * *
aˆ1
*
aˆ1 5, 40 2,32
aˆ1 1, 251
ˆ aˆ1 *
0,54
taˆ1 2,32
S5 : Sciences Economiques 128
Question 2 : Le coefficient de la variable x est-il significativement
supérieur à 1 ?
aˆ1 a1 1,25 1
t *
0,46 t18
0 ,10
1,734
aˆ
ˆ1
a
1
0,54
Dependent variable : Y
n
ˆ aˆ ˆ aˆ
0 1
Method: Least Squares
Sample: 1 190 * *
P value tâ*0
t â0 t â1
Included Observations; 190
â0 Variable Coefficient STD. Error T-Statistic Prob.
P value tâ*1
VM 2 t VM 4 ? *
*
778,9623 27,9099
*
aˆ1 ou encore .
VM 2 t aˆ1 F
VM 3 ?
. 3 ˆ aˆ
VM
VM 4 ?
ou encore
1
VM 2 27,9099
ˆ 322,88 322,8850 322,8850
VM 3 ˆ aˆ1 6,8136
190 190
x n 1 3,447 189
xt x xt x
2 2
t 1 t 1
F n 2 778,9623 188
t 1
190
yt y SCR
2
.VM 8 y t 1
SCT
1 R 2
n 1 n 1 n 1
VM 7 19599888
1 0,850
1 VM 5 831,4770
n 1 189
45
40
la production
35 y = 0,8206x + 7,6074
30
25
20
15
10
5
0
0 5 10 15 20 25 30 35
les déchets
Cov X , Y x x y y
t t
279
aˆ1 t 1
0,82
Var X 8
x x
2 340
t
t 1
et aˆ0 y aˆ1 x 25,25 0,82×21,25 7,62
i 1
l’erreur associée à l’hypothèse alternée «Y dépend de X » (mesurée par
SCR) : SCR est la dispersion résiduelle (somme des carrés des écart
des observations yiet les valeurs estimées yˆ i par le modèle)
8 8
SCR yi yˆi et2 228,56
2
i 1 i 1
Ainsi, la dispersion expliquée somme des carrés des écart des valeurs
estimées yˆ i par le modèle par rapport à la moyenne y s’élève à 228,94 en
8
SCE yˆi y SCT SCR 228,94
2
effet,
i 1
Pr. Amale LAHLOU S5 : Sciences Economiques 138
3. Coefficient de détermination (indicateur de la qualité de la
représentation) : mesure le pouvoir explicatif du modèle en évaluant le
pourcentage de l’information restituée par le modèle par rapport à la
qualité d’information initiale,
SCE SCR 228,56
R2 1 R2 1 R 2 0,5004
SCT SCT 457,50
Le modèle yˆi 7,62 + 0,82 xi restitue 50,04 % de l’information totale
sur la variable Y.
Coefficient de détermination multiple (coefficient de corrélation) :
indicateur couramment utilisé. Il existe plusieurs formules pour le calcul
Cov X , Y
de R R R2 ; R ; R aˆ1 X ; r signe aˆ1 R
XY Y
Selon l’exemple : R R 2 R 0,5004 R 0, 7074
Ce qui implique l’existence d’une forte relation linéaire positive sur les
données observées entre les deux variables traitées. Mais attention : un
coefficient très élevé calculé sur un peu de données est moins significatif
qu’un coefficient plus faible mais calculé sur un grand nombres de
données !
Pr. Amale LAHLOU S5 : Sciences Economiques 139
• Coefficient de détermination ajusté : Sur un échantillon de petite taille,
il est préférable d’introduire le nombre de variable explicatives k dans la
formule de R2, soit donc Ra2
l’indicateur qui élimine l’explication du
phénomène dû au hasard par les variables explicatives.
SCR n k 2 228,56 6
Ra2 1 Ra2 1 Ra2 0, 4171
SCT n 1 457,50 7
Le pouvoir explicatif du modèle yˆi 7,62 + 0,82 xi est seulement 41,71 %.
Sortie EXCEL :
n2 6
(y t yˆt ) 2 F1,n2 F10,,605 5,99
Résidu t 1 38,10
228,56 il y’a 5 chances sur 100 de trouver un F
8 observé supérieur à 5,99 lorsque, dans la
n 1 7
( yt y ) 2
population totale des observations
Total t 1
p value
0,025 0,05 Mais attention :
p value 6,01 5,99 0,05
8,81 5,99
p value
p value 0,049822 5 %
x2 1 21,502
2 1
ˆ aˆ0 ˆ n
2
ˆ aˆ0 38, 09
2
56,55 ˆ aˆ 7,52
n 2
8 340
0
xt x
t 1
ˆ2 38, 09
ˆ
2
aˆ1 n
ˆ a2ˆ1 0,11 ˆ aˆ 0,33
x x
2 340 1
t
t 1
ta*ˆ1 2,4848 t6 2 2,447
On rejette ainsi H0.
On peut calculer la p-value par interpolation linéaire :
0, 02 0, 05
p value ta*ˆ1 2 P T ta*ˆ1
3,143 2, 447
2, 4848 2, 447 0, 05 0, 048 0, 05
aˆ
0,01;1,62
a1 0 IC aˆ1 1 aˆ1 t 6 ; a1 aˆ1 t 6
ˆ 2
ˆ ˆ 2
t *
aˆ0 1,0133 t6 2 2,447
On accepte ainsi H0.
On peut calculer la p-value par interpolation linéaire :
0,30 0,50
p value ta*ˆ0 2 P T ta*ˆ0
1,134 0, 718
1.0133 0, 718 0,50 0,358 0, 05
aˆ
ˆ aˆ0 t6 2 ; aˆ 0 ˆ aˆ0 t6 2 10,78;26,02
a0 0 IC aˆ0 0
Résidus
200
0
0,00 5 000,00 10 000,00 15 000,00 20 000,00
-200
Variable X 1
10000
Y
5000
0
0 20 40 60 80 100
Variable X 1 Courbe de régression Centile
16 000,00
14 000,00
12 000,00
10 000,00
8 000,00
Y
6 000,00 Y
4 000,00 Prévisions pour Y
2 000,00
0,00
0,00 5 000,0010 000,0015 000,0020 000,00
Variable X 1
n t=1
n t=1
C18 : somme des carrés totale SCT= y t y =SCE SCR
2
t=1
1 R2
Pr. Amale LAHLOU S5 : Sciences Economiques 157
B22 :
aˆ0 1176,089634
D22 :
aˆ0 B
E22 : p 2 P Tn 2 ta*ˆ0 G22 ou I22 :
t
*
22
2 P Tn 2 5, 67
aˆ0 ˆ aˆ0
B23 : C22 aˆ0 tn/22ˆ aˆ0
aˆ1 0,780982745 taˆ0 5, 673920575
0, 00046
G23 ou I23 :
Donc
B23
ˆ
ta*ˆ1 ˆaa1ˆ F* E23 : p 2 P Tn 2 ta*ˆ1
yˆt aˆ0 aˆ1 xt 1
C23
taˆ1 43,53517545 2 P Tn 2 43,53
8,541011
C22 : écart-type empirique, c’est l’estimation de
l’écart type de l’estimateur â0 ou erreur type de â0
1 x2
ˆ a2ˆ0 ˆ 2 n 207, 3920575
n 2
t 1
xt x
C23 : écart-type empirique, c’est l’estimation de
l’écart type de l’estimateur â1 ou erreur type de â1
ˆ 2
ˆ a2ˆ1 n
0, 01793912
xt x
2
t 1
SCR n2
ˆ e ˆ 135, 4701208
t
n 1 n 1
et C31 : C40
D31:D40 Résidus normalisés
ˆ et ˆ et
Test de la normalité des résidus : dans une loi normale, 95 % des observations sont situés à moins de
ˆ aˆ0
ˆ aˆ 1
t â*0 tâ*1
n
â0
â1
P value tâ*0
P value t
*
â1
R2 y
Ra2 y
ˆ
SCR
F*
P value F *
10 000,00
Le nuage de point de la série doubles
Y
Y
5 000,00
Prévisions pour Y
0,00
0,00 5 000,0010 000,0015 000,0020 000,00
Variable X 1
Résidus
100
0
0,00 5 000,00 10 000,00 15 000,00 20 000,00
-100
-200
Variable X 1
5000
0
0 20 40 60 80 100
Centile
161
Table de la loi de Laplace-Gauss
Probabilité de trouver une valeur inférieure à z
P( z ) P Z z 1 p
Exemple :
z
P(1,96) P Z 1,96 0,975 1 0.025
P(1, 65) P Z 1, 65 0,95 1 0.05
Exemple:
P T8 2,306 0, 05 P T t p
PT8 2,306 0,025 P T t
p
2
Pr. Amale LAHLOU S5 : Sciences Economiques 164
Loi de Fisher-Snédécor
P( F t ) p
Exemple :
Exercices récapitulatifs
y yt : observation
yˆt aˆ0 aˆ1 x1t aˆ2 x2t
yt= a0+a1x1t+a2x2t+εt
â0
et yt yˆt
x2
(x1t, x2t)
x1
S Y T Y Y T Xa aT X T Y aT X T Xa
T
S Y Y a X Y
T T T
aT X T Y aT X T Xa
S Y T Y 2aT X T Y aT X T Xa
Pr. Amale LAHLOU S5 : Sciences Economiques 176
S
n n
Ainsi a
S
Y T Y 2aT X T Y aT X T Xa 2 X T Y 2 X T Xa 0
a a
C’est-à-dire, X T Xaˆ X T Y
Comme XT X la matrice carrée d’ordre (k+1) des produits croisés des
variables explicatives est symétrique semi-définie positive (pas de colinéarité
parfaite entre deux variables explicatives), alors elle est inversible et on a :
1
aˆ X X T
X TY
â0 étant l’ordonnée à l’origine (toute les valeurs xt sont nulles)
aˆ p étant la variation de y suite à une variation unitaire de la variable xp
tandis que les autres variables sont maintenues constantes (c’est une
propension marginale).
et
xti et 0 i 1, ,k
x t 1
k1 xk 2 xkt xkn 0
en
XTX x2t x x x 2
x2 t xkt
2 t 1t 2t
x
kt x x kt
2
kt 1tx kt x2t x
n
x
1t x2t x kt
aˆ0 yt
x1t x x x ˆ 1t t
2
1t 1t 2 tx x a
1t kt 1 x y
x2t x x2t x
2
x2 t xkt
aˆ2 x2t yt
1t 2t
x aˆ x y
kt x x kt k kt t
2
1t xkt 2t xkt x
Pr. Amale LAHLOU S5 : Sciences Economiques 180
Cas particulier :
1
• Si les variables sont centrées, alors XTX est la matrice de
n
variance covariance
• Si les variables sont centrées réduites, alors la matrice 1 X T X est la
n
matrice de corrélation.
• Si les variables sont centrées, alors le vecteur 1 X T Y est le vecteur
n
des covariances entre Y et X.
1 T
• Si les variables sont centrées réduites, alors le vecteur n X Y est le
vecteur des corrélation entre Y et X.
n
x
1t x 2t x kt
aˆ0
yt
x1t x x x ˆ x1t yt
2
1t 1t x2 t 1t kt a1
x
x2 t x x2 t x 2
x 2 t xkt
aˆ2 x2 t yt
1t 2t
xkt x
1t xkt x 2t xkt xkt2 aˆk
xkt yt
Hypothèses structurelles
(H1) : Les valeurs xit sont observées sans erreur (non aléatoires)
(H2) : E t 0
l’espérance mathématique de l’erreur est
nulle : en moyenne le modèle est bien spécifié et donc
l’erreur moyenne est nulle
(H3)
2
: E t cste la variance de l’erreur est constante
2
Y
1
aˆ XT
X X T
Y Xa
Xa
1
XT
X X T
1 1
XT
X X Xa X X X T
T T
a X X X T E 0
1
aˆ T
E aˆ a X X X T E
1
T
E aˆ a
Pr. Amale LAHLOU S5 : Sciences Economiques 187
L’estimateur â est convergent :
Tout d’abord, calculons la matrice des variances et covariances de
l’erreur , noté :
E T
1
2
E 2 n
1
n
12 1 2 1 n
2 1 22 2 n
E
n 1 n 2 n2
Pr. Amale LAHLOU S5 : Sciences Economiques 188
E 12 E 1 2 E 1 n
E E 22 E 2 n
2 1
E n 1
E n 2 E n
2
2 0 0 Hypothèse (H3)
E t2 2 cste
0 2
0
Hypothèse (H4)
E t t 0 si t t
0 2
0
2 I n
D’où,
I n 2
AT
T
A
X X X E X X X
1 1
A symétrique AT A T T T T
X X X X X X
1 1
T T
T
X X X X X X
2
T
1
T T
1
E T
2 I n
X X
1
2
T
aˆ
N 0, aˆ N 0, X X 2
T
1
1
ˆ ˆ ˆ 2 X T X
On peut estimer â par avec
a
n
t
e 2
e T
e
ˆ 2 t 1
(voir diapositive suivant)
n k 1 n k 1
Où, e Y Yˆ
Remarquons que lorsque n est assez grand, ˆ 2 tend vers 0 et par
suite l’estimateur âest convergent.
Pr. Amale LAHLOU S5 : Sciences Economiques 192
T
e e
Montrons que ˆ
2
n k 1
e Y Yˆ Xa Xaˆ
Xa X a X X T
1
X T
Xa X a X
1
T
X XT
X X X
1
T
X T
I X X T
1
X X T
n
Donc, e
1
Avec I n X X X T
X T est une matrice carrée
symétrique d’ordre n et idempotente 2 en effet,
Pr. Amale LAHLOU S5 : Sciences Economiques 193
2
In X X X T
1
X T
In X X XT
1
XT
1 1 1
In 2 X X X T
X X X X
T T T
X X X X T
XT
2X X X X X X X
1 1
In T T T
XT
X X X X
1
In T T
Ainsi,
eT e T T
T
Et par suite
E eT e E T 2 tr
tr tr I n X X X T
1
XT
n tr X X X X
Variance 1
de l’erreur T T
n tr X X X X
1
T T
Ainsi,
n tr I k 1
tr n k 1
E e e n k 1
T 2
n
Alors,
e T
e t
e 2
SCR Y T
Y
ˆ
2
t 1
n k 1 n k 1 n k 1 n k 1
Pr. Amale LAHLOU S5 : Sciences Economiques 195
Équation d’analyse de la variance et qualité
d’un ajustement
Comme pour la régression linéaire simple, les deux équations :
n
e
t 1
t 0 et y yˆ
yt y yˆt y t
2 2
e 2
t 1 t 1 t 1
yˆt y t
2 2
e
SCE SCR
R 2
t 1
n
1 n
t 1
1
y y y y
SCT 2 2 SCT
t t
t 1 t 1
Pr. Amale LAHLOU S5 : Sciences Economiques 196
Coefficient de détermination R2
Coefficient de corrélation multiple R
et coefficient de détermination R2a
yˆt y yt yˆt t
2 2 2
e
SCE SCR
R 1 1 1
2
t 1 t 1 t 1
n n n
y y y y y y
SCT 2 SCT 2 2
t t t
t 1 t 1 t 1
Y Y Y Y
Pr. Amale LAHLOU S5 : Sciences Economiques 197
Lorsque le nombre de variables explicatives augmentent (même
s’elles ne sont pas pertinentes), le coefficient de détermination
R2 augmente automatiquement. On doit tenir compte du degré
de liberté (nombres de facteurs explicatifs), d’où le R2 ajusté un
indicateur plus robuste :
SCR
n k 1 1 n 1 1 R2
R 1
2
a
SCT n k 1
n 1
Bien noté que Ra2 R 2 mais si n est assez grand Ra2 R2
2
R
Attention : ne pas interpréter a en termes de part de variance
expliquée.
Pr. Amale LAHLOU S5 : Sciences Economiques 198
(R.B. C3EX1, eco9, page 56)
Soit le modèle à trois variables explicatives :
yt a0 a1 x1t a2 x2t a3 x3t t
t yt x1 x2 x3
1 12 2 45 121
2 14 1 43 132
3 10 3 43 154
4 16 6 47 145
5 14 7 42 129
6 19 8 41 156
7 21 8 32 132
8 19 5 33 147
9 21 5 41 128
10 16 8 38 163
11 19 4 32 161
12 21 9 31 172
13 25 12 35 174
14 21 7 29 180
Pr. Amale LAHLOU S5 : Sciences Economiques 199
Question 1 : Mettre le modèle sous forme matricielle en spécifiant
bien les dimensions de chacune des matrices
L’écriture sous forme matricielle : Y X a
Avec,
12 1 2 45 121 1
14 1 1 43 132 a0 2
10 1 3 3
43 154 a1
Y X a et
a2
25 1 12 13
35 174
a3 4,1
21 14,1 1 7 29 180 14,4 14 14,1
1
D’après le cours, aˆ X X
T T
X Y
Nous devons calculer la matrice symétrique X T
X d’ordre 4 et
1
son inverse X T X puis X T Y :
1 2 45 121
1 1 1 1 1 1 1 43 132
2 1 3 12 7 1 3 43 154
X X
T
45 43 43 35 29
121 132 154 174 180 1 12 35 174
1 7 29 180
n
x 1t x 2t x 3t
14
85 532 2094
X X
T x1t x 2
1t x x
1t 2 t x x
1t 3t
85 631 3126 13132
x2t x x x 2
x 2 t x3t
532 3126 20666 78683
1t 2 t 2t
x3t x x x 2
1t 3tx x
2 t 3t 3t 2094 13132 78683 317950
Pr. Amale LAHLOU S5 : Sciences Economiques 201
Ainsi, 1
14 85 532 2094
X
1 85 631 3126 13132
T
X
532 3126 20666 78683
2094 13132 78683 317950
20,168645 0, 015066 0, 231450 0, 076175
0, 000940
X
1
0, 015066 0, 013205 0, 001194
T
X
0, 231450 0, 001194 0, 003635 0, 000575
0, 076175 0, 000940 0, 000575 0, 000401
puis 12
1 1 1 1 1 14 yt 248
2 1 3 12 7 10 x1t yt 1622
X Y
T
45 43 43
35 29
x y
2t t
9202
121 132 154 174 180 25
3t t
x y 37592
21
Pr. Amale LAHLOU S5 : Sciences Economiques 202
aˆ X T X X T Y
1
eT e
ˆ 2
n k 1
avec e Y Yˆ
Soit donc en calculant les résidus et (voir la diapositive suivante) :
n n
t
e 2
t
e 2
ˆ 2 t 1
t 1
6,745
14 3 1 10
1
ˆ ˆ ˆ 2 X T X
a
Donc
20,168645 0, 015066 0, 231450 0, 076175
ˆ 0, 015066 0, 013205 0, 001194 0, 000940
aˆ 6,745
0, 231450 0, 001194 0, 003635 0, 000575
0, 076175 0, 000940 0, 000575 0, 000401
yˆt y t
2 2
e
n 1
R2 t 1
n
1 n
t 1
et Ra2 1
n k 1
1 R2
y y y y
2 2
t t
t 1 t 1
e 67, 45 yt y
2
2
t 226, 86
t 1 t 1
67,45
R 1 2
0,7027 70,27%
226,86
D’où,
Ra 1 1 R 2 0,6135
2 13
10
Pr. Amale LAHLOU S5 : Sciences Economiques 207
III. Les tests statistiques
On suppose que iid et N 0, Donc,
et
2 N 0,1
t t t
ˆ ˆ ˆ ˆ
2 2 2 2 n
Ainsi, 2 2
aˆ0 aˆ1
2
aˆk
t
e 2
Donc,
n aˆ
2
aˆ aˆ ˆ 2 t 1
n k 1
0 1 k
2
e
ˆ aˆi
2
et
2
n t
ˆ 2
t 1
t 1
2
n k 1
2
n k 1
2
2
n k 1
aˆi
On est en présence d’une somme au carré de (n-k-1) variables
aléatoires indépendantes normales centrées réduites (on a k+1
n n
contraintes
t 1
e 0 et
t
x e 0
t 1
it t
ˆi ai
a
ˆi ai
a aˆ
i
Tn k 1
ˆ aˆi ˆ 2
n k 1 ˆi
a
n k 1
2
ˆi
a
208
On montre facilement,
2 2
aˆ0 a0 aˆk ak
aˆ a aˆ a
1
k 1
T
2
aˆ
ˆ aˆ ˆ aˆ
0 k
la somme au carré de (k+1) variables aléatoires normales centrées
réduites, en effet :
aˆ0 a0
aˆ a T aˆ1 aˆ a aˆ0 a0 aˆ k ak aˆ
1
aˆ a
k k
ˆ a0 0 0 ˆ a0
0 0 aˆ0 a0
ˆ a0
aˆ0 a0
aˆ k ak 1
ˆ a ˆ ak aˆ aˆ a
0 k k
0 0 ˆ ak 0 0 ˆ ak ˆ ak
1
1 1 1
Or, D D D aˆ D
aˆ
1 1
D’où, D aˆ D I k 1
Pr. Amale LAHLOU S5 : Sciences Economiques 210
Ainsi,
aˆ0 a0 ˆ aˆ0
aˆ0 a0 aˆk ak
aˆ a aˆ a
1
T
aˆ
ˆ aˆ ˆ aˆk
0
aˆ a ˆ
k k ˆ
a k
2 2
aˆ0 a0 aˆk ak
aˆ a aˆ a
1
k 1
T
2
aˆ
ˆ aˆ ˆ aˆ
0 k
1
a a aˆ aˆ a Fk 1,nk 1
ˆ T ˆ 1
k 1
k 1 ˆ 2
1 2 T 1
ˆ
a a X T
X aˆ a
k 1 ˆ
2
2
1
2 X T X
1
aˆ a aˆ a
T
k 1
ˆ 2
n k 1 2
2
k 1
k 1
n2 k 1 n k 1
n k 1 aˆ a aˆ 1 aˆ a
T
k 1 F
k 1, n k 1
ˆ 2
n k 1 2
Pr. Amale LAHLOU S5 : Sciences Economiques n k 1 212
Construction des tests
Test de conformité à un standard bilatéral ou unilatéral
Comparaison d’une valeur ai à une valeur fixée a
Soit le test d’hypothèse bilatéral : H0 : ai a
aˆi ai H1 : ai a
On a Tn k 1
ˆ aˆi
aˆi ai aˆi a
Sous l’hypothèse nulle, ta*ˆi
ˆ aˆi ˆ aˆi
Critère de décision :
si t
*
aˆi tn2 k 1 ou encore p value nous rejetons l’hypothèse H0,
ai est significativement différent de a au seuil de α
Si t tnk 1 ou encore p value nous acceptons l’hypothèse H0,
* 2
aˆi
P Tnk 1 tnk 1 1
P tn2 k 1 Tnk 1 tn2 k 1 1
aˆi ai
Soit encore,
P t n k 1
2
t n k 1 1
2
ˆ
ˆ
a i
Ainsi,
2
P aˆi t n k 1ˆ aˆi ai aˆi ˆ aˆi t n 2 k 1 1
IC ai aˆi t n k 1ˆ aˆi ; aˆi ˆ aˆi t n 2 k 1
2
Pr. Amale LAHLOU S5 : Sciences Economiques 215
Test de conformité ensembliste : Comparaison d’un ensemble de
paramètres à un ensemble de valeurs fixées
(n k 1)ˆ 2 ( n k 1 )ˆ 2
P
2
1
Avec, n k 1;
2
2
2 n k 1;1 2
P 2
n k 1 2
n k 1, 2 2
et P 2
n k 1 2
n k 1,1 2 1 2
H0 : a1 1
Soit le test d’hypothèse unilatéral à gauche :
H1 : a1 1
Yˆ X aˆ X X T X
1
X YHY H X X X
T
T
1
XT
Les éléments hi xi X X T
1
xiT de la diagonale principale de
la matrice H sont appelés les leviers, il permettent de
déterminent l’influence de l’observation i sur les estimations
obtenues par la régression. On montre que :
0 hi 1
traceH h k 1
n
i 1
i
hi
k 1
H X X X T
1
XT
n
H
H
Y
0 hi 1
traceH h k 1
n
Yˆ
ˆ
1 T
Y X aˆ X X X X Y H Y i 1
T i
t t yt yˆ t
2
( y y ) ( ˆ
y y ) 2 2
t 1 t 1 t 1
MSE
SCE k R2 k
F
MSR SCR n k 1 1 R 2 n k 1
Pr. Amale LAHLOU S5 : Sciences Economiques 228
Question : Les trois questions suivantes sont équivalentes,
– Signification globale du modèle de la régression ?
– l’ensemble des variables explicatives a-t-il une influence globale
sur la variable à expliquer ? (ou encore aucune variable exogène
n’est pertinente pour expliquer Y)
– Existe-t-il au moins une variable explicative significative ?
H 0 : a1 a2 ... ak 0
Soit le test d’hypothèse :
H1 : au moins ai 0
SCE / k n k 1 R2
F 2
SCR / n k 1 k 1 R
Critère de décision :
Si F * Fk ,nk 1 ou encore p value alors on rejette H0.
Dans le cas contraire, on accepte H0 et donc il n’existe aucune
relation linéaire significative entre la variable à expliquer et les
variables explicatives.
Pr. Amale LAHLOU S5 : Sciences Economiques 229
Autres tests à partir de l’analyse de la variance
On cite quatre autres tests via exercice page 69 :
Soit,
R2 k 0, 702 3
F 7,852 > F 3,10 3, 71
0,05
1 R n k 1 1 0, 702 10
2
Valeur
F critique de F
7,878181026 0,005452305
t 1
14
SCE3 yˆt y 159, 41 ;
2
t 1
14
SCR3 et2 67, 45
t 1
Degré Somme
de liberté des carrés
Régression 3 159,4094768
Résidus 10 67,44766603
Total 13 226,8571429
Statistiques de la régression
Coefficient de détermination multiple 0,720171833
Coefficient de détermination R^2 0,518647469
Coefficient de détermination R^2 0,478534759
Erreur-type 3,016596589
Observations 14
ANALYSE DE VARIANCE
Degré Somme Moyenne Valeur
de liberté des carrés des carrés F critique de F
Régression 1 117,6588831 117,6588831 12,92975364 0,003674145
Résidus 12 109,1982598 9,099854982
Total 13 226,8571429
Coefficients Erreur-type Statistique t Probabilité Lim inf à 95% Lim sup à 95%
Constante 11,57116221 1,889095412 6,125239699 5,13541E-05 7,455176897 15,68714753
Variable X 1 1,011808577 0,281386483 3,595796663 0,003674145 0,398720098 1,624897055
yt 11, 57 1, 01x1t et
Avec
et
SCR1 e e n 2 ˆ 2
T
1
12 3.01651 109, 20
2
SCR1 109, 20
SCT1 227, 48 ;
1 R12
1 0, 52
SCE1 SCT1 SCR1 227, 48 109, 20 118, 28 ;
n-1 SCT3
Total (y)
=13 226,86
Pr. Amale LAHLOU S5 : Sciences Economiques 238
• On calcule
NB. : On compare la différence par rapport à la somme des carrés la plus faible
où
RAPPORT DÉTAILLÉ
ˆ 2 2,62
ˆ
aˆ1
2
0,685
SCE2 24,70
ˆ
Statistiques de la régression
0,522
2
Coefficient de détermination multiple 0,737467155 aˆ 2 SCR2 20,72
ˆ
Coefficient de détermination R^2 0,543857804
Coefficient de détermination R^2 0,087715608 aˆ 3
2
0,152 SCT2 45,43
Erreur-type 2,628173531
Observations 7 R12 0,543
ANALYSE DE VARIANCE
Degré de Somme Moyenne Valeur
liberté des carrés des carrés F critique de F
Régression 3 24,7066831 8,235561032 1,192298824 0,444230201
Résidus 3 20,72188833 6,907296111
Total 6 45,42857143
Coefficients Erreur-type Statistique t Probabilité Lim inf 95% Lim sup 95%
Constante 62,33574076 37,23454453 1,674137325 0,192697138 -56,16119788 180,8326794
Variable X 1 1,228195674 0,685233191 1,792376215 0,170981012 -0,952522164 3,408913512
Variable X 2 -0,62083255 0,522362893 -1,18850814 0,320142848 -2,283224408 1,041559307
Variable X 3 -0,18433866 0,152831028 -1,2061599 0,314201705 -0,670715197 0,302037882
Sous H0,
yt a0 a1 x1t a2 x2 t a3 x3t t
yt a0 x1t a2 x2 t x3t t
yt x1t a0 a2 x2 t x3t t
zt a0 a2 vt t
Coefficients Erreur-type Statistique t Probabilité Lim inf à 95% Lim sup à 95%
Constante 13,73516878 9,691559481 1,417229994 0,181853025 -7,38092533 34,8512629
Variable X 1 -0,01115475 0,051490217 -0,21663816 0,832129578 -0,123342292 0,1010328
Modification structurelle ;
Intégration de la saisonnalité; …
253
L’estimation du modèle économétrique est la suivante :
NLi 8,5 0,3 NDi 1,2 DSi et
n 60 R 2 0,72
t a*ˆ0 4,5 t a*ˆ1 7,1 tb*ˆ 2,3
0
255
Ventes et dépenses publicitaires pendant 5 ans par trimestre
Date VENTES PUB
T1 164 34
T2 198 36
Années T1 T2 T3 T4 T3 85 32
T4 179 29
Vente 164 198 85 179
1 T1 168 45
Pub 34 36 32 29 T2 201 67
Vente 168 201 98 197 T3 98 76
2 T4 197 75
Pub 45 67 76 75
T1 197 75
Vente 197 209 100 216 T2 209 78
3
Pub 75 78 72 75 T3 100 72
T4 216 75
Vente 223 245 119 260
4 T1 223 78
Pub 78 81 84 83 T2 245 81
Vente 298 309 124 267 T3 119 84
5 T4 260 83
Pub 89 82 81 83
T1 298 89
T2 309 82
T3 124 81
T4 267 83
Pr. Amale LAHLOU 256
RAPPORT DÉTAILLÉ Vt 104,889 1,29 Pubt et
Statistiques de la régression
Coefficient de détermination multiple 0,400542526
n 20
Coefficient de détermination R^2 0,160434315
Coefficient de détermination R^2 0,113791777 R 2 0,16
Erreur-type 61,1586794
Observations 20 ˆ aˆ1 1,85
ANALYSE DE VARIANCE
Degré Somme Moyenne Valeur
de liberté des carrés des carrés F critique de F
Régression 1 12865,63682 12865,63682 3,439656622 0,080105841
Résidus 18 67326,91318 3740,384066
Total 19 80192,55
Coefficients Erreur-type Statistique t Probabilité Lim inf à 95% Lim sup à 95%
Constante 104,8959227 49,35643393 2,125273533 0,047665411 1,201903004 208,5899424
Variable X 1 1,298215163 0,699985643 1,854631128 0,080105841 -0,1724001 2,768830426
300
250
200
Ventes
150 Publicité
100
50
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
n 20
R 2 0,83
RAPPORT DÉTAILLÉ
Statistiques de la régression
Coefficient de détermination multiple 0,912099225 t a*ˆ1 3,97 t a*ˆ 2 0,37
Coefficient de détermination R^2 0,831924996
Coefficient de détermination R^2 0,787104995 t a*ˆ3 0,46 t a*ˆ 4 6,25
Erreur-type 29,97594943
Observations 20
ANALYSE DE VARIANCE
Degré Somme Moyenne Valeur
de liberté des carrés des carrés F critique de F
Régression 4 66714,18684 16678,54671 18,56146757 1,12455E-05
Résidus 15 13478,36316 898,5575441
Total 19 80192,55
Coefficients Erreur-type Statistique t Probabilité Lim inf à 95% Lim sup à 95%
Constante 129,1013935 27,31974281 4,725571333 0,000270728 70,87074032 187,3320466
Variable X 1 1,372443573 0,344993551 3,978171681 0,001211965 0,63710723 2,107779916
Variable X 2 -7,21227085 19,0306398 -0,37898205 0,710011936 -47,77511921 33,35057751
Variable X 3 8,874488715 18,9585806 0,468098794 0,646443204 -31,53476911 49,28374654
Variable X 4 -118,6 18,95845504 -6,25578401 1,5395E-05 -159,0089902 -78,1910098
265
1. yt 25,842 0,715 x1t 0,328 x2t et
n 14
ˆ aˆ 0,266 t a*ˆ1 2,685 t140,025
2 1 t 0 , 025
2,20
R 2 0,687 1 11
RAPPORT DÉTAILLÉ
Statistiques de la régression Les deux variables sont
Coefficient de détermination multiple 0,829180044
Coefficient de détermination R^2 0,687539546 bien explicatives de la
Coefficient de détermination R^2
Erreur-type
0,630728555
2,538501452
variable y
Observations 14
ANALYSE DE VARIANCE
Degré Somme Moyenne Valeur
de liberté des carrés des carrés F critique de F
Régression 2 155,973257 77,98662852 12,10222752 0,001664841
Résidus 11 70,88388582 6,44398962
Total 13 226,8571429
Avec,
n nx1 nx2 14 85 532
14 14
X X nx1
T
2
x1t x1t x2t 85 631 3126
t 1 t 1
532 3126 20666
nx
14 14
2
2 x1t x2t x2 t
t 1 t 1
X15T 1 3 24 et X16T 1 6 38
Pr. Amale LAHLOU S5 : Sciences Economiques 267
Et 5,7077 0,1634 0,1222
X X 0,1634 0,0110 0,0025
T 1
ˆ 216 ˆ 2 X 16T X T X X 16 1
1
5,7077 0,1634 0,1222 1
2
2,538 1 6 38 0,1634 0,0110 0,0025 6 1
0,1222 0,0025 0,0028 38
6,6920
Pr. Amale LAHLOU S5 : Sciences Economiques 268
Ainsi les écarts type de l’erreur de prévision sont donnés par :
ˆ 215 12,4545 ˆ 15 3,5290
ˆ 216 6,6920 ˆ 16 2,5869