Cours Économetrie

UNIVERSITE MOHAMMED PREMIER
FACULTE PLURIDISCIPLAINAIRE- NADOR

DEPARTEMENT : ECONOMIE-GESTION
MATIERE : CONOMTRIE
SEMESTRE 6
ANNEE UNIVERSITAIRE : 2014-2015
[ COURS DCONOMTRIE [
U
U
Modle linaire simple

Modle linaire multiple
Professeur : ABBADI Abdelaziz
CONOMTRIE
SCIENCE ECONOMIQUE ET GESTION S 6
FPN
Table des matires

1 Le modle linaire simple
1.1 Introduction lconomtrie . . . . . . . . . . . . . . . .
1.2 Le modle linaire simple . . . . . . . . . . . . . . . . . .
1.3 Prsentation du modle . . . . . . . . . . . . . . . . . . .
1.3.1 Exemple introductif . . . . . . . . . . . . . . . . .
1.3.2 Spcification . . . . . . . . . . . . . . . . . . . . . .
1.3.3 Rle du terme alatoire . . . . . . . . . . . . . . .
1.3.4 Estimation des paramtres . . . . . . . . . . . . .
1.3.5 Mthode des moindres carrs ordinaires (MCO) .
1.3.6 Proprits des estimateurs . . . . . . . . . . . . .
1.3.7 Construction des tests . . . . . . . . . . . . . . . .
1.3.8 quation et tableau danalyse de la variance . . .
1.3.9 La prvision dans le modle de rgression simple
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2 Le modle linaire multiple

2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 La mthode des moindres carrs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Les hypothses de la mthode des MCOs . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.2 Estimateurs des MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.3 Proprits des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 quation danalyse de la variance et qualit dun ajustement . . . . . . . . . . . . . . . . . . . .
2.4 Construction des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.1 Construction du tableau danalyse de la variance et test de signification globale dune
rgression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
5
5
5
5
6
6
7
9
9
11
13
15
17
17
17
17
18
18
19
22
24
CONOMTRIE
FPN
Chapitre 1
Le modle linaire simple

1.1 Introduction lconomtrie
Lconomtrie est le principal outil danalyse quantitative utilis par les conomistes et gestionnaires dans
divers domaines dapplication, comme la macroconomie, la finance ou le marketing.
Les mthodes de lconomtrie permettent de vrifier lexistence de certaines relations entre des
phnomnes conomiques, et de mesurer concrtement ces relations, sur la base dobservations de faits
rels.
Dans son acception la plus restreinte, lconomtrie est un ensemble de techniques utilisant la statistique
mathmatique qui vrifient la validit empirique des relations supposes entre les phnomnes
conomiques et mesurent les paramtres de ces relations. Au sens large, lconomtrie est lart de
construire et destimer des modles empiriques adquats par rapport aux caractristiques de la ralit, et
intelligibles au regard de la thorie conomique.
1.2 Le modle linaire simple

Nous commenons notre tude par le modle le plus simple : une variable endogne est explique par une
variable exogne. Aprs avoir tudi les consquences probabilistes de lerreur dobservation, nous
prsentons :
les formules de base permettant destimer les paramtres du modle

les hypothses stochastiques et leurs consquences sont tudies
la qualit de lestimation dun modle est examine laide des premiers tests statistiques (Student,
Fisher)
le modle de rgression simple est tudi en tant quoutil de prvision avec le degr de confiance
que nous pouvons en attendre.
1.3 Prsentation du modle

1.3.1 Exemple introductif
Admettons que nous constatons le fait conomique illustrer dans la figure suivante :
On observe que les 2 courbes voluent pratiquement dans le mme sens : elles augmentent et diminuent
simultanment. On peut penser quil y a un lien entre ces 2 variables. On peut en effet penser que la
5
CONOMTRIE
consommation C des mnages est influence par le revenu disponible RD. Lorsque le revenu augmente, la
consommation saccrot.
Soit la fonction de consommation keynsienne :
C = a0 + a1 Y ,
o C = consommation, Y = revenu, a 1 = propension marginale consommer et a 0 = consommation
autonome ou incompressible.
1.3.2 Spcification
Nous pouvons distinguer deux types de spcifications :
Les modles en srie temporelle, les variables reprsentent des phnomnes observs intervalles
de temps rguliers, par exemple la consommation et le revenu annuel sur 20 ans pour un pays
donn. Le modle scrit alors :
C t = a 0 + a 1 Y t t = 1, . . . , 20,
o C t et Y t sont la consommation et le revenu au temps t .
Les modles en coupe instantane, les variables reprsentent des phnomnes observs au mme
instant mais concernant plusieurs individus, par exemple la consommation et le revenu observs sur
un chantillon de 20 pays. Le modle scrit alors :
C i = a 0 + a 1 Yi
i = 1, . . . , 20,
o C i et Yi sont la consommation et le revenu du pays i pour une anne donne.
1.3.3 Rle du terme alatoire

Il existe une multitude de facteurs susceptibles dexpliquer la consommation. Cest pourquoi nous
ajoutons un terme (t ) qui synthtise lensemble de ces informations non explicites dans le modle :
C t = a 0 + a 1 Y t + t si le modle est spcifie en srie temporelle (C i = a 0 + a 1 Yi + i si le modle est spcifie
en coupe instantane).
Le terme t reprsente lerreur de specification du modle, cest-a-dire lensemble des phnomnes
explicatifs de la consommation non lis au revenu. Il mesure la diffrence entre les valeurs rellement
observes de C t et les valeurs qui auraient t observes si la relation spcifie avait t rigoureusement
exacte.
FPN
CONOMTRIE
1.3.4 Estimation des paramtres

Soit le modle suivant :
y t = a 0 + a 1 x t + t
t = 1, . . . , n.
Afin destimer et dtudier les deux paramtres inconnus a 0 et a 1 , nous introduisons les hypothses
suivantes :
H1 : Le modle est linaire en x t (ou en nimporte quelle transformation de x t ).
H2 : Les valeurs x t sont observes sans erreur (x t non alatoires).
H3 : E (t ) = 0,
H4 : E (2t ) = 2 ,
t = 1, . . . , n.
t = 1, . . . , n, la variance de lerreur est constante.
H5 : t 6= t 0 E (t t 0 ) = 0, les erreurs sont non corrles.

H6 : C ov(x t , t ) = 0,
t = 1, . . . , n , lerreur est indpendante de la variable explicative.
La reprsentation graphique ne donne quune impression de la corrlation entre deux variables sans
donner une ide prcise de lintensit de la liaison (voir 1.1), cest pourquoi nous calculons une statistique
appele coefficient de corrlation linaire simple, not r x,y . Il est gal :
r = r x,y
Pn
C ov(X , Y )
t =1 (x t x)(y t y)
=
= qP
qP
X Y
n
n
2
2
(x
x)
t =1 t
t =1 (y t y)
Ce coefficient nest calcul que partir dun echantillon dobservations et non pas sur lensemble des
valeurs.
On appelle x,y ce coefficient empirique qui est une estimation du vrai coefficient r x,y .
Soit tester lhypothse H0 : r x,y = 0 , contre lhypothse H1 : r x,y 6= 0.
Nous pouvons dmontrer que
x,y
Tn2
r
1 2x,y
n2
Nous calculons alors une statistique, appel le t de Student empirique :

| x,y |
t = r
1 2x,y
n2
/2
Si t > t n2
valeur lue dans une table de Student au seuil = 5% n 2 degrs de libert, nous rejetons
lhypothse H0 , le coefficient de correlation est donc significativement different de 0.
Dans le cas contraire, lhypothse dun coefficient de corrlation nul est accepte.
Exemple 1.3.1 On relve 10 couples (x, y) de donnes consigns dans le tableau
FPN
16
18
23
24
28
29
26
31
32
34
20
24
28
22
32
28
32
36
41
41
CONOMTRIE
F IGURE 1.1 Corrlation entre deux variables
1) Tracer le nuage de points et le commenter.

2) Calculer le coefficient de correlation simple et tester sa signification par rapport 0 pour un seuil = 0, 05.
Rponses :
1) Le nuage de points indique que les couples de valeurs sont approximativement aligns : les deux variables
semblent corrles positivement.
2) Aprs calcul, on obtient x,y = 0, 89.
Le t de Student empirique est gal :
| x,y |
= 5, 49 > t 80,025 = 2, 306.
t = r
1 2x,y
n2
Donc le coefficient de corrlation entre x et y est significativement diffrent de 0.

FPN
CONOMTRIE
1.3.5 Mthode des moindres carrs ordinaires (MCO)

Le nuage de points peut sajuster laide dune droite (voir 1.2). Lestimateur des coefficients a 0 et a 1 est
obtenu en minimisant la distance au carr entre chaque observation et la droite, do le nom destimateur
des moindres carrs ordinaires (MCO) :
Mi n
n
X
t =1
2t = Mi n
n
X
y t a0 a1 x t
t =1
La rsolution analytique est la suivante :

Pn
ab1 =
t =1 (x t x)(y t y)
Pn
2
t =1 (x t x)
Pn
= Pt n=1
t =1 (x t )
ab0 = y ab1 x
1.3.6 Proprits des estimateurs

Ecrivons
y t = a 0 + a 1 x t + t ,
et
y = a 0 + a 1 x + ,
FPN
(x t y t ) n x y
2 nx 2
CONOMTRIE
F IGURE 1.2 Droite de rgression

on obtient :
Pn
ab1 = a 1 + Ptn=1
(x t x)t
t =1 (x t
On alors,
x)2
Pn
t =1 (x t x)E (t )
Pn
2
t =1 (x t x)
E (ab1 ) = E (a 1 ) +
= E (a 1 )
car E (t ) = 0.
De mme on dmontre que E (ab0 ) = a 0 . Ce qui signifie que les estimateurs sont sans biais.
Puisque les estimateurs sont sans biais, il suffit pour quils soient convergents que :
lim V (ab1 ) = lim V (ab0 ) = 0.
n+
En effet :
n+
" P
2 #
n
t =1 (x t x)t
V (ab1 ) = E (ab1 E (ab1 )) = E (ab1 a 1 ) = E
Pn
2
t =1 (x t x)
2
"
V (ab1 ) = E
n
X
2 #
t t
t =1
n
X
2t E (2t ) + 2
t =1
t t 0 E (t t 0 ),
t <t 0
t x
o on a pos t = Pn x(x
2.
=1 x)
Daprs les hypothses H 4 et H 5, on obtient
V (ab1 ) =
FPN
n
X
t =1
(2t 2 ) = Pn
t =1 (x t
10
x)2
CONOMTRIE
V (ab1 ) = Pn
t =1 (x t
x)2
n+ 0.
Une dmonstration analogue pour ab0 donne
V (ab0 ) = 2
!
1
x2
+ Pn
n+ 0.
2
n
t =1 (x t x)
Thorme de Gauss-Markov : Les estimateurs des MCO ont la plus petite variance parmi les estimateurs
linaires sans biais. On dit que ce sont des estimateurs BLUE (Best Linear Unbiased Estimator).
1.3.7 Construction des tests

Nous allons maintenant introduire de nouveau lhypothse qui est celle de la normalis des erreurs. Cette
hypothse nest pas indispensable afin dobtenir des estimateurs convergents mais elle va nous permettre
de construire des tests statistiques concernant la validit du modle estim.
Soit
t
N (0, 2 ).
Cette hypothse permet de dfinir la loi de probabilit des estimateurs.
b 2 est gal :
Lestimateur de la variance de lerreur not
b 2 =
n
1 X
e 2,
n 2 t =1 t
o le rsidu e t est donn par

e t = y t ybt ,
t = 1 . . . , n.
Ce qui nous permet de dfinir les estimateurs empiriques de la variance de chacun des coefficients :
b 2ab1 = Pn
b 2
t =1 (x t
b 2ab0
b 2
=
x)2
!
1
x2
+ Pn
.
2
n
t =1 (x t x)
Lhypothse de normalit des erreurs implique que :

ab1 a 1
,
ab1
ab0 a 0
ab0
Pn
2
t =1 e t
2
= (n 2)
ab1 a 1
,
b ab1
b 2
ab0 a 0
b ab0
N (0, 1)
2n2
Tn2
Il est donc possible maintenant de mettre en place des tests statistiques afin dapporter des rponses des
problmes tels que :
comparaison dun coefficient de rgression par rapport une valeur fixe ;
FPN
11
CONOMTRIE
comparaison de deux coefficients de rgression provenant de deux chantillons diffrents ;

dtermination dun intervalle de confiance pour un coefficient.
1) Test bilatral
Soit tester, un seuil de 5%, lhypothse H0 : a 1 = 0 contre lhypothse H1 : a 1 6= 0.
ab1 0
1 a 1
Sous H0 , on a ab
b ab =
b ab suit une loi de Student n 2 degrs de libert.
1
Le test dhypotheses bilatral consiste donc comparer le ratio de Student empirique t =
|ab1 |
b ab1
la valeur
du t de Student lue dans la table n 2 degrs de libert et pour un seuil de probabilit gal 5%.
0.05
= 1.96.
Si n 2 > 30, on a t
0.05
Si t > t nous rejetons lhypothse H0
le coefficient thorique inconnu a 1 est significativement diffrent de 0.
2) Test unilatral
Soit tester, un seuil de 5%, lhypothse H0 : a 1 = 0 contre lhypothse H1 : a 1 > 0 ou a 1 < 0
ab1 0
1 a 1
Sous H0 , on a ab
b ab =
b ab suit une loi de Student n 2 degrs de libert.
1
Le test dhypotheses unilatral consiste donc comparer le ratio de Student empirique t =
|ab1 |
b ab1
la valeur
du t de Student lue dans la table n 2 degrs de libert et pour un seuil de probabilit gal 5%.
0.05
Si n 2 > 30, on a t
= 1.65.
0.05
Si t > t nous rejetons lhypothse H0
le coefficient thorique inconnu a 1 est significativement diffrent de 0.
Remarque : Si nous rejetons lhypothse H0 pour un test bilatral, alors nous rejetons forcment (pour un
mme seuil de probabilit) lhypothse H0 pour un test unilatral.
Exemple 1.3.2 On sintresse la relation entre les bnfices raliss par les entreprises et le budget annuel
quelles consacrent la publicit. 15 observations ont t ralises
Budget
15 8 36 41 16 8 21 21 53 10 32 17 58
6 20
Bnfices 48 43 77 89 50 40 56 62 100 47 71 58 102 35 60
Rpondons aux questions suivantes
1. Calculer les estimateurs ab1 , ab0 et le coefficient de corrlation r
b 2 = 10, 155, procder lestimation des variances de a 1 et a 0 .
2. Sachant que
b 2 .
3. Dterminer au seuil de signification de 5%, un intervalle de confiance pour a 1 , a 0 et
4. Peut-on affirmer que les coefficients a 1 et a 0 sont significativement diffrents de 0 pour 5% ?

1. Aprs calculs, on obtient ab1 = 1, 28, ab0 = 31, 67 et r = 0, 989.
P
b 2 = 10, 155, donc :
2. On a n = 15, x = 24, 13, nt=1 (x t x)2 = 15 X = 3753, 733 et
b 2ab1 = Pn
b 2
t =1 (x t
b 2ab0
3. Nous savons que
ab1 a 1
b ab1
et
ab0 a 0
b ab0
b 2
=
x)2
= 0, 0027,
!
1
x2
+ Pn
= 2, 252.
2
n
t =1 (x t x)
suivent la loi de Student Tn2 .
Lintervalle de confiance pour a 1 et a 0 nous est donn respectivement par :

ab1 a 1
/2
/2
b ab1 t n2
= t n2
a 1 = ab1
b ab1
FPN
12
CONOMTRIE
ab0 a 0
/2
/2
b ab0 t n2
= t n2
a 0 = ab0
b ab0
/2
Avec n 2 = 13 degre de libert et /2 = 0, 025, on a t n2
= 2, 16 lu dans le tableau de Student.
Donc, les intervalles de confiances pour a 1 et a 0 sont respectivement :
/2
/2
b ab1 t n2
b ab1 t n2
[ab1
; ab1 +
] = [1, 166; 1, 391],
/2
/2
b ab0 t n2
b ab0 t n2
[ab0
; ab0 +
] = [28, 432; 34, 916]
b2
Nous savons que (n 2) 2
2n2 .
b 2 est
Lintervalle de confiance pour
[(n 2)
b 2
21/2
; (n 2)
b 2
2/2
Avec n 2 = 13 degre de libert et /2 = 0, 025, on a 2/2 = 5, 01 et 21/2 = 24, 74 lus dans le tableau
de 2 .
Donc
b 2 [5, 336; 26, 35].
4. On procde un test dhypotheses bilatral qui consiste donc comparer les ratio de Student
|ab1 |
empiriques t =
b ab = 24, 63 et
1
t =
|ab0 |
b ab0
/2
= 2, 16 de Student lue dans la table n 2 degrs de libert et pour
= 21, 10 la valeur du t n2
un seuil de probabilit gal 5%.

Puisque ces valeurs sont suprieurs en valeur absolu 2, 16, alors les deux paramtres a 1 et a 0 sont
significativement diffrents de 0.
La variable exogne x contribue bien expliquer la variable endogne y.
1.3.8 quation et tableau danalyse de la variance

On peut dmontrer que
n
X
e t = 0,
t =1
et par suite, on trouve lquation fondamentale danalyse de la variance :

n
X
2=
(y t y)
t =1
n
X
t =1
{z
=SC T
2+
( ybt y)
{z
=SC E
n
X
e t2 .
t =1
} | {z }
=SC R
La variabilit totale (SCT) est gale la variabilit explique (SCE) + la variabilit des rsidus (SCR).
Cette quation va nous permettre de juger de la qualit de lajustement dun modle.
En effet, plus la variance explique est proche de la variance totale, meilleur est lajustement du nuage de
points par la droite des moindres carrs.
Il est dusage de calculer le rapport :
R2 =
FPN
SC E
SC R
= 1
.
SC T
SC T
13
CONOMTRIE
R 2 est appel le coefficient de dtermination, et R le coefficient de corrlation multiple (dans le cas

particulier du modle de rgression une seule variable explicative, il est gal au coefficient de corrlation
linaire simple entre x et y ).
Variation
Somme des carrs
Degr de libert Carrs moyens
Pn
SC E
2
x
SC E = t =1 ( ybt y)
1
1
Pn
SC R
Rsidu
SC R = t =1 e t2
n-2
n2
P
2
Total
SC T = nt=1 (y t y)
n 1
Le test H0 : a 1 = 0 est quivalent au test dhypothse H0 : SC E = 0 (la variable explicative x t ne contribue
pas lexplication du modle). La statistique de ce test est donne par :
F =
SC E
d d l SC E
SC R
d d l SC R
R2
1
1R 2
n2
F suit une statistique de Fisher 1 et n 2 degrs de libert.
Si F > F 1;n2
nous rejetons au seuil lhypothse H0 et donc la variable x t est significative.
Dans le cas contraire, nous acceptons lhypothse dgalit des variances, donc la variable x t nest pas
explicative de la variable y t .
Remarque 1.3.1 On peut montrer que
(t )2 = F .
Exemple 1.3.3 On sintresse la relation entre les tailles X i en cm de cerains tiges matriaux et leur poids
Yi en K g . 10 observations ont t ralises
taille
Poids
150
18
175
24
200
26
225
23
250
30
275
27
300
34
325
35
350
33
375
40
Donner le tableau danalyse de la variance associ cette chantion. Faire un test de Fisher un seuil de 5%.
Rponse : Nous commenons tout dabord de faire les calculs ncessaires qui sont rsums dant le tableau
suivant :
Xi
150
175
200
225
250
275
300
325
350
375
Total
Yi
18
24
26
23
30
27
34
35
33
40
(Yi Y )2
121
25
9
36
1
4
25
36
16
121
394
Ybi
19.84
21.87
23.91
25.95
27.98
30.02
32.05
34.09
36.13
38.16
(Ybi Y )2
83.90
50.83
25.90
9.30
1.04
1.04
9.30
25.90
50.83
83.90
341.94
(Yi Ybi )2
3.38
4.53
4.36
8.70
4.08
9.12
3.8
0.82
9.79
3.38
51.96
Traons maintenant le danalyse de la variance :
FPN
Variation
Somme des carrs
Degr de libert
Carrs moyens
x
Rsidu
Total
SC E = 341.94
SC R = 51.96
SC T = 394
1
8
9
SC E
1 = 341.94
SC R
8 = 6.5
14
CONOMTRIE
Soit le test dhypothse H0 : SC E = 0 contre H1 : SC E 6= 0.

La statistique de ce test est donne par :
F =
SC E
d d l SC E
SC R
d d l SC R
341.94
= 52.73.
6.5
0.05
Puisque F 1;n2
= F 1;8
= 5.32, alors F > F 1;n2
.
Donc, nous rejetons au seuil lhypothse H0 et donc la variable explicative est significative.
1.3.9 La prvision dans le modle de rgression simple

Lorsque les coefficients du modle ont t estims, il est possible de calculer une prvision un horizon h.
Soit le modle estim sur la priode t = 1, . . . , n ;
y t = ab0 + ab1 x t + e t
Si la valeur de la variable explicative x t est connue en n + 1 (x n+1 ), la prvision est donne par :
ybn+1 = ab0 + ab1 x n+1
Lerreur de prvision est gale :
e n+1 = y n+1 ybn+1 = (a 0 ab0 ) + (a 1 ab1 )x n+1 + n+1
En se rfrant aux hypothses du modle, on a :
E (e n+1 ) = 0
b 2
E (e n+1 ) =
(x n+1 x)2
1
+ Pn
+1 .
2
n
t =1 (x t x)
Lhypothse de normalit de t permet alors de determiner un intervalle (1 )% pour la prvision :
(x n+1 x)2
2 1
b
e n+1
N 0,
+ Pn
+1
2
n
t =1 (x t x)
ab0 + ab1 x n+1 y n+1

r
2
1
n+1 x)
P(x
b
+
1
+
n
2
n
(x x)
t =1
Tn2 .
On obtient alors lintervalle de prdiction :

s
y n+1 =
/2 2
b
ybn+1 t n2
1
(x n+1 x)2
+ Pn
+ 1.
2
n
t =1 (x t x)
Exemple 1.3.4 A partir de lexemple prcdent, dterminer au seuil 5%, un intervalle de confiance pour le
poids prvisible relatif une taille de 400cm dun tige.
Rponse : On a lintervalle de prdiction I Y40 est donn par :
s
1
(x n+1 x)2
/2 2
b
y n+1 = ybn+1 t n2
+ Pn
+1
2
n
t =1 (x t x)
o x n+1 = 400, x = 262.5,
Donc,
Pn
t =1 (x t
/2
b 2 =
x)2 = 51562.5, ybn+1 = 40.02, t n2
= t 80.025 = 2.306,
I Y40 = [21.86; 58.17].

FPN
15
SC R
n2
= 6.5.
CONOMTRIE
FPN
16
Chapitre 2
Le modle linaire multiple

2.1 Introduction
Le modle de rgression linaire multiple nest quune extension du modle de rgression linaire simple
au cas multivari dans lequel interviennent plusieurs variables exognes dans lexplication du phnomne
tudi.
On parle aussi de modle de rgression linaire gnral ou standard pour souligner que ce modle reste
valable quel que soit le nombre dexognes qui sy figurent.
Dans sa forme gnrale, il scrit de la sorte :
y t = a 0 + a 1 x 1t + + a k x kt + t ,
t = 1, 2, . . . , n.
Afin den allger lcriture et de faciliter lexpression de certains rsultats, on a habituellement recours aux
notations matricielles.
,
Y = |{z}
X
a + |{z}
|{z}
|{z}
(n,1)
(n,k+1) (k+1,1)
(n,1)
x 21
x 22
..
.
x 2t
..
.
x 2n
Y =
y1
y2
..
.
yt
..
.
yn
, X =
1
1
..
.
1
..
.
1
x 11
x 12
..
.
x 1t
..
.
x 1n
x k1
x k2
..
.
x kt
..
.
x kn
,a =
a0
a1
a2
..
.
ak
, =
1
2
..
.
t
..
.
n
2.2 La mthode des moindres carrs

La mthode des moindres carrs cherche la meilleure estimation des paramtres a en minimisant la quantit :
Mi n
n
X
t =1
2t = Mi n
n
X
0 = Mi n (Y X a)0 (Y X a) .
t =1
2.2.1 Les hypothses de la mthode des MCOs

Hypothses probabilistes (hypothses stochastiques) :
Les X sont observs sans erreur (non alatoires)
E () = 0, en moyenne le modle est bien spcifi
E (2 ) = 2 la variance de lerreur est constante (homoscdasticit)
17
CONOMTRIE
i 6= j E (i , j ) = 0 les erreurs sont non-corrles (non-autocorrlation des erreurs)

C ov(, X ) = 0, lerreur est indpendante des variables explicatives

N (0, 2 )
Hypothses structurelles :
Rang (X 0 X ) = k + 1 ; (X 0 X )1 existe, ou encore d et (X 0 X ) 6= 0
(X 0 X ) tend vers une matrice finie non singulire quand n +
n > k + 1, le nombre dobservations est suprieur au nombre de paramtres du modle (variables explicatives
+ constante)
2.2.2 Estimateurs des MCO

La rsolution analytique par MCO est la suivante :
ab = (X 0 X )1 X 0 Y
Dune manire dvoloppe :
P
y
P t
x 1t y t
P
x 2t y t
..
.
..
.
P
x kt y t
P

x
P 1t

x 2t
=

..

.
x kt
P
x
P 1t
x2
P 1t
x 2t x 1t
..
.
P
x kt x 1t
P
x
P 2t
x 1t x 2t
P 2
x 2t
..
.
P
x kt x 2t
P
x
P kt
x 1t x kt
P
x 2t x kt
..
.
P 2
x kt
ab0
ab1
ab2
..
.
abk
2.2.3 Proprits des estimateurs

Ecrivons
ab = (X 0 X )1 X 0 Y = (X 0 X )1 X 0 (X a + ) = a + (X 0 X )1 X 0 ,
alors,
b = E (a) + E ((X 0 X )1 X 0 ) = E (a) + (X 0 X )1 X 0 E () = E (a)
E (a)
car E () = 0.
Ce qui signifie que les estimateurs sont sans biais.
La matrice des variances et covariances des coefficients de rgression quon note ab est donne par
ab = 2 (X 0 X )1
ab =
V ar (ab0 )
C ov(ab0 , ab1 )
..
.
C ov(abk , ab0 )
C ov(ab0 , ab1 )
V ar (ab1 )
..
.
C ov(abk , ab1 )
lim ab = lim
C ov(ab0 , abk )
C ov(ab1 , abk )
..
.
V ar (abk )
2 X 0 X 1
= 0.
n
n
Thorme de Gauss-Markov : Les estimateurs des MCO ont la plus petite variance parmi les estimateurs linaires
sans biais.
Ce sont des estimateurs BLUE (Best Linear Unbiased Estimator).
FPN
18
CONOMTRIE
Aprs un calcul matriciel, il apparait que nous pouvons estimer sans biais 2 par :
b 2 =
ee 0
n k 1
avec e t = y t ybt est le rsidu, cest--dire lcart entre la valeur observe de la variable expliquer et sa valeur
estime (ajuste).
En remplaant la variance de lerreur par son estimateur, nous obtenons :
b ab =
b 2 (X 0 X )1
2.3 quation danalyse de la variance et qualit dun ajustement

Lquation fondamentale danalyse de la variance :
n
X
2=
(y t y)
t =1
n
X
t =1
{z
=SC T
2+
( ybt y)
{z
=SC E
n
X
e t2
t =1
} | {z }
=SC R
va nous permettre de juger de la qualit de lajustement dun modle ; en effet, plus la variance explique est proche
de la variance totale, meilleur est lajustement global du modle. Cest pourquoi nous calculons le rapport
R2 =
SC E
SC R
= 1
SC T
SC T
appel le coefficient de dtermination, et R le coefficient de corrlation multiple. R 2 mesure la proportion de la

variance de Y explique par la rgression de Y sur X .
Exemple 2.3.1 Soit le modle y t = a 0 + a 1 x 1t + a 2 x 2t + a 3 x 3t + t , o :
t
1
2
3
4
5
6
7
8
9
10
11
12
13
14
y
12
14
10
16
14
19
21
19
21
16
19
21
25
21
x1
2
1
3
3
7
8
8
5
5
8
4
9
12
7
x2
45
43
43
47
42
41
32
33
41
38
32
31
35
29
x3
121
132
154
145
129
156
132
147
128
163
161
172
174
180
1. Mettre le modle sous forme matricielle en spcifiant bien les dimensions de chacune des matrices
2. Estimer les paramtres du modle
3. Calculer lestimation de la variance de lerreur ainsi que les carts types de chacun des coefficients.
4. Calculer le coefficient de dtermination et commenter
FPN
19
CONOMTRIE
Rponses :
1) Forme matricielle : Y = X a + , o
Y =
12
14
..
.
10
{z
, X =
(14,1)
1
1
1
..
.
1
2
1
3
..
.
7
45
43
43
..
.
29
{z
121
132
154
..
.
180
(14,4)
, a =
|
}
a0
a1
a2
a3
{z
(4,1)
, =
1
2
..
.
14
{z
(14,1)
2) Estimation des paramtres : Nous savons que ab = (X 0 X )1 X 0 Y . Donc, on doit calculer X 0 X puis (X 0 X )1 .
1
2
X X =
45
121
1
1
43
132
1
3
43
154
14
85
X 0X =
532
2094
85
631
3126
13132
20, 16864
0, 015065
0
1
(X X ) =
0, 23145
0, 07617
On a
1
2
X 0Y =
45
121
1
1
43
132
1
3
43
154
1
1
1
..
.
1
532
3126
20666
78683
0, 015065
0, 013204
0, 001194
0, 00094
29
180
2
1
3
..
.
7
45
43
43
..
.
29
121
132
154
..
.
180
2094
13132
78683
317950
0, 23145
0, 001194
0, 003635
0, 000575
0, 07617
0, 00094
.
0, 000575
0, 000401
12
1
248
14
7
. = 1622
9202
.
29
.
180
37592
10
Alors,
20, 16864
0, 015065
ab =
0, 23145
0, 07617
0, 015065
0, 013204
0, 001194
0, 00094
0, 23145
0, 001194
0, 003635
0, 000575
0, 07617
248
1622
0, 00094
0, 000575 9202
0, 000401
37592

ab0
32, 89132
ab1 0, 801900
ab =
=
ab2 0, 38136
ab3
0, 03713
b et de
b ab. On sait que
3) Calcul de
b 2 =
ee 0
.
n k 1
Les composantes du rsidu e = Y Yb = Y X ab sont :

e t = y t (a 0 + a 1 x 1t + a 2 x 2t + a 3 x 3t )
e t = y t 32, 89 0, 80x 1t + 0, 38x 2t + 0, 03x 3t .
Par exemple pour e 1 :
FPN
20
CONOMTRIE
e 1 = y 1 32, 89 0, 80x 11 + 0, 38x 21 + 0, 03x 31

e 1 = 12 32, 89 0, 80 2 + 0, 38 45 + 0, 03 121 = 0, 84
Nous rsumons dans le tableau suivant lensemble des rsultats.
t
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Somme
yt
12
14
10
16
14
19
21
19
21
16
19
21
25
21
ybt
12, 84
12, 39
13, 18
13, 39
17, 70
17, 88
22, 20
18, 86
16, 51
18, 76
17, 92
21, 90
22, 71
20, 76
et
0, 84
1, 61
3, 18
1, 61
3, 70
1, 12
1, 20
0, 14
4, 49
2, 76
1, 08
0, 90
2, 29
0, 24
0
e t2
0, 71
2, 58
10, 11
2, 58
13, 67
1, 26
1, 44
0, 02
20, 14
7, 63
1, 17
0, 81
5, 27
0, 06
67, 45
On a
b 2 =
P14 2
ee 0
67, 45
t =1 e t
=
=
= 6, 745.
n k 1 14 3 1
10
b ab =
b 2 (X 0 X )1
20, 16864
0, 015065
b ab = 6, 745
0, 23145
0, 07617
0, 015065
0, 013204
0, 001194
0, 00094
0, 23145
0, 001194
0, 003635
0, 000575
0, 07617
0, 00094
.
0, 000575
0, 000401
Les variances des coefficients de rgression se trouvent sur la premire diagonale :

b 2ab0 = 6, 745 20, 17 = 136, 04
b ab0 = 11, 66,
b 2ab1 = 6, 745 0, 013 = 0, 087

b ab1 = 0, 29,
b 2ab2 = 6, 745 0, 0036 = 0, 024

b ab2 = 0, 15,
b 2ab3 = 6, 745 0, 0004 = 0, 0026

b ab3 = 0, 05.
4) Le coefficient de dtermination R 2 est

P14 2
et
SC E
SC R
R =
= 1
= 1 P14 t =1
.
2
SC T
SC T
t =1 (y t y)
2
Nous avons ee 0 =
P14
2
t =1 e t
= 67, 45 et
P14
t =1 (y t
y)2 = 226, 86, donc

R2 = 1
67, 45
= 0, 702.
226, 86
Puisque R 2 > 0, 5 lajustement global du modle linaire est bon.

FPN
21
CONOMTRIE
2.4 Construction des tests

Nous pouvons mettre en place un certain nombre de tests statistiques que nous allons expliciter.
1) Comparaison dun paramtre a i une valeur fixe a
H0 : a i = a,
contre H1 : a i 6= a.
/2
Si t abi > t nk1
nous rejetons lhypothse H0 et alors a i est significativement different de a (au seuil de ).
/2
nous acceptons lhypothse H0 et alors a i est nest pas significativement different de a (au
Si t abi t nk1
seuil de ).
2) Comparaison dun ensemble de paramtres un ensemble de valeurs fixes :
Nous cherchons tester simultanment lgalit dun sous-ensemble de coefficients de rgression des valeurs
fixes.
H0 : a q = a q , contre H1 : a q 6= a q ,
o q tant le nombre de coefficients retenus.
Pour accepter H0 , il suffit que :
0 1
1
b
bq a q F (q, n k 1).
abq a q
abq a
q
F (q, n k 1) est loi de Fisher au seuil q et n k 1 degrs de libert.
3) Intervalle de confiance de la variance de lerreur :
Lintervalle de confiance de la variance de lerreur permet de dterminer une fourchette de variation de lamplitude
de lerreur.
Pour un intervalle (1 %), il est donn par :
"
(n k 1)b
2 (n k 1)b
2
IC =
;
2
2
1
2
avec 21 n k 1 degrs de libert et /2 de probabilit dtre dpasse et22 n k 1 degrs de libert et 1 /2

de probabilit dtre dpasse.
Exemple 2.4.1 En reprenant les donnes du tableau de lexemple prcdent, on demande de rpondre aux questions
suivantes :
1. Les variables explicatives sont-elles significativement contributives pour expliquer la variable endogne ?
2. Le coefficient a 1 est-il significativement infrieur 1 ?
3. Les coefficients a 1 et a 2 sont-ils simultanment et significativement diffrents de 1 et 0, 5 ?
4. Quel est lintervalle de confiance pour la variance de lerreur ?
(Les seuils choisis seront de 5%.)
Rponses :
1) Il convient de calculer les trois ratios de Student et de les comparer la valeur lue dans la table pour un seuil de 5% :
t ab1 =
|ab1 | 0, 80
0,05
=
= 2, 75 > 2, 228 = t 10
a 1 6= 0.
b ab1 0, 29
Donc, la variable explicative x 1 est contributive lexplication de y.
FPN
t ab2 =
|ab2 | | 0, 38|
0,05
=
= 2, 53 > t 10
a 2 6= 0,
b ab2
0, 15
t ab3 =
|ab3 | | 0, 03|
0,05
=
= 0, 60 < t 10
a 3 = 0.
b ab3
0, 05
22
CONOMTRIE
La variable x 2 est explicative de y alors que la variable x 3 nest pas contributive lexplication de y, il convient donc de
la retirer de ce modle et de procder une nouvelle estimation.
Nous aurions pu tout aussi bien rpondre cette question en calculant les intervalles de confiance de chacun des
coefficients :
/2
/2
b ab1 t nk1
b ab1 t nk1
IC a1 = [ab1
; ab1 +
] = [0, 14; 1, 45].
De mme, nous obtenons :

IC a2 = [0, 71; 0, 04],
IC a3 = [0, 14; 0, 08].

La valeur 0 nappartient pas lintervalle de confiance 95% de a 1 et a 2 , donc ces deux coefficients sont
significativement diffrents de 0 ; en revanche, 0 appartient lintervalle de confiance de a 3 , ce coefficient nest pas
significativement diffrent de 0.
2) Nous posons le test dhypothses unilatral suivant :
H0 : a 1 = 1,
contre H1 : a 1 < 1.
Sous H0 , nous avons

ab1 a 1 0, 80 1
0,1
20,05
=
= 0, 68 > 1, 81 = t 10
= t 10
b ab1
0, 29
Acceptation de H0 .
3) Le test dhypothses est le suivant :
H0 :
a1
a2
1
0, 5
contre H1 :
a1
a2
6=
1
0, 5
0 1
b
abq a q ,
Calculons F = q1 abq a q
abq
0, 80
1
o q = 2, abq =
, aq =
et
0, 38
0, 5
b ab = 6, 745.
q
b 1 =
abq
0, 013204
0, 001194
11, 57140
3, 80213
0, 001194
0, 003635
3, 80213
42, 03506
Donc,
1
F = (0, 8 1; 3, 8 + 0, 5)
2
11, 57140
3, 80213
3, 80213
42, 03506
0, 8 1
3, 8 + 0, 5
0,05
F = 0, 612 < 4, 10 = F (q, n k 1) = F 2;10
.
Et parsuite, on accepte lhypothse H0 .

Les donnes ne sont pas incompatibles avec la possibilit que les coefficients a 1 et a 2 soient simultanment et
respectivement gaux 1 et 0, 5.
4) Lintervalle de confiance de la variance de lerreur un seuil (1 )% = 95% est calcule partir de la formule
# "
#
2
(n k 1)b
2 (n k 1)b
10 6, 745 10 6, 745
;
=
;
IC =
21
22
20,025
20,975
"
pour 10 degrs de libert.

Soit 3, 30 2 20, 75.
La variance vraie (mais inconnue) 2 de lerreur 95% de chance de se situer dans cet intervalle.
FPN
23
CONOMTRIE
2.4.1 Construction du tableau danalyse de la variance et test de signification globale dune

rgression
Dans cette section, nous allons nous interroger sur la signification globale du modle de rgression, cest--dire si
lensemble des variables explicatives a une influence sur la variable expliquer.
Ce test peut tre formul de la manire suivante : existetil au moins une variable explicative significative ?
Soit le test dhypothses :
H0
a1 = a2 = = ak = 0
H1
Il existe au moins a i 6= 0
Le cas o lhypothse H0 est accepte signifie quil nexiste aucune relation linaire significative entre la variable
expliquer et les variables explicatives (ou encore que la Somme des Carrs Expliqus nest pas significativement
diffrente de 0).
Nous reprenons lquation fondamentale danalyse de la variance :
n
X
t =1
t =1
n
X
2=
(y t y)
{z
=SC T
2+
( ybt y)
{z
=SC E
n
X
e t2 .
t =1
} | {z }
=SC R
Nous traons le tableau danalyse de la variance permettant deffectuer le test de Fisher. Soit
Pn
2 /k
( ybt y)
R 2 /k
=
F = Pn t =1 2
(1 R 2 )/(n k 1)
t =1 e t /(n k 1)
Variation
SC
DDL
CM
x1 , . . . , xk
Rsidu
Total
SC E
SC R
SC T
k
n k 1
n 1
SC E
k
SC R
nk1
Lhypothese de normalite des erreurs implique que sous H0 , F suit une loi de Fisher (rapport de deux chi-deux).
Si F > F (k, n k 1), nous rejetons H0 et le modle est globalement explicatif.
Exemple 2.4.2 Tester la significativit globale du modle vu dans lexemple prcdent.
Rponse :
Le tableau danalyse de la variance permettant deffectuer le test de Fisher est :
Variation
SC
DDL
CM
x1 , x2 , x3
Rsidu
Total
SC E = 159, 41
SC R = 67, 45
SC T = 226, 86
3
10
13
53, 13
6, 745
0,95
SC E /3
SC R/10 = 7, 87 et F (3;10) = 3, 71.
0,95
Puisque F > F (3;10) , nous rejetons H0 et le modle est globalement explicatif.
On a F =
FPN
24
CONOMTRIE
Tables Statistiques usuelles

Loi Normale Centre Rduite
FPN
25
CONOMTRIE
Loi de Student
FPN
26
CONOMTRIE
Loi de 2
FPN
27
CONOMTRIE
Loi de Fisher
FPN
28
CONOMTRIE
Loi de Fisher
FPN
29

Cours Économetrie

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Cours Économetrie

Uploaded by

Copyright:

Available Formats

UNIVERSITE MOHAMMED PREMIER

FACULTE PLURIDISCIPLAINAIRE- NADOR

Modle linaire simple

Professeur : ABBADI Abdelaziz

SCIENCE ECONOMIQUE ET GESTION S 6

Table des matires

2 Le modle linaire multiple

SCIENCE ECONOMIQUE ET GESTION S 6

Le modle linaire simple

1.2 Le modle linaire simple

les formules de base permettant destimer les paramtres du modle

1.3 Prsentation du modle

SCIENCE ECONOMIQUE ET GESTION S 6

o C i et Yi sont la consommation et le revenu du pays i pour une anne donne.

1.3.3 Rle du terme alatoire

SCIENCE ECONOMIQUE ET GESTION S 6

1.3.4 Estimation des paramtres

H5 : t 6= t 0 E (t t 0 ) = 0, les erreurs sont non corrles.

t = 1, . . . , n , lerreur est indpendante de la variable explicative.

Nous calculons alors une statistique, appel le t de Student empirique :

Exemple 1.3.1 On relve 10 couples (x, y) de donnes consigns dans le tableau

SCIENCE ECONOMIQUE ET GESTION S 6

F IGURE 1.1 Corrlation entre deux variables

1) Tracer le nuage de points et le commenter.

Donc le coefficient de corrlation entre x et y est significativement diffrent de 0.

SCIENCE ECONOMIQUE ET GESTION S 6

1.3.5 Mthode des moindres carrs ordinaires (MCO)

La rsolution analytique est la suivante :

1.3.6 Proprits des estimateurs

SCIENCE ECONOMIQUE ET GESTION S 6

F IGURE 1.2 Droite de rgression

SCIENCE ECONOMIQUE ET GESTION S 6

Une dmonstration analogue pour ab0 donne

1.3.7 Construction des tests

o le rsidu e t est donn par

Lhypothse de normalit des erreurs implique que :

SCIENCE ECONOMIQUE ET GESTION S 6

comparaison de deux coefficients de rgression provenant de deux chantillons diffrents ;

Le test dhypotheses bilatral consiste donc comparer le ratio de Student empirique t =

Le test dhypotheses unilatral consiste donc comparer le ratio de Student empirique t =

4. Peut-on affirmer que les coefficients a 1 et a 0 sont significativement diffrents de 0 pour 5% ?

3. Nous savons que

suivent la loi de Student Tn2 .

Lintervalle de confiance pour a 1 et a 0 nous est donn respectivement par :

SCIENCE ECONOMIQUE ET GESTION S 6

Nous savons que (n 2) 2

un seuil de probabilit gal 5%.

1.3.8 quation et tableau danalyse de la variance

et par suite, on trouve lquation fondamentale danalyse de la variance :

SCIENCE ECONOMIQUE ET GESTION S 6

R 2 est appel le coefficient de dtermination, et R le coefficient de corrlation multiple (dans le cas

F suit une statistique de Fisher 1 et n 2 degrs de libert.

Traons maintenant le danalyse de la variance :

Somme des carrs

SCIENCE ECONOMIQUE ET GESTION S 6

Soit le test dhypothse H0 : SC E = 0 contre H1 : SC E 6= 0.

1.3.9 La prvision dans le modle de rgression simple

Lhypothse de normalit de t permet alors de determiner un intervalle (1 )% pour la prvision :

ab0 + ab1 x n+1 y n+1

On obtient alors lintervalle de prdiction :

I Y40 = [21.86; 58.17].

SCIENCE ECONOMIQUE ET GESTION S 6

Le modle linaire multiple