You are on page 1of 29

UNIVERSITE MOHAMMED PREMIER

FACULTE PLURIDISCIPLAINAIRE- NADOR


DEPARTEMENT : ECONOMIE-GESTION

MATIERE : CONOMTRIE
SEMESTRE 6
ANNEE UNIVERSITAIRE : 2014-2015

[ COURS DCONOMTRIE [

U
U

Modle linaire simple


Modle linaire multiple

Professeur : ABBADI Abdelaziz

CONOMTRIE

SCIENCE ECONOMIQUE ET GESTION S 6

FPN

Table des matires


1 Le modle linaire simple
1.1 Introduction lconomtrie . . . . . . . . . . . . . . . .
1.2 Le modle linaire simple . . . . . . . . . . . . . . . . . .
1.3 Prsentation du modle . . . . . . . . . . . . . . . . . . .
1.3.1 Exemple introductif . . . . . . . . . . . . . . . . .
1.3.2 Spcification . . . . . . . . . . . . . . . . . . . . . .
1.3.3 Rle du terme alatoire . . . . . . . . . . . . . . .
1.3.4 Estimation des paramtres . . . . . . . . . . . . .
1.3.5 Mthode des moindres carrs ordinaires (MCO) .
1.3.6 Proprits des estimateurs . . . . . . . . . . . . .
1.3.7 Construction des tests . . . . . . . . . . . . . . . .
1.3.8 quation et tableau danalyse de la variance . . .
1.3.9 La prvision dans le modle de rgression simple

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

2 Le modle linaire multiple


2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 La mthode des moindres carrs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Les hypothses de la mthode des MCOs . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.2 Estimateurs des MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.3 Proprits des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 quation danalyse de la variance et qualit dun ajustement . . . . . . . . . . . . . . . . . . . .
2.4 Construction des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.1 Construction du tableau danalyse de la variance et test de signification globale dune
rgression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5
5
5
5
5
6
6
7
9
9
11
13
15
17
17
17
17
18
18
19
22
24

CONOMTRIE

SCIENCE ECONOMIQUE ET GESTION S 6

FPN

Chapitre 1

Le modle linaire simple


1.1 Introduction lconomtrie
Lconomtrie est le principal outil danalyse quantitative utilis par les conomistes et gestionnaires dans
divers domaines dapplication, comme la macroconomie, la finance ou le marketing.
Les mthodes de lconomtrie permettent de vrifier lexistence de certaines relations entre des
phnomnes conomiques, et de mesurer concrtement ces relations, sur la base dobservations de faits
rels.
Dans son acception la plus restreinte, lconomtrie est un ensemble de techniques utilisant la statistique
mathmatique qui vrifient la validit empirique des relations supposes entre les phnomnes
conomiques et mesurent les paramtres de ces relations. Au sens large, lconomtrie est lart de
construire et destimer des modles empiriques adquats par rapport aux caractristiques de la ralit, et
intelligibles au regard de la thorie conomique.

1.2 Le modle linaire simple


Nous commenons notre tude par le modle le plus simple : une variable endogne est explique par une
variable exogne. Aprs avoir tudi les consquences probabilistes de lerreur dobservation, nous
prsentons :

les formules de base permettant destimer les paramtres du modle


les hypothses stochastiques et leurs consquences sont tudies
la qualit de lestimation dun modle est examine laide des premiers tests statistiques (Student,
Fisher)

le modle de rgression simple est tudi en tant quoutil de prvision avec le degr de confiance
que nous pouvons en attendre.

1.3 Prsentation du modle


1.3.1 Exemple introductif
Admettons que nous constatons le fait conomique illustrer dans la figure suivante :
On observe que les 2 courbes voluent pratiquement dans le mme sens : elles augmentent et diminuent
simultanment. On peut penser quil y a un lien entre ces 2 variables. On peut en effet penser que la
5

CONOMTRIE

SCIENCE ECONOMIQUE ET GESTION S 6

consommation C des mnages est influence par le revenu disponible RD. Lorsque le revenu augmente, la
consommation saccrot.
Soit la fonction de consommation keynsienne :
C = a0 + a1 Y ,
o C = consommation, Y = revenu, a 1 = propension marginale consommer et a 0 = consommation
autonome ou incompressible.

1.3.2 Spcification
Nous pouvons distinguer deux types de spcifications :
Les modles en srie temporelle, les variables reprsentent des phnomnes observs intervalles
de temps rguliers, par exemple la consommation et le revenu annuel sur 20 ans pour un pays
donn. Le modle scrit alors :
C t = a 0 + a 1 Y t t = 1, . . . , 20,
o C t et Y t sont la consommation et le revenu au temps t .
Les modles en coupe instantane, les variables reprsentent des phnomnes observs au mme
instant mais concernant plusieurs individus, par exemple la consommation et le revenu observs sur
un chantillon de 20 pays. Le modle scrit alors :
C i = a 0 + a 1 Yi

i = 1, . . . , 20,

o C i et Yi sont la consommation et le revenu du pays i pour une anne donne.

1.3.3 Rle du terme alatoire


Il existe une multitude de facteurs susceptibles dexpliquer la consommation. Cest pourquoi nous
ajoutons un terme (t ) qui synthtise lensemble de ces informations non explicites dans le modle :
C t = a 0 + a 1 Y t + t si le modle est spcifie en srie temporelle (C i = a 0 + a 1 Yi + i si le modle est spcifie
en coupe instantane).
Le terme t reprsente lerreur de specification du modle, cest-a-dire lensemble des phnomnes
explicatifs de la consommation non lis au revenu. Il mesure la diffrence entre les valeurs rellement
observes de C t et les valeurs qui auraient t observes si la relation spcifie avait t rigoureusement
exacte.
FPN

CONOMTRIE

SCIENCE ECONOMIQUE ET GESTION S 6

1.3.4 Estimation des paramtres


Soit le modle suivant :
y t = a 0 + a 1 x t + t

t = 1, . . . , n.

Afin destimer et dtudier les deux paramtres inconnus a 0 et a 1 , nous introduisons les hypothses
suivantes :
H1 : Le modle est linaire en x t (ou en nimporte quelle transformation de x t ).
H2 : Les valeurs x t sont observes sans erreur (x t non alatoires).
H3 : E (t ) = 0,
H4 : E (2t ) = 2 ,

t = 1, . . . , n.
t = 1, . . . , n, la variance de lerreur est constante.

H5 : t 6= t 0 E (t t 0 ) = 0, les erreurs sont non corrles.


H6 : C ov(x t , t ) = 0,

t = 1, . . . , n , lerreur est indpendante de la variable explicative.

La reprsentation graphique ne donne quune impression de la corrlation entre deux variables sans
donner une ide prcise de lintensit de la liaison (voir 1.1), cest pourquoi nous calculons une statistique
appele coefficient de corrlation linaire simple, not r x,y . Il est gal :
r = r x,y

Pn
C ov(X , Y )
t =1 (x t x)(y t y)
=
= qP
qP
X Y
n
n
2
2
(x

x)
t =1 t
t =1 (y t y)

Ce coefficient nest calcul que partir dun echantillon dobservations et non pas sur lensemble des
valeurs.

On appelle x,y ce coefficient empirique qui est une estimation du vrai coefficient r x,y .
Soit tester lhypothse H0 : r x,y = 0 , contre lhypothse H1 : r x,y 6= 0.
Nous pouvons dmontrer que
x,y
Tn2
r
1 2x,y
n2

Nous calculons alors une statistique, appel le t de Student empirique :


| x,y |
t = r

1 2x,y
n2

/2
Si t > t n2
valeur lue dans une table de Student au seuil = 5% n 2 degrs de libert, nous rejetons
lhypothse H0 , le coefficient de correlation est donc significativement different de 0.
Dans le cas contraire, lhypothse dun coefficient de corrlation nul est accepte.

Exemple 1.3.1 On relve 10 couples (x, y) de donnes consigns dans le tableau

FPN

16

18

23

24

28

29

26

31

32

34

20

24

28

22

32

28

32

36

41

41

CONOMTRIE

SCIENCE ECONOMIQUE ET GESTION S 6

F IGURE 1.1 Corrlation entre deux variables

1) Tracer le nuage de points et le commenter.


2) Calculer le coefficient de correlation simple et tester sa signification par rapport 0 pour un seuil = 0, 05.
Rponses :
1) Le nuage de points indique que les couples de valeurs sont approximativement aligns : les deux variables
semblent corrles positivement.
2) Aprs calcul, on obtient x,y = 0, 89.
Le t de Student empirique est gal :
| x,y |
= 5, 49 > t 80,025 = 2, 306.
t = r
1 2x,y
n2

Donc le coefficient de corrlation entre x et y est significativement diffrent de 0.


FPN

CONOMTRIE

SCIENCE ECONOMIQUE ET GESTION S 6

1.3.5 Mthode des moindres carrs ordinaires (MCO)


Le nuage de points peut sajuster laide dune droite (voir 1.2). Lestimateur des coefficients a 0 et a 1 est
obtenu en minimisant la distance au carr entre chaque observation et la droite, do le nom destimateur
des moindres carrs ordinaires (MCO) :
Mi n

n
X
t =1

2t = Mi n

n
X

y t a0 a1 x t

t =1

La rsolution analytique est la suivante :


Pn

ab1 =

t =1 (x t x)(y t y)
Pn
2
t =1 (x t x)

Pn

= Pt n=1

t =1 (x t )

ab0 = y ab1 x

1.3.6 Proprits des estimateurs


Ecrivons
y t = a 0 + a 1 x t + t ,
et
y = a 0 + a 1 x + ,
FPN

(x t y t ) n x y
2 nx 2

CONOMTRIE

SCIENCE ECONOMIQUE ET GESTION S 6

F IGURE 1.2 Droite de rgression


on obtient :

Pn

ab1 = a 1 + Ptn=1

(x t x)t

t =1 (x t

On alors,

x)2

Pn

t =1 (x t x)E (t )
Pn
2
t =1 (x t x)

E (ab1 ) = E (a 1 ) +

= E (a 1 )

car E (t ) = 0.
De mme on dmontre que E (ab0 ) = a 0 . Ce qui signifie que les estimateurs sont sans biais.
Puisque les estimateurs sont sans biais, il suffit pour quils soient convergents que :
lim V (ab1 ) = lim V (ab0 ) = 0.

n+

En effet :

n+

" P
2 #
n
t =1 (x t x)t
V (ab1 ) = E (ab1 E (ab1 )) = E (ab1 a 1 ) = E
Pn
2
t =1 (x t x)
2

"

V (ab1 ) = E

n
X

2 #

t t

t =1

n
X

2t E (2t ) + 2

t =1

t t 0 E (t t 0 ),

t <t 0

t x
o on a pos t = Pn x(x
2.
=1 x)
Daprs les hypothses H 4 et H 5, on obtient

V (ab1 ) =
FPN

n
X
t =1

(2t 2 ) = Pn

t =1 (x t

10

x)2

CONOMTRIE

SCIENCE ECONOMIQUE ET GESTION S 6

V (ab1 ) = Pn

t =1 (x t

x)2

n+ 0.

Une dmonstration analogue pour ab0 donne

V (ab0 ) = 2

!
1
x2
+ Pn
n+ 0.
2
n
t =1 (x t x)

Thorme de Gauss-Markov : Les estimateurs des MCO ont la plus petite variance parmi les estimateurs
linaires sans biais. On dit que ce sont des estimateurs BLUE (Best Linear Unbiased Estimator).

1.3.7 Construction des tests


Nous allons maintenant introduire de nouveau lhypothse qui est celle de la normalis des erreurs. Cette
hypothse nest pas indispensable afin dobtenir des estimateurs convergents mais elle va nous permettre
de construire des tests statistiques concernant la validit du modle estim.
Soit
t
N (0, 2 ).
Cette hypothse permet de dfinir la loi de probabilit des estimateurs.
b 2 est gal :
Lestimateur de la variance de lerreur not
b 2 =

n
1 X
e 2,
n 2 t =1 t

o le rsidu e t est donn par


e t = y t ybt ,

t = 1 . . . , n.

Ce qui nous permet de dfinir les estimateurs empiriques de la variance de chacun des coefficients :
b 2ab1 = Pn

b 2

t =1 (x t

b 2ab0

b 2
=

x)2

!
1
x2
+ Pn
.
2
n
t =1 (x t x)

Lhypothse de normalit des erreurs implique que :


ab1 a 1
,
ab1

ab0 a 0
ab0

Pn

2
t =1 e t
2

= (n 2)

ab1 a 1
,
b ab1

b 2

ab0 a 0
b ab0

N (0, 1)

2n2

Tn2

Il est donc possible maintenant de mettre en place des tests statistiques afin dapporter des rponses des
problmes tels que :
comparaison dun coefficient de rgression par rapport une valeur fixe ;
FPN

11

CONOMTRIE

SCIENCE ECONOMIQUE ET GESTION S 6

comparaison de deux coefficients de rgression provenant de deux chantillons diffrents ;


dtermination dun intervalle de confiance pour un coefficient.
1) Test bilatral
Soit tester, un seuil de 5%, lhypothse H0 : a 1 = 0 contre lhypothse H1 : a 1 6= 0.
ab1 0
1 a 1
Sous H0 , on a ab
b ab =
b ab suit une loi de Student n 2 degrs de libert.
1

Le test dhypotheses bilatral consiste donc comparer le ratio de Student empirique t =

|ab1 |
b ab1

la valeur

du t de Student lue dans la table n 2 degrs de libert et pour un seuil de probabilit gal 5%.
0.05
= 1.96.
Si n 2 > 30, on a t

0.05
Si t > t nous rejetons lhypothse H0
le coefficient thorique inconnu a 1 est significativement diffrent de 0.
2) Test unilatral
Soit tester, un seuil de 5%, lhypothse H0 : a 1 = 0 contre lhypothse H1 : a 1 > 0 ou a 1 < 0
ab1 0
1 a 1
Sous H0 , on a ab
b ab =
b ab suit une loi de Student n 2 degrs de libert.
1

Le test dhypotheses unilatral consiste donc comparer le ratio de Student empirique t =

|ab1 |
b ab1

la valeur

du t de Student lue dans la table n 2 degrs de libert et pour un seuil de probabilit gal 5%.
0.05
Si n 2 > 30, on a t
= 1.65.

0.05
Si t > t nous rejetons lhypothse H0
le coefficient thorique inconnu a 1 est significativement diffrent de 0.
Remarque : Si nous rejetons lhypothse H0 pour un test bilatral, alors nous rejetons forcment (pour un
mme seuil de probabilit) lhypothse H0 pour un test unilatral.
Exemple 1.3.2 On sintresse la relation entre les bnfices raliss par les entreprises et le budget annuel
quelles consacrent la publicit. 15 observations ont t ralises
Budget
15 8 36 41 16 8 21 21 53 10 32 17 58
6 20
Bnfices 48 43 77 89 50 40 56 62 100 47 71 58 102 35 60
Rpondons aux questions suivantes
1. Calculer les estimateurs ab1 , ab0 et le coefficient de corrlation r
b 2 = 10, 155, procder lestimation des variances de a 1 et a 0 .
2. Sachant que
b 2 .
3. Dterminer au seuil de signification de 5%, un intervalle de confiance pour a 1 , a 0 et

4. Peut-on affirmer que les coefficients a 1 et a 0 sont significativement diffrents de 0 pour 5% ?


1. Aprs calculs, on obtient ab1 = 1, 28, ab0 = 31, 67 et r = 0, 989.
P
b 2 = 10, 155, donc :
2. On a n = 15, x = 24, 13, nt=1 (x t x)2 = 15 X = 3753, 733 et
b 2ab1 = Pn

b 2

t =1 (x t

b 2ab0

3. Nous savons que

ab1 a 1
b ab1

et

ab0 a 0
b ab0

b 2
=

x)2

= 0, 0027,

!
1
x2
+ Pn
= 2, 252.
2
n
t =1 (x t x)

suivent la loi de Student Tn2 .

Lintervalle de confiance pour a 1 et a 0 nous est donn respectivement par :


ab1 a 1
/2
/2
b ab1 t n2
= t n2
a 1 = ab1
b ab1

FPN

12

CONOMTRIE

SCIENCE ECONOMIQUE ET GESTION S 6

ab0 a 0
/2
/2
b ab0 t n2
= t n2
a 0 = ab0
b ab0

/2
Avec n 2 = 13 degre de libert et /2 = 0, 025, on a t n2
= 2, 16 lu dans le tableau de Student.
Donc, les intervalles de confiances pour a 1 et a 0 sont respectivement :
/2
/2
b ab1 t n2
b ab1 t n2
[ab1
; ab1 +
] = [1, 166; 1, 391],
/2
/2
b ab0 t n2
b ab0 t n2
[ab0
; ab0 +
] = [28, 432; 34, 916]
b2

Nous savons que (n 2) 2

2n2 .

b 2 est
Lintervalle de confiance pour

[(n 2)

b 2

21/2

; (n 2)

b 2

2/2

Avec n 2 = 13 degre de libert et /2 = 0, 025, on a 2/2 = 5, 01 et 21/2 = 24, 74 lus dans le tableau
de 2 .
Donc
b 2 [5, 336; 26, 35].

4. On procde un test dhypotheses bilatral qui consiste donc comparer les ratio de Student
|ab1 |
empiriques t =
b ab = 24, 63 et
1

t =

|ab0 |
b ab0

/2
= 2, 16 de Student lue dans la table n 2 degrs de libert et pour
= 21, 10 la valeur du t n2

un seuil de probabilit gal 5%.


Puisque ces valeurs sont suprieurs en valeur absolu 2, 16, alors les deux paramtres a 1 et a 0 sont
significativement diffrents de 0.
La variable exogne x contribue bien expliquer la variable endogne y.

1.3.8 quation et tableau danalyse de la variance


On peut dmontrer que

n
X

e t = 0,

t =1

et par suite, on trouve lquation fondamentale danalyse de la variance :


n
X

2=
(y t y)

t =1

n
X
t =1

{z

=SC T

2+
( ybt y)
{z

=SC E

n
X

e t2 .

t =1

} | {z }
=SC R

La variabilit totale (SCT) est gale la variabilit explique (SCE) + la variabilit des rsidus (SCR).
Cette quation va nous permettre de juger de la qualit de lajustement dun modle.
En effet, plus la variance explique est proche de la variance totale, meilleur est lajustement du nuage de
points par la droite des moindres carrs.
Il est dusage de calculer le rapport :
R2 =
FPN

SC E
SC R
= 1
.
SC T
SC T
13

CONOMTRIE

SCIENCE ECONOMIQUE ET GESTION S 6

R 2 est appel le coefficient de dtermination, et R le coefficient de corrlation multiple (dans le cas


particulier du modle de rgression une seule variable explicative, il est gal au coefficient de corrlation
linaire simple entre x et y ).
Variation
Somme des carrs
Degr de libert Carrs moyens
Pn
SC E
2

x
SC E = t =1 ( ybt y)
1
1
Pn
SC R
Rsidu
SC R = t =1 e t2
n-2
n2
P
2
Total
SC T = nt=1 (y t y)
n 1
Le test H0 : a 1 = 0 est quivalent au test dhypothse H0 : SC E = 0 (la variable explicative x t ne contribue
pas lexplication du modle). La statistique de ce test est donne par :

F =

SC E
d d l SC E
SC R
d d l SC R

R2
1
1R 2
n2

F suit une statistique de Fisher 1 et n 2 degrs de libert.

Si F > F 1;n2
nous rejetons au seuil lhypothse H0 et donc la variable x t est significative.
Dans le cas contraire, nous acceptons lhypothse dgalit des variances, donc la variable x t nest pas
explicative de la variable y t .
Remarque 1.3.1 On peut montrer que
(t )2 = F .
Exemple 1.3.3 On sintresse la relation entre les tailles X i en cm de cerains tiges matriaux et leur poids
Yi en K g . 10 observations ont t ralises
taille
Poids

150
18

175
24

200
26

225
23

250
30

275
27

300
34

325
35

350
33

375
40

Donner le tableau danalyse de la variance associ cette chantion. Faire un test de Fisher un seuil de 5%.
Rponse : Nous commenons tout dabord de faire les calculs ncessaires qui sont rsums dant le tableau
suivant :
Xi
150
175
200
225
250
275
300
325
350
375
Total

Yi
18
24
26
23
30
27
34
35
33
40

(Yi Y )2
121
25
9
36
1
4
25
36
16
121
394

Ybi
19.84
21.87
23.91
25.95
27.98
30.02
32.05
34.09
36.13
38.16

(Ybi Y )2
83.90
50.83
25.90
9.30
1.04
1.04
9.30
25.90
50.83
83.90
341.94

(Yi Ybi )2
3.38
4.53
4.36
8.70
4.08
9.12
3.8
0.82
9.79
3.38
51.96

Traons maintenant le danalyse de la variance :

FPN

Variation

Somme des carrs

Degr de libert

Carrs moyens

x
Rsidu
Total

SC E = 341.94
SC R = 51.96
SC T = 394

1
8
9

SC E
1 = 341.94
SC R
8 = 6.5

14

CONOMTRIE

SCIENCE ECONOMIQUE ET GESTION S 6

Soit le test dhypothse H0 : SC E = 0 contre H1 : SC E 6= 0.


La statistique de ce test est donne par :

F =

SC E
d d l SC E
SC R
d d l SC R

341.94
= 52.73.
6.5

0.05

Puisque F 1;n2
= F 1;8
= 5.32, alors F > F 1;n2
.
Donc, nous rejetons au seuil lhypothse H0 et donc la variable explicative est significative.

1.3.9 La prvision dans le modle de rgression simple


Lorsque les coefficients du modle ont t estims, il est possible de calculer une prvision un horizon h.
Soit le modle estim sur la priode t = 1, . . . , n ;
y t = ab0 + ab1 x t + e t
Si la valeur de la variable explicative x t est connue en n + 1 (x n+1 ), la prvision est donne par :
ybn+1 = ab0 + ab1 x n+1
Lerreur de prvision est gale :
e n+1 = y n+1 ybn+1 = (a 0 ab0 ) + (a 1 ab1 )x n+1 + n+1
En se rfrant aux hypothses du modle, on a :
E (e n+1 ) = 0
b 2
E (e n+1 ) =

(x n+1 x)2
1
+ Pn
+1 .
2
n
t =1 (x t x)

Lhypothse de normalit de t permet alors de determiner un intervalle (1 )% pour la prvision :

(x n+1 x)2
2 1
b
e n+1
N 0,
+ Pn
+1
2
n
t =1 (x t x)

ab0 + ab1 x n+1 y n+1


r

2
1
n+1 x)
P(x
b
+
1

+
n
2
n
(x x)
t =1

Tn2 .

On obtient alors lintervalle de prdiction :


s

y n+1 =

/2 2
b
ybn+1 t n2

1
(x n+1 x)2
+ Pn
+ 1.
2
n
t =1 (x t x)

Exemple 1.3.4 A partir de lexemple prcdent, dterminer au seuil 5%, un intervalle de confiance pour le
poids prvisible relatif une taille de 400cm dun tige.
Rponse : On a lintervalle de prdiction I Y40 est donn par :
s
1
(x n+1 x)2
/2 2
b
y n+1 = ybn+1 t n2
+ Pn
+1
2
n
t =1 (x t x)
o x n+1 = 400, x = 262.5,
Donc,

Pn

t =1 (x t

/2
b 2 =
x)2 = 51562.5, ybn+1 = 40.02, t n2
= t 80.025 = 2.306,

I Y40 = [21.86; 58.17].


FPN

15

SC R
n2

= 6.5.

CONOMTRIE

SCIENCE ECONOMIQUE ET GESTION S 6

FPN

16

Chapitre 2

Le modle linaire multiple


2.1 Introduction
Le modle de rgression linaire multiple nest quune extension du modle de rgression linaire simple
au cas multivari dans lequel interviennent plusieurs variables exognes dans lexplication du phnomne
tudi.
On parle aussi de modle de rgression linaire gnral ou standard pour souligner que ce modle reste
valable quel que soit le nombre dexognes qui sy figurent.
Dans sa forme gnrale, il scrit de la sorte :
y t = a 0 + a 1 x 1t + + a k x kt + t ,

t = 1, 2, . . . , n.

Afin den allger lcriture et de faciliter lexpression de certains rsultats, on a habituellement recours aux
notations matricielles.
,
Y = |{z}
X
a + |{z}
|{z}
|{z}
(n,1)

(n,k+1) (k+1,1)

(n,1)

x 21
x 22
..
.
x 2t
..
.
x 2n

Y =

y1
y2
..
.
yt
..
.
yn

, X =

1
1
..
.
1
..
.
1

x 11
x 12
..
.
x 1t
..
.
x 1n

x k1
x k2
..
.
x kt
..
.
x kn

,a =

a0
a1
a2
..
.
ak

, =

1
2
..
.
t
..
.
n

2.2 La mthode des moindres carrs


La mthode des moindres carrs cherche la meilleure estimation des paramtres a en minimisant la quantit :
Mi n

n
X
t =1

2t = Mi n

n
X

0 = Mi n (Y X a)0 (Y X a) .

t =1

2.2.1 Les hypothses de la mthode des MCOs


Hypothses probabilistes (hypothses stochastiques) :
Les X sont observs sans erreur (non alatoires)
E () = 0, en moyenne le modle est bien spcifi
E (2 ) = 2 la variance de lerreur est constante (homoscdasticit)

17

CONOMTRIE

SCIENCE ECONOMIQUE ET GESTION S 6

i 6= j E (i , j ) = 0 les erreurs sont non-corrles (non-autocorrlation des erreurs)


C ov(, X ) = 0, lerreur est indpendante des variables explicatives

N (0, 2 )

Hypothses structurelles :
Rang (X 0 X ) = k + 1 ; (X 0 X )1 existe, ou encore d et (X 0 X ) 6= 0
(X 0 X ) tend vers une matrice finie non singulire quand n +
n > k + 1, le nombre dobservations est suprieur au nombre de paramtres du modle (variables explicatives
+ constante)

2.2.2 Estimateurs des MCO


La rsolution analytique par MCO est la suivante :
ab = (X 0 X )1 X 0 Y
Dune manire dvoloppe :

P
y
P t
x 1t y t
P
x 2t y t
..
.
..
.
P
x kt y t

P

x
P 1t

x 2t
=

..

.

x kt

P
x
P 1t
x2
P 1t
x 2t x 1t
..
.
P
x kt x 1t

P
x
P 2t
x 1t x 2t
P 2
x 2t
..
.
P
x kt x 2t

P
x
P kt
x 1t x kt
P
x 2t x kt
..
.
P 2
x kt

ab0
ab1
ab2
..
.
abk

2.2.3 Proprits des estimateurs


Ecrivons
ab = (X 0 X )1 X 0 Y = (X 0 X )1 X 0 (X a + ) = a + (X 0 X )1 X 0 ,
alors,
b = E (a) + E ((X 0 X )1 X 0 ) = E (a) + (X 0 X )1 X 0 E () = E (a)
E (a)
car E () = 0.
Ce qui signifie que les estimateurs sont sans biais.
La matrice des variances et covariances des coefficients de rgression quon note ab est donne par
ab = 2 (X 0 X )1

ab =

V ar (ab0 )
C ov(ab0 , ab1 )
..
.
C ov(abk , ab0 )

C ov(ab0 , ab1 )
V ar (ab1 )
..
.
C ov(abk , ab1 )

lim ab = lim

C ov(ab0 , abk )
C ov(ab1 , abk )
..
.
V ar (abk )

2 X 0 X 1
= 0.
n
n

Thorme de Gauss-Markov : Les estimateurs des MCO ont la plus petite variance parmi les estimateurs linaires
sans biais.
Ce sont des estimateurs BLUE (Best Linear Unbiased Estimator).
FPN

18

CONOMTRIE

SCIENCE ECONOMIQUE ET GESTION S 6

Aprs un calcul matriciel, il apparait que nous pouvons estimer sans biais 2 par :
b 2 =

ee 0
n k 1

avec e t = y t ybt est le rsidu, cest--dire lcart entre la valeur observe de la variable expliquer et sa valeur
estime (ajuste).
En remplaant la variance de lerreur par son estimateur, nous obtenons :
b ab =
b 2 (X 0 X )1

2.3 quation danalyse de la variance et qualit dun ajustement


Lquation fondamentale danalyse de la variance :
n
X

2=
(y t y)

t =1

n
X
t =1

{z

=SC T

2+
( ybt y)

{z

=SC E

n
X

e t2

t =1

} | {z }
=SC R

va nous permettre de juger de la qualit de lajustement dun modle ; en effet, plus la variance explique est proche
de la variance totale, meilleur est lajustement global du modle. Cest pourquoi nous calculons le rapport
R2 =

SC E
SC R
= 1
SC T
SC T

appel le coefficient de dtermination, et R le coefficient de corrlation multiple. R 2 mesure la proportion de la


variance de Y explique par la rgression de Y sur X .
Exemple 2.3.1 Soit le modle y t = a 0 + a 1 x 1t + a 2 x 2t + a 3 x 3t + t , o :
t
1
2
3
4
5
6
7
8
9
10
11
12
13
14

y
12
14
10
16
14
19
21
19
21
16
19
21
25
21

x1
2
1
3
3
7
8
8
5
5
8
4
9
12
7

x2
45
43
43
47
42
41
32
33
41
38
32
31
35
29

x3
121
132
154
145
129
156
132
147
128
163
161
172
174
180

1. Mettre le modle sous forme matricielle en spcifiant bien les dimensions de chacune des matrices
2. Estimer les paramtres du modle
3. Calculer lestimation de la variance de lerreur ainsi que les carts types de chacun des coefficients.
4. Calculer le coefficient de dtermination et commenter
FPN

19

CONOMTRIE

SCIENCE ECONOMIQUE ET GESTION S 6

Rponses :
1) Forme matricielle : Y = X a + , o

Y =

12
14
..
.
10
{z

, X =

(14,1)

1
1
1
..
.
1

2
1
3
..
.
7

45
43
43
..
.
29
{z

121
132
154
..
.
180

(14,4)

, a =

|
}

a0
a1
a2
a3
{z

(4,1)

, =

1
2
..
.
14
{z

(14,1)

2) Estimation des paramtres : Nous savons que ab = (X 0 X )1 X 0 Y . Donc, on doit calculer X 0 X puis (X 0 X )1 .

1
2
X X =
45
121

1
1
43
132

1
3
43
154

14

85
X 0X =
532
2094

85
631
3126
13132

20, 16864
0, 015065
0
1

(X X ) =
0, 23145
0, 07617
On a
1

2
X 0Y =
45
121

1
1
43
132

1
3
43
154

1
1
1
..
.
1

532
3126
20666
78683

0, 015065
0, 013204
0, 001194
0, 00094

29

180

2
1
3
..
.
7

45
43
43
..
.
29

121
132
154
..
.
180

2094
13132

78683
317950

0, 23145
0, 001194
0, 003635
0, 000575

0, 07617
0, 00094
.
0, 000575
0, 000401

12

1
248
14

7
. = 1622
9202
.
29
.
180
37592
10

Alors,
20, 16864
0, 015065
ab =
0, 23145
0, 07617

0, 015065
0, 013204
0, 001194
0, 00094

0, 23145
0, 001194
0, 003635
0, 000575

0, 07617
248
1622
0, 00094

0, 000575 9202
0, 000401
37592


ab0
32, 89132
ab1 0, 801900

ab =
=
ab2 0, 38136
ab3
0, 03713

b et de
b ab. On sait que
3) Calcul de
b 2 =

ee 0
.
n k 1

Les composantes du rsidu e = Y Yb = Y X ab sont :


e t = y t (a 0 + a 1 x 1t + a 2 x 2t + a 3 x 3t )
e t = y t 32, 89 0, 80x 1t + 0, 38x 2t + 0, 03x 3t .
Par exemple pour e 1 :
FPN

20

CONOMTRIE

SCIENCE ECONOMIQUE ET GESTION S 6

e 1 = y 1 32, 89 0, 80x 11 + 0, 38x 21 + 0, 03x 31


e 1 = 12 32, 89 0, 80 2 + 0, 38 45 + 0, 03 121 = 0, 84
Nous rsumons dans le tableau suivant lensemble des rsultats.
t
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Somme

yt
12
14
10
16
14
19
21
19
21
16
19
21
25
21

ybt
12, 84
12, 39
13, 18
13, 39
17, 70
17, 88
22, 20
18, 86
16, 51
18, 76
17, 92
21, 90
22, 71
20, 76

et
0, 84
1, 61
3, 18
1, 61
3, 70
1, 12
1, 20
0, 14
4, 49
2, 76
1, 08
0, 90
2, 29
0, 24
0

e t2
0, 71
2, 58
10, 11
2, 58
13, 67
1, 26
1, 44
0, 02
20, 14
7, 63
1, 17
0, 81
5, 27
0, 06
67, 45

On a
b 2 =

P14 2
ee 0
67, 45
t =1 e t
=
=
= 6, 745.
n k 1 14 3 1
10
b ab =
b 2 (X 0 X )1

20, 16864
0, 015065
b ab = 6, 745

0, 23145
0, 07617

0, 015065
0, 013204
0, 001194
0, 00094

0, 23145
0, 001194
0, 003635
0, 000575

0, 07617
0, 00094
.
0, 000575
0, 000401

Les variances des coefficients de rgression se trouvent sur la premire diagonale :


b 2ab0 = 6, 745 20, 17 = 136, 04
b ab0 = 11, 66,

b 2ab1 = 6, 745 0, 013 = 0, 087


b ab1 = 0, 29,

b 2ab2 = 6, 745 0, 0036 = 0, 024


b ab2 = 0, 15,

b 2ab3 = 6, 745 0, 0004 = 0, 0026


b ab3 = 0, 05.

4) Le coefficient de dtermination R 2 est


P14 2
et
SC E
SC R
R =
= 1
= 1 P14 t =1
.
2
SC T
SC T
t =1 (y t y)
2

Nous avons ee 0 =

P14

2
t =1 e t

= 67, 45 et

P14

t =1 (y t

y)2 = 226, 86, donc


R2 = 1

67, 45
= 0, 702.
226, 86

Puisque R 2 > 0, 5 lajustement global du modle linaire est bon.


FPN

21

CONOMTRIE

SCIENCE ECONOMIQUE ET GESTION S 6

2.4 Construction des tests


Nous pouvons mettre en place un certain nombre de tests statistiques que nous allons expliciter.
1) Comparaison dun paramtre a i une valeur fixe a
H0 : a i = a,

contre H1 : a i 6= a.

/2
Si t abi > t nk1
nous rejetons lhypothse H0 et alors a i est significativement different de a (au seuil de ).
/2
nous acceptons lhypothse H0 et alors a i est nest pas significativement different de a (au
Si t abi t nk1

seuil de ).
2) Comparaison dun ensemble de paramtres un ensemble de valeurs fixes :
Nous cherchons tester simultanment lgalit dun sous-ensemble de coefficients de rgression des valeurs
fixes.
H0 : a q = a q , contre H1 : a q 6= a q ,
o q tant le nombre de coefficients retenus.
Pour accepter H0 , il suffit que :
0 1

1
b
bq a q F (q, n k 1).
abq a q
abq a
q
F (q, n k 1) est loi de Fisher au seuil q et n k 1 degrs de libert.
3) Intervalle de confiance de la variance de lerreur :
Lintervalle de confiance de la variance de lerreur permet de dterminer une fourchette de variation de lamplitude
de lerreur.
Pour un intervalle (1 %), il est donn par :
"

(n k 1)b
2 (n k 1)b
2
IC =
;
2
2
1
2

avec 21 n k 1 degrs de libert et /2 de probabilit dtre dpasse et22 n k 1 degrs de libert et 1 /2


de probabilit dtre dpasse.
Exemple 2.4.1 En reprenant les donnes du tableau de lexemple prcdent, on demande de rpondre aux questions
suivantes :
1. Les variables explicatives sont-elles significativement contributives pour expliquer la variable endogne ?
2. Le coefficient a 1 est-il significativement infrieur 1 ?
3. Les coefficients a 1 et a 2 sont-ils simultanment et significativement diffrents de 1 et 0, 5 ?
4. Quel est lintervalle de confiance pour la variance de lerreur ?
(Les seuils choisis seront de 5%.)
Rponses :
1) Il convient de calculer les trois ratios de Student et de les comparer la valeur lue dans la table pour un seuil de 5% :
t ab1 =

|ab1 | 0, 80
0,05
=
= 2, 75 > 2, 228 = t 10
a 1 6= 0.
b ab1 0, 29

Donc, la variable explicative x 1 est contributive lexplication de y.

FPN

t ab2 =

|ab2 | | 0, 38|
0,05
=
= 2, 53 > t 10
a 2 6= 0,
b ab2

0, 15

t ab3 =

|ab3 | | 0, 03|
0,05
=
= 0, 60 < t 10
a 3 = 0.
b ab3

0, 05

22

CONOMTRIE

SCIENCE ECONOMIQUE ET GESTION S 6

La variable x 2 est explicative de y alors que la variable x 3 nest pas contributive lexplication de y, il convient donc de
la retirer de ce modle et de procder une nouvelle estimation.
Nous aurions pu tout aussi bien rpondre cette question en calculant les intervalles de confiance de chacun des
coefficients :
/2
/2
b ab1 t nk1
b ab1 t nk1
IC a1 = [ab1
; ab1 +
] = [0, 14; 1, 45].

De mme, nous obtenons :


IC a2 = [0, 71; 0, 04],

IC a3 = [0, 14; 0, 08].


La valeur 0 nappartient pas lintervalle de confiance 95% de a 1 et a 2 , donc ces deux coefficients sont
significativement diffrents de 0 ; en revanche, 0 appartient lintervalle de confiance de a 3 , ce coefficient nest pas
significativement diffrent de 0.
2) Nous posons le test dhypothses unilatral suivant :
H0 : a 1 = 1,

contre H1 : a 1 < 1.

Sous H0 , nous avons


ab1 a 1 0, 80 1
0,1
20,05
=
= 0, 68 > 1, 81 = t 10
= t 10
b ab1
0, 29

Acceptation de H0 .

3) Le test dhypothses est le suivant :

H0 :

a1
a2

1
0, 5

contre H1 :

a1
a2

6=

1
0, 5

0 1

b
abq a q ,
Calculons F = q1 abq a q
abq

0, 80
1
o q = 2, abq =
, aq =
et
0, 38
0, 5
b ab = 6, 745.

q
b 1 =

abq

0, 013204
0, 001194

11, 57140
3, 80213

0, 001194
0, 003635
3, 80213
42, 03506

Donc,
1
F = (0, 8 1; 3, 8 + 0, 5)
2

11, 57140
3, 80213

3, 80213
42, 03506

0, 8 1
3, 8 + 0, 5

0,05
F = 0, 612 < 4, 10 = F (q, n k 1) = F 2;10
.

Et parsuite, on accepte lhypothse H0 .


Les donnes ne sont pas incompatibles avec la possibilit que les coefficients a 1 et a 2 soient simultanment et
respectivement gaux 1 et 0, 5.
4) Lintervalle de confiance de la variance de lerreur un seuil (1 )% = 95% est calcule partir de la formule
# "
#
2
(n k 1)b
2 (n k 1)b
10 6, 745 10 6, 745
;
=
;
IC =
21
22
20,025
20,975
"

pour 10 degrs de libert.


Soit 3, 30 2 20, 75.
La variance vraie (mais inconnue) 2 de lerreur 95% de chance de se situer dans cet intervalle.
FPN

23

CONOMTRIE

SCIENCE ECONOMIQUE ET GESTION S 6

2.4.1 Construction du tableau danalyse de la variance et test de signification globale dune


rgression
Dans cette section, nous allons nous interroger sur la signification globale du modle de rgression, cest--dire si
lensemble des variables explicatives a une influence sur la variable expliquer.
Ce test peut tre formul de la manire suivante : existetil au moins une variable explicative significative ?
Soit le test dhypothses :
H0

a1 = a2 = = ak = 0

H1

Il existe au moins a i 6= 0

Le cas o lhypothse H0 est accepte signifie quil nexiste aucune relation linaire significative entre la variable
expliquer et les variables explicatives (ou encore que la Somme des Carrs Expliqus nest pas significativement
diffrente de 0).
Nous reprenons lquation fondamentale danalyse de la variance :
n
X

t =1

t =1

n
X

2=
(y t y)
{z

=SC T

2+
( ybt y)
{z

=SC E

n
X

e t2 .

t =1

} | {z }
=SC R

Nous traons le tableau danalyse de la variance permettant deffectuer le test de Fisher. Soit
Pn

2 /k
( ybt y)
R 2 /k
=
F = Pn t =1 2
(1 R 2 )/(n k 1)
t =1 e t /(n k 1)

Variation

SC

DDL

CM

x1 , . . . , xk
Rsidu
Total

SC E
SC R
SC T

k
n k 1
n 1

SC E
k
SC R
nk1

Lhypothese de normalite des erreurs implique que sous H0 , F suit une loi de Fisher (rapport de deux chi-deux).
Si F > F (k, n k 1), nous rejetons H0 et le modle est globalement explicatif.
Exemple 2.4.2 Tester la significativit globale du modle vu dans lexemple prcdent.
Rponse :
Le tableau danalyse de la variance permettant deffectuer le test de Fisher est :
Variation

SC

DDL

CM

x1 , x2 , x3
Rsidu
Total

SC E = 159, 41
SC R = 67, 45
SC T = 226, 86

3
10
13

53, 13
6, 745

0,95
SC E /3
SC R/10 = 7, 87 et F (3;10) = 3, 71.
0,95

Puisque F > F (3;10) , nous rejetons H0 et le modle est globalement explicatif.

On a F =

FPN

24

CONOMTRIE

SCIENCE ECONOMIQUE ET GESTION S 6

Tables Statistiques usuelles


Loi Normale Centre Rduite

FPN

25

CONOMTRIE

SCIENCE ECONOMIQUE ET GESTION S 6

Loi de Student

FPN

26

CONOMTRIE

SCIENCE ECONOMIQUE ET GESTION S 6

Loi de 2

FPN

27

CONOMTRIE

SCIENCE ECONOMIQUE ET GESTION S 6

Loi de Fisher

FPN

28

CONOMTRIE

SCIENCE ECONOMIQUE ET GESTION S 6

Loi de Fisher

FPN

29

You might also like