Cours Econometrie

Filière de Sciences Économiques et de Gestion
Licence d’Études Fondamentales

Département de Sciences Économiques
Économétrie I
À l’usage des étudiants inscrits en S5
Parcours : Économie
Option : Sciences-Économiques
Enseignante : Amale LAHLOU
Année Universitaire : 2015 - 2016
1
Support de cours : le manuel
Économétrie
Cours et exercices corrigés
9ème édition
RÉGIS BORBONNAIS
Maître de conférence à l’université de Paris-Dauphine
Logiciels informatiques recommandés : SPSS, EVIEWS, EXCEL
On utilisera EXCEL et EVIEWS pour la résolution des exercices

Introduction
L’économétrie prend la part du lion dans toute analyse économique. Elle a trait
au traitement mathématique des données statistiques relevant des phénomènes
économiques.
Économie & Métrique & Informatique
 Économétrique  économétrie
L’économétrie est un outil à la disposition de l’économiste lui permettant

d’infirmer ou de confirmer les théories qu’il construit.
Un modèle est une présentation formalisée d’un phénomène économique réel

sous forme d’équations dont les variables sont des grandeurs économiques.
On distingue entre :
 Un modèle économique
 Un modèle économétrique
Pr. Amale LAHLOU S5 : Sciences Economiques 3

Méthodologie économétrique
Théorie économique
Spécification ou confection du modèle
Estimation des paramètres(MCO=OLS)
Vérification ou validation du modèle. non

Modèle conforme à la réalité ?
Prévision ou prédiction
Utilisation pour des fins de politique économique
Pr. Amale LAHLOU 4

Si on s’intéresse à établir une relation entre deux
variables sous forme d’un modèle, on parlera de
régression simple en exprimant une variable en fonction
de l’autre. Si la relation porte entre une variable et
plusieurs autres variables, on parlera de régression
multiple.
La mise en œuvre d’une régression impose l’existence

d’une relation de cause à effet entre les variables prises
en compte dans le modèle.

Chapitre 1 (manuel de Régis Bourbonnais) :
Le modèle de régression linéaire simple
I. Présentation du modèle
A. Exemple introductif
B. Rôle du terme aléatoire
C. Conséquence du terme aléatoire
II. Estimation des paramètres
A. Modèle et hypothèse
B. Formulation des estimateurs (Méthode du Moindre
Carrés Ordinaires)
C. Les différentes écritures du modèle : erreur et
résidu
D. Propriétés et caractéristiques des estimateurs
III. Conséquences des hypothèses
A. Hypothèse de normalité des erreurs
B. Conséquences de l’hypothèse de normalité des erreurs
C. Test bilatéral, test unilatéral et probabilité critique d’un
test
IV. Equation et tableau d’analyse de variance

A. Équation d’analyse de la variance
B. Tableau d’analyse de la variance
V. La prévision à l’aide du modèle de régression

linéaire simple
A. Prévision Ponctuelle
B. Intervalle de prédiction
III. Applications
Introduction
Variable X explicative
Quantitatif Qualitatif
à expliquer
Variable Y
Régression linéaire Analyse de la variance

Quantitatif Corrélation simple à un facteur
Test du Khi deux
Qualitatif Régression logistique
D’indépendance
La régression linéaire simple (le nom est du à Galton) est un

outil fréquemment utilisé pour étudier la linéarité entre deux
variables quantitatives ayant un rôle asymétrique :
 une variable Y à expliquer (à prédire ou encore variable
dépendante, variable endogène ou variable réponse)
 et une variable X explicative (prédictive ou encore variable
indépendante, variable exogène).
Les objectifs de
la régression linéaire simple
 Description d’une éventuelle relation de cause à effet
entre deux variables (études non-expérimentales) ;
 Explications et confrontations des hypothèses en se

basant sur des études expérimentales contrôlées ;
 Prédiction d’une variable à partir de l’autre.

Exemple Introductif
Soit la fonction de consommation Keynésienne :
C  a0  a1 R
Avec,
C : Consommation par habitant
R : revenu
a1 : propension marginale à consommer
a0 : consommation autonome ou incompressible
On a :
La consommation C est une variable « à expliquer » et le revenu
R est une variable « explicative ». a1 et a0 sont les paramètres du
modèle ou coefficients de la régression linéaire simple.
Spécification
Modèle en série temporelle : par exemple, la consommation et
le revenu annuel pour le Maroc de 2000 à 2013
Ct  a0  a1 Rt t  2000,..., 2013
Ct : Consommation au temps t (cas du Maroc)
Rt : revenu au temps t (cas du Maroc)
Modèle en coupe instantanée : par exemple, la consommation
et le revenu pour 15 pays en 2013 (date fixe)
Ci  a0  a1 Ri i  1,...,15
Ci : Consommation relative au payé i en 2013
Ri : revenu relatif au payé i en 2013
Modèle en panel : par exemple, la consommation et le revenu
pour 15 pays de 2000 à 2013
Ci ,t  a0  a1Ri ,t i  1,...,15 ; t  2000,..., 2013
Rôle du terme aléatoire
Le revenu est-il l’unique variable explicative de la consommation?
Sûrement NON !
d’où, l’ajout du terme ɛ qui résumera toutes les fluctuations non
observables attribuables à un ensemble de facteurs ou de
variables non prises en compte dans le modèle :
Ct  a0  a1 Rt   t ou Ci  a0  a1Ri   i
La variable aléatoire ɛt (ou ɛi) regroupe trois types d’erreur :
– Erreur de spécification
– Erreur de mesure
– Erreur de fluctuation d’échantillonnage

Exemple Introductif (C2EX1, eco9)
Revenu Sachant que la propension marginale à
1 8000 consommer est de 0,8 et la consommation
2 9000 incompressible est 1000 UM,
3
1. Calculons la consommation théorique estimée
9500
durant les dix ans:
4 9500 ˆ  1000  0,8 Y
Ct t
5 9800 2. On suppose dans cet exemple que :
6 11000
 t  N  0, 20000 
7 12000
8 13000 Générer cette variable aléatoire et puis calculer
9
la consommation observée tenant compte de
15000
cette erreur : Ct  1000  0,8 Rt   t  Cˆt   t
10 16000
Évolution du Revenu moyen par habitant pour 10 ans
Cliquer ici (R.B. C2EX1, eco9)
(LAHLOU-Régression-Linéaire.xls, feuille exemple introductif)
Cˆt  1000  0,8 Rt C’est un exemple Cˆ t   t
Revenu Consommation Aléa Consommation

Année
Disponible Théorique ɛt observée
Utilitaire d’analyse sous Excel
1 8000 7400 -10,01 7389,99
2 9000 8200 -30,35 8169,65
3 9500 8600 231,71 8831,71
4 9500 8600 52,84 8652,84
5 9800 8840 -51,92 8788,08
6 11000 9800 -183,79 9616,21
7 12000 10600 -6,55 10593,45
8 13000 11400 -213,89 11186,11
9 15000 13000 -241,91 12758,09
10 16000 13800 69,62 13869,62
Moyenne -38,43
Ecart type 137,2486

Conséquence du terme aléatoire
En général, les coefficients a0 et a1 sont inconnues et on les
estime par échantillonnage. On pose :
aˆ0 estimateur de a0
aˆ1 estimateur de a1
aˆ0 et aˆ1 sont des variables aléatoires qui suivent les mêmes
loi de probabilité que celle de ɛt (les erreurs sont supposées
indépendantes et identiquement distribuées par une loi normale)
N.B. : L’estimation de â1 est la valeur de l’estimateur â1 de a1
pour un échantillon.
Modèle et hypothèses
Le modèle théorique de régression simple s’écrit : pour t  1, ,n
yt  a0  a1 xt   t
n : Nombre d’observations (taille de l’échantillon)
yt : Variable à expliquer au temps t, variable dépendante ou variable
endogène. Elle est entachée d’une erreur additive ɛt
xt : Variable certaine explicative au temps t, variable indépendante ou
variable exogène
a1 : Paramètre du modèle, c’est le coefficient de régression. Il représente
la pente de la droite (variation de Y due à une variation unitaire de X)
a0 : Paramètre du modèle, c’est l’ordonnée à l’origine.
ɛt : Erreur de spécification de nature aléatoire et inconnue (différence
entre le modèle vrai et le modèle spécifié), appelée encore bruit
blanc ou facteur de perturbation cette erreur et restera inconnue.

Les hypothèses suivantes permettent de déterminer les estimateurs des
coefficients du modèle ayant de bonnes propriétés et de construire des
tests statistiques (tests et intervalles de confiance).
(H1) : Le modèle est linéaire en xt ou f  xt 
(H2) : Les valeurs xt sont observées sans erreur ( xt non aléatoire)
(H3) : E   t   0 l’espérance mathématique de l’erreur est nulle : en
moyenne le modèle est bien spécifié et donc l’erreur moyenne est
nulle
: E ( t )     cste la variance de l’erreur est constante : le risque de
2 2
(H4)
l’amplitude de l’erreur est le même quelle que soit la période
(H5) : E   t  t    0 si t  t  les erreurs sont non corrélées (ou encore

indépendantes) : une erreur à l’instant t n’a pas d’influence sur les
erreurs suivantes.
(H6) : Cov  xt ,  t   0 l’erreur est indépendante de la variable explicative
(H7) :  t  N  0,  2  hypothèse supplémentaire pour les inférences.

(H1) :
Le modèle est linéaire en xt ou f  xt 
On suppose l’existence d’une relation linéaire entre X et Y
Y Y
Linéarité Non-linéarité
X X

Linéarisation de certaines fonctions
avec des transformations
β<0 β >0
0< β <1
α αe
β <0
α
1 1/ β
y   x   ln  y   ln     ln  x  y   e x  ln  y   ln     x
On pose On pose
y  ln  y  et x  ln  x  y  ln  y  et x  x
Linéarisation de certaines fonctions
avec des transformations
0< β <1
1/ α
β/α
x 1 1 e x    y 
y     y  ln   x 
x y x 1 e  x
 1 y 
On pose On pose
1 1  y 
y  
et x  
y  ln   et x  x
y x  1 y 
(H2) :
Les valeurs xt sont observées sans erreur
( xt non aléatoire)
xt est certaine et connue sans erreur :
xt mesurée  xt vraie

(H3) :
l’espérance mathématique de l’erreur est
nulle.
L’hypothèse principale :
E  t   0
yt est entachée d’une erreur additive
yt mesurée  yt vraie   t
Mais en moyenne le modèle est bien spécifié et donc l’erreur

moyenne est nulle

(H4) :
Hypothèse d’homoscédasticité
E     t
2 2
  cste
Homoscédasticité Hétéroscédasticité
la variance de l’erreur est constante : le risque de l’amplitude

de l’erreur est le même quelle que soit la période.

(H5) :
Non-auto corrélation des erreurs
E  t  t   0 si t  t 
Les erreurs sont non corrélées (ou encore

indépendantes). Une erreur à l’instant t n’a pas
d’influence sur les erreurs suivantes.

(H6) :
l’erreur est indépendante de la
variable explicative
Cov  xt ,  t   0

(H7) Supplémentaire :
Normalité des erreurs
 t  N  0,    2

(R.B. C2EX1, eco9)
(LAHLOU-Régression-Linéaire.xls, feuille exemple introductif)
Revenu Consommation Aléa Consommation
Année
Disponible théorique ɛt observée
1 8000 7400 -10,01 7389,99
2 9000 8200 -30,35 8169,65
3 9500 8600 231,71 8831,71
4 9500 8600 52,84 8652,84
5 9800 8840 -51,92 8788,08
6 11000 9800 -183,79 9616,21
7 12000 10600 -6,55 10593,45
8 13000 11400 -213,89 11186,11
9 15000 13000 -241,91 12758,09
10 16000 13800 69,62 13869,62
Moyenne -38,43
Ecart type 137,2486

(LAHLOU-Régression-Linéaire.xls, feuille graphique)
14 Ajustement d’un nuage de points par une droite

Consommation (Milliers)
13
12
11
10
6
8 10 12 14 16
Revenu (Milliers)
Consommation observée consommation réelle

ajustée

Différentes écritures du modèle
(erreur & résidu)
• Modèle théorique spécifié par un économiste avec l’erreur
inconnue  t : yt  a0  a1 xt   t
• Modèle empirique estimé par un économètre à partir d’un

échantillon d’observations avec le résidu et observé :
yt  aˆ0  aˆ1 xt  et  yˆ t  et
Avec aˆ0 , aˆ1 sont les estimateurs de a0 et a1 respectivement.
N.B. :
« erreur » est définie dans la spécification du modèle théorique ;
« résidu » est définie comme erreur observée sur les données.

Formulation des estimateurs
Méthode des Moindres Carrés Ordinaires (MCO) (on peut
utiliser la méthode de maximum de vraisemblance) : à l’aide
des données de l’échantillon nous estimerons les paramètres a0
et a1 du modèle de régression de façon à minimiser la somme
des carrés des erreurs (des différences entre les valeurs
observées yt et les valeurs estimées ŷt par la droite) :
On cherche
yt  ˆ
a xt â0 et â1
 aˆ 0
1
Valeur Erreur 2 yˆ t réalisant
observée pente aˆ1
n
Min   t2
y1
Erreur 1 a0 , a1
t 1
Valeur ŷ1
prédite Erreur 3
â0
0
Pr. Amale LAHLOU x1 S5 : Sciences Economiques
xt 30
Pour déterminer les estimateurs des Moindres Carrés Ordinaires aˆ0 et aˆ1
on doit minimiser analytiquement la quantité S  a0 , a1  :
n n
Min   t  Min   yt  a0  a1 xt   Min S  a0 , a1 
2 2
a0 , a1 a0 , a1 a0 , a1
t 1 t 1
Puisque la fonction quadratique S  a0 , a1  est strictement convexe, le

minimum est atteint en un unique point  aˆ0 , aˆ.1  :
S S
 0 et 0
a0 a1
On obtient le système des équations normales, n
e
t 1
t 0
 S n
 a  0  2  yt  aˆ0  aˆ1 xt   0

n
 0

t 1 xe
t 1
t t 0
 S n
 0  2 xt  yt  aˆ0  aˆ1 xt   0
 a1 t 1

Les dérivées partielles premières sont alors nulles (on peut vérifier
facilement que les dérivées partielles secondes sont strictement
positives):  2 S 2S n
a0 2
 2 n  0
a12
 2 t 1
xt  0
2
n n
La première équation donne : naˆ0  aˆ1 x y
t 1
t
t 1
t
Ou mieux encore (*) y  a ˆ0  a ˆ1 x

Où x , y sont les moyens empiriques. Le point  x , y  , dit centre de
gravité du nuage, appartient à la droite de régression.
n n n
aˆ0  xt  aˆ1  xt   xt yt
La seconde équation normale implique : 2
t 1 t 1 t 1
en remplaçant â par son expression dans (*), on obtient :
0 n
n n
 x  x  yt  y 
x y  nx y   x  x  y  y 
t
n  1  Cov  x, y 
t t t t t 1
aˆ1  t 1
 t 1

n n n
Var  x 
 x  nx   xt  x    xt  x 
2 2 2 2
t
t 1 t 1 t 1
n 1
 Le coefficient représentant la pente de la droite ou la propension marginale est
donné par :
n n
x y t t  nx y x t  x  yt  y 
Cov  x, y 
aˆ1  t 1
 t 1

n n
Var  x 
 xt2  nx 2   xt  x
2
t 1 t 1
 Le coefficient représentant l’ordonnée à l’origine est donné par :
aˆ0  y  aˆ1 x
 autre relation utile,
yˆt  aˆ0  aˆ1 xt   y  aˆ1 x   aˆ1 xt  y  aˆ1  xt  x 
 yˆ t  y  aˆ1  xt  x 
yt  aˆ1 xt : l’impact d’une variation de xt se mesure directement sur yt

au travers de â1
 Si les donnés sont centrées autour de leur moyenne :
xct  xt  x yct  yt  y
Alors
alors xc  0 et yc  0 et le modèle sera sans terme constant aˆ0  0
 Le coefficient de régression sera donnée par la formule :

n
xct yct
aˆ1  t 1

n 2
t 1
x ct

Exemple d’application
Année xt yt
1 8 000,00 7 389,99
2 9 000,00 8 169,65
3 9 500,00 8 831,71
4 9 500,00 8 652,84
5 9 800,00 8 788,08
6 11 000,00 9 616,21
7 12 000,00 10 593,45
8 13 000,00 11 186,11
9 15 000,00 12 758,09
10 16 000,00 13 869,62
Détermination des estimations des paramètres aˆ0 et aˆ1

de la droite de régression
(LAHLOU-Régression-Linéaire.xls, feuille estimateurs)
années xt yt  xt  x   yt  y   xt  x
2
 xt  x  yt  y 
1 8 000,00 7 389,99 -3 280,00 -2 595,59 10 758 400,00 8513518,8
2 9 000,00 8 169,65 -2 280,00 -1 815,93 5 198 400,00 4140309
3 9 500,00 8 831,71 -1 780,00 -1 153,87 3 168 400,00 2053879,7
4 9 500,00 8 652,84 -1 780,00 -1 332,74 3 168 400,00 2372268,3
5 9 800,00 8 788,08 -1 480,00 -1 197,50 2 190 400,00 1772292,6
6 11 000,00 9 616,21 -280,00 -369,37 78 400,00 103422,2
7 12 000,00 10 593,45 720,00 607,88 518 400,00 437670
8 13 000,00 11 186,11 1 720,00 1 200,54 2 958 400,00 2064920,2
9 15 000,00 12 758,09 3 720,00 2 772,52 13 838 400,00 10313755,8
10 16 000,00 13 869,62 4 720,00 3 884,05 22 278 400,00 18332692,4
Somme 112 800,00 99 855,75 0 0 64 156 000,00 50104729
Moyenne 11 280,00 9 985,58 0 0
Calcul des estimations de â0 et â1

10
x
t 1
t  x  yt  y 
50 104 729,00
aˆ1 = 10
= =0,78
  xt  x 
2 64 156 000,00
t 1
aˆ0  y  aˆ1 x  9 985,58 - 0,78 × 11 280,00=1 176,08

Nuage de points et droite de régression linéaire
Consommation (Milliers)
yˆt = 0,78 xt +1 176,08
14,00
12,00
 x, y 
10,00
y  9985,58
8,00
6,00
4,00
2,00
aˆ0  1176,1
0,00 x  11280, 00
0,00 2,00 4,00 6,00 8,00 10,00 12,00 14,00 16,00
revenu (Milliers)
consommation en fonction du revenu

Linéaire (consommation en fonction du revenu)

(LAHLOU-Régression-Linéaire.xls, feuille rapport)
Extrait du rapport détaillé par une analyse sous EXCEL
Coefficients
Constante 1176,089634
Variable X 1 0,780982745
Par calcul,
ˆ1 = 0,78
a
ˆ0  1 176,08
a
Ainsi, on peut alors prédire yt pour xt compris dans

l’intervalle des valeurs de l’échantillon :
yˆ t  aˆ0  aˆ1 xt  1 176, 08  0, 78 xt

(LAHLOU-Régression-Linéaire.wf1, feuille rapport)
Extrait du rapport détaillé par une analyse sous EVIEWS
n
â0
â1

• Modèle théorique spécifié par un économiste
avec l’erreur inconnue  t :
yt  a0  a1 xt   t
• Modèle empirique estimé par un économètre à
partir d’un échantillon d’observations avec le
résidu observé et :
yt  aˆ0  aˆ1 xt  et  yˆ t  et

Propriétés et caractéristiques
des estimateurs

Les estimateurs sont linéaires
(H1) : les estimateurs des Moindres Carrés Ordinaires sont linéaires, en
effet, ils s’expriment comme combinaisons linéaires des observations yt :
n
 
  xt  x  yt  y  n 
 xt  x  
aˆ1  t 1
 n   yt
t 1  
n
  xt  x   t  
2 2
x  x 
De même t 1  t 1 
1 n
aˆ0  y  aˆ1 x   yt  x 
n
 xt  x  yt
n
  xt  x 
n t 1 t 1 2
t 1
 
n  
aˆ0   
1
 n
 xt  x  x
 yt
t 1  n 
  t 
2
 x  x 
 t 1 
Les estimateurs sont sans biais
Les estimateurs des Moindres Carrés Ordinaires sont non-biaisés si les
observations xt sont non aléatoires (H2) et l’espérance mathématique de
l’erreur est nulle (H3).
 Estimateur de la pente E  aˆ1   a1 : on exprime â1 en fonction de a1
n
 x t  x  yt  y 
aˆ1  t 1
n
 x  x
2
t
Comme, t 1
 yt  a0  a1 xt   t
  yt  y  a1  xt  x     t   
 y  a0  a1 x  
Donc, n n
  xt  x   a1  xt  x     t      x t  x t

aˆ1 = t 1
n
 a1  t 1
n
  xt  x    xt  x 
2 2
t 1 t 1

 n

Ainsi,
   xt  x   t 
E  aˆ1   E  a1  t n1 
 
  t 
2 (H2) : la variable xt
 x  x  n’est pas aléatoire
 t 1 
n
  x  x  E  
t t
 E  a1   t 1
n (H3) : E  t   0
x  x 
2
t
t 1
n
  x  x  E  
t t
= a1  t 1
n
x  x 
2
t
t 1
En conclusion, E  aˆ1  = a1

 Estimateur de l’ordonnée à l’origine E  aˆ0   a0
On a  y  aˆ0  aˆ1 x

 y  a0  a1 x  
D’où l’on tire :
aˆ0  a0   aˆ1  a1  x  
Par suite,
E  aˆ0   a0  E   aˆ1  a1  x   E   
 a0  x  E  aˆ1   a1   E   
Alors, sous les même hypothèses citées auparavant, et en plus du
résultat E  aˆ1   a1 , on a :
E  aˆ0   a0

Les estimateurs sont convergents (théorème de GAUSS-MARKOV)
 Les deux estimateurs sans biais sont convergents si :

lim Var  aˆ0   0 et lim Var  aˆ1   0
n  n 
Où Var  aˆ0  ,Var  aˆ1  sont les variances respectives de aˆ0 , aˆ1
Pour cela , les hypothèses (H4) et (H5) doivent être vérifiées.
Var  a
ˆ1  E  aˆ1  a1  
2
 Car
  n
 n

2
   x  x 
  t  t
t t
 x  x   aˆ1  a1  t 1
 E   
t 1 n
x  x 
2
 n
2  
   xt  x    t 1
t

 t 1  

 n 
2

    xt  x   t  
 E   t 1  
  n 2 
2 
    xt  x   

  t 1  

 n  
2
E     xt  x   t  
  t 1  
Var  aˆ1   
2
 n 2 
   xt  x  
 t 1 
 n n

E    xt  x   t  2  xt  x  xt   x   t  t  
2 2
  t 1 t t  
(H4)  n 2 
2
 
Var   t   E  t2   2  cste    xt  x  
 t 1 
   2  x
n n
x  x E   x  xt   x  E   t  t  
2 2
t t t
t t 
 t 1
2
 n 2 
 t  x  x  
 t 1 
Var   t 
 n

x  x (H5) E   t  t    0
2
t
t 1
 2
 n
x  x
2
t
t 1

 2
D’où, Var  aˆ1  = a2ˆ1  n
  xt  x 
2
t 1
Lorsque le nombre d’observation est important, c’est-à-dire n assez grand, les
valeurs de la variable explicative sont très dispersées autour de la moyenne, d’où,

n
x  x  est assez grand, c’est-à-dire Var  aˆ1   0

2
t
t 1
On montre de même que :  

1 x 2 
Var  aˆ0  = a2ˆ0   2   n 
n 
  xt  x 
2
 
 t 1 
Et pour n assez grand, Var  a
ˆ0   0
En effet,

Var  aˆ0   E  aˆ0  a0  
 2
 
 E    aˆ1  a1  x    
 2
 
 E   aˆ1  a1  x    E  2   2 E  aˆ1  a1  x  
 2
 
  1 n

2

 x E  aˆ1  a1    E    t  
2  2
   n t 1  
1  n n

 x  aˆ1  2 E    t  2  t  t  
2 2 2
n  t 1 t t  

 2 1  n 2 n

Var  aˆ0   x2 n
 2 E    t  2  t  t  
 t 1 
  xt  x 
2 n t t 
t 1
 2 1  n

 x2 n
 2  nE  2
 t   2  E  t t  
 
 
  xt  x 
2 n t t 
t 1
 2 1 2
 x2 n
 
  xt  x 
2 n
t 1
 
1 x 2 
  2   n 
n 
  xt  x 
2
 
 t 1 
Ainsi, les variances théoriques de ces estimateurs:
 
1 x2 
Var  aˆ0  = a2ˆ0   2   
n 
n
 x  x
2
 t 
 t 1 
 2
Var  aˆ1  = a2ˆ1  n
 x  x
2
t
t 1
d’autres relations importantes
 2
Var  aˆ0  =  x 2 Var  aˆ1 
n
Montrons Cov  aˆ0 , aˆ1    x Var  aˆ1 
Cov( aˆ 0 , aˆ1 )  E ( aˆ 0  a0 )(aˆ1  a1 )

 E  ( aˆ1  a1 ) x   ( aˆ1  a1 )
 
E  ( aˆ1  a1 ) 2 x   ( aˆ1  a1 ) 
  
E  ( aˆ1  a1 ) 2 x   E ( aˆ1  a1 )
 
 x E ( aˆ1  a1 ) 2 
  x Var ( aˆ1 )
x y t t
si Cov  aˆ0 , aˆ1   0  x  0  aˆ0  y et aˆ1  t 1
n
 t
x 2
t 1
Matrice variance covariance
 Var  aˆ0  Cov  aˆ0 , aˆ1  

M  aˆ0 ,aˆ1   
 Cov  aˆ1 , aˆ0  Var  aˆ1  
1 x2 x 
  n n 
  xt  x  x  x
 n 2 2

2 
t
M  aˆ0 ,aˆ1     t 1 t 1

 n  x 1 
 
n
   xt  x  x  x
2 2
t 
 t 1 t 1 
En résumé :
Les estimateurs obtenus par la méthode des

Moindres Carrés Ordinaires sont des
estimateurs linéaires non biaisés convergents à
variance minimale c’est-à-dire efficaces (Best
Lineair Unbiased Estimators)

Hypothèse de normalité des erreurs
 t  N  0,   2

L’hypothèse de la normalité des erreurs va nous permettre de définir la
loi de probabilité des estimateurs, et par conséquent, de construire des
tests statistiques relatifs à la validité du modèle estimé :
Probabilité σ σ
P(Y)
Y
aˆ x
yˆ t  aˆ 0  1 t
x1 x2 X
Distribution des valeurs projetées sur la droite des Moindres Carrés
La variable Y suit aussi une loi normale

Estimation de la variance de l’erreur
 yt  a0  a1 xt   t 1
 et  yt  yˆ t
y  a0  a1 x    2

 yt  aˆ0  aˆ1 xt  et  3
y  aˆ0  aˆ1 x  4


 yˆt  aˆ0  aˆ1 xt  5
1   2  : yt  y  a1  xt  x     t   
D’où,
 3   4  : yt  y  aˆ1  xt  x   et
et   a1  aˆ1  xt  x     t   

n n
On montre facilement que : e
t 1
t  0, e x
t 1
t t 0
Si on revient aux équations normales de la méthode des MCO,

 S n
 a  0  2  yt  aˆ0  aˆ1 xt   0

 0 t 1

 S n
 0  2 xt  yt  aˆ0  aˆ1 xt   0
 a1 t 1
Ceci implique
n n n
  yt  aˆ0  aˆ1 xt   0   yt  yˆt   0  et  0
 t 1  t 1  t 1
n  n  n
 x  y  aˆ  aˆ x   0  x  y  yˆ   0  x e  0
 
 t 1
t t 0 1 t
 
 t 1
t t t
 
 t 1
t t
Cherchons maintenant un estimateur de la variance de l’erreur :

et   t      a1  aˆ1  xt  x 
 t   1 1   t   2  a1  aˆ1  xt  x  t   
 
2 2 2
et2    a  ˆ
a x  x
n n n n
e        a1  aˆ1  x  x   2  a1  aˆ1    xt  x   t   

2 2 2
2
t  t t
t 1 t 1 t 1 t 1
     a  aˆ    x  x 
n n n
 2 t     2  a1  aˆ1    xt  x   t
2 2
 t
2 2
1 1 t
t 1 t 1 t 1
n n n
   2n  n   a1  aˆ1    xt  x   2  a1  aˆ1    xt  x 

2 2 2 2
 t
2 2 2
t 1 t 1 t 1
n n
    n   a1  aˆ1  x  x 
2 2 n
  x  x 
2 2
t t
t t
t 1 t 1
aˆ1  a1  t 1
1n n
 n n n
       t2  2  t  t     a1  aˆ1    xt  x  x  x 
2 2 2 2
t t
t 1 n  t 1 t t   t 1 t 1
 1 n 2 2 n n
 1     t    t  t    a1  a1    xt  x 
2 2
ˆ
 n  t 1 n t t  t 1

 n 2  1 n 2 n n
E   et   1    E  t2    E  t  t      xt  x  E  a1  aˆ1  
2 2
 t 1   n  t 1 n t t  t 1
 
 1 n 2 n n
 1    E  t    E  t  t      xt  x  Var  aˆ1 
 
2 2
 n  t 1 n t t  t 1
 ˆ1  =E   aˆ1  a1  
2
 1 2 Var a
 1   n    2
   2
n Var  aˆ1   n 
  n  2    
2
2 x t  x
t 1
Ainsi, l’estimateur de la variance de l’erreur  2 , noté ˆ 2 est donné

par la variation résiduelle :
n n
e  y ˆt 
2
2
t t y
SCR
ˆ  
2 t 1
 t 1

n2 n2 n2

Conséquence : les estimateurs empiriques des variances des
estimateurs â1 et â 0 sont donnés par :
ˆ  2
ˆ 2
aˆ1  n
x  x
2
t
t 1
 
1 x2 
ˆ a2ˆ  ˆ 2   
n 
n
x  x
0
2
 t 
 t 1 

(R.B. C2EX1, eco9)
Cliquer ici
(LAHLOU-Régression-Linéaire.xls, feuille estimation des variances)
Année yt xt  yt  y   xt  x   yt  y  xt  x   yt  y 
2
 xt  x
2
ˆt
y et  yt  yˆt et2
1 7 389,99 8 000,00 -2 595,59 -3 280,00 8 513 518,80 6 737 061,49 10 758 400,00 7 423,95 -33,96 1 153,39
2 8 169,65 9 000,00 -1 815,93 -2 280,00 4 140 309,00 3 297 583,61 5 198 400,00 8 204,93 -35,28 1 244,98
3 8 831,71 9 500,00 -1 153,87 -1 780,00 2 053 879,70 1 331 404,44 3 168 400,00 8 595,43 236,28 55 830,26
4 8 652,84 9 500,00 -1 332,74 -1 780,00 2 372 268,30 1 776 182,58 3 168 400,00 8 595,43 57,41 3 296,40
5 8 788,08 9 800,00 -1 197,50 -1 480,00 1 772 292,60 1 433 994,28 2 190 400,00 8 829,72 -41,64 1 733,93
6 9 616,21 11 000,00 -369,37 -280,00 103 422,20 136 430,50 78 400,00 9 766,90 -150,69 22 707,43
7 10 593,45 12 000,00 607,88 720,00 437 670,00 369 512,02 518 400,00 10 547,88 45,57 2 076,39
8 11 186,11 13 000,00 1 200,54 1 720,00 2 064 920,20 1 441 284,29 2 958 400,00 11 328,87 -142,76 20 379,08
9 12 758,09 15 000,00 2 772,52 3 720,00 10 313 755,80 7 686 839,43 13 838 400,00 12 890,83 -132,74 17 620,12
10 13 869,62 16 000,00 3 884,05 4 720,00 18 332 692,40 15 085 805,56 22 278 400,00 13 671,81 197,81 39 127,39
Somme 99 855,75 112 800,00 50 104 729,00 39 296 098,18 64 156 000,00 0,00 165 169,38
Moyenne 9 985,58 11 280,00 SCT SCR

1 n
e   et  0
n t 1
yt est la valeur observée
ˆ 2 = 20646,1728 ˆ  =143,6878
ˆt
y est la valeur projetée
et est le résidu observé
ˆ a2ˆ = 0,0003
1
ˆ aˆ = 0,0179
1
â1 = 0,78 ˆ a2ˆ = 43011,4655

0
ˆ aˆ = 207,3920
0
Estimation de â0 = 1176,08
yˆt  aˆ1 xt  aˆ0  0, 78 x  1176, 08
 
1 n
SCR ˆ 2 1 x2 
ˆ  
2
 t n2
n  2 t 1
e 2
 ; ˆ 2
aˆ1  n
; ˆ 2
aˆ0  ˆ   
2
n
n


 x  x x  x
2 2
t  t 
Pr. Amale LAHLOU t 1
S5 : Sciences Economiques  t 1 61 
Extrait du Rapport détaillé par une analyse sur Excel
Statistiques de la régression
Coefficient de détermination multiple R 0,997896187
Coefficient de détermination R2 0,995796799
Coefficient de détermination ajusté 0,995271399
Erreur-type 143,6877615
ˆ 
Observations 10 n
Coefficients Erreur-type
Constante 1176,089634 207,3920575 ˆ aˆ
0
Variable X 1 0,780982745 0,01793912
ˆ aˆ
1
â0
â1

ˆ aˆ0
ˆ aˆ 1
n
â0
â1
ˆ 

Distributions d’échantillonnage des estimateurs
 t  N  0,  2 
Si on suppose que
1er cas : variance de l’erreur σɛ2 théorique

aˆ0  a0 aˆ1  a1
 N  0,1 et  N  0,1
 aˆ0
 aˆ 1
2ème cas : variance de l’erreur σɛ2 empirique
aˆ0  a0 aˆ1  a1
 Tn  2 et  Tn  2
ˆ aˆ0 ˆ aˆ1
La loi de Student T peut être approximée par une loi

normale centrée réduite Z si n –2 > 30

En effet, d’une part :
 2  2
 aˆ1  n
   xt  x 
2
 t 1 ˆ a2ˆ ˆ 2
  2  2 1
ˆ 2  ˆ 2  aˆ 
1
 aˆ1 n
  xt  x 
2

 t 1
  
 1 x2 
 aˆ     
2 2

 0 n 
n
x  x
2
   ˆ a2ˆ ˆ 2
t
  t 1 
  2  2 0
    aˆ 
1 
0
 2 x 2
ˆ aˆ0  ˆ    
2
n  ˆ a2ˆ ˆ a2ˆ
n

 x  x
2

ˆ 2
 
t

1
 2  2
0
 t 1 alors
 aˆ2
 aˆ 
1 0

Somme au carré de (n-2) variables aléatoires
D’autre part : indépendantes normales centrées réduites
et  0
 
 t  N 0,  et  t t iid 
2


 N 0,1
n
 et  t 1
n
2 t
e 2
     2 1 n

t 1     
ˆ 2
 
n  2

t 1
et
2
ˆ 2
 n  2 2   n22

ˆ a2ˆ1 ˆ 2
 n  2 2   n22 et n  2 20   n22
aˆ
 aˆ1  aˆ0

Ainsi :
aˆ0  a0 aˆ0  a0
aˆ0  a0  aˆ  aˆ
 0
 0
 Tn  2
ˆ aˆ0 ˆ aˆ ˆ a2ˆ
 n  2 2
0
 aˆ
0
0  aˆ 0
n2
Le rapport d’une loi normale centrée réduite à la racine N  0,1
carrée d’un Chi-deux divisé par son degré de liberté (n-2)  Tddl
 2
ddl
suit une loi de Student de degré de liberté (n-2) ddl
aˆ1  a1 aˆ1  a1
aˆ1  a1  aˆ  aˆ
 1
 1
 Tn  2
ˆ aˆ1 ˆ aˆ ˆ a2ˆ
 n  2 2
1
 aˆ
1
1  aˆ 1
n2
Mise en place de l’inférence statistique
 Comparaison d’un coefficient de régression par rapport à une valeur fixée (test
d’hypothèse au risque α. α étant le risque du premier espèce, c’est la probabilité de

rejeter à tort l’hypothèse nulle   P RH 0 H 0vraie ) 
H0 : a1  a

 H1 : a1  a
 Test de significativité. En général, on cherche à tester si le propension marginale est
significativement différente de zéro au risque α, c’est-à-dire, on s’interroge sur la
contribution (peu importe si positive ou négative) de la variable explicative :
H0 : a1  0

 H1 : a1  0
 Détermination d’un intervalle de confiance au niveau de confiance (1 – α)

Loi de Student
Test bilatéral
La règle de décision au seuil α :
H0 : a0
Acceptation de H0
Avec un niveau de (1-α) 
P Tn2  tn2  1   
P T  
H1 : a0
n2  tn2
-tα/2 tα/2
Valeur critique Valeur critique
ta *<- tα/2 |ta *| tα/2
inférieure ta*>tα/2 supérieure
Donc, sous H0 on obtient : Valeur calculée

du test
aˆ
t 
*
aˆ
appelé le ratio de Student.
ˆ aˆ
On rejette l’hypothèse H0 si ta*ˆ  tn/22
tâ* appelé le ratio de Student empirique

Intervalle de niveau de confiance (1 - α)
On suppose que  t  N  0,  2 
Variance de l’erreur σɛ2 théorique : aˆ0  a0  N  0,1 et aˆ1  a1
 N  0,1
 aˆ  aˆ
 
1 1
I a1  aˆ1  z   aˆ1 , aˆ1  z   aˆ1

I a0  aˆ 0  z   aˆ0 , aˆ1  z   aˆ0 
aˆ0  a0 aˆ1  a1
Variance de l’erreur σɛ2 empirique :  Tn  2 et  Tn  2
 aˆ1
ˆ  aˆ1
ˆ

I a1  aˆ1  t

2
n2 ˆ aˆ , aˆ1  t ˆ aˆ

2
n2 
 aˆ 
1 1
ˆ aˆ , aˆ1  t ˆ aˆ
 
I a0 0 t 2
n2
0
2
n2
0
La loi de Student est approximée par une normale centrée réduite si n-2 > 30

I a1  aˆ1  z  ˆ aˆ1 , aˆ1  z  ˆ aˆ1 
I a0  aˆ 0  z  ˆ aˆ0 , aˆ1  z  ˆ aˆ0 
C2EX2
Nous avons déterminé la droite de régression :
yˆt  aˆ0  aˆ1 xt  1 176, 08  0, 78 xt
Q1. La propension marginale est-elle significativement différente de 0 ?
Soit le test de significativité bilatéral au seuil α = 5 %

 H 0 : a1  0

aˆ1  a1
 Tn  2  H1 : a1  0
On sait que :
ˆ aˆ1
Donc, sous H0 on obtient :
aˆ1  0 aˆ1
  ta*ˆ1
ˆ aˆ1 ˆ aˆ1
tâ*1 est appelé le ratio de Student et t * le ratio de Student empirique
â1

*
On calcule le ratio empirique de Student tâ1 et on le compare à la valeur de
Student lue sur la table à n – 2 degrés de liberté et pour un seuil égal à 5 % :
aˆ1  0,780982745
 aˆ1
ˆ  taˆ1 
*
 43,535175 > t 80,025  2, 306
 aˆ1  0,01793912
 ˆ aˆ1
Sur la table de Student donnée en annexe on lit :
P( T8  2,306)  0,05
Ou encore, on calcule la p-value :
P( T8  43,53)  8,557 10-11  0,05
On rejette H0 : la propension marginale à consommer est significativement

différente de 0. La variable revenu est bien explicative de la variable
consommation.
Notez bien : sous Excel,
LOI .STUDENT .INVERSE (0,05;8)  2,306  t *â1  43,53
LOI .STUDENT (43,53;8;2)  8,55710-11    0,05
Q2. Quel est l’intervalle de confiance au niveau de confiance de 95 % pour
la propension marginale à consommer ?
aˆ1  a1
Comme ˆ  Tn  2 Ainsi, l’intervalle de confiance nous est donné par :
aˆ1
  aˆ1  a1 
P  Tn 2  tn 2   1    P  tn 2 
 
2
 tn 2   0,95
2
  ˆ 
 ˆ
a1 
I a1  aˆ1  tn/22ˆ aˆ1 , aˆ1  tn/22ˆ aˆ1   0, 74;0,82
 On a un risque de 5 % pour que la variable a1 se trouve à

l’extérieur de l’intervalle de confiance  0, 74;. 0,82
 comme 0  0, 74;0,82
.  , on rejette H0

(LAHLOU-Régression-Linéaire.xls, feuille test de signification)
2
 xt  x
2
ˆt
1 7 389,99 8 000,00 -2 595,59 -3 280,00 8 513 518,80 6 737 061,49 10 758 400,00 7 423,95 -33,96 1 153,39
2 8 169,65 9 000,00 -1 815,93 -2 280,00 4 140 309,00 3 297 583,61 5 198 400,00 8 204,93 -35,28 1 244,98
3 8 831,71 9 500,00 -1 153,87 -1 780,00 2 053 879,70 1 331 404,44 3 168 400,00 8 595,43 236,28 55 830,26
4 8 652,84 9 500,00 -1 332,74 -1 780,00 2 372 268,30 1 776 182,58 3 168 400,00 8 595,43 57,41 3 296,40
5 8 788,08 9 800,00 -1 197,50 -1 480,00 1 772 292,60 1 433 994,28 2 190 400,00 8 829,72 -41,64 1 733,93
6 9 616,21 11 000,00 -369,37 -280,00 103 422,20 136 430,50 78 400,00 9 766,90 -150,69 22 707,43
7 10 593,45 12 000,00 607,88 720,00 437 670,00 369 512,02 518 400,00 10 547,88 45,57 2 076,39
8 11 186,11 13 000,00 1 200,54 1 720,00 2 064 920,20 1 441 284,29 2 958 400,00 11 328,87 -142,76 20 379,08
9 12 758,09 15 000,00 2 772,52 3 720,00 10 313 755,80 7 686 839,43 13 838 400,00 12 890,83 -132,74 17 620,12
10 13 869,62 16 000,00 3 884,05 4 720,00 18 332 692,40 15 085 805,56 22 278 400,00 13 671,81 197,81 39 127,39
Somme 99 855,75 112 800,00 50 104 729,00 39 296 098,18 64 156 000,00 0,00 165 169,38
Moyenne 9 985,58 11 280,00 SCT SCR
â1 = 0,78 ddl 8 ˆ aˆ = 0,01793912

1
t théorique (bilatéral à risque α=5 %) : tn22  t80,025  2,306004133

LOI .STUDENT .INVERSE  0,05;8  2,306004133
aˆ1
t *
aˆ1  ˆ aˆ1  43,535175 >t80,025 On rejette (H0 : a1 = 0)


Limite inférieure Limite supérieure
Coefficients Erreur-type Statistique t Probabilité pour seuil de pour seuil de
confiance = 95% confiance = 95%
Constante 1176,089634 207,3920575 5,670851856 0,000469936 697,8426925 1654,336576
Variable X 1 0,780982745 0,01793912 43,53517545 8,5489E-11 0,73961506 0,822350431
aˆ0
â0 ˆ aˆ 0
taˆ0  ˆ aˆ0
aˆ0  tn/22ˆ aˆ0

â1 ˆ aˆ aˆ1
1
taˆ1  ˆ aˆ1 aˆ1  tn/22ˆ aˆ1
Probabilité ou p-valeur :
On rejette
p  2  P Tn  2  taˆ  aˆ0  tn  2ˆ aˆ0
 /2
H0 : a1 = 0
aˆ1  tn/ 22ˆ aˆ1
Puisque p-valeur
p  2  P Tn  2   t aˆ  est inférieur à α

ˆ aˆ0
ˆ aˆ 1
t â0 tâ1
n
â0
â1  
P  value tâ0
P  value  t 
â1
ˆ 

IV. Qualité de l’ajustement
La régression est-elle globalement de bonne qualité ?
Le test de Fisher s’intéresse à la significativité globale d’un modèle.
Dans le cas de la régression simple, seul le paramètre a1 est concerné
A. Équation fondamentale d’analyse de

la variance
B. Tableau d’analyse de la variance
(ANalysis Of Variance - ANOVA)

Équation fondamentale
de l’analyse de la variance
La somme des résidus est nulle puisque la droite de régression passe par le
point moyen : n
e
t 1
t 0
n n n
e
t 1
t    yt  yˆ t 
t 1
  y
t 1
t  aˆ0  aˆ1 xt 
 ny  naˆ0  naˆ1 x
 ny  n  y  aˆ1 x   naˆ1 x
 0
La moyenne de la série à expliquer est égale à la moyenne de la série ajustée :

y  yˆ
n n n n
En effet, e
t 1
t  0    yt  yˆ t   0   yt   yˆ t
t 1 t 1 t 1

n n
ainsi (y
t 1
t  y) 2
 (y
t 1
t y
ˆt  y
ˆt  y ) 2
n n n
  yˆ  y    ( yt  y
ˆ t )  2 ( yt  y
ˆt )  y
ˆt  y 
2
 t
2
t 1 t 1 t 1
n n
  yˆ  y    ( yt  y
2
 t
ˆt )2
t 1 t 1
  yˆ 
n n
  et2
2
 t y
ˆ Terme nul
t 1 t 1
  yˆ 
n n
  (et  e ) 2
2
 t y
ˆ
En effet, t 1 t 1
n n
 y
t 1
t
ˆ t  y
 y ˆt  y    e  yˆ
t 1
t t  y
n
n n
Car  et 0
  et yˆ t  y  et
t 1 t 1
t 1
n
n xe 0
 e aˆ ˆ1 xt 
t t
 t 0 a t 1
t 1
n n
 ˆ 0  et  a
a ˆ1  et xt
t 1 t 1
 0

n n n
 t  t    yt  yˆ t 
2
( y  y ) 2
 ( ˆ
y  y ) 2
t 1 t 1 t 1
SCT  SCE  SCR

Somme des Carrés Totaux Somme des Carrés Expliqués Somme des Carrés Résiduels
par le modèle Non expliqués par le modèle
(TSS :Total Sum of Squares) (RSS: Regression Sum of Squares) (ESS: Error Sum of Squares)
SCT la variabilité totale des yt. C’est la somme des carrés des
écarts des observations yt par rapport à la moyenne y
SCE la variabilité expliquée par le modèle. C’est la dispersion
totale - la dispersion résiduelle
SCR la variabilité résiduelle. C’est la Somme des carrés des
écarts des observations yt par rapport aux valeurs estimés
par le modèle yˆ t
n n n
  yt ˆt   e    et e
2 2
y 2
t
t 1 t 1 t 1

yt ˆ 1x t
 a
 ˆ0
a
yt ˆt
y
SCT :  yt  y  SCR :  yt  yˆt 
ŷ
SCE :  yˆt  y 
y
0 xt
Ecart total  yt  y  = écart dû au modèle  yˆt  y  + écart résiduel  yt  yˆt 
n
n (y t  y )2
SCT   ( yt  y ) 2   n  1 t 1
  n  1  y2
t 1 n 1
n
n  (x t  x )2
Cov 2 ( x, y )
SCE   ( yˆ t  y )   n  1 aˆ
2 2 t 1
  n  1
t 1
1
n 1  x2
n
n n e t
2
SCR   ( yt  yˆt ) 2   et 2   n  2  t 1
  n  2  ˆ 2
t 1 t 1 n2
81
n n n
 t
( y
t 1
 y ) 2
  t
( ˆ
y
t 1
 y ) 2
  t
e 2
t 1
SCT  SCE  SCR
permet de juger la qualité de l’ajustement d’un modèle :
Plus la variance expliquée SCE est proche de la variance totale

SCT (respectivement, plus la variance résiduelle est petite) meilleur
est l’ajustement du nuage de points par la droite des Moindres
Carrés.
D’où, l’introduction
des indicateurs de la qualité d’ajustement

Coefficient de détermination R2:
R2 est un indicateur de la qualité de l’ajustement de la droite
aux données. Autrement dit, il mesure l’adéquation entre le
modèle et les données observées. Il nous indique le pourcentage
de l’information restituée par le modèle par rapport à la qualité
d’information initiale.
n
SCE  t
( ˆ
y  y ) 2
0  R2  1
R 2
  t 1
n
(y
SCT
t  y )2
t 1
n n
SCR  ( yt  yˆt ) 2
 t
e 2
R2  1   1 t 1
n
 1 n
t 1
 ( yt  y )  t
SCT 2
( y  y ) 2
Pr. Amale LAHLOU t 1 S5 : Sciences Economiques t 1 83

y y
yˆt  yt
yˆt  y 0  R2  1
Plus le R 2 se rapproche
x
R2  0
x
de 0, plus le nuage de R 1
2
points est diffusé autour l'équation de la droite de

l'équation de la droite de de la droite de régression. régression est capable de
régression détermine 0% déterminer 100% de la
de la distribution des Plus le R² tend vers 1, distribution des points.
points. Autrement dit, la plus le nuage de points se Autrement dit, la droite
droite de régression rapproche de la droite de de régression déterminée
n'explique absolument régression. et les paramètres a0 et a1
pas la distribution des calculés sont ceux qui
points. La variable déterminent parfaitement
explicative x est donc la distribution des points.
inutile.
Coefficient de corrélation multiple R :
R est aussi un indicateur de la qualité de la représentation : R  R2
On note par rXY le coefficient de corrélation linéaire simple de Pearson
entre deux variables statistiques X et Y :
E  X  E  X   Y  E Y    cov  X , Y 
rXY   1  r  1
var  X  var Y   XY
Il sert à mesurer l’intensité de la relation linéaire entre ces deux variables.
Étant donné un échantillon aléatoire de n couples d’observations, le
coefficient empirique est donné par :
n n
 ( x  x )( y  y )
t t x y n x y
t t
   XY  t 1
 t 1
n n n n
 ( xt  x )
t 1
2
 ( yt  y )
t 1
2
x n x
t 1
2
t
2
t
y 2
t 1
 n y 2

Remarquons que le coefficient de corrélation linéaire simple s’écrit :
cov  X , Y  cov  X , Y   X X
r   aˆ1
 XY  X2 y Y
Ce qui implique : 2
X  X 
r  aˆ1  r   aˆ1
2

Y   Y 
En plus : 2 n n n
aˆ1   xt  x   aˆ1 xt  aˆ1 x  
 tˆ  
2 2 2
y y
SCE
 2  nt 1  t 1
n
 t 1
n
  R2
 t y  y 2

 ty  y 2

 ty  y 2 SCT
t 1 t 1 t 1
Donc,  2  R2 et   signe  aˆ1  R

Corrélation linéaire
Nulle
Aucune relation
entre les variations
Négative Positive
des valeurs de l’une
Les valeurs de l’une des Augmentation ou
des variables et les
variables augmentent, les diminution simultanée
valeurs des autres
valeurs de l’autre variable des valeurs des deux
variables
diminuent variables
forte
forte
parfaite
parfaite
nulle
Très faible Très

faible
forte forte
-1 -0,5 0 0,5 1

y y y
v
x x x
Relation parfaite Relation forte Relation modérée
y y
x x
Relation faible Pas de relation
Y Y Y
v
v
X X X
r  1 r 0 r 1
il existe une corrélation corrélation linéaire nulle. il existe une corrélation
linéaire négative parfaite Alors, aucune linéaire positive parfaite
entre X et Y : droite de dépendance linéaire entre X et Y : droite de
régression décroissante. entre X et Y. régression croissante.
Plus la valeur de r s’éloigne de 0 pour s’approcher de 1 plus l’intensité du lien

linéaire entre X et Y grandit de façon croissante ou décroissante. Bien noté que
la corrélation n’indique aucun effet de causalité

Coefficient de détermination ajusté :
En cas de régression linéaire simple, il est donné par les formules :
 1  R 2
  n 1
Il peut être
négatif
Ra2  1 
SCR n 2
SCT n  1
 R2 
n2

 1  1  R2
n2

 Lorsque l’on ajoute des variables explicatives au modèle le R2
peut seulement croître même si ces nouvelles variables sont très
liées à la variable à expliquer. Il peut être ainsi amplifié
artificiellement par l’addition de n’importe quelle variable
explicative. Tandis que le R2 ajusté peut croître ou décroître.
 Il est préférable de comparer les valeurs des R2 ajustés pour
déterminer si l’introduction d’une variable supplémentaire est utile
(LAHLOU-Régression-Linéaire.xls, feuille coefficient de détermination)
2
 xt  x
2
ˆt
1 7 389,99 8 000,00 -2 595,59 -3 280,00 8 513 518,80 6 737 061,49 10 758 400,00 7 423,95 -33,96 1 153,39
2 8 169,65 9 000,00 -1 815,93 -2 280,00 4 140 309,00 3 297 583,61 5 198 400,00 8 204,93 -35,28 1 244,98
3 8 831,71 9 500,00 -1 153,87 -1 780,00 2 053 879,70 1 331 404,44 3 168 400,00 8 595,43 236,28 55 830,26
4 8 652,84 9 500,00 -1 332,74 -1 780,00 2 372 268,30 1 776 182,58 3 168 400,00 8 595,43 57,41 3 296,40
5 8 788,08 9 800,00 -1 197,50 -1 480,00 1 772 292,60 1 433 994,28 2 190 400,00 8 829,72 -41,64 1 733,93
6 9 616,21 11 000,00 -369,37 -280,00 103 422,20 136 430,50 78 400,00 9 766,90 -150,69 22 707,43
7 10 593,45 12 000,00 607,88 720,00 437 670,00 369 512,02 518 400,00 10 547,88 45,57 2 076,39
8 11 186,11 13 000,00 1 200,54 1 720,00 2 064 920,20 1 441 284,29 2 958 400,00 11 328,87 -142,76 20 379,08
9 12 758,09 15 000,00 2 772,52 3 720,00 10 313 755,80 7 686 839,43 13 838 400,00 12 890,83 -132,74 17 620,12
10 13 869,62 16 000,00 3 884,05 4 720,00 18 332 692,40 15 085 805,56 22 278 400,00 13 671,81 197,81 39 127,39
Somme 99 855,75 112 800,00 50 104 729,00 39 296 098,18 64 156 000,00 0,00 165 169,38
Moyenne 9 985,58 11 280,00 SCT SCR
SCT = 39 296 098,18

â1 = 0,780982745 SCR = 165 169,38
Estimation de â0 SCE = SCT – SCR = 39 130 928,80
= 1176,089634
yˆt  aˆ1 xt  aˆ0  0, 78 x  1176, 08 Coefficient de détermination R2 = 0,995796799
Coefficient de détermination Ra2 ajusté = 0,995271399
Coefficient de corrélation linéaire multiple R = 0,997896187
SCR n  2
n n n n
SCR    yt  yˆ t    et2 SCT   ( yt  y ) 2 SCE   ( yˆt  y ) 2 R 2  SCE
2
Ra2  1 
t 1 t 1 t 1 t 1 SCT SCT n  1 R  R2
R
Coefficient de détermination multiple R 0,997896187
Coefficient de détermination R2 0,995796799 R2
Coefficient de détermination ajusté 0,995271399
Ra2
Observations 10
ˆ 
n
99,58% de la variabilité dans la consommation peut s’expliquer par la variabilité
du revenu. Seulement 0,42% restants s’expliquent très mal : parfaite corrélation

ˆ aˆ
0
ˆ aˆ
1
t â*0 tâ*1
n
â0
â1  
P  value tâ*0
*
â1
R2
Ra2
ˆ 
Pr. Amale LAHLOU 93

Tableau d’analyse de la variance
pour un modèle de régression simple
Source de
variation
Degrés
de liberté
Sommes des
carrés
Moyenne des
carrés  
Fisher F 
SCE 
Régression n
linéaire
Variables
k 1 
t 1
( yˆ t  y ) 2 MCE  SCE 
F 
MCE
MCR
explicatives
k
n
SCR   et2
t 1 SCR
Résidu n  k 1 n MCR 
  ( yt  yˆt ) 2
n  k 1 k nombre de facteurs. Pour
t 1 la régression simple k = 1
SCT 
Total n 1 n
 t
( y
t 1
 y ) 2

Source de
variation
Degrés de
liberté
Sommes des
carrés
Moyenne des
carrés
Fisher F  
 ( yˆ
n
Régression  y )2 1
 t
n
ˆ 
 ( yˆ
2
1  y) 2 ( y y ) t
linéaire t t 1 F  t 1
n
Variable t 1
explicative x
1  e  n  2
t 1
2
t
(y  yˆ t ) 2 n
Résidu n2
t 1
n
t
 t
e 2
t 1
 e
t 1
2
t n2
Dans la variance
n 1 n
(y
n
e
n
Total (y  y) y
ˆt ) 
2 2 2
t t t
t 1 t 1 t 1
n
Il y a n écart et deux
Dans la variance  ( yt  y )
2
t 1
contraintes connues :
n n
e e x
Il y a une seule
Il y a n écart et une contrainte t 0 et t t 0
variable explicative.
connue : n t 1 t 1
D’où, le degré de
liberté est : 1
(y t 1
t  y)  0
D’où, le degré de liberté est :
D’où, le degré de liberté est : n  1 n2
Degrés Sommes
F 
Source de Moyenne des 
de des Fisher
variation carrées
liberté carrées
Régression MCE SCE 1

SCE F  
Variable 1 SCE MCE  MCR SCR  n  2 
explicative (x) 1
SCR
Résidus n2 SCR MCR 
n2
Fisher de degrés
Total (y) n 1 SCT de liberté 1 et n-2
SCE SCE 2 2
MCE 1  (n  2) SCT  (n  2) R R
F   
MCR SCR SCR 1 R 2
(1  R 2 ) (n  2)
n2 SCT
Si la variance expliquée par le modèle est significativement supérieure à
la variance résiduelle, alors la variable X est réellement explicative.
Le test de Fisher (analyse de la variance) permet d’intégrer la taille de
l’échantillon n dans l’appréciation de la qualité de la représentation. Soit
le test d’hypothèses :  H : SCE  SCR
0

 H1 : SCE  SCR
SCE
 1
 Calculer le Fisher empirique : F  SCR
n2
 
F
 Comparer F avec 1, n  2 , le Fisher tabulé à (1,n-2) degré de liberté
et au seuil 
 Conclure : si F   F1, n  2  ou la p-valeur associée est inférieur à α on
rejette l’hypothèse nulle d’égalité des variances et donc la variable X est
significative et explicative de la variable Y
Équivalence des tests
dans un modèle de régression linéaire simple
 H 0 : a1  0
Test sur le coefficient de régression linéaire (pente de la 1 
droite de régression)  H1 : a1  0
 H 0 : rxy  0
Test sur le coefficient de corrélation linéaire entre les  2 H : r  0
variables x et y  1 xy
 H 0 : SCE  0
Test de signification de la Somme des Carrés Expliqués  3 
 H1 : SCE  0
H0 : R2  0
Test de signification du coefficient de détermination  4 
 H1 : R  0
2

Démonstration
 Le test (1) se fait au moyen de la statistique de Student Tn  2 :
 H 0 : a1  0
1 
 H1 : a1  0
aˆ1
sous H0 et au risque :  Tn  2
ˆ aˆ1
 Le test (2) se fait au moyen de la statistique de Student Tn  2 :
H0 : r  0
 2 
 H1 : r  0
r
sous H0 et au risque  : 1  Tn  2
1  r  2
n2
 Le test (3) se fait au moyen de la statistique de Fisher F1, n  2  :
H 0 : SCE  0
3 
 H1 : SCE  0
sous H0 et au risque  : SCE

1  F1, n  2 
SCR
n2
 Le test (4) se fait au moyen de la statistique de Fisher F1, n  2  :
H 0 : R2  0
4 
 H1 : R2  0
sous H0 et au risque  : R2
1  F1, n  2 
1  R  2
n2
En effet, sous l’hypothèse H 0 : a1  0 Cov( x, y )
aˆ1 r
 t aˆ1   Tn  2 Déjà montré  x y
*
ˆ aˆ1
 De même : r Cov( x, y )
1  Tn  2 aˆ1 
1  r  2  x2
n2
n

 tx  x 2
t 1
aˆ1
n n
 y  y aˆ1  x  x
2 2
r t t
1 r t 1 t 1
 n2  n2  n2
1  r 2
1 r 2 n n n
 x  x  y  y   aˆ  x  x
2 2 2 2
n2 t t 1 t
1 t 1
n
t 1 t 1
 y  y
2
t
t 1
Équation
n n
fondamentale
aˆ1  x  x aˆ1  x  x de l’analyse
2 2
t t
t 1 t 1 aˆ1 de la variance
    Tn  2
n ˆ  ˆ aˆ1
 et2
t 1 yˆ t  y  aˆ1 xt  x 
n2
SCE
 De même, 1  F1, n  2 
SCR
n2
n n
  yˆ t  y  
 0 1t 0 1
ˆ  ˆ  ˆ  ˆ 
2 2
SCE a a x a a x
1  n  2  t 1
n
 n  2  t 1
n
SCR
n  2  y  yˆ t  e
2 2
ˆ t  aˆ0  aˆ1 xt
t t
t 1 t 1 y
 2
y  aˆ0  aˆ1 x
n
 x  x aˆ2
aˆ2 2
1 t 1
 a2ˆ
 n  2  t 1
n
 n  2  n
1
n n
e
t 1
2
t e
t 1
2
t  t t t
( y  ˆ
y ) 
2
e 2
t 1 t 1
2
 aˆ1  a1 
 
2
aˆ 2  aˆ1 
1     aˆ 
   aˆ    n
 2
 xt  x   2 
2 1
 n  2   n  2   1  2 
2
aˆ1 1
n
 et   et 
2  aˆ1
e
n n t 1
 
2
t    
t 1     t 1    
t 1
 2 n  2
SCE 12
1  1  F1, n  2 
SCR  2
n  2 n2
n2
S5 : Sciences Economiques 102
2
puisque,  et 
 
n
et
t N 0,  2  N  0,1      n2 2
 t 1    
2
 aˆ1  a1  Une seule normale centrée
   2
  aˆ  1 réduite au carré
 1 
Le rapport (de deux variables indépendantes) d’un
Donc, SCE Chi-deux divisé par son degré de liberté (1) à un
1  F1,n  2 
SCR Chi-deux divisé par son degré de liberté (n-2) suit
n2 une loi de Fisher de degrés de liberté (1, n-2)
Il est à noter qu’en régression linéaire simple, on se ramène à un test par analyse de la
variance où le Fisher empirique est le carré de Student empirique :
n n
SCE   yˆ  y  aˆ 1   xt  x 
2
aˆ 12 aˆ1 
2
 
t
1  n  2  n  2  2    t a*ˆ 2
F 
* t 1 t 1
SCR n n
ˆ aˆ1  ˆ aˆ1 
n  2 t t
1
2 2
e e
t 1 t 1

R2
 De même, 1  F1,n  2 
1  R 
2
n2
n n n
 xt  x   aˆ1 xt  aˆ1 x  

 tˆ  
2 2 2
y y
SCE
r 2  aˆ12 t 1
n
 t 1
n
 t 1
n
  R2
  yt  y  
 t  
 t  SCT
 
2 2 2
y y y y
t 1 t 1 t 1
Donc, le carré du coefficient de corrélation linéaire simple est égal

au coefficient de détermination : r 2  R 2 r  signe  aˆ1  R
2
 
R2  r2 r 
1  1  1   F1, n  2 
1 R 2
 1 r 2
   1 r 2

n2 n2 


n2 

(LAHLOU-Régression-Linéaire.xls, feuille ANOVA)
2
 xt  x
2
ˆt
1 7 389,99 8 000,00 -2 595,59 -3 280,00 8 513 518,80 6 737 061,49 10 758 400,00 7 423,95 -33,96 1 153,39
2 8 169,65 9 000,00 -1 815,93 -2 280,00 4 140 309,00 3 297 583,61 5 198 400,00 8 204,93 -35,28 1 244,98
3 8 831,71 9 500,00 -1 153,87 -1 780,00 2 053 879,70 1 331 404,44 3 168 400,00 8 595,43 236,28 55 830,26
4 8 652,84 9 500,00 -1 332,74 -1 780,00 2 372 268,30 1 776 182,58 3 168 400,00 8 595,43 57,41 3 296,40
5 8 788,08 9 800,00 -1 197,50 -1 480,00 1 772 292,60 1 433 994,28 2 190 400,00 8 829,72 -41,64 1 733,93
6 9 616,21 11 000,00 -369,37 -280,00 103 422,20 136 430,50 78 400,00 9 766,90 -150,69 22 707,43
7 10 593,45 12 000,00 607,88 720,00 437 670,00 369 512,02 518 400,00 10 547,88 45,57 2 076,39
8 11 186,11 13 000,00 1 200,54 1 720,00 2 064 920,20 1 441 284,29 2 958 400,00 11 328,87 -142,76 20 379,08
9 12 758,09 15 000,00 2 772,52 3 720,00 10 313 755,80 7 686 839,43 13 838 400,00 12 890,83 -132,74 17 620,12
10 13 869,62 16 000,00 3 884,05 4 720,00 18 332 692,40 15 085 805,56 22 278 400,00 13 671,81 197,81 39 127,39
Somme 99 855,75 112 800,00 50 104 729,00 39 296 098,18 64 156 000,00 0,00 165 169,38
Moyenne 9 985,58 11 280,00 SCT SCR
â1 = 0,780982745 Source de Sommes des Moyenne des

Estimation de ddl Fisher
â0 = 1176,089634 variation carrées carrées
x 1 39130928,80 39130928,80 1895,311501
yˆt  aˆ1 xt  aˆ0  0, 78 x  1176, 08 Résidus 8 165169,38 20646,17282
Total 9 39296098,18

  5,317655063
F théorique (1,8) (risque α=5 %) : F1,8
F   1895,311501>F1,8 On rejette (H0 : a1 = 0) La variable Xt est significative
L’analyse de la variance confirme que la variance expliquée est significativement plus

élevée que la résiduelle. 105

ANALYSE DE VARIANCE
Degré de Moyenne des
Somme des carrés F Valeur critique de F
liberté carrés
Régression 1 39130928,8 39130928,8 1895,311501 8,5489E-11
Résidus 8 165169,3825 20646,17282
Total 9 39296098,18
SCE MCE=SCE/1 MCE

F 
MCR
MCR = SCR/8
SCR MCR  ˆ2
P-valeur :
ˆ  MCR
SCT = SCE + SCR 
P F1,n 2  F  

ˆ aˆ
0
ˆ aˆ
1
t â*0 tâ*1
n
â0
â1  
P  value tâ*0
*
â1
R2 y
Ra2 y
ˆ 
SCR
*
F
 
P  value F *
Pr. Amale LAHLOU 107

R.B Exercice 4, page 36
Un agronome cherche à estimer la relation liant la production de
maϊs yi au taux de bauxite xi se trouvant dans la terre en
formalisant la relation :
yi  a0  a1 xi   i
Le modèle est spécifié en coupe instantanée. À partir d’une étude
statistique portant sur 85 parcelles de terre, un économètre lui
fournit les résultats suivants :
yi  132,80  1,1 xi  ei i  1,...,85
les ratios empiriques de Student ta*ˆ1  10, 2 et ta*ˆ0  4,3
85
Et on a : e
i 1
2
i 6234, 32

Question 1: Montrer que tester l’hypothèse H0 : a1 = 0 revient à
tester l’hypothèse r = 0 où r est le coefficient de corrélation
linéaire simple entre yi et xi ; le calculer.
Soit l’hypothèse nulle (H0 : a1 = 0). Soit l’erreur du premier espèce   5%
t *
Comme aˆ1  10, 2  t 0, 025
  z 0, 05
 1,96 (approximation avec une
loi normale centrée réduite) nous rejetons H0, c’est-à-dire, a1 est
significativement différent de 0 : le taux de bauxite est un facteur
explicatif négatif (puisque â1 est négatif) de la production de maїs.
On a déjà montré l’équivalence de ce test avec (H0 : r = 0).
Du fait de n n
aˆ1  x  x aˆ1  x  x
2 2
r t t
1 t 1 t 1 aˆ1
    t a*ˆ1
1  r 2 n ˆ  ˆ aˆ1
n2 e
t 1
2
t
n2
Calculons r: rappelons que le signe de rest celui de â1
r
1  ta*ˆ1  r 2 
t 
* 2
aˆ1

10,22
 0,556  r  0,746  r  0,746
1  r  n  2  t 
* 2 83  10,2
2 2
aˆ1
n2
Question 2: Construire le tableau d’analyse de la variance et

vérifier les résultats obtenus en question 1 à partir du test de Fisher.
Pour construire le tableau d’analyse de la variance, il faut connaître :

85
SCE   ( yˆ i  y )
85 85
SCR   ( yi  yˆ i ) 2   ei2
2
i 1 i 1 i 1
85
SCT   ( yi  y ) 2
i 1

85
Or,
SCE i
e 2
SCR
R2   1 ti 1
 1 et R  r  0,556.
2 2
85
(y
SCT SCT
t  y )2
i 1
85
la connaissance de SCR   ei2  6234, 32 permet de déterminer
i 1
SCR
SCT   14041, 261 ainsi que SCE  SCT  r 2
 7806, 941
1 r 2
On construit le tableau d’analyse de la variance :

Source de Degrés de Sommes des Moyenne des
Fisher
variation liberté carrées carrées
x 1 SCE = 7806,94 SCE/1 = 7806,94 F* = 103,94
Résidus 85-2 = 83 SCR = 6234,32 SCR/83 = 75,11
Total 85-1 = 84 SCT = 14041,26

SCE
 1 7806,94
F    103,94  F1,83
0,05
  3,96
SCR 75,11
n2
N.B. : F   103,94  F   10,195  10, 2  ta*ˆ1
INVERSE .LOI .F (0,05;1;83)  3,95596086 F *  103,94

LOI .F (103,94;1;83)  2,69563 10-16    0,05 
Question 3 : le coefficient a1 est-il significativement inférieur à (-1) ?
Soit le test unilatéral à gauche suivant :

 H 0 : a1  1

 H1 : a1  1

Tout d’abord calculons l’écart type :
aˆ1 aˆ1 1,1
taˆ 
*
 10, 2   aˆ  * 
ˆ  0,10784
ˆ aˆ
1
1
taˆ 10, 2 1
Puis, sous H0, nous avons : aˆ1  a1  1,1  (1)

*
t aˆ1    0,9273
ˆ aˆ1
0,10784
Comme le test est unilatéral, on doit travailler avec la table de
Student unilatéral au seuil α. Toutefois, on peut travailler avec la
table de Student bilatérale avec un seuil 2 α.
Puisque aˆ1  a1  1,1  (1)
*
t aˆ1   0 , 05 0 , 01
 0,9273  t z  1,65
ˆ aˆ
1
0,10784
Nous acceptons l’hypothèse H0, c’est-à-dire, a1 n’est pas
significativement inférieur à (-1).
LOI .STUDENT .INVERSE (0,10;83)  1,66342018 t *â1  0,9273
LOI .STUDENT (0,9273;83;1)  0,178229748    0,05
V. Prévision dans le modèle de
régression simple
A. Prévision ponctuelle
B. Intervalle de prédiction

V. Prévision dans le modèle de
régression simple
Prévision ponctuelle :
Le modèle estimé sur la période t  1,..., n
yt  a
ˆ0  a
ˆ1 xt  et
ˆ n 1  aˆ0  aˆ1 xn 1
Pour xn 1connue la prévision est donnée par : y
La prévision est sans biais :
L’erreur de prévision est : en 1  yn 1  y ˆ n 1
Or, en 1   a0  a1 xn 1   n 1    aˆ0  aˆ1 xn 1 
  a0  aˆ0    a1  aˆ1  xn 1   n 1
E  en 1   E  a0  aˆ0   xn 1 E  a1  aˆ1   E   n 1 
Donc, E  en 1   0 et en général, pour un horizon h, E  en  h   0

Prévision par un intervalle : Covaˆ0 , aˆ1    x Var (aˆ1 )
on calcule la variance de l’erreur
Var  en 1   Var  yn 1  yˆ n 1 
xn+1 est certaine
 Var   a0  aˆ0    a1  aˆ1  xn 1   n 1 
 Var  aˆ0   xn21Var  aˆ1   2 xn 1Cov  aˆ0 , aˆ1   Var   n 1 
Var  aˆ0 
 2
 2 2   x 2Var  aˆ1   xn21Var  aˆ1   2 xn 1 xVar  aˆ1    2
  x Var  aˆ1  n
n
1  Var   n 1    2
    1   xn 1  x  Var  aˆ1 
2
 2
n 
 1   2
 2   1   xn 1  x  n 
2

n 
 
2
x x t
t 1
 
1  xn 1  x   1
2
Var  en 1     
2
n 
n
  
2
 x t  x 
Pr. Amale LAHLOU
 t 1 
L’intervalle de prédiction de niveau de confiance (1 - α) % :
  
  
en 1  yn 1  yˆ n 1  2 1
 N 0, ˆ  
xn 1  x 2  1 
 n n 
  
 t x  x 2

  t 1 
Soit, yn 1  yˆ n 1
 Tn  2
ˆ 
1

xn 1  x  2
1
n
n

 t x  x 2
t 1
Donc, les deux bornes de l’intervalle de prédiction est donné par :
yn 1  yˆ n 1  t n 2 2ˆ 
 1

xn 1  x 2 1
n
 xt  x 
n 2
t 1

(LAHLOU-Régression-Linéaire.xls, feuille prévision)
2
 xt  x
2
ˆt
1 7 389,99 8 000,00 -2 595,59 -3 280,00 8 513 518,80 6 737 061,49 10 758 400,00 7 423,95 -33,96 1 153,39
2 8 169,65 9 000,00 -1 815,93 -2 280,00 4 140 309,00 3 297 583,61 5 198 400,00 8 204,93 -35,28 1 244,98
3 8 831,71 9 500,00 -1 153,87 -1 780,00 2 053 879,70 1 331 404,44 3 168 400,00 8 595,43 236,28 55 830,26
4 8 652,84 9 500,00 -1 332,74 -1 780,00 2 372 268,30 1 776 182,58 3 168 400,00 8 595,43 57,41 3 296,40
5 8 788,08 9 800,00 -1 197,50 -1 480,00 1 772 292,60 1 433 994,28 2 190 400,00 8 829,72 -41,64 1 733,93
6 9 616,21 11 000,00 -369,37 -280,00 103 422,20 136 430,50 78 400,00 9 766,90 -150,69 22 707,43
7 10 593,45 12 000,00 607,88 720,00 437 670,00 369 512,02 518 400,00 10 547,88 45,57 2 076,39
8 11 186,11 13 000,00 1 200,54 1 720,00 2 064 920,20 1 441 284,29 2 958 400,00 11 328,87 -142,76 20 379,08
9 12 758,09 15 000,00 2 772,52 3 720,00 10 313 755,80 7 686 839,43 13 838 400,00 12 890,83 -132,74 17 620,12
10 13 869,62 16 000,00 3 884,05 4 720,00 18 332 692,40 15 085 805,56 22 278 400,00 13 671,81 197,81 39 127,39
Somme 99 855,75 112 800,00 50 104 729,00 39 296 098,18 64 156 000,00 0,00 165 169,38
Moyenne 9 985,58 11 280,00 SCT SCR
â1 = 0,780982745
Estimation de yˆt  aˆ1 xt  aˆ0  0, 78 x  1176, 08
â0 = 1176,089634
 
 
2 1
Var (et * )  ˆ   n
 xn 1  x 
2
 1  18 352,15
Consommation pour un revenu xt*=10 000 n 
  xt  x 2 
Prédiction ponctuelle : yˆt*  aˆ0  aˆ1xt*  1176,08  0,78 10000 ŷ t  985,917086  *
t 1 
1 xn 1  x 2
l’intervalle de prédiction yn 1  yˆ n 1  t n  2ˆ 

2
 n
1
 xt  x 
n 2
t 1


et  yt  yˆt
yˆt  aˆ1 xt  aˆ0
et
ˆ et
SCR n2
ˆ et   ˆ   135,4701208
n 1 n 1
R.B. Exercice 5, CEX2, page 41
Nous reprenons le modèle consommation-revenu spécifié série temporelle :
yt  1176, 08  0, 78 xt  et t  1,...,10
Les ratios de Student empiriques sont : ta*ˆ1  43,53 et ta*ˆ0  0,21
Question 1 : Calculer le coefficient de détermination et effectuer le test de

Fisher permettant de déterminer si la régression est globalement
significative.
Comme R2 r2
    43, 53
2
  2
F    t
1  R   n  2  1  r
2 2
  n  2 aˆ1
t a2ˆ1 43 ,532
Alors, r 2    0,99579 et puisque
n  2  t aˆ1 8  43,53
2 2
F *  1894,86  F10,,805  5,32 la variable explicative revenu est significative

Question 2 : Quelle est la conséquence sur la consommation de
l’augmentation du revenu de 8 % ?
Soit une augmentation du 8 % du revenu, de combien augmente la

consommation ? Soit la formule :
yˆt  aˆ0  aˆ1 xt  yˆt  aˆ1xt
Ainsi, yˆt  aˆ1xt  0, 78  0, 08  0,0624
Pour une augmentation du revenu de 8%, la consommation
augmente de 6,24 %
Question 3 : pour les années 11 et 12, on prévoit 16 800 et 17 000 UM de
revenu par habitant. Déterminer la prévision de consommation pour ces
deux années ainsi que l’intervalle de prédiction au seuil de 95 %.
Soit le modèle estimé : yˆt  1176, 08  0, 78 xt

En supposant x11  16800 et x12  17000

Alors, les prévisions ponctuelles sont de :
yˆ11  1176, 08  0, 78 16800  14280,08
yˆ12  1176, 08  0, 78 17000  14436,08
Déterminons IC11 l’intervalle de prédiction à l’année 11 (la
réalisation à 95% de se trouver dans cet intervalle) :
 x11  x 
2
1
ˆ11  tn/ 22ˆ 
y11  y  n
1
 x  x
n 2
t
t 1
Comme, yˆ11  14280,08 ; tn/22  2,306 ; ˆ   143, 69 ; x11  16800

n
  xt  x   6415600 ; x  11280 ; n  10
2
t 1
Alors,
16800  11280 
2
1
y11  14280, 08  2, 306  143, 69  1
10 64156000
y11  14280, 08  415,81792
122
Déterminons IC12 l’intervalle de prédiction à l’année 12 (la
réalisation à 95% de se trouver dans cet intervalle) :
 x12  x 
2
1
ˆ12  tn/ 22ˆ 
y12  y  n
1
  xt  x 
n 2
t 1
Comme, yˆ  14436,08 ; t  /2  2,306 ; ˆ  143, 69 ; x  17000

12 n2  12
n
x  x 
2
t  6415600 ; x  11280 ; n  10
t 1
1 17000  11280 
2
Alors:
y12  14436,08  2,306 143,69  1
10 64156000
y12  14436,08  420,42992
D’où, IC11  13864,26;14695,90 et IC12  14015,65;14856,51

R.B. Exercice 6, page 43
Un économiste spécialisé en économie du travail s’intéresse à la
relation liant la rémunération et la durée des études (théorie du capital
humain). Pour ce faire, il dispose d’un échantillon de 40 hommes et 25
femmes ayant le même âge, dont il relève la rémunération annuelle (yi),
exprimé en milliers de francs, et le nombre d’années d’études (xi).
Les estimations économétriques conduisent aux résultats suivants :
Pour les hommes (n1 = 40) Pour les femmes (n2 = 25)
yi  18, 60  1,8 xi  ei yi  14,50  0, 7 xi  ei

les ratios de Student empiriques les ratios de Student empirques
t  5,2 et
*
haˆ1 t *
haˆ 0  9,3 t *faˆ1  2,5 et t *faˆ0  12,8
Rh2  0, 42 R 2f  0, 22

Question 1 : L’influence de la durée des études sur la rémunération vous
semble-t-elle significative ?
analyse avec les ratios empiriques de Student

Pour les hommes Pour les femmes
haˆ1 faˆ1
t *
haˆ1   5,2  t380,025  t0,025  z 0,05  1,96 t *faˆ1   2,5  t230,025  2,069
ˆ haˆ1 ˆ faˆ1
L’écart type est L’écart type est
haˆ faˆ1 0, 7
ˆ haˆ  1 
1,8
 0,35 ˆ faˆ    0,28
1
5, 2 5, 2
1
2, 5 2, 5
et PT38  5,2  7,10 10-6 et PT28  2,5  0,02
• Les deux coefficients de régression sont significativement différents de 0.

• le coefficient de pondération des années d’études pour les femmes est plus
faible et moins significatif que celui des hommes.
125
Question 2 : Existe-il une différence significative entre la rémunération
des hommes et des femmes ?
On se ramène à un test de différence de moyennes de variables aléatoires
normales indépendantes et de variances inégales :
 H 0 : ha1  fa1 Ou encore  H 0 : d  ha1  fa1  0
 
 H1 : ha1  fa1  H1 : d  ha1  fa1  0
Soit donc la distribution  haˆ1  faˆ1    ha1  fa1 
 Tn1  n2  4
ˆ haˆ1  faˆ1
On pose dˆ  haˆ  faˆ donc
1 1
ˆ  ˆ
2
dˆ
2
haˆ1  faˆ1  ˆ ha
2
ˆ1  ˆ 2
faˆ1  2 cov( ˆ
ha1 , ˆ
fa1 )  ˆ 2
haˆ1  ˆ 2
faˆ1
Sous H0: dˆ 1,8  0,7

t  *
dˆ
 2,49  t61
0 , 025
 t0, 025  z 0, 05  1,96
ˆ dˆ 0,342  0,282
Nous rejetons l’hypothèse H0 ; c’est-à-dire, il existe une différence significative
des coefficients de régression : la durée des études des femmes a moins d’impact
sur la rémunération que la durée des études des hommes.
Soit les résultats d’une estimation économétrique :
yt  32,95  1, 251xt  et
n  20
R 2  0, 23
ˆ  10, 66

Question 1 : À partir des informations connues, on demande de retrouver
les statistiques suivantes : la Somme des Carrés de Résidus (SCR), la
Somme des Carrés Totaux (SCT), la Somme des Carrés Expliqués (SCE),
la valeur de la statistique du Fisher empirique (F*) et l’écart type du
coefficient â1 ˆ aˆ1  ?
SCR
ˆ    10, 66  SCR  10, 66   18  2045, 44
2
n2
SCR SCR 2045, 44
R  1
2
 0, 23  SCT    2656, 42
SCT 1 R 2
1  0, 23
SCT  SCE  SCR  SCE  SCT  SCR  2656, 42  2045, 44  610,98
R2 SCE 610,98
F  *
  18  5, 40
1  R  2
 n  2  SCR  n  2  2045, 44
  t   5, 40  t
2
F * *
aˆ1
*
aˆ1  5, 40  2,32
aˆ1 1, 251
ˆ aˆ1  *
  0,54
taˆ1 2,32
Question 2 : Le coefficient de la variable x est-il significativement
supérieur à 1 ?
On pose le test d’hypothèse unilatéral à droite :

H0 : a1  1

 H1 : a1  1
Valeur lue sur la table bilatérale
Sous H0, nous pouvons écrire : de Student
aˆ1  a1 1,25  1
t *
   0,46  t18
0 ,10
 1,734
 aˆ
ˆ1
a
1
0,54
On accepte H0: le coefficient a1 n’est pas significativement

supérieur à 1.

À partir d’un échantillon de 190 observations, on étudie la relation entre la
variable à expliquer yi et la variable explicative xi . À l’aide des informations
fournies ci-dessous reconstituez les huit valeurs manquantes signalées par
VM1, ...VM8.   3,447 et x  38,416
x
Dependent variable : Y
n
ˆ aˆ ˆ aˆ
0 1
Method: Least Squares
Sample: 1 190 * *  
P  value tâ*0
t â0 t â1
Included Observations; 190
â0 Variable Coefficient STD. Error T-Statistic Prob.  
P  value tâ*1
â1 C -4364,928 VM1 -16,61141 0,0000

X VM4 VM3 VM2 0,0000
R2 R-Squard VM5 Mean dependent var VM6 y
S.E. of regression 322,8850 S. D. dependent var VM8 y
ˆ 
Sum squard resid VM7 F-statistic 778,9623
SCR F*
aˆ0 - 4364,928
. 1  ˆ aˆ0  * 
VM  262,7669
t aˆ0 - 16,61141
 VM 2  t  VM 4 ?  *
 *
 778,9623  27,9099
*
aˆ1  ou encore .
VM 2 t aˆ1 F
VM 3 ?
. 3  ˆ aˆ 
 VM
VM 4 ?
 ou encore
1
VM 2 27,9099
ˆ  322,88 322,8850 322,8850
VM 3  ˆ aˆ1      6,8136
190 190
 x n  1 3,447 189
 xt  x   xt  x 
2 2
t 1 t 1
  aˆ1  aˆ1  VM 2 VM 3  27,9099 6,8136  190,1669

.
VM 4 ˆ
a1 t *
ˆ
*
F 778,9623
 .VM 5  R  *   0,8056
2
F  n  2 778,9623 188

 .VM 6  y  aˆ0  aˆ1 x  -4364,928 VM4  x
 -4364,928 190,166938,416  2940,5236
190
 .VM 7   et2  (n  2)ˆ 2  188322,8850  19599888
2
t 1
190
  yt  y  SCR
2
 .VM 8   y  t 1

SCT
 1  R 2
n 1 n 1 n 1
VM 7 19599888
1  0,850
 1  VM 5   831,4770
n 1 189

Exercice
On cherche à appréhender une relation entre deux variables
quantitatives :
Variable à expliquer Variable explicative
Y X
1 22 20
2 18 20
3 17 16
4 27 32
5 32 27
6 28 18
7 40 28
8 18 11

Questions
1. Représenter graphiquement le nuage des points et donner le
modèle de régression yî  aˆ0  aˆ1 xi par le méthode des moindres
carrées. Interpréter le résultat.
2. Calculer les différents dispersions selon la loi des écarts.
3. Déterminer le coefficient de détermination et le coefficient de
corrélation.
4. Représenter l’analyse de la variance et le test Fisher
5. S’assurer à l’aide d’un test de Student que la propension
marginale est significativement différente de zéro.
6. Déterminer l’intervalle de confiance du paramètre a0.
7. Prévision de la variable dépendante pour la valeur x9 = 34 et
l’intervalle de prédiction de cette prévision.

1. Influence de la variable X sur la variable Y
45
40
la production
35 y = 0,8206x + 7,6074
30
25
20
15
10
5
0
0 5 10 15 20 25 30 35
les déchets

xt yt  xt  x   yt  y   xt  x  yt  y   xt  x   yt  y 
2 2
yt  y
ˆt et et2
1 20 22 -1,50 -3,25 4,875 2,25 10,56 24,019 -2,02 4,08
2 20 18 -1,50 -7,25 10,875 2,25 52,56 24,019 -6,02 36,23
3 16 17 -5,50 -8,25 45,375 30,25 68,06 20,737 -3,74 13,96
4 32 27 10,50 1,75 18,375 110,25 3,06 33,866 -6,87 47,14
5 27 32 5,50 6,75 37,125 30,25 45,56 29,763 2,24 5,00
6 18 28 -3,50 2,75 -9,625 12,25 7,56 22,378 5,62 31,61
7 28 40 6,50 14,75 95,875 42,25 217,56 30,584 9,42 88,66
8 11 18 -10,50 -7,25 76,125 110,25 52,56 16,634 1,37 1,87
Somme 279 340,00 457,50 228,56
Moyenne 21,50 25,25 SCT SCR
Toutes les colonnes du tableau sont nécessaires

pour estimer tous les paramètres.

Calculons tout d’abord les deux estimations de â0 et â1 :
8
Cov  X , Y    x  x  y  y 
t t
279
aˆ1   t 1
  0,82
Var  X  8
x  x 
2 340
t
t 1
et aˆ0  y  aˆ1 x  25,25  0,82×21,25  7,62
Donc, l’équation de la droite qui représente le mieux les relations entre

le pourcentage de déchets et la production est : yî  7,62 + 0,82 xi
Ce résultat peut être interprété comme suit :
À l’origine (x = 0), la variation de y s’élève à 7,62 ;
Une unité supplémentaire de x génère un supplément de y de

0,82

2. Loi des écarts ou encore la relation fondamentale d’analyse de la
variance met l’accent sur la relation entre :
 l’erreur associée à l’hypothèse nulle (mesurée par SCT) : SCT est la
dispersion totale des yi (somme des carrés des écart des observations yi
8
par rapport à la moyenne y ) SCT    yi  y   457,50
2
i 1
 l’erreur associée à l’hypothèse alternée «Y dépend de X » (mesurée par
SCR) : SCR est la dispersion résiduelle (somme des carrés des écart
des observations yiet les valeurs estimées yˆ i par le modèle)
8 8
SCR    yi  yî    et2  228,56
2
i 1 i 1
Ainsi, la dispersion expliquée somme des carrés des écart des valeurs
estimées yˆ i par le modèle par rapport à la moyenne y s’élève à 228,94 en
8
SCE    yî  y   SCT  SCR  228,94
2
effet,
i 1
3. Coefficient de détermination (indicateur de la qualité de la
représentation) : mesure le pouvoir explicatif du modèle en évaluant le
pourcentage de l’information restituée par le modèle par rapport à la
qualité d’information initiale,
SCE SCR 228,56
R2   1  R2  1   R 2  0,5004
SCT SCT 457,50
Le modèle yî  7,62 + 0,82 xi restitue 50,04 % de l’information totale
sur la variable Y.
Coefficient de détermination multiple (coefficient de corrélation) :
indicateur couramment utilisé. Il existe plusieurs formules pour le calcul
Cov  X , Y  
de R R  R2 ; R  ; R  aˆ1 X ; r  signe  aˆ1  R
 XY Y
Selon l’exemple : R  R 2  R  0,5004 R  0, 7074
Ce qui implique l’existence d’une forte relation linéaire positive sur les
données observées entre les deux variables traitées. Mais attention : un
coefficient très élevé calculé sur un peu de données est moins significatif
qu’un coefficient plus faible mais calculé sur un grand nombres de
données !
• Coefficient de détermination ajusté : Sur un échantillon de petite taille,
il est préférable d’introduire le nombre de variable explicatives k dans la
formule de R2, soit donc Ra2
l’indicateur qui élimine l’explication du
phénomène dû au hasard par les variables explicatives.
SCR n  k  2 228,56 6
Ra2  1   Ra2  1   Ra2  0, 4171
SCT n  1 457,50 7
Le pouvoir explicatif du modèle yî  7,62 + 0,82 xi est seulement 41,71 %.
Sortie EXCEL :

4. Validité globale du modèle, Analyse de la variance pour la
régression et le test de Fisher : Permet d’introduire la taille de l’échantillon
dans l’appréciation de la qualité de l’ajustement :
Degrés Moyenne la valeur

Source de Sommes des
de des Fisher
variation
liberté
carrées
carrées
théorique lue
8 sur la table de
 ( yˆ
MCE R2
 y )2 
F    n  2 Fisher-Snédécor
Régression 1 t
228,94 MCR 1  R2
t 1
linéaire 228, 94 à un seuil de
F   6,01
 228,94 38,10 confiance α :
8
n2  6 
(y t  yˆt ) 2 F1,n2   F10,,605  5,99
Résidu t 1 38,10
 228,56 il y’a 5 chances sur 100 de trouver un F
8 observé supérieur à 5,99 lorsque, dans la
n 1  7 
( yt  y ) 2
population totale des observations
Total t 1
 457, 50 possibles, aucune relation n’existe entre

les deux variables.
*
Ainsi, on compare la valeur empirique F avec la valeur théorique :
Pour α = 5%, F *  6,01  F10,,605  5,99 c’est-à-dire, dans l’ensemble le modèle
est significatif. Mais attention, les deux valeurs sont proches !
Tests de signification global e du modèle yî  7,62 + 0,82 xi i  1, ,8
pour   5% on a : F10,,605  5,99 On rejette l’hypothèse nulle :

F *  F10,,605
F *  6,01  t6 2  
 2
 2,4848
2
p  value  
0,025  0,05 Mais attention :
p  value   6,01  5,99   0,05
8,81  5,99
p  value  
p  value  0,049822  5 %

5. Validité de la propension marginale et Test de Student :
On définit l’écart-type des erreurs du modèle avec : ˆ  ˆ2
1 n 2 SCR 228,56
ˆ  
2
 t n2
n  2 t 1
e   ˆ 2
 
6
 38, 09  ˆ   6,17
On définit l’erreurs standard sur â0 avec : ˆ aˆ  ˆ aˆ

2
0 0
 
 x2   1 21,502 
2 1
ˆ aˆ0  ˆ    n
2
  ˆ aˆ0  38, 09  
2
  56,55  ˆ aˆ  7,52
n 2 
8 340 
  
0
 xt  x 
 t 1 
On définit l’erreurs standard sur â1 avec : ˆ aˆ  ˆ a2ˆ 1 1
ˆ2 38, 09
ˆ 
2
aˆ1 n
 ˆ a2ˆ1   0,11  ˆ aˆ  0,33
x  x 
2 340 1
t
t 1

aˆ1  a1 0,82
Sous l’hypothèse nulle H 0 : a1  0 on a : t *
aˆ1   2, 4848
ˆ aˆ1 0,33
tâ*1 est le nombre d’écarts-type qui séparent la valeur observée de 0.
pour   5% on compare tâ* avec la valeur de Student tabulée :
1

ta*ˆ1  2,4848  t6 2  2,447
On rejette ainsi H0.
On peut calculer la p-value par interpolation linéaire :
0, 02  0, 05
   
p  value ta*ˆ1  2 P T  ta*ˆ1 
3,143  2, 447
 2, 4848  2, 447   0, 05  0, 048    0, 05
On peut encore calculer l’intervalle de confiance : il y a 95% de chance

pour que le coefficient a1 soit dans cet intervalle :
 aˆ 
 0,01;1,62
 
a1  0  IC aˆ1 1   aˆ1 t 6 ; a1   aˆ1 t 6
ˆ 2
ˆ ˆ 2

aˆ0  a0 7,62
6. Sous l’hypothèse nulle H 0 : a0  0 on a :t  ˆ 
*
aˆ0  1,0133
 aˆ0 7,52
t â*0 est le nombre d’écarts-type qui séparent la valeur observée de 0.
pour   5% on compare tâ* avec la valeur de Student tabulée :
0

t *
aˆ0  1,0133  t6 2  2,447
On accepte ainsi H0.
On peut calculer la p-value par interpolation linéaire :
0,30  0,50
   
p  value ta*ˆ0  2 P T  ta*ˆ0 
1,134  0, 718
1.0133  0, 718  0,50  0,358    0, 05
On peut encore calculer l’intervalle de confiance : il y a 95% de chance

pour que le coefficient a0 soit dans cet intervalle :
 aˆ 
 ˆ aˆ0 t6 2 ; aˆ 0  ˆ aˆ0 t6 2   10,78;26,02
 
a0  0  IC aˆ0 0

Sortie EXCEL
Légère différence de calcul due au arrondies
7. Le modèle est globalement significatif (mais on se trouve dans une zone

critique). Pour x9 = 34 on aura :
yˆ39  7,62 + 0,82  34   35,5

Espérance nulle et normalité
et
ˆ et
Le modèle estimé de régression linéaire simple est : yî  7, 61  0,82 xi i  1,8

Il suffit de remplacer les xi dans l’équation pour calculer les valeurs prédites.
Le résidu est calculé via la formule : et  yt  yˆt
SCR n2
Soit ˆ e   ˆ   5, 71409138 un estimateur sans biais de la
t
n 1 n 1 et
variance des et. On suppose la normalité des résidus N  0,1
ˆ et
Exercice
On cherche à appréhender une relation entre deux variables quantitatives à
savoir le PIB (en tant que variable à expliquer) et le montant des dépenses
de la dette (en tant que variable explicative) :
PIB Montant des dépenses de
Années
(Millions de DH) la dette (Millions de DH)
2001 426 402,00 20 467,30
2002 397 781,90 18 297,97
2003 419 485,20 15 520,95
2004 505 015,00 17 170,51
2005 527 679,00 17 413,41
2006 577 344,00 18 475,01
2007 616 254,00 19 103,87
2008 688 843,00 18 598,76
2009 732 449,00 17 578,78
2010 764 031,00 17 572,71
2011 808 607,00 18 597,96
2012 828 169,00 19 876,06

Questions
1. Représenter graphiquement le nuage des points et donner le
modèle de régression y  a0  a1 x par le méthode des moindres
carrées. Interpréter le résultat.
2. Calculer les différents dispersions selon la loi des écarts.
3. Déterminer le coefficient de détermination et le coefficient de
corrélation.
4. Représenter l’analyse de la variance et le test Fisher
5. S’assurer à l’aide d’un test de Student que la propension
marginale est significativement différente de zéro.
6. Déterminer l’intervalle de confiance du paramètre a0.
7. Prévision de la variable dépendante pour la valeur x = 34 et
l’intervalle de prédiction de cette prévision.

Annexe
L’utilitaire d’analyse sous Excel
• L’Utilitaire d’analyse est un complément (macro complémentaire : programme
complémentaire qui ajoute des commandes personnalisées ou des fonctions
personnalisées à Microsoft Office.)
• Cliquez sur le bouton Microsoft Office , puis sur Options Excel.
• Cliquez sur Compléments, sur Gérer, puis sur Compléments Excel.
• Cliquez sur Ok.
• Dans la zone Macros complémentaires disponibles, activez la case à cocher
Utilitaire d’analyse, puis cliquez sur OK.
• Si vous recevez un message vous indiquant qu’il n’est pas installé sur votre
ordinateur, cliquez sur Oui pour l’installer.
• Une fois l’Utilitaire d’analyse chargé, la commande Analyse des données
apparaît dans le groupe Analyse de l’onglet Données.
151
La régression linéaire et l'utilitaire
d'analyse d'Excel
xt : revenu moyen par habitant Années yt xt
yt : consommation 1 7 389,99 8 000,00

2 8 169,65 9 000,00
3 8 831,71 9 500,00
4 8 652,84 9 500,00
Étude de la régression linéaire en utilisant 5 8 788,08 9 800,00
6 9 616,21 11 000,00
« l'utilitaire d'analyse d'Excel » 7 10 593,45 12 000,00
8 11 186,11 13 000,00
9 12 758,09 15 000,00
10 13 869,62 16 000,00
Exercice page 12 du manuel « Économétrie »,
RÉGIS BORBONNAIS

Variable X 1 Graphique des
résidus
400
Résidus
200
0
0,00 5 000,00 10 000,00 15 000,00 20 000,00
-200
Variable X 1
Répartition des probabilités

15000
10000
Y
5000
0
0 20 40 60 80 100
Variable X 1 Courbe de régression Centile
16 000,00
14 000,00
12 000,00
10 000,00
8 000,00
Y
6 000,00 Y
4 000,00 Prévisions pour Y
2 000,00
0,00
0,00 5 000,0010 000,0015 000,0020 000,00
Variable X 1

B4 : Coefficient de détermination multiple R  R 2  0,99789618672873
En régression linéaire simple, R est exactement le coefficient de corrélation linéaire r
B6 : Coefficient de détermination R2 . Il exprime la part de la variation expliquée par le

modèle dans la variation totale.
SCE SCR C 39130928, 8
R2   1 R 2  16   0,995796799488
SCT SCT C18 39296098,18
B8 : Coefficient de détermination R2 ajusté . Il dépend du nombre de variables explicatives

n  1 SCR 9 165169, 3825
Ra2  1   1  0, 995271399
n  2 SCT 8 39296098,18
B8 : Erreur type, c’est l’estimation par

n
B11 : taille de l’échantillon e t

2
SCR C17 165169, 3825
ˆ   t 1
   =143,6877615265
n2 n2 B11  2 8

B16 : degré de liberté est 1
B17 :degré de liberté est n-2 (n étant la taille de l’échantillon B11)
B18 : degré de liberté é est n - 1 = 1+ n - 2
C16 : somme des carrés expliquée par la régression SCE=   y

ˆt  y
2
n t=1
C17 : somme des carrés résiduelle SCR=   yt  yˆ t 

2
n t=1
C18 : somme des carrés totale SCT=   y t  y  =SCE  SCR
2
t=1
D16 : Moyenne de somme des carrés expliquée

SCE C 39130928, 8
MCE   16   39130928, 8
1 B16 1
D17 : Moyenne de somme des carrés résiduelle
SCR C 165169, 3825
MCR   17   20646,17282
n2 B17 8
La variable aléatoire F suit la

loi de Ficher pour degrés de
liberté 1et n-2
E16 : Fischer calculé 
p-value  2  P Tn  2  ta*ˆ1 
MCE D 39130928, 8
F*   16   1895, 311501 p-value  8,5489 10-11
MCR D17 20646,17282
à comparer avec α
R2
F   n  2

1  R2
B22 :
aˆ0  1176,089634
D22 :
aˆ0 B

E22 : p  2  P Tn  2  ta*ˆ0  G22 ou I22 :
t 
*
 22
 2  P Tn  2  5, 67 
aˆ0 ˆ aˆ0
B23 : C22 aˆ0  tn/22ˆ aˆ0
aˆ1  0,780982745 taˆ0  5, 673920575
 0, 00046
G23 ou I23 :
aˆ1  tn/22ˆ aˆ1

D23 :
 
Donc
B23
ˆ
ta*ˆ1  âa1ˆ   F* E23 : p  2  P Tn  2  ta*ˆ1
yˆt  aˆ0  aˆ1 xt 1
C23
taˆ1  43,53517545  2  P Tn  2  43,53
 8,541011
C22 : écart-type empirique, c’est l’estimation de
l’écart type de l’estimateur â0 ou erreur type de â0
1 x2 
ˆ a2ˆ0  ˆ 2   n   207, 3920575
n 2 


t 1
 xt  x  

C23 : écart-type empirique, c’est l’estimation de
l’écart type de l’estimateur â1 ou erreur type de â1
ˆ 2
ˆ a2ˆ1  n 
 0, 01793912
  xt  x 
2
t 1
Utiles pour déterminer les intervalles de confiances

B29 : les prévisions pour Y
donnent les valeurs estimées C29 les résidus sont obtenus
de la variable expliquée par la formule ,
yˆ t  aˆ0  aˆ1 xt et  yt  yˆt
avec avec
B22  aˆ0  1176,089634 B22 : B40  yˆt
B23  aˆ1  0,780982745 yt observées
10
xt données
e
t 1
t 0
SCR n2
ˆ e   ˆ   135, 4701208
t
n 1 n 1
et C31 : C40
D31:D40 Résidus normalisés  
ˆ et ˆ et
Test de la normalité des résidus : dans une loi normale, 95 % des observations sont situés à moins de

Sortie EVIEWS
ˆ aˆ0
ˆ aˆ 1
t â*0 tâ*1
n
â0
â1  
P  value tâ*0
*
â1
R2 y
Ra2 y
ˆ 
SCR
F*
 
P  value F *

Variable X 1 Courbe de régression
15 000,00
10 000,00
Le nuage de point de la série doubles
Y
Y
5 000,00
Prévisions pour Y
0,00
0,00 5 000,0010 000,0015 000,0020 000,00
Variable X 1
Le nuage de point des résidus autour de Variable X 1 Graphique des résidus

300
leur moyenne nulle
200
Résidus
100
0
0,00 5 000,00 10 000,00 15 000,00 20 000,00
-100
-200
Variable X 1
Répartition des probabilités

15000
10000
Y
5000
0
0 20 40 60 80 100
Centile
161
Table de la loi de Laplace-Gauss
Probabilité de trouver une valeur inférieure à z
P( z )  P  Z  z   1  p
Exemple :
z
P(1,96)  P  Z  1,96   0,975  1  0.025
P(1, 65)  P  Z  1, 65   0,95  1  0.05

z
Table bilatérale de la loi T de Student
Valeurs de T ayant la probabilité P d’être dépassées en valeur absolue
P  T  t   1 p
Exemple:
P  T8  2,306   0, 05 P T  t  p
 PT8  2,306  0,025 P T  t  
p
2
Loi de Fisher-Snédécor
P( F  t )  p
Exemple :
P( F  3,92)  0,05  F(10,,120

05
)  3,92

Chapitre 2 :
Le modèle de régression linéaire multiple
I. Le modèle linéaire général
A. Présentation
B. Forme matricielle
II. Estimation et propriétés des paramètres
A. Estimation des coefficients de régression
B. Hypothèses et propriétés des estimateurs
C. Équations d’analyse de la variance et qualité
d’ajustement

III. Les tests statistiques
A. Le rôle des hypothèses
B. Conséquences de l’hypothèse de normalité des
erreurs
IV. L’analyse de la variance

A. Construction du tableau d’analyse de la variance
B. Autres tests à partir du tableau d’analyse de la
variance
V. L’utilisation des variables indicatrices

A. Construction et finalités des variables indicatrices
B. Exemples d’utilisation
VI. La prévision à l’aide du modèle linéaire
général et la régression récursive
A. Prédiction conditionnelle
B. Fiabilité de la prévision et intervalle de
prévision
C. Les tests de de stabilité par la régression
récursive
Exercices récapitulatifs

I. Le modèle linéaire général
Présentation : Le modèle linéaire général à k variables explicatives
s’écrit : pour t  1, ,n
yt  a0  a1 x1t  a2 x2t   ak xkt   t
n : Nombre d’observations (taille de l’échantillon)
yt : Variable quantitative à expliquer au temps t. Elle est entachée
d’une erreur additive ɛt
x1t : Variable certaine quantitative ou binaire explicative 1 au temps t
….
xkt : Variable certaine quantitative ou binaire explicative k au temps t
a0, a1, …,ak : Paramètres du modèle
ɛt : Erreur de spécification (différence entre le modèle vrai et le
modèle spécifié), cette erreur de nature aléatoire est inconnue et
restera inconnue. Elle suit une loi de probabilité.
Forme matricielle
 y1  a0  a1 x11  a2 x21  ak xk 1  1
y  a0  a1 x12  a2 x22  ak xk 2   2
 2
Pour t  1, ,n 


 yt  a0  a1 x1t  a2 x2 t  ak xkt   t



 yn  a0  a1 x1n  a2 x2 n  ak xkn   n
Soit sous forme matricielle :

 y1   1 x11 x21 xk 1   a0   1 
      
 2  1
y x12 x22 xk 2   a1    2 
      
    
 t  1
y x1t x2t xkt   at    t 
      

y         
 n  1 x1n x2 n xkn   ak    n 
   

Y n ,1  X  n , k 1 a k 1,1    n ,1
II. Estimation et propriétés des paramètres
Soit le modèle linéaire général : pour t  1, ,n
yt  a0  a1 x1t  a2 x2t   ak xkt   t
Écrit sous forme matricielle : Y  X a  
Le modèle estimé s’écrit : pour t  1, ,n
yt  aˆ0  aˆ1 x1t  aˆ2 x2t  aˆk xkt  et

Ou le résidu et  yt  y ˆt
Écrit sous forme matricielle Yˆ  Xaˆ
On applique la méthode des Moindres Carrés Ordinaires pour
estimer le vecteur a   a0 a1 ak  . C’est-à-dire, on
T
at
t 1 t

n 2
minimise la somme des carrés des erreurs : Min
a0 , a1 ,, ak
Géométriquement pour le cas de deux variables explicatives, le
modèle de régression présente un hyperplan de dimension 2.
y yt : observation
yˆt  aˆ0  aˆ1 x1t  aˆ2 x2t
yt= a0+a1x1t+a2x2t+εt
â0
et  yt  yˆt
x2
(x1t, x2t)
x1

 1 
 
2 
n  
Min   t2  Min  1 2 t  n     Min  T 
t 1  t 
 
 
n 
n
Min    Min Y  X a  Y  X a   Min S  a0 , a1 , , ak 
2 T
t , at ,
t 1
Or la fonction S peut s’écrire simplement comme :

S  Y  X a  Y  X a 
T
S  Y T Y  Y T Xa  aT X T Y  aT X T Xa
 
T
S Y Y  a X Y
T T T
 aT X T Y  aT X T Xa
S  Y T Y  2aT X T Y  aT X T Xa
S
n n
Condition Nécessaire d’Optimalité : 0  e  0 et  x e  0 i  1,..., k

t 1
t
t 1
it t
Ainsi a
S 
 Y T Y  2aT X T Y  aT X T Xa   2 X T Y  2 X T Xa  0
a a
C’est-à-dire, X T Xaˆ  X T Y
Comme XT X la matrice carrée d’ordre (k+1) des produits croisés des
variables explicatives est symétrique semi-définie positive (pas de colinéarité
parfaite entre deux variables explicatives), alors elle est inversible et on a :
 
1
aˆ  X X T
X TY
â0 étant l’ordonnée à l’origine (toute les valeurs xt sont nulles)
aˆ p étant la variation de y suite à une variation unitaire de la variable xp
tandis que les autres variables sont maintenues constantes (c’est une
propension marginale).

Remarque importante
Les équations normales sont données par : X T Xaˆ  X T Y
Ce qui implique X  Xaˆ  Y   0  X e  0 puisque Y  Xaˆ  e

T T
Ainsi, il existe (k+1) contraintes,

 e1 
 1 1 1 1   0
   e2     n
    
 x11 x12 x1t x1n  0 et  0
 x21 x22 x2t x2 n      0    n
t 1
   et    
       xti et  0 i  1, ,k
x     t 1
 k1 xk 2 xkt xkn     0 
 en 

T
X
Soit la matrice symétrique X donnée comme suit :
 1 x11 x21 xk1 

 1 1 1 1  
   1 x12 x22 xk 2 
 x11 x12 x1t x1n 
 
XTX   x21 x22 x2t x2 n   
   1 x1t x2t xkt 
  
x xkn   
 k1 xk 2 xkt
 1 x1n x2 n xkn 
n

x
1t x 2t x kt


  x1t x x x
2
1t 1t 2 tx x
1t kt 
XTX    x2t x x x 2
x2 t xkt

 2 t 1t 2t

 
 x 
  kt x x  kt 
2
kt 1tx kt x2t x

De plus,  y1 
 1 1 1 1      yt 
   y2   
 x11     1t t 
x12 x1t x1n  x y
X T Y   x21 x22 x2t x2 n       x2t yt 
   yt   
    
x xkn      xkt yt 
 k1 xk 2 xkt
 yn 
D’où, X T X aˆ  X T Y
n

x
1t x2t x kt
  aˆ0    yt 
   
  x1t x x x ˆ   1t t 
2
1t 1t 2 tx x a
1t kt   1  x y
  x2t x x2t x
2
x2 t xkt
  aˆ2     x2t yt 
 1t 2t
   
    
 x   aˆ   x y 
  kt x x  kt   k    kt t 
2
1t xkt 2t xkt x
Cas particulier :
1
• Si les variables sont centrées, alors XTX est la matrice de
n
variance covariance
• Si les variables sont centrées réduites, alors la matrice 1 X T X est la
n
matrice de corrélation.
• Si les variables sont centrées, alors le vecteur 1 X T Y est le vecteur
n
des covariances entre Y et X.
1 T
• Si les variables sont centrées réduites, alors le vecteur n X Y est le
vecteur des corrélation entre Y et X.

En effet, si on travaille avec des données centrées,
n

x
1t x 2t x kt
  aˆ0

   yt 
  
  x1t x x x ˆ    x1t yt
2
1t 1t x2 t 1t kt   a1
x 
  x2 t x x2 t x 2
x 2 t xkt
  aˆ2     x2 t yt 
 1t 2t
   
    

  xkt x
1t xkt x 2t xkt  xkt2   aˆk  
   xkt yt


ce système est équivalent à :

ˆ1  x1t  a
ˆ0  a
na ˆ2  x2t  ˆk  xkt   yt
a
et
  x12t x x2 t x xkt   aˆ1    x1t yt 
   
1t 1t

  x1t x2 t x 2
2t x ˆ
2 t xkt   a2 
   x2 t yt 
    
    
 x x
 1t kt x 2t xkt  xkt   aˆk    xkt yt
2

Ou encore
ˆ0  y  a
a ˆ1 x1  a
ˆ2 x2  a
ˆk xk  y
1
et  aˆ1    x
2
x x x xkt    x1t yt 
ˆ   
1t 1t 2 t 1t
 
 a2     x1t x2t x x   x2t yt
2
2t 2 t kt 
x 
     
     
 aˆk    x1t xkt x  xkt    xkt yt
2
2t xkt 
Si on travaille avec des données centrées, l’estimateur de a s’écrira en

fonction des matrices des variances et covariances empiriques :
1
 aˆ1   var  x1  cov  x1 , x2  cov  x1 , xk    cov  x1 , y  
ˆ     
 a2    cov  x2 , x1  var  x2  cov  x2 , xk    cov  x2 , y  
     
     
 aˆk   cov  xk , x1  cov  xk , x2  var  xk    cov  xk , y  

Hypothèses et propriétés des estimateurs
Soit le modèle linéaire : Y  X a 

Les présentes hypothèses permettent de déterminer les estimateurs
qualifiés de Best Linear Unbiaised Estimator (BLUE) (théorème
de Gauss Markov) à l’aide de la méthode des moindres carrés
ordinaires.
Hypothèses stochastiques (de nature probabiliste, liées à

l’erreur)
Hypothèses structurelles

Hypothèses stochastiques :
(H1) : Les valeurs xit sont observées sans erreur (non aléatoires)
(H2) : E  t   0
l’espérance mathématique de l’erreur est
nulle : en moyenne le modèle est bien spécifié et donc
l’erreur moyenne est nulle
(H3)
2
 
: E  t     cste la variance de l’erreur est constante
2
pour tout t (homoscédasticité des erreurs)
(H4) : E  t  t    0 si t  t  les erreurs sont non corrélées (non-

autocorrélation des erreurs) : une erreur à un instant t
donnée n’a pas d’influence sur les autres erreurs.
(H5) : cov  x ,    0 l’erreur est indépendante des variables
it t
explicatives

Hypothèses structurelles :
(H6) : Absence de colinéarité entre les variables explicatives,

Aucune variable explicative n’est linéairement
dépendantes des autres, c’est-à-dire la matrice X T X est
inversible ou régulière ou non singulière (det  X X   0)
T
(H7) : X T X n tend vers une matrice finie inversible ou non

singulière pour n assez grand
(H8) : n  k 1 le nombre d’observations est supérieur au

nombres des séries explicatives

Propriétés des estimateurs
 
1
Soit l’estimateur aˆ  X X
T
X TY
L’estimateur â est sans biais E  aˆ   a en effet,
  Y
1
aˆ  XT
X X T
Y  Xa  
   Xa   
1
 XT
X X T
    
1 1
 XT
X X Xa  X X X T
T T
 a   X X  X T E    0
1
aˆ T
E  aˆ   a   X X  X T E   
1
T
E  aˆ   a
L’estimateur â est convergent :
Tout d’abord, calculons la matrice des variances et covariances de
l’erreur  , noté   :
  
E  T 
  1  
  
 2
 E    2 n 
  1 

  

 n  
  12 1 2  1 n 
 
  2 1  22  2 n 
 E
 

  

 n 1  n 2  n2 
 E   12  E   1 2  E   1 n  
 
 E    E   22  E   2 n  
   2 1

 
 
 E   n 1 
 E   n 2  E  n  
2

  2 0 0  Hypothèse (H3)
   
E  t2   2  cste
 0  2
 0 

  Hypothèse (H4)
  E  t  t    0 si t  t 
 0 2 
 
 0
   2 I n
D’où,
    I n 2

la matrice des variances covariances des coefficients de régression
 â est symétrique :
 Var  aˆ0  Cov  aˆ0 , aˆ1  Cov  aˆ0 , aˆk  

 
 Cov  aˆ1 , aˆ0  Var  aˆ1  Cov  a1 , ak  
ˆ ˆ
 aˆ 
 
 
 Cov  aˆk , aˆ0  Cov  aˆk , aˆ1  Var  aˆk  

Ainsi,
 
1
aˆ  a  X X T
X T
 E  aˆ  a  aˆ  a  
T
 aˆ
 
 ABC 
 E XTX     
T
 C T BT AT 1 1
X  X X X
T T T
 
AT
T
A
 
 X X  X E   X  X X 
1 1
A symétrique AT  A  T T T T
X X  X  X X X 
1 1
 T T

T
   X X   X X  X X  
2

T
1
T T
1
  
 E  T
   2 I n
 X X 
1
 2

T

 
1
Nous retenons donc, aˆ    X X
2 T
Nous supposerons que :
aˆ 
N  0, aˆ   N 0,   X X 2
 T

1

 
1
ˆ ˆ  ˆ 2 X T X
On peut estimer  â par  avec
a 
n
 t
e 2
e T
e
ˆ 2  t 1
 (voir diapositive suivant)
n  k 1 n  k 1
Où, e  Y  Yˆ
Remarquons que lorsque n est assez grand, ˆ 2 tend vers 0 et par
suite l’estimateur âest convergent.
T
e e
Montrons que ˆ  
2
n  k 1
e  Y  Yˆ   Xa     Xaˆ
  Xa     X  a X X  T

1
X T 
 Xa     X  a   X  
1
 T
X XT
  X X X 
1
 T
X T
I  X   X T 
1
 X X T

 n 

 
Donc, e  
 
1
Avec   I n  X X X T
X T est une matrice carrée
symétrique d’ordre n et idempotente  2     en effet,
   
2
 
In  X X X T

1
X T
 
In  X X XT

1
XT 
     
1 1 1
 In  2 X X X T
X X X X
T T T
X X X X T
XT
 2X  X X  X  X X X 
1 1
 In T T T
XT
 X X X  X
1
 In T T
 
Ainsi,
eT e          T    T 
T
Et par suite
E eT e  E  T     2 tr   

On a E eT e   2 tr   
Trace de la matrice  :

tr     tr I n  X X X  T
 
1
XT
n  tr  X  X X  X 
Variance 1
de l’erreur  T T
n  tr  X X  X X  
1
 T T
Ainsi,
 n  tr  I k 1 
tr     n  k  1
E e e     n  k  1
T 2
n
Alors,
e T
e t
e 2
SCR Y T
Y
ˆ 
2
 t 1
 
n  k 1 n  k 1 n  k 1 n  k 1
Équation d’analyse de la variance et qualité
d’un ajustement
Comme pour la régression linéaire simple, les deux équations :
n
e
t 1
t 0 et y  yˆ
nous permettent d’établir l’équation fondamentale d’analyse de la

variance en but de juger la qualité de l’ajustement :
n n n
  yt  y    yˆt  y   t
2 2
  e 2
t 1 t 1 t 1
SCT  SCE  SCR

On introduit des indicateurs de qualité du modèle sans dimension :
n n
  yˆt  y  t
2 2
e
SCE SCR
R 2
 t 1
n
 1 n
t 1
 1
 y  y  y  y
SCT 2 2 SCT
t t
t 1 t 1
Coefficient de détermination R2
Coefficient de corrélation multiple R
et coefficient de détermination R2a
R2 mesure la proportion de la variance de Y expliquée par la

régression de Y sur X.
n n n
  yˆt  y    yt  yˆt  t
2 2 2
e
SCE SCR
R    1  1  1
2
t 1 t 1 t 1
n n n
 y  y   y  y   y  y 
SCT 2 SCT 2 2
t t t
t 1 t 1 t 1
Dans le cas des données centrées, ce coefficient s’écrit :

Yˆ T ˆ
Y e T
e
R  T  1 T
2
Y Y Y Y
Lorsque le nombre de variables explicatives augmentent (même
s’elles ne sont pas pertinentes), le coefficient de détermination
R2 augmente automatiquement. On doit tenir compte du degré
de liberté (nombres de facteurs explicatifs), d’où le R2 ajusté un
indicateur plus robuste :
SCR
n  k 1  1  n 1 1  R2
R  1
2
a
SCT n  k 1
 
n 1
Bien noté que Ra2  R 2 mais si n est assez grand Ra2 R2
2
R
Attention : ne pas interpréter a en termes de part de variance
expliquée.
(R.B. C3EX1, eco9, page 56)
Soit le modèle à trois variables explicatives :
yt  a0  a1 x1t  a2 x2t  a3 x3t   t
t yt x1 x2 x3
1 12 2 45 121
2 14 1 43 132
3 10 3 43 154
4 16 6 47 145
5 14 7 42 129
6 19 8 41 156
7 21 8 32 132
8 19 5 33 147
9 21 5 41 128
10 16 8 38 163
11 19 4 32 161
12 21 9 31 172
13 25 12 35 174
14 21 7 29 180
Question 1 : Mettre le modèle sous forme matricielle en spécifiant
bien les dimensions de chacune des matrices
L’écriture sous forme matricielle : Y  X a  
Avec,
 12  1 2 45 121   1 
     
 14  1 1 43 132   a0   2 
 10  1 3    3 
43 154   a1 
Y   X  a et    
     a2   
 25  1 12     13 
  
35 174
  a3  4,1
 
 21 14,1 1 7 29 180 14,4  14 14,1

Question 2 : Estimer les paramètres du modèle.
 
1
D’après le cours, aˆ  X X
T T
X Y
Nous devons calculer la matrice symétrique X T
X d’ordre 4 et
 
1
son inverse X T X puis X T Y :
1 2 45 121 
 
 1 1 1 1 1  1 1 43 132 
 
 2 1 3 12 7  1 3 43 154 
X X
T
 
 45 43 43 35 29   
 
121 132 154 174 180  1 12 35 174 
 
1 7 29 180 
n

x 1t x 2t x 3t
  14
 
85 532 2094 

X X
T   x1t x 2
1t x x
1t 2 t x x
1t 3t 

85 631 3126 13132 
  x2t x x x 2
x 2 t x3t
  532 3126 20666 78683 
 1t 2 t 2t
  
  x3t x x x 2
1t 3tx x
2 t 3t 3t   2094 13132 78683 317950 
Ainsi, 1
 14 85 532 2094 
 
X 
1 85 631 3126 13132
T
X  
 532 3126 20666 78683 
 
 2094 13132 78683 317950 
 20,168645 0, 015066 0, 231450 0, 076175 
 
0, 000940 
X 
1
 0, 015066 0, 013205 0, 001194
T
X 
 0, 231450 0, 001194 0, 003635 0, 000575 
 
 0, 076175 0, 000940 0, 000575 0, 000401 
puis  12 
 
 1 1 1 1 1   14    yt   248 
     
 2 1 3 12 7   10    x1t yt   1622 
X Y
T
  
 45 43 43


35 29  
   
 x y
2t t

 
 9202 

121 132 154 174 180  25
  
 3t t  
x y 37592 
 21 
aˆ   X T X  X T Y
1
 20,168645 0, 015066 0, 231450 0, 076175   248 

  
0, 015066 0, 013205 0, 001194 0, 000940   1622 
aˆ  
 0, 231450 0, 001194 0, 003635 0, 000575   9202 
  
 0, 076175 0, 000940 0, 000575 0, 000401   37592 
 32,89132428 
 
0,80190068
aˆ   
 0, 38136236 
 
  0, 03713243 
Soit donc, aˆ0  32,89132428 aˆ1  0,80190068
aˆ2  0, 38136236 aˆ3  0, 03713243
Ainsi,
yˆt  32,89  0,80 x1t  0,38 x2t  0, 04 x3t
Question 3 : Calculer l’estimation de la variance de l’erreur ainsi
que les écarts types de chacun des coefficients.
Calculons tout d’abord ˆ  , soit la formule :
2
eT e

ˆ 2

n  k 1
avec e  Y  Yˆ
Soit donc en calculant les résidus et (voir la diapositive suivante) :
n n
 t
e 2
 t
e 2
ˆ 2  t 1
 t 1
 6,745
14  3  1 10

yˆt  32,89  0,80 x1t  0,38 x2t  0, 04 x3t
t yt x1 x2 x3 ˆt
y et et2
1 12 2 45 121 12,84 -0,84 0,71
2 14 1 43 132 12,39 1,61 2,58
3 10 3 43 154 13,18 -3,18 10,11
4 16 6 47 145 14,39 1,61 2,58
5 14 7 42 129 17,70 -3,70 13,67
6 19 8 41 156 17,88 1,12 1,26
7 21 8 32 132 22,20 -1,20 1,44
8 19 5 33 147 18,86 0,14 0,02
9 21 5 41 128 16,51 4,49 20,14
10 16 8 38 163 18,76 -2,76 7,63
11 19 4 32 161 17,92 1,08 1,17
12 21 9 31 172 21,90 -0,90 0,81
13 25 12 35 174 22,71 2,29 5,27
14 21 7 29 180 20,76 0,24 0,06
somme 0,00 67,45
Maintenant, déterminons la matrice des variances et covariances
estimées des coefficients de la régression linéaire : soit la formule
 
1
ˆ ˆ  ˆ 2 X T X
 a 
Donc
 20,168645 0, 015066 0, 231450 0, 076175 
 
ˆ  0, 015066 0, 013205 0, 001194 0, 000940 
aˆ  6,745 
 0, 231450 0, 001194 0, 003635 0, 000575 
 
 0, 076175 0, 000940 0, 000575 0, 000401 
Ainsi, ˆ aˆ  6,745  20,168645  11,66

0
ˆ aˆ  6,745  0, 013205  0,30

1
ˆ aˆ  6,745  0, 003635  0,16

2
ˆ aˆ  6,745  0, 000401  0,05

3

Question 4 : Calculer le R2 et le R2 ajusté.
Soit les deux formules :

n n
  yˆt  y  t
2 2
e
n 1
R2  t 1
n
 1 n
t 1
et Ra2  1 
n  k 1
1  R2 
 y  y  y  y
2 2
t t
t 1 t 1
Par un simple calcul,

n n
 e  67, 45   yt  y 
2
2
t  226, 86
t 1 t 1
67,45
R  1 2
 0,7027  70,27%
226,86
D’où,
Ra  1  1  R 2   0,6135
2 13
10
III. Les tests statistiques
On suppose que    iid et   N  0,   Donc,
et
2  N  0,1
t t t  
ˆ  ˆ ˆ ˆ
2 2 2 2 n
Ainsi,  2  2 
aˆ0 aˆ1
 2
aˆk
 t
e 2
Donc,
  n  aˆ
2
 aˆ  aˆ ˆ 2  t 1
n  k 1

0 1 k
2
e
ˆ aî
2
 et  
2
n t
ˆ 2
 

t 1   
  t 1
 2
  n  k  1


2
  n  k  1
 2
  2
n  k 1
  aî
On est en présence d’une somme au carré de (n-k-1) variables
aléatoires indépendantes normales centrées réduites (on a k+1
n n
contraintes

t 1
e  0 et
t 
x e 0
t 1
it t
î  ai
a
î  ai
a  aˆ
 i
 Tn  k 1
ˆ aî ˆ 2
 n  k  1 î
a
 n  k  1
 2
î
a
208
On montre facilement,
2 2
 aˆ0  a0   aˆk  ak 
 aˆ  a    aˆ  a   
1
   k 1
T
   2
aˆ
 ˆ aˆ   ˆ aˆ 
 0   k 
la somme au carré de (k+1) variables aléatoires normales centrées
réduites, en effet :
 aˆ0  a0 
 
aˆ  a T  aˆ1 aˆ  a   aˆ0  a0  aˆ k  ak  aˆ   
1
 aˆ  a 
 k k 
 ˆ a0 0 0   ˆ a0
 0  0  aˆ0  a0 
     ˆ a0 
 aˆ0  a0 
aˆ k  ak       1       
   
 ˆ a ˆ ak       aˆ       aˆ  a 
 0    k k 
 0  0 ˆ ak   0  0 ˆ ak  ˆ ak 
 

Avec, D une matrice diagonale :
 aˆ 0  a0 
 ˆ a0 
 aˆ 0  a0 
aˆ k  ak  1  
aˆ  a   aˆ  a   
T 1
aˆ 

D aˆ D  
 ˆ a0 ˆ ak   aˆ k  ak 
 ˆ ak 
 
 
1
1 1 1
Or, D  D  D aˆ D
aˆ
 ˆ aˆ01 0 0  ˆ a2ˆ0 cov  aˆ1 , aˆk  cov  aˆ0 , aˆk   ˆ aˆ01 0 0 

   
 0  cov  aˆ1 , aˆk   0 
  I k 1
0  cov  aˆk 1 , aˆk   0 
   
 0 0 ˆ  1  cov  aˆ0 , aˆk  ˆ aˆk
2  0 0 ˆ  1 
 ˆ
a k   ˆ
a k 
1 1
D’où, D aˆ D  I k 1
Ainsi,
 aˆ0  a0 ˆ aˆ0 
 aˆ0  a0 aˆk  ak   
 aˆ  a    aˆ  a   
1
T
 
aˆ
 ˆ aˆ ˆ aˆk  
 0
aˆ  a ˆ 
 k k ˆ
a k 
2 2
 aˆ0  a0   aˆk  ak 
 aˆ  a    aˆ  a   
1
   k 1
T
   2
aˆ
 ˆ aˆ   ˆ aˆ 
 0   k 
En remplaçant  â la matrice des variances covariances théoriques

 
1
ˆ
des coefficients par son estimateur   ˆ X X on obtient :
2 T
aˆ 
1
a  a   aˆ aˆ  a   Fk 1,nk 1
ˆ T ˆ 1
k 1

En effet,
1 1
1
k 1
 aˆ  a  ˆ aˆ 1  aˆ  a 
T

1
k 1
T  2

 aˆ  a  ˆ  X X   aˆ  a 
T

1 1
  X  aˆ  a 
T
 ˆ
a  a X T
k  1 ˆ 2
1  2 T 1
  ˆ
a  a  X T
X  aˆ  a 
k  1 ˆ 
2
2
1

 2 X T X  
1
 aˆ  a   aˆ  a 
T
  
 k 1
 ˆ 2
 n  k  1 2
2
k 1
k 1 
 n2 k 1 n  k 1
n  k 1  aˆ  a   aˆ 1  aˆ  a 
T
 k 1  F
 k 1, n  k 1
ˆ 2
 n  k  1 2

Pr. Amale LAHLOU S5 : Sciences Economiques n  k 1 212
Construction des tests
Test de conformité à un standard bilatéral ou unilatéral
Comparaison d’une valeur ai à une valeur fixée a
Soit le test d’hypothèse bilatéral : H0 : ai  a

aî  ai  H1 : ai  a
On a  Tn  k 1
ˆ aî
aî  ai aî  a
Sous l’hypothèse nulle,   ta*î
ˆ aî ˆ aî
Critère de décision :

si t
*
aî  tn2 k 1 ou encore   p  value nous rejetons l’hypothèse H0,
ai est significativement différent de a au seuil de α

Si t  tnk 1 ou encore  p  value nous acceptons l’hypothèse H0,
* 2
aî
ai n’est pas significativement différent de a au seuil de α

Test de signification : comparaison d’une valeur ai à la valeur
nulle
L’hypothèse nulle d’un test bilatéral : H 0 : ai  0 (on ne prend
pas la constante a0 ). Sous l’hypothèse nulle,
aî  ai aî le ratio de Student.
  ta*î
ˆ aî ˆ aî

Si t  tn2 k 1 alors, ai est réellement significativement contributive
*
aî

pour expliquer la variable endogène au seuil α Mais si taî  tn2 k 1
*
On doit éliminer cette variable du modèle et ré-estimer les

coefficients du modèle (la cause est due soit à l’absence de
corrélation avec la variable endogène soit à l’existence d’une forte
colinéarité avec une des variables exogènes)
Intervalle de confiante au niveau (1-α) :
On a, aî  ai
 Tn  k 1
ˆ aî
L’intervalle de confiance est donnée par :

P Tnk 1  tnk 1  1   
  
P  tn2 k 1  Tnk 1  tn2 k 1  1   
  aî  ai 
Soit encore, 
P  t n  k 1 
2
 t n  k 1   1  

2
 ˆ 
 ˆ
a i 
Ainsi,  
2


P aî  t n  k 1ˆ aî  ai  aî  ˆ aî t n 2 k 1  1  
  
IC ai  aî  t n  k 1ˆ aî ; aî  ˆ aî t n 2 k 1
2

Test de conformité ensembliste : Comparaison d’un ensemble de
paramètres à un ensemble de valeurs fixées
On test simultanément l’égalité d’un sous-ensemble de coefficients

de régression à des valeurs fixées. Soit le test d’hypothèse bilatéral:

H0 : a q   a q 

 H : a q   a q 
 1
Avec q le nombres de coefficients retenus. Comme
1
aˆ  a T ˆ aˆ1 aˆ  a   Fk 1,nk 1
k 1
aq   aq   aˆq ,q aˆq   aq    Fq,nk 1
Alors, 1 T ˆ 1
ˆ
q
ˆ ˆ 1 est la matrice des variances covariances au coefficients retenus
 a  q  ,q
Sous l’hypothèse nulle :
1
aˆq   aq  T ˆ aˆ1q ,q aˆq   aq    F*q,nk 1
q
si F*q ,nk 1  Fq ,nk 1 on rejette H0
Intervalle de confiance de la variance de l’erreur un niveau (1-α)%
 (n  k  1)ˆ 2 (n  k  1)ˆ 2 
IC 2   
; 

  n k 1, 2  nk 1,1 2 
 2 2
En effet,
 (n  k  1)ˆ 2 ( n  k  1 )ˆ 2 
P  
  2
  
 1
Avec,   n k 1;
2 
 2 
 2 n  k 1;1 2 


P 2
 n  k 1  2
 n  k 1, 2  2

et P  2
 n  k 1  2
 n  k 1,1 2   1 2


Y X1 X2 X3
12 2 45 121
14 1 43 132
10 3 43 154
16 6 47 145
14 7 42 129
19 8 41 156
21 8 32 132
19 5 33 147
21 5 41 128
16 8 38 163
19 4 32 161
21 9 31 172
25 12 35 174
21 7 29 180
Soit donc : yˆ t  32,89  0,80x1t  0,38x2t  0,03x3t

Question 1 : Les variables explicatives sont-elles significativement
contributives pour expliquer la variable endogène ?
Soit les trois tests d’hypothèses :

 H 0 : a1  0  H 0 : a2  0  H 0 : a3  0
  
 1
H : a 1  0  1
H : a2  0  H1 : a3  0
Nous calculons les trois ratios de Student empirique :
aˆ1 0,80
t *
aˆ1    2,75
ˆ aˆ1 0,29
aˆ 2 0,38
t *
aˆ 2    2,53
ˆ aˆ2 0,15
aˆ3 0,03
t *
aˆ 3    0,60
Les seuils choisis seront de 5 %. ˆ aˆ3 0,05

t a*ˆ1  2,75  2,228  t100,025  a1  0
t *
aˆ 2  2,53  2,228  t 0 , 025
10  a2  0
t a*ˆ3  0,60  2,228  t100,025  a3  0
Donc, les deux variables explicatives x1 et x2 sont

significativement contributives à l’explication de la variable
endogène y tandis que la variable explicative x3 n’est pas
significativement contributive. On doit retirer cette dernière
variable du modèle et ré-estimer les coefficients du modèle.

Pour encore mieux voir, déterminons les intervalles de confiances
à 95 % de chacun des coefficients :
IC a1  1 aˆ  t  /2
ˆ ; ˆ
a
n  k 1 aˆ1
1  t n  k 1 aˆ 
 /2
ˆ 1
 0,80  2,228 0,29;0,80  2,228 0,29  0,15;1,44

IC a2 aˆ2  tn/k21ˆ aˆ ; aˆ2  tn/k21ˆ aˆ 
2 2
0,38  2,228 0,15;0,38  2,228 0,15   0,71;0,04

IC a3 
aˆ3  t n/k21ˆ aˆ ; aˆ3  tn/k21ˆ aˆ
3 3

0,03  2,228 0,05;0,03  2,228 0,05   0,14;0,08
On remarque que :
0  ICa1 ; 0  ICa2 et 0  ICa3
Ce qui confirme le fait que la variable explicative x3 n’est pas
contributive .

Question 2 : Le coefficient a1 est-il significativement inférieur à 1 ?
H0 : a1  1
Soit le test d’hypothèse unilatéral à gauche : 
 H1 : a1  1
aˆ1  a1 aˆ1  1 0,80  1

Sous l’hypothèse nulle :    0,68  t100,05  1,812
ˆ aˆ1 ˆ aˆ1 0,29
On accepte donc H0 : a1 est bien significativement inférieur à 1
Question 3 : Le coefficient a1 et a2 sont-ils simultanément et
significativement différents de 1 et -0,5 ?
Soit le test d’hypothèse bilatéral :   a1   1 
H0 :   
  2 
a 0, 5 

H  a1   1 
 1 :   
  2 
a  0, 5 
Sous l’hypothèse nulle on a :
 1   0,80 
q  2 ; aq    ; aˆq   
 0,5   0,38 
ˆ  0, 013205 0, 001194  ˆ 1  11,571983 3,801060 
aˆq  6,745     aˆq   
 0, 001194 0, 003635   3,801060 42, 034791 
Donc,
 aˆ q   aq   ˆ aˆ1 q , q aˆ q   aq  
* 1 T
Fq ,n  k 1
q
 11,571983  3,801060 0,80  1 
 0,80  1  0,38  0,5
1
F *
2,10   
2   3,801060 42,034791  0,38  0,5 
F*2,10   0,612  F02,,1005  4,10
On accepte l’hypothèse nulle. C’est possible que les coefficients
soient simultanément et respectivement égaux à 1 et -0,5.
Question 4 : Quel est l’intervalle de confiance pour la variance de
l’erreur au niveau de confiance 95 % ?
 (n  k  1)ˆ 2 (n  k  1)   ˆ 2 
P  
   2
2
 1
  n k 1,
2
 
 2  n  k 1,1
2 
 
P  2n k 1   210 ;0, 025  0,025 et  
P  2n k 1   210 ;0,975  0,975
 210 ;0,025  20,483 et  210 ;0,975  3,247
 ( n  k  1)ˆ 2 ( n  k  1)ˆ 2 
 
IC 2   ; 
   n  k 1, 2  n  k 1,1 2 
 2 2
10  6,745 10  6,745

  20,483 ; 3,247 
 
 3,30;20,75
 2
95 % de chance que la variance  appartient à cet intervalle
Tests sur les résidus : valeur anormale, effet de levier
et point d’influence
La matrice HAT notée H permet de passer du vecteur Y au vecteur Yˆ
Yˆ  X aˆ  X X T X 
1
X YHY H X X X
T
 T

1
XT
Les éléments hi  xi X X  T
1
xiT de la diagonale principale de
la matrice H sont appelés les leviers, il permettent de
déterminent l’influence de l’observation i sur les estimations
obtenues par la régression. On montre que :
0  hi  1

traceH   h  k  1
n



i 1
i

Tests sur les résidus : valeur anormale, effet de levier
et point d’influence
Le levier d’une observation i est donc anormalement élevé si :
hi 
k 1

H X X X T

1
XT
n
H
H
Y
0  hi  1

traceH   h  k  1
n
 Yˆ
ˆ 
1  T

Y  X aˆ  X X X X Y  H Y i 1
T i

IV. L’analyse de la variance
n n n
 t  t    yt  yˆ t 
2
( y  y )  ( ˆ
y  y ) 2 2
t 1 t 1 t 1
SCT  SCE  SCR

Degrés Sommes
 
Source de Moyenne des
variation
de des
carrés Fisher F
liberté carrés
Variables MSE SCE k
SCE F  
explicatives k SCE MSE 
x1,x2, …,xk k MSR SCR  n  k  1
SCR
Résidus n-k-1 SCR MSR 
n  k 1
Total (y) n  1 SCT
MSE
 SCE k R2 k
F   
MSR SCR  n  k  1 1  R 2  n  k  1  
Question : Les trois questions suivantes sont équivalentes,
– Signification globale du modèle de la régression ?
– l’ensemble des variables explicatives a-t-il une influence globale
sur la variable à expliquer ? (ou encore aucune variable exogène
n’est pertinente pour expliquer Y)
– Existe-t-il au moins une variable explicative significative ?
 H 0 : a1  a2  ...  ak  0
Soit le test d’hypothèse : 
 H1 :  au moins ai  0
SCE / k n  k 1  R2 
F   2 
SCR / n  k  1 k  1  R 
Si F *  Fk ,nk 1 ou encore   p  value alors on rejette H0.
Dans le cas contraire, on accepte H0 et donc il n’existe aucune
relation linéaire significative entre la variable à expliquer et les
variables explicatives.
Autres tests à partir de l’analyse de la variance
On cite quatre autres tests via exercice page 69 :
 Introduction d’une ou plusieurs variables explicatives

supplémentaires (question 1)
 Stabilité des coefficients du modèle dans le temps (test
CHOW) (question 2)
 Test de restrictions et de contraintes sur les coefficients
(question 3)
 Augmentation de la taille de l’échantillon servant à
estimer le modèle (question 2)

Y X1 X2 X3
12 2 45 121
14 1 43 132
10 3 43 154
16 6 47 145
14 7 42 129
19 8 41 156
21 8 32 132
19 5 33 147
21 5 41 128
16 8 38 163
19 4 32 161
21 9 31 172
25 12 35 174
21 7 29 180
On reprend l’exercice page 56 : pour 14 observations on a :
yt  32,89  0,80x1t  0,38x2t  0,03x3t  et
RAPPORT DÉTAILLÉ ˆ   2,59

Statistiques de la régression ˆ aˆ  0,29
1
Coefficient de détermination multiple 0,838264046 ˆ aˆ  0,15

Coefficient de détermination R^2 0,702686611 2
Coefficient de détermination R^2 0,613492594 ˆ aˆ  0,05

3
Observations 14 R 2  0,702
ANALYSE DE VARIANCE
Degré Somme Moyenne Valeur
de liberté des carrés des carrés F critique de F
Régression 3 159,4094768 53,13649228 7,878181026 0,005452305
Résidus 10 67,44766603 6,744766603
Total 13 226,8571429
Limite inférieure Limite supérieure
pour seuil de pour seuil de
Coefficients Erreur-type Statistique t Probabilité confiance = 95% confiance = 95%
Constante 32,89132428 11,66331015 2,820067705 0,018158598 6,903849912 58,87879865
Variable X 1 0,801900688 0,29843584 2,687012017 0,022816428 0,136944201 1,466857174
Variable X 2 -0,381362364 0,156580689 -2,43556448 0,035114399 -0,73024588 -0,032478849
Variable X 3 -0,037132436 0,052023125 -0,71376789 0,49169355 -0,153047181 0,078782309
232
Question 1 : L’ajout des variables explicatives x2 et x3 améliore t-il
significativement la qualité de l’estimation par rapport à x1 seul ?
On testera tout d’abord la signification globale du modèle de régression à

3 variables (test de Fisher) :
 H 0 : a1  a2  a3  0

 H1 :  au moins ai  0
Soit,
 R2 k 0, 702 3
F    7,852 > F 3,10   3, 71
0,05
 
1  R  n  k  1 1  0, 702  10
2
Valeur
F critique de F
7,878181026 0,005452305
On rejette H0. La régression est globalement significative

Le test d’ajout de variables suplémentaires se fait en quatre étapes :
a. Tout d’abord on calcule, sur le modèle complet, les variabilités
14
SCT3    yt  y   226,86 ;
suivantes : 2
t 1
14
SCE3    yˆt  y   159, 41 ;
2
t 1
14
SCR3   et2  67, 45
t 1
Degré Somme
de liberté des carrés
Régression 3 159,4094768
Résidus 10 67,44766603
Total 13 226,8571429

b. En suite on calcule, sur le modèle à une seule variable
explicative x1, les mêmes variabilités : soit le modèle
RAPPORT DÉTAILLÉ
Coefficient de détermination multiple 0,720171833
Coefficient de détermination R^2 0,518647469
Observations 14
ANALYSE DE VARIANCE
Régression 1 117,6588831 117,6588831 12,92975364 0,003674145
Résidus 12 109,1982598 9,099854982
Total 13 226,8571429
Coefficients Erreur-type Statistique t Probabilité Lim inf à 95% Lim sup à 95%
Constante 11,57116221 1,889095412 6,125239699 5,13541E-05 7,455176897 15,68714753
Variable X 1 1,011808577 0,281386483 3,595796663 0,003674145 0,398720098 1,624897055

le modèle estimé est :
yt  11, 57  1, 01x1t  et
Avec
ˆ 1  3, 0165 ; ˆ aˆ

0

1
 1,89 ; ˆ   0, 28
aˆ1
1
; R12  0,52
et
SCR1  e e   n  2   ˆ 2
T
  1
 12   3.01651  109, 20
2
SCR1 109, 20
SCT1    227, 48 ;
1  R12
1  0, 52
SCE1  SCT1  SCR1  227, 48  109, 20  118, 28 ;

Soit le test d’hypothèse :
 H 0 : a2  a3  0

 H1 : a2  0 ou a3  0
C’est un test d’analyse de la variance : l’ajout de x2 et x3 au modèle
implique normalement l’augmentation de SCE1 et la diminution de
SCR1. Ceci est donc équivalent à tester la différence (SCE3- SCE1) est-
elle significativement positive ou encore à tester la différence
(SCR1- SCR3) est-elle significativement positive :
 H 0 : SCE3  SCE1  0  H 0 : SCR1  SCR3  0

soit  ou 
 H1 : SCE3  SCE1  0  H1 : SCR1  SCR3  0

c. Tableau d’analyse de la variance pour tester l’ajout d’un bloc de
variables explicatives :
Source de Degrés Sommes des Moyenne des Où

variation de liberté carrés carrés
k est le nombre de
Variable SCE1 /1 variables explicatives du
SCE1
explicative k’=1 modèle complet
x1  118, 28  118.28
Variables SCE3 Et
SCE3 / 3
explicatives k=3
x1,x2, x3  159, 41  53.14 k’ est le nombre de
variables explicatives du
n-k-1 SCR3 SCR3 /10 modèle sans l’ajout du
Résidus bloc d’autres variables
=10  67, 45  6.745 explicatives
n-1 SCT3
Total (y)
=13  226,86
• On calcule
SCE3  SCE1  159.41  117.65

F* 
k  k '  2  3.09  F   
 k  k ', n  k 1 F 2 ,10   4.10
SCR3 67.45
n  k 1 10
NB. : On compare la différence par rapport à la somme des carrés la plus faible
SCR1  SCR3  109.20  67.45

F* 
k  k '  2  3.09  F   
 k  k ', n  k 1 F 2 ,10   4.10
SCR3 67.45
n  k 1 10
On accepte donc H0 : l’ajout du bloc de variables explicatives x2 et x3

n’améliore pas de manière significative au seuil α = 5 % le pouvoir
explicatif du modèle
Question 2 : Peut on considérer le modèle (à trois variables
explicatives) comme stable sur l’ensemble de la période, ou doit-on
procéder à deux estimations, l’une de la période 1 à 7, et l’autre de
la période 8 à 14 ? (test de Chow)
• Soit le modèle estimé sur une seule période :
yt  aˆ0  aˆ1 x1t  aˆ2 x2t  aˆ3 x3t  et t  1, ,14
• Soit les modèles estimés sur deux périodes :
 yt  aˆ01  aˆ11 x1t  aˆ12 x2t  aˆ31 x3t  et t  1, , 7

 t
y  aˆ 2
0  aˆ 2
x
1 1t  aˆ 2
x
2 2t  aˆ 3 x3t  et
2
t  8, ,14
Soit le test d’hypothèse :  a0  a01  a02 
AH0 : les coefficients sont significativement  2 
 a1  a1  a1 
1
stables sur l’ensemble de la période. H0 :

 a2  a12  a22 
RH0 : scinder en deux échantillon n’améliore pas  
2 
 a3  a3  a3 
1
la qualité du modèle.
240
La question est la suivante :
existe-il une signification entre SCR et (SCR1+SCR2) ?
où
SCR calculée sur l’ensemble de la période (1,…,14)
SCR1 calculée sur la sous période (1,…,7)
SCR2 calculée sur la sous période (8,…,14)
Pour répondre à la question on doit suivre les étapes suivantes :

a. Estimation du modèle sur la sous période (1,…,7), soit donc :
yt  25,27  0,774x1t  0,293x2t  0,012x3t  et
ˆ  1  3,017
ˆ   0,529
RAPPORT DÉTAILLÉ 1
aˆ1
SCE1  61,54
Coefficient de détermination multiple 0,832206399 ˆ   0,313
aˆ 2
1
SCR1  27,31
Coefficient de détermination R^2
0,69256749
0,385134981
ˆ   0,010
aˆ 3
1
SCT1  88,85
R12  0,692
Observations 7
ANALYSE DE VARIANCE
Degré de Somme Moyenne Valeur
liberté des carrés des carrés F critique de F
Régression 3 61,53956844 20,51318948 2,252746437 0,261019353
Résidus 3 27,31757442 9,105858139
Total 6 88,85714286
Constante 25,27560344 16,66755127 1,516455719 0,226670856 -27,76798351 78,3191904
Variable X 1 0,77391607 0,529033324 1,462887185 0,239683594 -0,909704077 2,457536217
Variable X 2 -0,29317635 0,313677004 -0,93464406 0,418918908 -1,291436571 0,705083872
Variable X 3 -0,01250322 0,100808684 -0,12402916 0,909135772 -0,333321438 0,308315007
b. Estimation du modèle sur la sous période (8…,14), soit :
yt  62,33  1,228x1t  0,620x2t  0,184x3t  et
RAPPORT DÉTAILLÉ
ˆ  2  2,62
ˆ 
aˆ1
2
 0,685
SCE2  24,70
ˆ 
 0,522
2
Coefficient de détermination multiple 0,737467155 aˆ 2 SCR2  20,72
ˆ 
Coefficient de détermination R^2 0,087715608 aˆ 3
2
 0,152 SCT2  45,43
Observations 7 R12  0,543
ANALYSE DE VARIANCE
Régression 3 24,7066831 8,235561032 1,192298824 0,444230201
Résidus 3 20,72188833 6,907296111
Total 6 45,42857143
Coefficients Erreur-type Statistique t Probabilité Lim inf 95% Lim sup 95%
Constante 62,33574076 37,23454453 1,674137325 0,192697138 -56,16119788 180,8326794
Variable X 1 1,228195674 0,685233191 1,792376215 0,170981012 -0,952522164 3,408913512
Variable X 2 -0,62083255 0,522362893 -1,18850814 0,320142848 -2,283224408 1,041559307
Variable X 3 -0,18433866 0,152831028 -1,2061599 0,314201705 -0,670715197 0,302037882

c. Calcul du Fisher empirique : on prend au dénominateur la
plus faible des sommes des carrés
 SCR   SCR  SCR  
1 2
ddln
F 
*
Où,  SCR1  SCR2 

ddld
ddln   n  k  1   n1  k  1   n2  k  1   k  1  4
ddld   n1  k  1   n2  k  1  n  2  k  1  6
Ainsi,
67,45  27,31 20,73
F*  4  0,606  F   4,53
27,31 20,73 4, 6 
6
On accepte H0 : les coefficients sont significativement stable sur
l’ensemble de la période.
Question 3 : Un économiste suggère que dans ce modèle a1=1 et
a2=a3, qu’en pensez vous ?
On pose l’hypothèse nulle : H 0 : a1  1 et a2  a3
Sous H0,
yt  a0  a1 x1t  a2 x2 t  a3 x3t   t
yt  a0  x1t  a2  x2 t  x3t    t
yt  x1t  a0  a2  x2 t  x3t    t
zt  a0  a2 vt   t
Nouvelle variable exogène

Nouvelle variable endogène

Soit donc, t zt = yt - x1t vt = x2t + x3t
1 10 166
2 13 175
3 7 197
4 10 192
5 7 171
6 11 197
7 13 164
8 14 180
9 16 169
10 8 201
11 15 193
12 12 203
13 13 209
14 14 209
z t  13,735  0,011 t  et t  1,...,14
n  14
ˆ  '  3,010 SCE '  0,425
ˆ '  0,051
aˆ1
SCR'  108,79
RAPPORT DÉTAILLÉ R '  0,004

2 SCT '  109,21
Coefficient de détermination R^2 -0,07911291
Observations 14
ANALYSE DE VARIANCE
Régression 1 0,425473883 0,425473883 0,046932093 0,832129578
Résidus 12 108,7888118 9,065734319
Total 13 109,2142857
Constante 13,73516878 9,691559481 1,417229994 0,181853025 -7,38092533 34,8512629
Variable X 1 -0,01115475 0,051490217 -0,21663816 0,832129578 -0,123342292 0,1010328

Soit le test d’hypothèse :  H 0 : SCR  SCR

 H1 : SCR  SCR
C’est un test d’analyse de la variance : on calcule le Fisher empirique
SCR' SCR 
ddln
F 
*

SCR
ddld
ddln  n  k '1  n  k  1  k  k '  3  1  2

Où,
ddld  n  k  1  14  3  1  10
Ainsi, 108,78  67,45
F*  2  3.06  F   4,10
2,10 
67,45
10
Donc, on accepte H0 : les contraintes envisagées sur les coefficients
sont compatibles avec les données.

V. L’utilisation des variables indicatrices (variables
auxiliaires, variables muettes, Dummy)
Une variable explicative est une variable indicatrice : les valeurs

sont 0 ou 1.
Modification structurelle ;
Correction des valeurs anormales ;
Intégration des facteurs qualitatifs ;
Intégration de la saisonnalité; …

Par exemple, soit le modèle à deux variables explicatives x1t et x2t
yt  a0  a1 x1t  a2 x2t  b0 Dt  b1Dt x1t  b2 Dt x2t   t
Avec
 Dt  1 le phénomène a lieu

 Dt  0 le phénomène n' a pas lieu
Si Dt  0 alors le modèle s’écrit,
yt  a0  a1 x1t  a2 x2t   t
Si Dt  1 alors le modèle s’écrit,
yt  a0  a1 x1t  a2 x2t  b0  b1 x1t  b2 x2t   t
 a0  b0   a1  b1 x1t  a2  b2 x2t   t
et si en plus, b1  b2  0 alors,
yt  a0  b0   a1 x1t  a2 x2t   t
(R.B. exercice 4, page 76)
Correction d’une valeur anormale
Un modèle de production de service du secteur du tourisme est spécifié
de la manière suivante :
QPS t  a0  a1VAt  a2 POPt   t
Avec,
QPSt : Production du Secteur tourisme pour l’année t ;
V At : Valeur Ajoutée du secteur tourisme pour l’année t ;
POPt : P0Pulation pour l’année t .
L’économètre chargé de l’estimation de ce modèle sur 18 ans s’interroge
sur la perturbation entraînée par l’effet d’une guerre pour l’année 16.
Pour répondre à cette question, il intègre à son modèle de base une
variable indicatrice Dt tel que :
 Dt  0 pour t  1 à 15 et t  17 à 18

 Dt  1 pour t  16
Questions : L’effet « guerre » a-t-il une influence significative sur la
production du service du secteur du tourisme ?
251
L’estimation du modèle économétrique est la suivante :
QPS t  2340,4  23,5 VAt  0,3 POPt  120,56 Dt   t
n  18 R 2  0,65
t a*ˆ0  4,5 t a*ˆ1  2,2 t a*ˆ 2  2,9 tb*ˆ  5,8
0
On calcule le ratio de Student empirique de la variable Dt Dummy
tb*ˆ  5,8  t180,0531  t140, 05  2,14

0
On rejette H0 : le coefficient de régression de la variable Dummy

est significativement différent de 0.
la production de service pour l’année 16 est donc anormalement

basse (−120,56). Cette baisse est sans doute imputable à l’effet
de la guerre.

Intégration d’une variable qualitative
Afin de déterminer les facteurs explicatifs de la réussite de la Licence en
Sciences Économiques, on spécifie le modèle suivant :
NLi  a0  a1 NDi  a2 DSi   i

Avec,
NLi : Note moyenne obtenue en Licence, pour l’étudiant i ;
NDt : Note moyenne obtenue en fin de Deuxième année, pour l’étudiant i;
DSi : variable indicatrice de genre, pour l’étudiant i.
 DSi  1 pour les hommes


 DSi  0 pour les femmes
Question : Le fait d’être homme ou femme a-t-il une influence sur

la note obtenue en Licence de Sciences Économiques ?
253
L’estimation du modèle économétrique est la suivante :
NLi  8,5  0,3 NDi  1,2 DSi  et
n  60 R 2  0,72
t a*ˆ0  4,5 t a*ˆ1  7,1 tb*ˆ  2,3
0
On calcule le ratio de Student empirique de la variable Dummy DSi
tb*ˆ  2,3  t60

0 , 05
 2 1  t 0 , 05
57  1,96
0
On rejette H0 : le coefficient de régression de la variable Dummy

est significativement différent de 0.
le facteur sexe est un facteur discriminant de la note obtenue en

Licence.

Analyse de saisonnalité :
Une entreprise cherche à appréhender une relation entre ses
ventes et ses dépenses publicitaires. Le directeur du marketing
dispose des données de ventes et de dépenses publicitaires sur
5 ans par trimestre.
1. Ce directeur du marketing commence par estimer la relation :

Vt  a0  a1 Pubt   t
Commenter les résultats obtenus : La publicité a-t-elle un effet
significatif sur les ventes ?
2. Tracer le graphique de la série des ventes, que pouvez-vous en
conclure ?
3. Spécifier et estimer le modèle adéquat.
255
Ventes et dépenses publicitaires pendant 5 ans par trimestre
Date VENTES PUB
T1 164 34
T2 198 36
Années T1 T2 T3 T4 T3 85 32
T4 179 29
Vente 164 198 85 179
1 T1 168 45
Pub 34 36 32 29 T2 201 67
Vente 168 201 98 197 T3 98 76
2 T4 197 75
Pub 45 67 76 75
T1 197 75
Vente 197 209 100 216 T2 209 78
3
Pub 75 78 72 75 T3 100 72
T4 216 75
Vente 223 245 119 260
4 T1 223 78
Pub 78 81 84 83 T2 245 81
Vente 298 309 124 267 T3 119 84
5 T4 260 83
Pub 89 82 81 83
T1 298 89
T2 309 82
T3 124 81
T4 267 83
RAPPORT DÉTAILLÉ Vt  104,889  1,29 Pubt  et
n  20
Coefficient de détermination R^2 0,113791777 R 2  0,16
Observations 20 ˆ aˆ1  1,85
ANALYSE DE VARIANCE
Régression 1 12865,63682 12865,63682 3,439656622 0,080105841
Résidus 18 67326,91318 3740,384066
Total 19 80192,55
Constante 104,8959227 49,35643393 2,125273533 0,047665411 1,201903004 208,5899424
Variable X 1 1,298215163 0,699985643 1,854631128 0,080105841 -0,1724001 2,768830426
On calcule le ratio de Student empirique de la variable dépenses publicitaires :

ta*ˆ0  1,85  t20
0, 05
11  t 0, 05
18  2,10
On accepte H0 : le coefficient de régression de la variable Pub n’est pas
significativement différent de zéro.
la publicité n’a pas, a priori, d’impact sur les ventes.
257
On remarque que :
 la série des ventes est fortement saisonnière avec un creux très affirmé
au troisième trimestre
 la variable publicité ne semble pas affectée de variations saisonnières.
Ainsi, le mouvement saisonnier vient occulter l’estimation économétrique.

Il convient donc d’intégrer ce mouvement saisonnier à l’aide de variables
Dummy.
350
300
250
200
Ventes
150 Publicité
100
50
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

En tenant compte du mouvement saisonnier, le modèle s’écrit :
Vt  a0  a1 Pubt  a2 D1t  a3 D2t  a4 D3t   t

Avec
.  D1t  1 premier trimestre de l' année t

 D1t  0 les autres
 D2t  1 deuxième trimestrede l' année t

 D3t  1 troisièmetrimestrede l' année t


Avec l’introduction de D4t les 1 Pubt D1t D2t D3t D4t
vecteurs de la matrice X sont
colinéaire : 1 34 1 0 0 0
 
1  D1t  D2t  D3t  D4t 1 36 0 1 0 0
La matrice sera non inversible 1 32 0 0 1 0
 
1 29 0 0 0 1
1 0
On supprime alors D4t  45 1 0 0 
1 67 0 1 0 0
 
1 76 0 0 1 0
1 75 0 0 0 1
 
1 75 1 0 0 0
1 78 0 1 0 0
X   
1 72 0 0 1 0
1 75 0 0 0 1
 
1 78 1 0 0 0
 
1 81 0 1 0 0
1 84 0 0 1 0
 
1 83 0 0 0 1
1 89 1 0 0 0
 
1 82 0 1 0 0
1 81 0 0 1 0
 
1 1
 83 0 0 0 

Introduction des variables indicatrice pour une désaisonnalisation trimestrielle
Date VENTES PUB D1t D2t D3t

T1 164 34 1 0 0
T2 198 36 0 1 0
T3 85 32 0 0 1
T4 179 29 0 0 0
T1 168 45 1 0 0
T2 201 67 0 1 0
T3 98 76 0 0 1
T4 197 75 0 0 0
T1 197 75 1 0 0
T2 209 78 0 1 0
T3 100 72 0 0 1
T4 216 75 0 0 0
T1 223 78 1 0 0
T2 245 81 0 1 0
T3 119 84 0 0 1
T4 260 83 0 0 0
T1 298 89 1 0 0
T2 309 82 0 1 0
T3 124 81 0 0 1
T4 267 83 0 0 0
Vt  129,101 1,372 Pubt  7,212 D1t  8,874 D2t  118,6 D3t  et
n  20
R 2  0,83
RAPPORT DÉTAILLÉ
Coefficient de détermination multiple 0,912099225 t a*ˆ1  3,97 t a*ˆ 2   0,37
Coefficient de détermination R^2 0,787104995 t a*ˆ3  0,46 t a*ˆ 4   6,25
Observations 20
ANALYSE DE VARIANCE
Régression 4 66714,18684 16678,54671 18,56146757 1,12455E-05
Résidus 15 13478,36316 898,5575441
Total 19 80192,55
Constante 129,1013935 27,31974281 4,725571333 0,000270728 70,87074032 187,3320466
Variable X 1 1,372443573 0,344993551 3,978171681 0,001211965 0,63710723 2,107779916
Variable X 2 -7,21227085 19,0306398 -0,37898205 0,710011936 -47,77511921 33,35057751
Variable X 3 8,874488715 18,9585806 0,468098794 0,646443204 -31,53476911 49,28374654
Variable X 4 -118,6 18,95845504 -6,25578401 1,5395E-05 -159,0089902 -78,1910098

On recalcule le ratio de Student empirique de la variable dépenses
publicitaires : ta*ˆ1  3,97  t20
0, 05
 41  t 0, 05
15  2,13
On rejette H0 : le coefficient de régression de la variable Pub est
significativement différent de zéro.
la publicité a un impact sur les ventes. C’est bien une variable explicative
des ventes.
On remarque que D3t est la seule variable indicatrice explicative. Ainsi, la
saisonnalité des ventes est liée essentiellement au creux du troisième
trimestre.
t a*ˆ 2  0,37  t150,05  2,13
t a*ˆ3  0,46  t150,05  2,13
t a*ˆ 4  6,25  t150, 05  2,13
VI. La prévision à l’aide du modèle linéaire général et la
régression récursive
Soit le modèle général estimé : yt  aˆ0  aˆ1 x1t   aˆk xkt  et
La prévision pour un horizon h est donnée par :
yˆ h  aˆ0  aˆ1 x1h   aˆk xkh
la notation matricielle yˆ h  X h aˆ avec X h  1 x1h xkh 
T
L’erreur de prévision calculée à l’horizon h est égale à :

eh  yh  yˆ h  X h a   h  X h aˆ  X h  a  aˆ    h
E eh   E  X h  a  aˆ    h   X h E a  aˆ   E  h   0
 e2  Var  X h  a  aˆ    h   X hVar  a  aˆ   2C ov  X h  a  aˆ    h   Var  h 

h
yî*  yˆ  xi*   aˆ0  aˆ1 x1i*   aˆk xki*  X i*aˆ

(R.B. exercice 7, C3EX1, page 83)
On a montré que :
Y X1 X2 X3
yt  32,89  0,80x1t  0,38x2t  0,03x3t  et 12 2 45 121
14 1 43 132
10 3 43 154
Puis on a montré que la variable x3 n’est pas 16 6 47 145
explicative de la variable y. 14 7 42 129
1. Estimer le modèle à deux variables 19 8 41 156
explicatives : 21 8 32 132
19 5 33 147
yt  a0  a1 x1t  a2 x2t   t 21 5 41 128
16 8 38 163
19 4 32 161
2. Calculer une prévision et son intervalle à 95 %
21 9 31 172
pour les périodes 15 et 16, sachant 25 12 35 174
21 7 29 180
x115  3; x116  6; x215  24; x216  38
265
1. yt  25,842  0,715 x1t  0,328 x2t  et
n  14
ˆ aˆ  0,266 t a*ˆ1  2,685  t140,025
2 1  t 0 , 025
 2,20
R 2  0,687 1 11
ˆ aˆ  0,134 t a*ˆ 2   2,438  t110, 025  2,20

ˆ   2,538 2
RAPPORT DÉTAILLÉ
Statistiques de la régression Les deux variables sont
Coefficient de détermination R^2 0,687539546 bien explicatives de la
Erreur-type
0,630728555
2,538501452
variable y
Observations 14
ANALYSE DE VARIANCE
Régression 2 155,973257 77,98662852 12,10222752 0,001664841
Résidus 11 70,88388582 6,44398962
Total 13 226,8571429
Coefficients Erreur-type Statistique t Probabilité Lim inf à 95% Limsup à 95%

Constante 25,8421378 6,064674439 4,261092341 0,001340548 12,49387937 39,19039623
Variable X 1 0,714895936 0,26626382 2,684915789 0,021221023 0,128853218 1,300938653
Variable X 2 -0,32811294 0,134561217 -2,43839158 0,032916444 -0,624280181 -0,031945698
2. La prévision ponctuelle pour les périodes 15 et 16 :
yˆ15  25,84  0,71 x1t  0,33 x2t yˆ16  25,84  0,71 x1t  0,33 x2t
 25,84  0,71 3  0,33 24  25,84  0,71 6   0,33 38
 20,05  17,56
Les variances de l’erreur de prévision sont données par :
 
ˆ 215  ˆ 2 X 15T X T X  X 15  1
1
 
ˆ 216  ˆ 2 X 16T X T X  X 16  1
1
Avec,  
 
 n nx1 nx2   14 85 532 
 14 14
  
X X   nx1
T
 2
x1t  x1t x2t    85 631 3126 
 t 1 t 1
  532 3126 20666
 nx
14 14
2 
 
 2  x1t x2t  x2 t 
 t 1 t 1 
X15T  1 3 24 et X16T  1 6 38
Et  5,7077  0,1634  0,1222
 
X X     0,1634 0,0110 0,0025 
T 1
  0,1222 0,0025 0,0028 

Ainsi,  
ˆ 2
 15  ˆ  X
2
 T
15 X X 
X 15  1
T 1

  5,7077  0,1634  0,1222 1  
2    
 2,538 1 3 24  0,1634 0,0110 0,0025  3   1
   0,1222 0,0025 0,0028  24  
   
 12,4545

ˆ 216  ˆ 2 X 16T X T X  X 16  1
1

  5,7077  0,1634  0,1222 1  
2    
 2,538 1 6 38  0,1634 0,0110 0,0025  6   1
   0,1222 0,0025 0,0028  38 
   
 6,6920
Ainsi les écarts type de l’erreur de prévision sont donnés par :
ˆ 215  12,4545  ˆ  15  3,5290
ˆ 216  6,6920  ˆ  16  2,5869
Les intervalles de prévision sont donnés par :


y h  yˆ h  t n k 1ˆ  h  yˆ h  t nk 1ˆ 
2

2
X T
h X T
X 
1
X h 1
Ainsi,
IP15    
yˆ15  t142 21ˆ  15 ; yˆ15  t142 21ˆ  15 
 20,05  2,201(3,5290) ; 20,05  2,201(3,5290)
 12,28 ; 27,82
IP16  yˆ 16
 
 t142 21ˆ  16 ; yˆ16  t142 21ˆ  16 
 17,56  2,201(2,5689) ; 17,56  2,201(2,5689)
 11,90 ; 23,21
Les tests de stabilité par la régression récursive
Le test de Ramsey, aussi appelé le test de RESET (Regression Error
Specification Test), porte sur la pertinence de la forme fonctionnelle du
modèle,
telle que :
– une relation fonctionnelle non adaptée (passage aux logarithmes, fonctions
inverses…) entre la variable à expliquer et les variables explicatives ;
– l’absence d’une variable explicative dans le modèle ;
– la corrélation entre la variable explicative et le terme d’erreur ;
–…
Plutôt que d’estimer des spécifications alternatives (par exemple linéaire ou
non
linéaire), le test porte sur la significativité d’un ou des coefficients d’une
équation
intermédiaire dans laquelle figure la série à expliquer ajustée et élevée à la
puissance 2, 3, 4… Le test RESET est mené en trois étapes :


Cours Econometrie

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Cours Econometrie

Uploaded by

Copyright:

Available Formats

Filière de Sciences Économiques et de Gestion

Licence d’Études Fondamentales

Enseignante : Amale LAHLOU

Année Universitaire : 2015 - 2016

Logiciels informatiques recommandés : SPSS, EVIEWS, EXCEL

On utilisera EXCEL et EVIEWS pour la résolution des exercices

L’économétrie est un outil à la disposition de l’économiste lui permettant

Un modèle est une présentation formalisée d’un phénomène économique réel

Pr. Amale LAHLOU S5 : Sciences Economiques 3

Spécification ou confection du modèle

Estimation des paramètres(MCO=OLS)

Vérification ou validation du modèle. non

Utilisation pour des fins de politique économique

Pr. Amale LAHLOU 4

La mise en œuvre d’une régression impose l’existence

Pr. Amale LAHLOU S5 : Sciences Economiques 5

IV. Equation et tableau d’analyse de variance

V. La prévision à l’aide du modèle de régression

Régression linéaire Analyse de la variance

La régression linéaire simple (le nom est du à Galton) est un

 Explications et confrontations des hypothèses en se

 Prédiction d’une variable à partir de l’autre.

Pr. Amale LAHLOU S5 : Sciences Economiques 9

Pr. Amale LAHLOU S5 : Sciences Economiques 12

Revenu Consommation Aléa Consommation

Pr. Amale LAHLOU S5 : Sciences Economiques 14

Pr. Amale LAHLOU S5 : Sciences Economiques 16

(H5) : E   t  t    0 si t  t  les erreurs sont non corrélées (ou encore

(H7) :  t  N  0,  2  hypothèse supplémentaire pour les inférences.

Pr. Amale LAHLOU S5 : Sciences Economiques 18

xt est certaine et connue sans erreur :

Pr. Amale LAHLOU S5 : Sciences Economiques 21

Mais en moyenne le modèle est bien spécifié et donc l’erreur

Pr. Amale LAHLOU S5 : Sciences Economiques 22

la variance de l’erreur est constante : le risque de l’amplitude

Pr. Amale LAHLOU S5 : Sciences Economiques 23

Les erreurs sont non corrélées (ou encore

Pr. Amale LAHLOU S5 : Sciences Economiques 24

Pr. Amale LAHLOU S5 : Sciences Economiques 25

Pr. Amale LAHLOU S5 : Sciences Economiques 26

Pr. Amale LAHLOU S5 : Sciences Economiques 27

14 Ajustement d’un nuage de points par une droite

Consommation observée consommation réelle

Pr. Amale LAHLOU S5 : Sciences Economiques 28

• Modèle empirique estimé par un économètre à partir d’un

Pr. Amale LAHLOU S5 : Sciences Economiques 29

Puisque la fonction quadratique S  a0 , a1  est strictement convexe, le

 a  0  2  yt  aˆ0  aˆ1 xt   0

Pr. Amale LAHLOU S5 : Sciences Economiques 31

Ou mieux encore (*) y  a ˆ0  a ˆ1 x

 Le coefficient représentant l’ordonnée à l’origine est donné par :

yˆt  aˆ0  aˆ1 xt   y  aˆ1 x   aˆ1 xt  y  aˆ1  xt  x 

yt  aˆ1 xt : l’impact d’une variation de xt se mesure directement sur yt

alors xc  0 et yc  0 et le modèle sera sans terme constant aˆ0  0

 Le coefficient de régression sera donnée par la formule :

Pr. Amale LAHLOU S5 : Sciences Economiques 34

Détermination des estimations des paramètres aˆ0 et aˆ1

Calcul des estimations de â0 et â1

aˆ0  y  aˆ1 x  9 985,58 - 0,78 × 11 280,00=1 176,08

consommation en fonction du revenu

Pr. Amale LAHLOU S5 : Sciences Economiques 37

Extrait du rapport détaillé par une analyse sous EXCEL

Ainsi, on peut alors prédire yt pour xt compris dans

yˆ t  aˆ0  aˆ1 xt  1 176, 08  0, 78 xt