Econométrie Cours de Bruno Crepon

ECONOMETRIE LINEAIRE
Bruno Crpon Novembre 2005
ii
Table des matires

1 Introduction 1.1 Le modle . . . . . . . . . . . . . . . . . . . . . . . 1.2 Do vient le modle ? - 1 de la thorie conomique 1.3 Les donnes . . . . . . . . . . . . . . . . . . . . . . 1.4 Lestimation . . . . . . . . . . . . . . . . . . . . . . 1.5 Pourquoi estimer le modle ? . . . . . . . . . . . . . 1.6 Do vient le modle ? - 2 de relations stochastiques 1.7 Plan . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 1 3 4 5 5 7 11 11 11 12 13 15 15 16 17 19 20 21 21 25 25 27 27 28 29 30
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
2 Lestimateur des moindres carrs ordinaires 2.1 Dnition et proprits algbriques . . . . . . . . . . . . . . . 2.1.1 Dnition . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.2 Interprtation gomtrique . . . . . . . . . . . . . . . . 2.1.3 Thorme de Frish-Waugh . . . . . . . . . . . . . . . . 2.2 Modle et proprits statistiques . . . . . . . . . . . . . . . . . 2.2.1 Quand lestimateur des mco est-il sans biais ? . . . . . 2.2.2 Quelle est la prcision de lestimateur des mco ? . . . . 2.2.3 Lestimateur des mco est-il le plus prcis : le thorme Markov . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.4 Estimation des paramtres du second ordre . . . . . . . 2.2.5 Analyse de la variance . . . . . . . . . . . . . . . . . . 2.3 Variable omise et rgresseur additionnel . . . . . . . . . . . . . 2.4 Rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Les MCO sous lhypothse de normalit des perturbations. 3.1 Normalit de lestimateur des mco . . . . . . . . . . . . . . . . 3.2 Ecart-types estims, tests et intervalles de conance . . . . . . 3.2.1 Ecart-type . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2 Un rsultat central . . . . . . . . . . . . . . . . . . . . 3.2.3 Intervalle de conance . . . . . . . . . . . . . . . . . . 3.2.4 Tests de la forme 0 b = . . . . . . . . . . . . . . . . . iii
. . . . . . . . . . . . . . de . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . Gauss. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
iv 3.3 3.4 3.5 3.6
TABLE DES MATIRES Un exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Comparaison avec lestimateur du Maximum de Vraisemblance . . . . . Rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Annexe : Distribution de la norme de la projection dun vecteur normal . . . . . . . . 32 35 37 37 39 41 42 43 45 46 48 50 52 52 54 55 56 59 59 59 60 63 65 67 71 72 76 77 78
4 Estimation sous contraintes linaires 4.1 Formulation . . . . . . . . . . . . . . . . . . . . . . . 4.2 LEstimateur des Moindres Carrs Contraints (MCC) 4.3 Esprance et variance de bmcc . . . . . . . . . . . . . 4.4 Estimateur de la variance des rsidus 2 . . . . . . . 4.5 Loi de lestimateur des moindres carrs contraints . . 4.6 Estimation par intgration des contraintes . . . . . . 4.7 Tester les contraintes : le test de Fisher . . . . . . . . 4.8 Applications du test de Fisher . . . . . . . . . . . . . 4.8.1 Un test en deux tapes . . . . . . . . . . . . . 4.8.2 Test de la nullit globale des paramtres . . . 4.8.3 Le Test de Chow de stabilit des paramtres . 4.9 Rsum . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
5 Proprits asymptotiques de lestimateur des MCO 5.1 Rappel sur les convergences . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.1 Dnition : Convergence en probabilit, Convergence en loi, Convergence en moyenne quadratique . . . . . . . . . . . . . . . . . . . . . 5.1.2 Loi des Grands Nombres et Thorme Centrale Limite . . . . . . . 5.1.3 Dirents rsultats concernant les convergences . . . . . . . . . . . 5.1.4 Illustration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Proprits asymptotiques de lestimateur des MCO . . . . . . . . . . . . . 5.3 Tests asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.1 Test dhypothses linaires . . . . . . . . . . . . . . . . . . . . . . . 5.3.2 Test dhypothses non linaires . . . . . . . . . . . . . . . . . . . . 5.4 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5 Rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Le modle linaire sans lhypothse dhomoscdasticit 6.1 Prsentation : Homoscdasticit et htroscdasticit. . . . . . . . . . . . 6.1.1 Quelques exemples . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.2 Conclusion des exemples et dnition du modle linaire htroscdastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Estimation par les MCO et les MCG . . . . . . . . . . . . . . . . . . . . 6.2.1 Proprits des moindres carrs ordinaires . . . . . . . . . . . . . . 6.2.2 La mthode des Moindres Carrs Gnraliss (MCG) . . . . . . .
79 . 79 . 79 . . . . 84 85 85 86
TABLE DES MATIRES 6.2.3
Proprits statistiques de lesprance et de la variance conditionnelle des MCG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 6.3 Lestimateur des MCQG . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 7 Le modle htroscdastique en coupe 93 7.1 Infrence robuste lhtroscdasticit . . . . . . . . . . . . . . . . . . . . 94 7.1.1 Proprits asymptotiques de lestimateur . . . . . . . . . . . . . . . 95 7.1.2 Test dhypothses dans le modle htroscdastique . . . . . . . . . 96 7.1.3 Estimation sous contraintes linaires en prsence dhtroscdasticit 97 7.2 Test dhtroscdasticit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 7.2.1 Le test de Breush-Pagan . . . . . . . . . . . . . . . . . . . . . . . . 98 7.2.2 Test de Goldfeld-Quandt . . . . . . . . . . . . . . . . . . . . . . . . 100 7.3 Lestimateur des mCQG dans le cas o V (ui |xi ) = h (, xi ) . . . . . . . . 101 7.3.1 Application : u2 i = vi exp zi . . . . . . . . . . . . . . . . . . . . . . 103 7.4 Exemple : estimation dune quation de salaire . . . . . . . . . . . . . . . 104 8 Autocorrlation des rsidus dans les sries temporelles 8.1 Direntes formes dautocorrlation des perturbations . . . . . . . 8.1.1 Processus stationnaires au premier et au second ordres . . 8.1.2 Perturbations suivant une moyenne mobile (MA) . . . . . 8.1.3 Perturbations suivant un processus autorgressif (AR) . . . 8.1.4 Perturbation suivant un processus ARMA(p,q) . . . . . . . 8.2 Estimateur des MCO lorsque les perturbations suivent un AR(1) . 8.3 Lestimateur de Newey-West de la matrice de variance de b bmco . . 8.4 Les MCQG dans le modle AR (1) : lestimateur de Prais-Watson. 8.5 Dtection de lautocorrlation . . . . . . . . . . . . . . . . . . . . 8.5.1 Un test asymptotique . . . . . . . . . . . . . . . . . . . . . 8.5.2 Le test de Durbin et Watson . . . . . . . . . . . . . . . . . 8.6 Rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Lestimateur des MCQG dans le cas o = IN () 9.1 Le cas des rgressions empiles. . . . . . . . . . . . . . . . . . . . 9.2 Illustration : estimation dune fonction de production sur donnes duelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.3 Rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 Variables instrumentales 10.1 Trois exemples types dendognit des rgresseurs . . . . 10.1.1 Erreur de mesure sur les variables . . . . . . . . . 10.1.2 Simultanit . . . . . . . . . . . . . . . . . . . . . 10.1.3 Omission de rgresseurs, htrognit inobserve 10.2 La mthode des variables instrumentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 . 109 . 109 . 110 . 111 . 114 . 115 . 118 . 120 . 123 . 123 . 123 . 125
127 . . . . . 132 indivi. . . . . 133 . . . . . 134 . . . . . . . . . . . . . . . . . . . . 137 . 138 . 138 . 139 . 139 . 141
vi
TABLE DES MATIRES 10.2.1 Modle variables endognes et non convergence de lestimateur des mco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 10.2.2 Rsoudre le problme de lidentication par lutilisation de variables instrumentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 10.2.3 Identication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 10.2.4 Moindres carrs indirects . . . . . . . . . . . . . . . . . . . . . . . . 145 10.2.5 Proprit asymptotiques des estimateurs des MCI . . . . . . . . . . 146 Lestimateur des doubles moindres carrs . . . . . . . . . . . . . . . . . . 148 10.3.1 Existence dun estimateur optimal . . . . . . . . . . . . . . . . . . . 148 10.3.2 Lestimateur optimal comme estimateur des doubles moindres carrs 149 10.3.3 Cas des rsidus htroscdastiques . . . . . . . . . . . . . . . . . . . 151 Interprtation de la condition rang E (zi0 xi ) = K + 1 . . . . . . . . . . . . . 152 Test de suridentication . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 10.5.1 Ide du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 10.5.2 Approche formelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 10.5.3 Mise en oeuvre du test . . . . . . . . . . . . . . . . . . . . . . . . . 157 Test dexognit des variables explicatives . . . . . . . . . . . . . . . . . . 159 10.6.1 Intrt et ide du test . . . . . . . . . . . . . . . . . . . . . . . . . 159 10.6.2 Approche formelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 Illustrations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 10.7.1 Rduction du temps de travail et gains de productivit . . . . . . . 163 Rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
10.3
10.4 10.5
10.6
10.7 10.8
11 La Mthode des moments gnralise 169 11.1 Modle structurel et contrainte identiante : restriction sur les moments . . 169 11.2 Dnir un modle par le biais de conditions dorthogonalit . . . . . . . . 171 11.2.1 Maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . 172 11.2.2 Modle desprance conditionnelle, moindres carrs non linaires . . 172 11.2.3 Mthode variables instrumentales pour une quation seule . . . . 173 11.2.4 Mthode variables instrumentales pour un systme d quations. . 173 11.2.5 Lconomtrie des donnes de panel . . . . . . . . . . . . . . . . . . 174 11.3 Principe de la mthode : . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 11.4 Convergence et proprits asymptotiques . . . . . . . . . . . . . . . . . . . 179 11.5 Estimateur optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 11.5.1 Existence dun estimateur optimal . . . . . . . . . . . . . . . . . . . 182 11.5.2 Mise en oeuvre de lestimateur optimal : deux tapes . . . . . . . . 183 11.6 Application aux Variables Instrumentales . . . . . . . . . . . . . . . . . . . 183 11.6.1 Variables instrumentales dans un systme dquations - cas gnral 183 11.6.2 Rgressions variables instrumentales dans un systme homoscdastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 11.6.3 Application aux donnes de panel . . . . . . . . . . . . . . . . . . . 186
TABLE DES MATIRES 11.6.4 Estimateur VI optimal dans le cas univari et htroscdastique . . 11.7 Test de spcication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.7.1 Test de suridentication . . . . . . . . . . . . . . . . . . . . . . . . 11.7.2 Tester la compatibilit de conditions dorthogonalit additionnelles . 11.7.3 Application test de suridentication et dexognit pour un estimateur variables instrumentales dans le cas univari et htroscdastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.7.4 Application aux donnes de panel . . . . . . . . . . . . . . . . . . . 11.8 Illustrations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.8.1 Rduction du temps de travail et gains de productivit . . . . . . . 11.8.2 Salaires et heures . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.9 Rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Variables dpendantes limites 12.1 Modle dichotomique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.1.1 Modle probabilits linaires . . . . . . . . . . . . . . . . . . . . 12.1.2 Les modles probit et logit. . . . . . . . . . . . . . . . . . . . . . 12.2 Variables latentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.3 Estimation des modles dichotomiques . . . . . . . . . . . . . . . . . . . 12.3.1 Conditions de 1er ordre pour la maximisation . . . . . . . . . . . 12.3.2 Drives secondes de la log-vraisemblance - condition de concavit 12.3.3 Matrice de variance-covariance de b b . . . . . . . . . . . . . . . . . 12.4 Illustration : participation des femmes sur le march du travail . . . . . . 12.5 Slectivit : le modle Tobit . . . . . . . . . . . . . . . . . . . . . . . . . 12.5.1 Prsentation de la slectivit . . . . . . . . . . . . . . . . . . . . . 12.5.2 Rappels sur les lois normales conditionnelles. . . . . . . . . . . . . 12.6 Estimation du modle Tobit . . . . . . . . . . . . . . . . . . . . . . . . . 12.6.1 Pourquoi ne pas estimer un modle Tobit par les MCO ? . . . . . 12.6.2 Estimation par le maximum de vraisemblance . . . . . . . . . . . 12.6.3 Estimation en deux tapes par la mthode dHeckman . . . . . . 12.6.4 Des extensions paramtriques simples . . . . . . . . . . . . . . . . 12.6.5 Le modle de slection semi paramtrique. . . . . . . . . . . . . . 12.6.6 Illustration : le modle dore de travail dHeckman . . . . . . . . 12.7 Modles de choix discrets : le Modle Logit Multinomial . . . . . . . . . 12.7.1 Estimation du modle logit multinomial : . . . . . . . . . . . . . . 12.8 Rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Evaluation 13.1 Le Modle causal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.1.1 Choix de la variable dintrt et choix de ltat de rfrence . . . . 13.1.2 Paramtres dintrt . . . . . . . . . . . . . . . . . . . . . . . . .
vii 188 189 189 191
192 193 194 194 195 199
201 . 202 . 203 . 204 . 205 . 207 . 209 . 210 . 211 . 212 . 213 . 213 . 218 . 222 . 222 . 223 . 224 . 226 . 228 . 230 . 234 . 236 . 237 239 . 241 . 241 . 242
viii
TABLE DES MATIRES 13.1.3 Biais de slectivit . . . . . . . . . . . . . . . . . . . . . . . . . . 13.2 Lestimateur des Dirences de Dirences . . . . . . . . . . . . . . . . . 13.2.1 Estimateur en coupe . . . . . . . . . . . . . . . . . . . . . . . . . 13.2.2 Estimateur Avant-Aprs . . . . . . . . . . . . . . . . . . . . . . . 13.2.3 Estimateur par dirence de dirence. . . . . . . . . . . . . . . . 13.2.4 Exemple : La Contribution Delalande . . . . . . . . . . . . . . . . 13.3 Indpendance conditionnelles des observables . . . . . . . . . . . . . . . 13.3.1 Identication sous lhypothse dindpendance conditionnelles des observables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.3.2 Le score de propension (propensity score) . . . . . . . . . . . . . . 13.3.3 Mthodes destimation . . . . . . . . . . . . . . . . . . . . . . . . 13.3.4 Vraisemblance de lhypothse dindpendance conditionnelle des observables. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.4 Le modle de slectivit sur inobservables . . . . . . . . . . . . . . . . . . 13.4.1 Expression des paramtres dintrt dans le cas gnral . . . . . . 13.4.2 Le cas Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.4.3 Des extensions paramtriques simples . . . . . . . . . . . . . . . . 13.4.4 Le modle de slection semi paramtrique. . . . . . . . . . . . . . . . . . . . . 243 244 245 245 246 248 250
. 250 . 252 . 252 . . . . . . 258 263 264 266 267 269
Chapitre 1 Introduction
1.1 Le modle
Le modle central auquel on sintresse dans ce cours est le modle linaire que lon crit en toute gnralit y = + 1 x1 + + K xK + u = xb + u Dans ce modle interviennent direntes grandeurs : y la variable explique ou dpendante x1 , . . . , xK , K variables explicatives ou indpendantes u une perturbation b = (, 1 , , K )0 le paramtre estimer Parmi ces lments les variables y et x sont observes. En revanche le paramtre b est inconnu et la perturbation u inobserve.
1.2
Do vient le modle ? - 1 de la thorie conomique
Le modle vient dabord dides sur les relations entre y et x.... Ces ides peuvent avoir un lien trs troit avec la thorie conomique. Il peut sagir par exemple dune fonction de production Y = F (K, L) On pourrait estimer la fonction de production parmi toutes les fonctions possibles. On ferait alors des rgressions dites non paramtriques. Le cadre que lon considre ici est plus simple et consiste restreindre lensemble des possibilits et de se placer dans un ensemble de fonctions de productions dpendant dun nombre ni de paramtres. On retient souvent la spcication de Cobb-Douglas, ce qui implique en 1
CHAPITRE 1. INTRODUCTION particulier une restriction sur les possibilits de substitution par rapport au cadre gnral : Y = AK L Cette spcication conduit une relation log linaire : y = a + k + l qui est le modle auquel on sintresse. Dans ce cadre on peut noter que la perturbation a une interprtation naturelle, il sagit de la constante a reprsentant le niveau de la technologie, susceptible de varier dune entreprise lautre. En revanche le modle fait lhypothse quil y a homognit des autres coecients dans la population dentreprises. Un autre exemple de modle directement dduit de la thorie conomique est celui des demandes de facteurs. Si on spcie une fonction de cot C (Q, pX , u) , o Q est la production, pX le vecteur des prix et u le niveau de la technologie, la demande pour un facteur donn est donne par le Lemme de Shephard : X 0d = C (Q, pX , u) pX0
Comme dans le cas prcdent on se restreint en gnral une forme paramtrique de la fonction de cot. Une spcication standard est la fonction de cot translog avec deux facteurs, capital de cot exp(c) et travail de cot exp(w) : LogC = a + c + w + 0.5 c c2 + w,c cw + 0.5 w w2 + log (Q) log (u) La constante reprsente l aussi le niveau de la technologie. Ce type de spcication conduit des fonctions de demande spciant la part de chaque facteur. Par exemple pour le travail on a wL = + w,c c + w w Q On voit que dans cette spcication la perturbation na pas dinterprtation aussi naturelle que dans le cas prcdent. Il faut considrer que soit le paramtre est htrogne, soit la part observe scarte de la part thorique pour des raisons non expliques. Le modle peut aussi provenir dune relation moins structurelle entre les variables. Par exemple un type dquations trs souvent estim est lquation de Mincer qui fait dpendre le salaire du nombre dannes dtude et de lexprience. Par exemple : log (wi ) = a0 + as si + ae ei + ui o as reprsente le gain li une anne dtude supplmentaire et ae le gain li une anne dexprience supplmentaire. Les paramtres conomiques auxquels on
1.3. LES DONNES
sintresse alors sont le rendement de lducation ou le rendement de lexprience. La modlisation sous-jacente est celle du capital humain : le capital humain saccumule dabord durant la priode des tudes puis durant la vie active par lexprience, en apprenant sur le tas. Si on fait lhypothse dun march du travail concurrentiel, les dirences de rmunrations entre les agents traduiront des dirences dans le capital humain. On peut remarquer concernant cette quation que lon ne sintresse pas seulement expliquer les dirences moyennes de revenus entre les agents mais que lon souhaite aussi parvenir une estimation plus ambitieuse qui puisse conduire une interprtation causale : si on augmente la dure des tudes de un an dun individu quel sera son gain en terme de rmunration ? Un autre exemple dans lequel le modle entretient des rapports encore plus tnus avec des paramtres structurels mais possde une interprtation causale est celui de lincidence de la taille dune classe sur le taux de russite des lves de la classe. On peut lgitimement se poser la question de savoir si la rduction de la taille des classes conduit une amlioration du taux de russite scolaire. On peut ainsi considrer un modle du type : i = a0 + at taillei + xi ax + ui o i reprsente le taux de russite dune classe. Dans cette spcication que lon pourrait appeler fonction de production scolaire, on introduit un ensemble dautres variables. En eet on se doute bien que de nombreux facteurs aectent la russite dune classe. Par exemple lenvironnement scolaire est certainement un facteur important. On pourrait se dire que comme on ne sintresse pas la variable denvironnement on ne la met pas dans la rgression. Dun ct on y gagne car on na pas faire leort de mesurer cette variable, mais dun autre ct cette variable contribue aussi dterminer la taille de la classe. Il est possible que dans certains milieux dfavoriss la taille des classes soit plus petites. Si on ignore le rle de lenvironnement scolaire et quon ne lintgre pas dans la rgression, on risque de mesurer un eet de la taille de la classe qui soit un mixte de leet propre de la taille et de leet de lenvironnement. Il donc important dans ce type de modle, entretenant des rapports larges avec la thorie, dintroduire des facteurs annexes qui permettront disoler leet propre de la taille de la classe. On cherche contrler pour un certain nombre de facteurs extrieurs. Enn, on peut avoir une approche descriptive des donnes. Il est important de remarquer que dans ce cas les paramtres nont pas dinterprtation structurelle.
1.3
Les donnes
Les donnes constituent le cur de lconomtrie. Leur recueil et leur examen descriptif constituent aussi en gnral une part importante de tout travail conomtrique. Il y a principalement trois grands types de donnes :
CHAPITRE 1. INTRODUCTION 1. Donnes temporelles ou longitudinales. Elles sont indices par le temps t. On dispose ainsi de sries dites temporelles : yt , xt , par exemple les sries trimestrielles de la consommation et du revenu, de lination... En gnral le nombre dobservation T est assez rduit, de lordre de la cinquantaine. On note en gnral y le vecteur T 1 (y1 , . . . , yT )0 et x la matrice T (K + 1) : (x01 , . . . , x0T )0 o xt est le vecteur ligne form des valeurs des direntes variables explicatives (dont la constante) la date t. 2. Donnes en coupe. yi , xi . Leur indice correspond lidentiant dun individu ou dune entreprise. Ces donnes peuvent reprsenter par exemple le salaire dun individu pour y et son diplme, son exprience... pour les variables explicatives. Les chantillons dont on dispose sont en gnral de beaucoup plus grande taille : le nombre dobservation N dpasse le plus souvent la centaine et peut aller jusqu plusieurs dizaines de milliers. On note l encore en gnral y le vecteur N 1 (y1 , . . . , yN )0 et x la matrice N (K + 1) : (x01 , . . . , x0N )0 o xi est le vecteur ligne form des valeurs des direntes variables explicatives (dont la constante) pour lindividu i. 3. Donnes double indice, dites de panel : yit , xit . On dispose dinformations sur des individus i = 1, . . . , N que lon suit sur plusieurs priodes, t = 1, . . . , T. Les NT observations zit correspondent N observations vectorielles individuelles zi1 , . . . ziT . On note en gnral y i le vecteur T 1 (yi1 , . . . , yiT )0 et xi la matrice T (K + 1) : 0 (x0i1 , . . . , x0iT )0 et y le vecteur NT 1 y 1 , . . . , y N et x la matrice NT (K + 1) :
(x01 , . . . , x0N )0 o xi est la matrice forme des valeurs des direntes variables explicatives (dont la constante) pour lindividu i aux direntes dates.
1.4
Lestimation
b b = b y, x
Estimer le modle cest trouver une fonction des observations y et x
dont on souhaite quelle vrie certaines conditions. Par exemple lestimateur peut tre choisi tel Z quil soit "sans biais" E b b = b y, x f y, x dydx = b
b quil satisfasse un critre : minimisation de la somme des carrs des rsidus b = X X 2 b arg min (y xb) ; maximisation de la log-vraisemblance b = arg max log l (y, x) quil soit de variance minimale quil soit convergent, cest dire quil se rapproche de la vraie valeur du paramtre lorsque le nombre dobservations devient grand.
1.5. POURQUOI ESTIMER LE MODLE ?
1.5
Pourquoi estimer le modle ?
1.6
tester lexistence dun eet, i.e. vrier quune variable x a un eet spcique sur une variable y . Par exemple on peut sinterroger sur leet des taux dintrt sur linvestissement, cest dire sur lexistence dun canal montaire de la politique montaire. Dans le cadre dun modle acclrateur prot standard, I = Qt + + r + v , on peut sinterroger sur le fait que le coecient du taux dintrt soit nul ou non. On sintresse donc lhypothse H0 : = 0, et on souhaite que les donnes permettent de rpondre cette question. De faon similaire, dans le cas de la fonction de production scolaire on peut sinterroger sur lexistence dun eet de la taille de la classe sur le taux de russite. On va alors sintresser lhypothse H0 : at = 0, et l aussi on souhaite que les donnes nous permettent de choisir entre oui ou non. Lestimation du modle et la confrontation du paramtre zro est la voie la plus naturelle pour prendre cette dcision. La question est ici de savoir si le paramtre est signicatif au sens statistique du terme. quantier cet eet, ce qui est utile des ns de simulations. Par exemple dans les deux cas prcdents on est aussi intress par donner un ordre de grandeur de leet attendre dune variation de la variable. Si on voulait par exemple prendre une dcision de politique conomique consistant baisser la taille des classes, ce qui est trs coteux, on est intress certes savoir si cela aura un eet non nul mais aussi savoir lordre de grandeur de cet eet. Sil est trs faible on ne prendra pas alors aussi facilement la dcision de rduire la taille des classes. Lordre de grandeur du paramtre est aussi important. La question est ici de savoir si le paramtre est signicatif au sens conomique du terme. prvoir. Dans le modle yt = xt + ut , le paramtre peut tre estim sur les b. Connaissant xT +1 on calcule la prvision de y la observations t = 1, . . . , T : b date T + 1 : y bT +1 = xT +1
Do vient le modle ? - 2 de relations stochastiques
Le modle provient aussi de relations stochastiques entre les variables. Lcriture de la relation y = xb + u ne constitue pas en fait un modle conomtrique. Comme on la vu il sagit dune relation plus ou moins fonde. Si on ladmet fonde, le paramtre b a un sens en lui-mme. Il a une dnition conomique, par exemple llasticit de la production au capital. Pour que ce modle soit un modle conomtrique il faut lui adjoindre une restriction stochastique. Une faon naturelle de procder est de spcier la loi jointe des observations l (y, x; b) . Ceci revient spcier la loi du rsidu sachant les variables explicatives : l (u |x ) . La
CHAPITRE 1. INTRODUCTION
situation de base est celle dans laquelle cette loi est choisie comme une loi normale ne dpendant pas des variables x. On impose donc dans ce cas une restriction stochastique essentielle pour lanalyse conomtrique l (u |x ) = l (u) = (u/ ) / o est la densit de la loi normale. Imposer cette restriction permet de dnir la densit des observations l (y, x; b) = l (y |x; b ) l (x) = ((y xb) / ) l (x) / et donc destimer les paramtres en appliquant par exemple la mthode du maximum de vraisemblance. Lestimateur auquel on parvient est alors celui des moindres carrs ordinaires. On peut aussi faire des hypothses sur la loi de u sachant x qui soient moins fortes que la spcication de la loi complte. Par exemple on peut se contenter de spcier : E (u |x ) = E (u) = 0 Cette proprit est satisfaite si on spcie la loi conditionnelle de u sachant x comme une loi normale indpendante de x. Linverse est faux et cette spcication est donc moins exigeante que la prcdente. Elle permet, elle aussi, destimer le modle. Elle implique en eet des restrictions du type E (x0 (y xb)) = 0 appeles intuitivement conditions dorthogonalit dont on verra quelles sont susantes pour estimer les paramtres du modle. On remarque ce stade que dans cette spcication il y a dores et dj un paramtre de moins : la variance des rsidus nintervient plus. Ces restrictions stochastiques dnissent un paramtre statistique. On pourrait ainsi dnir autant de paramtres b quil y a de restrictions stochastiques envisageables, cest dire une innit. On pourrait par exemple considrer le paramtre bZ associ des restrictions stochastiques E (z 0 (y xbZ )) = 0 dont on verra quelles aussi peuvent tre utilises souvent pour conduire une estimation du paramtre. Il nest pas certain que le paramtre statistique associ une restriction stochastique concide avec le paramtre conomique. Lestimation peut ainsi tre non convergente, cest dire que la valeur du paramtre estime ne se rapprochera pas de la vraie valeur (conomique) du paramtre lorsque le nombre dobservation augmente, ou tre biaise, cest dire que lesprance du paramtre nest pas la vraie valeur (conomique) du paramtre. Une partie importante de lconomtrie, qui passe par une rexion sur le modle, les donnes et les mthodes consiste rechercher des conditions dans lesquelles le paramtre statistique concide avec le paramtre conomique. La question est-ce que p lim b b = b0 , la vraie valeur conomique du paramtre, est en dernier ressort la question la plus centrale et la plus importante de lconomtrie, et assez naturelle : est-ce que jai bien mesur ce que je voulais ? Cest beaucoup moins facile quil ny parat, car de nombreux facteurs aectent les dcisions individuelles et il est dicile disoler leet dune unique cause.
1.7. PLAN
1.7
Plan
Le cours dbute dans le chapitre 2 par lestimateur des moindres carrs, cest dire le vecteur des coecients de la projection orthogonale de y sur lespace vectoriel engendr par les variables explicatives. On prsente dabord les proprits algbriques de cet estimateur et ses proprits statistiques sous des hypothses minimales telles que lindpendance et lquidistribution des observations (Thorme de Frish-Waugh, Thorme de GaussMarkov, estimation des paramtres du second ordre, le R2 et lanalyse de la variance). On montre ensuite dans le chapitre 3 comment la spcication de la loi des rsidus comme une loi normale permet de complter lanalyse en particulier en permettant dobtenir la loi des estimateurs, tape incontournable pour procder des tests dhypothses simples (test de Student) ou dnir des intervalles de conance pour les paramtres. On examine ensuite dans le chapitre 4 et dans le mme cadre o la loi des rsidus est suppose normale, le cas important des estimations sous contraintes linaires (dans les paramtres). On prsente alors les tests dhypothses linaires sur les paramtres par le biais des tests de Fisher. Ces rsultats sont obtenus sous des hypothses fortes : Indpendance des rsidus et des variables explicatives : l (u |x ) = l (u) Homoscdasticit V (u |x ) = 2 I Spcication de la loi des rsidus : l (u) normale. Les chapitres suivants vont progressivement revenir sur chacune de ces hypothses. On va dabord examiner dans un cadre trs proche la loi asymptotique des estimateurs, cest dire lorsque le nombre dobservations devient grand. On va chercher dvelopper le mme genre de proprits permettant de faire de linfrence mais sans spcier la loi des rsidus. Les rsultats seront obtenus sous les hypothses : Absence de corrlation entre les rsidus et les variables explicatives E (ux0 ) = 0 Homoscdasticit V (u |x ) = 2 I Le comportement asymptotique des estimateurs est examin dans le chapitre 5. Dans le chapitre 6 on revient sur les hypothses dindpendance et dquidistribution des paramtres. On prsente lestimateur des moindres carrs gnralise ainsi que direntes faons de traiter la situation dite dhtroscdasticit, i.e. situation dans laquelle la variance des rsidus dpend des variables explicatives. On aborde aussi succinctement la question des donnes de panel et de lestimation de modles faisant intervenir des systmes dquations. Le cadre dans lequel on se situe est juste bas sur Absence de corrlation entre les rsidus et les variables explicatives E (ux0 ) = 0 Les chapitres 7, 8 et 9 utilisent la mthode des moindres carrs gnraliss en sappuyant sur une connaissance a priori de la structure de corrlation des rsidus. Le chapitre 7 sintresse plus particulirement au cas des rgressions empiles. Dans le chapitre 8, on considre le cas dune rgression en coupe dans laquelle on a htroscdascticit du rsidu, ce qui peut tre le cas par exemple pour une quation de salaire, la variance du rsidu tant gnralement croissante avec le revenu. Dans le chapitre 9, on considre le cas destimations o le rsidu peut tre modlis comme une srie temporelle de comportement
connu. On construit lestimateur les moindres carrs quasi-gnraliss en sappuyant sur la connaissance de la forme de lautocorrlation du rsidu. Dans le chapitre 10, on considre la situation dans laquelle E (ux0 ) 6= 0. On aborde la question de lidentication, fondamentale en conomtrie. On montre comment laide de variables extrieures z, dites instrumentales, il est possible destimer le paramtre dintrt. On revient donc en partie sur certains aspects des gnralisations prcdentes pour mieux se concentrer sur lhypothse didentication. Les rsultats sont obtenus sous les hypothses Absence de corrlation entre les rsidus et des variables z : E (uz 0 ) = 0, Rg (z 0 x) = dim x Homoscdasticit V (u |x, z ) = 2 I On prsente aussi deux tests importants : le test dexognit et le test de suridentication qui sont des guides importants dans le choix des variables instrumentales. Dans le chapitre 11 on prsente une gnralisation importante de la mthode variable instrumentale et qui englobe la plupart des mthodes conomtriques standards. Il sagit de la mthode des moments gnralise et on montre en particulier comment elle permet dtendre la mthode variables instrumentales au cas dans lequel les perturbations sont htroscdastiques et dautres cas tels que celui de lconomtrie des donnes de panel ou lestimation de systmes dquations. Les hypothses scrivent un peu diremment ce qui souligne le caractre gnral de cette mthode E (g (z, )) = 0 o z reprsente lensemble des variables du modle, cest dire inclus les y et les x. Dans le chapitre 12, on prsente succinctement certains modles non linaires proches des modle linaires. On sintresse ainsi au modles dits probit pour lesquels la variable expliquer na plus un support continu sur R mais prend ses valeurs dans {0, 1} . La modlisation sous-jacente consiste introduire une variable latente, i.e. non observe compltement I = zc + u et dont les ralisations gouvernent lobservation de la variable I : I = 1 I > 0 On aborde galement dautres situations importantes permettant daborder la questions de la slectivit des chantillons, cest dire la situation dans laquelle on nobserve la variable dpendante que sous une condition lie par ailleurs la variable dpendante elle-mme : y = xb + u I = zc + u
1.7. PLAN les ralisations de I gouvernent lobservation de la variable I et de la variable y : I=1 I > 0 y = y I 0 I = 0
Ce type de modle appel modle Tobit est souvent utilis, en particulier pour aborder lendognit de variables explicatives prenant la valeur 0 ou 1 dans des modles coecients variables yi = i Ii + vi Ce type de modle est souvent utilis pour aborder lvaluation des eets microconomiques des politiques de lemploi comme les stages de formations. Dans le chapitre 13, on sintresse lvaluation des politiques publiques. On introduit notamment lestimateur par dirence de dirences qui sapplique une exprience naturelle. On parle dexprience naturelle lorsquune partie de la population a fait lobjet dune nouvelle politique, tandis quune autre partie de la population na pas fait lobjet de cette politique et donc peut servir de population tmoin. On ne peut observer le comportement des individus touchs par une mesure sils navaient pas t touchs, on verra comment on peut nanmoins construire des estimateurs valuant limpact dune nouvelle politique.
10
Chapitre 2 Lestimateur des moindres carrs ordinaires

Lestimateur des moindres carrs ordinaires reste lun des estimateurs les plus frquemment utiliss. Il a de nombreux usage. On peut lutiliser par exemple pour procder une description des donnes : quelles sont les variables rendant compte le mieux de la variabilit dune variable dintrt. On peut aussi lutiliser dans de nombreuses autres situations pour estimer un paramtre auquel on donne un sens causal : que se passerait-il si on faisait varier une variable donne dun montant donn. Il est bas sur lhypothse essentielle que les rsidus et les variables explicatives sont orthogonaux. Il faut dautres hypothses pour driver les principales proprits de lestimateur. On verra dabord les proprits algbriques puis les proprits statistiques. Une partie du cours correspondra lextension et la reformulation des proprits de lestimateur des mco lorsque lon remet en cause ces hypothses. On gnralise ou adapte le plus souvent les proprits de lestimateur la condition que lhypothse centrale dabsence de corrlation entre perturbations et variables explicatives soit maintenue. On va voir dans ce chapitre la dnition de lestimateur des mco et son interprtation algbrique comme vecteur des coecients de la projection orthogonale de la variable dpendante sur les variables explicatives. On va galement obtenir deux proprits importantes de cet estimateur qui sont : la proprit de sans biais et une proprit doptimalit concernant la variance de lestimateur, connue sous le nom de Thorme de Gauss-Markov.
2.1
2.1.1
Dnition et proprits algbriques

Dnition
On considre une variable dintrt y appele variable dpendante et un ensemble de K variables dites explicatives auquel on adjoint une constante. On dispose de N observations. On note y = (y1 , . . . , yN ) lempilement des N observations de la variable dpendante. On 11
12
CHAPITRE 2. LESTIMATEUR DES MOINDRES CARRS ORDINAIRES
dnit de mme les vecteurs x1 , . . . , xK et x la matrice des variables explicatives laquelle 0 on adjoint le vecteur constant e = (1, . . . , 1) : x = e, x1 , . . . , xK est donc une matrice de dimension N (K + 1). Denition Lestimateur des moindres carrs ordinaires est dni comme le vecteur b de dimension K + 1, b = (b0 , . . . , bK )0 , des coecients de la combinaison linaire de e, x1 , . . . , xK ralisant le minimum de la distance de y lespace vectoriel de RN engendr 2 bmco = arg min y xb par e, x1 , . . . , xK , pour la norme euclidienne : b Proposition Sous lhypothse H 1 : les vecteurs e, x1 , . . . , xK sont indpendants, lestimateur des moindres carrs existe, est unique et a pour expression
1 b bmco = (x0 x) x0 y
2 0 Dmonstration Lobjectif minimiser est Ob (b) = y xb = y xb y xb . La condition du premier ordre scrit et la condition du second ordre dOb = 2x0 y xb = 0 db
d2 Ob = 2x0 x dnie positive dbdb0 Lhypothse dindpendance de e, x1 , . . . , xK revient faire lhypothse que x0 x est dnie positive. La condition du second ordre est ainsi satisfaite et la condition du premier ordre admet une solution
2.1.2
Interprtation gomtrique
On voit immdiatement compte tenu de la dnition de lestimateur des moindres carrs ordinaires que le vecteur rsiduel est orthogonal aux variables explicatives et donc aussi au vecteur prdit : x0 b u = 0 0 u = 0 b yb
2. Le vecteur rsiduel b u = yb y
On associe deux grandeurs importantes lestimateur des moindres carrs : b 1. Le vecteur prdit b y = xb
b y sinterprte donc comme la projection orthogonale de y sur lespace engendr par e, x1 , . . . , xK et lestimateur des moindres carrs ordinaires comme le vecteur des coefcients de cette projection.
2.1. DFINITION ET PROPRITS ALGBRIQUES
13
Remarque Comme la constante appartient lensemble des rgresseurs, on a immdiaX 1 0 tement e u b = 0, soit u b= N u bi = 0 : la moyenne du vecteur rsiduel est nulle. Les vecteurs prdits et rsiduels peuvent scrire directement partir du vecteur y . On a en eet b y = xb b = x (x0 x) x0 y = Px y u = yb b y = (IN Px ) y = Mx y
1
Les matrices Px et Mx sont les matrices des projecteurs orthogonaux sur respectivement lespace engendr par e, x1 , . . . , xK et son orthogonal. Comme on le vrie directement on a en eet
2 Px = Px 2 Mx = Mx Px + Mx = IN
et en outre Px v = v tq v = x
2.1.3
Thorme de Frish-Waugh
Le thorme de Frish-Waugh est une proprit algbrique de lestimateur des moindres carrs qui explicite linterdpendance des coecients de direntes variables dans une rgression. Il permet de rpondre la question : dans quel cas est-il ncessaire dintroduire toutes les variables dun modle dans la liste des rgresseurs ? Theoreme Dans la rgression de y sur un ensemble de variables explicatives x, si x se dcomposent en deux sous-ensembles x1 et x2 : x = x1 , x2 , les coecients des variables x1 peuvent tre obtenus indirectement en rgressant les rsidus Mx2 y de la rgression de la variable dpendante y sur les variables explicatives x2 , sur les rsidus Mx2 x1 des rgressions des variables x1 sur les variables explicatives x2 : b b1 = 1 0 0 Mx2 x1 Mx2 x1 Mx2 x1 Mx2 y
1 0 avec Mx2 = IN x2 x2 0 x2 x2
on peut alors retrouver les coecients des variables x2 en rgressant la partie inexplique y x1b b1 sur x2 : 1 0 b b2 = x2 0 x2 b1 x2 y x1b
14
Lorsque lon rintroduit cette expression dans la premire quation il vient 0 1 0 0 b b x1 y x1 b1 x2 x2 x2 x2 y x1 b1 = 0 soit b1 = 0 x1 0 Mx2 y x1b 0 b x1 Mx2 Mx2 y Mx2 x1 b1 = 0
De la deuxime quation on tire directement la deuxime partie du thorme 1 0 b x2 y x1b b1 b2 = x2 0 x2
Dmonstration Les coecients de la rgression de y sur x = x1 , x2 satisfont 0 b b x1 y x1 b1 x2 b2 = 0 x2 0 y x1b b1 x2b b2 = 0
2 = Mx2 . Do lexpression de b b1 compte tenu de Mx 2
Remarque La caractristique importante est dutiliser les rsidus des rgressions de x1 sur x2 . Il nest pas ncessaire dutiliser aussi les rsidus de la rgression de y sur x2 . Applications du Thorme de Frish-Waugh 1. Dans la rgression de y sur x1 et x2 on peut rgresser sparment y sur x1 et y sur x2 lorsque x1 et x2 sont orthogonaux. 2. Donnes de panel. Lorsque la rgression introduit des indicatrices spciques chaque individu (donc N variables, spcication dite eets xes) en plus dun ensemble de rgresseurs dintrt x1 , on peut dabord rgresser les variables dintrt et la variable dpendante sur les variables indicatrices puis utiliser les rsidus des rgressions correspondantes. Dans ces oprations puisque les variables indicatrices sont orthogonales les unes aux autres on peut eectuer les rgressions sur les indicatrices sparment. On vrie aisment que le coecient de la rgression dune variable sur une variable indicatrice dindividu est la moyenne des observations pour cet individu. Les rsidus des rgressions sont donc les carts aux moyennes individuelles des direntes variables dintrt. Lestimateur obtenu en rgressant les carts des variables explicatives aux moyennes individuelles sur la quantit analogue pour la variable dpendante est trs populaire et connu sous le nom destimateur Within (ou Intra). 3. Pour obtenir les coecients de x1 dans la rgression de y sur x1 et x2 , on peut rgresser y sur x1 et la prvision de x1 par x2 : Px2 x1 .
2.2. MODLE ET PROPRITS STATISTIQUES
15
2.2
Modle et proprits statistiques
Lestimateur des moindres carrs ordinaires a une dnition mathmatique. Il sagit du vecteur des coecients de la projection orthogonale de la variable dpendante sur les variables explicatives. Dans le cadre de lconomtrie on sintresse nanmoins lestimation des paramtres dun modle conomtrique. On considre ainsi le modle linaire suivant : y = b0 + b1 x1 + + bK xK + u Pour lequel on dispose de N observations. Le modle scrit aussi sous forme matricielle : y = xb + u On sintresse aux proprits statistiques de lestimateur des mco : quelle est son esprance, sa variance... Comme lestimateur est une fonction des observations, ses proprits statistiques dpendent de la loi des observations l (y, x). On les caractrise a partir dhypothses sur la loi conditionnelle de y sachant x, cest dire dans le cadre du modle prcdent comme des hypothses concernant la loi de la perturbation u conditionnellement aux variables explicatives.
2.2.1
Quand lestimateur des mco est-il sans biais ?
On sintresse dabord aux conditions sous lesquelles lesprance de lestimateur des mco concide avec la vraie valeur du paramtre. On dit alors que lestimateur est sans biais. Denition On dit quun estimateur b b y, x est sans biais lorsque Z Dans cette dnition E b b y, x = b b y, x f y, x dydx o f y, x reprsente la E b b y, x = b
densit jointe des variables explicatives et dependantes. Proposition Sous lhypothse H 2 : E (un |x ) = 0 n lestimateur des mco est sans biais. Dmonstration Lestimateur des mco scrit
1 b bmco = (x0 x) x0 y 1
= (x0 x) x0 (xb + u) 1 = b + (x0 x) x0 u
16
Lhypothse H 2 est extmement forte, puisquelle signie que lorsque les rsidus changent, les variables explicatives ne changent pas. Dans de nombreuses situations cette hypothses ne peut pas tre tenu. Cest par exemple le cas si on prend un modle oredemande dans lequel on observe les prix et les quantits. Si on considre lquation de demande par exemple, elle correspond lexistence dune relation dcroissante entre la variable dpendante, la quantit, et la variable explicative, le prix. Si il y a un choc de demande, le dsquilibre sur le march va se rsoudre par une hausse de la quantit change et une hausse du prix. Dans ce modle on ne peut donc pas tenir lhypothse H 2 par nature mme du modle auquel on sintresse. Dans dautres cas la situation peut tre plus favorable. Par exemple dans le cas de la taille de la classe et du taux de russite scolaire, il est vrai que lon peut contester le fait que E (u |taille ) = 0, mais il est possible quil existe un ensemble de variables explicatives x tel que lon ait u = xc + v et E (v |taille, x ) = 0. Autrement dit, on peut identier, mesurer et introduire dans la rgression les sources de variabilit communes la taille et au rsidu. Le modle devient tx = a0 + at taille + xb + v.
b y, x |x = b + (x0 x)1 x0 E (u |x ) . on sintresse E b b y, x |x . On a clairement E b Comme E (u |x ) = 0 par hypothse on a bien E b b y, x |x = b. On en dduit immdia =b b y, x |x tement E b b y, x = E E b
2.2.2
Quelle est la prcision de lestimateur des mco ?
Le fait que la proprit dabsence de biais soit satisfaite est trs intressant mais on a besoin dinformations plus prcises. On souhaite savoir si la vraie valeur peut se trouver loin de lestimateur. Une telle information est donne par la prcision de lestimateur et on ltudie en considrant la variance : Proposition sous les hypothses H1, H2, H3 : V (un |x ) = 2 n H4 : E (un um |x ) = 0 n, m la variance de lestimateur des mco conditionnellement au variables explicatives est donne par 1 V b bmco |x = 2 (x0 x) La variance non conditionnelle est donne par i h 1 V b bmco = 2 E (x0 x)
Dmonstration La variance conditionnelle est dnie comme h i h i0 b b b b b V bmco |x = E bmco E bmco |x bmco E bmco |x |x
2.2. MODLE ET PROPRITS STATISTIQUES bmco b = (x0 x)1 x0 u, Comme E b bmco |x = b et b 1 1 V b bmco |x = (x0 x) x0 E (uu0 |x ) x (x0 x)
17
prcis que le nombre dobservations est grand. On sintresse en gnral lcart-type des paramtres estims. La formule prcdente implique que lcart type dcrot comme N . Lorsque la taille de lchantillon est multiplie par 4 lcart-type nest divis que par 2. On imagine donc bien que dans un chantillon de petite taille la prcision de lestimateur est un problme important. On voit aussi que dans de grands chantillons de plusieurs centaines de milliers dobservations, la prcision des estimations sera trs grande. La formule prcdente montre aussi que lestimateur est dautant plus prcis que la variance de la variable explicative est importante. Cest parce que lon observe des situations direntes au regard des variables explicatives qui ne soient pas corrles avec les rsidus du modle conomique que lon peut identier leet de ces variables. Enn un dernier cas permettant dillustrer les implications de la formule prcdente est le cas dans lequel il y a deux variables explicatives par exemple de mme variance 2 et ayant un coecient de corrlation . Dans ce cas on calcule simplement 1 1 P 0 1 1 x xn = 2 N n n x (1 2 ) 1
La matrice E (uu0 |x ) a pour lments n, m E (un um |x ) . On dduit directement des hypothses que E (uu0 |x ) = 2 IN La matrice de variance a deux composantes : 2 et E (x0 x)1 . Plus 2 , i.e. la variance rsiduelle, est grande, moins lestimateur est prcis. Ceci implique que lon peut accrotre la prcision des estimateurs de variables dintrt en introduisant des variables additionnelles, satisfaisant les hypothses du modle linaire H 1 H 4, ds lors quelles contribuent rduire la variance rsiduelle. La matrice x0 x joue un rle central dans la variance individuelles 1 P 0 comme Pde 0lestimateur. On peut lcrire partir des observations 0 0 x x = n xn xn . On voit quune criture plus adapte est x x = N N n xn xn . Dans le du modle linaire simple avec une unique variable explicative centre la matrice 1cas P 0 1 2 scrit simplement n xn xn N comme 1/x = 1/V (x). On voit que dans ce cas la variance de lestimateur scrit V b b = 2 / (NV (x)) . Lestimateur est donc dautant plus
On voit que dans ce cas la prcision de lestimateur est dautant plus faible que les variables sont corrles. Au total, on voit que si les variables sont presque colinaires la prcision de lestimateur sera faible.
2.2.3
Lestimateur des mco est-il le plus prcis : le thorme de Gauss-Markov
On sintresse naturellement la question de loptimalit de lestimation du paramtre b. Ce paramtre, comme on la vu, est sans biais et il est en outre dni comme une
18
fonction linaire des observations. Ceci forme une classe destimateurs. La question laquelle rpond le thorme de Gauss-Markov est celle de loptimalit (au sens de la prcision) de lestimateur dans la classe des estimateurs linaires sans biais. Denition Un estimateur b b1 est optimal dans une classe destimateurs b b si toute estimation dune combinaison linaire du paramtre est estime plus prcisment avec b b1 quavec nimporte quel estimateur de la classe considre : b1 V 0b b , V 0b
Theoreme Gauss-Markov : Sous les hypothses H1-H4 lestimateur des moindres carrs ordinaires du modle y = xb + u est optimal dans la classe des estimateurs sans biais conditionnellement aux variables x. Dmonstration Soit e b un estimateur linaire sans biais du paramtre b. Il existe donc une matrice A tel que cet estimateur scrit e b = Ay. Lhypothse dabsence de biais signie E e b |x = b ce qui implique E Ay |x = E (A (xb + u) |x ) = Axb + AE (u |x ) = b Ax = IK +1 On a en outre e bE e b |x = A y E (y |x ) = Au. La variance dun estimateur li naire sans biais quelconque est donc de la forme V e b |x = V (Au |x ) = AV (u |x ) A0 = 2 AA0 compte tenu de lhypothse cruciale V (u |x ) = 2 IN . Comme IN = Px + Mx = x (x0 x)1 x0 + Mx , on a 1 = 2 AA0 = 2 A x (x0 x) x0 + Mx A0 V e b |x 2 0 1 0 0 0 = Ax (x x) x A + AMx A e b |x + 2 AMx A0 V b |x = V b
0 b b b1 Cette proprit signie que la matrice de variance V b1 de b1 vrie V b b est semi-dnie ngative. b , cest dire que V b b1 V b 0 V b
Comme E (u |x ) = 0. Labsence de biais signie Axb = b. Ce rsultat est vrai pour b quelconque donc pour tout b, cest--dire :
b |x = 2 (x0 x)1 , on a comme Ax = IK +1 et V b
et la matrice AMx A0 est ncessairement semi-dnie ngative
2.2. MODLE ET PROPRITS STATISTIQUES
19
2.2.4
Estimation des paramtres du second ordre
La variance des rsidus, intervenant dans lhypothses H 4, est un paramtre dit du second ordre car il correspond aux moments dordre 2 de la variable y conditionnellement aux variables explicatives. Cest un paramtre important plus dun titre. Dabord, il permet de mesurer la qualit de lajustement. En outre, comme on la vu, il intervient dans la matrice de variance-covariance des estimateurs et est lorigine de nombreux tests dhypothses. Il est donc lgitime de sintresser son estimation. Cette estimation fait intervenir le vecteur des rsidus estims u b = y xb b
est un estimateur sans biais du paramtre du second ordre 2 . Dmonstration Comme on la vu u b = Mx y = Mx u. On a donc On a donc 0 0 0 b = u Mx u = T r u Mx u = T r Mx uu u b0 u
Proposition Sous les hypothses H1 H4, lestimateur P 2 bn b u b0 u 2 nu = b = N K 1 N K 1
Exemple Application la prvision. On considre le modle yn = xn b + un pour lequel on a n = 1, . . . , N observations et satisfaisant les hypothses H1 H5. Connaissant xN +1 et faisant lhypothse que le modle reste valide pour cette observation, on souhaite estimer yN +1 . Dire que le modle reste valide signie que non seulement la relation entre yn et xn peut tre tendue lobservation N + 1 : yN +1 = xN +1 b + uN +1 mais encore que les hypothses stochastiques peuvent tre tendues linclusion de lobservation N + 1 en particulier ceci impose E (uN +1 |x, xN +1 ) = 0, V (uN +1 |x, xN +1 ) = 2 , E (uN +1 un |x, xN +1 ) = 0.
et Mx = IN x (x0 x)1 x0 do 1 1 T r (Mx ) = T r IN x (x0 x) x0 = N T r x (x0 x) x0 0 1 0 = N T r (x x) x x = N K 1
0 0 0 b |x = E T r Mx uu |x = T r E Mx uu |x E u bu 0 = T r Mx E uu |x = 2 T r (Mx )
20
CHAPITRE 2. LESTIMATEUR DES MOINDRES CARRS ORDINAIRES La prvision de yN +1 est
y bN +1 est le meilleur estimateur sans biais de yN +1 , linaire dans les observations y1 , . . . , yN . Ceci constitue une application directe du Thorme de Gauss Markov : si on considre un estimateur linaire sans biais y eN +1 de yN +1 . La variance de lerreur de prvision scrit 2 E (yN +1 y eN +1 |x, x ) = E ( x eN +1 |x, xN +1 )2 = E (xN +1 b y eN +1 |x, xN +1 )2 + N +1 N +1 b + uN +1 y E u2 N +1 |x, xN +1 puisque lestimateur est linaire en y et que y nest pas corrl uN +1 conditionnellement aux observations de x. Le problme se rsume donc chercher lestimateur linaire sans biais de variance minimale de la combinaison linaire xN +1 b du paramtre b. Le thorme de Gauss-Markov indique quil sagit de xN +1b bmco La variance de lerreur de prvision est h i 1 E (y bN +1 yN +1 )2 = 2 x0N +1 (x0 x) xN +1 + 1
Conditionnellement aux variables explicatives la prvision est sans biais : E (y bN +1 yN +1 |x, xN +1 ) = E xN +1 b bmco b uN +1 |x, xN +1 = 0
bmco y bN +1 = xN +1b
2.2.5
Analyse de la variance
Lanalyse de la variance est fonde sur lorthogonalit entre le vecteur des rsidus estims et de la variable prdite. y=y b+ u b Les rgressions que lon considre ayant un terme constant on a y = y b dont on tire : y ye = y b y be + u b compte tenu de lorthogonalit on peut donc crire lquation dite quation danalyse de la variance 2 P P P 2 b y b ( y y ) = y + nu bn 2 n n n n V (y ) = V (y b) + V (u b)
ou encore
La variance totale est la somme de la variance explique et de la variance rsiduelle. On introduit une quantit trs couramment utilise qui mesure la part de la variance explique par le modle. 2 b y be y ku bk2 2 0 1 R = = 1 2 2 ky yek ky yek Le R2 est frquemment utilis pour mesurer la qualit de lajustement. Nanmoins deux prcautions doivent tre prises :
2.3. VARIABLE OMISE ET RGRESSEUR ADDITIONNEL
21
Le R2 dpend du calibrage des observations. Par exemple si on considre une fonction de production y = + l + k + u lestimation va fournir un R2 beaucoup plus important que celui obtenu avec le modle identique mais expliquant la productivit y l = + ( 1) l + k + u On montre facilement que plus on tend lensemble des variables explicatives plus le R2 est grand. Ce nest donc pas ncessairement un bon critre de choix de modle. Pour cette raison on a introduit une quantit proche mais pas directement relie qui est le R2 ajust. Il est dni d0 une faon trs voisine du R2
2 Ra =1
2 (x0 x)1 , la variance de la kime composante de lestimateur des mco correspond au kime lments diagonal. Si on utilise les formules dinversion par bloc 11 1 A A11 A12 A12 1 1 , A = , A11 = A11 A12 A A= 21 22 22 A21 A21 A22 A A
Remarque Cette quation danalyse de la variance permet de prciser lexpression de la variance de chacune des composantes de lestimateur. Dans la formule gnrale V b bmco |x =
N 1 b2 ku bk2 / (N K 1) =1 = 1 1 R2 2 V (y ) N K 1 ky yek /N 1
Si on considre une variable xk particulire, alors, quitte rorganiser lordre des variables explicatives : x = (xk , xk ), o xk reprsente lensemble des variables explicatives autres que la kime, # " 0 0 x x x x k k k k x0 x = x0k xk x0k xk 1 1 0 0 0 x = x x x x x x0k xk = xk 0 Mxk xk = (N.V (xk |xk ))1 . et on a donc (x0 x) k k k k k k 11 V (xk |xk ) est la variance rsiduelle de la variable xk une fois pris en compte la part de la variance de la variable xk explique par les autres variables explicatives du modle. La variance de chacune des composante de lestimation du paramtre scrit donc V b bk = 2 / (NV (xk |xk )) = 2 /NVk|k
2.3 2.4
Variable omise et rgresseur additionnel
Rsum
1. On a vu dans ce chapitre la dnition algbrique de lestimateur des mco comme vecteur des coecients de la projection orthogonale de la variables dpendante sur
22
CHAPITRE 2. LESTIMATEUR DES MOINDRES CARRS ORDINAIRES lespace engendr par les variables explicatives. 2. Cet estimateur existe est unique sous lhypothse H 1 que les vecteurs des variables explicatives soient linairement indpendant. 3. On a vu sous quelle condition lestimateur des mco est un estimateur sans biais du paramtre conomique b dans le modle linaire y = xb + u. : Il sagit de lhypothse H 2 que lesprance des rsidus conditionnellement aux variables observables est nulle. 4. Sous les hypothses H 3 et H 4 que dans ce modle les perturbations sont conditionnellement aux variables explicatives des variances identiques et sont non corrles les unes avec les autres, onpeut donner lexpression classique de la matrice de variance de lestimateur V b b |x = 2 (x0 x)1 .
5. Sous ces mme hypothses lestimateur des mco est le meilleur estimateur linaire sans biais, au sens de la minimisation de la variance. 6. Linterprtation de cette formule conduit la conclusion que plus le nombre dobservations est grand, plus la variance rsiduelle 2 est faible, plus les variables explicatives prsentent de variabilit propre, plus lestimateur est prcis. 7. Le paramtre du second ordre 2 peut tre estim sans biais comme P 2 la moyenne des 2 carrs des rsidus tenant compte des degrs de libert : b = u bn / (N K 1) . 8. Le R2 est une mesure de la qualit de lajustement du modle aux donnes : il mesure la part de la variance totale explique par le modle. Ces rsultats sont importants : ils tablissent les conditions sous lesquelles les estimateurs sont sans biais et ils permettent de dterminer la prcision des estimations. Ils sont nanmoins insusants pour donner des intervalles de conance sur les paramtres estims et raliser des tests dhypothse. Pour aller plus loin il faut faire des hypothses supplmentaires. On peut procder de deux faons : 1. Lorsque le nombre dobservations est faible, on peut spcier la loi des observations conditionnellement aux variables explicatives. Ceci est fait dans la majeure partie des cas en spciant les rsidus comme suivant une loi normale. On peut alors caractriser la loi de lestimateur. On peut aussi dans ce cas estimer le modle par maximum de vraisemblance. On peut alors tester des hypothses dites simples (nullit dun paramtre). Ces tests sont appels test de Student. Ce cas est examin dans le chapitre 3. On peut aussi sur la base de cette hypothse estimer le modle en imposant des contraintes linaires sur les paramtres et tester lhypothse que ces contraintes sont acceptes. Les tests mis en oeuvres sont alors des test dits de Fisher. Ces aspects sont prsents dans le chapitre 4. 2. La deuxime faon est dtudier les proprits asymptotiques de lestimateur, cest dire lorsque le nombre dobservations devient grand. On montre dans le chapitre 5 que sans spcier la loi des rsidus mais en faisant des hypothses susamment
2.4. RSUM
23
fortes sur lpaisseur des queues de distribution des rsidus, on peut spcier la loi asymptotique de lestimateur.
24
Chapitre 3 Les MCO sous lhypothse de normalit des perturbations.

Dans ce chapitre on examine les proprits de lestimateur des mco lorsque lon fait lhypothse de normalit des perturbations. Plus prcisment on fait lhypothse Hn suivante. Hn : la loi de u conditionnellement aux variables explicatives x est une loi normale de moyenne nulle et de matrice de variance 2 IN . l (u |x ) = X 1 2 2 u / 2 N n 2 u |x N 0, 2 IN
Remarque Cette hypothse est plus forte que les hypothses H2 H4 puisquelle implique que le moment dordre 1 de u conditionnellement x est nul. cest dire lesprance On va voir que dans ce cas on peut prciser la loi de lestimateur du paramtre ainsi que celle de lestimateur de la variance des rsidus. On va aussi obtenir un rsultat central, le thorme de Cochrane, la base de tous les tests eectus partir de lestimateur des mco.
3.1
Normalit de lestimateur des mco
Proposition Sous lhypothse Hn , on peut spcier la loi jointe de lestimateur des mco et de lestimateur de la variance des rsidus conditionnellement aux variables explicatives : 1. Lestimateur du paramtre des mco b bmco est distribu comme une loi normale de moyenne b, la vraie valeur du paramtre, et de matrice de variance 2 (x0 x)1 : b bmco N b, 2 (x0 x)1 25
26CHAPITRE 3. LES MCO SOUS LHYPOTHSE DE NORMALIT DES PERTURBATIONS. 2. Lestimateur b2 , convenablement normalis, est distribu suivant une loi du 2 3. b bmco et b2 sont indpendants (Thorme de Cochran) b2 [N (K + 1)] 2 2 (N (K + 1))
On en dduit donc que ces deux vecteurs suivent une loi normale jointe, de moyenne visiblement nulle et dont on peut prciser la variance : 0 1 0 0 0 1 0 b b x ) x x ) x ( x ( x bb b b x x V = V Mx Mx u b u b 0 1 0 (x x) x = 2 x (x0 x)1 Mx Mx 0 1 0 (x x) x x (x0 x)1 x (x0 x)1 Mx 2 = Mx x (x0 x)1 Mx Comme Mx x = 0, on en dduit b bb V u b 0 1 0 x = 2 (x x) 0 Mx
Dmonstration Le rsultat concernant la normalit de lestimateur est immdiat. Il provient du fait que lestimateur des mco est linaire dans les observations de la variable dpendante. Comme conditionnellement x la variable dpendante est normale, lestimateur des mco est une combinaison linaire de variables normales et est donc lui mme un vecteur normal, caractris par ces deux premiers moments : son esprance dont on a vu quelle tait gale la vraie valeur du paramtre, et sa matrice de variance dont on a donn lexpression au chapitre prcdent, sous des hypothses plus gnrales que celle de la loi normale. De mme, les rsidus estims sont eux mmes normaux. On a en eet u b = Mx y = Mx u. 1 Par ailleurs, on a aussi directement b b b = (x0 x) x0 u. Finalement on peut spcier la loi jointe des rsidus estims et de lestimateur des mco : 0 1 0 b (x x) x bb = u Mx u b
Dont on dduit
1. lexpression de la variance de lestimateur des mco 2. lestimateur des mco et les rsidus estims sont indpendants (car tant tous les deux normaux et non corrls). Lestimateur des mco et lestimateur de la variance b2 = u b0 u b/ (N K 1) sont donc indpendants.
3.2. ECART-TYPES ESTIMS, TESTS ET INTERVALLES DE CONFIANCE 3. Les rsidus estims suivent une loi normale de matrice de variance 2 Mx .
27
On rappelle quune loi du 2 (L) L degrs de liberts a pour premier et second b2 2 2 moments E ( (L)) = L, V ( (L)) = 2L. On vrie donc que E [N (K + 1)] 2 = 2 N K 1. On vrie donc que lon a bien E b = 2 : lestimateur de la variance est sans biais. On apprend maintenant, grce la spcication normale la distribution de b2 lestimateur de la variance des rsidus et donc sa variance : on a V [N (K + 1)] 2 = 2 2 (N K 1), soit V b = 2 4 / (N K 1) . On voit donc que comme pour lestimateur des mco, lorsque le nombre dobservations devient grand la variance de lestimateur tend vers zero. Le rythme de convergence est en outre identique celui de lestimateur des mco. On remarque en revanche une spcicit de lestimateur de la variance : plus la dispersion des rsidus est importante, plus lestimateur est imprcis. Lestimation de la variance des rsidus peut tre intressante pour elle-mme, mais elle nous intresse en premier lieu car cest un paramtre important de la matrice de variance lestimateur du paramtre de premier intrt b. En eet, on a vu que b bmco |x 2 de 0 1 N b, (x x) , mais ce rsultat reste insusant dans la mesure o on ne connat pas la variance des rsidus.
Rappel : P 2 2 Si Z N (0, IL ) , alors par dnition kZ 2 k = Z 0 Z = L l=1 Zl (L) 0 Si P est un projecteur orthogonal sur un sous espace de dimension L1 alors Z P Z 2 (L1 ) (Voir annexe) b/ )0 (u b/ ) = On applique ce rsultat Z = u/ N (0, IN ) et P = Mx . On a : (u 0 0 0 0 2 2 (u/ ) Mx Mx (u/ ) = (u/ ) Mx (u/ ) . On en dduit que u bu b/ (N K 1) , puisque Mx est le projecteur orthogonal sur lorthogonal de lespace vectoriel engendr b = (N K 1) b2 , par les x donc de dimension N K 1. Finalement, comme u b0 u 2 b [N (K + 1)] 2 (N (K + 1)) 2
3.2
3.2.1
Ecart-types estims, tests et intervalles de conance

Ecart-type
La formule de la matrice de variance de lestimateur est utile V b bmco |x = 2 (x0 x)1 , mais elle nest pas directement exploitable car on ne connat pas la variance des rsidus 2 . Un estimateur naturel de cette matrice consiste remplacer la quantit inconnue 2 par un estimateur. 1 b b b2 (x0 x) V bmco |x = b b On a immdiatement le rsultat que V bmco |x est un estimateur sans biais de la matrice de variance de lestimateur mco du paramtre.
28CHAPITRE 3. LES MCO SOUS LHYPOTHSE DE NORMALIT DES PERTURBATIONS. On sintresse en fait quement la variance de chaque composante de plus spci b = 2 (x0 x)1 lestimateur 2 = 2 xkk o dans cette notation xkk est le k = V bk kk
kime lment diagonal de (x0 x)1 . Dans le chapitre prcdent on a vu que ce kime lment tait en fait linverse de la variance rsiduelle de la projection de xk sur les autres variables du modle (la variance propre de la kime variable) divise par le nombre dobservations. Un estimateur naturel de 2 k est b2 xkk b2 k =
Proposition Sous lhypothse Hn lestimateur de la variance de la kime composante du vecteur des paramtre suit, convenablement normalise une loi du 2 (N K 1) : [N (K + 1)] b2 k 2 (N (K + 1)) 2 k
q La quantit bk = b2 k est systmatiquement associ nimporte quelle estimation par les mco. Grce aux rsultats portant sur la loi de b2 on peut directement donner la loi de b2 k :
et est indpendant de lestimateur des mco b bmco .
3.2.2
Un rsultat central
On sintresse lobtention dintervalles de conance et des tests dhypothse simple 0 du type H0 : bk = b0 k pour une valeur donne de bk . Un cas trs frquemment examin est par exemple celui de la nullit dun paramtre (b0 k = 0). Pour obtenir des intervalles de conance ou pour eectuer des tests, on a besoin dobtenir une fonction des estimateurs qui ne dpende pas des paramtres. Proposition Sous lhypothse de normalit des perturbations Hn , pour une composante donne k du paramtre on a b bk bk Student (N K 1) bk
Dmonstration Ce rsultat dcoule directement de la dnition des lois de Student : Si X1 suit une loi normale N (0, 1) et X2 suit une loi du 2 (H ) H degrs de libert, et si X1 et X2 sont indpendants alors X1 S=p Student (H ) X2 /H
3.2. ECART-TYPES ESTIMS, TESTS ET INTERVALLES DE CONFIANCE
29
Les lois de Student sont des lois symtriques de moyenne nulle et de variance H/ (H 2) o H est le nombre de degrs de libert. Plus H est faible, plus les queues de distribution sont paisses. On voit quil y a un nombre minimal de degrs de libert pour que le moment dordre 2 existe : H > 2.
bk 2 (N (K + 1)) et est indpendant de b bk . On prcdent tablit que [N (K + 1)] 2 k a donc par application directe de la dnition b bk bk / k b bk bk r Student (N K 1) = bk b2 k [N (K + 1)] 2 / [N (K + 1)]
k
b / k N (0, 1) . En outre le rsultat ) . On en dduit donc que b b Ici b bk N (bk , 2 k k k

2
3.2.3
Intervalle de conance
Denition Un intervalle de conance pour le paramtre bk au niveau est un intervalle [a, a] tq P (bk [a, a]) = 1 . Lemme Soit z une variable alatoire dont la distribution f est symtrique autour de zro, croissante pour z < 0, continue et de fonction de rpartition F, tout intervalle [z, z ] tel que P (z [z, z ]) = p0 donn, de longueur minimale est symtrique. Dmonstration Ce rsultat se montre trs facilement. La symtrie de la distribution scrit f (z ) = f (z ) et implique F (z ) = 1 F (z ). On a F (z ) F (z ) = p0 , donc la longueur de lintervalle est L = z z = F 1 (F (z ) + p0 ) z. La drive de la longueur de lintervalle par rapport z est dL/dz = f (z ) /f (z ) 1. Si f (z ) < f (z ) , alors dL/dz < 0. On pourra diminuer la longueur de lintervalle en augmentant z. Comme f est croissante dans le domaine ngatif accrotre z conduit accrotre f (z ) /f (z ) 1. Lextremum de la longueur, obtenu pour f (z ) /f (z ) 1 = 0 est donc bien un minimum. Pour trouver un intervalle de conance pour le paramtre bk on applique directement les rsultats du lemme : b Proposition q Sous les hypothses Hn , soit bk la kime composante de lestimateur des b2 mco et bk = k lestimateur de son cart-type, alors lintervalle de conance de longueur minimale du paramtre bk au niveau est h i b bk bk tN K 1 (1 /2) , b bk + bk tN K 1 (1 /2) o tN K 1 (1 /2) est le quantile dordre 1 /2 dune loi de Student N K 1 degrs de libert.
30CHAPITRE 3. LES MCO SOUS LHYPOTHSE DE NORMALIT DES PERTURBATIONS. Le quantile dordre 1 /2 dune loi de Student N K 1 degrs de libert est la quantit t telle que pour une variable S suivant une loi de Student N K 1 degrs de libert, P (S < t) = 1 /2, et de faon similaire P (S > t) = /2 Dmonstration Par application des rsultats prcdents, on a immdiatement que S = b bk bk Student (N K 1). Comme la loi de Student est symtrique, on en dduit que bk lintervalle de longueur minimale auquel S appartienne avec probabilit 1 est P (S [tN K 1 (1 /2) , tN K 1 (1 /2)]) = 1 dont on dduit immdiatement lexpression des bornes de lintervalle de conance. Remarque Ce rsultat stend directement au cas dans lequel on cherche un intervalle de conance pour une combinaison linaire donne des paramtres : 0 b. En eet, on bmco : 0b bmco trouve directement la loi de lestimateur q de la combinaison linaireq 0b 0 2 0 0 1 1 N b, (x x) . En notant b = 2 0 (x0 x) et bb = b2 0 (x0 x) 1 , on vrie aisment i des h que lintervalle de conance pour la combinaison linaire donne 0b 0b bb tN K 1 (1 /2) , bmco + bb tN K 1 (1 /2) paramtres est bmco
3.2.4
Tests de la forme 0 b =
On rappelle dabord des lments basiques concernant les tests. On se rfre pour cela Gouriroux-Monfort. Les notions importantes sont celles dhypothse nulle, note H0 , et dhypothse alternative, note H1 . Elles correspondent une partition de lensemble des lois possibles des observations. Ici compte tenu du fait quon se situe dans un cadre paramtrique (la loi des observations est spcie intgralement), lensemble des lois possibles est dcrit par lensemble des valeurs possibles de tous les paramtres : b, 2 . Les hypothses que lon va considrer ici portent sur la valeur dune composante du paramtre ou dune combinaison linaire du paramtre : bk = b0 k pour une valeur donne de 0 0 bk , un cas trs frquent tant celui de la nullit, bk = 0. On examinera dans le chapitre suivant des hypothses portant sur plusieurs paramtres, mais les rappels que lon eectue ici valent pour lune et lautre situation. Dune faon gnrale, elles vont scrire sous la forme H0 : 0 et H1 : 1 . Un test pur est une rgle de dcision pure cest dire une fonction des observations conduisant choisir entre la dcision d0 : H0 est vraie, et d1 : H1 est vraie. A un test pur est associ une rgion critique, en gnral note W dnie comme lensemble des ralisations des observations conduisant prendre la dcision d1 . Les tests peuvent aussi en thorie tre mixtes. Dans ce cas la rgle de dcision est mixte. Il sagit alors dune fonction des observations associant la dcision d1 une probabilit : compte tenu des observations y on accepte lhypothse H1 avec une probabilit (y ). Il y a trois grandeurs essentielles associes un test : le risque de premire espce, le risque de deuxime espce et la puissance du test. Le risque de premire espce correspond la probabilit de de
3.2. ECART-TYPES ESTIMS, TESTS ET INTERVALLES DE CONFIANCE
31
rejeter H0 alors que H0 est vraie (i.e. rejeter H0 tort). Pour un test pur caractris par une rgion critique W , il sagit de la fonction P (W ) dnie sur 0 Pour un test alatoire, elle est dnie par E ( (y )). On la note (, ) . Dans cette notation, reprsente le test et la valeur du paramtre. Le risque de deuxime espce est linverse la probabilit daccepter tort lhypothse nulle (i.e. la probabilit de rejeter H1 alors que H1 est vraie. Il est dni comme 1 E ( (y )) pour 1 et dans le cas dun test pur par 1 P (W ). On note en gnral cette quantit (, ) Enn la puissance du test reprsente la probabilit de rejeter raison lhypothse nulle. On la note (, ). Cette fonction est dnie sur 1 et troitement lie la fonction de risque de deuxime espce (, ) = 1 (, ). On prfrerait des tests pour lesquels les risques de premires et seconde espce soient les plus faibles possibles. Cest dire quun test est prfr un autre si les fonctions de risque de premire et seconde espce sont plus faibles. Il existe clairement des tests minimisant sparment chacun des risques (le test correspondant au rejet systmatique de H1 minimise le risque de premire espce). Nanmoins on montre facilement quil ny a pas de test annulant simultanment les deux risques : il est donc ncessaire de se rfrer un principe permettant de slectionner un test. Le principe retenu est celui de Neyman qui consiste privilgier la minimisation du risque de seconde espce. On considre des classes de tests caractriss par un seuil (ou encore niveau) donn . Ces tests sont tels que le risque de premire espce soit uniformment infrieur . Parmi ces tests, on souhaiterait slectionn ceux maximisant la puissance. Cest ce que lon appelle des tests uniformment plus puissants. Ils sont tels quils maximisent parmi les tests de niveaux la puissance pour toute valeur du paramtre correspondant lhypothse alternative. De tels tests nexiste en gnral pas et on adjoint dautres proprits : tests sans biais, tests invariants... qui permettent de restreindre encore la classe des tests examins. La proprit de tests sans biais au niveaux correspond pour les tests de niveau au fait que la puissance du test pour toute valeur du paramtre sous lhypothse alternative soit suprieure . On considre le test de lhypothse nulle H0 : bk = b0 k contre lhypothse H1 : bk 6= b0 k
On a alors le rsultat suivant
Proposition Considrant la statistique

0 b b = bk bk S bk
le test dni par la rgion critique o n o n b b b b W = S S < tN K 1 (1 /2) S S > tN K 1 (1 /2)
32CHAPITRE 3. LES MCO SOUS LHYPOTHSE DE NORMALIT DES PERTURBATIONS. o tN K 1 (1 /2) est le quantile dordre 1 /2 dune loi de Student N K 1 degrs de libert est un test uniformment plus puissant sans biais au niveau de lhypothse H0 contre H1 . On vrie aisment que ce test est un test au niveau . En eet sous lhypothse nulle b b b0 k on a vu que k suit une loi de Student N K 1 degrs de libert. La probabilit bk de rejeter lhypothse nulle (la probabilit de la rgion critique) dans ce cas est donc bien . Montrer la proprit de sans biais et la proprit concernant la puissance est plus compliqu (voir les rsultats dans Gourierouxn et Monfort sur le modle exponentiel). On o b b peut aussi dnir la rgion critique par W = S S > tN K 1 (1 /2)
b b b0
k Mise en oeuvre du test : on calcule la statistique de Student k . Suivant les valeurs bk prises par cette statistique, on accepte ou rejette lhypothse nulle. Si la statistique prend des valeurs extrmes on rejette lhypothse, sinon on laccepte. Le seuil de rejet dpendent du niveau du test. On considre en gnral des tests au seuil de 5%. Le quantile dordre 97, 5% = 1 2, 5% dune loi de Student dpend du nombre de degrs de libert. lorsque ce nombre devient grand, ce quantile est 1.96. On sera donc amen rejeter au seuil de 5% une hypothse ds lors que la statistique de Student en valeur absolue est suprieur 1.96. Lorsque le nombre de degrs de libert est plus faible, cest dire lorsque le nombre de variables explicatives est plus important ou lorsque le nombre dobservations est plus faible, le seuil augmente. Par exemple pour 5 degrs de libert, le seuil de la rgion critique est de 2,56 ; pour 500 degrs de libert de 1,96 (voire gure 3.1) Ce test est parfois caractris par ce que lon appelle la p-value. Il sagit contrario du niveau du test pour lequel observe serait le seuil. Elle est donc dnie par la la statistique b b lorsque S suit une loi de Student quantit p b value = P |S | > S = 2 1 F S N-K-1 degrs de libert. On acceptera lhypothse nulle pour un test au niveau si la p b value est suprieure . En eet compte tenu du fait que F (tN K 1 (1 /2)) = 1 /2, on a 2 (1 F (tN K 1 (1 /2))) = b p b value > S < tN K 1 (1 /2)
Un test systmatiquement mis en oeuvre est le test dit de signicativit des paramtres. Il correspond lhypothse nulle bk = 0. La statistique de Student associe ce test, nomme bk . En gnral nimporte quelle estimation dun modle t de Student est dnie par b bk / linaire fait par dfaut lhypothse de normalit des rsidus. Elle produit la valeur estime du paramtre la valeur estime de lcart-type, la valeur du t de Student (correspondant lhypothse de signicativit du paramtre) et la p-value correspondant ce test.
3.3
Un exemple
Pour illustrer les tests et leur utilisation, on peut calculer la fonction de puissance du test lorsque la vraie valeur du paramtre varie. On va considrer un modle une unique
3.3. UN EXEMPLE
33
0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -5 -3 -1 1 3 5
Fig. 3.1 Distribution de Student pour 5 et 500 degrs de libert
34CHAPITRE 3. LES MCO SOUS LHYPOTHSE DE NORMALIT DES PERTURBATIONS. variable y = 1 + xb0 + u et on va simuler ce modle pour dirente vraie valeur du paramtre, allant de 0 2. On va sintresser au test de lhypothse H0 : b = 1. Pour calculer la fonction de puissance en un point donn b0 , on utilise des simulations. On titre un chantillon Ech1 avec b0 comme vraie valeur du paramtre. Sur cet chantillon on applique le test. On retient la dcision d1 = 1 si on rejette et d1 = 0 sinon. On rplique cette opration avec la mme vraie valeur sur M chantillons, avec M grand. On a ainsi un ensemble de valeur (di )iM . On approxime la valeur de la fonction de puissance par (b0 ) = di . Cest bien un estimateur du nombre de fois ou on a rejet raison lhypothse. Bien sur, lorsque b0 = 1, la quantit calcule nest pas la puissance mais le risque de premire espce. On peut procder ainsi pour direntes taille dchantillons. On considre le cas dans lequel il ny a que 20 observations, puis on augmente progressivement ce nombre. On considre respectivement N = 50, 100, 500, 2000. La gure 3.2 montre le rsultat de ces estimations. On voit que le graphe de la fonction de puissance a une forme de vasque. Si on se situe au niveau de la valeur teste b0 = 1, on trouve bien que la proportion de rejet est de 5%, correspondant au risque de premire espce, et ce quelque soit le nombre dobservations. Lorsque lon scarte de la vraie valeur on voit que la courbe crot : on rejette de plus en plus souvent le paramtre. La croissance est trs vive lorsque le nombre dobservation est grand : si la vraie valeur est de 0.95, on va rejeter lhypothse dans 60% des cas. Par contre, dans le cas de 20 observations, il faut que la vraie valeur scarte de plus de 0.5 pour que lon atteigne des taux de rejet similaire. Ce rsultat mrite dtre not : avec un petit nombre dobservations, on est amen accepter tort lhypothse dans 40% des cas mme lorsque la vraie valeur est assez loigne. Lorsque lcart la valeur teste augmente, la probabilit de rejet tend vers 1. Cette valeur est trs rapidement atteinte lorsque le nombre dobservations est grand, pour des nombres plus petits il faut des carts plus importants. Remarque Dans le cas o la variance des rsidus est connu, on peut trs facilement calculer la fonction de puissance. En eet dans ce cas b b b0 N N (0,1) / x b b1 N N (0,1) / x
Sous H0 : b0 = 1, on a donc
et a rgion critique du test est ) ( ) ( b b b1 b1 N < qn,/2 N > qn,1/2 W = / x / x
3.4. COMPARAISON AVEC LESTIMATEUR DU MAXIMUM DE VRAISEMBLANCE35 cest dire en faisant intervenir la vraie valeur du paramtre ( ) ( ) b b b b0 b b0 b0 1 b0 1 W = N < qn,/2 + N N > qn,1/2 + N / x / x / x / x On en dduit facilement la fonction de puissance b0 1 b0 1 P (b0 ) = qn,/2 + N + 1 qn,1/2 + N / x / x On voit quau voisinage de b0 = 1, la fonction de puissance se dveloppe en 2 b0 1 P (b0 ) = + qn,1/2 qn,1/2 N / x
Comme la fonction x (x) est dcroissante pour x > 1, que pour des valeurs de faibles qn,1/2 est plus grand que 1 et que qn,1/2 croit avec , plus est lev, plus qn,1/2 qn,1/2 est grand. On voit que dans ces conditions, les tests ayant des risques de premire espce faibles auront peu de puissance pour des vraies valeurs au voisinage de la valeur traite. On voit aussi que la dpendance dans la taille de lchantillon est en N. Il est clair que lorsque N tend vers linni la puissance du test tend vers 1. Pour tudier la puissance dun test on sintresse en gnral ce que lon appelle des alternatives locales en dterminant la puissance pour b0 (N ) = 1 + / N o 1 est la valeur teste et une direction donne dans lespace des paramtre (ici comme le paramtre est de dimension 1 cette caractristique tombe).
3.4
Comparaison avec lestimateur du Maximum de Vraisemblance
Proposition Lestimateur du maximum de vraisemblance du paramtre b est identique lestimateur des mco. Il a les mmes proprits que lestimateur des mco : sous les hypothses H 1 H 4 & Hn , il suit une loi normale centre sur la vraie valeur du paramtre et ayant pour matrice de variance Vb = 2 E (x0 x)1 . Lestimateur du maximum de vraisemblance du paramtre du second ordre 2 se dduit linairement de lestimateur des mco de ce paramtre par application dun facteur (N K 1) /N. Cet estimateur nest donc pas sans biais, mais il est indpendant de lestimateur du MV du paramtre b.
On peut aussi directement appliquer lestimateur du maximum de vraisemblance aux donnes. La vraisemblance scrit : L y, x, b, 2 = 0.5N log (2 ) 0.5N log 2 + 0.5 (y xb)0 (y xb) / 2
36CHAPITRE 3. LES MCO SOUS LHYPOTHSE DE NORMALIT DES PERTURBATIONS.
100%
80%
60%
40%
20%
0% 0 0.2 0.4 n=20 0.6 n=50 0.8 n=100 1 1.2 n=500 1.4 n=2000 1.6 5% 1.8 2
Fig. 3.2 Fonction de puissance du test de Student en fonction du nombre dobseravtions
3.5. RSUM
37
3.5
Rsum
1. Dans ce chapitre on a examin les proprits de lestimateur des mco lorsque la loi de u conditionnellement aux variables explicatives x est une loi normale de moyenne nulle et de matrice de variance 2 IN . 2. On a montr que lestimateur des mco suit une loi normale, que lestimateur de la variance des rsidus suit convenablement normalis une loi du 2 et que ces deux estimateurs sont indpendants. 3. On a vu que lon pouvait utiliser ces rsultats pour obtenir un estimateur sans biais de la matrice de variance de lestimation du paramtre. 4. On a vu que pour une composante donne k du paramtre 5. On a appliqu ce rsultat pour dnir une rgion de conance pour le paramtre et mettre en oeuvre des tests.
b bk bk bk
Student (N K 1)
6. On a vu en particulier que la rgion critique pour le test de signicativit dun paramtre correspondait des valeurs extrmes du t de Student. Le caractre extrme sapprciant par rapport au niveau du test.
3.6
Annexe : Distribution de la norme de la projection dun vecteur normal
Considrons Z N (0, IL ) , et P est un projecteur orthogonal sur un sous espace de 0 dimension L1 alors Z P Z 2 (L1 ). Lhypothse sur P revient dire que P est une matrice symtrique et que ses valeurs propres sont 0 ou 1. Comme P est symtrique, on peut la diagonaliser dans le groupe orthoe = Diag( eQ, avec Q0 Q = IL et P gonal. On peut donc crire P = Q0 P 1, . . . , 1 , 0, . . . 0) | {z } On dnit Z = QZ. Z est aussi un vecteur normal N (0, IL ) puisque
L1 lments non nuls
1. Cest un vecteur normal puisquil est combinaison linaire dun vecteur normal 2. Il est desprance nulle puisque E (Z ) = E (QZ ) = QE (Z ) = 0 3. Il est de variance identit puisque V (Z ) = E (Z Z 0 ) = E (QZZ 0 Q0 ) = QE (ZZ 0 ) Q0 = QIL Q0 = QQ0 = IL 0 0 eQZ = Z 0 P eZ = PL1 Z 2 . Cest donc la somme du carr On a alors Z P Z = Z Q0 P l=1 l de L1 variables normales indpendantes de moyenne nulle et de variance 1. Par dnition elle suit un 2 (L1 )
38CHAPITRE 3. LES MCO SOUS LHYPOTHSE DE NORMALIT DES PERTURBATIONS.
Chapitre 4 Estimation sous contraintes linaires

On peut souhaiter estimer un modle conomtrique linaire en incorporant une information a priori sur les paramtres prenant la forme de contraintes linaires. On peut aussi vouloir tester si certaines relations entre les paramtres sont bien acceptes par les donnes. Les rsultats obtenus au chapitre prcdent ont montr comment tester des hy0 pothses trs simples, scrivant sous la forme H0 : bk = b0 k , o bk est une valeur donne. On va examiner ici un cas un peu plus gnral dans lequel les hypothses que lon veut tester, ou bien les contraintes que lon veut imposer font intervenir une ou plusieurs combinaisons linaires des paramtres. On va montrer obtenir un estimateur dirent de celui des moindres carrs ordinaires, appel estimateur des moindres carrs contraints (mcc) et on va montrer ses deux proprits principales : lestimateur des mcc est toujours plus prcis que lestimateur des mco ; lestimateur des mcc est non biais seulement si la vraie valeur du paramtre satisfait les contraintes imposes. Il y a donc un arbitrage entre robustesse et prcision des estimateurs. Un tel arbitrage est trs frquent en conomtrie. On va aussi introduire un test trs utilis permettant de tester des contraintes linaire. Ce test est connu sous le nom de test de Fisher, et on va voir comment le mettre en oeuvre simplement partir de deux rgressions, lune par les mcc et autre par les mco. Exemple Homognit du progrs technique. On considre une fonction de production faisant intervenir le capital et le travail. On fait lhypothse que le facteur travail nest pas homogne. Il fait intervenir dirents types de main doeuvre, pas tous aussi ecace les uns que les autres. Y = F (ACI CI, AK K, A1 L1 , . . . , AM LM ) La drive logarithmique scrit donc d log Y = d log F d log F (d log CI + d log ACI ) + (d log K + d log AK ) + d log CI d log K d log F d log F (d log L1 + d log A1 ) + + (d log LM + d log AM ) d log L1 d log LM 39
40
CHAPITRE 4. ESTIMATION SOUS CONTRAINTES LINAIRES
Sous lhypothse de rendements constants et de concurrence parfaite sur le march des biens et des produits, la part de la rmunration de chaque facteur dans la production log F CI est gale llasticit de la production. On peut donc mesurer ddlog = CI = cCI , CI Y d log F d log F ck K wm Lm = K = Y et d log Lm = m = Y . On a donc lquation : d log K d log SR = CI d log ACI + K d log Ak + 1 d log A1 + + M d log AM o d log SR = d log Y CI d log CI K d log K 1 d log L1 M d log LM mesure le Rsidu de Solow, cest dire la part de la croissance qui nest pas explique par celle des facteurs de production. On suppose que les entreprises peuvent ou non adopter une innovation. On considre I une variable indicatrice prenant la valeur 1 si une entreprise a adopt une innovation et 0 sinon. On modlise d log Am = a0m + aIm I + u Les gains decacit des facteurs de production font donc intervenir un terme xe propre au facteur, un terme dpendant du fait que lentreprise ait innov et un terme alatoire commun tous les facteurs. On obtient alors lquation d log SR = K . (a0K a0CI ) + 1 . (a01 a0CI ) + + M (a0M a0CI ) + +I CI .aICI + I K .aIK + I 1 .aI 1 + + I aIM + u o on utilise le fait que la somme des parts vaut 1. Les rgresseurs sont donc les parts des facteurs et les parts des facteurs interragies avec la variable dinnovation. On peut sur cette base formuler un certain nombre dhypothses : H0(L) : Homognit de leet de linnovation sur le facteur travail. aI 1 = = aIM H0(L,K,CI) : Homognit de leet de linnovation sur les facteurs. aICI = aIK = aI 1 = = aIM H0(L=K=CI=0) : Absence deet de linnovation sur les facteurs. aICI = aIK = aI 1 = = aIM = 0 H0(K=CI=0) : Absence deet de linnovation sur le capital et les consommations intermdiaires. aICI = aIK = 0 H0(K=CI=0,L) : Absence deet de linnovation sur le capital et les consommations intermdiaires et homognit sur le travail. aCI = aIK = 0, aI 1 = = aIM
4.1. FORMULATION Le nombre de contraintes est bien sr dirent dune hypothse lautre Hypothse H 0(L) H 0(L, K, CI ) H 0(L = K = CI = 0) H 0(K = CI = 0) H 0(K = CI = 0, L) Plusieurs questions se posent : Nombre de contraintes M 1 M +1 M +2 2 M +1
41
2. Quelles sont les consquences de cette prise en compte pour les estimations obtenues ? On va voir que les estimations obtenues sont toujours plus prcises que celles des mco mais que par contre elles ne sont sans biais que si la contrainte impose est vrie par la vraie valeur du paramtre. Il y a donc un arbitrage que lon retrouve souvent en conomtrie, entre robustesse et ecacit. La robustesse correspond lobtention destimateurs non biaiss sous des hypothses plus faibles. Ici lestimateur des mco est robuste car il est sans biais que les contraintes soient satisfaites ou non par la vraie valeur du paramtre. Lecacit correspond lobtention destimateurs les plus prcis possibles. Ici lestimateur des mco nest pas le plus ecace puisque lestimateur des mcc a une variance plus faible. 3. Peut-on tester linformation a priori ? Dans le cas prsent, on pourrait tester lhypothse de constance des rendements avec un test de Student. Nanmoins, on va voir que dans le cas gnral, lorsquil y a plus dune contrainte, un tel test nest plus susant. On va introduire un test trs courant qui gnralise le test de Student : le test de Fisher. Comme prcdemment, alors que lon peut rpondre aux deux questions prcdentes dans un cadre gnral ne faisant des hypothses que sur les moments dordre 1 et 2 des perturbations conditionnellement aux variables explicatives, la possibilit deectuer des tests require de spcier la loi conditionnelle des perturbations
1. Comment tenir compte de cette information a priori dans la procdure destimation des paramtres du modle ? On va introduire un nouvel estimateur : lestimateur des moindres carrs contraints : b bmcc
4.1
Formulation
On considre le modle linaire : y =xb+u
42
dans lequel on fait les hypothses H1-H4 et pour lequel la vraie valeur du paramtre vrie le systme de p contraintes linaires : Rb = r R est une matrice donne p (K + 1), et r un vecteur donn p 1. Il y a de toutes vidences des contraintes qui psent sur cette formulation. 1. Il ne doit pas y avoir de contraintes redondantes. Ceci impose que R0 = 0 = = 0 2. Il doit y avoir une solution non unique lquation Rb = r Ces deux contraintes imposent que R soit de rang p et que le nombre de contraintes p soit au maximum gal (K + 1) 1. En eet si on en avait K + 1 ou plus, on pourrait en slectionner K + 1 par exemple R1 b = r1 et on pourrait alors calculer le paramtre 1 b = R1 r1 . il ny aurait plus de problme destimation. Exemple Considrons nouveau lexemple prcdent. Le modle scrit d log SR = K .b0K + 1 .b01 + + M b0M + +I CI .aICI + I K .aIK + I 1 .aI 1 + + I aIM + u Dans le cas de lhypothse H 0L : aI 1 = = aIM , on peut crire les contraintes sur les paramtres comme aI 2 aI 1 = 0, , aIM aI 1 = 0, cest dire : 0 0 ( b , a , a ) ICI IK 0 1 1 0 0 aI 1 . . a . . I 2 =0 0 . 0 . 0 . . 0 1 0 0 1 . aIM
4.2
LEstimateur des Moindres Carrs Contraints (MCC)
Denition Lestimateur bmcc de b est dni comme le paramtre minimisant la somme des carrs des rsidus et satisfaisant les contraintes Rb = r : minb (y x b)0 (y x b) Sc : Rb = r Proposition Lestimateur des MCC a pour expression 1 bmcc = (x0 x)1 x0 y (x0 x)1 R0 R(x0 x)1 R0 R(x0 x)1 x0 y r i 1 h R bmco r bmco (x0 x)1 R0 R(x0 x)1 R0 bmcc =
et sexprime simplement partir de bmco
MCC 4.3. ESPRANCE ET VARIANCE DE B
43
On voit directement sur cette expression que lestimateur des MCC apporte une correction lestimateur bmco et que cette correction est dautant plus importante que Rbmco r 6= 0. Dans le cas o R bmco = r, les deux estimateurs sont identiques. Dmonstration Pour trouver lexpression de lestimateur on crit le Lagrangien : 1 L = (y xb)0 (y xb) + (Rb r)0 2 multiplicateur de Lagrange : vecteur de dimension p 1 L =0 = x0 y + (x0 x) bmcc + R0 b mcc L = R bmcc r = 0 mcc De la premire condition on tire : bmcc = (x0 x)1 x0 y R0
=r Introduit dans la deuxime condition il vient lexpression R (x0 x)1 x0 y R0 = R (x0 x)1 x0 y r soit R (x0 x)1 R0 = [R (x0 x)1 R0 ]1 R (x0 x)1 x0 y r dont on tire rintroduit dans on trouve lexpression de b bmcc
4.3
Esprance et variance de bmcc
1 bmcc = (x0 x)1 x0 y (x0 x)1 R0 R(x0 x)1 R0 R(x0 x)1 x0 y r
Proposition Sous lhypothse H 2 et sous lhypothse Hc : Rb = r, lestimateur des mcc est sans biais. En revanche, sous lhypothse H 2 seule, lestimateur est biais et le biais dpend linairement de Rb r 1 [Rb r] E bmcc |x = b (x0 x)1 R0 R(x0 x)1 R0 Sa variance est donne sous H 2 H 4 par h i 2 0 1 0 1 0 0 1 0 1 0 1 R (x x) V bmcc |x = (x x) (x x) R R (x x) R
indpendamment de lhypothse Hc
Ainsi lestimateur des moindres carrs contraints est potentiellement biais, mais on voit quil est aussi plus prcis que lestimateur des mco. Sa variance est en eet donne par :
44
CHAPITRE 4. ESTIMATION SOUS CONTRAINTES LINAIRES 1 bmcc |x = V bmcoc |x 2 (x0 x)1 R0 R(x0 x)1 R0 R(x0 x)1
1
Il y a donc un arbitrage entre robustesse et ecacit. Introduire plus de contraintes amliore la prcision des estimations mais risque de conduire des estimateurs biais. A linverse, moins de contraintes produit des estimateurs plus robustes mais moins prcis. Dmonstration Compte tenu de lexpression i h 0 1 0 0 1 0 1 bmcc = bmco (x x) R R(x x) R R bmco r
et comme (x0 x)1 R0 [R(x0 x)1 R0 ] R(x0 x)1 est une matrice symtrique et positive on en conclut que V bmcc |x V bmco |x
et du fait que bmco est un estimateur linaire sans biais de b sous lhypothse H 2 : 1 E bmcc |x = b (x0 x)1 R0 R(x0 x)1 R0 [Rb r]
avec B = (x0 x)1 R0 [R(x0 x)1 R0 ] [Rb r] On vrie que ce biais est systmatiquement dirent de 0. En eet, si Rb r 6= 0 alors 1 = [R(x0 x)1 R0 ] [Rb r] est aussi dirent de 0 et donc B = (x0 x)1 R0 . Comme les contraintes sont non redondantes, et 6= 0, on ne peut avoir R0 = 0. On a en outre 1 = bmco b (x0 x)1 R0 R(x0 x)1 R0 bmcc E bmcc |x R bmco b h 1 i 0 1 0 = I (x0 x)1 R0 R(x0 x)1 R0 R (x x) x u On introduit H = (x0 x)1 R0 [R(x0 x)1 R0 ] vantes
1
On voit donc que sous lhypothse Hc : Rb = r, on a E bmcc |x = b. En revanche si les contraintes ne sont pas satisfaites il existe un biais E bmcc |x = b + B
1
R. Cette matrice vrie les proprits sui-
H2 = H H (x0 x)1 = (x0 x)1 H 0 H (x0 x)1 H 0 = H 2 (x0 x)1 = H (x0 x)1 On a donc bmcc E bmcc |x = [I H ] (x0 x)1 x0 u
4.4. ESTIMATEUR DE LA VARIANCE DES RSIDUS 2 Par consquent comme E [uu0 |x ] = 2 I : 0 V bmcc |x = E bmcc E bmcc |x bmcc E bmcc |x |x = E [ I H ] (x0 x)1 x0 uu0 x(x0 x)1 [ I H 0 ] |x = 2 [ I H ] (x0 x)1 [ I H 0 ] En dveloppant, compte tenu des proprits de H = 2 (x0 x)1 H (x0 x)1 H 0 (x0 x)1 + H (x0 x)1 H 0 V bmcc |x = 2 (x0 x)1 H (x0 x)1 Le rsultat provient de lexpression H (x0 x)1 = (x0 x)1 R0 [R(x0 x)1 R0 ]
1
45
R(x0 x)1
4.4
Estimateur de la variance des rsidus 2

uc = y x b bmcc
Comme pour lestimateur des mco, on peut dnir le vecteur des rsidus estims
On peut comme dans le cas des mco dnir un estimateur de la variance des rsidus partir de la somme des carrs de ces rsidus. Lemme On peut crire le vecteur des rsidus estims dans le modle contraint comme la somme de deux termes orthogonaux, le vecteur des rsidus estims par les mco dune part et un terme appartenant lespace engendr par les x dautre part u + Pc u = b u+e u uc = b b
o Pc = x(x0 x)1 R0 [R(x0 x)1 R0 ] R(x0 x)1 x0 est un projecteur orthogonal sur un sous espace de lespace engendr par les x. Dmonstration On a lexpression de b uc
bmcc = I x [I H ] (x0 x)1 x0 u uc = xb + u x b = Mx + xH (x0 x)1 x0 u avec Mx = I x (x0 x)1 x0 . On introduit
On a directement Pc2 = Pc et Pc0 = Pc . En outre Pc z = x (H (x0 x)1 x0 z ) appartient lespace engendr par les x.
1 Pc = xH (x0 x)1 x0 = x(x0 x)1 R0 R(x0 x)1 R0 R(x0 x)1 x0
46
est sans biais.
Proposition Sous les hypothses H 2 H 4, et Hc , lestimateur de la variance des rsidus P 0 bnc u bnc u0c b b uc 2 nu = c = N (K + 1) + p N (K + 1) + p
Une dirence importante avec lestimateur issu des mco correspond au nombre de degrs de libert. Ici il sagit de N K 1 + p. Avec lestimateur des mco, le nombre de degrs de libert est plus faible : N K 1. Dmonstration Lexpression de b uc : b uc = b u + Pc u = b u+e u conduit directement b0c u u bc = u b0 b u+u e0 e u
u et e b u sont en eet orthogonaux puisque b u est la projection de u sur lorthogonal de x et e une projection de u sur un sous espace de lespace engendr par les x. Donc u 0 0 0 E b uc b uc |x = E u u |x + E e e |x = 2 [(N K 1) + T r (Pc )] bb uu En outre 0 1 0 0 1 0 1 0 1 0 R(x x) x T r (Pc ) = T R x(x x) R R(x x) R 1 = T R R(x0 x)1 R0 R(x0 x)1 x0 x(x0 x)1 R0 = T r (Ip ) = p
4.5
Loi de lestimateur des moindres carrs contraints
Comme dans le cas non contraint, on peut prciser la loi de lestimateur des moindres carrs contraints lorsque les rsidus sont distribus suivant une loi normale. On fait ici lhypothse que les contraintes sont satisfaites, cest dire que la vraie valeur du paramtre b0 satisfait eectivement Rb0 = r Les rsultats du Thorme de Cochran se gnralisent Proposition Sous lhypothse Hn : normale 1. Lestimateur du paramtre des mco b bmcc est distribu comme une loi de moyenne b, la vraie valeur du paramtre, et de matrice de variance V bmcc |x =
2 2. Lestimateur b2 mcc , convenablement normalis, est distribu suivant une loi du
2 [(x0 x)1 H (x0 x)1 ]
[N (K + 1) + p]
b2 mcc 2 (N (K + 1) + p) 2
4.5. LOI DE LESTIMATEUR DES MOINDRES CARRS CONTRAINTS 3. b bmcc et b2 mcc sont indpendants
ie `me
47
. b composante de lestimateur, on a bmcc (k) b0 (k) bmcc (k) 4. Considrant la k suit une loi de Student N (K + 1) + p degrs de libert Dmonstration Compte tenu de lexpression de bmcc 1 R(x0 x)1 x0 y r bmcc = (x0 x)1 x0 y (x0 x)1 R0 R(x0 x)1 R0 1 R(x0 x)1 x0 u = b + (x0 x)1 x0 u (x0 x)1 R0 R(x0 x)1 R0
lorsque les contraintes sont satisfaites, on voit directement que lestimateur est normal lorsque les rsidus sont normaux puisque lestimateur est une combinaison linaire du rsidu. On a en outre bmcc b = (I H ) (x0 x)1 x0 u et uc = [Mx + Pc ] u b avec Mx = I x (x0 x)1 x0 et Pc = xH (x0 x)1 x0 . On vrie donc sans peine que bmcc et uc sont non corrls et donc indpendants : b E bmcc b u b0c = E (I H ) (x0 x)1 x0 uu0 [Mx + Pc0 ] = 2 (I H ) (x0 x)1 x0 [Mx + Pc0 ] = 2 (I H ) (x0 x)1 x0 Pc0 = 2 (I H ) (x0 x)1 x0 xH (x0 x)1 x0 = 2 (I H ) H (x0 x)1 x0 = 0 puisque H 2 = H. Les points qui suivent sont immdiats. Exemple On peut mettre en oeuvre les estimations de la fonction de production avec innovation. On dispose dun chantillon de 3627 observations. On a introduit une distinction entre travailleurs jeunes et vieux. Le nombre de catgorie de travailleurs considr est donc M = 2. On considre la rgression sous lhypothse alternative H 1 d log SR = K .b0K + 1 .b01 + + M b0M + I CI aICI + I K .aIK + I L aIL + Xd + u ainsi que les direntes spcications contraintes introduites prcdemment : H0(L) : Homognit de leet de linnovation sur le facteur travail. aI 1 = = aIM H0(L,K,CI) : Homognit de leet de linnovation sur les facteurs. aICI = aIK = aI 1 = = aIM H0(L=K=CI=0) : Absence deet de linnovation sur les facteurs. aICI = aIK = aI 1 = = aIM = 0 H0(K=CI=0) : Absence deet de linnovation sur le capital et les consommations intermdiaires. aICI = aIK = 0 H0(K=CI=0,L) : Absence deet de linnovation sur le capital et les consommations intermdiaires et homognit sur le travail. aIK = 0, aI 1 = = aIM
48
Les rsultats sont reports dans le tableau 4.1. Pour chacune des spcications on reporte la valeur estime du coecient ainsi que lcart-type estim. Ces deux informations permettent de faire des tests dhypothses simples (en particulier de nullit de chaque coecient pris individuellement). La loi suivie par les t de Student que lon peut former est une loi de Student 3627-12 degrs de libert pour la spcication alternative H 1. Il varie ensuite dune colonne lautre suivant le nombre de contraintes introduites. Dans la premire spcication, le nombre de contrainte est de 1, le nombre de degrs de libert est donc 3627-12+1. En thorie les valeurs critiques des t de Student pour un test un niveau donn dirent dune colonne lautre puisque la loi nest pas la mme. Nanmoins ici le nombre de degrs de libert est grand et dans ce cas la distribution dune loi de Student se confond avec celle dune loi normale : la valeur critique est donc la mme pour chaque rgression. Dans le cas dun test 5% la valeur critique est ainsi de 1.96. On acceptera donc lhypothse de nullit de chaque paramtre pris individuellement si le ratio entre le coecient et son cart-type est en valeur absolue infrieur 1.96. On voit sur les estimations du modle non contraint que leet de linnovation sur lecacit des facteurs semble assez direntes dun facteur lautre. Le coecient du capital apparat ngatif et grand en valeur absolue alors que le coecient pour les jeunes est positif et grand. Nanmoins on voit que les estimations sont imprcises et les tests dgalit des coecients pris individuellement sont souvent accepts. En fait seul le coecient pour la part des jeunes est signicativement dirent de zro. On est typiquement dans une situation dans laquelle les rsultats sont robustes mais peu prcis. On sent bien quil y a l moyen de gagner en prcision de faon importante en imposant des contraintes supplmentaires. On voit nanmoins que chacune des spcications contraintes conduit des modications importantes des coecients : si on impose lhomognit sur lensemble des facteurs, on parvient une ecacit trs faible pour chaque facteur. Si on impose en revanche la nullit pour le capital et les consommations intermdiaires et lhomognit sur le travail, on voit que leet sur le travail est important, de lordre de 0.05, signicativement diffrent de zro. Face cette forte sensibilit des rsultats aux hypothses eectues il est important de pouvoir mettre en oeuvre des tests qui permettront de guider le choix vers une spcication plus quune autre.
4.6
Estimation par intgration des contraintes
Le problme destimation sous contraintes peut se ramener au rsultat classique destimation par la mthode des moindres carrs en intgrant directement les contraintes dans le modle. On peut en eet utiliser les p contraintes pour exprimer p paramtres parmi les k + 1 estimer en fonction des (k + 1 p) autres paramtres. Par exemple, on r-crit les contraintes Rb = r comme :
4.6. ESTIMATION PAR INTGRATION DES CONTRAINTES

H1 Constante part capital part jeunes part vieux I*part capital I*part CI I*part jeunes I*part vieux Sect1 Sect2 Sect3 Sect4 0.00 0.08 0.15 -0.03 -0.11 -0.01 0.19 0.06 0.01 0.03 -0.01 0.02 (0.01) (0.04) (0.06) (0.03) (0.06) (0.02) (0.09) (0.05) (0.01) (0.01) (0.01) (0.02) H0(L) 0.00 0.08 0.18 -0.04 -0.11 -0.01 0.09 0.09 0.01 0.03 -0.01 0.02 (0.01) (0.04) (0.05) (0.03) (0.06) (0.02) (0.03) (0.03) (0.01) (0.01) (0.01) (0.02) H0(L,K,CI) -0.01 0.04 0.21 -0.01 0.01 0.01 0.01 0.01 0.01 0.03 -0.01 0.02 (0.01) (0.03) (0.05) (0.03) (0.01) (0.01) (0.01) (0.01) (0.01) (0.01) (0.01) (0.02) H0(L=K=CI=0) 0.00 0.04 0.20 -0.01 0.00 0.00 0.00 0.00 0.01 0.03 -0.01 0.02 (0.01) (0.03) (0.05) (0.03) (0.00) (0.00) (0.00) (0.00) (0.01) (0.01) (0.01) (0.02)
49
H0(K=CI=0) -0.01 0.04 0.17 -0.01 0.00 0.00 0.12 0.02 0.01 0.03 -0.01 0.02 (0.01) (0.03) (0.05) (0.03) (0.00) (0.00) (0.09) (0.04) (0.01) (0.01) (0.01) (0.02)
H0(K=CI=0,L) -0.01 0.04 0.20 -0.02 0.00 0.00 0.05 0.05 0.01 0.03 -0.01 0.02
(0.01) (0.03) (0.05) (0.03) (0.00) (0.00) (0.02) (0.02) (0.01) (0.01) (0.01) (0.02)
Tab. 4.1 Rsultats des estimations par les MCC
r = [R1 , R2 ]
b1 b2
avec R1 une sous matrice de R de dimension p p suppose inversible, R2 une autre sous matrice de dimension p (K + 1 p) , b1 un vecteur de dimension p 1 et b2 un vecteur de dimension K + 1 p 1 On peut alors crire r = R1 b1 + R2 b2 soit encore :
1 [r R2 b2 ] b1 = R1
Par consquent, le modle peut se rcrire : 1 (r R2 b2 ) + x2 b2 + u y = x1 b1 + x2 b2 + u = x1 R1 1 1 r = x2 x1 R1 R2 b2 + u y x1 R1
Ceci revient estimer :
Le modle ainsi crit ne dpend plus alors que de (K + 1 p) paramtres estimer sans contraintes. Les p autres paramtres se dduisent de ceux-ci par la relation : b1 = 1 R1 r R2 b2 Exemple Cette intgration peut en pratique tre extrmement simple. Si on reprend le cas de lexemple prcdent, dans le cas de la spcication H 0L : aI 1 = = aIM , on crit
50
aI 2 = aI 1 , . . . , aIM = aI 1 . On a ainsi d log SR = K .b0K + 1 .b01 + + M b0M + I CI .aICI + I K .aIK + I 1 .aI 1 + I 2 aI 1 + + I M aI 1 + u = K .b0K + 1 .b01 + + M b0M + I CI .aICI + I K .aIK + (I 1 + I 2 + + I M )aI 1 + u On voit donc que lestimation par intgration des contraintes dans ce cas spcique consiste introduire la somme de toutes les variables concernes par la restriction.
4.7
Tester les contraintes : le test de Fisher
Les rsultats prcdents sont valables sous les hypothses H 1 H 4, qui ne spcient que les deux premiers moments de la loi des rsidus conditionnellement aux variables explicatives. On peut comme dans le cas des mco vouloir apprendre plus sur les paramtres estims et en particulier sur leur loi pour pouvoir faire des test dhypothses. Parmi ces tests potentiels gure naturellement lhypothse impose aux paramtres : H0 = Hc : = Rb r = 0 Une faon naturelle de tester lhypothse consiste examiner si lestimateur des mco b = Rb satisfait approximativement les contraintes. On construit donc la quantit b b r, et on examine si elle est proche de zro. Sous lhypothse nulle on sait que N (0, 2 R(x0 x)1 R0 ) . Rappel : Z N (0, V ) avec V inversible, alors Z 0 V 1 Z 2 (dim (Z )) b 0 [R(x0 x)1 R0 ]1 b / 2 2 (p) . Toutefois, cette On sait donc que sous H0 on a relation ne peut tre utilise directement puisque 2 est inconnue. Comme pour le test de Student, on remplace cette quantit inconnue par un estimateur : b2 . Cette statistique convenablement normalise suit comme on la vu une loi du 2 . Denition La loi de Fisher q1 et q2 degrs de libert, note F (q1 , q2 ) est dnie comme le ratio de deux lois du 2 , divises par leurs degrs de libert : Si Q1 (q1 ) et Q2 1 /q1 F (q1 , q2 ) (q2 ) et Q1 Q2 alors Z = Q Q2 /q2
Proposition Lorsque les hypothses H1, H2, H3&H4 ainsi que lhypothse Hn de normalit des rsidus, on peut eectuer un test de lhypothse H0 : Rb r = 0 en considrant la statistique de Fisher : b 0 [R(x0 x)1 R0 ]1 b 1 b F (p, N (k + 1)) F = p b2
b = R b suit une loi de Fisher p et N (k + 1) degrs o bmco r . Sous lhypothse H0 F de libert. Le test caractris par la rgion critique o n b b W = F F > q1 (F (p, N (k + 1)))
4.7. TESTER LES CONTRAINTES : LE TEST DE FISHER
51
est un test UPP dans la classe des tests invariants, o q1 (F (p, N (k + 1))) est le quantile dordre 1 de la loi de Fisher p et N (K + 1) degrs de libert. Dmonstration La preuve du rsultat concernant la distribution de la statistique sous 2 b / 2 2 (p) , de Q2 = (N (K + 1)) b 0 [R(x0 x)1 R0 ]1 H0 dcoule directement de Q1 = 2 1 0 1 0 b / 2 est issu de b b0 bmco qui est indpen2 N (K +1) , et du fait que comme [R(x x) R ] 2 dant de b Q1 et Q2 sont indpendants. On a alors par dnition de la loi de Fisher , 2 b 0 [R(x0 x)1 R0 ]1 b / 2 b b 0 [R(x0 x)1 R0 ]1 (N (K + 1)) 2 F (p, N (k + 1)) = 2 p N K 1 p On voit aussi directement que le test est un test au seuil puisque le risque de premire espce P (W, ) pour 0 est par dnition de la rgion critique . Pour le rsultat doptimalit, il faut noter que le test est optimal dans la classe des tests invariants, cest dire dans la classe des tests ne changeant pas lorsque on applique une transformation bijective aux donnes. On peut obtenir une expression de la statistique du test de Fisher la rendant trs simple mettre en pratique. Cette expression ne fait plus intervenir lcart R bmco r mais uniquement les sommes des carrs des rsidus dans les estimations du modle contraint SCRC et non contraint SCR.
0 1 0 b b0 b = 1 [R(x x) 2 R ] se rcrit simplement Proposition La statistique de Fisher F p b partir des sommes des carrs des rsidus dans le modle contraint et non contraint 1
Dmonstration En eet : b = (x0 x)1 x0 y = b + (x0 x)1 x0 u donc sous H0 , on a : b scrit donc simplement : b 0 [R(x0 x)1 R0 ]1 b = R b r = R(x0 x)1 x0 u. La quantit On reconnat dans cette expression la matrice PC = x(x0 x)1 R0 [R(x0 x)1 R0 ] R(x0 x)1 x0 introduite dans le lemme dcomposant le rsidu dans le modle contraint comme uc = b b u + Pc u = b u+e u b 0 R(x0 x)1 R0 1 b = u0 x(x0 x)1 R0 R(x0 x)1 R0 1 R(x0 x)1 x0 u
1
b 0 [R(x0 x)1 R0 ]1 b SCRC SCR N (k + 1) 1 b = F = 2 p SCR p b
b 0 [R(x0 x)1 R0 ]1 b = u0 PC u = e On a donc u0 e u. On en dduit donc b = u0 PC u = b b 0 R(x0 x)1 R0 1 u0C u bC b u0 b u
52
Do lexpression de la statistique communment utilise : b = SCRC SCR N (k + 1) F SCR p F (p, N (k + 1)) SCR est la somme des carrs des rsidus estims sans contraintes et SCRC est la somme des carrs des rsidus estims sous contrainte.
4.8
4.8.1
Applications du test de Fisher

Un test en deux tapes
La mise en oeuvre du test de Fisher dun ensemble de contraintes H0 : Rb r = 0 se fait en plusieurs tapes. 1. On estime le modle avec et sans contraintes. Dans chacun des cas on rcupre les rsidus estims ou directement la somme des carrs des rsidus SCRC = b u0C b uC et 0 SCR = u bb u. b et on la compare au fractile dordre (1 ) de la 2. On calcule alors la statistique F loi F (p, N (K + 1)), not F (1 ). b > F (1 ) alors on rejette H0 : la somme des carrs des rsidus estims sous 3. Si F contraintes dire trop de celle des carrs des rsidus estims sans contrainte pour accepter que H0 est vraie. b F (1 ), on accepte lhypothse H0 . 4. Si F d log SR = K .b0K + 1 .b01 + + M b0M + +I CI .aICI + I K .aIK + I 1 .aI 1 + + I aIM + Xc + u (4.4)
Exemple Homognit du progrs technique. On considre la rgression non contrainte :
o on introduit en plus des variables de contrle. H0(L) : Homognit de leet de linnovation sur le facteur travail. aI 1 = = aIM H0(L,K,CI) : Homognit de leet de linnovation sur les facteurs. aICI = aIK = aI 1 = = aIM H0(L=K=CI=0) : Absence deet de linnovation sur les facteurs. aICI = aIK = aI 1 = = aIM = 0 H0(K=CI=0) : Absence deet de linnovation sur le capital et les consommations intermdiaires. aICI = aIK = 0 H0(K=CI=0,L) : Absence deet de linnovation sur le capital et les consommations intermdiaires et homognit sur le travail. aIK = 0, aI 1 = = aIM
4.8. APPLICATIONS DU TEST DE FISHER

SCR 97.099 97.13 97.384 97.491 97.246 97.266 p 3616 1 3 4 2 3 F 1.15 3.53 3.63 2.73 2.07 Seuil 5% 3.84 2.6 2.37 2.99 3.53 p-value 0.28 0.01 0.005 0.065 0.10
53
H1 H0(L) H0(L,K,CI) H0(L=K=CI=0) H0(K=CI=0) H0(K=CI=0,L)
Tab. 4.2 Test de Fisher Pour tester chacune de ces hypothses contre lhypothse nulle H1 (pas de restrictions sur les coecients aICI , aIK , aI 1 , , aIM ) on peut considrer la rgression sous lhypothse alternative ainsi que les rgressions intgrant les direntes contraintes. Pour mettre en oeuvre le test de lhypothse dune spcication contrainte, on considre la somme des carrs des rsidus sous lhypothse nulle la somme des carrs des rsidus sous lhypothse alternative ainsi que le nombre de degrs de libert et le nombre de contraintes. Le tableau 4.2 reporte les informations pertinentes pour mettre en oeuvre le test. Si on prend par exemple le cas de la dernire spcication la somme des carrs des rsidus vaut 97.266 sous lhypothse nulle et 97.099 sous lhypothse alternative. Le nombre de contraintes introduites est 3 et le nombre de degrs de libert sous lhypothse alternative est N K + 1 = 3616. La statistique de Fisher vaut donc b = SCRC SCR N (k + 1) = 97.266 97.099 3616 = 2.07 F SCR p 97.099 3
Sous lhypothse nulle cette quantit est distribue suivant une loi de Fisher 3 et 3616 degrs de libert dont le quantile dordre 95% est 3.53. Comme la valeur estime est infrieure cette valeur seuil, on accepte lhypothse. On peut aussi regarder la p-value qui est la probabilit pour quune loi de Fisher 3 et 3616 degrs de libert excde la valeur obtenue (2.07). On trouve une probabilit de 10%que lon compare la valeur seuil choisie. On voit que parmi toutes les contraintes essayes certaines sont rejetes. Statistiquement on ne peut accepter en particulier lhypothse que leet est homogne entre tous les facteurs (spcication H 0 (L, K, CI )). Cette spcication conduisait on la vu des coecients trs faible, loin des valeurs calcules dans la spcication non contrainte. Par contre on voit que les hypothses dhomognit de leet sur le travail H 0 (L) et de nullit de leet sur le capital et les consommations intermdiaires H 0 (k = CI = 0) sont acceptes. En outre lhypothse globale runissant ces deux contraintes H 0 (K = CI = 0, L) : homognit de leet sur le travail et nullit de leet sur le capital et les consommations intermdiaires, est accepte. Il est intressant de remarquer que le test de lhypothse globale H 0 (K = CI = 0, L) passe un peu mieux que le test de lhypothse H 0 (K = CI = 0) comme en tmoigne les p-values (10% contre 6.5%). On aurait pu la limite rejeter lhypothse H (K = CI = 0) mais accepter lhypothse plus contraignante H 0 (K = CI = 0, L) .
54
4.8.2
Test de la nullit globale des paramtres

k=J X k=1 k =K X
Dans le modle y = b0 e + xk bk + xk bk + u
k=J +1
on veut tester lhypothse de lgalit une valeur donne de plusieurs coecients. H0 : 0 0 b1 = b0 1 , b2 = b2 , . . . , bJ = bJ . La dirence avec le test de Student standard est quon souhaite faire un test global, sur lidentit simultane des coecients. Avec le test de Fisher il sut destimer le modle non contraint y = xb + u de calculer la somme SCR des carrs des rsidus estims, destimer le modle contraint y
k=J X k=1
xk b0 k
= b0 e +
k=J +1
k =K X
xk bk + u
de calculer la somme SCRC des carrs des rsidus estims et de former la statistique b = N (K + 1) SCRC SCR F (J, N (K + 1)) F J SCR
b est suprieur au fractile dordre Pour un test au niveau on refusera lhypothse nulle si F (1 ) de la loi F (J, N (K + 1)), not F (1 ). On dduit de lexemple prcdent un test systmatiquement associ toute rgression et dutilisation trs courante : le test de la signicativit globale des coecients dune rgression H0 : b1 = b2 = b3 = ... = bK = 0 Il obit la mme logique que prcdemment, mais on montre que dans ce cas la statistique de Fisher est seulement fonction du R2 dans lestimation non contrainte du modle. Proposition Dans le modle y = xb + u la statistique de Fisher du test de nullit globale des paramtres H0 sexprime simplement partir du R2 b= F N (K + 1) R2 F (K, N (K + 1)) 2 1R K
4.8. APPLICATIONS DU TEST DE FISHER
55
Dmonstration Sous H0 , le modle scrit : y = b0 e + u, do b0 = y et b uc = y y e. 0 2 La SCRC est donc donne par : SCRC = n (yn y ) . Sous H1 : SCR = b ub u. Or u b0 u b 0 2 2 2 R = 1 n (yn y , soit b ub u = n (yn y ) (1 R ) , on a donc SCR = SCRC (1 R2 ) , )2 par consquent, la statistique de Fisher scrit N (K + 1) SCRC SCR N (K + 1) SCRC SCRC (1 R2 ) = K SCR K SCRC (1 R2 )
do le rsultat
4.8.3
Le Test de Chow de stabilit des paramtres
Une question naturelle est celle de lhomognit des paramtres sur deux sous population. On peut sinterroger sur lexistence de rupture temporelle dans les comportements. On peut se demander par exemple si le comportement de consommation estim sur srie temporelles est homogne dans le temps. On peut se demander aussi si les technologies de production, estimes sur un panel dentreprises sont homognes entre secteurs. Le Test de Chow formalise ce problme de test et applique les rsultat du test de Fisher pour lobtention de statistique de test. Supposons que lon dispose de deux chantillons (y 1 , x1 ) et (y 2 , x2 ) de tailles respectives N1 et N2 , relatifs deux groupes dobservations dirents (par exemple deux priodes, deux catgories dentreprises,...) de la variable dpendante y et des variables explicatives x. Le modle relatif au 1er groupe scrit y 1 = x1 b1 + u1 o y 1 vecteur N1 1 des observations de la variable dpendante pour le premier groupe et x1 la matriceN1 (K + 1) des variables explicatives (1, x1 , . . . , xK ) pour le premier groupe. De mme, pour le deuxime groupe : y 2 = x2 b2 + u2 On fait les hypothses stochastique l (u1 , u2 |x1 , x2 ) N (0, 2 IN1 +N2 ). Ce modle se rcrit dans le cadre du modle linaire standard en introduisant les matrices e x (N1 + N2 ) (2 (K + 1)) et x (N1 + N2 ) (K + 1) x1 0 x1 et x = x= e 0 x2 x2 sous la forme x y=e b1 b2 +u
56
avec l (u |e x ) N (0, 2 IN ). Lhypothse dhomognit scrit alors simplement dans ce cadre : H0 : b1 = b2 et on peut clairement aborder cette question avec le formalisme du test de Fisher. On eectue la rgression dans le modle contraint y = xb + u pour lequel on rcupre la somme des carrs des rsidus SCRC . On eectue la rgression dans le modle non contraint et on rcupre aussi la somme des carrs des rsidus SCR. La statistique de Fisher du test dhomognit des coecients est donc b = SCRC SCR (N1 + N2 ) 2(K + 1) F SCR (K + 1) b > f(1) (K + 1, N1 + N2 (K + 1)) F
et on rejettera lhypothse nulle lorsque cette statistique est trop lev : pour un test au niveau la rgion critique est ainsi
La statistique se simplie en fait car on montre facilement que la somme SCR est la somme SCR1 + SCR2 des sommes des carrs des rsidus sur les modles estims librement sur chacun des sous-chantillons. Pour sen convaincre il sut de calculer Mx = 0 1 0 e 0 x x puisque SCR = u Mx e xe I e x e e u. On vrie aisment que Mx e = Diag Mx1 ,x2 . La statistique est donc nalement b = SCR1 + SCR2 SCR (N1 + N2 ) 2(K + 1) F SCR (K + 1)
et se calcule trs simplement partir des trois rgressions : 1) contrainte 2) et 3) sur chacun des sous chantillons pris sparment.
4.9
Rsum
1. Dans ce chapitre on a vu comment tendre lestimateur des mco au cas dans lequel on impose des contraintes linaires sur les paramtres du type Rb = r. 2. On a vu que lorsque lon fait les hypothses H 1 H 2, lestimateur est sans biais lorsque les contraintes sont satisfaites par la vraie valeur du paramtre. En revanche, lestimateur est biais lorsque les contraintes sont imposes tort. 3. On a obtenu sous les hypothses H 1 H 4 lexpression de la matrice de variance de lestimateur. On a vu que cette matrice tait toujours plus petite que celle de lestimateur des mco, que les contraintes soient imposes tort ou raison.
4.9. RSUM
57
4. On en a conclu quil y a un arbitrage entre prcision des estimations et robustesse. 5. On a galement obtenu un estimateur sans biais de la variance des rsidus. 6. On a montr comment les rsultats sur la loi de lestimateur pouvaient tre tendus dans le cas destimations contraintes lorsque la loi des perturbations est spcie. 7. On a montr comment dans ce cadre il tait possible de tester les contraintes imposes au paramtre. 8. Le test correspondant porte le nom de Test de Fisher, il est bas sur la comparaison des rsidus dans le modle contraint et le modle non contraint. 9. On a vu deux exemples importants de mise en oeuvre de ce test (a) Le test de signicativit globale des paramtres (b) Le test dit de Chow de stabilit des paramtres sur deux sous-chantillons.
58
Chapitre 5 Proprits asymptotiques de lestimateur des MCO

Dans ce chapitre on montre comment il est possible dobtenir la loi des estimateurs sans faire dhypothses sur la loi des perturbations. On va voir que lhypothse de normalit de la distribution conditionnelle peut tre remplace par des hypothses sur lexistence de moments des variables du modle lorsque le nombre dobservations devient grand. Lobtention de ces rsultats repose sur direntes notions de convergence et certains rsultats essentiels comme la Loi des Grands Nombre et le Thorme Central Limite.
5.1
Rappel sur les convergences
Soit (Xn ) une suite de variables alatoires. Soit Fn la fonction de rpartition de Xn . Soit X une variable alatoire de fonction de rpartition F . Toutes ces va sont dnies sur le mme espace probabilis, cest dire quun mme vnement dtermine les valeurs des Xn ( ) pour tous les n et de X ( ).
5.1.1
Dnition : Convergence en probabilit, Convergence en loi, Convergence en moyenne quadratique

P
Denition On dit que (Xn ) converge en probabilit vers X (Xn X ou plimn Xn = X ) si > 0, Pr {|Xn X | > } 0.
n
(NB : Pr {|Xn X | > } = Pr { , |Xn () X ( )| > } .) Cette notion de convergence nous intressera pour la convergence ponctuelle des estimateurs. Dans ce cas llment est un tat de la nature qui engendre un nombre inni de ralisation du processus tudi. Les suites Xn ( ) sont les suites destimateurs que lon 59
60CHAPITRE 5. PROPRITS ASYMPTOTIQUES DE LESTIMATEUR DES MCO peut construire en utilisant lchantillons des n premires observations du processus. La limite X est une constante. La notion de convergence signie que pour nimporte quelle boule centre sur la limite, les tats de la nature tels quil existe des estimateurs hors de la boule considre pour des tailles arbitrairement grandes des chantillons sont de mesure nulle. Denition On dit que (Xn ) converge en moyenne quadratique vers X (Xn X ) si E kXn X k2 0.
n mq
Proposition La convergence en moyenne quadratique implique la convergence en probabilit et la convergence en moyenne quadratique vers une constante rsulte de la convergence du moment dordre 1 vers cette constante et du moment dordre 2 vers 0 : E (Xn ) a, et V (Xn ) 0 Dmonstration La premire partie rsulte de lingalit de Bienaym-Tchebitchev Pr {kXn X k > } < qui exprime simplement E kXn X k2 = E kXn X k2 |kXn X k > Pr {kXn X k > } +E kXn X k2 |kXn X k Pr {kXn X k } 2 Pr {kXn X k > } la deuxime partie rsulte de E kXn ak2 = E (Xn EXn )0 (Xn EXn ) + (EXn a)0 (EXn a) = kEXn ak2 + T raceV (Xn ) Denition On dit que (Xn ) converge en loi vers X (Xn X ) si la suite des fonctions de rpartition associes (Fn ) converge, point par point, vers F la fonction de rpartition de X en tout point o F est continue : x, Fn (x) F (x).
L
E kXn X k2 2
5.1.2
Loi des Grands Nombres et Thorme Centrale Limite
On donne maintenant les deux thormes centraux sur lesquels reposent toutes les proprits asymptotiques des estimateurs usuels : la loi des grand nombre qui stipule que sous des hypothses assez faible la moyenne empirique converge en probabilit vers lesprance, et le thorme central limite qui prcise la loi de lcart entre la moyenne empirique et lesprance.
5.1. RAPPEL SUR LES CONVERGENCES
61
Proposition Loi des grands nombres (Chebichev) : Soit (xi ) une suite de inPva N 1 2 dpendantes telles que EXi = mi et V Xi = i existent. On considre X N = N i=1 Xi la moyenne PN 2 empirique si la variance de cette moyenne empirique tend vers 0, N = 1 i=1 i 0, alors N2
N N 1 X 1 X P X N mN = Xi mi 0 qd N . N i=1 N i=1
PN PN PN 1 1 1 Dmonstration N i=1 Xi N i=1 mi = N i=1 (Xi mi ) . Pour montrer la convergence en probabilit vers zro, il sut de montrer la convergence en moyenne quadratique vers 0, qui rsulte de la convergence vers 0 de la variance. Ce qui est acquis par hypothse. Corollaire 1. Soit (Xi ) une suite de va indpendantes telles que EXi = m et V Xi = existent, alors N 1 X P XN = Xi m qd N . N i=1
2 Dmonstration Comme les variables sont quidistribues si EX1 existe alors EXi2 2 existe et est identique EX1 .
On peut tendre la loi faible des grands nombres au cas o les variables Xn sont dans L1 , mais au prix dune dmonstration beaucoup plus complique. Proposition Soit (Xi ) une suite de va indpendantes et quidistribues telles que EXi = m et E |Xi | existent, alors XN
N 1 X P = Xi m qd N . N i=1
Proposition Thorme central limite (Lindeberg-Levy) : Soit (Xi ) une suite de variables alatoires indpendantes et quidistribues telles que EXi = m et V Xi = existent, L N X N m N (0, ).
Dmonstration La dmonstration se fait partir des fonctions caractristiques. On appelle fonction caractristique dune variable alatoire Z la fonction Z (t) = E (exp (it0 Z ))
Remarque On sait dj que E N X N m = 0, et galement que V N XN m = NV X N = V (Xn ) . Le rsultat important vient du fait que lon connat la loi de la moyenne empirique dilate N X N m .
62CHAPITRE 5. PROPRITS ASYMPTOTIQUES DE LESTIMATEUR DES MCO Les fonctions caractristiques ont une proprit dinjectivit : si Z1 (t) = Z2 (t) alors FZ1 = FZ2 soit Z1 = Z2 . On peut calculer la fonction de rpartition dune loi normale 0 t t z N (0, ) z (t) = exp 2 P N Xi i=1 On a alors directement avec n (t) = E exp it0 N m N ! i=n ! N X Y it0 (Xi m) it0 (Xi m) =E exp n (t) = E exp N N i=1 i=1 N i =N Y it0 (Xi m) it0 (Xi m) = E exp = E exp N N i=1
d
do lapproximation N it0 (Xi m) 1 0 0 t (Xi m) (Xi m) t n (t) E 1 + 2N N N 1 0 t0 t t t exp = 1 2N 2 Ce thorme est susant dans la majeure partie des cas. Nanmoins il fait lhypothse que les variables sont quidistribues et quelles ont en particulier des moments dordre 1 et 2 identiques. Ce thorme peut tre reformul sous une autre forme. En eet E Xn = m et V Xn = V /N. Le thorme ne stipule donc rien dautre que L 1/2 Xn E Xn N (0, 1) . L aussi on peut tendre le thorme centrale V Xn limite pour trait des cas plus gnraux. En particulier on peut obtenir un thorme de convergence pour des donnes indpendantes mais non quidistribues. Cest au prix dune condition supplmentaire appele condition de Liapounov et qui concerne les moments dordre 3 de la variable. Proposition Thorme central limite (Liapounov) : Soit (Xn ) une suite de variables 3 2 alatoires indpendantes de moyenne , de variance et telle que w = E | X | 3 N n n n n P 1/3 P 1/2 N N 2 existent. Si lim w = 0 alors 3n n 1 1 Remarque V Xn = L 1/2 Xn E Xn N (0, 1) V Xn
1 2 , N n
cest dire la variance moyenne divise par N.
5.1. RAPPEL SUR LES CONVERGENCES
63
5.1.3
Dirents rsultats concernant les convergences
On donne maintenant dirents rsultats, utiles lorsque lon souhaite driver les proprits asymptotiques des estimateurs. P L Xn X Xn X. P L a constant, Xn a Xn a. L P L P Pour toute fonction g continue, Xn X g(Xn ) g(X ) et Xn a g (Xn ) g(a). Le thorme de Slutsky et une application Si Xn X et Yn a alors on a 1. Xn Yn Xa 2. Xn + Yn X + a 3. Xn /Yn X/a si a 6= 0 Application : On considre deux variables alatoires z1i et z2i telles que E (z1i ) = m1 et E (z2i ) = 0. Alors pour un chantillon iid, par application de la loi des grands P L nombres, z1i m1 et par application du thorme central limite N z2i N (0, V2 ) . Par application du thorme de Slutsky on a L Nz1i z2i N (0, m1 V2 m01 ) Les ordres en probabilit. Soit Xn une suite de variable alatoire et an une suite de rel. On dit que Xn est un P 1 petit o de an et on le note o (an ) si a n Xn 0. Ainsi par exemple, Xn est un o (1) si P P Xn 0, Xn est un o (1/n) si nXn 0. On dit que Xn est un grand O de an et on le 1 note O (an ) si a n Xn est born en probabilit. Ceci signie que pour nimporte quel niveau de probabilit il existe une valeur nie M telle que les ralisations de satisfaisant 1 1 ka n Xn k < M pour tout n sont de mesure suprieure : n, P (kan Xn k < M ) > . Ce qui signie que pour nimporte quel niveau de probabilit aussi lev soit il on 1 peut trouver une quantit bornant a n Xn avec probabilit uniformment en n. On peut dnir cette notion de borne en probabilit partir des fonction de rpartition Fn de kXn k : Fn (t) = P (kXn k < t) . Dire que Xn est un grand O (an ) consiste dire que pour 1 1 tout niveau de probabilit , M tel que n Fn (an M ) > , soit a n Fn () < M . 1 1 Donc Xn = O (an ) si Supa n Fn () < .
n L L L L P
Proposition Si Xn X alors Xn = O (1)
64CHAPITRE 5. PROPRITS ASYMPTOTIQUES DE LESTIMATEUR DES MCO Dmonstration On considre F (t) la fonction de rpartition de |X | et Fn (t) celle de |Xn |. Fn (t) converge en tout point de continuit de F vers F. Pour donn, on peut dnir M1 () tel que F (M1 ()) = 2. Il existe donc un n () tel que pour n > n () 1 Fn (M1 ()) > . Pour n < n () , on peut dnir M2 () = supp Fn () . On peut
n<n()
prendre pour M () le maximum de M1 () et de M2 () . Proposition Si Yn = O (1) et Xn = o (1) , alors Yn Xn = o (1) Dmonstration
P (|Xn Yn | > ) = P (|Xn Yn | > ||Yn | > M ) P (|Yn | > M ) + P (|Xn Yn | > ||Yn | M ) P (|Yn | < P (|Yn | > M ) + P (|Xn | > /M ) = 1 P (|Yn | < M ) + P (|Xn | > /M ) Comme Yn est borne en probabilit, on peut trouver M tel que P (|Yn | < M ) > pour tout n et donc 1 P (|Yn | < M ) < . Comme Xn est un o (1) , P (|Xn | > /M ) 0 Proposition Si Xn est un O (an ) alors Xn est un o (an bn ) pour nimporte quelle suite bn tendant vers +.
1 1 1 1 Dmonstration En eet M tq P (ka n Xn k > M ) < i.e. P (kan bn Xn k > bn M ) < 1 1 , et b n M 0. Pour donn il existe n () tel que pour n > n () bn M < et donc 1 1 1 1 1 P (ka n bn Xn k > ) < P (kan bn Xn k > bn M ) <
Le thorme de Slutsky a une implication importante : Denition Deux suites de variables alatoires X1n et X2n sont dites asymptotiquement P quivalentes si X1n X2n 0, i.e. X1n X2n = o (1) . Corollaire du thorme de Slutsky : si X1n et X2n sont asymptotiquement quivalentes L L et X1n X, alors X2n X Dmonstration Ceci rsulte directement du fait que suivant le Thorme de Slutsky si L P L X1n X2n 0 et X1n X alors X2n = X1n (X1n X2n ) X On prsente enn un dernier rsultat trs utile, qui permet dobtenir la loi dune combinaison drivable quelconque de paramtres convergeant en loi. L Proposition Mthode delta : Pour toute fonction g continue, direntiable, si n (Xn m) N (0, ),alors L n (g (Xn ) g (m)) N 0 g (m) g(m) . 0, m0 m0
P L m Dmonstration On a dabord Xn : puisque N (XN m) N (0, ), N (XN m) = O (1) et donc (XN m) = O 1/ N = o (1). On applique le thorme de la valeur
5.1. RAPPEL SUR LES CONVERGENCES moyenne : n [0, 1] tq g (m + n (Xn m)) (Xn m) . m0 g n (g (Xn ) g (m)) = ( m + ( X m )) n (Xn m) n n m0 g(Xn ) = g(m) +
65
g g m + n (Xn m) m donc Zn = (m + n (Xn m)) (m) . m0 m0 P L g Comme n (Xn m) N (0, ), et Zn m0 (m), on applique le thorme de Slutsky et on en dduit 0 g(m) g (m) L . n (g(Xn ) g (m)) = Zn n (Xn m) N 0, m0 m0
5.1.4
Illustration
On illustre ces proprits en examinant le comportement asymptotique de moyennes dun nombre donn dobservations tires indpendamment dans une mme loi. Plus prcisment pour une taille dchantillon donne 10, 1.000, 100.000 on tire un grand nombre dchantillons, en pratique 5.000, et pour chaque chantillon on calcule la moyenne empirique. On connat lesprance thorique E. La loi des grands nombres dit que pour un intervalle [E , E + ] de longueur donne, la proportion de moyenne empirique tombant dans lintervalle croit avec la taille de lchantillon vers 1. Les cas que lon considre sont E = 1, et on examine des intervalles pour = 0.1, 0.05, 0.02 et 0.01. On considre deux lois direntes. On prend dabord une loi symtrique : la loi uniforme sur [0; 2] . Son esprance est 1 et sa variance est de 1/3. On prend ensuite une loi dissymtrique : une loi du 2 (1) . Cette loi a, elle aussi, une moyenne de 1 mais sa variance est de 2. Pour la rendre plus comparable la loi prcdente, on la normalise de telle sorte que sa variance 1 soit elle aussi de 1/3, sa moyenne restant de 1. On considre donc y = 1 + (2 (1) 1) . 6 Le graphique 1 donne les proportions de moyenne empirique tombant dans les intervalles donns. On voit que ces proportions croissent avec la largeur de lintervalle et avec la taille de lchantillon. Pour les plus grandes tailles dchantillon, toutes les moyennes empiriques tombent dans lintervalle considr, aussi troit soit-il. On voit aussi quil ny a pas grande dirence entre la loi du 2 et la loi uniforme. On examine ensuite la distribu tion des carts lesprance thorique, dilate par N . Plus spciquement, on examine la distribution empirique de N (y i E ) / . Pour cela on met en oeuvre un estimateur non paramtrique de la densit, dit noyau. Si la thorie asymptotique est satisfaite, cette distribution doit tre approximativement normale pour un grand chantillon. Les rsultats sont prsents dans le graphique 2. On voit l des dirences importantes entre les deux types de loi. Dans les deux cas pour de grands chantillons, lapproximation normale fonctionne bien. Par contre pour les petits chantillons, lapproximation normale marche trs bien pour la loi uniforme, mais beaucoup moins bien, pour la loi du 2 .
66CHAPITRE 5. PROPRITS ASYMPTOTIQUES DE LESTIMATEUR DES MCO
Loi Uniforme
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0.99--1.01 0.98--1.02 N=10 N=100 0.95--1.05 N=100000 0.90--1.10
Loi du Chi2
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0.99--1.01 0.98--1.02 N=10 N=100 0.95--1.05 N=100000 0.90--1.10
Tab. 5.1 Convergence en probabilit
5.2. PROPRITS ASYMPTOTIQUES DE LESTIMATEUR DES MCO
67
5.2
Proprits asymptotiques de lestimateur des MCO
On applique maintenant les rsultats prcdents lestimateurs des mco. On va voir que lcart entre la vraie valeur du paramtre et le paramtre estim scrit sous la forme 1 0 b xi ui . On va tudier le comportement asymptotique de chacune des deux b b = x0i xi
P
composantes. Dune faon gnrale, on va crire x0i xi Q constante. On va donner des conditions sous lesquelles cette matrice est E (x0i xi ) , comme on sy attend, mais ce nest pas le point central. Le point central est que cette matrice converge en probabilit vers une matrice xe. Pour tudier le deuxime on va appliquer le thorme central limite terme 0 0 xi ui , cest dire que lon va tudier Nxi ui et on va exploiter le fait que E (x0i ui .) = 0. Plus prcisment, on considre le modle yi = xi b + ui avec les hypothses H0 : Les observations (yi , xi ) RR K +1 , i = 1, ..., N , sont IID H1 : N, x0 x est non singulire H1bis : E (xi x0i ) est inversible H2 : E (ui |xi ) = 0 H3 : V (ui |xi ) = V (ui ) = 2 H4 : Les moments de |xki xli | existent, le moment dordre 2 du rsidu ui existe. Proposition Sous les hypothses H0 H4, lestimateur des MCO 1 0 1 b bmco = (x0 x) x0 y = x0i xi xi yi
3. Vas = 2 E (xi x0i )1 0 P 1 y xb y xb bmco bmco 2 4. b2 = N 1 P bas = 5. V b2 xi x0i Vas L 1/2 b bas 6. N V bmco b N (0, IK +1 )
P 1. b bmco b, L 2. N b bmco b N (0, Vas ) ,
Dmonstration Convergence en probabilit de lestimateur. Lestimateur des mco scrit 1 0 1 1 b xi yi = x0i xi x0i yi bmco = (x0 x) x0 y = x0i xi
On dit que b b est convergent et asymptotiquement normal.
Loi Uniforme
0.4 0.35
Loi du Chi2
0.45 0.4
0.35 0.3 0.3 0.25 0.25 0.2 0.2 0.15 0.15 0.1 0.1
0.05
0.05
0 -3 -2.5 -2 -1.5 -1 -0.5 N=10 0 0.5 Normal 1 1.5 2 2.5 3 -3 -2.5 -2 -1.5 -1 -0.5
0 0 N=10 0.5 Normal 1 1.5 2 2.5 3
0.4
0.4
0.35
0.35
0.3
0.3
0.25
0.25
0.2
0.2
0.15
0.15
0.1
0.1
0.05
0.05
0 -3 -2.5 -2 -1.5 -1 -0.5 N=100 0 0.5 Normal 1 1.5 2 2.5 3 -3 -2.5 -2 -1.5 -1 -0.5
0 0 N=100 0.5 Normal 1 1.5 2 2.5 3
0.4
0.4
0.35
0.35
0.3
0.3
0.25
0.25
0.2
0.2
0.15
0.15
0.1
0.1
0.05
0.05
0 -3 -2.5 -2 -1.5 -1 -0.5 0 N=100000 0.5 Normal 1 1.5 2 2.5 3 -3 -2.5 -2 -1.5 -1 -0.5
0 0 N=100000 0.5 Normal 1 1.5 2 2.5 3
Tab. 5.2 Convergence en Loi
5.2. PROPRITS ASYMPTOTIQUES DE LESTIMATEUR DES MCO On remplace yi par sa valeur : yi = xi b + ui . On a donc 1 1 0 1 b xi xi b + x0i ui = b + x0i xi x0i ui bmco = x0i xi x0i (xi b + ui ) = x0i xi
69
Comme les moments |xki xli | des variables explicatives existent, on peut appliquer la loi des grands nombres x0i xi . De mme on peut appliquer la loi des grands nombre x0i ui , si E (x0i ui ) et V (x0i ui ) existent. Comme E (x0i ui ) = E (E (x0i ui |xi )) = 0 et V (x0i ui ) = E (V (x0i ui |xi )) + V (E (x0i ui |xi )) = 2 E (x0i xi ), on a x0i xi On en dduit que x0i xi
1 P 1 N N 1 X 0 P 1 X 0 P 0 0 = x xi E (xi xi ), et xi ui = x ui E (x0i ui ). N i=1 i N i=1 i
car les esprances E (x0i xi ) et E (x0i ui ) sont par dnition des constantes, que lapplication A A1 est continue et enn que le produit et la somme de suite de variables alatoires convergent en probabilit vers des constantes converge en probabilit. Comme par ailleurs E (xi ui ) = E [xi E (ui |xi )] = 0 On a bien
P b bmco b
1 P b bmco = b + x0i xi x0i ui b + E (x0i xi )1 E (x0i ui )
x0i xi x0i ui E (x0i xi )1 E (x0i ui )
E (x0i xi )1
P
On veut appliquer le Thorme Central Limite Nx0i ui . Les variables alatoires x0i ui sont indpendantes et quidistribues. On pourra appliquer le Thorme Central limite si les deux premiers moments de cette variable existent. On sait que E (x0i ui ) = 0 V (x0i ui ) = V (E (x0i ui |xi )) + E (V (x0i ui |xi )) = E (x0i V (ui |xi ) xi ) = 2 E (x0i xi ) Les moments dordre 1 et 2 de x0i ui existent donc. On sait qualors le TCL permet dafrmer L Nx0i ui N 0, 2 E (x0i xi )
Normalit asymptotique 1 De la formulation b bmco : b bmco = b + x0i xi x0i ui on dduit 1 1 N b bmco b = Nx0i xi x0i ui = x0i xi Nx0i ui
70CHAPITRE 5. PROPRITS ASYMPTOTIQUES DE LESTIMATEUR DES MCO Comme x0i xi
1 P
E (x0i xi )1 .
on a donc bien
qui une matrice constante, on peut appliquer le thorme de Slutsky x0i xi est 0 Nxi ui : 1 L x0i xi Nx0i ui E (x0i xi )1 N 0, 2 E (x0i xi ) = N 0, E (xi x0i )1 2 E (x0i xi )E (x0i xi )1 = N 0, 2 E (x0i xi )1 Estimation de la variance Lestimateur de la variance des rsidus 0 1 b2 = y xb y xb bmco bmco N L N b b b N 0, 2 E (xi x0i )1
et
2 2 2 puisque b bmco b, x0i xi E (x0i xi ) , xi ui E (x0i ui ) et u2 i E (ui ) = . Puisque ui est une variable positive identiquement distribue sur les individus. On remarque quil est ici ncessaire de davoir recours la loi forte des grands nombres dans L1, on devrait sinon faire lhypothse que E (u4 i ) existe. Estimation de la matrice de variance asymptotique de lestimateur 1 P P On lobtient directement par le fait que b2 2 et x0i xi E (x0i xi )1 0 1 P L 2 b b Enn en appliquant le thorme de Slutsky Vas = b xi xi Vas ,.et N bmco b N (0, Vas ) , on a directement le dernier point.
0
scrit compte tenu dey = xb + u 0 1 x b b bmco + u x b b bmco + u b2 = N bmco + ui xi b b bmco + ui = xi b b 0 0 b b b = b bmco xi xi b bmco + 2ui xi b bmco + u2 i 0 P 0 2 b b b = b bmco xi xi b bmco + 2ui xi b bmco + ui 2
P P P P
Remarque On peut se passer de lhypothse dquidistribution au prix dun renforcement des hypothses sur les moments des variables. pour pouvoir appliquer le Thorme Central Limite de Liapounov x0i ui , il sut par exemple que lon ait E (|u3 i |) = 3 < + et pour 3 chaque variable explicative E (|xki |) = k3 < +. La condition de Liapounov est alors satisfaites et on obtient alors la normalit asymptotique de Nx0i ui .
5.3. TESTS ASYMPTOTIQUES
71
5.3
Tests asymptotiques
On introduit de premire espce aussi les risques b p lim Pr S W |H0 est le risque de premire espce : il reprsente asymptotiquement la probabilit H0 tort. de rejeter b p lim Pr S / W |Ha est le risque de deuxime espce : la probabilit daccepter H0 tort. On introduit aussi la puissancedu test dnie comme 1 risque de deuxime b W |Ha . Le principe du test est comme prcdemment espce : puissance= p lim Pr S de minimiser le risque de seconde espce en contrlant un niveau donn le risque de premire espce. Ce niveau du maximal du risque de premire espce est appel la encore le seuil ou le niveau du test. Dans le cas normal on avait introduit la notion de tests uniformment plus puissants, cest dire de tests qui maintenant un niveau donn du risque de premire espce conduise pour toute valeur de lhypothse alternative une probabilit de rejet maximale. Cette proprit est trop forte et on ne peut pas trouver en toute gnralit un tel test. On avait alors introduit des classes de tests plus restreintes, les tests sans biais, les tests invariants pour lesquels on pouvait trouver un test optimal. La notion que lon retient ici est celle de test convergent. Elle rejoint la notion de test uniformment plus puissant puisquun test convergent est un test dont la puissance tend vers 1. Denition On dit que le test de rgion critique W est asymptotique si ses proprits sont b W |H0 = ; valables pour N grand ; quil est de niveau asymptotique si lim Pr S N b et quil est convergent si sa puissance tend vers un ( lim Pr S W |Ha = 1).
N
On a vu dans les chapitres prcdents que connatre la loi de lestimateur tait utile ds lors que lon veut faire des tests. Cest nouveau cette question qui nous intresse. Les tests que lon considre sont des test dits asymptotiques. La dirence essentielle avec les cas prcdents est quils sont bass sur une statistique dont on ne connat la loi quasymptotiquement, alors que dans le cadre des chapitres prcdents, on connaissait exactement la loi de la statistique distance nie : Student, Fisher,... La dirence concerne aussi la notion doptimalit que lon retient. Comme prcdemment, les tests que lon va considrer sont dnis par une rgion critique W pour une b telle que statistique S b W on rejette H0 contre H1 S
b est choisie de telle On dnit aussi de faon alternative la p-value. La statistique S b S0 dont la loi est connue et support positif (valeur absolue dune sorte que sous H0 S loi normale, loi du khi deux). La rgion critique est dnie comme o n b b W = S S > q (1 , S0 )
72CHAPITRE 5. PROPRITS ASYMPTOTIQUES DE LESTIMATEUR DES MCO o q (1 , S0 ) est le quantile de S Pr (S 0 : 0 > q (1 , S0 )) = dordre 1 b comme S b=q 1p S b , S0 i.e. On dnit la p-value p S b . En eet, p S b Pour tout seuil , on rejette H0 au seuil si et seulement si p S signie que n o n o b b = Pr {S0 > q (1 , S0 )} Pr S0 > S S > q (1 , S0 ) b = Pr S0 > S b . p S
5.3.1
Test dhypothses linaires
Test de Student asymptotique Il sagit du test dune hypothse linaire unidimensionnelle de la forme H0 : c0 b = r o c RK +1 et r R. Un cas particulirement important est celui de la signicativit du coecient bk = 0. Proposition Si les hypothses H1-H5 sont satisfaites, sous lhypothse nulle H0 : c0 b = r on a 0b bmco r c0b L b = N r c bmco r r S = N (0, 1). bas b b b bmco c c0 V c0 V bmco c le test dni par la rgion critique n o b b W = T >q 1 T 2
2
o q 1 est le quantile 1 2 niveau .
de la loi normale N (0, 1) est un test convergent au
On retrouve donc un test trs proche de celui obtenu dans le cas o on spcie la loi des rsidus. Les seules dirences sont que 1/ le rsultat nest valable quasymptotiquement, alors quil tait valable distance nie dans le cas normal et 2/ la loi considre est une loi normale et non plus une loi de Student. Cette dernire dirence nen est une quen partie puisque lon peut montrer que la loi de Student tend vers une loi normale lorsque le nombre de degrs de libert tend vers linni. Les rgions critiques sont donc asymptotiquement les mmes.
5.3. TESTS ASYMPTOTIQUES
73
bmco r par On rencontre le mme problme que dans le cas normal : il faut diviser c0b bmco r qui est inconnu. Comme dans le cas normal on va diviser par un lcart-type de c0b estimateur de cet cart-type. Dans le cas normal la statistique considre suivait une loi de Student quelque soit le nombre dobservation. Ici on tient compte du fait quon divise par un estimateur convergent en probabilit. Le thorme de Slutsky permet alors de dnir la loi asymptotique de la statistique. Comme 1 1 1 P 1 bas V b2 x0i xi Nb bmco = = b2 (x0 x) Vas Nb bmco = 2 [E (x0i xi )] N On en dduit que la statistique de Student : b= S bmco r bmco r c0b c0b L r Nr = N (0, 1). bas b b bmco c c0 V Nb bmco c c0 V
L bmco b N (0, 2 E (xi x0i )1 ) , Dmonstration Sous les hypothses H0-H5, on a N b 0 L 0 0 b b Sous lhypothse nulleH0 : c b = r on a donc N c bmco r N 0, c Vas bmco c ou encore c0b bmco r L Nr N (0, 1) bmco c c0 Vas b
On dnit la rgion critique comme n o b b W = S >q 1 S 2 o q 1 de la loi normale N (0, 1). est le quantile 1 2 2 Sous H0 on a o n n o b = Pr S W |H0 Pr |N (0, 1)| > q 1 2
Le test dni par la rgion critique W est donc un test au niveau . Comme on est dans le cas asymptotique, on tudie beaucoup plus facilement le comportement de la statistique sous lhypothse alternative. . b 0b 0 Sous H1 on a c bmco r c b r = m 6= 0 donc S bmco r N = c0b r r b 0 0 b b b c Vas N bmco c |m| c Vas N bmco c do T +. Il en rsulte que n o b Pr S W |H1 1
le test est donc convergent.
74CHAPITRE 5. PROPRITS ASYMPTOTIQUES DE LESTIMATEUR DES MCO Remarque On gnralise directement ces rsultats au cas du test unilatral H0 : c0 br = 0 contre H1 : c0 b r > 0. On dnit la rgion critique comme o n b > q (1 ) b W= S S
r . 0 b bas br N = cb c0 V Nb b c Sous H1 on a c b r c b r = m > 0 donc S r b c0 Vas Nb b c do S m +

0b 0
o q (1 ) est le quantile 1 de la loi normale N (0, 1).Sous H0 on a o n b W |H0 Pr {N (0, 1) > q (1 )} = Pr S
Test de Wald dune hypothse multi-dimensionnelle. Comme prcdemment, on souhaite tester un systme de contraintes linaires : H0 : Rb = r contre Ha : Rb 6= r. On a vu que dans le cas o les rsidus taient spcis comme normaux, on pouvait faire un test de Fisher. Ce test permettait de contrler le risque de premire espce et avait de bonnes proprits doptimalit. Ici on va considrer une statistique analogue et on va tudier son comportement asymptotiquement. Pour la mme raison que pour le test de Student, la statistique ne suivra pas une loi de Fisher mais une loi du Chi2. b dnie par Proposition Lorsque les hypothses H1-H5 sont satisfaites, la statistique S 0 h i1 b = N Rb bas b S bmco r RV bmco R0 Rb br 0 0 1 0 1 b b Rbmco r R (x x) R Rbmco r = b2
n o b Pr S W |H1 1
converge en loi vers un 2 p , sous lhypothse nulle H0 . Le test dni par la rgion critique n o b b > q (1 ), 2 W = S S p est un test convergent au niveau . La statistique peut aussi tre calcule comme b2 b2 c b = pF b = (N (K + 1)) SCRC SCR ' N S SCR b2
5.3. TESTS ASYMPTOTIQUES Dmonstration On a : L 1 bmco = 2 R [E (x0i xi )] R0 N Rb bmco r N 0, Vas Rb
75
1 0 L N Rb bmco r RVas b bmco R0 Rb bmco r 2 p. b On peut remplacer Vas bmco par un estimateur convergent et appliquer Slutsky. Do, sous lhypothse nulle, H0 : Rb0 = r, et aprs simplication des N , i1 0 h 0 b b b b b Rbmco r S = N Rbmco r RVas bmco R 0 h i1 b b = Rb bmco r RV bmco R0 Rb bmco r 0 1 Rb bmco r R (x0 x)1 R0 Rb bmco r L b = = pF 2 p , sous H0 2 b Ce rsultat permet de montrer que le test dni par la rgion critique donne est un test au niveau . 0 b b r Rb r = m 6= 0. Donc S/N = Rb bmco r Sous H1 on a en revanche Rb h i1 0 b b b RVas bmco R Rbmco r constante et donc donc la puissance du test converge vers 1 b S
On en dduit
Un cas particulier : Test de la nullit des paramtres dune rgression sauf la constante. On a vu que lorsque lon spciait la loi des rsidus comme une loi normale, on avait
2 b = (SCRC SCR) /K ) = R N K 1 . F SCR/(N K 1) 1 R2 K
Do
Sous H0 il est facile de voir que R2 0 quand N . On a donc On peut utiliser la statistique NR2 et rejeter lhypothse nulle si NR2 > q (1 ), 2 p . b ' NR2 S
b = KF b= S
P
R2 (N K 1) . 1 R2
5.3.2
Test dhypothses non linaires
La thorie asymptotique permet de traiter des questions qui ne pouvaient pas tre abordes auparavant. En eet, on peut vouloir tester des hypothses non linaires dans les paramtres. Le modle dit retards chelonns en constitue un exemple. Dans ce modle on a une variable dpendante yt dpendant dune variable xt et de ses retards : xt1 , xt2 , . . . , xtL : yt = + 0 xt + L xtL + ut Une restriction frquemment impose sur ces paramtres est quils soient de la forme : k = 0 k . Ceci correspond imposer L 1 contraintes de la forme 1 1 L 2 = 1,..., L = , = 1 1 0 L2 0 L1 0 qui sont typiquement non linaires et ne peuvent donc tre testes dans le cadre prcdent. On peut sintresser dune faon gnrale des hypothses de la forme : H0 : g (b0 ) = 0,
(b0 ) est o g (b) est un vecteur de p contraintes non linaires sur les paramtres telle que g b0 0 (b0 ) g (b0 ) de plein rang. Cette hypothse quivaut g inversible, avec b0 est la vraie b0 b0 valeur du paramtre.
Remarque Si g (b) = Rb r ; alors de R
g (b) b0
= R. On retrouve donc la condition sur le rang
Le rsultat suivant permet de gnraliser les tests prcdents au cas non linaire Proposition Si b est un estimateur asymptotiquement normal de b : L N (bN b) N 0, Vas b b
et si on dispose dun estimateur convergent de la matrice de variance de lestimateur, P bas b V b Vas b b Alors #1/2 " b) g (b b) b b g (b L b b g ( b ) g ( b ) N N (0, Ip ) . V as 0 0 b b
pour toute fonction g continue, drivable et drive continue, de dimension p 1
5.4. EXEMPLE Dmonstration On applique la mthode delta. On sait que g(b) g ( b ) L b N g(b b) g(b) N 0, Vas b b0 b0
77
g(b) 1/2 g (b) L b b b g ( b ) g ( b ) N V N (0, I ) as 0 0 b b g (b b) b g (b b) P g (b) g (b) b b Comme V V , on obtient le rsultat par application du b b as as 0 0 0 b b b b0 thorme de Slutsky.
Cest dire
Ce rsultat permet dtendre directement les tests prcdents au cas dhypothses non linaires : Cas dune seule contrainte, p = 1. On forme la statistique de Student : b= T Nr g(b b) g (b b) r = b 0 0 g (b b) c b g (b b) g (b b) b b g(b) Vas b V b b0 b0 b0 b0 !0 #1 " g(b b) b b V b b0
et on procde comme dans le cas dune contrainte linaire. Cas de plusieurs contraintes, p < K + 1. On calcule la statistique de Wald : b = Ng(b S b)0 " g(b b) c b Vas b b0 g (b b) b0 g(b b) = g (b b)0 g(b b) b0 !0 #1 g (b b)
que lon compare au quantile 1 de la loi du chi-deux p (le nombre de contraintes) degrs de libert. On est contraint dans ce cas la mise en oeuvre du test de Wald. Il ny a pas danalogue simple du test de Fisher puisque lestimation du modle sous lhypothse nulle ne peut tre faite simplement.
5.4
Exemple
Pour illustrer les proprits asymptotiques des tests, on reprend le mme cadre que celui utilis pour tudier la puissance du test de Student. On simule donc un modle un grand nombre de fois avec des vraies valeurs direntes sur lintervalle [0, 2] et on fait le test de lgalit du paramtre 1. On va examiner comment les rsultats sont modi lorsque lon met en oeuvre le test de Student asymptotique, bas sur la distribution dune loi normale et non plus le test de Student bas sur la loi de Student. on va aussi examin comment ces rsultats sont modi lorsque les perturbations ne suivent plus une loi normale. On prendra lexemple dune loi de Fisher 1 et 5 degrs de libert, normalise pour que son esprance soit nulle et sa variance unitaire. On choisit cette loi car elle est
78CHAPITRE 5. PROPRITS ASYMPTOTIQUES DE LESTIMATEUR DES MCO asymtrique et que les lois de Fisher nont un moment dordre 2 que si le deuxime degrs de libert est suprieur 4. On est donc dans un cas o les hypothses de convergence sont juste satisfaites. [A FAIRE]
5.5
Rsum
Dans ce chapitre on a : rappel les dirents modes de convergence utiles pour lexamen des proprits asymptotiques des estimateurs : convergence en loi et convergence en probabilit. rappel les proprits asymptotiques importantes des moyennes empiriques de variables : la loi des grands nombres et le thorme central limite. montr que sous des hypothses trs faibles (existence des moments dordre 1 et 2), lestimateur des mco est convergent et asymptotiquement normal. Etendu la notion de test pour dnir des tests asymptotiques, caractriss par le fait que leur puissance tend vers 1 et gnralis les notions de test de Student et de test de Fisher au cas asymptotique.
Chapitre 6 Le modle linaire sans lhypothse dhomoscdasticit

6.1 Prsentation : Homoscdasticit et htroscdasticit.
yi = xi b + ui dans lequel les observations taient supposes Indpendantes et Identiquement Distribues (IID). On a obtenu des rsultats de convergence de distribution doptimalit sous direntes hypothses. On a vu quil tait possible dassouplir un peu ces hypothses et de relcher lhypothse ID pour quelles ne portent que sur les moments dordre 1 et 2 de la loi des perturbations conditionnellement aux variables explicatives. Les hypothses centrales qui taient faites portaient E (ui |x ) = 0 qui est une condition didentication et sur V (ui |x ) = 2 et Cov (ui , uj |x ) = 0, soit V (u |x ) = 2 I. Cest dire une variance des perturbations conditionnelle aux variables explicative indpendante des variables explicatives et labsence de corrlation entre les perturbations. Ces hypothses sont appeles hypothses dhomoscdasticit. Les situations alternatives sont qualies dhtroscdastiques. On distingue lhtroscdasticit relative aux perturbations : V (u |x ) = V (u) 6= 2 I, de lhtroscdasticit relative aux variables explicatives V (u |x ) 6= V (u) .
Jusqu prsent on a examin le cas du modle linaire
6.1.1
Quelques exemples
yt = xt b + ut ut = t + t1 79
Exemple Sries temporelles avec erreurs distribues suivant une moyenne mobile :
80CHAPITRE 6. LE MODLE LINAIRE SANS LHYPOTHSE DHOMOSCDASTICIT

2 et E (t |X ) = 0, E (t t0 |X ) = 0 pour t 6= t0 , E (2 t |X ) = . Donc 2 2 2 2 = E (t + t1 )2 = E 2 E u2 t |X t + 2t t1 + t1 = 1 + E (ut ut1 |X ) = E (t + t1 ) (t1 + t2 ) = 2 0 E (ut ut0 |X ) = 0 |t t | > 1
La matrice de variance covariance scrit alors pour un chantillon de taille T (1 + 2 ) 0 0 . ... ... ... . . 2 . . . . V (u |x ) = . . 0 0 . . . . . . . . . . . . 2 0 0 (1 + ) 6= 2 IT Exemple Sries temporelles avec erreurs distribues suivant un processus autoregressif : yt = xt b + ut ut = ut1 + t
P s 0 ut = s=0 ts . L encore on suppose E (t |X ) = 0, E (t t0 |X ) = 0 pour t 6= t , 2 2 E (t |X ) = . Un calcul similaire au prcdent donne X X s ts s tks E (ut utk |X ) = E s=0 s=0 Xk1 X X s s s = E ts + ts tks s=0 s=k s=0 X X k s ts s tks = 2 = E k 1 2
s=k s=0
La matrice de variance covariance scrit alors 1 2 2 2 V (u |x ) = 1 . . . T 6= 2 IT
pour un chantillon de taille T 2 T . ... ... ... . . ... ... 2 ... ... ... 2 (1 + 2 )
Exemple Sries temporelles avec erreurs corrles sans restrictions : yt = xt b + ut
6.1. PRSENTATION : HOMOSCDASTICIT ET HTROSCDASTICIT.
81
L encore on suppose E (ut |X ) = 0, mais par contre on ne fait plus dhypothses sur la structure des corrlations. La matrice de variance covariance est quelconque. Dans une spcication plus contrainte, on peut supposer que la variance des rsidus est constante et que le coecient de corrlation entre deux priodes ne dpend que de lcart entre ses deux priodes : Cov (ut , uts ) = 2 u s . La matrice de variance covariance scrit alors pour un chantillon de taille T 1 1 2 T . . . . . 1 . . . . . . . 2 . . .. V (u |x ) = 2 . . 2 . . . . .. .. .. . . 1 2 T 2 (1 + ) 6= 2 IT Le nombre de paramtre de la matrice de variance tend vers linni lorsque la taille de lchantillon augmente. Exemple Modle coecients alatoires (dim (xi ) = 1) yi = a + xi bi + vi bi = b + vbi
2 avec , E (vi |X ) = 0, E (vi vj |X ) = 0 pour i 6= j, E (vi |X ) = 2 v , E (vbi |X ) = 0, 2 2 E (vbi vbj |X ) = 0 pour i = 6 j, E (vbi |X ) = b ,et E (vbi vj |X ) = 0 i, j. Le modle se rcrit donc
yi = a + xi bi + vi = a + xi (b + vbi ) + vi = a + xi b + xi vbi + vi = a + xi b + ui ui = xi vbi + vi et on a donc les proprits E (ui |x ) = E (xi vbi + vi |x ) = xi E (vbi |x ) + E (vi |x ) = 0 do lexpression de la matrice de variance E (ui uj |x ) = = = 2 E ui |x = 0 i 6= j E ((xi vbi + vi ) (xj vbj + vj ) |x ) xi xj E (vbi vbj |x ) + xi E (vbi vj |x ) + xj E (vi vbj |x ) + E (vi vj |x ) = 0 2 2 x2 i b + v 2 2 = E (xi vbi + vi )2 |x = E x2 i vbi + 2xi vbi vi + vi |x
82CHAPITRE 6. LE MODLE LINAIRE SANS LHYPOTHSE DHOMOSCDASTICIT La matrice de variance covariance scrit donc 2 2 V (u |x ) = Diag 2 v + xi b 6= 2 IN Dans ce cas, la matrice est bien diagonale, mais les lments diagonaux sont des fonctions de xi . Exemple Modle htroscdastique en coupe, forme dhtroscdasticit connue yi = a + xi b + ui avec , E (ui |x ) = 0, (ui uj |x ) = 0 pour i 6= j, E (u2 i |x ) = g (xi , ) . La forme de la fonction g est connue mais le paramtre est inconnu. La matrice de variance covariance scrit alors V (u |x ) = Diag (g (xi , )) 6= 2 IN Dans ce cas la matrice de variance dpend dun nombre de paramtre inni. Exemple Modle htroscdastique pur en coupe yi = a + xi b + ui
2 avec , E (ui |x ) = 0, (vi vj |x ) = 0 pour i 6= j, E (vi |x ) = 2 i . La matrice de variance covariance scrit donc V (u |x ) = Diag 2 i 6= 2 IN
Dans ce cas la matrice de variance dpend dun nombre de paramtre inni. Exemple Donnes de panel. Dautres exemples sont fournis par les donnes double indice ou encore donnes de panel yit , xit i = 1, . . . , N, t = 1, . . . , T
Ces donnes correspondent la situation dans laquelle on suit des individus au cours du temp. i est un indice reprsentant les individus. Le nombre dindividus observs est en gnral grand. t est lindice temporel, en gnral faible. Le modle scrit comme dhabitude : yit = xit b + uit i = 1, . . . , N, t = 1, . . . , T ou encore en empilant les observations relatives un mme individu : y i = xi b + ui i = 1, . . . , N
6.1. PRSENTATION : HOMOSCDASTICIT ET HTROSCDASTICIT.
83
On fait les hypothses : E (ui |x ) = 0, E ui u0j |x = 0 i 6= j, cest dire la condition didentication est satisfaites, et les observations relatives deux individus dirents sont non corrles. En revanche on ne fait pas lhypothse E (ui u0i |x ) = 2 IT . Le rsidu uit incorpore des lments inobservs permanent dans le temps. Il est modlis suivant le Modle erreurs composes uit = i + wit
0 2 2 avec E (wi w0i |x ) = 2 W IT , E (i wi |x ) = 0, E (i |x ) = . On dtermine facilement la matrice de variance 2 + 2 2 2 W . ... ... . 2 . = V (ui |x ) = . . . . .. .. . 2 2 2 2 2 + W
ainsi que la matrice de variance covariance des rsidus empils V (u |x ) = IN 6= 2 INT
On peut remarquer quun cas intressant est celui dans lequel sur le modle prcdent on considre les dirences premires yit = yit yit1 . Dans ce cas leet individuel est limin. En notant uiT uiT 1 uiT 1 uiT 2 ui = . . . ui2 ui1 le modle se rcrit y i = xi b + ui i = 1, . . . , N et la matrice de variance des perturbations est alors : 2 1 0 0 ... 0 1 2 = V (ui |x ) = 2 . . 0 .. .. 1 0 0 1 2
La caractristique intressante est que cette matrice est connue une constante multiplicative prs. Exemple Rgressions empiles : On a considr jusqu prsent le cas dans lequel il ny avait quune quation. On est parfois amen sintresser un ensemble dquations.
84CHAPITRE 6. LE MODLE LINAIRE SANS LHYPOTHSE DHOMOSCDASTICIT On pourrait en toute gnralit se dire que lon va estimer ces quations une par une. Ce serait possible mais parfois ce nest pas susant. En eet, on peut vouloir examiner si certaines proprits faisant intervenir des coecients de direntes quations sont satisfaites. On peut en fait gnraliser facilement le cadre une quation au cas dquations multiples. On considre la situation dans laquelle il y a M variables expliquer, et K + 1 variables explicatives : ymi , xi i = 1, . . . , N, m = 1, . . . , M
Le modle scrit pour chaque variable dpendante : ymi = xi bm + umi ou encore i = 1, . . . , N
y i = Diag (xi ) b + ui i = 1, . . . , N, On fait les hypothses E (ui |x ) = 0, cov uiuj |x = 0 i 6= j, V (ui |x ) = . Les rsidus umi nont pas ncessairement la mme variance et peuvent en outre tre corrls entre eux. La matrice de variance covariance des rsidus empils a alors pour expression E (uu0 |x ) = IN 6= 2 IN T Tel quil est crit ce modle nimpose pas de contraintes entre les paramtres des direntes quations. On pourrait nanmoins se trouver dans une situation dans laquelle les paramtres de la rgression sont fonction dun paramtre alternatif de dimension plus faible : b = Hc avec dim b > dim c et H une matrice. le modle scrit dans ce cas : y i = Diag (xi ) Hc + ui i = 1, . . . , N = x ei c + ui
xi 0 u1i b1 y1i . . . . . . = 0 .. 0 . . + . . yMi bM uMi 0 xi
6.1.2
Conclusion des exemples et dnition du modle linaire htroscdastique
On conclut de ces exemples quil y a une grande diversit de situations. La matrice de variance des perturbations peut dpendre de paramtres additionnels de dimension nie. Cest le cas par exemple des donnes de panel, des rgressions empiles, des modles de srie temporelle avec erreur distribue suivant un processus autoregressif dordre 1 ou une moyenne mobile.
6.2. ESTIMATION PAR LES MCO ET LES MCG
85
dpendre ou non des variables explicatives. Cest le cas par exemple du modle coecients alatoires, du modle htroscdastique avec htroscdasticit de forme connue. dpendre de paramtres additionnels de dimension innie. Cest le cas du modle htroscdastique pur en coupe ou des sries temporelles avec structure de corrlation quelconque. Denition On appelle modle linaire htroscdastique le modle dans lequel un vecteur de variables alatoire y dpend et de K + 1 variables explicatives x : y = xb + u avec les hypothses 2. H 2 : V (u |x ) = = (x, ) inversible 3. H 3 : x0 x inversible Le modle est dit htroscdastique car on na plus lhypothse H 2 : V (u |x ) = 2 I dans un tel cas le modle aurait t dit homoscdastique. On se pose les questions suivantes Les proprits statistiques de lestimateur des MCO sont-elles modies ? Lestimateur est-il toujours sans biais et convergent ? Quelle est sa matrice de variance et comment lestimer ? Lestimateur des MCO est-il toujours optimal ? Comment dtecter la prsence dhtroscdasticit ? Quelles sont les proprits asymptotiques des estimateurs ? On ne peut pas esprer avoir un cadre gnral permettant de traiter toutes les situations. Les rponses que lon va pouvoir apporter ces questions dpendent du cas considr. 1. H 1 : E (u |x ) = 0
6.2
6.2.1
Estimation par les MCO et les MCG

Proprits des moindres carrs ordinaires
et sa variance sachant x est
Proposition Sous les hypothses H 1, H 2, H 3, lestimateur des MCO, b bMCO = (x0 x)1 x0 y , est sans biais : E b bMCO |x = 0, V b bMCO |x = (x0 x)1 x0 x(x0 x)1 .
86CHAPITRE 6. LE MODLE LINAIRE SANS LHYPOTHSE DHOMOSCDASTICIT Dmonstration On a b bMCO = (x0 x)1 x0 y = (x0 x)1 x0 (xb + u) = b + (x0 x)1 x0 u On a donc pour lesprance de lestimation E b bMCO |x = b + E (x0 x)1 x0 u|x De plus b V bMCO |x = V (x0 x)1 x0 u|x
= b + (x0 x)1 x0 E (u|x) = b
= (x0 x)1 x0 V (u |x ) x(x0 x)1 = (x0 x)1 x0 x(x0 x)1 .
On voit donc que la proprit de sans biais nest pas aecte par la relaxation de lhypothse H 2. En revanche, on voit que la formule de la variance de lestimateur est dirente. Ce sont donc les carts-type qui des paramtres qui sont dirents. Cette conclusion est gnrale. Dans le cadre du modle linaire, le principal problme pos par lexistence dhtroscdasticit concerne le calcul de la prcision des estimateurs et corrlativement la validit des dirents tests que lon peut mettre en oeuvre en transposant directement les procdure issue de lhypothse IID.
6.2.2
La mthode des Moindres Carrs Gnraliss (MCG)
On introduit un autre estimateur appel estimateur des moindres carrs gnralis. Il correspond la minimisation de la distance entre les observations et lespace engendr par les variables explicatives, non plus dans la mtrique canonique de RN , mais dans celle correspondant 1 . Denition Lestimateur des MCG est solution du problme : 2 b bMCG = arg min y xb1
Proposition Sous les hypothses H 1, H 2, H 3, lestimateur des MCG existe, il est unique et est donn par : b bMCG = (x0 1 x)1x0 1 y Dmonstration Les conditions du premier ordre scrivent : 2 b 1 y xb 0 1 b = 2x b = x0 1 y y xb = 0 x0 1 xb b
6.2. ESTIMATION PAR LES MCO ET LES MCG La matrice hessienne de lobjectif a pour expression 2 b y xb 1 = 2x0 1 x b b0
87
Sous H 1, H 2, H 3, x0 1 x est inversible symtrique et positive : a 6= 0 RK +1 , a, xa 6= 0 sinon x0 x non inversible. Comme est inversible on a (xa)0 1 xa > 0. Do 2 b 1 y xb <0: 0 b b Les CN sont ncessaires et susantes, b bMCG = (x0 1 x)1 x0 1 y car x0 1 x inversible Sphricisation.
Lanalyse des proprits de lestimateur des MCG est grandement simplie lorsque lon applique aux observations une opration appele sphricisation. Proposition Pour toute matrice symtrique et dnie positive W il existe une matrice W 1/2 telle que W 1/2 W W 1/20 = I Cette matrice vrie aussi W 1/20 W 1/2 = W 1 Dmonstration Comme W est symtrique dnie positive, elle est diagonalisable dans le groupe orthogonal. Il existe donc une matrice orthogonale P (P 0 P = P 1 P = I ) telle que W = P 0 DP, o D est diagonale, les lments de la diagonale tant strictement positifs puisque W est dnie positive. On peut considrer W 1/2 = P 0 D1/2 P, o D1/2 est la matrice diagonale dont les lment diagonaux sont les inverses de la racine des lments diagonaux de D. On a W 1/2 W W 1/20 = P 0 D1/2 P P 0 DP P 0 D1/2 P = P 0 D1/2 DD1/2 P = P 0 P = I En outre si W 1/2 W W 1/20 = I, alors W 1/20 W 1/2 W W 1/20 W 1/2 = W 1/20 W 1/2 et donc W W 1/20 W 1/2 = I do W 1/20 W 1/2 = W 1
88CHAPITRE 6. LE MODLE LINAIRE SANS LHYPOTHSE DHOMOSCDASTICIT Ceci permet donc de dnir une matrice 1/2 . Cette dcomposition nest pas unique. Par exemple on peut choisir 1/2 semi-dnie positive. Mais on peut aussi la choisir de telle sorte quelle ait dautres proprits, un choix qui peut tre utile est celui dans lequel la matrice est triangulaire infrieure. Lopration de sphricisation consiste multiplier le modle par lune de ces matrices 1/2 . On a : 1/2 y = 1/2 xb + 1/2 u y e = x eb + u e
e = x0 1/20 1/2 x = x0 1 x inversible HS 3 : x e0 x Lestimateur des MCG est lestimateur des MCO des coecients de la rgression de y e sur les colonnes de x e: 1 1/20 1/2 b 1 0 e e0 x e) x ey e = x0 1 x x y bMCO = (x 0 1 1 1 = x x x y = b bMCG
Les hypothses du modle peuvent se transposer en partie au cas du modle sphricis : 1/2 1/2 u x = 1/2 E (u |x ) = 0 HS 1 : E (u e |x e) = E HS 2 : E (u eu e0 |x e ) = E 1/2 uu0 1/20 1/2 x = 1/2 E (uu0 |X ) 1/20 = 1/2 1/20 =
Exemple Sphricisation du modle htroscdastique en coupe. On a vu que pour ce modle la matrice de variance des perturbations scrit : V (u |x ) = Diag (g (xi , )) On vrie directement que pour sphriciser le modle on peut prendre 1 1/2 = Diag g (xi , ) 2 Exemple Sphricisation du modle perturbation AR (1). On a vu que pour ce modle on a 1 2 T . ... ... ... . . 2 2 2 . . .. .. V (u |x ) = 1 2 . . . . . . . . . . . . T 2 (1 + 2 )
6.2. ESTIMATION PAR LES MCO ET LES MCG et on vrie sans peine que lon peut prendre p 1 2 0 1 0 1/2 = . ... . . . . . 0
89
Lestimateur des MCG peut alors tre calcul comme estimateur des mco appliqu au modle : p y1 1 2 y2 y1 . . . yT yT 1 p x1 1 2 x2 x1 . . . xT xT 1 p u1 1 2 u2 u1 . . . uT uT 1
0 . ... . . . ... ... . . ... ... ... . . . ... ... 1 0 0 1
Exemple Sphricisation des donnes de panel. On a vu que pour des donnes de panel lorsque les rsidus taient modliss comme uit = i + it avec indpendance des i et des wit , la matrice de variance scrivait 2 + 2 2 2 . ... ... . 2 . V (ui ) = . ... ... 2 . . 2 2 2 2 + JT , et W = IT B T
b+
Il est commode dintroduire deux matrices permettant de dcomposer cette matrice B=
avec JT = eT e0T , o e0T = (1, . . . , 1) . JT est donc une matrice T T dont chaque lment vaut 1. On vrie sans peine que ces deux matrices sont symtriques et semi-dnies positives. Elles vrient en outre les proprits B2 = B W2 = W BW = W B = 0
90CHAPITRE 6. LE MODLE LINAIRE SANS LHYPOTHSE DHOMOSCDASTICIT Ces deux matrices ont en outre une interprtation simple. En eet on vrie que Bzi = eT zi , o zi est la moyenne individuelle des observations de lindividu i : zi = (zi1 + + ziT ) /T. Il en suit que W z i est le vecteur form des carts la moyenne individuelle. On peut exprimer simplement la matrice de variance des perturbations du modle erreurs composes partir de ces deux matrices. On a en eet : 2 2 2 2 V (ui ) = 2 JT + IT = + T B + W
Les matrices de la forme B +W sont stables par multiplication (B + W ) (0 B + 0 W ) = 0 B + 0 W . On en dduit sans peine que s 2 1 1 V (ui )1/2 = p B = I + B B+p W W+ 2 + T 2) 2 2) ( ( 2 + T p 2 2 o = 2 / ( + T ) 1. On en dduit que pour sphriciser les donnes il est possible de rajouter aux observations yit et xit la moyenne individuelle des observations (yi ou xi ). La quantit est inconnue, mais on peut la calculer aisment partir de la matrice de variance covariance des rsidus estims par les mco ou partir de deux estimateurs annexes : lestimateur Between, estimateur des mco sur les moyennes individuelles dont 2 2 la variance rsiduelle est 2 B = + /T et lestimateur Within, estimateur des mco sur 2 les carts aux moyennes individuelles dont la matrice de variance est 2 W = (T 1) /T On voit donc que 2 2 2 W T / (T 1) W = = 2 2 2 ( + T ) B T (T 1) 2 B
6.2.3
Proprits statistiques de lesprance et de la variance conditionnelle des MCG
Proposition Lestimateur des MCG vrie les proprits suivantes Lestimateur des MCG est sans biais : E b bMCG |x = b Lestimateur des MCG a pour matrice de variance V(b bMCG |x) = (x0 1 x)1 Lestimateur des MCG est lestimateur linaire sans biais de variance minimale (Th. de Gauss Markov) Dmonstration b bMCG = (x0 1 x)1x0 1 y = (x0 1 x)1 x1 (xb + u) On a donc b = b + E (x0 1 x)1 x1 u |x E bMCG |x b bMCG = b + (x0 1 x)1 x1 u
= b + (x0 1 x)1 x1 uE (u |x ) = b
6.3. LESTIMATEUR DES MCQG et aussi = V (X 0 1 X )1 X 0 1 U |X V b bMCG |X
91
= (X 0 1 X )1 X 0 1 V (U |X ) 1 X (X 0 1 X )1 = (X 0 1 X )1 X 0 1 1 X (X 0 1 X )1 = (X 0 1 X )1
Loptimalit provient directement du fait que nimporte quel estimateur linaire sans biais du paramtre est aussi un estimateur linaire sans biais du paramtre dans le modle sphricis. Or dans ce modle lestimateur des MCO est optimal et cet estimateur est b b celui des MCG : b bMCG = e bMCO et e bMCO optimal
Les proprits algbriques de lestimateur des MCO du cas homoscdastique se transposent directement au cas des MCG. Nanmoins cette transposition est peu utile en pratique car on est rarement dans le cas o la matrice de variance est connue. Rappelons toutefois que dans le cas des donnes de panel on a vu que pour le modle erreurs composes la matrice de variance des erreurs du modle en dirence premire tait connue un facteur multiplicatif prs.
6.3
Lestimateur des MCQG
Lestimateur des MCG ne peut en gnral pas tre mis en oeuvre car on ne connat pas la matrice de variance des perturbations , sauf dans des cas trs spciques. Il en rsulte que lestimateur des MCG et la matrice de variance des MCO ne sont pas calculables. Une faon de procder est de chercher estimer cette matrice et remplacer dans lexpression de lestimateur la matrice par son estimateur. b un estimateur de . On appelle estimateur des Moindres Carrs Denition Soit Quasi-Gnraliss lestimateur : b dLestimateur des MCQG nest en gnral pas sans biais ni linaire en y puisque bMCQG ne peuvent donc tre quasymptotiques. Ces proprits pend de y . Les proprits de b vont dpendre du cas considr. On sintresse donc la convergence et la distribution asymptotique des paramtres. Il faut en fait examiner les proprits asymptotiques au cas par cas suivant la nature de lhtroscdasticit. On peut alors tudier de faon similaire les proprits asymptotiques de lestimateur des mco. On va dans les trois chapitres suivants considrer les trois formes importantes dhtroscdasticit survoles dans la premire partie de ce chapitre. b b 1 x)1 x0 b 1 y. bMCQG = (x0
92CHAPITRE 6. LE MODLE LINAIRE SANS LHYPOTHSE DHOMOSCDASTICIT 1. Cas o = IN () et de dimension nie. Cest le cas des donnes de panel et des rgressions empiles. Lhtroscdasticit est relative des corrlations entre observations, mais celle-ci sont susamment rgulire. 2. Cas o = IN h (xi , ). Cest le cas de lhtroscdasticit lie aux variables explicatives. 3. Cas des sries temporelles.
Chapitre 7 Le modle htroscdastique en coupe

La situation que lon considre est celle dun modle de rgression en coupe yi = xi b + ui pour lequel on fait certaines des hypothses prcdentes : H 1 E (ui |xi ) = 0 H 2 N x0i xi est inversible Ces hypothses garantissent lexistence de lestimateur des mco et le fait quil soit sans biais. On a vu quil y a un grand nombre de situations dans lesquelles on ne peut pas faire lhypothse dhomoscdasticit : V (ui |xi ) = 2 . ds que cette hypothse dhomoscdasticit nest plus satisfaite, on sait que dune part le calcul des cart-type est aect et dautre part quil est en thorie possible de dnir des estimateurs plus prcis. On peut donc sintresser deux questions distinctes : comment faire de linfrence robuste cette situation dhtroscdasticit ? Ceci revient sinterroger sur lestimation de la matrice de variance de lestimateur des mco. On peut y rpondre sous des hypothses gnrales en faisant un eort de spcication minimal du modle, i.e. en laissant la variance des rsidus pour chaque observation tre spcique lindividu : V (ui |xi ) = 2 i . Il sagit du modle htroscdastique pur. La deuxime question correspond la mise en oeuvre destimateurs plus ecaces que les mco. Comme on la vu il sagit de lestimateur des MCQG. Il est alors ncessaire de spcier la forme de la variance partir dun nombre de paramtre restreint : V (ui |xi ) = h (xi , ) . Comme on va le voir il est possible alors sous certaines hypothses de mettre en oeuvre des estimateurs asymptotiquement quivalents lestimateur des MCG. Nanmoins si les rsultats des estimations ne sont pas tellement aects par ce type de procdure et la spcication de la variance, linfrence que lon fait (le rsultat des tests) est fortement lie ces hypothses faites. Comme en gnral ces estimations sont faites dans de grands chantillons, le gain decacit est parfois modeste par rapport au risques lis une mauvaise spcication de la variance conditionnelle des 93
94
CHAPITRE 7. LE MODLE HTROSCDASTIQUE EN COUPE
rsidus. Au total la mise en oeuvre de lestimateur des mCQG dans ce cadre est assez rare et la plupart du temps on se contente dappliquer les mco et de faire de linfrence robuste la prsence dhtroscdasticit.
7.1
Infrence robuste lhtroscdasticit
On considre le modle yi = xi b + ui les rsultats que lon va montrer sont vrais sous des hypothses trs gnrales autorisant par exemple le fait que les observations ne soient pas quidistribues. Cest par exemple le cas dans le modle htroscdastique pur pour lequel V (ui |xi ) = 2 i , et dans lequel on pourrait aussi faire lhypothse que les rgresseurs ne sont pas distribus suivant une mme loi. On va nanmoins se situer dans un cadre plus proche du prcdent dans lequel on fera des hypothses dhomognit plus fortes : H 0 Les observations (yi , xi ) RR K +1 , i = 1, ..., N , sont indpendantes et quidistribues H 1 E (ui |xi ) = 0 0 H 2 V (x0i ui ) = E (u2 i xi xi ) existe 0 H 3 H 4 N x x et E (x0i xi ) sont inversibles H 5 Les moment |xki xli | existent H 6 Pour tout indice des variables explicatives l1 , l2 , l3 , l4 les moments u2 i |xl1 i xl2 i | |ui | |xl1 i xl2 i xl3 i | et |xl1 i xl2 i xl3 i xl4 i | existent
Comme on le voit la dirence essentielle avec le cadre homoscdastique est que lon ne fait plus lhypothse V (ui |xi ) = 2 on a une situation beaucoup plus gnrale dans laquelle par exemple V (ui |xi ) = g (xi ) avec g quelconque pourvu que E (g (xi ) x0i xi ) existe, ce qui est garanti ds lors que V (ui xi ) existe. On voit que cette plus grande gnralit est nanmoins paye par une exigence plus forte sur la distribution des variable puisquil faut que les moments des variables existent jusqu lordre 4 (hypothse H 6). Cette dernire hypothse est utile pour lestimation de la matrice de variance. Elle permet dobtenir la convergence en probabilit des moments dordre 4. On voit quelle est exigeante et que, mme si elle est satisfaite, vraisemblablement il sera ncessaire quil y ait un grand nombre dobservations pour que la moyenne empirique dun polynme de degrs 4 des observations soit proche de sa valeur limite. Nimporte quelle observation dans les queues de distributions aura un eet important sur ces moments qui ne sera rsorb que si le nombre dobservations est grand. Cest pourquoi la notion de proprits asymptotiques signie ici plus quailleurs que le nombre dobservations est grand.
7.1. INFRENCE ROBUSTE LHTROSCDASTICIT
95
7.1.1
Proprits asymptotiques de lestimateur
Proposition Sous les hypothses H0 H6, lestimateur des MCO 1 0 1 b bmco = (x0 x) x0 y = x0i xi xi yi
vrie quand N P 1. b bmco b, lestimateur est convergent L bmco , lestimateur est asymptotiquement normal bmco b N 0, Vas b 2. N b 1 0 0 b 3. Vas bmco = [E (x0i xi )]1 E (u2 i xi xi ) [E (xi xi )]
de xi garantie la convergence de x0i xi E (x0i xi ) . La seule chose quil y ait montrer est la convergence de x0i ui vers E (x0i ui ) . Pour cela on applique la loi des grands nombres : 0 E (x0i ui ) = 0 et V (x0i ui ) = E (u2 i xi xi ). On est dans les condition dapplication de la loi des P grands nombres : x0i ui E (x0i ui ) = 0. Normalit asymptotique La encore la seule question est celle de la convergence de Nx0i ui . mais comme prcdemment, lexistence des moments dordre 1 et 2 de x0i ui , L 0 0 (x0i ui ) = E (u2 Nx0i ui N (0, E (u2 E (x0i ui ) = 0, V i xi xi ) garantissent que i xi xi )) . Il en 0 1 0 L 1 0 0 rsulte que N b bmco b = Nxi xi xi ui N 0, E (x0i xi )1 E (u2 i xi xi )E (xi xi ) Convergence de lestimation de la matrice de variance. P 2 0 0 b2 Le point important est de montrer que u i xi xi E (ui xi xi ) 2 0 b u b2 x x = x0i xi x b b + u i i mco i i i 2 0 b = u2 x x + x0i xi + x b b i mco i i i b 2 b bmco x0i ui x0i xi Pour que le premier terme converge en probabilit vers son esprance, il est ncessaire que les lments qui la forme u2 i xl1 i xl2 i satisfasse la loi de grands nombres. Ce qui est garanti par la proprit H 6. Le troisime terme tend alors vers zro en probabilit puisque P x0i ui x0i xi E (x0i ui x0i xi ) = 0. Le second terme tend aussivers zro puisque les lments P b b qui le constituent sont de la forme bk b bl b kmco lmco xli xki xl1 i xl2 i et xli xki xl1 i xl2 i E (xli xki xl1 i xl2 i ) puisque les moments dordre 4 existent et que bkmco bk 0.
P
Sous les hypothses H1-H7 on a en plus 1 0 0 1 P b b b b2 x x x x V b 4. V bmco = (x0i xi ) u mco on peut estimer la matrice de variance i i i i i 1/2 L b b b bmco b N (0, I ) bmco 5. N V 1 0 xi ui . Lexistence des moments |xki xli | Dmonstration Convergence b bmco = b+ x0i xi
P
96
Cet estimateur de la matrice de variance de lestimateur des mco est connu sous le nom de matrice de variance de White robuste lhtroscdasticit. Il est trs couramment utilis et systmatiquement propos dans les logiciels standards (sauf SAS). Remarque L encore les rsultats peuvent tre gnraliss au cas dans lequel on ne fait plus lhypothse dquidistribution. Ceci permet en particulier de traiter le cas du modle htroscdastique pur, dans lequel V (ui |xi ) = 2 i . Tous les rsultats dcoulent de lapplication du thorme central limite de Liapounov x0i ui . . Il faut donc que la condition P N 2 de Liapounov soit satisfaite. Si on considre 2 N et si on considre 3 i = N = n=1 n . . P 1 N 3 3 N, il sut que 3 N 6 2 E (|u3 i | |xi ) ainsi que N = N N 0, si par exemple n=1 n h i1 L 0 les variable explicatives sont iid. On sait qualors . 2 Nx0i ui N (0, I ) . N E (xi xi ) Ces rsultats se gnralisent directement sans modication au cas des donnes de panel et au cas des quations empiles. Si on considre le modle y i = xi b + ui , y i de dim M 1, xi de dim M K + 1 spci en terme de vecteur y i , xi et ui . Sous des hypothses convenables, dont la condition didentication E (ui |xi ) = 0, et lanalogue de la condition prcdente pour la variance E (x0i ui u0i xi ) existe et des conditions sur lexistence de moments des variables dun ordre lev. On a lextension des rsultats prcdents :
P 1. b bmco b, lestimateur est convergent L bmco , lestimateur est asymptotiquement normal bmco b N 0, Vas b 2. N b 3. Vas b bmco = [E (x0i xi )]1 E (x0i ui u0i xi ) [E (x0i xi )]1 1 0 0 0 0 1 P b b b 4. V bmco = (xi xi ) xi b ui u bi xi xi xi V bmco on peut estimer la matrice de variance 1/2 L b b b bmco bmco b N (0, I ) 5. N V
7.1.2
Test dhypothses dans le modle htroscdastique
Lintrt de ces rsultats est bien sur la possibilit deectuer des tests. On sintresse des tests dune hypothse nulle de la forme H0 : Rb = r. Proposition Sous les hypothses H1-H7, 1/2 1 L 0 2 0 0 1 0 b Rbmco r N (0, Ip ) N R(xi xi ) u bi xi xi xi xi R
o p est le nombre de ligne de la matrice R. Sous lhypothse H0 : Rb = r, la statistique 0 h i1 1 L 0 2 0 0 1 0 b b b S = N Rbmco r R(xi xi ) u bi xi xi xi xi R Rbmco r 2 (p)
7.1. INFRENCE ROBUSTE LHTROSCDASTICIT
97
Un test de H0 contre H1o : Rb 6= r peut tre eectu partir de la rgion critique W = n b S b > q (2 (p) , 1 ) o q (2 (p) , 1 ) est le quantile dordre 1 de la loi du S 2 p degrs de liberts. Remarque On remarque que dans ce cas le principe du test de Fisher se gnralise. Dans le cas homoscdastique, le test de Fisher consistait regarder comme ici si Rb bmco r est proche ou non de zro. On a vu que dans le cas homoscdastique, il est possible de rcrire la statistique partir des sommes des carrs des rsidus sous les hypothses nulles et alternatives. Ici cette dernire simplication nest plus possible. Il faut donc prendre garde au fait que dans de nombreux logiciels on peut simplement mettre en oeuvre les tests de Fisher, mais que ceux-ci sont faits sous lhypothse dhomoscdasticit.
la seule dirence est que la matrice de variance prendre en compte est la matrice de variance robuste.
Remarque Le principe du test se gnralise l aussi au test dhypothses non linaire de la forme H0 : g (b) = 0. On utilise l encore la mthode delta. La statistique de test est de b 0 1 b) c b g (b) 0 g (b b b la forme S = Ng (b) b0 Vas b g (b b). Par rapport au cas homoscdastique, b0
7.1.3
Estimation sous contraintes linaires en prsence dhtroscdasticit
On ne prsente pas ici tous les rsultats. Lestimateur des moindres carrs contraints est toujours calcul de la mme manire comme 1 bmcc = (x0 x)1 x0 y (x0 x)1 R0 R(x0 x)1 R0 R(x0 x)1 x0 y r i 1 h R bmco r = bmco (x0 x)1 R0 R(x0 x)1 R0 On a bmcc b = h 1 i 0 1 0 I (x0 x)1 R0 R(x0 x)1 R0 R (x x) x u h i1 1 1 1 0 0 = I x0i xi R Rx0i xi R R x0i xi x0i ui
Sous les mme hypothses que prcdemment, on peut dterminer la loi asymptotique de lestimateur et un estimateur convergent de la matrice de variance asymptotique.
P 1. b bmco b, lestimateur est convergent L 2. N b bmco b N 0, Vas b bmco , lestimateur est asymptotiquement normal 0 0 1 b [I H 0 ] 3. Vas bmco = [I H ] E (x0i xi )1 E (u2 i xi xi )E (xi xi )
avec H = E (x0i xi )1 R0 [RE (x0i xi )1 R0 ]
98
CHAPITRE 7. LE MODLE HTROSCDASTIQUE EN COUPE h i h i P 2 0 0 1 b b (x0 xi )1 u b bas b bmco = I H I H b , b x x x x V 4. V i i as mco i i i i h i 1 b = x0 xi 1 R0 Rx0 xi 1 R0 avec H R i i 1/2 L b bas b bmco bmco b N (0, I ) 5. N V
7.2
Test dhtroscdasticit
Le test de Breush-Pagan
7.2.1
La dirence essentielle entre lapproche avec htroscdasticit et lapproche sans h0 2 0 troscdasticit est que E (u2 i xi xi ) 6= E (ui ) E (xi xi ) . Un test naturel dhomoscdasticit 2 0 2 consiste donc tester si E (ui xi xi ) = E (ui ) E (xi x0i ) . Ce qui revient exactement tester la nullit globale du vecteur des coecients de la projection orthogonale de u2 i sur les variables explicatives xli xmi l, m K + 1 sauf la constante. Il est important de reconnatre ici que le test ne fait intervenir que la projection et pas une modlisation de la forme de lhtroscdasticit. On ne spcie pas en particulier X E u2 | x xli xmi lm = i i
l,mK +1 2 2 et le test que lon fait nest pas H0 : E (u2 i |xi ) = contre H1 : E (ui |xi ) =
mais simplement celui de 2 0 0 H0 : E u2 i xi xi = E ui E (xi xi ) 2 0 0 H1 : E u2 i xi xi 6= E ui E (xi xi )

l,mK +1
l,mK +1
xli xmi lm
contre
Maintenant il est vrai que ce test se fait au moyen de la rgression X = xli xmi lm + vi u2 i Ici vi est dni par la proprit E (vi |xli ) = 0. Lide du test est de procder au test de la nullit jointe des coecients de la rgressions prcdente. Pour cela il faut connatre la loi asymptotique des estimateurs. Bien sur elle peut tre obtenue sous des conditions gnrales 2 par exemple ne faisant pas dhypothses sur les moments dordre 2 E (vi |xli ) . Nanmoins on fait en gnral le test de la nullit globale sous lhypothse dhomoscdasticit des 2 rsidus vi : cest dire V (vi |xli ) = 2 . Une hypothse parfois appele dhomocurticit. Dans ce cas le test est trs simple mettre en ouvre il sagit simplement du test de la nullit globale des coecients dans une rgression. Bien sur un problme vient du fait que le rsidu nest pas observ mais seulement estim. En fait ce problme nest pas important, on peut faire exactement comme si le rsidu tait connu. On a le rsultat suivant :
7.2. TEST DHTROSCDASTICIT Proposition Sous les hypothses H0-H6, le test de lhypothse 2 2 H0 : E u2 V u4 i |xi ) = i |xi = contre 2 H1 : V u4 i |xi =
99
incluant (K + 1) (K + 2) /2 variables, dans lequel on fait un test de nullit jointes de tous les paramtres excepte la constante. Sous H0 , la statistique NR2 suit un 2 ((K + 1) (K + 2) /2 1). Un test convergent au niveau peut tre fait partir de la rgion critique {NR2 | NR2 > q (2 ((K + 1) (K + 2) /2 1) , 1 )} Dmonstration Le seul point montrer est que sous les hypothses faites lestimateur des coecients dans le modle avec u b est asymptotiquement quivalent celui avec u. 2 P 2 Pour cela il sut de montrer que N zi u bi zi ui 0, avec z les lments du type 2 2 2 2 b b b xli xmi . Comme u bi = ui + xi b b , do zi u bi = zi ui + 2zi ui xi b b + zi xi b b . 2 2 2 2 b b bi zi ui = 2zi ui xi N b b + zi xi N b b . Sous les Il en rsulte que N zi u zi ui xi ) 0, donc z hypothses H0 H6 : zi ui xi E ( i ui xi = o (1) = E (zi xi E (ui |xi )) = L P 2 N b b b N (0, Vas ) , donc N b b b = O (1) et et zi x2 i E (zi xi ) . En outre 2 b = o (1) . Comme zi x2 N b b b = O (1) . Comme b b b = o (1) , zi x2 i i N bb zi ui xi = o (1) et N b b b = O (1) , zi ui xi N b b b = o (1) .
P
peut tre fait simplement partir de la rgression X u b2 = xli xmi lm + vi i

l,mK +1
Remarque 1. Lintrt de ce test dhtroscdasticit est dinformer sur les situations dans lesquelles il est ncessaire deectuer la correction de White pour lhtroscdasticit. Si on accepte lhypothse dhomoscdasticit, alors on pourra estimer la matrice de variance des estimateurs sous sa forme standard, et on pourra eectuer les tests dhypothses linaires comme on a vu partir des sommes des carrs des rsidus sous les hypothses nulles et alternatives, ce qui prsente un intrt pratique certain. Sinon, on utilise la formule donnant la matrice robuste de White et les tests doivent tre eectus comme on la montr dans le cadre htroscdastique. 2. Il est aussi possible de faire des tests dhtroscdasticit sous des formes plus restreintes dhtroscdasticit : Sous les hypothses H0-H6, le test de lhypothse 2 2 H0 : E u2 V u4 i |xi ) = i |xi =
100 contre
CHAPITRE 7. LE MODLE HTROSCDASTIQUE EN COUPE 4 2 2 H1 : E u2 i |xi ) = + z V ui |xi = u b2 i = a0 + z + vi
dans lequel z est un sous-ensemble des variables explicatives, peut tre fait simplement partir de la rgression incluant KZ variables entrant dans z , dans lequel on fait un test de nullit jointes de tous les paramtres excepte la constante. Sous H0 , la statistique NR2 suit un 2 (KZ ). Un test convergent au niveau peut tre fait de la rgion critique {NR2 |NR2 > q (2 (KZ ) , 1 ) }
7.2.2
Test de Goldfeld-Quandt
Les seuils N1 et N2 sont choisis de faon carter les deux chantillons. En pratique on prend N1 N/3 et N2 2N/3. Lide du test de Goldfeldt et Quandt est de comparer les estimateurs des variances dans chaque sous chantillons b2 1
1 X 1 = (yi x0ib b1 )2 , N1 K 1 i=1
Une forme plus ancienne des tests dhtroscdasticit est donne par le test de Goldfeld Quandt. Il sagit dune situation dans laquelle on suspecte quune variable donne z 2 joue sur la variance des rgresseurs de faon monotone, cest dire E (u2 i |xi )) = + h (z ) , avec dim z = 1 et h une fonction croissante. Lide du test de Goldfeld et Quandt est dordonner les observations en fonction de zi et de partitionner ensuite les observations en deux groupes tels que y1 x01 . . y1 = . . , x1 = . . , 0 yN1 xN 1 yN2 +1 x0N2 +1 . . y2 = . . , x2 = . . . yN x0N
Sous lhypothse dhomoscdasticit, b2 1
b2 2
N X 1 = (yi x0ib b2 )2 N N2 K 1 i=N +1

2
b2 2
2 0 2 , N1 K 1 N1 K 1 2 0 . 2 N N2 K 1 N N2 K 1
7.3. LESTIMATEUR DES MCQG DANS LE CAS O V (UI |XI ) = H (, XI ) Si bien que b2 1 FN1 K 1,N N2 K 1 . b2 2
101
Lhypothse nulle dhomoscdasticit est rejete au seuil si b2 1 > FN1 K 1,N N2 K 1 (1 ) b2 2
o FN1 K 1,N N2 K 1 (1 ) est le quantile 1 de la loi de Fisher N1 K 1 et N N2 K 1 degrs de libert. Ce test nest plus tellement utilis. Il a t dvelopp dans le cadre spcique dans lequel les rsidus sont normaux et la statistique de test est exacte et non pas asymptotique. Cest la raison pour laquelle dailleurs les estimateurs du paramtre b sont dirents dans les deux chantillons. Cela garantit en eet que les deux estimateurs des variances sont indpendants, ce qui est important pour construire la statistique de Fisher. Il en rsulte dailleurs que le test eectu nest pas ncessairement le test dhtroscdasticit puisque les hypothses nulles et alternatives du test de Goldfeld et Quandt sont 2 H0 : 2 1 = 2 et b1 b2 < contre
2 H1 : 2 1 6= 2 et b1 b2 <
Alors que le test dhtrognit pur est un test de

2 H0 : 2 1 = 2 et b1 = b2
contre
2 H1 : 2 1 6= 2 et b1 = b2
En tout tat de cause rien nempche de considrer des indicatrices dappartenance aux trois sous chantillons I1 = {i < N1 } , I2 = {N1 i < N2 } et I3 = {N2 i} , et dexaminer les resultats de la rgression
2 u b2 i = + 1 I1 + 3 I3 + vi
et de tester lgalit 1 = 3 .
7.3
Lestimateur des mCQG dans le cas o V (ui |xi ) = h (, xi)
Un cas pouvant se prsenter est celui dans lequel on spcie le moment dordre 1 et le moment dordre 2 dune variable conditionnellement des variables explicatives. On a
102
alors un modle de la forme E (yi |xi ) = xi b V (yi |xi ) = h (xi , ) > 0 o h est une fonction connue, mais un paramtre inconnu. On est typiquement dans un cas htroscdastique, et on sait que lestimateur des MCG serait lestimateur linaire sans biais le plus ecace du paramtre b. Cet estimateur pourrait tre obtenu en sphricisant dabord p les observations, i.e. en divisant les variables explicatives et la variable dpendante par h (xi , ) puis en appliquant lestimateur des MCO. Nanmoins il nest pas possible de mettre en oeuvre cette mthode directement car le paramtre est inconnu. On peut nanmoins dans certaines situations avoir un estimateur convergent b du paramtre et r , on met alors en oeuvre lestimateur des MCQG en divisant les variables par h xi , b .
On tudie ici les conditions sous lesquelles lestimateur obtenu est asymptotiquement quivalent lestimateur des MCG et sera donc lestimateur de variance minimale. Il convient nanmoins de remarquer que ce type de dmarche est rarement mis en oeuvre. En eet, on a tendance privilgier la robustesse des estimations et les tailles dchantillons parfois trs grands dont on dispose incitent le faire. Il sagit ici non pas de la robustesse de lestimateur du paramtre b mais de la robustesse et de la convergence de lestimateur de la variance de ce paramtre. Les rsultats de linfrence faite lorsquon spcie les deux moments sont ncessairement plus fragiles que lorsquon ne spcie quun seul de ces deux moments. H0 Les observations (yi , xi ) RR K +1 , i = 1, ..., N , sont IID H 1 E (ui |xi ) = 0 H 2 H 2 V (ui |xi ) = h (, xi ) mesurable et drivable 0 H 3 H 4 N x x et E (x0i xi ) sont inversibles H 5 Les moment | xki xli | existent H6 b = 0 + O 1/ N o 0 est la vraie valeur du paramtre
H une fonction d (xi ) telle que Max (|x0li ui | |h1 (, xi )| , |x0li ui | h1 (, xi ) , 7 x0 xl2 i h1 (, xi ) < d (xi ) et E (d (xi )) < l1 i Ce modle spcie donc la fois les moments dordre 1et 2 des rsidus conditionnellement aux variables explicatives. La condition H 7 garantie la convergence uniforme P en des moyennes empiriques de fonction de vers leur esprance h1 (, xi ) x0i xi P P E(h1 (, xi ) x0i xi ), h1 (, xi ) x0i ui E(h1 (, xi ) x0i ui ) et h1 (, xi ) x0i ui E (h1 (, xi ) x0i ui ). Proposition Sous les hypothses H0 H7, lestimateur des MCQG 1 0 0 x xi x yi b bmcqg = i i h xi , b h xi , b
vrie quand N
7.3. LESTIMATEUR DES MCQG DANS LE CAS O V (UI |XI ) = H (, XI )

P 1. b bmcqg b, Convergence L b b 2. N bmcqg b N 0, Vas bmcqg , Normalit asymptotique h i1 x0 xi b 3. Vas b bmcqg = E( h(xii , ) =V b Equivalence des MCQG et des MCG mcg 0)
103
1 P x0 xi b b as b bmcqg = h(xii , b V 4. V as mcqg Estimation de la matrice de variance asymp0) totique Vas 1/2 L b b as b bmcqg bmcqg b N (0, I ) 5. N V b b Dmonstration Soit hi = h , xi . 1 1 0 1 0 b Convergence b bmcqg = b + b x x h h i i i i xi ui P P 1 b xi , x0i zi E (h1 (xi , 0 ) x0i zi ) comme 0 et par lhypothse H 7 qui garanh tit la convergence uniforme P b h1 x0 zi E h1 x0 zi
i i i i
Do la convergence de lestimateur puisque E (h1 (xi , 0 ) x0i ui ) = 0. Normalit asymptotique 1 0 L x0 i xi b ) Le seul point montrer est N h x ui N 0, E(
i i h(xi ,0 )
Le deuxime terme converge clairement en loi puisque h1 (xi , 0 ) x0i ui a des moments x0 xi ). On dordre 1 et 2. On a dailleurs par un calcul immdiat V (h1 (xi , 0 ) x0i ui ) = E( h(xii , 0) 1 1 (xi , 0 ) = h1 e , xi b , avec applique le thorme de la valeur moyenne b h i h b e 1 0 0 1 1 b e On peut donc crire < h , x N h ( x , ) x u = x u h i 0 i i i i i i P 0 1 b b e N et N est born en probabilit et par lhypothse H 8 xi ui h , xi 0 , xi = 0 E x0i ui h1 e Les deux derniers points se dmontrent de la mme faon que prcdemment
1 1 Nb hi x0i ui = N b hi h1 (xi , 0 ) x0i ui + Nh1 (xi , 0 ) x0i ui
7.3.1
Application : u2 i = vi exp zi
On considre le modle en coupe yi = xi b + ui
104
dans lequel on spcie la forme de lhtrognit. On suppose quil existe des variables zi formes partir de xi telles que ui = vi exp (zi ) 2 E vi |xi = 1
Cette forme est utile et souvent choisie car elle garantit que la variance conditionnelle est positive. Il faut estimer le paramtre . Ceci est fait partir des rsidus dun estimateur initial des mco. On procde de la faon suivante : 1. Calcul de b bMCO et des rsidus : u bi = yi xib bMCO . 4. Calcul des donnes sphricises : y ei = yi / bi , x ei = xi / bi 5. Calcul de lestimateur des MCO sur ces donnes 2. Rgression de log (u b2 b2 i ) sur les variables zi : ln (u i ) = 2zi + wi . bi = exp z 0b 3. Construction dun estimateur de bi par
i
7.4
Exemple : estimation dune quation de salaire
On illustre les rsultats de ce chapitre en estimant une quation de salaire. Cette quation dite de Mincer relie le salaire (en logarithme) au niveau dducation et lexprience. Le niveau dducation est mesur par le nombre danne de scolarit, et lexprience en nombre dannes coules depuis la n des tudes. La spcication retenue est quadratique : wi = 0 + s scoi + e expi + e (expi 10)2 + h hom me + ui le rendement de lducation est laccroissement du salaire li laugmentation dune anne de la scolarit : s . Le paramtre s reprsente donc le rendement de lducation au bout de 12 annes dtude. De mme le rendement de lexprience est estim comme e + 2 e (expi 20) . Le coecient e sinterprte donc comme le rendement de lexprience 20 ans, et le coecients e rete quant lui la nature croissante ou non des rendements de lexprience. Lquation est dabord estime par les mco. On calcule pour cette estimation les carts-type de deux faons : dabord avec la formule standard des 1 bb (1) = V bas (1) /N puis avec la formule robuste de White bas (1) = b2 x0i xi et V mco V 1 1 0 0 bas (2) = x0 xi u bb (2) = V bas /N. Les rsultats sont prsents dans le taV b2 et V i i xi xi xi xi bleau 7.1 La premire colonne donne la valeur estime du paramtre. La deuxime lcart-type estim par la formule ignorant lhtroscdasticit, la troisime colonne donne lcarttype robuste calcul avec la matrice de White. Enn la dernire colonne donne le ratio
7.4. EXEMPLE : ESTIMATION DUNE QUATION DE SALAIRE

bmco 4.11090 0.06346 0.02568 -0.00052 0.15131 s(bmco) (0.02932) (0.00182) (0.00078) (0.00004) (0.00829) sw(bmco) (0.03587) (0.00218) (0.00089) (0.00004) (0.00832) sw(bmco)/s(bmco) 1.224 1.196 1.144 1.049 1.004
105
Cste scolarit exprience exprience homme
Tab. 7.1 Estimateur des mco avec cart-types robustes et standards entre les deux carts-type. Les rsultats sont obtenus sur un chantillon de 6975 salaris dans le commerce en 2002. Les rsultats montrent que le rendement de lducation est 6.3%. Une anne dducation supplmentaire conduit donc un accroissement du salaire de 6.2%. On observe que le rendement de lexprience est dcroissant avec lage. Il est de 2.6% pour une anne supplmentaire 10 ans danciennet et de 2.0% 20 ans. Enn on voit que les hommes sont pays 15% plus que les femmes. Lintrt principal de ce tableau rside nanmoins dans les carts-type estims. On voit quen gnral les carts-type tenant compte de lhtroscdasticit sont plus levs et quen terme relatif les dirences sont leves. Ainsi pour le coecient de la scolarit lerreur est de 20%. On voit nanmoins que dans labsolu les carts-type ne sont pas fondamentalement dirents. Ainsi pour la scolarit lintervalle de conance 95% calcul avec le premier cart-type est de [5.98 , 6.71] alors quavec le second il est de [5.91 , 6.78] . Malgr cette faible dirence, on peut faire un test dhtroscdasticit. Pour cela on rgresse le rsidu au carr sur les variables explicatives leurs carrs et leurs produits croiss : cest dire sur les treize variables explicatives x ei = 1, scoi , expi , exp2 i , Homme, 2 2 3 2 scoi , scoi expi , scoi expi , scoi Homme, expi , expi Homme, expi Homme. On parvient au rsultats reports dans le tableau 7.2 pour cette rgression.
Le tableau donne le paramtre estim ainsi que son cart-type. On voit que de nombreux coecients sont signicatifs : la scolarit, lexprience, lexprience au carr.... Le test dhtroscdasticit consiste faire un test de nullit globale mis part la constante. Ce test peut se faire partir du R2 de la rgression en examinant la statistique F = NR2 . La statistique suit est un 2 (12) . Bien que le R2 soit trs faible, la statistique est trs leve et excde trs largement la valeur seuil dun test 5% : 21.03. On rejette donc lhypothse de nullit globale. Lhypothse dhomoscdasticit est ainsi trs fortement rejete. Si on spcie la forme de lhtroscdasticit, on peut mettre en oeuvre lestimateur des mCQG. On spcie comme cela est fait en gnral cette htrognit sous la forme dune exponentielle. On spcie alors la perturbation comme ui = vi exp (x ei )
106

parametre 0.8783 -0.1024 -0.0352 0.0028 -0.0101 0.0028 0.0030 -0.0001 0.0029 -0.0001 -0.0018 0.0000 0.0001 R 0.0287605 cart-type (0.1262) (0.0158) (0.0044) (0.0003) (0.0524) (0.0005) (0.0003) (0.0000) (0.0033) (0.0000) (0.0014) (0.0000) (0.0001) F 187.51859 student 6.96 -6.50 -8.04 8.21 -0.19 5.45 10.03 -5.95 0.88 -5.50 -1.29 4.00 1.24
Cste scolarit exprience exprience homme scolarit scolarit x exprience scolarit x exprience scolarit x homme exprience3 exprience x homme exprience4 exprience x homme
Tab. 7.2 Rgression du carr du rsidu sur les variables et leurs produits croiss o x ei reprsente lensemble des variables explicatives, de leurs carrs et de leurs produits croiss. On fait lhypothse vi xi Sous cette hypothse 2 ln u2 ei + ln vi i = x
2 2 ) |xi ) = E (ln (vi ) |xi ) . Les rsultats auxquels on parvient sont reports puisque E (ln (vi dans le tableau 7.3.
Le paramtre est estim la constante prs partir de la rgression ei E ln u2 i |xi = x
On voit que l aussi de nombreux paramtres sont signicatifs, et on pourrait comme prcdemment faire un test dhtroscdasticit correspondant au test de la nullit globale des paramtres, partir du R2 .de la rgression. On parviendrait la statistique de 255.30, plus leve que la prcdente mais conduisant la mme conclusion que lon rejette fortement lhypothse dhomoscdasticit. Toutefois lintrt de cette rgression est de rcuprer la valeur prdite et den dduire une estimation de la variance conditionnelle. 2 b , et on sphricise A partir de ces estimations on peut en eet calculer b (xi ) = exp x ei b/2 . On considre ainsi yisph = yi / b (xi ) les donnes en divisant le modle par exp x ei et xisph = xi / b (xi ) , y compris la constante. Pour trouver lestimateur des mCQG, on
7.4. EXEMPLE : ESTIMATION DUNE QUATION DE SALAIRE

parametre -0.1030 -0.5734 -0.2728 0.0220 0.0779 0.0170 0.0235 -0.0008 0.0018 -0.0004 -0.0007 0.0000 0.0000 cart-type (0.9749) (0.1216) (0.0338) (0.0026) (0.4043) (0.0039) (0.0023) (0.0001) (0.0256) (0.0001) (0.0109) (0.0000) (0.0005)
107
Cste scolarit exprience exprience homme scolarit scolarit x exprience scolarit x exprience scolarit x homme exprience3 exprience x homme exprience4 exprience x homme
257.72443
12
Tab. 7.3 Rgression du logarithme du carr du rsidu sur les variables et leurs produits croiss
Cste scolarit exprience exprience homme bmcqg 4.26942 0.05496 0.02275 -0.00046 0.14501 s(bmcqg) (0.03118) (0.00194) (0.00080) (0.00003) (0.00769) sw(bmcqg) s(bmcqg)/sw(bmco) sw(bmcqg)/sbmcqg) (0.03152) 0.869 1.011 (0.00197) 0.892 1.015 (0.00079) 0.899 0.988 (0.00004) 0.904 1.044 (0.00781) 0.924 1.015
Tab. 7.4 Estimateur des mcqg procde alors la rgression par les mco. Bien sur il est l aussi possible de calculer un estimateur robuste de la matrice de variance du paramtre exactement comme on le fait en labsence de correction dhtroscdasticit. Normalement les carts-type doivent tre trs proches, si la correction retir toute lhtroscdasticit du modle. On parvient aux rsultats reports dans le tableau 7.4. On voit que les rsultats sont un peu changs. On remarque en particulier une baisse du rendement de lducation qui passe de 6.3% 5,5%. Cette dirence faible est inquitante car l encore les deux paramtres devraient tre trs proches et l il dirent plus que ce quimplique lordre de grandeurs de la prcision des estimations. Ceci nest donc pas une bonne nouvelle en ce qui concerne la convergence des estimateurs. On voit nanmoins que les carts-type sont modis. On vrie bien la proprit des mCQG que les cartstype correspondants sont plus petits que ceux des mco : le gain est ici de lordre de
108
10%. Toutefois compte tenu de la taille de lchantillon, cela ne reprsente quun gain modeste en terme de largeur de lintervalle de conance. Les changements ne sont pas bouleversants. On observe par ailleurs une plus grande similitude entre les carts-type du modle sphricis robuste et directement obtenus que dans le cas prcdent. En conclusion de cet exemple, lhtroscdasticit est bien prsente ici, mais les diffrentes faons de la prendre en compte soit dans le calcul des carts-type, soit par la mise en oeuvre des mCQG, ne conduisent pas des modications considrables dans la prcision des estimateurs et leur estimation. L encore on se rend compte que la vraie question est plus lexistence de biais dans les estimations que celle de la possibilit de gains importants dans la prcision des estimateurs. On verra par la suite que lorsque lon aborde cette question, les estimateurs que lon pourra mettre en oeuvre vont devenir beaucoup moins prcis. Dans ce cas, la correction de lhtroscdasticit pourra reprsenter un gain apprciable de prcision.
Chapitre 8 Autocorrlation des rsidus dans les sries temporelles

Dans les modles en srie temporelles, lhypothse de non-autocorrlation des perturbations est assez forte et frquemment non-vrie On considre les modles sur srie temporelle : yt = xt b + ut , t = 1, . . . , T On est donc dans un cadre dans lequel on ne peut plus faire lhypothse dindpendance des observations. On va voir ce sujet : direntes formes dautocorrlation, les tests permettant de dtecter lautocorrlation, les mthodes destimation adaptes en prsence dautocorrlation.
8.1
8.1.1
Direntes formes dautocorrlation des perturbations

Processus stationnaires au premier et au second ordres
Un processus est une srie temporelle (zt ) . On dit quil est stationnaire au premier et au second ordre lorsque les moments dordre 1 E (zt ) = est indpendant de t, et Cov (zt , zs ) = ts , ne dpend que du nombre de dates sparant les deux observations. On ne considrera que des processus stationnaires au premier et au second ordre. On peut nanmoins citer quelques exemple de processus non stationnaires. Une variable trende par exemple ne suit pas de processus stationnaire au premier ordre puisque E (zt ) = a + bt. Une marche alatoire zt = zt1 + t , avec t , IID de moyenne nulle et de variance 2 constante est un processus stationnaire au premier ordre E (zt ) = E (zt1 ) + 109
110CHAPITRE 8. AUTOCORRLATION DES RSIDUS DANS LES SRIES TEMPORELLES 2 2 E (t ) = E ( z ) , mais pas au second ordre : E ( z ) = E zt1 + 2E (zt1 t ) + E (2 t 1 t t) = 2 2 E zt1 + . La variance nest pas constante et on voit mme quelle tend vers l.
8.1.2
Perturbations suivant une moyenne mobile (MA)
Perturbations suivant une moyenne mobile dordre 1 (MA(1)) La perturbation ut suit un processus de moyenne mobile dordre 1 not MA(1) si : ut = t + 1 t1
0 avec E t = 0, V t = 2 et cov (t , t0 ) = 0 t 6= t Les perturbations ut ne sont plus IID, mais ces hypothses sont transposes au processus t . On voit trs facilement que le les lordre 2. On processus 2 MA(1) sont stationnaire 2 2 a en eet E (ut |x ) = 0, V (ut |x ) = 1 + , E (ut ut1 |x ) = et E (ut uts |x ) = 0 pour s > 1. La matrice de variance covariance des perturbations a donc pour expression 1 + 2 0 0 ... 1 + 2 2 . . .. .. V (u) = 0 0 . . .. .. 0 0 1 + 2
Perturbations suivant une moyenne mobile dordre q (MA(q)) Ce cadre se gnralise directement au cas dun processus moyenne mobile dordre q. La perturbation ut suit un processus de moyenne mobile dordre q not MA(q ) si : ut = t + 1 t1 + + q tq
0 avec E t = 0, V t = 2 et cov (t , t0 ) = 0 t 6= t On voit l aussi trs facilement que le les processus MA(q) sont stationnaires lordre 2. On a en eet E (ut |X ) = 0, et en outre
Pour s > q, on a clairement E (ut uts |x ) = 0, par ailleurs pour s q on a E (ut uts |x ) = E ((t + 1 t1 + + q tq ) (ts + 1 ts1 + + q tsq )) = E ((s ts + s+1 ts1 + + q tq ) (ts + 1 ts1 + + qs tq )) = (s + s+1 1 + + q qs ) 2
2 2 V (ut |x ) = 1 + 2 1 + + q
8.1. DIFFRENTES FORMES DAUTOCORRLATION DES PERTURBATIONS111 ne dpend que de s. Le processus est stationnaire lordre 2. Une gnralisation de ce processus est le processus moyenne mobile . Il est simplement dni X ut = t + q tq
q =1
Proposition Un processus moyenne mobile inni dni par X ut = t + q tq

q =1
P 2 est stationnaire ds que 1 + q =1 q < On voit directement que
est ni ds que la srie 2 q converge. Pour les covariances, on a aussi directement X E (ut uts |x ) = s + s+q q 2
q =1
X 2 V (ut |x ) = 1 + 2 q
q =1
cette quantit ne dpend pas de t et est en outre nie ds lors que la srie 2 q converge, de P 2 P P 2 2 par lingalit de Cauchy q=1 aq bq q=1 aq q =1 bq .
8.1.3
Perturbations suivant un processus autorgressif (AR)
Perturbations suivant un processus autorgressif dordre 1 (AR(1)) Un processus (AR1), est un processus dans lequel les perturbations sont engendres par le processus :
ut = ut1 + t , t = 1, ...T avec : E (t |x ) = 0, V (t |x ) = 2 t 6= t0 : les hypothses , cov (t , t0 |X ) = 0, dhomoscdasticit et dindpendance des perturbations du modle sont l aussi transfres aux t cest dire aux innovations du processus : || < 1 On peut calculer la matrice de variance covariance dun processus AR(1). On crit facilement la faon dont la perturbation ut dpend des perturbations passes ut = ut1 + t = ( ut2 + t1 ) + t = t + t1 + 2 ( ut3 + t2 ) = t + t1 + + t1 1 + t u0
112CHAPITRE 8. AUTOCORRLATION DES RSIDUS DANS LES SRIES TEMPORELLES Proposition Le processus AR(1) ut est stationnaire si E (u0 |X ) = 0 et V (u0 |X ) = 2 2 / (1 ) et cov (t , u0 ) = 0. Ces conditions sont satisfaites si le processus engendrant ut dbute en .
Compte tenu de lexpression : ut = t + + t1 1 + t u0 . On a : E (ut |X ) = E (t |X ) + + t1 E (1 |X ) + t E (u0 |X ) = 0 En outre ut est non corrl avec les perturbations futures. En eet, pour t0 > t, E (ut t0 |X ) = E (t0 (t + + t1 1 + t u0 ) |X ) = 0, puisque E (t0 tl |x ) = 0, et E (t0 u0 |x ) = 0. Par ailleurs, ut = t + + (ts1) s+1 + ts us , et donc compte (ts1) ts tenu du rsultat prcdent E (ut us |x ) = E t + + s+1 + us us |x = ts E (u2 s |x ) . Enn V (ut |x ) = V (t |x ) + 2 V (t1 |x ) + + 2(t1) V (1 |x ) + 2t V (u0 |x ) 2 2(t1) + 2t 2 = 2 1 + + + u0 2t 2 2 21 2t 2 2t 2 u0 = + u0 = + 1 2 1 2 1 2
2 2 Si 2 u0 = / (1 ) on a
Si le processus remonte en on a :
2 V (ut |x ) = 2 / 1 2 / 1 Cov (ut , us ) = ts 2 ut =

X s=0
s ts
On a donc V (ut |x ) =
Ce type de processus est frquemment postul, car il traduit lide simple et importante quun choc exogne un moment donn a un eet persistant mais dcroissant exponentiellement avec le temps. De par la simplicit de lexpression de la matrice de variance, ce
La matrice de variance-covariance des perturbations donc une expression trs simple 1 2 T 1 1 T 2 2 . . . . . . V (u |x ) = . . 1 2 T.2 1 T 1 T 2 1
X s=0
2 2 2s 2 = / 1
8.1. DIFFRENTES FORMES DAUTOCORRLATION DES PERTURBATIONS113 type de spcication permet en outre une mise en oeuvre facile de mthodes destimation plus ecaces que les MCO (telles les MCQG). Perturbations suivant un processus AR(p) La spcication prcdente se gnralise au cas o la perturbation ut dpend des p perturbations prcdentes. On note ce type de processus AR(p) si : ut = 1 ut1 + 2 ut2 + + p utp + t Ce que lon reprsente par A (L) ut = t avec A (Z ) = 1 1 Z 2 Z 2 p Z p , E (t |x ) = 0. On fait l encore lhypothse 0 que V (t |X ) = 2 et cov (t , t0 |X ) = 0, t 6= t Proposition Pour que le processus AR (p) soit stationnaire lordre 2 il faut que les racines du polynme A (X ) soient de module suprieur 1. Dmonstration On a en eet ut = t t = A (L) 1 1 L 2 L2 p Lp Yp X X t k k k = = Qp rs L t = k L t s=1 k=0 k=0 s=1 (1 rs L)
`me o rs est linverse de la sie racine (ventuellement complexe) du polynme A (Z ) et est donc de module strictement infrieur 1. Le processus apparat ainsi comme un processus moyenne mobile inni dont les coe cients sont directement dduit des racines rs . Chacun P k k des processus moyenne mobile puisque |rs | < 1. En outre k=0 rs L est stationnaire P P q on montre facilement que si on considre deux MA ( ) ( a L ) et ( bq Lq ) tels que q P P ( |aq |) < et ( |bq |) < alors le produit de ces deux MA() est un MA() ayant la mme proprit de sommabilit. ! ! X X X X aq Lq bs aqs Lq bq Lq = s
XX X X X X bs aqs |bs | |aqs | = |aq | |bq | < s s P P 2 | | ) < et donc | | On en dduit que ( < . Le processus est donc k k k=0 k=0 stationnaire.
et
114CHAPITRE 8. AUTOCORRLATION DES RSIDUS DANS LES SRIES TEMPORELLES Lexpression de la matrice de variance covariance peut tre nanmoins relativement complexe. Si on considre le cas dun processus AR(2) par exemple, on peut calculer V ut = 2 u = cov
12 2 (1+2 )[(12 )2 2 1] 1 (ut , ut1 ) = 1 2 u = 1 2 2 2 (ut , ut2 ) = 2 u + 11 2 2 u
= 0 , t
cov = 2 = 2 0 + 1 1 cov (ut , uts ) = s = 1 s1 + 2 s2 , s > 2 Ces formules illustrent la complexit de la forme de la matrice de variance covariance dans le cas AR(2) . On voit toutefois merger une certaine rgularit dans la dtermination des covariances, qui se gnralise au cas AR(p) . En eet pour un AR(p) : ut = 1 ut1 + + p utp + t , pour des valeurs de s susamment leve( p), on a E (ut uts ) = 1 E (ut1 uts ) + + p E (utp uts ) + E (t uts ) s = 1 s1 + + p sp pour s = E (ut uts ) . Cette quation est connue sous le nom dquation Yule-Walker. Elle est aussi vraie pour les corrlations (cest dire la covariance divise par la variance puisque le processus est stationnaire)
8.1.4
Perturbation suivant un processus ARMA(p,q)
Une dernire gnralisation correspond la situation combinant les deux processus prcdents : on dit que la perturbation ut suit un processus ARMA(p,q) si lon peut crire : A(L)ut = B (L)t avec A(L) = 1 1 L 2 L2 p Lp B (L) = 1 + 1 L + 2 L2 + + q Lq
0 E (t ) = 0, V (t ) = 2 , Cov (t , t0 ) = 0 t 6= t
et
On a le mme rsultat que le processus est stationnaire si les racines du polynme A (Z ) sont lextrieur du cercle unit. On examine le cas particulier dun processus ARMA(1,1) ut = ut1 + t + t1 Par consquent 2 2 2 2 2 2 u = V ut = E ut1 + E t + E t1 + 2E (ut1 t1 )
8.2. ESTIMATEUR DES MCO LORSQUE LES PERTURBATIONS SUIVENT UN AR(1)115

2 2 2 2 2 2 2 2 Comme E (ut t ) = E (2 t ) = , on a u = u + + + 2 , do 1 + 2 + 2 2 = 2 V ut = w0 , t 1 2
De mme cov(ut , ut1 ) = E u2 t1 + E (ut1 t1 ) 2 2 (1 + )( + ) = 2 = 2 u + = w1 1 2 et s > 1 cov(ut , uts ) = cov(ut1 , uts ) = cov (ut , ut(s1) ) = s1 2 w1 soit w1 w0 w1 ... w1 w1 2 V u = ... 2 w w1 1 . ... ... . . T 2 w1 2 w1 w0 w1 w1 2 w1 T 2 w1 . ... . w1 . ... ... 2 w1 ... w1 w1 w1 w1 w0 w1 w1 w0
8.2
Estimateur des MCO lorsque les perturbations suivent un AR(1)

yt = xt b + ut
On considre le cas dun modle
dans lequel les perturbations suivent un processus AR(1) et sont indpendantes des variables explicatives. On a donc : 1. E (u |x ) = 0 2. V (u |x ) = de dimension T T et on a vu que 1 2 1 2 . . . () = . . 1 2 T.2 T 1 T 2
T 1 T 2 . . . 1
116CHAPITRE 8. AUTOCORRLATION DES RSIDUS DANS LES SRIES TEMPORELLES 3.

P 1 0 xx T
QXX , et que x0 x et QX sont inversibles.
Cette hypothse nest pas systmatiquement garantit en pratique. En particulier dans le cas de la prsence dun trend ou dans le cas de la prsence de variables explicatives distribues suivant une marche alatoire les moments dordre 2 nexistent pas. P 1 0 x x QX X On fait enn lhypothse que la matrice T Sous ces hypothses lestimateur des mco
1 b bmco = (x0 x) x0 y
vrie les proprits suivantes : 1. E b bmco |x = b : lestimateur est sans biais 2. V b bmco |x = (x0 x)1 x0 x (x0 x)1
6. Lestimateur de la variance des rsidus b2 =
P 3. b bmco b : lestimateur est convergent L b 4. T bmco b N (0, Vas ) : lestimateur est asymptotiquement normal. 1 1 b Q Q = p lim T V b | x 5. Vas = Q mco XX X X XX
1 T 2 t=1 u t T
7. Lestimateur du coecient dautocorrlation des rsidus est convergent = 8. t u t1 P T t=2 u T t=2 u 2 t1
est convergent : b2 2
Remarque 1. Les rsultats ne sont pas fondamentalement changs par rapport ceux du chapitre prcdent : lestimateur est convergent, asymptotiquement normal et on peut estimer de manire convergente sa matrice de variance.
L T ( ) N (0, 1 2 ) il est asymptotiquement normal On en dduit que P 9. b , b2 (, 2 ) , 0 1 x0 b b 2 )x x0 x 1 P (, 1 1 bas b 10. V bmco |x = xTx Q XX QX X QXX On peut donc obtenir T T un estimateur convergent de la matrice de variance de lestimateur. 1/2 L b bas b 11. T V bmco |x bmco b N (0, I )
8.2. ESTIMATEUR DES MCO LORSQUE LES PERTURBATIONS SUIVENT UN AR(1)117 2. La dnition de lestimateur du coecient dautocorrlation une interprtation simple. On peut construire le rsidu estim u bt = yt xtb bmco bt1 + e t u bt = u
et on estime par application des mco sur le modle
T t u t1 t=2 u T 2 t=2 u t1 si les rsidus ntaient pas estims, on obtiendrait directement la loi asymptotique L ) N (0, V ) et de lestimateur en appliquant les rsultats standards : T ( V = V (ut1 )1 V (e t ) . Comme V (ut ) = 2 V (ut1 ) + V (e t ) et V (ut ) = V (ut1 ) , 1 V (ut1 ) V (e t ) = (1 2 ) 1 0 x x. Dans le cas dune 3. On peut prciser lallure de lexpression de la matrice T seule variable explicative, par exemple, on a P 2 X P xt xts 1 0 2 t xt x x = +2 s t s T 1 2 T T = si le processus engendrant les x est stationnaire et de moyenne nulle, et que lon dnit s comme cov (xt , xts ) = s V (xt ) , ce terme scrit X X 1 0 2 P s s x x = V ( u V ( x ) 1 + 2 ) V ( x ) 1 + 2 t t t s s s s T 1 2
soit
P lerreur sur la matrice de variance est donc dun facteur multiplicatif (1 + 2 s s s ) . On voit quelle est dautant plus importante que le coecient dautocorrlation est fort. Si = 0 on voit que lon retrouve la formule standard de la variance des mco (dans ce cas spcique). On voit aussi que lerreur est dautant plus importante que les variables explicatives sont elles-mmes corrles dans le temps. A la limite si les s sont nuls, il ny a pas derreur. 4. Lobtention de ces rsultats repose sur des thormes de convergence tudiant la moyenne de variable dpendante dans le temps. On donne les deux principaux. On considre un processus stationnaire zt dont la moyenne est E (zt ) = m, avec des covariances E (zt ztk ) = k dnie pour k allant de +. On fait lhypothse que ces covariances sont absolument sommables : X+ | k | <
et la matrice de variance de lestimateur est alors V (u ) X t 1+2 bmco |X = s s Vas b s V (xt )
118CHAPITRE 8. AUTOCORRLATION DES RSIDUS DANS LES SRIES TEMPORELLES P P (a) zt m et lim T E (zt m)2 + k P P L (b) si zt = m + , avec | | < et IID, alors T (zt m) t s t s s s s P+ N 0, k P Le rsultat lim T E (zt m)2 + k prsente le changement fondamental avec la situation du chapitre prcdent. Dans le chapitre prcdent on avait simplement NE (zt )2 = 2 , ici lanalogue de 0 . La dirence provient ici du fait quil est ncessaire de prendre en comte la corrlation entre les observations aux direntes dates. Le rsultat na toutefois rien de trs surprenant. Dans le cas dune variable de moyenne nulle, on a : T zt 2 = 1 (z1 + + zT )2 T 1 XT 2 1 XT 1 XT = zt + 2 zt zt1 + + 2 zt ztT +1 t=1 t=2 t=T T T T 1 XT 2 T 1 1 XT 1 T XT = zt + 2 zt zt1 + + 2 zt ztT +1 t=1 t=2 t=T T T T 1 T T 1
et donc
T 1 1 1 + + 2 T 1 T E zt 2 = 0 + 2 T T 2 T 1 1 T 1 ) T E zt 0 + 2 1 + + 2 T 1 = 2( 1 + + T T P qui tend vers zro puisque la srie + | k | converge. Comme on le voit pour que la loi des grands nombres soit satisfaite il faut que la dpendance temporelle sestompe susamment rapidement. On voit aussi que la variance de lestimateur de la moyenne prend en compte cette dpendance temporelle. Plus la dpendance temporelle est forte moins les estimations sont prcises.
8.3
Les rsultats prcdents sur la convergence de lestimateur et lestimation de sa matrice de variance pourraient tre obtenus dans de trs nombreuses situations, cest dire pour direntes spcications du processus engendrant les perturbations. La proprit de sans biais, de convergence et de normalit asymptotique ne va pas tre fondamentalement remise en cause. Lexpression de la matrice de variance de lestimateur dpend en revanche de la spcication du processus, car dans chacune des spcications envisageables la matrice de variance covariance des perturbations est dirente. Dans toutes ces spcications toutefois, la matrice de variance des perturbations dpend dun nombre limit
Lestimateur de Newey-West de la matrice de variance de b bmco
de paramtres, et ces paramtres pourraient tre estims partir des rsidus de lestimation ; comme on la montr pour le coecient de corrlation des perturbations. Il est donc possible en thorie dobtenir une estimation convergente des la matrice , partir de laquelle on peut estimer la matrice de variance de lestimateur des mco. Maintenant il est clair que cette matrice va dpendre de lhypothse choisie pour des raisons parfois incompltement explicites. On peut donc tre tent de rechercher un estimateur de la matrice de variance covariance de lestimateur des mco qui soit robuste ce choix plus ou moins arbitraire dune spcication du processus engendrant les perturbations. En outre dans lapproche prcdente, on fait lhypothse que la corrlation entre les rsidus direntes dates ne dpend pas des valeurs prises par les variables explicatives. On a pourtant mis laccent dans le chapitre prcdent sur les possibilits de dpendance des moments dordre 2 et des variables explicatives. Une telle question se pose pareillement dans le cadre des sries temporelles. Le point important concerne la variance du produit P T 1 1 0 0 x u = t=1 xt ut . La variance de ce terme scrit T T XT X 0 0 E (x0 uu0 x) /T = E x0t xt u2 /T + x x u u /T + x x u u /T t s t t s t t s t t t ts t,s6=0 t=1 XT = E x0t xt u2 t /T + t=1 XT x0t xt1 ut ut1 /T + x0t1 xt ut1 ut /T + E t=2 XT x0t xt2 ut ut2 /T + x0t2 xt ut2 ut /T + + E t=3 XT 0 0 xt xtq+1 ut utq+1 /T + xtq+1 xt utq+1 ut /T + + E t=q XT 0 0 E xT x1 uT u1 /T + x1 xT u1 uT /T t=T 0 P 0 2 0 x u ) + x u u ) + E x x u u E ( x (T s + 1) /T. Pour un s soit E ( x t t s t t s t t s t t t t t s s = 6 0 P 0 donn, t xt xts ut uts /T est un estimateur convergent de E (x0t xts ut uts ) (T s + 1) /T. Le problme est quil faut estimer cette quantit pour toutes les valeurs de s de s = 1 jusqu s = T, ce qui est impossible dans un chantillon de taille T. Loptique choisie par Newey-West est de nestimer ces termes que pour les valeurs de s les plus faibles, le nombre de valeurs retenues dpendant de la taille de lchantillon. Ceci est exact si la srie xt ut est distribue suivant une moyenne mobile dordre ni. Cest une approximation sinon, mais si le degrs de corrlation temporelle de xt ut dcrot assez vite et si lestimateur retenu intgre un nombre de retard croissant avec la taille de lchantillon on peut montrer que cette matrice est convergente. Ceci est conforme lide que les corrlations entre les perturbations disparaissent un taux relativement lev. Par exemple dans le cadre du modle AR (1) elles disparaissent exponentiellement. Lestimateur de Newey West estime E (x0 uu0 x) /T par XT X X x0t xt u2 s (T ) x0t xts ut uts + x0ts xt uts ut /T t /T +
t=1 s6=0 t
bMCO 119 8.3. LESTIMATEUR DE NEWEY-WEST DE LA MATRICE DE VARIANCE DE B
120CHAPITRE 8. AUTOCORRLATION DES RSIDUS DANS LES SRIES TEMPORELLES avec s (T ) dcroissant avec s et croissant avec T. Le poids propos par Newey-West est linaire en s, de la forme s (T ) = (1 s/(q (T ) + 1)) 1 (s q (T )) . On fait bien sur crotre q (T ) vers linni lorsque T augmente, mais un rythme beaucoup plus faible que T. On montre que sous des hypothses de rgularit satisfaisante cet estimateur converge vers E (x0 uu0 x) /T. Au total lestimateur de la matrice de variance covariance robuste lhtroscdasticit temporelles et lie aux variables explicatives est 0 1 q (T ) x0 x 1 X s 0 bas b bs + bs x x b0 + V 1 bmco = T q (T ) + 1 T s=1 o b0 = bs =
T X x0 xt u b2 t t t=1 T X
x0t xts u bt u bts T t=s+1
On rappelle encore que cette matrice est robuste la fois la corrlation temporelle des rsidus, pourvu quelle sestompe assez vite et lexistence dhtroscdasticit relative aux x. On vrie bien au passage que si on fait lhypothse quil ny a pas de corrlation temporelle dans les perturbations ou les variables explicatives, alors on retrouve la formule de White (dans ce cas on na en eet que le terme 0 dans le terme central).
8.4
Les MCQG dans le modle AR (1) : lestimateur de Prais-Watson.
On sait que sous les hypothses nonces : 1. E (u |x ) = 0, 2. V (u |x ) = de dimension T T inversible
3. x0 x inversible,
lestimateur des MCO nest pas lestimateur optimal. Le meilleur estimateur linaire sans biais de b est lestimateur des MCG : bmcg = (x0 1 x)1 x0 1 y dont la variance est donne par : V bmcg = (x0 1 x)1
8.4. LES MCQG DANS LE MODLE AR (1) : LESTIMATEUR DE PRAIS-WATSON.121 Il peut tre obtenu comme estimateur des mco dans le modle : 1/2 y = 1/2 xb + 1/2 u o 1/2 1/2 = IT . La pre-multilplication du modle par 1/2 porte on le rappelle le nom de sphricisation, ceci parce quelle rend les perturbations indpendantes. Dans le cas particulier o les perturbations suivent un processus AR(1), une telle transformation peut tre donne par : p 1 2 0 0 . ... . 1 . . ... ... . 0 . 1/2 = . ... ... ... ... . . . . . . . . . .. .. 1 0 . 0 0 1
0
Lestimateur des MCG peut alors tre calcul comme estimateur des mco appliqu au modle : p p p x1 1 2 u1 1 2 y1 1 2 u u x x y y 2 1 2 1 2 1 = b + . . . . . . . . . yT yT 1 xT xT 1 uT uT 1
Dans dautre cas, si par exemple les perturbations sont dnies suivant un AR (p) , ou un MA (q ) , on aurait dautres formules beaucoup plus compliques, faisant intervenir les p ou q paramtres de la matrices de variance. Nanmoins dans le cas AR(1) comme dans les autres, pour calculer lestimateur MCG, il faut connatre . Comme celui-ci est inconnu, on utilise lestimateur des moindres carrs quasi gnraliss (mCQG). Le principe de cet estimateur est de remplacer les paramtres inconnus, en nombre ni, par des estimateurs convergents dans ltape de sphricisation. Dans le cas AR(1) , il faut ainsi remplacer dans la prmultiplication du modle par 1/2 () par b , et donc multiplier le modle par 1/2 (b ) . Comme on la vu on dispose partir de la mise en oeuvre de lestimateur des mco dun estimateur convergent de ce coecient partir des rsidus estims. Sous les hypothses : E (u |x ) = 0 V (u |x ) = () de dimension T T, de dimension nie P 1 0 x x QXX , x0 x et QX inversibles T on dispose dun estimateur convergent de
P 1 0 1 x x T b P
QX 1 X inversible
122CHAPITRE 8. AUTOCORRLATION DES RSIDUS DANS LES SRIES TEMPORELLES Lestimateur des MCQG b bmcqg = 1 1x0 1 0 x b x b y
vrie P b bmcqg b : convergence L T b bmcqg b N (0, Vas (mcqg )) : normalit asymptotique
Lestimateur de Prais-Watson, est lestimateur des mCQG dans le modle AR(1) . Il est obtenu en plusieurs tapes : 1. estimation par MCO du modle yt = xt b + ut , t = 1, ..., T 2. calcul des rsidus estims : u t = yt xt bmco 3. estimation de par application des mco au modle : u t = u t1 + t , t = 2, ..., T soit = T t u t1 t=2 u T t=2 u 2 t1
1 = p lim T V (mcg ) quivalence entre mCQG et MCG Vas (mcqg ) = Q X 1 X 1 1 P bas (mcqg ) = 1 x0 b V x Vas (mcqg ) estimation de la matrice de variance T
On calcule alors les donnes transformes : q y 1 = 1 2 y1 et y t = yt yt1 , t = 2, ..., T q x 1 = 1 2 x1 et x t = xt xt1 , t = 2, ..., T et on estime par les MCO sur ce modle :
t b + u t , t = 1, ..., T y t = x Lestimateur b ainsi obtenu est convergent et asymptotiquement aussi ecace que lestimateur des MCG. Les carts-type donns par les logiciels standards peuvent en outre tre directement utiliss (Remarque : il ne faut pas oublier de retirer la constante du modle et ne pas omettre non plus dappliquer la transformation toutes les variables du modle initial, y compris la constante si il en comprend une).
8.5. DTECTION DE LAUTOCORRLATION
123
8.5
8.5.1
Dtection de lautocorrlation
Un test asymptotique
On se place dans le cadre du modle AR(1) : ut = ut1 + t . On souhaite tester labsence dautocorrlation cest dire tester : H0 : = 0 contre H1 : 6= 0. Si on sen tient aux rsultats prcdemment noncs, on peut estimer le modle par les mco, rcuprer alors les rsidus et estimer le coecient dauto corrlation comme on la vu. On L L ) N (0, 1 2 ) . Donc sous H0 , on a T N (0, 1) . a asymptotiquement T ( On peut donc former la statistique de test S = T , et dnir la rgion critique W = S |S | > t1/2 . Ce test asymptotique est convergent au seuil .
8.5.2
Le test de Durbin et Watson
Nanmoins on se trouve parfois dans des chantillons de petite taille dans lesquels lapproximation asymptotique ne vaut pas parfaitement. Cest pourquoi on utilise trs frquemment, souvent par inertie le test dit de Durbin-Watson et qui repose sur la statistique : ut u t1 )2 T t=2 ( b d= T 2 t t=1 u b = 2(1 ) p lim d
1 T 1 T 1 T u 2 2 T t=2 u t u t1 + T t=2 u 2 t1 T t=2 t b p lim d = p lim 1 T 2 u T t=1 t = 1 2 + 1 = 2(1 )
Cette statistique est lie asymptotiquement au paramtre par la relation suivante :
En eet :
puisque p lim et que

1 u t u t1 p lim T Cov (ut , ut1 ) = = 1 T 2 V (ut ) p lim T t=1 u t
1 T 2 1 1 T 2 t=2 u u t = p lim T 2 t=2 u t1 = p lim T T T t=1 t
b est proche de 2, Par consquent :si est nul (absence dautocorrlation), d b est proche de 0 si est proche de 1 (forte autocorrlation positive), d b est proche de 4 si est proche de -1 (forte autocorrlation ngative), d
124CHAPITRE 8. AUTOCORRLATION DES RSIDUS DANS LES SRIES TEMPORELLES b est toutefois dicile tablir car elle dpend La loi de probabilit de la statistique d des rsidus estims et donc des valeurs prises par les variables explicatives du modle. On montre nanmoins que : Sous lhypothse H0 : = 0, il existe deux statistiques, dl et du , qui encadrent toujours b: d b < du , d` < d et dont la loi ne dpend que de T et K, le nombre de variables explicatives. Test de H0 : = 0 contre H1 : > 0 b est proche de 2 on accepte lhypothse et si d b est faible on rejette lhypothse. Si on Si d b, on pourrait dterminer le fractile d? () de cette loi permettant connaissait la loi d0 de d de conclure au rejet ou lacceptation de lhypothse H0 de non-autocorrlation pour un test au seuil . P (d0 < d? ()) = b on dtermine les fractiles correspondants Ne connaissant pas la loi asymptotique de d ? ? d` () de dl et du () de du P (dl < d? l ()) = ? P (du < du ()) = Comme dl < d0 < du On a
? ? d? l () < d () < du ()
La rgle de dcision est alors la suivante : b est infrieure d? (), alors d b < d? () : on refuse H0 Si d ` b est suprieure d? (), alors d b > d? () : on accepte H0 Si d u ? b Si d? ` < d < du , on se trouve dans la zone dite inconclusive : le test ne permet pas de conclure au rejet ou lacceptation de H0 . La pratique courante consiste inclure la zone inconclusive dans la zone de rejet de lhypothse H0 pour se garantir contre le risque daccepter tort labsence dautocorr? lation. Lamplitude de la zone inconclusive, d? u d` , est dautant plus importante que le nombre T dobservations est faible et que le nombre de variables explicatives est important. Lorsque le nombre dobservation devient important, on se trouve dans la situation asymptotique et on peut utiliser lapproche prcdemment voque.
8.6. RSUM Test de H0 : = 0 contre H1 : < 0
125
b et il faut nouveau la comparer 2 : on La statistique de test utiliser est 4 d, rejettera lhypothse pour des valeurs faibles de la statistique et on lacceptera si elle prend des valeurs susamment importantes. On a en eet dans ce cas :
? ? 4 d? u < 4 d < 4 d`
Par consquent la rgle de dcision est donne par : b > 4 d? , alors 4 d b > 4 d? : on refuse H0 si 4 d ` b < 4 d? , alors 4 d b < 4 d? : on accepte H0 si 4 d u ? b si 4 d? u < 4 d < 4 d` : on est dans la zone inconclusive.
On inclut comme prcdemment la zone inconclusive dans la zone de rejet de H0 .
1. Les lois (tabules) de d` et du ont t tablies par Durbin et Watson pour un modle avec constante et perturbations AR(1). 2. Bien quil soit spciquement destin tester labsence dautocorrlation contre lhypothse alternative dune autocorrlation associe un processus AR(1), le test de D.W. se rvle capable de dtecter dautres formes dautocorrlations ; exemples : MA(1) ou AR(2). Dans les autres situations, il est prfrable de recourir dautres tests.
8.6
Rsum
Dans ce chapitre, on a tudi 1. Les direntes formes de corrlations des perturbations 2. Prsent les modles AR (p) et MA (q ) et mis laccent sur le modle AR (1) qui modlise simplement une ide simple et importante : les innovations dun processus peuvent avoir des eets durables mais qui sestompe progressivement. 3. Examin les proprits de convergence de lestimateur des mco dans le cas AR (1) et tudi en quoi elle dire du cadre IID. 4. On retrouve le rsultat central que la corrlation des rsidus naecte pas les proprits de convergence de lestimateur mais modie en revanche les carts-type des estimations. 5. On a propos une matrice de variance robuste lhtroscdasticit temporelle et relative au x, la matrice de Newey-West, qui gnralise au cadre des sries temporelles la matrice de White robuste lhtroscdasticit relative aux x seulement. 6. On a examin lestimateur des MCQG dans le cadre du modle AR (1) , estimateur dit de Prais-Watson, simplement mis en oeuvre en deux tapes. une tape mco
126CHAPITRE 8. AUTOCORRLATION DES RSIDUS DANS LES SRIES TEMPORELLES permettant de calculer le coecient de corrlation , une tape mco sur le modle sphricis, cette tape tant particulirement simple dans le cas AR (1) . 7. On a enn examin les tests dauto-corrlation et prsent le test trs connu de Durbin -Watson.
Chapitre 9 Lestimateur des MCQG dans le cas o = IN ()

On examine ici le cas des donnes de panel et le cas des rgressions empiles. On considre dune faon gnrale le modle y i = xi b + ui , y i de dim M 1, xi de dim M K + 1 Le modle est ici spci en terme de vecteur y i , xi et ui . Comme on va le voir ce cas est en fait une gnralisation directe du cas des mco prcdemment examin. Estimateur des MCO On montre dabord comment les rsultats obtenus pour lestimateur des moindres carrs ordinaires se gnralisent au cas considr. On fait les hypothses H 0 Les observations (y i , xi ) RR K +1 , i = 1, ..., N , sont IID H 1 E (ui |xi ) = 0 H 2V (ui |xi ) = V (ui ) = () . est ici une matrice de dim M M , est alors ncessairement un paramtre de dimension nie, de taille au plus gale M (M + 1) /2 0 H 3 H 4 N x x et E (x0i xi ) sont inversibles H 5 Les moments de |xki xli | et de |uti usi | existent. Proposition Sous les hypothses H0 H6, lestimateur des MCO 1 0 1 0 b xi y i bmco = (x0 x) x y = x0i xi
vrie quand N
P 1. b bmco b, lestimateur est convergent L b b 2. N bmco b N 0, Vas bmco , lestimateur est asymptotiquement normal
127
128 CHAPITRE 9. LESTIMATEUR DES MCQG DANS LE CAS O = IN ()
pression de b bmco 1 0 Convergence Pour montrer la convergence on crit b bmco = b + x0i xi xi ui . Comme les observations sont indpendantes et quidistribues entre deux individus i et j et que P les moments |xki xli | existent x0i xi E (x0i xi ) . Comme dans le cas standard, les moments dordre 1 et 2 de x0i ui existent. On a en eet E (x0i ui ) = E (x0i E (ui |xi )) = 0 et 1 0 P xi ui V (x0i ui ) = E (x0i V (ui |xi ) x0i ) + V (x0i E (ui |xi )) = E (x0i x0i ) . On a donc x0i xi 1 0 0 E (xi xi ) E (xi ui ) = 0 par application de la loi des grands nombres. faible 0 1 0 bmco b = x x Nx u Normalit asymptotique N b
i i i i
bmco = [E (x0i xi )]1 E (x0i xi ) [E (x0i xi )]1 3. Vas b 0 P b b b 4. = y i xi bmco y i xi bmco = u bi u b0i , Estimation de la matrice de variance des perturbations 1 0 0b 0 1 P b b b 5. Vas bmco = (xi xi ) xi xi xi xi Vas bmco Estimation de Vas 1/2 L b bas b bmco bmco b N (0, I ) 6. N V Dmonstration Si M est la dimension du vecteur y i : y 0i = y1i yMi , alors i=N,m=M =M i=N m i=N X X X X 0 0 0 xim xim = xim xim = x0i xi , et pareillement pour x0 y, do lexxx =
i=1,m=1 i=1 m=1 i=1
On applique le Thorme central limite x0i ui . On a dj vu que les deux premiers L moments de ce vecteur existent . On a donc Nx0i ui N (0, E (x0i xi )) . On applique 1 P L E (x0i xi )1 et Nx0i ui N (0, E (x0i xi )) donc alors le thorme de Slutsky x0i xi 1 0 N b bmco b = x0i xi Nxi ui L 1 1 N 0, E (x0i xi ) E (x0i xi ) E (x0i xi )
Estimation de
0 b b b Lestimateur de est = y i xi bmco y i xi bmco = u bmco = bi u b0i et u bi = y i xib bmco + ui . Donc xi b b b = 0 xi b b bmco + ui xi b b bmco + ui 0 0 b b = ui ui + xi b bmco b bmco x0i + 0 0 b b xi b bmco ui + ui b bmco x0i
129 Le premier terme converge vers par la loi des grands nombres puisque |usi uti | existent. k b Le deuxime terme est une matrice dont les lments sont somme de termes xli b bmco b b bmco m P k k0 k0 k0 P b b bmco b b bmco 0 xk b b bmco 0 et que xk li xl0 i Comme li xl0 i E xli xl0 i ce m m terme tend vers zero en probabilit. De mme pour le troisime et le quatrime terme. 1 P b xi x0 xi 1 Estimation de la variance de lestimateur des mco V b bmco = (x0i xi ) x0i i V b bmco b xi et on a Le seul terme important est x0i b xi E (x0i xi ) = x0i b xi x0 xi + x0 xi E (x0i xi ) x0i i i 0 b = xi xi + x0i xi E (x0i xi )
rectement par le thorme de Slutsky 1/2 L b b b bmco b N (0, I ) N V bmco
Le deuxime terme tend vers zro en probabilit par la loi forte des grands nombres. Le premier terme tend vers zro en probabilit par le mme genre dargument que prcdemP b ment, puisque P L b Enn, comme V b bmco V b bmco et N b bmco b N 0, V b bmco on a diRemarque L encore on peut tendre les rsultats au cas o bien que les hypothses H 1 H 5 soient satisfaites (en particulier identit des moments dordre 2, les observations ne sont pas quidistribues. Ceci correspondrait par exemple au cas dans lequel les moments dordre suprieur deux soient spciques chaque individu. Il faut comme dans le cas des MCO du modle homoscdastique imposer des restrictions sur les moments dordre 3 de la valeur absolue de chaque composante du rsidu. Estimateur des MCQG
On sintresse maintenant lestimateur des MCQG. On introduit une hypothse supplmentaire : P H6 b , Cette hypothse nen est pas vraiment une si on lui adjoint les hypothses prcdentes puisquon a vu qualors on pouvait construire un estimateur convergent de la matrice de variance. On peut alors a fortiori obtenir un estimateur convergent du paramtre sous jacent .
130 CHAPITRE 9. LESTIMATEUR DES MCQG DANS LE CAS O = IN () Proposition Sous les hypothses H0 H6, lestimateur des MCQG 1 1 1 0 b bmcqg = xi b xi x0i b yi
vrie quand N P 1. b bmcqg b, lestimateur est convergent L bmcqg , lestimateur est asymptotiquement normal bmcqg b N 0, Vas b 2. N b 1 3. Vas b bmcqg = [E (x0i 1 xi )] = V b bmcg lestimateur est asymptotiquement quivalent lestimateur des MCG 1 P 0 b 1 b b b 4. Vas bmcqg = x x V bmcg Estimation de la matrice de variance
i i
De mme
b 1 xi est somme de termes de la forme xk b 1 k0 b 1 k k0 Chaque terme de x0i li m,m0 xl0 i = m,m0 xli xl0 i k k0 P 1 b 1 0 xk xk00 qui convergent tous vers m,m li l i m,m0 E xli xl0 i qui est le terme correspondant de E (x0i 1 xi ) . On a donc P b 1 xi x0 E x0i 1 xi
i
1/2 L b b b bmcqg b N (0, I ) 5. N Vas bmcqg P P b= b b Dmonstration Soit . Comme b , 1 b 1 xi b 1 ui Convergence b bmcqg = b + x0i x0i
b 1 1 ui est de la forme Nxk b 1 0 1 0 ul0 i = Chaque terme de Nx0i li m,m m,m 1 1 k b Nxli ul0 i Le premier terme converge en probabilit vers 0. Le deuxime m,m0 m,m0 terme converge en loi vers une loi normale. Comme on la rappel au dbut du chapitre 5, une suite variables alatoires convergent en loi est born en probabilit, cest un O (1) , et on a vu aussi au dbut du chapitre 5 que o (1) O (1) = o (1) . Le comportement asympto b 1 ui est donc le mme que celui de Nx0 1 ui . Comme V (x0i 1 ui ) = tique de Nx0i i E (x0i 1 xi ) , il converge donc en loi vers une loi normale N (0, E (x0i 1 xi )) Les deux derniers points se dmontrent de la mme faon que prcdemment
Do la convergence de lestimateur Normalit asymptotique L b 1 ui N (0, E (x0i 1 xi )) Le seul point montrer est Nx0i 0 b 1 0 b 1 1 ui + Nx0i 1 ui Nxi ui = Nxi
P b 1 ui x0i E x0i 1 ui = E x0i 1 E (ui |xi ) = 0
131 Application : Donnes de panel et Rgressions empiles La mise en oeuvre de lestimateur des MCQG dans le cas des donnes de panel ou des rgressions empiles est trs simple. Elle se fait en plusieurs tapes. On estime dabord le modle y i = xi b + ui par les MCO : b bMCO = (x0 x)1 x0 y On calcule ensuite le rsidu pour chaque individu
A partir de cet estimateur on calcule un estimateur de la matrice de variance des rsidus b =u bi u b0i On peut alors estimer la variance asymptotique et la variance de lestimateur des MCO par 1 b b xi x0 xi 1 b Vas bmco = (x0i xi ) x0i i 1 b b b b V bmco = Vas bmco N 1 b b 1 xi b 1 y x0i bmcqg = x0i i
u bi = y i xib bMCO
Dans une deuxime tape, on calcule lestimateur des MCQG
Cette mise en oeuvre peut tre facilite sil existe un moyen simple de sphriciser le modle. La variance est alors donne par : 1 bas b b 1 xi V bmcqg = x0i 1 b b b b V bmcqg = Vas bmcqg N
Suivant les cas on peut avoir un nombre plus ou moins important de paramtres estimer. Dans le cas des donnes de panel la matrice de variance ne dpend que de deux paramtres la variance de leet individuel et la variance de leet temporel. Direntes mthodes peuvent tre utilises pour estimer ces paramtres et donc mettre en oeuvre lestimateur des MCQG.
9.1
Le cas des rgressions empiles.
Lorsque lon a aaire des rgressions empiles pour lesquelles il nexiste pas de restriction entre les paramtres, alors le calcul de lestimateur est facilit par la proposition suivante connue sous le nom de Thorme de Zellner Proposition Dans le cas des rgressions empiles, lorsquil nexiste pas de contraintes entre les paramtres dune quation lautre (et que les rgresseurs sont les mmes) lestimateur des MCG est identique lestimateur des MCO eectu quation par quation. La matrice de variance de lestimateur a alors pour expressions Vas = x0i xi Dmonstration Le modle scrit y i = IM xi b + ui Lestimateur des MCG scrit : bmcg = (IM x0i ) 1 (IM xi ) (IM x0i ) 1 y i On peut rcrire 1 = 1 1. x0i est un vecteur (K + 1) 1. Donc (IM x0i ) 1 = (IM x0i ) (1 1) = 1 x0i . Car (A B ) (C D) = AB CD pour des matrices aux dimensions qui conviennent. Donc (IM x0i ) 1 (IM xi ) = 1 x0i xi en outre (IM x0i ) 1 y i = (IM 1 y x0i ) 1 yi 1 (1
1 1
donc lestimateur des MCQG scrit bmcg = x0i xi

1
0 = = IK ) y i xi i 1 0 = IK y i xi x0i
On utilise ici la proprit de loprateur Vec : V ec (ABC ) = C 0 AV ecB
1 1 y i x0i IK y i x0i = IM x0i xi 1 = IM x0i xi V ec x0i y 0i 1 = V ec x0i xi x0i y 0i
9.2. ILLUSTRATION : ESTIMATION DUNE FONCTION DE PRODUCTION SUR DONNES INDI
9.2
Illustration : estimation dune fonction de production sur donnes individuelles
On considre un chantillon de 381 entreprises observes sur les annes 1986-1989, pour lesquelles on dispose de la valeur ajoute, des eectifs du stock de capital et du stock de capital recherche. On considre une technologie de production de Cobb-Douglas y = + L l + C c + K k + v les coecients sont donc les lasticits de la production aux eectifs, au capital et au capital de recherche. Les observations dont on dispose sont des donnes de panel puisque chacun des 381 individu est suivi sur 4 ans : y 0i = (yi86 , yi87 , yi88 , yi89 ) . On estime le modle par les mco. Il est alors possible destimer la matrice de variance des perturbations b=u bi u b0i
on peut alors calculer les carts-type de deux faons : soit en ignorant la nature de donnes de panel des donnes, i.e. en faisant comme si la matrice tait diagonale, soit en prenant cette information en compte. Dans un cas les carts-type sont simplement donns par la 1 bb (1) = V bas /N. Dans lautre cas les carts-type bas = b2 x0i xi et V formule standard V 0 1 0 bas = x xi bb (2) = V bas /N . b xi x0 xi 1 et toujours V sont calculs suivant la formule V xi i i Le tableau suivant prsente les rsultats de cette estimation par les mco et les carts-type calculs suivant les deux modes de calcul : b b (1) b (2) un 4.78 (0.120) (0.226) l 0.509 (0.023) (0.044) c 0.235 (0.022) (0.040) k 0.229 (0.017) (0.026) On voit que les carts-type sont nettement plus lev avec la formule qui tient compte des corrlations entre les rsidus aux direntes dates. On peut regarder la matrice de variance des perturbations estime. On parvient la matrice symtrique suivante : 86 87 88 89 86 0.209 0.191 0.184 0.176 87 . 0.214 0.186 0.177 88 . . 0.203 0.192 89 . . . 0.210
et on voit quelle est trs loin dtre une matrice diagonale. Les lments sur la diagonale sont plus ou moins constants, mais on voit aussi que les lments hors de la diagonale sont certes plus faibles que ceux sur la diagonale mais dun ordre de grandeur comparable. Lhtroscdasticit est ainsi une caractristique essentielle et lomettre serait une grave
134 CHAPITRE 9. LESTIMATEUR DES MCQG DANS LE CAS O = IN () erreur. Compte tenu de lordre de grandeur des coecients de la matrice de variance covariance on voit quon est beaucoup plus prs dune situation dans laquelle les observations seraient rptes quatre fois que dune situation dans laquelle les quatre observations de chaque individu constitueraient quatre tirages indpendants. Le nombre total dobservations est donc 381x4=1524 mais on est trs loin davoir linformation de 1524 observations indpendantes. On est bien plus prs davoir 381 observations rpliques 4 fois. De fait les estimateurs tant convergent en N. Comme la dimension temporelle est de 4, on doit se tromper approximativement dun facteur 4 = 2 dans les carts-type. Cest bien ce que lon observe en gros. La conclusion que lon doit tirer de cet exemple est que la correction des carts-type tenant compte de lhtroscdasticit est essentielle pour les donnes de panel. On peut aussi chercher mettre en oeuvre lestimateur des MCQG la formule est : 1 b b 1 xi b 1 y bmcqg = x0i x0i i
basmcqg = et la matrice de variance peut tre estimes par V basmcqg /N . Les rsultats sont donns dans le tableau suivant : V C l c k
ste
b bmcqg 4.67 0.505 0.352 0.086
1 b 1 xi bb (3) = x0i et V
bmcqg (0.193) (0.032) (0.026) (0.009)
On voit que par rapport lestimateur des mco, cet estimateur est sensiblement plus prcis. Le coecient du capital recherche en particulier est environ 3 fois plus prcis. La mise en oeuvre de ce type destimation est donc dans ce cas un gain prcieux. On remarque aussi que les deux estimateurs sont en fait assez dirents en particulier les coecients concernant le capital physique et le capital de recherche. Le coecient du capital physique augmente fortement alors que celui du capital recherche baisse au contraire. Ces dirences importantes sont en outre grandes devant lordre de grandeur des carts-type. Bien quil ny est pas de test formel ici, il est vraisemblable que ces dirences soient signicatives. Ceci nest pas un bon signe, comme on le verra plus tard. En eet on peut remarquer ds maintenant une sorte dincohrence : normalement sous les hypothses faites lestimateur des mco et celui de mCQG sont tous les deux convergents : les valeurs estimes devraient donc tre assez proches.
9.3
Rsum
Dans ce chapitre on a :
9.3. RSUM
135
exhib direntes situations frquentes en pratique dans lesquelles lhypothse dhomoscdasticit nest plus satisfaite. prsent un estimateur alternatif lestimateur des mco, de variance minimale parmi les estimateurs linaires sans biais : lestimateur des MCG cet estimateur est fonction de la matrice de variance des perturbations qui est inconnue. Lestimateur nest donc pas calculable. On a prsent lestimateur de mCQG dans lequel la matrice de variance des perturbations, inconnue, est remplace par un estimateur. Lestimateur nest plus sans biais. Ses proprits ne sont quasymptotiques. Dans le meilleur des cas il est asymptotiquement quivalent lestimateur des mco. On a montr comment dans le cas o la matrice de variance dpend dun nombre ni de paramtres, il est possible de prciser les proprits asymptotiques de lestimateur des mCQG. Sous des hypothses peu exigeantes, cet estimateur et ne peut pas tre calcul en pratique ralisant examin les proprits asymptotique de lestimateur des mco rappel les proprits asymptotiques importantes des moyennes empiriques de variables : la loi des grands nombres et le thorme central limite. montr que sous des hypothses trs faibles (existence des moments dordre 1 et 2), lestimateur des mco est convergent et asymptotiquement normal. Etendu la notion de test pour dnir des tests asymptotiques, caractriss par le fait que leur puissance tend vers 1 et gnralis les notions de test de Student et de test de Fisher au cas asymptotique.
Chapitre 10 Variables instrumentales

On a considr jusqu prsent le cas de modles scrivant
K yi = b0 + x1 i b1 + + xi bK + ui
avec lhypothse 0 E xi ui = 0 ou E (ui |xi ) = 0
Cette hypothse peut aussi constituer une dnition statistique du paramtre b. Le coecient b sinterprte alors comme le vecteur des coecients de la rgression linaire de yi sur le vecteur de variables xi . Une telle dnition prsente un intrt dans une approche descriptive des donnes. Nanmoins on est frquemment amen estimer des modles structurels dans lesquels les paramtres ont un sens conomique. Le plus simple dentre eux est certainement la fonction de production yi = a + ki + li + ui le paramtre mesure en pourcentage lincidence dune augmentation de 1% du stock de capital sur la production. Ce paramtre conomique na pourtant aucune raison de concider avec celui de la rgression linaire, et on peut mme avancer de nombreuses raisons pour lesquelles il pourrait ne pas concider. On est ainsi frquemment amen considrer des modles structurels pour lesquels on a une quation linaire entre une variable dintrt et des variables explicatives mais pour laquelle on a des raisons de remettre en doute lhypothse E (ui |xi ) = 0. Ce chapitre est consacr la prsentation des mthodes destimations lmentaires adaptes lestimation des paramtres structurels dans ce cas. On va voir que lon peut identier le paramtre dintrt en ayant recours des hypothses alternatives E (ui |xi ) = 0 qui mobilisent des informations extrieures. Elles vont prendre la forme suivante : il existent des variables extrieures dites instrumentales telles que E (ui |zi ) = 0 et E (zi0 xi ) de rang K + 1. On va voir aussi deux tests trs importants dits tests de spcications qui permettent de guider dans le choix des variables extrieures 137
138
CHAPITRE 10. VARIABLES INSTRUMENTALES
(test de Sargan) et de tester lhypothse des mco : E (ui |xi ) = 0 (test dexognit). Si dans les chapitres prcdents on mettait beaucoup laccent sur lecacit des estimateurs (le Thorme de Gauss-Markov), ici on va mettre au contraire laccent sur lidentication des paramtres et sur la robustesse des estimations, et on va voir quil y a un arbitrage entre robustesse et ecacit.
10.1
10.1.1
Trois exemples types dendognit des rgresseurs

Erreur de mesure sur les variables
On considre la situation dans laquelle on a un modle structurel yi = x i b + ui La variable x i est suppose pour simplier de dimension 1 et centre comme la variable 0 yi et on fait l hypothse E (ui |x i ) = 0. On suppose en outre que la variable x i est mesure avec erreur : xi = x i + ei avec E (ei |x i ) = 0 et ui et ei non corrls. Dans ces conditions le modle dont on dispose est yi = xi b + ui bei On est dans une situation dans laquelle le rsidu de lquation vi = ui bei est corrl avec la variable explicative E (vi xi ) = E ((ui bei ) (x i + ei )) 2 = E (ui x i ) + E (ui ei ) bE (ei xi ) bE ei = b 2 e 6= 0 On voit alors trs facilement qu la limite le paramtre de la rgression linaire ne concide pas avec celui du modle : lestimateur des mco nest pas convergent. bmco 0 E xi vi 2 e b+ 0 =b 1 2 e + 2 E xi xi x
P
10.1. TROIS EXEMPLES TYPES DENDOGNIT DES RGRESSEURS
139
10.1.2
Simultanit
La simultanit est la situation dans laquelle certains des rgresseurs et la variable expliquer sont dtermins simultanment. Un exemple typique est celui dun quilibre ore demande. Une quation de demande va ainsi scrire
d d yi = d pi + xd i b + ui
La variable de prix pi ne peut pas tre considre comme exogne. En eet, il y a aussi une quation dore s s yi = s pi + xs i b + ui On peut rsoudre ce systme pour exprimer d d 1 s d s xi b xs i b + ui ui s + d d un choc de demande ud i est transmis dans les prix : E ui pi 6= 0. On peut voir aisment que lestimateur des mco de lquation de demande ou dore sera biais. On peut pour cela considrer le graphe reprsentant lquilibre ore demande reprsent sur la gure 10.1. Les observations correspondent lensemble des intersections des courbes dore et de demande. Ces courbes se dplacent, sous laction des variations des variables explicatives et aussi sous laction des chocs de demande et dore. On voit que sil ny a que des chocs de demande, lensemble des points dintersection des courbes dore et de demande va dcrire la courbe de demande, de mme, sil ny a que des chocs de demande, lensemble des points dquilibre va dcrire la courbe dore. Dans le cas gnral, il y a des chocs dore et de demande, et lensemble des quilibres ne dcrit ni la courbe dore ni la courbe de demande, la droite de rgression passe au milieu. pi =
10.1.3
Omission de rgresseurs, htrognit inobserve

yi = xi b + zi c + ui
On considre le modle Il y a donc un facteur zi dont on sait quil explique la variable yi . On considre la situation dans laquelle cette variable nest pas observe. Lomission de cette variable conduit une estimation non convergente du modle par les mco ds lors quelle est corrle avec les rgresseurs. On a en eet 0 1 0 0 1 0 P b bmco b + E xi xi E xi (zi c + ui ) = b + E xi xi E xi zi c = b + zi /xi c 0 Avec E xi ui = 0 et zi /xi le coecient de la rgression linaire de zi sur xi .
140
y Offre
Y*
Demande
p P* Equilibre Offre-Demande
Uniquement des chocs doffre
y Droite de rgression
p Uniquement des chocs de demande

Chocs doffre et de demande
Tab. 10.1 dirents quilibre ore-demande
10.2. LA MTHODE DES VARIABLES INSTRUMENTALES
141
Un exemple important est donn par les quations dites de Mincer reliant le salaire lducation wi = 0 + s si + ui Le paramtre s mesure leet dune anne dtude supplmentaire sur le niveau de salaire. Dans lensemble des causes inobserves aectant le salaire se trouve entre autres le niveau daptitude de lindividu. Le choix dun niveau dtude si est une dcision rationnelle de la part de lagent, fonction de laptitude de lindividu. On peut considrer aussi le cas dune fonction de production agricole : yi est le rendement de la terre, xi la quantit dengrais b est le rendement des pandages et zi la qualit de la terre. Lomission de cette variable biaise lestimation du paramtre technologique b si les dcisions dpandages dengrais dpendent de la qualit de la terre. Le paramtre estim nidentie pas seulement le paramtre structurel mais une combinaison non dsire de ce paramtre et de celui retant le comportement de lagriculteur.
10.2
10.2.1
La mthode des variables instrumentales

Modle variables endognes et non convergence de lestimateur des mco
yi = xi b + ui
Le modle est dit variables endognes si on na pas la proprit 0 E xi ui = 0
k Les variables xk 6= 0 sont dites endognes, les autres sont i pour lesquelles E ui xi dites exognes Dans ce modle lestimateur des mco nest pas convergent. En eet, il est donn par : b bmco = N X
i=1
x0i xi
= b+
N X
i=1
!1
x0i xi
!1
N X i=1
x0i yi
N X i=1
N X
i=1
x0i xi
!1
N X i=1
x0i (xi b + ui )
1
x0i ui b + E (x0i xi )
E (x0i ui ) .
comme E (x0i ui ) 6= 0 on a E (x0i xi )1 E (x0i ui ) 6= 0 et donc p lim b bmco 6= b
142
Remarque On a introduit une distinction entre variable endogne et variable exogne, nanmoins lensemble des coecients est biais et pas seulement ceux des variables endognes. Pour le voir on peut considrer lexemple de la fonction de production que lon considre en taux de croissance yi = li + ki + ui On fait en gnral lhypothse que le stock de capital sajuste lentement et nest de ce fait pas corrl avec la perturbation. Par contre le travail est un facteur variable, positivement corrl la perturbation : E (li ui ) = > 0. On calcule sans peine la valeur limite du paramtre : 1 V (ki ) cov (li ki ) p lim biaismco = 0 V (li ) V (li ) V (ki ) cov (li ki ) cov (li ki ) V (ki ) = V (li ) V (ki ) cov (li ki ) cov (li ki ) On constate donc que les deux coecients sont biaiss : celui du travail sans ambigut la hausse, et celui du capital la baisse si comme cest probable le capital et le travail sont corrls positivement.
10.2.2
Rsoudre le problme de lidentication par lutilisation de variables instrumentales
Sans prtendre produire ici des estimateurs, on sintresse aux conditions didentication. On considre pour cela nouveau le modle dore et de demande
d d yi = d pi + xd i b + ui s s yi = s pi + xs i b + ui
s On note xi = xd i , xi , certains lments peuvent tre commun aux deux ensembles et ninterviennent dans ce cas quune fois dans xi . On fait les hypothses 0 0 E xi ud = 0 , E xi us (10.1) i i = 0
c.--d. que les variables observables qui dplacent lore et la demande sont exognes pour s ud i et ui . On peut rsoudre comme prcdemment en pi mais aussi en yi : pi = yi d d 1 s d s xi b xs i b + ui ui s + d s d s d d s = xd xs ud us ib + ib + i + s + d s + d s + d s + d i
10.2. LA MTHODE DES VARIABLES INSTRUMENTALES
143
Compte tenu des relations 10.1, on peut exprimer les coecients des rgressions linaires de yi et pi sur xi partir des paramtres structurels. La modlisation, cest dire la spcication dune fonction dore et de demande et des restrictions stochastiques (exognit de xi ), conduit des restrictions sur les paramtres des rgressions linaires des variables endognes qui sont susceptibles de permettre lidentication des paramtres structurels du modle. Proposition Sil existe une variable exogne intervenant spciquement dans lquation dore, lquation de demande est identie. De mme, sil existe une variable exogne intervenant spciquement dans lquation de demande, lquation dore est identie Dmonstration Si xs 1i est une telle variable, le coecient de cette variable dans la 1 d s rgression linaire de pi sur xs i et xi est s +d b1 , et le coecient de cette variable dans d d s la rgression linaire de yi sur xs i et xi est s +d b1 . La comparaison de ces deux coecients permet lidentication de d Ce rsultat est obtenu en ayant recours une modlisation de lensemble des variables endognes du modle : la production et le prix, ou de faon quivalente le systme dquations qui les dtermine simultanment. Dans de nombreuses situations on ne sintresse qu une des deux quations, par exemple lquation de demande, les hypothses identis catrices peuvent tre assouplies. Il su t quil existe au moins une variable x1i entrant s 0 d = 0. Dans ce cas si on considre les dans lquation dore et vriant E xd i x1i ui s coecients y et p des rgressions linaires de yi et pi sur x ei = xd i x1i sont 0 1 0 0 1 0 d d ei x ei x ei E x ei yi = E x ei E x ei d pi + xd b + u y = E x i i 0 1 0 0 1 0 d ei x = d E x ei x ei E x ei pi + E x ei E x ei xd i b 0 = d p + bd 0
Le vecteur y est identi par les donnes : il sagit du vecteur des coecients de la rgression linaire de yi sur x ei . Il en est de mme pour le vecteur p . ds lors que le coes cient de la variable x1i dans la rgression de la variable de prix sur x ei , lment de p , est non nul, et que la variable xs ne gure pas dans la liste des rgresseurs exognes (struc1i turels) de lquation de demande, on voit que les coecients de lquation de demande sont identis. Il nen est pas ncessairement de mme pour lquation dore, soit parce s s que lon ne mesure pas toutes les variables xs i garantissant E (ui xi ) = 0, soit parce quil ny a pas de variables aectant la demande qui naecte pas directement lore. Enn on remarque quil nest pas ncessaire de spcier lquation dore. Cet exemple illustre bien la dmarche des variables instrumentales. Celle-ci correspond la mobilisation de variables extrieures au modle qui possdent la particularit de ne pas tre corrles avec le rsidu de lquation structurelle et qui sont nanmoins corrles
144
avec la variable endogne. Lidentication vient alors du fait que leet de la variable instrumentale sur la variable dpendante ne fait que reter celui de la variable endogne. Dire quune variable est une variable instrumentale revient postuler une relation dexclusion : il existe une variable aectant la variable expliquer et la variable explicative endogne et dont tout leet sur la variable expliquer "transite" par son eet sur la variable explicative endogne. On voit donc quune variable instrumentale ne tombe pas du ciel. Dans lexemple on justie le choix de la variable comme tant une variable appartenant un modle plus gnral, le systme ore-demande, conduisant lquation structurelle de demande et une quation rduite expliquant la formation de la variable endogne.
10.2.3
Identication
yi = x1i b1 + x2i b2 + ui
On considre le modle structurel
les variables x2i , (dim = K2 + 1) contiennent la constante et sont exognes, mais on ne fait pas lhypothse dexognit de la variable x1i (dim x1i = K1 = K K2 ) .
e Denition Un ensemble 0 de variables zi = (zi , x2i ) , de dimension H + 1, non parfaitement corrles (rang E zi zi = H + 1), est dit ensemble de variables instrumentales si les deux conditions suivantes sont satisfaites : 0 E zi ui = 0. (10.2)
et
La premire condition, appele condition dorthogonalit, consiste supposer que le vecteur des variables instrumentales nest pas corrl avec le rsidu de lquation structurelle. Il fait intervenir les K2 + 1 variables exognes x2 ainsi que (H + 1) (K2 + 1) = H K2 instruments extrieurs zie . Lhypothse (10.2) est parfois introduite sous la forme : E (ui |zi ) = 0 qui est plus forte que la prcdente (non corrlation) puisquelle implique en particulier E (g (zi ) ui ) = 0 pour toute fonction g. La deuxime condition est dite condition de rang. Elle joue un rle essentiel, parfois oubli, et que lon dtaillera par la suite. La condition (10.2) peut tre rcrite comme suit : 0 E zi (yi xi b) = 0
0 rang E zi xi = K + 1
10.2. LA MTHODE DES VARIABLES INSTRUMENTALES Soit encore : 0 0 E zi yi = E zi xi b
145
(10.3)
Cette condition dnit un systme de H + 1 quations K + 1 inconnues b. Le modle est identi si le systme (10.3) admet pour unique solution le paramtre structurel b On distingue trois situations Si H < K , le modle est sous identi, puisquil y a moins dquations que de variables. Il ny a pas su samment de variables instrumentales 0 Si H = K et rang E z x 0 i i = K + 1 le modle est juste identi. Si H > K , rang E zi xi = K + 1 le modle est dit sur-identi. Dans ce cas il y a plus de variables instrumentales quil nest ncessaire La condition de rang garantit que lon se trouve dans lune des deux dernires situations. Proposition Considrant le modle yi = xi b + ui Sous les hypothses zi tel que E (zi0 ui ) = 0 0 E (zi xi ) est de rang K+1, Le paramtre b est identi. Dmonstration En multipliant le modle par zi0 et en prenant lesprance, il vient
0 E (zi0 yi ) = E (zi0 xi ) b + E (zi ui ) = E (zi0 xi ) b 0 xi ) est de rang K+1, il existe ncessairement une matrice A de dimension Comme E (zi (K + 1) dim zi telle que AE (zi0 xi ) de dimension (K + 1) (K + 1) soit inversible (il sut par exemple de considrer A = E (zi0 xi )0 ). On en dduit donc que
b = (AE (zi0 xi ))
AE (zi0 yi )
b sexprime donc comme la limite dune fonction ne dpendant que des observations par 1 0 A zi yi exemple Azi0 xi
10.2.4
Moindres carrs indirects
0 Si H = K et si E zi xi est inversible, ce qui est le cas ds lors que la condition de rang 0 1 0 E zi yi . On obtient un estimateur est satisfaite, alors on peut rsoudre b = E zi xi
146
de b appel Estimateur des Moindres Carrs Indirects en remplaant les esprances par leurs contreparties empiriques : b bmci =
N 1 X 0 z xi N i=1 i
!1
= (z 0 x)1 z 0 y
N 1 X 0 z yi N i=1 i
o z est la matrice dont la i-ime ligne est zi , x la matrice dont la i-ime ligne est xi et y le vecteur dont la i-ime composante est yi . Si H > K , on se ramne au cas prcdent en slectionnant K +1 combinaisons linaires des instruments : Azi , o A est une matrice K + 1 H + 1, de rang K + 1. Lhypothse que lensemble des H + 1 variables dans zi est un ensemble de variables instrumentales conduit la proprit que pour A tel que AE (zi0 xi ) est inversible, b = (AE (zi0 xi )) On en dduit une classe destimateur : 1 0 b bmci (A) = Azi0 xi Azi yi 0 1 = (Az x) Az 0 y
1
AE (zi0 yi ) .
10.2.5
Proprit asymptotiques des estimateurs des MCI

yi = xi b + ui
Proposition Dans le modle K + 1 variables explicatives. Sous les hypothses : 0 ui ) = 0 avec zi de dim 1 H + 1 H1 E (zi H2 Les observations (xi , zi , yi ) sont iid 2 H3 E (u2 i |zi ) = H4 Les moments de (xi , zi , yi ) existent jusqu un ordre susant 0 0 H5 E zi xi et zi xi sont de rang K + 1 Alors, il existe au une matrice A de dimension K + 1 H + 1 pour laquelle les moins 1 0 0 timateur b bmci (A) = Az xi Az yi existe, et pour toute matrice A telle que lestimateur
i i
des MCI existe et toute suite de matrice, ventuellement dpendant des donnes An A, on a : bmci (A) = b 1. b bmci (A) est convergent : p lim b 2. b bmci (A) est asymptotiquement normal : L b N bmci (A) b N (0, (A)),
10.2. LA MTHODE DES VARIABLES INSTRUMENTALES avec h 0 i1 h 0 i1 0 0 (A) = AE zi xi AE (zi zi ) A E xi zi A0

2
147
Dmonstration Existence dau moins un estimateur 0 0 0 0 des MCI : Il sut de prendre 0 0 0 0 A = E zi xi on a alors E zi xi zi xi E zi xi E zi xi qui est inversible puisque 0 0 rang E zi xi = K + 1. Comme le dterminant est une fonction continue det Azi xi 0 det AA0 6= 0 et donc la matrice Azi xi est inversible pour N assez grand. Convergence : 1 1 0 0 0 0 b AN zi yi = b + AN zi xi AN zi ui . bmci (AN ) = AN zi xi La convergence dcoule simplement de la loi des grands nombres : 0 p 0 zi ui E zi ui = 0.
h i1 h i1 0 0 b (A) = 3. b2 Azi xi Azi0 zi A0 xi zi A0 o b2 = u b (A)2 i , est un estimateur convergent de (A)
0 0 0 0 2 2 Comme V zi ui = E (zi zi u2 i ) = E zi zi E (ui | zi ) = E zi zi , la normalit asymptotique dcoule directement du thorme central limite : 1 0 1 p 0 AN AE zi xi A et AN zi xi Estimation de la matrice de variance-covariance asymptotique 0 L Nzi ui N (0, 2 E (zi zi0 ))
0 p p 0 et du fait que AN A et zi xi E zi xi Normalit asymptotique 1 0 0 b N bmci (A) b = AN zi xi AN Nzi ui
Remarque Estimation robuste de la matrice de variance : Comme pour lestimateur des mco, il existe une version de la matrice de variance-covariance (A) pour le cas de rsidus htroscdastiques, i.e. lorsque E (u2 i |zi ) dpend de zi . On peut donc supprimer lhypothse H3. Les conclusions sont simplement modies en : b bmci (A) est asymptotiquement normal : L b N bmci (A) b N (0, het (A)),
2 b Comme pour lestimateur des mco, on vrie facilement que u u b b ( A ) b (A)2 = + x i i i b (A) 0 2 puisque b b
148 avec
h 0 i1 2 0 0 h 0 0 i1 het (A) = AE zi xi AE ui zi zi A E xi zi A i1 h i1 h 0 2 0 0 0 b het (A) = Az 0 xi et A u b ( A ) z z A x z A est un estimateur convergent de la mai i i i i i trice de variance.
10.3
10.3.1
Lestimateur des doubles moindres carrs

Existence dun estimateur optimal
On peut se demander sil nexiste pas une matrice A qui conduise un estimateur devariance cest minimale, dire tel que pour toute combinaison linaire b, on ait b b V b (A ) V b (A) . Une telle matrice existe et mne lestimateur des doubles moindres carrs.
Proposition Il existe une matrice A optimale au sens o pour toute suite de matrice AN A , la variance asymptotique de b bmci (AN ) est de variance minimale dans la classe b des estimateurs bmci (A). Cette matrice a pour expression : 0 1 A = E xi zi E (zi0 zi ) La matrice de variance correspondante a pour expression h 0 0 i1 1 0 (A ) = 2 E xi zi E (zi zi ) E zi xi
Dmonstration Pour montrer que (A) > (A ) au sens des matrices, i.e. on a 0 ((A) (A )) > 0 on peut clairement liminer le facteur 2 . La matrice de variance (A ) scrit : h 0 0 i1 1 1 0 (A ) = E xi zi E (zi zi ) E zi xi = (C 0 C ) 0 avec C = E (zi0 zi )1/2 E zi xi de dim H + 1 K + 1.La matrice (A) scrit : h 0 i1 h 0 i1 (A) = AE zi xi AE (zi0 zi ) A0 E xi zi A0 = BB 0 0 1 avec B = AE zi xi AE (zi0 zi )1/2 de dim K + 1 H + 1.On a la relation h 0 i1 0 1/2 1/2 BC = AE zi xi AE (zi0 zi ) E (zi0 zi ) E zi xi 0 h 0 i1 AE zi xi = IK +1 = AE zi xi
10.3. LESTIMATEUR DES DOUBLES MOINDRES CARRS On a donc (A) (A ) = BB 0 (C 0 C ) puisque BC = I. On a donc : i h 1 (A) (A ) = B I C (C 0 C ) C 0 B 0
1
149
= BB 0 BC (C 0 C )
C 0B0
Comme I C (C 0 C )1 C 0 est une matrice semi-dnie positive, (A) (A ) est aussi une matrice semi-dnie positive Remarque On a vu que dans le cas htroscdastique, la variance de lestimateur des 0 1 0 0 1 0 0 moindres carrs indirects scrivait : het (A) = AE zi xi AE (u2 . i zi zi ) A E xi zi A O voit par analogie avec le cas prcdent homoscdastique que aussi il y a un 0 dans ce cas 1 0 estimateur optimal et quil correspond la matrice A = E xi zi E (u2 z z ) . i i i
10.3.2
Lestimateur optimal comme estimateur des doubles moindres carrs

1
on la remplace par un estimateur convergent. AN = x0i zi zi0 zi b bmci (AN ) =
0 La matrice A = E xi zi E (zi0 zi )1 est inconnue. Pour mettre l0 estimateur en oeuvre, est un choix naturel. 1 1 0 1 0 0 0 xi zi zi0 zi zi xi xi zi zi0 zi zi yi 1 1 1 = x0 z (z 0 z ) z 0 x x0 z (z 0 z ) z 0 y
Cet estimateur a les mmes proprits asymptotiques que lestimateur b bmci (A ) puisque AN A . On peut rcrire lestimateur en faisant intervenir la matrice de projection orthogonale sur z, Pz = z (z 0 z )1 z 0
1 b b2mc (A ) = (x0 Pz x) x0 Pz y = ((Pz x)0 Pz x)1 (Pz x)0 y
On voit que la projection des variables explicatives sur les variables instrumentales joue un rle trs important. Il correspond de faon vidente lestimateur des mco de la variable endogne y sur la projection x b = Pz x des variables explicatives sur lensemble des instruments. On peut vrier directement ce point en considrant nouveau le modle et en dcomposant les variables explicatives en x= Pz x + Mz x. Le modle scrit : y = xb + u = Pz xb + Mz xb + u = Pz xb + v
150
Ici la perturbation comprend le vrai rsidu mais aussi la partie des variables explicatives orthogonales aux variables instrumentales : v = Mz x+u. On voit que pour ce nouveau modle dans lequel les rgresseurs ont t remplacs par leurs projections sur les variables explicatives, il y a orthogonalit entre le rsidu et les variables explicatives puisque (Pz x)0 u/N = x0 z/N (z 0 z/N )1 z 0 u/N E (x0 z ) E (z 0 z )1 E (z 0 u) = 0 et (Pz x)0 Mz x = x0 Pz Mz x = 0. On en dduit que lestimateur des mco de la rgression de y sur Pz x est bien convergent. Cest pourquoi on appelle cet estimateur estimateur des doubles moindres carrs et on le note b b2mc puisquil pourrait tre obtenu partir dune premire rgression des variables explicatives sur les variables instrumentales puis par rgression de la variable endogne sur les variables prdites de cette rgression. Lestimateur peut tre dtermin en deux tapes : x la valeur prdite. 1. On rgresse x sur z et on rcupre b 2. On rgresse y sur b x La matrice de variance asymptotique de b b2mc est 0 i1 h 0 1 0 b2mc ) = 2 E xi zi E (zi zi ) E zi xi Vas (b
On peut lestimer par
et la matrice de variance de lestimateur dans un chantillon de taille N est h 0 0 i1 1 /N V (b b2mc ) = Vas /N = 2 E xi zi E (zi0 zi ) E zi xi 1 0 1 1 b (b V b2mc ) = b2 x0 z (z 0 z ) z 0 x = b2 (x0 Pz x)1 = b2 x b bx yi = xi b + ui
Lcart-type des rsidus retenir est celui du modle
2 et peut tre estim par yi xib bi = b2mc . Il faut remarquer quici il sagit du rsidu u b2mc et non du rsidu de la deuxime tape yi x b2mc . bib yi xib
Cette criture de lestimateur variables instrumentales montre quon peut linterprter comme oprant un ltrage de linformation. On ne retient de la variabilit des variables explicatives que la partie qui correspond des chocs non corrls avec la perturbation. Ce ltrage est opr en projetant les variables explicatives sur un ensemble de variables non corrles avec la perturbation. La condition de rang garantit que lon ne perd pas le minimum dinformation requis pour identier le paramtre.
10.3. LESTIMATEUR DES DOUBLES MOINDRES CARRS
151
La prcision de lestimateur variables instrumentales ne peut donc dpasser celle quaurait lestimateur des mco si les variables explicatives taient exognes. On voit que lorsque la dimension de lespace sur lequel on projette augmente, la prcision de lestimateur variables instrumentales saccrot. A la limite, si la taille de lespace sur lequel on projette augmente susamment, on retrouve la prcision de lestimateur des mco, mais alors on retrouve aussi lestimateur des mco. Dans la dcision dintroduire ou non telle ou telle variable dans la liste des variables instrumentales, il y a donc un arbitrage entre prcision de lestimateur et convergence de lestimateur : plus il y a de variables instrumentales plus lestimateur est prcis, mais plus les risques de biais sont importants.
On voit aussi que dans cette opration de ltrage on perd de linformation et que cette perte dinformation conduit une moins grande prcision de lestimateur : 0 2 1 2 0 1 b b Vas b2mc = p lim ((Pz x) Pz x/N ) % (x x/N ) = Vas bmco
10.3.3
Cas des rsidus htroscdastiques
Dans ce cas lestimateur des doubles moindres carrs nest plus optimal, et la formule de sa variance nest plus correcte. La formule exacte est donne comme dans le cas gnral par Vas,het (A ) = h 0 i1 0 0 h 0 0 i1 E xi zi A A E zi xi A E u2 i zi zi A h 0 0 i1 0 1 1 = E xi zi E (zi0 zi ) E zi xi E xi zi E (zi0 zi ) 0 h 0 0 i1 0 1 1 0 0 E x E ( z E u2 z z z ) E z x z z ) E zi xi E ( z i i i i i i i i i i i 0 1 0 0 1 ei x = E x ei x ei E u2 ei x ei E x ei ix
0 o x ei = zi E (zi0 zi )1 E zi xi . La matrice de variance de lestimateur des doubles moindres carrs est b Vhet b2mc = Vas,het (A )/N Elle peut tre estime par
0 1 0 b o x ei = zi zi zi zi xi qui est exactement la matrice de White.
! N !1 1 X N V X 0 0 0 ( A ) as,het b b bhet b x ei b x ei ei b x ei x ei b x ei V u b2 = b b2mc = ix N i=1 i=1
152
10.4
Interprtation de la condition rang E (zi0xi) = K +1
La mise en oeuvre de la mthode des variables instrumentales repose sur la condition rang E (zi0 xi ) = K + 1. Les variables du modle sont scindes en K1 variables endognes x1i et K2 + 1 variables exognes. Ces variables interviennent galement dans la liste des ei x2i . instruments qui contient en outre H K2 variables extrieures z ei : zi = z 0 Compte tenu de lhypothse E zi zi inversible, la condition rang E (zi0 xi ) = K + 1 est 0 1 E (zi0 xi ) = K + 1. Cette matrice correspond analogue la condition rang E zi zi la matrice des coecients des rgressions des variables explicatives sur les instruments. Comme les variables du modle et les instruments ont les variables x2 en commun, on a : 0 1 0 1 0 0 0 E zi zi E (zi xi ) = E zi zi E (zi x1i ) IK2 +1 0 1z e = 1x2 IK2 +1 o 1z e et x des rgressions des variables endognes sur e et 1x2 sont les coecients de z 0 2 1 les instruments. La condition rang E zi zi E (zi0 xi ) = K + 1 est donc quivalente la condition rang 1z e = K1 Cette condition sinterprte comme le fait que les variables instrumentales extrieures expliquent susamment bien les variables endognes. Il nexiste pas de test formel de cette condition qui puisse tre facilement mis en oeuvre. Nanmoins il est important de regarder la faon dont les variables instrumentales expliquent les variables endognes, mme si on peut mettre en oeuvre lestimateur des doubles moindres carrs directement sans faire cette rgression intermdiaire. On peut par exemple, bien que cela ne garantisse pas que la condition est satisfaite ds quil y a plus dune variable endogne, eectuer chaque rgression des variables endognes sur lensemble des variables instrumentales et faire un test de la nullit globale des coecients des variables instrumentales extrieures. Dans le cas o la condition rang E (zi0 xi ) = K +1 nest pas satisfaite, on aura nanmoins en gnral distance nie rang zi0 xi = K + 1 et lestimateur pourra tre numriquement mis en oeuvre. La consquence du fait que rang E (zi0 xi ) < K + 1 est que x0 z (z 0 z )
1
z 0 x E (x0i zi ) E (zi0 zi )
0 E (zi xi )
non inversible. Lestimateur sera donc trs instable et prsentera des carts-type trs levs sur certains coecients, linstar de ce qui se produit avec les mco dans le cas de multicolinarit. Lorsque lon est la limite de cette situation, cest dire lorsque lon dispose de variables instrumentales expliquant trs mal les variables endognes on parle dinstruments faibles.
10.5. TEST DE SURIDENTIFICATION
153
On peut tre tent de pallier ce manque de pouvoir explicatif des instruments par lutilisation dun grand nombre dentre eux : on est dans la situation ou il y a beaucoup de variables instrumentales mais ou toutes, prises ensemble ont un pouvoir explicatif faible. Cette situation prsente des eets indsirables dont on peut avoir facilement lintuition. Lorsque le nombre dinstruments sur lequel on projette les variables devient grand et mcaniquement, sans que cela rsulte dune proprit statistique, la prdiction de la variable explicative va devenir meilleure : elle va se rapprocher des variables explicatives simplement parce que lespace sur lequel on projette devient plus grand. On comprend alors que dans ce cas lestimateur variables instrumentales se rapproche de lestimateur des mco. Lutilisation dun grand nombre de variables instrumentales au pouvoir explicatif mdiocre est donc une situation peu souhaitable. On considre pour sen prmunir quil faut que le F de Fisher testant la nullit globale des coecients des variables instrumentales dans la rgression des variables explicatives endognes soit plus grand que 1.
10.5
Test de suridentication
En pratique, on est souvent amen eectuer des estimations dune mme quation en tendant ou restreignant la liste des variables instrumentales. On a vu en eet que lon pouvait avoir intrt accrotre le nombre de variables instrumentales dans la mesure o cela conduit des estimateurs plus prcis. On a vu aussi quaccrotre indment lensemble des variables instrumentales pouvait conduire faire apparatre des biais dans lestimation. On va prsenter dans cette section un test trs important et trs couramment utilis permettant de contrler quil ny a pas dincohrence dans le choix des variables instrumentales. Ce test, appel test de Suridentication, ou test de Sargan constitue un guide incontournable dans le choix des variables instrumentales. On prsente dabord lide et le sens du test de Sargan dune faon informelle, on aborde ensuite la question plus formellement et de faon plus pratique.
10.5.1
Ide du test
Lorsquil y a plus dinstruments que de variables explicatives le modle est suridenti. On a vu que dans le modle yi = xi b + ui avec pour restriction identiante 0 E zi ui = 0,
on pouvait estimer le modle par les MCI de trs nombreuses faons, lestimateur le plus performant tant celui des doubles moindres carrs. On avait 1 0 b Azi yi bmci (A) = Azi0 xi
154
contrepartie empirique de la relation b = (AE (zi0 xi ))

1
AE (zi0 yi )
Si toutes ces variables sont compatibles entre elles, les estimateurs obtenus doivent tous tre proches les uns des autres on doit avoir p lim b bV I (k ) indpendant de k. Lide du test de suridentication est de comparer entre eux les dirents estimateurs et de juger sils sont ou non proches. Ceci constitue lide du test de suridentication, cela ne reprsente nullement la faon dont on le met en oeuvre. On va voir ultrieurement une procdure permettant de tester directement lhypothse que pour un jeu de variables instrumentales donn lensemble des estimateurs b bmci (A) convergent tous vers la mme valeur, sans avoir calculer tous ces estimateurs. Remarquons que ce test nest pas proprement parl un test de validit des instruments mais un test de compatibilit des instruments. Il signie en eet uniquement e b tq b bmci (A) e b . Ceci est une proprit statistique des donnes, qui peut tre teste. Il b = b le paramtre structurel que lon souhaite ne signie pas nanmoins b bmci (A) e identier.
Cette dernire relation doit tre vraie pour toute matrice A telle que AE (zi0 xi ) est inversible. Elle montre bien que le modle impose plus de structure entre les donnes quil nest ncessaire pour identier le modle : tous les paramtres b bmci (A) doivent converger vers une mme valeur. Considrons par exemple le cas dun modle ne prsentant quune variable explicative et pour lequel il existe h variables instrumentales. On pourrait considrer h estimateurs variables instrumentales obtenus en utilisant chaque fois une seule des variables instrumentales. zi (k) yi b bV I (k) = zi (k) xi
10.5.2
Approche formelle
La convergence de chaque estimateur des moindres carrs indirects provient de la proprit E (zi0 ui ) = 0. Cest elle que lon pourrait souhaiter tester directement. Il sagirait du test de lhypothse nulle 0 H00 : E (zi ui ) = 0 Si le rsidu tait connu un tel test serait trs facile mettre en oeuvre. Il consisterait 0 simplement regarder si la moyenne empirique zi0 ui de zi ui est proche de zro, cest dire si la norme de ce vecteur est proche de zro. Nanmoins comme on la dit, le test que lon peut esprer mettre en oeuvre nest pas le test de H00 , soit le test de H00 : E (zi0 (yi xi b)) = 0
10.5. TEST DE SURIDENTIFICATION ou b est le paramtre structurel mais simplement le test de e b tq E zi0 yi xie b =0
155
Remarque 1. Sous lhypothse H00 on aurait donc en appliquant le thorme centrale limite, et compte tenu de lhypothse dhomoscdasticit 0 2 0 Nzi ui N 0, E zi zi et donc N 0 0 0 1 0 z ui E zi zi zi ui 2 (dim (zi )) 2 i
b2mc = e b et donc que la faon naturelle de tester une telle Il est clair que sous H00 : p lim b 0 hypothse est dexaminer si zi u bi est proche de zro.
N 0 0 0 1 0 zi ui zi zi zi ui 2 (dim (zi )) b2 2. On rappelle le rsultat suivant
ou encore
W N (0, V (W )) W 0 V (W ) W 0 2 (rang (V (W ))) V (W ) V (W ) V (W ) = V (W )
o V (W ) est un inverse gnralis de la matrice V (W ) , i.e. tel que
La statistique de test va rester la mme ceci prt que :
Ce dernier point exprime bien le fait quune partie des conditions dorthogonalit est mobilise pour identier le paramtre et illustre bien le nom de suridentication donn au test. Proposition Sous les hypothses de rgularit garantissant la convergence et la normalit asymptotique de lestimateur variables instrumentales, dans le cas de rsidus 2 homoscdastiques (V yi xie b |zi = 2 ), b btqE zi0 yi xie b = 0, la statistique S Sous H0 : e b= S
0 bi Nzi0 u
1. on utilise u bi et non ui 2. le nombre de degrs de libert nest pas le nombre de variables instrumentales dim (zi ) = H + 1 , mais H K, cest dire le nombre dinstruments en excs.
Ici on ne peut pas utiliser ui le rsidu structurel mais u bi .
0 1 zi zi b
2
zi0 u bi 2 (H K )
156
o u bi = yi xib b2mc et b2 = u b2 i. b = 0 bas sur la rgion critique b tq E zi0 yi xie Le test de H0 contre H1 : @e o q (1 , 2 (H K )) est le quantile dordre 1 dun 2 (H K ) est un test convergent au seuil . Dmonstration Sous H0 , soit e b =0 b la valeur du paramtre telle que E zi0 yi xie et soit u ei le rsidu correspondant. Ces grandeurs sont a priori distinctes rappelons le des quantits ayant sens sur le plan conomique e b et ui . Nanmoins, pour ne pas alourdir, on les note b et ui , b b b u bi = yi xi b2mc = xi b + ui xi b2mc = ui xi b2mc b do comme zi0 u bi = b b2mc = on a : zi0 u bi 1 0 b = zi0 ui zi0 xi b zu b2mc b N n o b 2 b W = S S > q 1 , (H K )
1 1 0 1 0 0 0 xi zi zi0 zi zi xi xi zi zi0 zi zi yi 1 1 0 1 0 0 0 = b + xi zi zi0 zi zi xi xi zi zi0 zi zi ui
0 0 0 1 0 et MN M = E zi xi E xi zi E (zi0 zi )1 E zi xi E xi zi E (zi0 zi )1 . M vrie en outre M 2 = M On en dduit que 0 L Nzi0 u bi = (IH +1 M ) Nzi ui + op (1) N (0, ) 0 0 M 0 ) .On avec = (IH +1 M ) V zi ui (IH +1 M 0 ) = 2 (IH +1 M ) E zi zi (IH +1 0 0 Nzi0 u bi = vrie que (IH +1 M ) E zi zi = E zi zi (IH +1 M 0 ) si bien que Vas 0 2 (IH +1 M ) E zi zi Nzi0 u bi = 0 et donc que Comme M 2 = M on vrie immdiatement que MVas 0 0 0 Vas Nzi u bi nest pas de plein rang. Comme Vas Nzi u bi = 2 (IH +1 M ) E zi zi ,
1 0 0 0 0 0 0 1 0 0 1 = IH +1 zi xi xi zi zi zi zi xi xi zi zi zi zi ui = (IH +1 MN ) zi ui
10.5. TEST DE SURIDENTIFICATION
157
Nzi0 u bi est clairement celui de (IH +1 M ) et comme M 2 = M, les le rang de Vas valeurs propres de M sont soit 1 soit 0. On en dduit que 0 rangVas Nzi u bi = T r (IH +1 M ) = rang (IH +1 M ) = H + 1 T r (M )
= H+ 1 0 1 0 0 0 1 1 0 0 E xi zi E (zi zi ) T r E zi xi E xi zi E (zi zi ) E zi xi = H+ 1 0 0 1 0 0 1 1 0 0 Tr E xi zi E (zi zi ) E zi xi E xi zi E (zi zi ) E zi xi
= H K
0 1 on en dduit que 12 E zi zi est un inverse gnralis de la matrice de variance asymp 0 bi . On a donc totique N zi u 1 0 1 0 L 2 Nu bi zi 2 E zi zi zi u bi (H K ) 0 et on peut clairement remplacer en appliquant le thorme de Slutsky E zi zi par zi0 zi et b2 . 2 par 0 z 1 0 (zi L i) b = z0u b zi0 u bi 2 (H K ) . Donc, sous H0 : S 2 i i b P b2mc = zi0 yi xi p lim b bi = zi0 yi xib b2mc + op (1) 6= 0, En outre sous H1 , zi0 u
1 1
On a aussi 1 0 1 0 2 0 0 Nzi u bi 2 E zi zi Vas Nzi u bi = (IH +1 M ) E zi zi Vas 0 1 0 1 2 E zi zi (IH +1 M ) E zi zi 2 0 = 2 (IH +1 M ) (IH +1 M ) E zi zi 0 2 = (IH +1 M ) E zi zi = Vas Nzi0 u bi
0 P P (z0 zi ) 0 0 (zi zi ) b et il en inversible, z u b zi0 u bi 0 , sous H1 , donc S comme i 2 i i b b2 rsulte que P (W |H1 ) 1.
10.5.3
Mise en oeuvre du test
Le test de suridentication est trs simple mettre en oeuvre. Il correspond au test de la nullit globale des coecients de la rgression de u bi sur les variables instrumentales,
158
y compris la constante. En eet, si on considre le modle u bi = zi + wi
qui est la statistique. Le test est donc formellement quivalent au test de la nullit globale des coecients de la rgression de u bi sur les variables instrumentales zi . On sait que ce mme test peut tre eectu (asymptotyiquement) partir du R2 de la rgression. La statistique de test est NR2 et est quivalente sous lhypotyse nulle au F de la rgression. Le test peut donc tre eectu partir du F de cette rgression. Nanmoins il convient dtre prudent en ce qui concerne le calcul de cette statistique et celui de la p value. Ceci b la statistique tient au nombre de degrs de libert retenu dans le calcul. Considrons S de test de la proposition prcdente. La statistique donne par le logiciel FLog est relie b b par la formule FLog = S/H. On divise par H car le logiciel prend en cette statistique S compte le nombre de rgresseurs. La p value qui accompagne le F de la rgression donn dans tous les logiciels, fait lhypothse que cette statistique suit une loi F (H, N H 1) degrs de libert, o H est le nombre de variables explicatives non constantes de la rgression, ici on a N . Pour N F (k, N k 1) 2 (k) /k. La p value indique correspond donc une statistique 2 (H ) /H. Elle nest donc pas correcte, la statistique non plus. On sait que HFLog 2 (H K ) et donc FRec = (H/ (H K )) FLog suit une loi F (H K, N (H K ) 1) . On doit donc considrer soit la statistique HFLog et calculer la p-value partir dune loi du 2 (H K ) , soit considrer FRec et calculer la p-value partir dune loi F (H K, ) .
bi ) = b2 et donc le test de = 0 doit tre men pothse H : = 0, V (wi ) = V (u 1 1 0 2 0 1 0 1 0 b b0V b=u bi zi z 0 zi zu bi = N u bi zi z 0 zi zu bi / b2 N z zi / b z zi partir de
i i i i i i
0 1 0 b b = V (wi ) z 0 zi 1 /N. Sous lhylestimateur des mco de est = zi zi zi u bi , V i
Remarque 1. On a a priori toujours intrt avoir un ensemble dinstrument le plus large possible. En eet retirer une variable instrumentale et mettre en oeuvre lestimateur des doubles moindres carrs correspond slectionner une matrice particulire pour lestimateur des moindres carrs indirects avec le jeu complet dinstruments. Comme on la montr cet estimateur est alors ncessairement moins ou aussi bon que lestimateur des doubles moindres carrs avec lensemble dinstrument complet. Quand on tend lensemble des variables instrumentales, il est important de bien vrier la compatibilit globale des instruments utiliss et de mettre en oeuvre le test de suridentication. 2. La matrice de variance de lestimateur des doubles moindres carrs est toujours plus grande que celle de lestimateur des mco. Ceci se voit immdiatement en examinant lexpression des variances V (bmco ) = 2 (x0 x)
1
et V (b2mc ) = 2 (x0 Pz x)
10.6. TEST DEXOGNIT DES VARIABLES EXPLICATIVES En outre, on voit aussi en comparant les expressions des estimateurs bmco = (x0 x)
1
159
x0 y et b2mc = (x0 Pz x)
x0 Pz y
que lorsque lon tend la liste des variables instrumentales la dimension de lespace sur lequel on projette les variables du modle augmente et quon en a donc une reprsentation de plus en plus dle. La variance de lestimateur des doubles moindres carrs va samliorer, mais lestimateur des doubles moindres carrs va se rapprocher de lestimateur des moindres carrs ordinaires. Il y a donc un risque tendre trop la liste des instruments. A distance nie, on pourrait avoir une mise en oeuvre fallacieuse conduisant un estimateur proche de celui des mco. Il est utile pour se prmunir de ce risque de regarder la rgression des variables endognes sur les instruments et de contrler la signicativit globales des instruments.
10.6
10.6.1
Test dexognit des variables explicatives

Intrt et ide du test
Lintrt de tester une telle hypothse est immdiat compte tenu du fait que sous cette hypothse lestimateur optimal sera lestimateur des mco qui domine nimporte quel estimateur variables instrumentales. Une ide naturelle consiste examiner si les coecients estims sous lhypothse nulle et sous lhypothse alternative sont identiques, cest dire si p lim b b2mc = p lim b bmco . Notons que l encore il ne sagit que dun test de compatibilit des conditions dorthogonalit entre elles et non pas un test de leur validit dans le cadre de lestimation dun paramtre structurel.
on peut vouloir tester lhypothse que les rgresseurs xi sont exognes. On considre donc lhypothse 0 0 H0 : c tq E zi (yi xi c) = 0 et E xi (yi xi c) = 0
Ayant estim le modle par les doubles moindre carrs, cest dire sous lhypothse 0 H1 : c tq E zi (yi xi c) = 0
10.6.2
Approche formelle
Test de Hausman bmco peut tre Lide prcdemment avance de tester lhypothse p lim b b2mc = p lim b b b mise en oeuvre en se fondant sur la comparaison de b b avec 0 . Pour faire ce test on 2mc mco 0 b va donc examiner N b b2mc b bmco Vas b bmco bmco . Plusieurs questions b2mc b b2mc b
160
se posent naturellement. On a vu quau sein des variables explicatives x soprait une distinction naturelle entre les K1 variables endognes x1 et les 1 + K2 variables exognes x2 . On peut sattendre ce que le test ne porte que sur les coecients des variables potentiellement endognes. En outre se pose les questions du rang de la matrice de variance Vas b b2mc b bmco qui conditionne le nombre de degrs de libert de la loi limite de la statistique et de la dtermination dun inverse gnralis. On examine tour tour chacune de ces questions. Le test peut tre bas sur les coecients des endognes Lemme On a 1 b b b2mc bmco = x b0 x b 1 ! 11 x b0 x b (1) (1) b b b2mc bmco 0K2 +1,K1
(1) (1) Le test de p lim b b2mc = p lim b bmco est identique celui de p lim b b2mc = p lim b bmco . En outre
0 1 0 Dmonstration En eet b b2mc = x bx b x b y et b bmco = (x0 x)1 x0 y donc h i 1 0 1 b2mc b b0 x b0 x b b bmco = x b x b x b y (x0 x) x0 y x b0 x h i 1 = x b0 y x b0 x b (x0 x) x0 y h i 1 = x b0 y x b0 Mx y b0 x (x0 x) x0 y = x
0 11 0 (1) b b(1) = x bx b x b1 Mx y b2mc b mco
Puisque x b0 x b = (Pz x)0 (Pz x) = x0 Pz Pz x = (Pz x)0 x = x b0 x et avec Mx = IN x (x0 x)1 x0 . b2 = (Pz x2 ) = x2 et donc x b02 Mx = x02 Mx = 0. Comme x2 z, x x b01 Mx y 0 b b x bx b b2mc bmco = 0 Dont on en dduit que x b01 Mx y 1 0 b b bx b b2mc bmco = x 0
soit, avec b(1) le vecteurs des coecients de x1i et symtriquement pour b(2) , et les notations standards 0 1 " 0 11 0 12 # 0 x b x b b12 bx b b x bx x bx 0 11 x = 0 21 0 22 0 b 21 x b 22 x bx bx b b x bx x bx
10.6. TEST DEXOGNIT DES VARIABLES EXPLICATIVES 0 (1) (2) 0 (2) b b b2mc b + x b b b 21 b b(1) x b b x bx 2mc mco mco = 0 22 0 11 0 (1) b b(1) = x bx b x b1 Mx y b2mc b mco
161
et
(1) (1) Rang de la matrice de variance de b b2mc b bmco 0 Lemme Sous lhypothse rang z x = K + 1, le rang de la matrice de variance de (1) (1) b bmco est K1 , le nombre de variables explicatives endognes. b2mc b
(1) (1) Le test de p lim b b2mc = p lim b bmco et donc quivalent celui de p lim b b2mc = p lim b bmco . Ce 11 0 (1) (1) test peut en outre tre pratiqu partir de lexpression b b2mc b bmco = x b0 x b x b1 Mx y
(1) Dmonstration Lexpression prcdente montre que la matrice de variance de b b2mc 0 11 0 0 11 (1) b b x b1 Mx x b1 x b . Son rang est donc gal celui de x b01 Mx x b1 , donc celui bx bx bmco est 2 x de Mx x b1 . Supposons que lon ait pour un vecteur : Mx x b1 = 0 alors Px x b1 = x b1 il existe donc un vecteur tel que x b1 = x. Comme x b1 appartient lespace engendr par z = [z e, x2 ] , la combinaison linaire x est ncessairement une combinaison linaire des seules variables explicatives exognes : x = x2 2 . Notant comme prcdemment 1 = [1z e, 1x2 ] , o 1z e et x2 des rgressions des variables endognes sur e et 1x2 sont les coecients de z les instruments. Lquation x b1 = x2 2 , scrit z e1z Z e + x2 (1x2 2 ) =0. Comme 0 est de rang K + 1 ceci ncessite 1z = 0 . Et on a vu que la condition rang z x = K + 1 e est quivalente 1z e de rang K1 on a donc ncessairement sous cette condition = 0 et (1) (1) donc la matrice de variance de b b2mc b bmco est inversible : le nombre de degrs de libert du test dexognit est gal K1 .
Le test de Hausman
2 Proposition Lorsque lhypothse dhomoscdasticit, E (u2 i |xi , zi ) = est satisfaite, sous lhypothse nulle dexognit de xi , la statistique
Dmonstration Sous lhypothse dhomoscdasticit et sous lhypothse nulle, b bmco est lestimateur de variance minimale dans la classe des estimateurs sans biais dont fait parti lestimateur des doubles moindres carrs. On a donc b b b b Vas b2mc bmco = Vas b2mc Vas bmco
Un test convergent au niveau de H0 peut tre eectu en comparant la valeur de la b au quantile dordre 1 dune loi du 2 K1 degrs de libert statistique S
" 0 11 #1 0 11 0 x x b N b xx L (1) (1) (1) (1) 2 b b b b b= S b b b b 2mc 2mc mco mco (K1 ) 2 N N b
162
Un estimateur convergent de la matrice de variance de la dirence b b2mc b bmco est donc donn par " 11 # 0 11 0 x b x b x ) ( x 2 bas b b2mc b b bmco = V N N
Test dexognit par le biais de la rgression augmente
b suit une loi du 2 K1 degrs de libert sous H0 . Sous lhypothse On en dduit que S (1) (1) b + alternative p lim b b2mc p lim b bmco 6= 0 et donc S
Le test dexognit peut tre mis en oeuvre trs simplement par le biais dune simple rgression de la variable dpendante y sur les variables potentiellement endognes du modle et les variables exognes x1 et x2 et sur la projection des variables endognes sur les variables instrumentales x b1 : Lestimateur MCO du coecient de sobtient aisment partir de thorme de FrishWaugh : il sagit du coecient de la rgression des mco sur le rsidu de la rgression de x b1 sur les autres variables, cest dire x. On a donc or on a vu prcdemment On en dduit que lon a :
(1) b b(1) bx b)11 x b01 Mx y b2mc b mco = (x
y = x1 c1 + x2 c2 + x b1 + w
1 0 0 b1 x b1 Mx y = x b b1 Mx x
(1) (1) le test de p lim b b2mc p lim b bmco = 0 est donc quivalent au test de = 0 et peut tre eectu partir de lestimateur b. Il peut donc tre eectu trs simplement par lintermdiaire dun test de Wald ou dun test de Fisher. Remarquons enn que le test peut tre men de faon analogue sur les rsidus des rgressions des variables explicatives endognes sur les instruments (x1 ) = x1 x b1 . Lquation b1 + w y = x1 c1 + x2 c2 + x
0 (1) b b2mc b b(1) bx b)11 x b1 b1 Mx x b mco = (x
se rcrit de faon analogue comme
y = x1 (c1 + ) + x2 c2 (x1 ) + w
10.7. ILLUSTRATIONS
163
10.7
10.7.1
Illustrations
Rduction du temps de travail et gains de productivit
Une des questions importantes dans leet du passage 35 heures sur lconomie est son eet sur les gains de productivit. Par exemple si on considre que la production reste inchange, leet sur lemploi sera important si il y a peu de gains de productivit. Les rsultats prsents ici ne sont quillustratifs et ne prtendent pas donner un avis sur la rduction du temps de travail. Ils montrent nanmoins si besoin tait que lconomtrie permet de rpondre des questions importantes et soulignent le rle essentiel des hypothses identicatrices dans la rponse que lon apporte. On peut considrer le modle suivant : ln yi = ln li + (1 ) ln ki + RT Ti + ui o li reprsente lvolution des eectifs entre 1997 et 2000, ki celle capital et RT Ti une indicatrice correspondant au fait que lentreprise ait sign un accord de rduction du temps de travail sur cette priode. ui reprsente un choc de productivit ou de demande. Ce modle est structurel, cest dire que lon sintresse leet de la rduction du temps de travail et des variations des facteurs sur lactivit. Dans un tel contexte il est clair que dimportants problmes dendognit des facteurs se posent : ln li en premier lieu, mais aussi ln ki sont susceptibles dincorporer les nouvelles conditions dactivit ui : ces variables sont trs certainement endognes. La variable RT Ti est, elle aussi, probablement endogne : toutes les entreprises sont senses passer terme 35 heures. Les entreprises ayant de bonnes perspectives de productivit peuvent plus facilement et donc plus rapidement trouver un moyen avantageux de le faire. Ceci a pu tre particulirement vrai dans le contexte de la n des annes 1990 o aprs une longue stagnation, la croissance qui avait dj soutenu longuement lactivit aux USA, arrivait en France. Compte tenu des dclarations des dirigeants politiques, il ny avait aucun doute quun jour ou lautre il faudrait passer aux 35 heures. La question ntait donc pas faut-il ou non passer la rduction du temps de travail, mai quand faut-il passer aux 35 heures. Pour se concentrer sur leet de la RT T on limine le problme de lestimation du paramtre en le mesurant comme la part des salaires dans la valeur ajoute dans le secteur. Lquation scrit alors : ln yi ln li (1 ) ln ki = P GFi = RT Ti + ui Pour attnuer lendognit potentielle de la variable RT Ti on peut introduire certains rgresseurs Xi : le secteur, la taille, la part des salaires dans la valeur ajoute, la structure des qualications... Le modle scrit alors P GFi = Xi b + RT Ti + vi o vi reprsente le choc de productivit rsiduel, cest dire une fois pris en compte les facteurs Xi .
164
Pour estimer ce modle on fait lhypothse que les aides potentiellement reue par les entreprises si elles signent un accord de rduction du temps de travail Aidei aectent sa dcision de passer la RTT, mais pas les gains de productivit. On considre aussi que linformation dont disposaient les entreprises sur la rduction du temps de travail aecte la dcision de passage mais pas la productivit. On mesure cette variable par la part des entreprises Robien dans le secteur Infi . On considre de mme que le taux dendettement des entreprises aecte la dcision de passage mais pas la productivit Endti . Enn, on considre que la part des femmes dans lentreprise P fi naecte pas les gains de productivit mais inuence la dcision de passage. On a ainsi quatre variables instrumentales potentielles : Aidei , Infi , Endti et P fi . On vrie dabord la condition de rang en rgressant la variable RT Ti sur Xi et les variables instrumentales. On voit clairement sur le tableau 10.2 que les coecients des variables instrumentales sont signicatifs ce qui garantit que la condition de rang soit satisfaite. Le tableau 10.3 donnent le rsultat des estimations par les mco et par les variables instrumentales. On ne fait gurer que la variable RTT, mais les rgressions comprennent toutes les variables de contrle qui gurent dans le tableaux prcdent. On observe deux rsultats importants sur ces tableaux : dune part les coecients estims pour la variable RTT sont trs dirents suivant la mthode destimation. Dans le cas mco on a -0.036, ce qui signie que les entreprises ayant sign un accord de rduction du temps de travail on vu leur production baisser de 3.6% facteurs inchangs. Pour une baisse de 10.3% (4/39) de la dure du travail, cest assez peu et cela correspondrait lexistence dimportant gains de productivit dans les entreprises passes aux 35 heures. Le coecient estim par la mthode des variables instrumentales est trs dirent. Il est de -0.107 ce qui correspond une baisse de la production de 10.7%. Ceci signierait quil ny a pas eu de gains de productivit associs au passage 35 heures. On voit donc que la conclusion laquelle on parvient dpend trs fortement des hypothses identicatrices eectues. Un autre enseignement des deux tableaux est la dirence importante entre les carts-type estims : lcart-type est de 0.003 pour la rgression par les mco et de 0.032 pour les variables instrumentales. Il y a donc un facteur 10 dans la prcision. Il faudrait pour obtenir un estimateur aussi prcis que celui des mco multipli la taille de lchantillon par 100 ! Les rgressions prsentes sont eectues sur 30.000 observations. On voit donc clairement le prix des variables instrumentales en terme de prcision. Le tableaux 10.4 prsentent le test de suridentication. Il est ralis en rgressant le rsidu de la rgression variable instrumentale sur les variables exognes du modle cest dire les instruments et les rgresseurs exognes. On rcupre le F de cette rgression donn par le logiciel FLog , et on applique la correction prsente FRec = (H/ (H K )) FLog . Ici H est le nombre de variables exognes (rgresseurs plus instruments) i.e. H = 25, et K
10.7. ILLUSTRATIONS
165
Instruments
Rgression de la variable RTT sur les instruments parametres cart-type Student -0.801 0.163 0.205 0.065 0.027 0.055 0.510 0.096 0.119 -0.014 0.167 -0.240 -0.187 -0.164 -0.077 0.413 0.211 0.294 0.022 0.000 -0.031 0.013 1.466 0.113 -0.086 0.082 0.017 0.015 0.032 0.014 0.012 0.053 0.014 0.011 0.015 0.013 0.027 0.027 0.027 0.032 0.037 0.026 0.031 0.018 0.019 0.014 0.006 0.161 0.009 0.015 -9.732 9.868 13.568 2.034 1.940 4.448 9.680 7.072 10.544 -0.945 12.483 -8.856 -6.909 -6.011 -2.433 11.203 8.132 9.508 1.209 0.021 -2.223 2.211 9.095 12.711 -5.772
Pvalue 0.000 0.000 0.000 0.042 0.052 0.000 0.000 0.000 0.000 0.344 0.000 0.000 0.000 0.000 0.015 0.000 0.000 0.000 0.227 0.983 0.026 0.027 0.000 0.000 0.000
un N16b N16c N16d N16e N16f N16g N16h N16j N16k N16n taille1 taille2 taille3 taille4 eja1 eja2 eja3 ejq1 ejq2 pi97 Taux d'endettement robien aide part des hommes
Tab. 10.2 Condition de rang
variables RTT
Estimation par les mco parametres cart-type Student Pvalue -0.036 0.003 144.387 0.000 Estimation par les variables instrumentales parametres cart-type Student Pvalue -0.107 0.032 11.564 0.001
variables RTT
Tab. 10.3 Estimation pas les MCO et le VI
166

Test de Sargan parametres -0.00201 0.17451 -0.00826 -0.00254 degrs 3
Instruments
cart-types 0.00329 0.06910 0.00373 0.00753 p-value 5.6%
Taux d'endettement robien aide part des hommes Statistique 7.57
Tab. 10.4 Test de Sargan est le nombre de variables explicatives exogne et endognes du modle. Ici K = 22, la rgression inclue en eet les variables de contrle qui ne sont pas montres ici. La correction est donc trs importante puisquon multiplie la statistique du logiciel par 25/3 = 8.33. Le nombre de degrs de libert est le nombre dinstrument en excs cest dire 3. On voit que ce test nest que lgrement accept, puisque la statistique est de 7.57 ce qui conduit une p-value de 5.6% pour 3 degrs de libert. Notons que si on accepte lhypothse (5.6% > 5% on pourrait donc accepter la limite pour un test 5%) ce que lon accepte nest pas le fait que les instruments sont valides, cest dire quils vrient la condition E (zi ui ) = 0, autrement dit que le paramtre estim converge vers le vrai paramtre. Ce que lon accepte cest que les estimateurs auxquels conduirait chacune des variables instrumentales prise sparment ne seraient pas statistiquement dirents : en rsum on accepte que si il y a biais, le biais sera le mme avec nimporte lequel de ces instruments. On insiste ici dessein sur le fait quil sagit dun test de compatibilit des instruments et pas un test de validit des instruments. Lidentication repose ncessairement sur une hypothse non testable. On peut en vrier la cohrence interne le cas chant, cest dire lorsquil y a suridentication, mais pas la validit. Les tests de spcication sont un guide trs utile mais pas une rponse dnitive.
Le tableau 10.5 prsente le rsultat du test dexognit. Lhypothse teste est : conditionnellement au fait que lon accepte la validit des instruments (ce qui na de sens que si le test de suridentication a t accept, et qui nest le cas qu 5,6% ici) peut on accepter que la variable suppose endogne est en fait exogne. Cest dire peut on se baser sur lestimateur des mco. La dirence de prcision des estimations motive de faon convaincante lutilit de se poser cette question. Le test est eectu par le biais de la rgression augmente. On introduit la variable suppose endogne et la variable prdite par la rgression de la variable endogne sur les instruments (celle du tableau1) lhypothse est rejete si cette dernire variable est signicative. Cest nettement le cas ici. Ce test signie que si on croit la validit des instruments, on ne peut pas croire
10.7. ILLUSTRATIONS
Test d'Exognit cart-type Chi2 0.031 0.003 5.208 136.164
167
variables RTT prdit RTT
parametres
Pvalue 0.022 0.000
-0.072 -0.036
Tab. 10.5 Test dexognit

Variables Instrumentales SBIV0 CHIBIV0 -0.161 0.039 17.317
Variables RTT
BIV
PROBBIV0 0.000
Instruments Endt aide Hommes
Test de Sargan parametres cart-types -0.0012 0.0033 -0.0026 0.0030 -0.0075 0.0074 degrs 2 p-value 56.2%
Statistique 1.152
variables RTT prdit RTT
parametres
Test d'Exognit cart-type Chi2 0.038 0.003 10.993 135.507
Pvalue 0.001 0.000
-0.126 -0.035
Tab. 10.6 Rsultat sans la part des Robien lexognit de la variable de RTT.
Le tableau 10.6 montre le rsultat des estimations lorsque lon retire la variable Infi de la liste des instruments. Le hypothse de compatibilit des variables instrumentales est beaucoup plus largement accepte. Lhypothse dexognit est quant elle rejete et le coecient estim pour la variable de RTT est un peu modi. Il atteint un niveau de -16%, ce qui est trs lev et signie quil ny a pas eu de gains de productivit horaire mais plutt des pertes. Il est aussi moins prcis.
168
10.8
Rsum
Dans ce chapitre, on a tudi 1. Direntes raisons de remettre en cause lhypothse identicatrice fondamentale E (x0i ui ) = 0 2. Certaines variables apparaissent ainsi endognes et dautres restent exognes. 3. On a montr que lon peut recourir des hypothses identiantes alternatives celle des moindres carrs ordinaires bases sur des variables instrumentales. Il sagit de variables corrles avec les variables explicatives mais non corrles avec les perturbations. 4. On a vu que parmi lensemble des estimateurs possibles il en existait, dans le cadre homoscdastique tudi, un plus ecace que les autres appel estimateur variables instrumentales. 5. Cet estimateur sinterprte comme lestimateur obtenus en rgressant la variable dpendante sur la ; projection des variables explicatives sur les variables instrumentales. 6. Cet estimateur est toujours moins prcis que lestimateur des moindres carrs ordinaires 7. On a vu un test trs courant : le test de suridentication, ou test de Sargan, qui teste la compatibilit des variables instrumentales. Il ne sagit pas dun test de validit des instruments mais dun test permettant de vrier quil ny a pas dincompatibilit entre les dirents instruments utiliss. 8. On a vu aussi quil tait possible de tester lexognit des variables instrumentales ce qui permet davoir recours, le cas chant, lestimateur des moindres carrs ordinaires.
Chapitre 11 La Mthode des moments gnralise

11.1 Modle structurel et contrainte identiante : restriction sur les moments
Les mthodes destimation que lon a vu jusqu prsent exploitaient sans le dire explicitement lexistence de fonctions des paramtres et des variables du modle dont lesprance est nulle. Par exemple dans le cas du modle linaire vu jusqu prsent yi = xi b + ui On a vu que lestimateur des mco exploitait largement lhypothse de non covariance entre les variables explicatives et le rsidu : E (x0i ui ) = 0 Cette restriction se rcrit de faon analogue comme E (x0i (yi xi b)) = 0 Elle est directement lie lexpression de lestimateur des mco. Celui-ci peut en eet tre vu comme la valeur du paramtre qui annule la contrepartie empirique des conditions dorthogonalit : 0 b x yi xi bmco = 0
i
et on a alors des relations du type
Il en va de mme pour les variables instrumentales. La contrainte identiante centrale prenait en eet la forme : V I0 ui = 0 E zi E ziV I 0 (yi xi b) = 0 169
170 Les estimateurs de mci sont caractriss par le fait quils annulent une combinaison linaire donne de la contrepartie empirique des conditions dorthogonalit : A.ziV I 0 yi xib bmci (A) = 0
Ces restrictions ont en commun le fait quun vecteur de fonctions des observations et des paramtres dont lesprance est gale zro pour la vraie valeur du paramtre. Dans le 0 0 premier cas il sagit de xi (yi xi b) et dans le second cas de zi (yi xi b) . La mthode des moments gnralise est la mthode adapte pour estimer des modles conomtriques dnis par lexistence de fonctions des observations et des paramtres desprance nulle. La mthode des moments gnralise va avoir pour nous plusieurs avantages : On va pouvoir tendre les procdure destimation et de test des domaines plus gnraux. Dans le cas des variables instrumentales par exemple, on va pouvoir d nir des estimateurs optimaux ne reposant que sur les contraintes identiantes V I0 E zi (yi xi b) = 0. En particulier, ils ne feront pas dhypothses de rgularit sur la constance des moments dordres suprieurs. On va aussi pouvoir tendre les procdures de tests de suridentication et dexognit au cas dans lequel les rsidus sont htroscdastiques. On va aussi pouvoir aborder des situations plus gnrales que celle examines jusqu prsent en considrant pas exemple des systmes dquations variables instrumentales. Ce type de gnralisation est essentiel dans lconomtrie des donnes de panel. L aussi on va pouvoir discuter les conditions didentication des paramtres, dnir des estimateurs optimaux, dvelopper des procdure de tests de suridentication. La mthode des moments gnralise va aussi tre loccasion destimer et dtudier des modles se prsentant sous des formes moins standards que celle dune quation ou dun systme dquation avec rsidu. Dans certains cas, cest spontanment sous la forme de fonctions des paramtres et des variables desprance nulle quun modle merge de la thorie. Cest le cas en particulier des quations dEuler. Considrons par exemple le cas dune entreprise dcidant de son investissement. Notons F (Kt , Lt , ) la fonction de production, et M (Kt , It , ) la fonction de cot dajustement. Lquation daccumulation du capital scrit Kt = (1 ) Kt1 + It . La fonction de prot de lentreprise scrit + ! X 1 Et (p F (K , L , ) w L pI I M (Kt , It , )) (1 + r ) =0
Lentreprise cherche maximiser ce prot sous contrainte daccumulation. Le Lagrangien de lobjectif de lentreprise scrit + ! X 1 (p F (K , L , ) w L pI I M (K , I , )) + (K (1 ) K 1 It ) Et (1 + r) =0
11.2. DFINIR UN MODLE PAR LE BIAIS DE CONDITIONS DORTHOGONALIT 171 On en dduit les conditions du premier ordre : F (K , L , ) M (K , I , ) 1 Et p = 0 + +1 K K 1+r M (K , It , ) Et pI + = 0 + I F (K , L , ) Et p = 0 w L On en dduit en particulier pour la date = t la relation F (Kt , Lt , ) M (Kt , It , ) M (Kt , It , ) + pIt + 0 = Et pt Kt Kt It 1 M (Kt+1 , It+1 , ) pIt+1 + 1+r It+1 Ce qui signie que pour nimporte quelle variable zt appartenant lensemble dinformation de la date t, on a F (Kt , Lt , ) M (Kt , It , ) M (Kt , It , ) 0 = E pt + pIt + Kt Kt It M (Kt+1 , It+1 , ) 1 zt pIt+1 + 1+r It+1 On voit donc que dans ce cas le modle conduit un grand nombre (a priori inni) de relations entre les variables et les paramtres dont lesprance est gale zro. Lun des intrts de la mthode des moments gnralise est justement associ cette particularit du modle. Si le modle est juste alors on doit avoir la proprit quil existe un paramtre de dimension nie annulant les conditions dorthogonalit bien quelles soient en trs grand nombre. Dans une certaine mesure peu importe la valeur du paramtre, ce qui compte vraiment est de savoir si lensemble des restrictions que la thorie conomique impose aux donnes sont bien vries empiriquement ; cest dire que lon puisse trouver une valeur du paramtre telle que lon accepte lhypothse de nullit de la contrepartie empirique des conditions dorthogonalit lorsquelles sont values en ce point.
11.2
Dnir un modle par le biais de conditions dorthogonalit
La mthode des moments gnralise concerne la situation dans laquelle on dispose dun vecteur de fonctions g de dimension dim g dun paramtre dintrt de dimension
172 dim et de variables alatoires observables, zi dont lesprance est nulle pour = 0 la vraie valeur du paramtre : E (g (zi , )) = 0 = 0
et pour 0 seulement. De telles relations portent le nom de conditions dorthogonalit. Cest un cadre trs gnral englobant de nombreuses situations spciques :
11.2.1
Maximum de vraisemblance
et que du fait de lingalit de Jensen L (zi , ) L (zi , ) > E log log E L (zi , 0 ) L (zi , 0 ) pour 6= 0 , on a 0 > E (log L (zi , )) E (log L (zi , 0 )) E log L (zi , ) = 0 = 0
On a des observations zi et un modle dont la vraisemblance scrit LogL (zi , ) . Comme Z Z L (zi , ) L (zi , ) E = L (zi , 0 ) dzi = L (zi , ) dzi = 1 L (zi , 0 ) L (zi , 0 )
Lesprance de la vraisemblance est maximale pour = 0 :
11.2.2
Modle desprance conditionnelle, moindres carrs non linaires
Il sagit de la situation dans laquelle le modle dni lesprance dune variable alatoire yi conditionnellement des variables explicatives xi : E (yi |xi ) = f (xi , 0 ) Les moindres carrs non linaires dnissent i le paramtre comme celui minimisant la h 2 somme des carrs des rsidus : (yi f (xi , )) . On peut montrer que la vraie valeur du paramtre 0 minimise E (yi f (xi , ))2 En eet, comme E (yi f (xi , ))2 = E [yi f (xi , 0 ) + f (xi , 0 ) f (xi , )]2 = E (yi f (xi , 0 ))2 +2E [(yi f (xi , 0 )) (f (xi , 0 ) f (xi , ))] +E (f (xi , 0 ) f (xi , ))2 > E (yi f (xi , 0 ))2
11.2. DFINIR UN MODLE PAR LE BIAIS DE CONDITIONS DORTHOGONALIT 173 on en dduit que E (yi f (xi , ))2 est minimal pour = 0 . On en dduit que la vraie valeur du paramtre et la vraie valeur seulement vrie f (xi , ) E (yi f (xi , )) = 0 = 0
11.2.3
Mthode variables instrumentales pour une quation seule
o yi est la variable dpendante, xi le vecteur ligne des variables explicatives de dimension 1 dim () et zi le vecteur ligne des instruments de dimension 1 H. On a 0 0 E zi (yi xi ) = E zi xi (0 ) 0 ds lors que E zi xi est de rang dim () 0 E zi (yi xi ) = 0 = 0
Il sagit de la gnralisation du cas vu au chapitre prcdent dans lequel on fait lhypothse quil existe un systme de variables extrieures dites instrumentales, non corrls avec les rsidus : E ziV I 0 (yi xi 0 ) = 0
Il sagit dune gnralisation du cas du chapitre prcdent dans la mesure o on ne fait plus que les hypothses minimales : existence des conditions dorthogonalit et condition de rang. En particulier on ne fait plus lhypothse dhomoscdasticit. De ce fait comme on va le voir lestimateur optimal ne sera plus lestimateur des doubles moindres carrs, le test de suridentication se gnralise mais ne prend plus la mme forme, le test dexognit peut tre mis en oeuvre mais fait partie dune classe plus gnrale de tests de spcication. Le but principal de ce chapitre est tout en prsentant les lments gnraux de la mthode des variables instrumentales de prsenter lextension des rsultats prcdents cette situation plus gnrale.
11.2.4
Mthode variables instrumentales pour un systme d quations.
La situation prcdente peut tre gnralise un systme dquations. On considre ainsi le cas o les conditions dorthogonalit sont donnes par : 0 E Z i y i xi 0 =0
174 o y i est un vecteur de variables dpendantes de dimension M 1, xi une matrice de variables explicatives de dimension M dim () et Z i une matrice dinstruments de dimension M H o la ligne m contient les instruments zm de lquation m : Z i = diag (zmi ) de telle sorte que 0 0 z1 1i z1i 1i i 0 . . ... . Z i i = . . = . 0 0 Mi zMi zMi Mi On a 0 ds lors que E Z i xi est de rang dim () 0 0 E Z i y i xi = E Z i xi (0 ) 0 E Z i y i xi = 0 = 0
Ce cas simple, linaire, englobe lui-mme de trs nombreuses situations, comme celles vues jusqu prsent mco, variables instrumentales dans le cas univari mais bien dautres encore comme lconomtrie des donnes de panel, lestimation de systme de demande, ou encore lestimation de systmes ore-demande.
11.2.5
Lconomtrie des donnes de panel
Le cadre prcdent constitue un cadre gnral dans lequel il est possible de traiter lconomtrie des donnes de panel. Le modle considr est le suivant : yit = xit b + i + it Les perturbations suivent donc le modle erreurs composes. On sintresse aux direntes possibilits de corrlation entre les variables explicatives et les perturbations, cest dire la matrice = E ui V ec (xi )0
Tel quel cet ensemble est exprim comme une matrice. On peut le transformer pour lexprimer sous forme vectorielle en appliquant loprateur V ec. On voit que mis sous cette
Loprateur V ec est loprateur qui transforme une matrice en vecteur en empilant les colonnes de la matrice les unes en dessous des autres. Dune faon gnrale, les direntes possibilit de corrlation vont conduire des paramtrages dirents de la matrice . On aura des matrices ( ) direntes suivant la nature des corrlations entre les variables explicatives et les perturbations. Lensemble de conditions dorthogonalit que lon considre est E y i xi b V ec (xi )0 = ( )
11.2. DFINIR UN MODLE PAR LE BIAIS DE CONDITIONS DORTHOGONALIT 175 forme, il y a toujours le mme nombre de conditions dorthogonalit : dim g = (K + 1) T 2 et un nombre de paramtre variant dune spcication lautre. On voit bien que plus on va paramtrer la matrice de variance ( ) , moins on va conserver dinformation pour estimer le paramtre dintrt b. Des situations dans lesquelles la matrice ( ) est nulle par exemple vont exploiter toutes les covariances entre les perturbations et les variables explicatives toutes les dates pour estimer le paramtre. Cette situation est trs exigeante vis vis des donnes. En revanche, dans la situation extrme dans laquelle la matrice ( ) serait laisse totalement libre, on voit que le paramtre b ne serait plus identi. En pratique les paramtres sont des paramtres de nuisance et on na pas toujours envie de les estimer car ils peuvent tre nombreux et leur examen serait long fastidieux et pas ncessairement trs utile. Dans les cas considrs il est en gnral possible dliminer tout ou partie de ces paramtres de nuisance en appliquant des transformations aux donnes. On a ainsi en gnral des relations prenant la forme E H y i xi b V ec (xi )0 = 0
On voit que formellement, la situation considre est analogue celle dun systme dquations avec variables instrumentales. Les instruments ici sont dits internes dans la mesure o ce sont les valeurs passes prsentes ou futures des variables explicatives qui sont utilises comme instruments. On voit aussi que ce cadre est trs gnral, et quil est susceptible de dlivrer des estimateurs des paramtres dans des situations nouvelles pour lesquelles il ntait pas possible de le faire auparavant, dans le cadre standard. On dtaille maintenant les direntes situations possibles et on donne lensemble de conditions dorthogonalit correspondant. Exognit forte La premire situation que lon considre est celle dite dexognit forte et correspond au cas dans lequel il ny a pas de corrlations entre les perturbations et les variables explicatives passes prsentes et futures, soit E (i xks,i ) = 0 s = 1, . . . , T E (t,i xks,i ) = 0 s, t = 1, . . . , T
Ces hypothses sont autant de restrictions intervenant explicitement dans les estimations. Sous ces hypothses ne nombreux estimateurs standards : MCO, Between, Within, MCQG, sont tous convergents. On va voir comment ces estimateurs sinterprtent maintenant dans le cadre plus gnral considr ici. On peut remarquer quil y a ici (K + 1) T 2 conditions dorthogonalit : E (ut,i xks,i ) = 0, t, s et que ces conditions dorthogonalit peuvent de rcrire de faon quivalente comme E (u1i xks,i ) = 0, s E (uti xks,i ) = 0t > 1, s
176 Eets corrls Une deuxime situation correspond au cas o lon ne souhaite pas faire reposer les estimations sur lhypothse E (i xks,i ) = 0. On introduit donc des paramtres de nuisance ks = E (i xks,i ) . On autorise donc le fait que les lments dhtrognit individuelles soient corrls avec les variables explicatives, do le nom deets corrls. Il y a donc (K + 1) T paramtres de nuisance. On maintient par contre lhypothse E ( t,i xks,i ) = 0. On a donc comme condition dorthogonalit : E (ut,i xks,i ) = ks , t, s De faon quivalente, on peut liminer les paramtres de nuisance, liminant au passage certaines conditions dorthogonalit. Les (K + 1) T 2 conditions dorthogonalit peuvent ainsi tre rcrites aprs limination des (K + 1) T paramtres de nuisance comme E (ut,i xks,i ) = 0, t > 1, s Il y a alors (K + 1) T (T 1) conditions dorthogonalit. On remarque en outre quil sagit aussi du deuxime ensemble de conditions dorthogonalit identi dans le cas de lexognit forte. Exognit faible Lhypothse E ( t,i xks,i ) = 0 s, t = 1, . . . , T peut paratre excessive elle aussi. Ainsi dans le cas des conditions dEuler on est plutt amen utiliser comme variables instrumentales des variables passes. On peut ainsi prfrer ne retenir comme restriction identiante que E ( t,i xks,i ) = 0 t = 1, . . . , T et s < t. On autorise ainsi que les chocs passs aectent les dcisions concernant le niveau de la variable xks,i . Cest cette spcication qui porte le nom dexognit faible. Elle consiste donc introduire (K + 1) T + (K + 1) T (T + 1) /2 paramtres de nuisance : E (i xks,i ) = ks E ( t,i xks,i ) = t,ks pour s t On maintient en revanche E (t,i xks,i ) = 0 t = 1, . . . , T et s < t Finalement les conditions dorthogonalit scrivent dans ce cas sous la forme E (ut,i xks,i ) = ks + t,ks 1 (t s) , t, s L aussi on peut de faon quivalente rcrire ces conditions dorthogonalit pour liminer les paramtres de nuisance. Les (K + 1) T 2 conditions dorthogonalit peuvent ainsi tre rcrites aprs limination des paramtres de nuisance comme E (ut,i xks,i ) = 0, t > s + 1, s
11.2. DFINIR UN MODLE PAR LE BIAIS DE CONDITIONS DORTHOGONALIT 177 Exognit faible Restrictions E(i xks,i ) =0, relches E( t,i xks,i ) = 0 s t Restrictions E(i xks,i ) =0, E ( t,i xks,i ) = 0 E ( t,i xks,i ) = 0 maintenues E ( t,i xks,i ) = 0 s, t s < t s, t Conditions g gC = g C /f , gf gf F = dorthogonalit g F /C , g C /f , gf Tab. 11.1 Conditions dorthogonalit et choix dune spcication Il y a alors (K + 1) T (T 1) /2 conditions dorthogonalit. On remarque en outre quil sagit aussi dune sous partie de lensemble de conditions dorthogonalit de celui obtenu dans le cas des eets corrls. Synthse On voit que lon peut synthtiser les rsultats prcdents en introduisant trois ensembles de conditions dorthogonalit : gf = (ut,i xks,i )t>s+1 g C /f = (ut,i xks,i )ts+1 g F /C = (u1i xks,i ) Le tableau 11.1 rcapitule les trois situations examines. Les direntes spcications sont embotes les unes dans les autres. La plus gnrale est la spcication exognit faible. Dans ce cas les estimations ne reposent que sur un ensemble minimal dinformation. La spcication eets corrls introduit plus dinformation. Lensemble des conditions dorthogonalit inclus outre celles dj prsentes dans la spcication exognit faible certaines conditions supplmentaires spciques aux eets corrls. Enn dans le cas de lexognit forte, on adjoint lensemble de conditions dorthogonalit prcdent des conditions additionnelles, spciques lexognit forte. On va pouvoir dnir des estimateurs ne reposant que sur ces dirents sous-ensembles de conditions dorthogonalit. On va aussi pouvoir, comme dans le cas des variables instrumentales, tester la cohrence de chacun de ces sous-ensembles de conditions dorthogonalit. Le test eectu sera analogue au test de Sargan. Enn, on va pouvoir tester la compatibilit des dirents sous-ensembles dinformation entre eux. Ainsi on va pourvoir tester si par exemple lorsque lon a estim le modle sous lhypothse eets corrls, les conditions dorthogonalit additionnelles spciques lexognit fortes sont compatibles avec les conditions dj mobilises. Le test sapparente alors au test dexognit examin dans le cas homoscdastique univari. Exognit forte Eets Corrls E (i xks,i ) = 0
178
11.3
Principe de la mthode :
la contrepartie empirique de E (g (zi , )) aussi proche que possible de zro. b - Si dim (g ) = dim () on peut exactement annuler g zi , : le modle est juste identi (cas des mco, du maximum de vraisemblance, des moindres carrs non linaires, de la mthode des variables instrumentales lorsquil y a autant dinstruments que de variables endognes) - Si dim (g ) > dim () On ne peut pas annuler exactement la contrepartie empirique des conditions dorthogonalit. Le modle est dit suridenti. Cest le cas le plus frquent lorsque lon met en oeuvre des mthodes de type variables instrumentales. Remarque lcriture du modle signie quon peut annuler exactement lesprance E (g (zi , )) mme dans le cas de la suridentication, alors que cest en gnral impossible distance nie pour la contrepartie empirique des conditions dorthogonalit. Dans le cas de la suridentication, la mthode consiste rendre aussi proche de zro que possible la norme de la contrepartie empirique des conditions dorthogonalit dans une certaine mtrique : 0 g (zi , ) = g (zi , ) SN g (zi , )
SN
Le principe des GMM est de trouver b , rendant g zi , b
Lestimateur est alors dni par :
Remarque Dans le cas des variables instrumentales, on rglait le problme de la suridentication en considrant des combinaisons linaires des conditions dorthogonalit. Ceci conduisait aux estimateurs des moindres carrs indirects b bmci (A) , dnis par Ici on aurait pu procder de mme et dnir des estimateurs bass sur une combinaison linaire des conditions dorthogonalit. On aurait alors dni des estimateurs de la forme Ag zi , b AN = 0 Les deux approches sont en fait analogues. AziV I 0 yi xib bmci (A) = 0
b SN = Arg min g (zi , ) SN g (zi , )
11.4. CONVERGENCE ET PROPRITS ASYMPTOTIQUES
179
Exemple Cas o les conditions dorthogonalit sont linaires dans le paramtre dintrt. Cest par exemple le cas des variables instrumentales dans un systme dquations puisqualors 0 0 0 g (zi , ) = Z i y i xi = Z i y i Z i xi = g1 (zi ) g2 (zi ) On note g1 = g1 (zi ) et g2 = g2 (zi ). Lestimateur est alors dni par :
0 b S = Arg min (g1 g2 ) SN (g1 g2 )
Il existe dans ce cas une solution explicite : 1 0 0 b S = g2 SN g2 g2 SN g1
Dans le cas des variables instrumentales, on a par exemple 1 0 0 0 0 b Z i xi SN Z i y i S = xi Z i SN Z i xi

i i i i
Si on prend par exemple pour mtrique SN = zi zi On obtient lestimateur des doubles moindres carrs. 0 On en conclut que dans le cas o les conditions dorthogonalit sont E zi (yi xi 0 ) = 0, cest dire celles vues dans le chapitre prcdent sur les variables instrumentales, on retrouve comme estimateur GMM particulier lestimateur des doubles moindres carrs. Nanmoins le cadre dans lequel on se situe est plus gnral puisquon ne fait plus lhypothse dhomoscdasticit. On va voir que pour cette raison, lestimateur des doubles moindres carrs nest plus lestimateur de variance minimal.
Dans le cas dune seule quation, les estimateurs obtenus par la mthode des moments gnralise sont ainsi : 1 0 0 0 0 b S = x zi SN z xi x zi SN z yi
0
11.4
Convergence et proprits asymptotiques
Comme dans les cas examins prcdemment on va voir que les estimateurs GMM prsents sont convergents et asymptotiquement normaux. Comme prcdemment lobtention de ces rsultats ncessite des hypothses. Elles vont porter ici sur les moments des variables zi mis aussi sur la rgularit de la fonction g (zi , ) . Proposition Sous les hypothses 1. H 1 Lespace des paramtres est compact. La vraie valeur est 0 intrieure , 2. H 2 E (g (zi , )) = 0 = 0 ,
180 3. H 3 g (zi , ) est continment drivable en , 2 4. H 4 E sup |g (zi , )| + sup |g (zi , )| +sup | g (zi , )| < ,

5. H 5 gk (zi , 0 ) a des moments nis dordre 1 et 2, 7. H 7 SN S0 dnie positive.

P
6. H 6 Le Jacobien G = E ( g (zi , 0 )) de dimension dim g dim est de rang dim , Lestimateur GMM b SN minimisant QN () dni par QN () = g (zi , ) SN g (zi , ), est convergent et asymptotiquement normal. Sa matrice de variance asymptotique est fonction de S0 et de la matrice de variance des conditions dorthogonalit. Elle peut tre estime de faon convergente.
P 1. b S 0 convergence L 2. N b (S ) normalit asymptotique S 0 N 0, Vas b 3. Vas b S = [G0 S0 G]1 G0 S0 V (g (zi , 0 )) S0 G [G0 S0 G]1 o S0 = p lim SN et V (g (zi , 0 )) = h i 0 E g (zi , 0 ) g (zi , 0 )
0
Parmi ces conditions la deuxime est de loin la plus importante puisque cest elle qui dnit lidentication du paramtre. Cest sur le choix des fonctions g (zi , ) que porte le travail du modlisateur. La condition 3 est essentielle pour obtenir la loi asymptotique des paramtres. En eet il est central de pouvoir linariser autour de la vraie valeur du paramtre. La condition 4 est technique. Elle garantit quil y a convergence uniforme en probabilit de g (zi , ) vers E (g (zi , )) (et pareil pour les autres fonctions concernes g (zi , ) et g (zi , ) g (zi , )0 ). La condition 5 est lanalogue de la condition zi ui a des moments dordre 1 et 2, dans le cas des variables instrumentales. Elle est essentielle dans lapplication du thorme central limite dans la drivation de lexpression de la matrice de variance. La condition 6 sert aussi pour driver lexpression de la matrice de variance. Dans le cas linaire, elle est analogue la condition didentication 2. Dmonstration Convergence : Soit QN () = g (zi , ) SN g (zi , ) et Q () = E (g (zi , ))0 S0 E (g (zi , )) . On peut crire i h S + Q b S QN b S Q b S Q (0 ) = QN b [QN (0 ) + (Q (0 ) QN (0 ))]
0
0 g b b b b b 4. V (g (zi , 0 )) = g zi , S g zi , S V (g (zi , 0 )) et G = zi , S G i1 h i1 h b b0 SN V b (g (zi , 0 )) SN G b G b0 S0 G b b0 S0 G bas b G S = G (S ) Vas b 5. V
11.4. CONVERGENCE ET PROPRITS ASYMPTOTIQUES S QN (0 ) et Q (0 ) Q b S ,on a comme QN b 2sup |Q () QN ()|
181
0 Q b S Q (0 ) Q b S (Q (0 ) QN (0 )) S QN b
La condition E sup |g (zi , )| < + permet de montrer quil y a convergence uniforme

0 de g (zi , ) vers E (g (zi , )) ,et donc de QN () vers Q () = E (g (zi , )) S0 E (g (zi , )) . P On en dduit donc que Q b S Q (0 ) . Comme la fonction Q est continue, que est P
S 0 . compact, que Q (0 ) = 0 et Q () = 0 E (g (zi , )) = 0 = 0 on en dduit b Normalit asymptotique 0 b b b La condition du premier ordre dnissant le paramtre S est dnie par g zi , S SN g zi , S = b b 0. En appliquant le thorme de la valeur moyenne g zi , S , on a 0 = Ng zi , S Ng (zi , 0 ) S se trouve entre b S N b S 0 , o e S et 0 converge donc aussi en proba+ g zi , e 0 0 b b bilit vers 0 . En multipliant par g zi , S SN , on a g zi , S SN g zi , e S N b S 0 = 0 b g zi , S SN Ng (zi , 0 ) La condition E sup | g (zi , )| < + garantit la convergence uniforme en proba0 P bilit de g (zi , ) vers E ( g (zi , )) . On en dduit que g zi , b S SN G0 S et que ! 0 P g zi , b S SN g zi , e S G0 S0 G, matrice dim dim inversible compte tenu de rang G = dim . La condition que gk (zi , 0 ) a des moments dordre 1 et 2 permet dap Loi pliquer le thorme central limite Ng (zi , 0 ) : Ng (zi , 0 ) N (0, V (g (zi , 0 ))) . On en dduit la normalit asymptotique de lestimateur et lexpression de sa matrice de variance. Remarquons que le dveloppement prcdent conduit aussi une approximation de lcart entre lestimateur et la vraie valeur : 0 1 0 b N S 0 = G SN G G SN Ng (zi , 0 ) + o (1)
Estimation de la matrice de variance asymptotique 0 Le seul point montrer est que g zi , b S g zi , b S V (g (zi , 0 )) . La condition 0 2 E sup |g (zi , )| < , permet de montrer quil y a convergence uniforme de g (zi , ) g (zi , )
182 0 vers E g (zi , ) g (zi , )
11.5
Estimateur optimal
Comme dans les cas prcdemment abords, on montre quil existe un estimateur GMM optimal.
11.5.1
Existence dun estimateur optimal
Proposition Les estimateurs b obtenus partir de matrice de poids SN S avec
S = V (g (zi , 0 ))1
sont optimaux, au sens o dans la classe des estimateurs GMM, ils conduisent des estimateurs de variance minimale. La matrice de variance asymptotique de cet estimateur est 1 1 Vas b = [G0 S G] = G0 V (g (zi , 0 ))1 G et peut tre estime par b est comme prcdemment un estimateur convergent de G. ou G h i1 0 b b b b Vas = G SN G
Dmonstration La dmonstration se fait comme dans le cas des variables instrumentales. La variance asymptotique de lestimateur optimal scrit 1 1 = (C 0 C ) Vas b = G0 V 1 G avec C = V 1/2 G de dimension dim g dim La variance asymptotique de lestimateur gnral scrit 1 1 Vas b S = [G0 S0 G] G0 S0 V S0 G [G0 S0 G] = BB 0 avec B = [G0 S0 G]1 G0 S0 V 1/2 de dimension dim dim g. On a BC = [G0 S0 G] do
1
G0 S0 V 1/2 V 1/2 G = Idim
puisque BC = Idim . On voit donc que 1 S Vas b = B Idim g C (C 0 C ) C 0 B 0 Vas b est une matrice semi-dnie positive, do loptimalit.
0 1 1 b = BB 0 (C 0 C ) = BB 0 BC (C 0 C ) C 0 B Vas S Vas b
11.6. APPLICATION AUX VARIABLES INSTRUMENTALES
183
11.5.2
Mise en oeuvre de lestimateur optimal : deux tapes
Dans le cas gnral, la mise en oeuvre de la mthode des moments gnralise pour obtenir un estimateur optimal prsente un problme : la mtrique optimale faire intervenir le paramtre estimer et est donc inconnue.
S0 = V (g (zi , 0 ))1
Pour mettre cet estimateur en oeuvre on a recours une mthode en deux tapes : Premire tape : On utilise une mtrique quelconque ne faisant pas intervenir le paramtre. En fait on a intrt rchir et chercher une matrice qui ne soit pas trop loin de la matrice optimale. SN = Idim g est un choix possible mais certainement pas le meilleur. La mise en oeuvre des GMM avec cette mtrique permet dobtenir un estimateur convergent mais pas ecace b 1. A partir de cet estimateur on peut dterminer un estimateur de la matrice de variance des conditions dorthogonalit : 0 P b b (g ) = g zi , b V , V (g (zi , 0 )) g z 1 i 1 N P b = g zi , b 1 E ( g (zi , 0 )) G
ainsi que
Deuxime tape : On met nouveau en oeuvre lestimateur des GMM avec la mtrique b (g)1 . On obtient ainsi un estimateur convergent et asymptotiquement ecace SN =V N dont on peut estimer la matrice de variance asymptotique 1 0 b b b b Vas = G SN G
N
On peut ds lors dterminer un estimateur de la matrice de variance asymptotique de ce premier estimateur 1 1 b0 SN G bas b b b0 SN V b (g) SN G b G b0 SN G b 1 = G V G N
N
11.6
Application aux Variables Instrumentales
11.6.1
Variables instrumentales dans un systme dquations cas gnral
On considre le cas dun systme dquations avec variables instrumentales 0 0 0 g (zi , ) = Z i y i xi = Z i y i Z i xi
184 Vrication des hypothses de convergence des estimateurs GMM 0 0 0 H 2 E Z i y i E Z i xi = 0 admet une unique solution si rang E Z i xi = dim . Il sagit l dune simple gnralisation de la condition dj vue dans le cadre univari. H 3 est satisfaite du fait de la linarit. 0 2 0 < +, cest dire si les H 4 et H 5 sont satisfaites si E sup Z i y i + sup Z i xi
moments de Z i , xi et y i existent jusqu un ordfre susant. 0 0 H 6 g (zi , 0 ) = Z i xi . Si E Z i xi est de rang dim G = E ( g (zi , 0 )) = 0 E Z i xi est de rang dim Expression de la matrice de variance des conditions dorthogonalit : La variance des conditions dorthogonalit scrit : 0 0 V (g (zi , 0 )) = E Z i y i xi 0 y i xi 0 Z i 0 = E Z i ui u0i Z i
Cette expression est trs proche de celle vue dans le cadre des variables instrumentales. Nanmoins, comme on le voit elle fait en gnral intervenir le paramtre . Il est donc souvent ncessaire de mettre en oeuvre une mthode en deux tapes. Mise en oeuvre de lestimation Premire tape : Il faut choisir une mtrique pour lestimateur de premire tape. La mtrique optimale est linverse de la matrice de variance des conditions dorthogonalit. Elle a lexpression donne prcdemment. On a intrt choisir pour mtrique de premire tape une mtrique qui soit proche de la mtrique optimale. Pour cela on peut choisir pour mtrique ce quaurait t la mtrique optimale en prsence dhypothses de rgularit supplmentaires. Une hypothse de rgularit importante pourrait tre lhomoscdasticit E (ui u0i |Z i ) = E (ui u0i ) Qui pourra tre utilise si E (ui u0i ) = 2 D o D est une matrice donne. Par exemple D = IM , ce qui correspondrait lhypothse que les rsidus des quations sont indpendants et quidistribus. On utiliserait alors pour mtrique de premire tape 0 SN = Z i DZ i
185
On peut se trouver dans des situations ou spontanment la matrice de variance des rsidus aurait une allure dirente. Cest en particulier le cas parfois dans le cas de lconomtrie des donnes de panel. Quel que soit le choix eectu, lestimateur de premire tape a pour expression : 1 0 0 0 0 b S = x Z SN Z x x Z SN Z y
i i i i i i i i
La matrice de variance des conditions dorthogonalit peut tre alors tre estime par 0 0 0 b b b V (g) = Z i y i xi S y i xi S Z i = Z i u bi u b0i Z i
A partir de cette estimation, on peut aussi estimer la variance de lestimateur de premire tape : 1 0 1 0 0 b b b (g) SN x0 Z i Z 0i xi SN Z 0i xi Z i xi SN V V (S ) = xi Z i SN Z i xi i 1 0 0 1 0 b b b (g)1 Z 0i y xi Z i V S = xi Z i V (g ) Z i xi i 1 0 bas b b (g )1 Z 0i xi S = xi Z i V V
ainsi que lestimateur optimal :
et sa variance asymptotique :
11.6.2
Rgressions variables instrumentales dans un systme homoscdastique
On a vu que dans le cas de M rgressions empiles homoscdastiques, lorsque les rgresseurs taient les mmes et quil nexistait pas de restrictions sur les paramtres, la mise en oeuvre de la mthode des MCQG conduit aux mmes estimateurs que ceux obtenus par les moindres carrs ordinaires quation par quation. On peut voir que ce rsultat se gnralise au cas des variables instrumentales dans un systme dquation. Si les rgresseurs sont les mmes, si il nexiste pas de contraintes entre les paramtres des quations (xi = IM xi ) , et si les instruments sont les mmes dune quation lautre (Z i = IM zi ), dans le cas dhomoscdasticit des perturbations : E (ui u0i |Z i ) = , lestimateur GMM optimal est identique lestimateur variables instrumentales quation par quation. Sous lhypothse dhomoscdasticit, de variance des 0 la matrice 0 conditions dorthogonalit a pour expression E Z i Z i = E zi zi . (Rappel : pour des matrices aux tailles appropries (A B ) (C D) = AC BD). On a donc 0 0 0 Z i = ( 1) (IM zi ) = zi . Do Z i Z i = IM zi ( zi ) = zi zi . On a
186 donc xi Z i S Z i xi
0
0 1 0 0 IM zi xi = IM xi zi E zi zi 0 1 = 1 x0i zi E zi zi zi0 xi 0 1 0 IM x0i zi E zi zi IM zi y i 0 z y 1 i i 0 1 . = 1 x0i zi E zi zi . . zi0 yMi
et xi Z i S Z i y i =
0 0
puisque IM
b S
On voit que dans ce cas, lestimateur optimal est identique lestimateur des doubles moindres carrs eectu quation par quation. Il ny a donc pas non plus dans ce cas de mthode en deux tapes mettre en oeuvre. La matrice de variance des paramtres a pour expression 1 0 1 0 0 b V = E (xi zi ) E zi zi E (zi xi )
0 z y 1 i 1 i 0 1 0 1 . = x0i zi E zi zi zi0 xi 1 x0i zi E zi zi . . 0 zi yMi 0 b b2mc1 0 1 zi y1i . . . = IM x0i zi E zi zi . . = . 0 b zi yMi b2mcM
zi0 y1i 0 . zi y i = . . . Lestimateur optimal a donc pour expression 0 zi yMi
on voit donc que les estimateurs ne sont pas indpendants les uns des autres ds que la matrice de variance nest pas diagonale.
11.6.3
Application aux donnes de panel
Le cas des variables instrumentales dans un systme dquation correspond aussi donnes de panel. On a vu dans la premire section Les dirents types de spcication que lon pouvait retenir. On a examin le cas de lexognit forte, des eets corrls et de
187
lexognit faible. Dans ce dernier cas, on a vu que le modle tait mis en dirence premire et que lon utilisait les variables explicatives retardes partir de lordre 2 comme instrument. On a ainsi la spcication matricielle suivante : x1i 0 0 0 x1i 0 x x 2i 1i u 3i u4i 0 x 2 i u5i x3i Z 0i ui = . . . . 0 . . . x1i u . Ti . . . . xT 2i 0 0 0 De mme pour les eets corrls, on a xi 0 0 Z i ui = . . . 0 et enn pour lexognit forte on a 0 0 xi 0 0 xi 0
. . . 0 0
0 xi
u2i u4i u5i . . . uT i
Pour mettre en oeuvre lestimateur optimal on applique la mthode expose prcdemment. On peut remarquer que dans le cas de lexognit faible et des eets corrls, la structure des conditions dorthogonalit est telle quelle ne fait intervenir que la dirence premire des rsidus. Ceci est lorigine dune possibilit dun choix judicieux de la
xi 0 0 0 xi 0 0 xi 0 u 1i Z 0i = ui . . . . . . 0 0 0
0 xi
u1i u2i u4i u5i . . . uT i
188 matrice de variance de premire tape. En eet, sous lhypothse dhomoscdasticit des rsidus On aurait E (Z 0i ui u0i Z i ) = E (Z 0i E (ui u0i ) Z i ) Or E (ui u0i ) = 2 D, o D= 1 0 ... ... 1 ... ... 1 0 1 2 2
ne dpend pas des paramtres. On va que dans ce cas on peut choisir comme matrice de premire tape une matrice approximant lhypothse dhomoscdasticit prs la matrice de variance des conditions dorthogonalit. La matrice S1 a ainsi pour expression S1 = Z i DZ i
0
11.6.4
Estimateur VI optimal dans le cas univari et htroscdastique
On considre la situation dun modle linaire univari yi = xi + ui avec un ensemble dinstruments zi . Les conditions dorthogonalit sont donc 0 E zi (yi xi ) = 0
Les rsultats du chapitre prcdent montre que dans le cas univari homoscdastique, i.e. 2 E (u2 i |zi ) = E (ui ) , lestimateur GMM optimal concide avec lestimateur des 2mc. On examine la situation dans laquelle il ny a plus homoscdasticit. La matrice de variance des conditions dorthogonalit est donne par 0 0 V (g) = E (yi xi 0 )2 zi zi = E u2 i zi zi et lestimateur optimal a pour expression 1 0 0 0 0 b xi zi V (g)1 zi yi S = xi zi V (g)1 zi xi
on voit quil est dirent de lestimateur des 2mc dont lexpression est 1 1 0 1 0 0 0 0 0 b xi zi zi zi zi yi 2mc = xi zi zi zi zi xi
11.7. TEST DE SPCIFICATION
189
L aussi il faut mettre en oeuvre la mthode en deux tapes. Un bon choix dans ce cas est lestimateur des 2mc, qui est certainement proche de lestimateur optimal. On peut alors calculer un estimateur de la matrice de variance des conditions dorthogonalit :
0 b (g ) = u V b2 2mci zi zi
puis dterminer lestimateur optimal, 1 1 0 1 0 0 0 0 0 b S = xi zi u b2 z z z x xi zi u b2 2mci i i 2mci zi zi zi yi i i ainsi que les matrice de variance de chacun des estimateurs : 1 1 1 0 1 1 1 0 0 0 0 0 0 0 0 0 0 2mc = xi zi zi zi zi xi xi zi zi zi u b2 z z z z x z x z z z z x Vas b i i i i i i i i i i i i i
pour lestimateur des doubles moindres carrs, et 1 1 0 0 2 0 b Vas = xi zi u bi zi zi zi xi pour lestimateur optimal.
11.7
11.7.1
Test de spcication
Test de suridentication
Comme pour les variables instrumentales, dans le cas o il y a plus de conditions dorthogonalit que de paramtres estimer, le modle impose des restrictions aux donnes. Elles doivent vrier la proprit : | E (g (zi , )) = 0
Tous les estimateurs obtenus avec direntes mtriques doivent converger vers une mme valeur. Le principe est ici analogue celui des variables instrumentales. La suridentication exprime la mme ide qu la limite lestimateur ne dpend pas de limportance que lon accorde telle condition dorthogonalit, tout comme le test de spcication avec les variables instrumentales exprimait qu la limite lestimateur ne dpend pas de telle variable instrumentale. Il ne sagit en fait que dune gnralisation valable pour des cas dans lesquels les conditions dorthogonalit prennent une forme dirente de celle du produit dun rsidu et dun instrument. Le principe du test reste le mme que celui que lon appliquerait pour tester la nullit de lesprance dune variable alatoire : regarder si la moyenne empirique est proche de zro g (zi , 0 ) est proche de 0, mais on ne connat pas 0 . Plus prcisment : on regarde
190 bi = g zi , b est proche de 0, cest dire si la contrepartie empirique des conditions si g dorthogonalit value avec lestimateur optimal est proche de zro. Le rsultat gnral sapplique 2 bi Vas g bi g bi rang V g bi Ng
0
Pour eectuer le test il faut donc dterminer le rang de Vas g bi ainsi quun inverse gnralis et un estimateur convergent de cet inverse. Pour ce qui est du rang, on retrouve la mme ide que pour les variables instrumentales : on teste la suridentication, cest dire la compatibilit du surcrot dinformation introduit dans le modle par rapport au minimum requis pour estimer le paramtre. Le rang va donc tre la dirence entre le nombre de conditions dorthogonalit et la dimension du paramtre estimer. Proposition Sous H0 : |
0
E (g (zi , )) = 0, on a
L
0 1 1 b b b b o g bi = g zi , et SN = V (g (zi , 0 )) = g zi , g zi , . On remarque que la statistique utilise pour le test est N fois la valeur de lobjectif loptimum. Dmonstration Comme Ng bi ' Ngi0 + G N b 0
bi SN g bi 2 (dim (g) dim ()) NQ N ( ) = N g
et
on a
0 1 0 2 avec PG = G G S G G S . PG = PG . PG est donc un projecteur dont le rang est celui 0 de G, i.e. dim par hypothse. Comme en outre PG S 1 PG = PG S 1 , et Vas (gi0 ) = S 1 , on a 0 Vas g bi = (Idim g PG ) S 1 (I PG ) = (Idim g PG ) S 1 On en dduit immdiatement le rang de Vas g bi : rang V g bi = dim g dim
0 1 0 Ng bi ' Idim g G G S G G S Ngi0 = (Idim g PG ) Ngi0
0 1 0 N b 0 ' G SN G G S Ngi0
11.7. TEST DE SPCIFICATION et un inverse gnralis : Vas g bi S Vas g bi = (Idim g PG ) S 1 S (Idim g PG ) S 1 do
191
= (Idim g PG )2 S 1 = (Idim g PG ) S 1 = Vas g bi S = Vas g bi
Estimation convergente de linverse gnralise : Comme la matrice g (zi , ) g (zi , )0 est une fonction continue de convergent uniformment vers E g (zi , ) g (zi , )0 , SN = 0 g zi , b g zi , b converge vers S
11.7.2
Tester la compatibilit de conditions dorthogonalit additionnelles
On peut tre amener vouloir adjoindre un ensemble de conditions dorthogonalit des conditions additionnelles. Cette adjonction peut en eet conduire des estimations plus prcises. Lexemple le plus manifeste est celui dans lequel on adjoint une liste de variables instrumentales supposes vrier les conditions dorthogonalit, des conditions dorthogonalit formes en utilisant les variables explicatives comme instrument. Dans le cas homoscdastique on avait dj envisag ce type de test que lon avait appel test dexognit. Cette notion peut en fait se gnraliser. Proposition On sintresse au test de lhypothse nulle H0 : 0 tq E (g1 (zi , 0 )) = 0 et E (g2 (zi , 0 )) = 0 soit 0 tq E (g (zi , 0 )) = 0
0 0 , g2 ) contre lhypothse alternative o g0 = (g1
H1 : 0 tq E (g1 (zi , 0 )) = 0 Sous H0 la statistique 0 0 b = N g zi , b b (g (zi , 0 ))1 g zi , b b (g1 (zi , 0 ))1 g1 zi , b S V Ng1 zi , b 1 V 1 0 1 b = QN QN b 1 2 (dim g dim g1 )
192 0 1 0 b b b b b o est lestimateur GMM optimal sous H0 et QN = Ng zi , V (g (zi , 0 )) g zi , la valeur atteinte par lobjectif loptimum sous H0 , et b 1 lestimateur GMM optimal sous 0 1 b b b b H1 et Q1 = Ng la valeur atteinte par lobjectif z , ( z , )) g z , V ( g i 1 1 i 0 i 1 1 N loptimum sous H1 . n o b b > q1 (2 (dim g dim g1 )) est un test Le test dni par la rgion critique S S convergent au niveau . Ce type de test est proche des tests du rapport des maxima de vraisemblance. On pourrait en donner des quivalents correspondants au test de Hausman ou au test du multiplicateur de Lagrange.
11.7.3
Application test de suridentication et dexognit pour un estimateur variables instrumentales dans le cas univari et htroscdastique
Test de suridentication Le test est eectu sur la contrepartie empirique des conditions dorthogonalit va lues en = b , lestimateur optimal. On calcule donc : et sa norme 0 0 zi yi xib bi = zi u zi u bi u bi 2 zi zi zi u bi
0 0 0 0
1 est le rsidu de lquation estim partir dune premire tape o u bi = yi xib 0 E zi (yi xi ) = 0, la statistique Corollaire Sous lhypothse nulle, H0 : | b est trop grand, i.e. pour un test au niveau S b > On rejettera lhypothse nulle si S 2 Q (1 , (dim z dim x)) . On voit que lexpression de la statistique est trs proche de celle vue prcdemment dans le cas homoscdastique mais nanmoins dirente car : elle nest pas base sur le mme estimateur, . elle na pas exactement la mme expression,
0 0 0 b = Nz 0 u bi 2 zi zi zi u bi 2 (dim z dim x) S i u ib 0
faisant intervenir u bi 2 zi zi et non zi zi u bi 2 , ce qui est une consquence directe de labandon de lhypothse dhomoscdasticit et enn quelle ne peut plus tre mise en oeuvre de faon aussi directe et simple que prcdemment par le biais de la rgression des rsidus estims sur les variables instrumentales.
0
11.7. TEST DE SPCIFICATION Test dexognit des variables explicatives. Lhypothse nulle scrit H0 : b0 tq E (zi0 (yi xi b0 )) = 0 et E (x01i (yi xi b0 )) = 0 et lhypothse alternative H1 : b0 tq E (zi0 (yi xi b0 )) = 0
193
o x1i reprsente les variables endognes. On lui associe b b 0 lestimateur GMM bas sur b0 atteinte par loblensemble les conditions dorthogonalit de H0 ainsi que la valeur S jectif loptimum. Dans la mesure o on ne fait plus lhypothse dhomoscdasticit, cet estimateur nest pas ncessairement lestimateur des mco : les conditions dorthogonalit portant sur les variables instrumentales extrieures peuvent apporter une information ne se trouvant pas dans les conditions dorthogonalit fondes sur les seules variables explicatives. On considre aussi b b 1 lestimateur GMM bas sur les conditions dorthogonalit b sous H 1 ainsi que la valeur S1 atteinte par lobjectif loptimum. Le rsultat stipule que la statistique b1 2 (K1 ) b0 S S o K1 est le nombre de variables explicatives endognes.
11.7.4
Application aux donnes de panel
On peut appliquer ces rsultats lconomtrie des donnes de panel. On a vu en eet que les spcications que lon tait susceptible de retenir taient embotes. Il est ainsi possible destimer le modle avec lensemble dinformation minimal, cest dire avec la spcication exognit faible. On obtient alors des estimateurs robustes de nombreuses sources de corrlations entre variables explicatives et perturbations. En revanche, les estimateurs nincluant que peu de restrictions ont de grandes chances dtre imprcis. On peut donc chercher amliorer leur prcision en faisant des hypothses restrictives supplmentaires comme lhypothse deets corrls. On peu tester les hypothses restrictives supplmentaires par la mthode que lon vient de dtailler. Ici elle prendra la forme suivante : 1. Estimation du modle sous la spci 2exognit faible : On retient la valeur cation 0 de lobjectif loptimum : Vf = Z f i uf i , o Sf est la mtrique optimale pour
Sf
cette spcication.
2. Sous lhypothse nulle que la spcication est adapte, la statistique Vf suit un 2 dont le nombre de degrs de libert d est la dirence entre le nombre de conditions dorthogonalit et le nombre de paramtres estimer. On peut donc calculer la
194 p-value associe la statistique de test (1 F 1 (Vf , d)) et on accepte lhypothse nulle si la p-value excde la valeur seuil retenue. Si on rejette lhypothse nulle, il faut rchir une spcication alternative. Si en revanche lhypothse nulle est accepte, on peut tester si des contraintes additionnelles sont compatibles avec celles dores et dj retenues. 3. Estimation du modle sous la spcication 2 deets corrls : On retient la valeur de 0 C lobjectif loptimum : VC = Z Ci ui S ,
C
4. On forme la dirence VC Vf qui suit sous lhypothse nulle de compatibilit des conditions dorthogonalit additionnelles un 2 dont le nombre de degrs de libert est la dirence entre les nombre de conditions dorthogonalit dans les deux spcications. On calcule la p-value de cette statistique et on accepte lhypothse nulle si la p-value excde le seuil retenu.
5. Si on rejette lhypothse on conserve lestimateur avec exognit faible, sinon on peut estimer le modle avec lhypothse dexognit forte. On retient la valeur de 0 F 2 lobjectif loptimum : VF = Z F i ui S ,
F
6. On procde comme au 3 et 4 en comparant les valeurs atteintes loptimum. On peut remarquer quil est possible de tester lhypothse de compatibilit avec soit les conditions de lexognit faible soit celles des eets corrls. Si ceci naecte pas la puissance du test, il nen est pas de mme avec le risque de premire espce.
11.8
11.8.1
Illustrations
Rduction du temps de travail et gains de productivit
On reprend lillustration du chapitre prcdent et on montre comment les rsultats sont modis. Par la mise en oeuvre de la mthode des moments gnralise. On rappelle que lquation que lon estime scrit : P GFi = Xi b + RT Ti + vi o vi reprsente le choc de productivit rsiduel, cest dire une fois pris en compte les facteurs Xi . Les variables instrumentales retenues sont : Aidei , Infi , Endti et P fi . Lintrt de la mise en oeuvre de la mthode des moments gnralis est de pouvoir traiter le cas dune possible (et vraisemblable) htroscdasticit du rsidu. On ne prsente pas la condition de rang qui est la mme que dans le cas prcdent (tableau 10.2 du chapitre prcdent). On ne prsente pas de tableau de rsultat mais seulement certains dentre eux. Lestimateur variable instrumentale usuel sert destimateur de premire tape. Il est identique celui du chapitre prcdent : le coecient de la variable de RTT est -0.107 et son cart-type est de 0.032, calcul avec la mthode
11.8. ILLUSTRATIONS
195
standard. On peut aussi calculer cet ecart-type sans faire lhypothse dhomoscdasticit comme on la expliqu plus haut. On voit quil ny a pas de dirence dans le calcul de cet cart-type : On trouve nouveau 0.032. Le biais li la prsence dhtroscdasticit dans lestimation des carts-type de lestimateur variables instrumentales est trs faible dans le cas prsent. On peut aussi calculer lestimateur GMM optimal et son cart-type. L aussi on ne trouve pas de dirence les coecients estims sont les mme et lcart-type galement. La seule dirence notable entre les deux estimations rside en fait dans la statistique de Sargan : elle est plus faible lorsque lon prend en compte lhtroscdasticit. La statistique avec lestimateur standard (bas sur la rgression du rsidus sur toutes les variables exognes) donne une statistique de 7.57 soit une p-value de 5.6% pour un 2 (3) . Avec lestimateur optimal elle est de 6.58 soit une p-value de 8.7% : on accepte beaucoup plus facilement lhypothse de compatibilit des instruments. On peut aussi mettre en oeuvre le test dexognit. Avec la mthode du chapitre prcdent, sous hypothse dhomoscdasticit, on procdait une rgression augmente. Ici on fait une rgression par VI par la mthode des GMM en incluant la variable de RTT dans la liste des instruments. On sintresse dabord au test de compatibilit des instruments Cette hypothse est trs fortement rejete la statistique est de 11.53 pour 4 degrs de libert soit une p-value trs faible de 2%. La statistique du test dexognit est la dirence entre les deux statistiques de suridentication de la rgression GMM avec et sans la variable de RTT. On trouve une statistique de 11.53-6.58=4.95 la aussi fortement rejet pour un degrs de libert de 1 (4-1).
11.8.2
Salaires et heures
On peut aussi aborder la question de la relation entre productivit et heures en examinant un quation de salaire sur des donnes de salari. En eet, sous lhypothse que la rmunration est gale la productivit marginale le salaire peut tre utilis comme une mesure de la productivit marginale. On peut donc considrer lquation wi = hi + xi b + ui (11.1)
o wi reprsente le logarithme du salaire et hi le logarithme des heures. Les variable xi sont celles qui aectent le niveau de productivit et donc les variables de capital humain : niveau dducation et exprience. Nanmoins dans cette rgression la variable dheure est, elle aussi, endogne. Le salaire et le nombre dheure retent galement un choix du salari qui arbitre entre rmunration et loisir. Parmi toutes les ores demploi qua reu lindividu, celle que lon observe est celle qui est prfre (on naborde pas ici la question pourtant centrale du choix entre emploi et non emploi qui sera traite dans le chapitre suivant). Pour la rmunration propose les agents sont prts travailler un certain nombre dheures qui leur est propre. Dans les prfrences des salaris interviennent les caractristiques familiales : nombre denfants, revenus alternatifs (conjoint, autres membres du mnage),
196
parametres 3.8236 0.0541 0.0197 -0.0004 1.1422 std robuste std sandards (0.1138) (0.0803) (0.0030) (0.0026) (0.0012) (0.0011) (0.0001) (0.0000) (0.0315) (0.0210)
Constante scolarit exprience (exprience-10) heures (log)
Tab. 11.2 Rgression par les MCO clibataire... Ces variables sont susceptibles de jouer le rle de variables instrumentales dans la rgression 11.1. On considre un chantillon de femmes employes dans le commerce. On se restreint la population fminine car cest sur elle que les variables instrumentales retenues ont le plus de chance de jouer fortement. Lchantillon retenu provient de lEnqute Emploi faite par lINSEE et comprend 3192 individus. Le tableau 11.2 prsente les rsultats de la rgression par les moindres carrs ordinaires. La premire colonne prsente le paramtre, la seconde lcart-type robuste et la dernire lcart-type obtenu avec la formule standard. Lintrt principal de ce tableau est de fournir la valeur du coecient des heures, qui slve ici 1.14. Ceci signie quune augmentation des heures de 1% conduit une hausse du salaire (et donc de la productivit de 1,14%). Le coecient est signicativement dirent de 1, ce qui implique quil y a de lgers gains de productivit horaire lorsque les heures augmentent. . Le tableau 11.3 prsente la rgression de la variable explicative endogne, le logarithme des heures, sur les variables explicatives exognes : le nombre danne dtude, lexprience et lexprience au carr et les variables instrumentales : le nombre denfant, lexistence de revenus alternatifs dans le foyer (salaire du conjoint, allocations chmage), le logarithme de ce revenu le cas chant (zro sinon), le nombre de revenus salaris dans le mnage et une indicatrice indiquant si lindividu vit seule ou non. Le tableau donne le coecient estim, son cart-type et son cart-type robuste. On examine lapport des direntes variables instrumentales lexplication de la variable endogne. On observe comme on sy attend que plus le nombre denfants est lev, plus lincitation travailler est faible. On observe aussi que le fait dtre clibataire conduit des heures plus leves. Leet du salaire annexe sur les heures est en revanche non signicatif, bien que positif.
Le tableau 11.4 prsente les rsultats de lestimation du modle par les variables instrumentale, en ignorant lhtroscdasticit dans la dtermination de lestimateur. Lexpres1 1 1 sion de lestimateur est donc b bIV = x0 zi z 0 zi z 0 xi x0 zi z 0 zi z 0 yi . La deuxime colonne
i i i i i i
prsente lcart-type robuste et la dernire lcart-type obtenu avec la formule valable
11.8. ILLUSTRATIONS
parametres 3.3186 0.0102 0.0045 -0.0002 -0.0568 0.0609 0.0026 std robuste std sandards (0.0380) (0.0360) (0.0022) (0.0021) (0.0010) (0.0010) (0.0000) (0.0000) (0.0070) (0.0061) (0.0167) (0.0164) (0.0015) (0.0015)
197
Constante scolarit exprience (exprience-10) nombre d'enfants vit seule revenu alternatif
Tab. 11.3 Rgression de la variable dheure sur les exognes et les instruments
Constante scolarit exprience (exprience-10) heures (log) parametres 2.5613 0.0494 0.0193 -0.0004 1.5252 std robuste std sandards (0.4393) (0.3891) (0.0034) (0.0031) (0.0013) (0.0011) (0.0001) (0.0001) (0.1312) (0.1173)
Tab. 11.4 Rgression par les variables instrumentales pour lhomoscdasticit du rsidu. Les matricesde variance correspondantes 1 scrivent 1 1 1 1 2 0 bhetero b bhom o b et V zi zi0 xi x0i zi zi0 zi V bIV = b x0i zi zi0 zi zi0 xi bIV = x0i zi zi 1 0 0 1 0 0 0 1 0 u b2 z z z z z x x z z z z x . On observe que la variable dheure est sensiblement i i i i i i i i i i i i i plus lev que dans la rgression par les mco. Alors que la rgression par les mco donne un coecient de 1.14, le chire obtenu ici est nettement plus lev puisquil slve 1.52. Cela signie que lorsque lallongement du temps de travail saccompagne de gains de productivit horaire important : une augmentation de 1% des heures conduit une augmentation des rmunrations de 1.5%. On peut noter que ce coecient nest pas loign de celui trouv dans lapproche par les fonctions de production lorsque lon nutilisait pas la variable Robien, comme instrument. On remarque aussi que le coecient est l aussi statistiquement dirent de 1 mais que lcart-type estim est quatre fois plus important que celui des moindres carrs ordinaires. On remarque quil existe des dirences lies la prise en compte de lhtroscdasticit mais quelles ne sont pas phnomnales.
0 u b2 i zi zi
, o u bi est le rsidu estim obtenu partir dune premire tape utilisant une matrice de pondration quelconque. Le choix naturel qui est celui qui a t eectu ici consiste se baser sur lestimateur par variable instrumentale. On voit que les changements sont modestes par rapport au tableau prcdent. Cest une bonne nouvelle priori. Si entre
Le tableau 11.5 prsente les par la mthode des moments gnralise. 1 rsultats obtenus 1 0 b = b z 0 xi b z 0 yi , avec = E (u2 Lestimateur est donc b bIV = x0 zi x0 zi et i zi zi )
i i i i 1
198
parametres 2.6139 0.0498 0.0195 -0.0004 1.5081 std robuste (0.4373) (0.0034) (0.0013) (0.0001) (0.1305)
Constante scolarit exprience (exprience-10) heures (log)
Tab. 11.5 Rgression par la mthode des moments gnralise la premire et la deuxime tape, il y avait des changements importants, cela signierait que vraisemblablement les conditions dorthogonalit ne sont pas compatibles entre elles. Ici le fait que les rsultats soient trs proches signie aussi peut tre que lhtroscdasticit nest pas un phnomne de premier ordre. Le coecient auquel on parvient est de 1.51 et on observe quil nest pas beaucoup plus prcis que lestimateur prcdent. Dans le cas prsent, les gains lis lutilisation de lestimateur GMM sont assez faibles. Enn, on peut examiner la question de la spcication, en procdant aux tests de suridentication et dexognit. Les tests ont la mme interprtation que dans le cas variables instrumentales, mais la mise en oeuvre est dirente. Les tests dans le cas homoscdastiques, sont eectus partir de rgressions auxiliaires : rgression du rsidu estim sur les instruments et test de la nullit globale des coecients pour le test de suridentication et rgression tendue dans laquelle on introduit en plus des variables explicatives la prvision des variables endognes par les instruments et les variables exognes. Dans le cas GMM, on na pas ce genre de simplication et les tests sont bass sur lobjectif atteint par 0 0 b b . Les tests de suridentication compare la valeur lestimateur optimal : S = zi0 u b i zi u i obtenue de S la valeur seuil pour un test de niveau donn. Le test dexognit compare quant lui la valeur S la valeur Se , obtenue avec pour ensemble dinstruments z, xend . La statistique de test Se S suit un 2 dont le nombre de degrs de libert est le nombre de variables endognes. On voit dans le tableau 11.6 que lhypothse de suridentication est accepte mais pas celle dexognit. Il y a en outre l aussi peu de dirence entre la mthode variables instrumentales et la mthode des moments gnralise. Les statistiques de suridentication sont trs proches et les statistiques pour le test dexognit, bien que non directement comparables, conduisent aux mmes conclusions. Enn le tableau 11.7 prsente les rsultats pour dirents secteurs. Les deux premires colonnes donnent la valeur du paramtre et son cart-type en utilisant pour instruments le fait dtre clibataire, le nombre denfants et le revenu alternatif. Les deux colonnes suivantes prsentent le test de Sargan et sa p-value. On prsente le test dexognit. Ceci nest pas eectu pour les Industries Agricoles, le Transport et la Finance puisque dans ces secteurs, le test de validit de suridentication conduit au rejet de lhypothse de
11.9. RSUM
Test Suridentification Exognit Suridentification Exognit Statistique 2.522 8.650 2.805 1.128 (0.021) degrs GMM 2.000 1.000 VI 2.000 pvalue 0.283 0.003 0.246
199
Tab. 11.6 Tests de spcication

Industries Agricoles Biens de consommation Automobiles et Equipements Biens Intermdiaires Commerce Transport Finance Services Entreprises Services Particuliers Education Sant Administration Par 0.51 1.68 0.79 1.04 1.51 1.92 1.20 1.23 2.69 1.18 1.30 std S (0.67) 8.33 (0.71) 2.85 (0.38) 4.13 (0.26) 0.77 (0.13) 2.52 (0.52) 2.42 (0.24) 6.02 (0.16) 10.09 (0.48) 0.14 (0.11) 4.76 (0.15) 3.13 p 0.02 0.24 0.13 0.68 0.28 0.30 0.05 0.01 0.93 0.09 0.21 S(e) 0.91 2.01 0.08 8.65 2.76 p(e) 0.34 0.16 0.77 0.00 0.10 Par 1.13 1.22 0.98 1.19 std (0.09) (0.07) (0.05) (0.08) S 3.76 6.15 0.85 5.18 p 0.29 0.10 0.84 0.16
82.10 18.02 4.87
0.00 0.00 0.03
Tab. 11.7 Rsultats Sectoriels compatibilit des instruments. On ne peut donc pas tester la compatibilit de restrictions identiantes supplmentaires. Les colonnes 7 et 8 prsentent la valeur du paramtre estim en utilisant comme instruments les trois variables retenues et la variable dheure. Enn les deux dernires colonnes prsentent le test de suridentication lorsque lon utilise tous ces instruments. On vrie que la valeur de la statistique est la somme des statistiques obtenus dans les colonnes (3) et (5). Ce que montre ce tableau est que les instruments ne sont pas toujours considrs comme compatibles. Lorsquils le sont les valeurs sont assez direntes dun secteur lautre, quoique toujours suprieure 1. On voit aussi que les estimations sont peu prcises et que lorsque lhypothse dexognit est accepte, on obtient des gains decacit non ngligeables.
11.9
Rsum
Dans ce chapitre on a prsent une mthode destimation trs gnrale, englobant la totalit des mthodes vues jusqu prsent. Elle permet aussi de considrer facilement des gnralisations utiles des situations envisages jusqu prsent. En particulier elle permet
200 de gnraliser la mthode des variables instrumentales aux cas htroscdastiques et au cas de systmes dquations. 1. Cette mthode est base sur lexploitation de conditions dorthogonalit, qui sont des fonctions des variables et des paramtres du modle dont lesprance est nulle. 2. Le principe de la mthode des moments gnralise consiste choisir le paramtre de telle sorte que la contrepartie empirique des conditions dorthogonalit soit le plus proche possible de zro. 3. Lorsquil y a juste identication, cest dire lorsque le nombre de paramtre estimer est le mme que le nombre de conditions dorthogonalit, on peut exactement annuler (en gnral) les contreparties empiriques des conditions dorthogonalit. 4. Lorsquil y a plus de conditions dorthogonalit que de paramtres estimer, on est dans la situation dite de suridentication. On ne peut en gnral pas annuler directement la contrepartie empirique des conditions dorthogonalit. On minimise alors la norme de ces contreparties. 5. Les estimateurs auxquels on parvient sont sous certaines hypothses de rgularit convergents et asymptotiquement normaux. La convergence ne dpend pas de la mtrique choisie pour estimer mais la matrice de variance de lestimateur si. 6. Parmi tous les estimateurs envisageable, il en existe un plus prcis que tous les autres : cest lestimateur GMM optimal. Il est obtenu en utilisant pour mtrique linverse de la matrice de variance des conditions dorthogonalit. 7. La mthode des moments gnralise permet comme la mthode des variables instrumentale de procder des tests de spcication. Il est ainsi possible de tester la compatibilit des conditions dorthogonalit entre elles ( linstar des tests de compatibilit des variables instrumentales). Ce test est un test de compatibilit et pas un test de validit. 8. La mthode permet aussi de tester la compatibilit dun ensemble de conditions dorthogonalit additionnel avec un ensemble de conditions dorthogonalit initial dont la validit constitue lhypothse alternative.
Chapitre 12 Variables dpendantes limites

On a examin jusqu prsent le cas de modles linaires pour lesquels la variable dpendante yi avait pour support <. On examine dans ce chapitre trois types de modles aux applications trs nombreuses et qui sont des extensions directes du modle linaire : Les modles dichotomiques, les modles Tobit et le modle Logit Multinomial Modle dichotomique : yi {0, 1} . Par exemple : participation au march du travail, un programme de formation, faillite dune entreprise, dfaut de paiement, signature dun accord de passage aux 35 heures etc.... Les informations dont on dispose dans les enqutes sont souvent de cette nature : avez vous au cours de la priode du tant au tant eectu telle ou telle action. On va prsenter dix modles trs couramment utiliss pour modliser ce type de situation : les modles Logit et les modles Probit et on va insister sur la relation entre la modlisation statistique des variables prenant leurs valeurs dans {0, 1} et la modlisation conomique. Ceci va nous conduire introduire la notion importante de variable latente : une variable dont le support peut tre R mais qui nest quen partie observe. On est ainsi conduit modliser cette variable, ce qui correspond une modlisation conomique (dans le cas de la faillite dune entreprise il peut sagir de la valeur des prots futurs de lentreprise), et modliser aussi la faon dont une censure sopre dans les observations, ce qui peut rsulter l aussi dun comportement conomique (dans le cas de la faillite il peut sagir du fait que la valeur de lentreprise passe sous un certain seuil) mais aussi dune caractristique statistique des donnes. Le modle logit Multinomial Modle de choix discret comme par exemple le choix du lieu de vacances (pas de vacances, montagne, mer, campagne) ou le choix du moyen de transport domicile-travail (bus, auto, metro, pied). Ces situations conduisent des variables prenant un nombre ni de modalits yi {0, 1, 2, . . . , M } . Le modle que lon va introduire est trs utilis dans de nombreux domaines appliqus. Il insiste lui aussi sur la modlisation conomique. Lide gnrale est qu chaque modalit est associe une valeur dpendant des prfrences intrinsques dun individu mais aussi de caractristiques conomiques telles que les prix ou le revenu. Le choix slectionn 201
202
CHAPITRE 12. VARIABLES DPENDANTES LIMITES
par un individu est celui correspondant la valorisation maximale. Ce type de modlisation, du lorigine Mac Fadden, est trs utilis dans la modlisation des systmes de demande pour des biens direncis et intervient souvent en conomie industrielle empirique. Le Modle Tobit est un modle central dans lanalyse conomique. Il correspond la prise en compte de slectivit dans les observations : le fait que lon observe un phnomne nest pas indpendant de ce phnomne. Pour lanalyser il faut donc modliser le phnomne et les conditions qui conduisent son observation. Par exemple le salaire nest observ que conditionnellement au fait que lindividu ait un emploi. On a alors deux variables modliser : la variable de censure Ii {0, 1} indiquant si le salaire est observ ou non et la variable de salaire wi lorsquil est observ. Cette modlisation fait comme le modle Probit appelle des variables latentes. Il existe dirents types de modles Tobit qui correspondent autant de situations conomiques. Le classement de ces situations en dirents types de modles Tobit est du Amemiya. Il y a ainsi des modles Tobit de type I, de type II, de type III, IV et V. On va voir dans ce chapitre les modles de type I III.
12.1
Modle dichotomique
On souhaite expliquer une variable endogne yi prenant les valeurs 1 ou 0 en fonction de variables explicatives "exognes" xi , Dune faon gnrale on spcie la probabilit dobserver yi = 1 conditionnellement aux variables explicatives xi . e (xi ) P (yi = 1 |xi ) = G
qui dnit compltement la loi conditionnelle de yi sachant xi . Cette probabilit est aussi lesprance conditionnelle de la variable yi : E (yi |xi ) = X yi 1(yi =1) P (yi = 1 |xi ) + 1(yi =0) (1 P (yi = 1 |xi ))
On spcie en gnral cette fonction comme dpendant dun indice linaire en xi : e (xi ) = G (xi b) G
e (xi ) = P (yi = 1 |xi ) = G
yi {0,1}
Les direntes solutions que lon peut apporter la modlisation de la variable dichotomique yi correspondent dirents choix pour la fonction G.
12.1. MODLE DICHOTOMIQUE
203
12.1.1
Modle probabilits linaires
Cest la situation dans laquelle on spcie simplement E (yi |xi ) = P (yi = 1 |xi ) = xi b Le modle peut alors tre estim par les MCO. En dpit de sa simplicit attractive, ce choix de modlisation prsente nanmoins linconvnient majeur que le modle ne peut contraindre P (yi = 1 |xi ) = xi b appartenir lintervalle [0, 1]. Il y a donc une incohrence dans cette modlisation. 2 Un autre problme vient de lestimation. Compte tenu du fait que yi = yi , toute estimation de modle de choix discret par les moindres carrs, linaire dans le cas prsent ou non linaire dans le cas gnral, cest dire base sur la spcication E (yi |xi ) = G (xi b) , doit prendre en compte le fait que le modle de rgression correspondant yi = G (xi b) + ui est htroscdastique. En eet on a : 2 V (yi |xi ) = E yi |xi E (yi |xi )2 = E (yi |xi ) E (yi |xi )2 = E (yi |xi ) [1 E (yi |xi )] = G (xi b) [1 G (xi b)] Lestimateur des mco dans le cas linaire a donc pour variance 0 1 0 0 1 b Vas bmco = E xi xi E u2 i xi xi E xi xi 1 1 0 0 0 b b b2 Vas bmco = xi xi u i xi xi xi xi
que lon estime par la mthode de White
On pourrait tre tent destimer plus directement cette matrice compte tenu de la forme de lhtroscdasticit, ou mme mettre en oeuvre lestimateur des MCQG puisque lon connat lexpression de la matrice de variance des rsidus conditionnellement xi : 2 E (u2 i |xi ) = G (xi b) (1 G (xi b)) = (xi b) . Par exemple pour lestimateur des MCQG
1 0 0 b bmcqg = x ei x ei x ei y ei
r avec z ei = zi 2 xib bmco . Ceci est en pratique impossible avec le modle de probabilit linaire puisquil nest pas exclu que xi b (1 xi b) soit ngatif.
204
12.1.2
Les modles probit et logit.
Il est prfrable de faire un autre choix que lidentit pour la fonction G. On souhaite que cette fonction soit croissante, quelle tende vers 1 en + et vers 0 en . En principe, la fonction de rpartition de nimporte quelle loi de probabilit pourrait convenir. En pratique les modles de choix discret sont spcis en utilisant deux fonctions de rpartition : , la fonction de rpartition de la loi normale : Z z (t)dt = (z ) G (z ) = 1 2 exp 2 t . On a donc dans ce cas o (t) = 1 2
P (yi |xi ) = (xi b)
Un tel modle est appel Modle Probit. F , la fonction logistique F (z ) = Dans ce cas 1 1 + exp (z ) 1 1 + exp (xi b)
P (yi |xi ) = F (xi b) = Un tel modle est appel Modle Logit
Eet marginal dune variation dun rgresseur continu x Lun des avantages majeurs du modle de probabilit linaire est quune variation marginale dun rgresseur a un eet constant dans la population. Cette proprit simple et attractive nexiste plus dans le cas des modles probit ou logit. On peut nanmoins prciser leet dune variable sur la probabilit conditionnelle dobserver lvnement modlis. Comme E (yi |xi ) = G (xi b) , on a E (yi |xi ) 0 = G (xi b) bk k xi et llasticit LogE (yi |xi ) G (xi b) = bk G (xi b) xk i Pour le modle Probit on a ainsi : E (yi |xi ) LogE (yi |xi ) (xi b) bk = (xi b) bk , = k k (xi b) xi xi
0
12.2. VARIABLES LATENTES et pour le modle Logit
205
E (yi |xi ) = F (xi b) (1 F (xi b)) bk xk i LogE (yi |xi ) = (1 F (xi b)) bk xk i puisquon vrie facilement F = F (1 F ) . Leet marginal de laccroissement dun facteur dpend donc du point o lon se situe. En pratique on est amen considrer une situation de rfrence qui peut tre un groupe dindividus lorsque les variables explicatives sont elles mmes des variables de catgories, ou bien le point moyen de lchantillon. Dans ce cas par exemple, on calculerait E (yi |xi ) 0 = G (xi b) bk k xi
0
12.2
Variables latentes
La modlisation prcdente est une modlisation statistique. Les modles variables dpendantes discrtes peuvent souvent tre introduits en rendant plus explicites les hypothses conomiques sous-jacentes la modlisation. Ceci est eectu par le biais de ce que lon appelle une variable latente, cest dire une variable inobserve mais qui dtermine compltement la ralisation de la variable indicatrice tudie. Dans le cas prsent, on modlise la ralisation de la variable indicatrice tudie par le biais dune variable :
yi = xi b + ui
Dans cette modlisation on suppose que le rsidu intervenant dans lexpression de la variable latente est indpendant des variables explicatives. La variable latente yi nest jamais observe compltement mais elle est lie la ralisation de la variable dintrt par :
yi = 1 yi > 0 xi b + ui > 0
Lorsque lon spcie la loi du rsidu ui , on est capable de dnir compltement la probabilit P (yi = 1 |xi ) . Si on suppose que le rsidu intervenant dans modlisation de la variable latente est normal, on obtient le modle Probit. Supposons ui N (0, 2 ) yi = 1 xi b ui + >0
206
et vi = ui / N (0, 1) . Les paramtres b sont identiables un facteur multiplicatif prt. Si on pose c = b/ , on a b ui P (yi = 1 |xi ) = P xi + > 0 = P (vi > xi c) = P (vi < xi c) = (xi c) o on utilise le fait que la loi normale est symtrique, et que donc P (v > a) = P (v < a) . Exemple Dcision de participer un stage de formation. Ce stage reprsente un gain futur Gi pour lindividu, dont le capital humain aura augment. Supposons que lon soit capable de modliser ce gain partir de variables explicatives
g Gi = xg i bg + ui
La participation au stage comporte aussi un cot court-terme Ci , incluant le fait quil faut dabord apprendre, et donc fournir un eort, mais aussi souvent payer pour la formation et subir des cots indirects comme des cots de transport. Supposons l encore que lon soit capable de modliser ce cot c Ci = xc i bc + ui
Le gain net pour lindividu est donc yi = Gi Ci . g c c = xg yi i bg xi bc + ui ui = xi b + ui
On peut modliser la participation comme le fait que le gain net soit positif :
> 0 xi b + ui > 0 yi = 1 yi est alors la variable latente associe au modle. yi
Le modle logit est lui aussi compatible avec cette modlisation. On suppose alors que ui suit une loi logistique de variance . La variable ui / suit alors une loi logistique de densit f (x) = exp (x) / (1 + exp (x))2 et de fonction de rpartition F (x) = 1/ (1 + exp (x)) . Cette densit est l encore symtrique en zro, et on aura b ui P (yi = 1 |xi ) = P xi + > 0 = P (vi > xi c) = P (vi < xi c) = F (xi c)
On pourrait considrer dautres cas comme par exemple le fait que la loi de ui suive une loi de Student, on obtiendrait alors dautres expressions pour P (yi = 1 |xi ) .
12.3. ESTIMATION DES MODLES DICHOTOMIQUES
207
12.3
Estimation des modles dichotomiques
Mis part le modle de probabilit linaire qui sestime directement par les MCO, les modles dichotomiques sestiment par le maximum de vraisemblance. En eet la spcication de la probabilit conditionnelle conduit spcier entirement la loi des observations. Compte tenu dune modlisation conduisant P (yi = 1 |xi ) = G (xi b) avec G une fonction de rpartition connue, de densit g. La probabilit dobserver yi pour un individu peut scrire comme P (yi |xi ) = P (yi = 1 |xi )yi [1 P (yi = 1 |xi )]1yi = G (xi b)yi [1 G (xi b)]1yi La vraisemblance de lchantillon scrit donc L (y |x ) =
N Y i=1
P (yi |xi ) =
N Y i=1
G (xi b)yi [1 G (xi b)]1yi
compte tenu de lhypothse dindpendance. La log vraisemblance s0 crit alors log LN =

N X i=1
[yi log G (xi b) + (1 yi ) log (1 G (xi b))]
Lorsque lon fait lhypothse que les observations sont indpendantes, la maximisation de la vraisemblance conduit des estimations convergentes. On a vu en eet dans le chapitre prcdent que la mthode du maximum de vraisemblance, base sur la nullit de lesprance du score log L (zi , ) E = 0 = 0 est une mthode de type GMM et que lon peut tudier les proprits asymptotiques des estimateurs dans le cadre gnral de la convergence des estimateurs GMM. On rappelle ici les principaux rsultats de la mthode des moments gnralise et leur transcription au cas et leur transcription au cas du maximum de vraisemblance. On considre un modle dont la vraisemblance scrit L (zi , ) Proposition Sous les hypothses 1. H 1 Lespace des paramtres est compact. La vraie valeur est 0 intrieure , 2. H 2 , 0 tq L (zi , 0 ) est la vraie densit des observations 3. H 3 L (zi , ) est deux fois continment drivable en ,
208

2 2 0
4. H 4 E sup | log L (zi , )/ | + sup | log L (zi , )/ | +sup | log L (zi , )/ | < , 5. H 5 log L (zi , )/ k a des moments nis dordre 1 et 2, 6. H 6 Le Jacobien J = E ( 2 log L (zi , 0 )/ 0 ) de dimension dim dim est de rang dim , Alors lestimateur du maximum de vraisemblance b SN maximisant QN () = LogL (zi , ), vrie les proprits :
P 1. b S 0 convergence L b b normalit asymptotique 2. N S 0 N 0, Vas (S ) 3. Vas b S = J 1 = I 1 o I = E [ log L (zi , )/ log L (zi , )/ 0 ] . . . b = 2 log L zi , b b = log L zi , b log L zi , b 0 I et J 0 J 4. I
Dmonstration Il sagit dune transcription directe des rsultats concernant la converL(zi ,) gence de lestimateur de la mthode des moments gnralise au_ cas du score E log = 0, quelques exception prs. On a vu que si le modle est bien spci, cest dire si effectivement la densit des observations peut tre paramtre par le modle utilis, alors la vraisemblance est maximale pour la vraie valeur des paramtres. Cest le sens de la condition HMV 2 analogue de la condition H 2 de la mthode des moments gnralise. Par rapport la mthode des moments gnralise, une caractristique importante provient du fait que le modle est juste identi. Lexpression de la matrice de variance en est simplie. Dans le cas gnral son expression est Vas b S = [G0 S0 G]1 G0 S0 V (g (zi , 0 )) S0 G [G0 S0 G]1 . Ici les notations sont direntes, G = J et V = I et en outre G est de dimension dim dim puisque dim g = dim et de rang dim par hypothse. G est donc inverb sible, do une expression plus simple Vas S = J 1 IJ 1 . Une simplication supplmentaire provient du fait quil sagit dune vraisemblance. On a alors : " # 2 0 log L (zi , ) log L (zi , ) log L (zi , ) = E . E 0 Cette dernire relation provient simplement du fait que pour une famille de densit de probabilit f (x, ) , Z f (x, ) dx = 1 donc Z f (x, ) dx = 0 soit Z Logf f (x, ) (x, ) = 0, i.e.E Logf =0
12.3. ESTIMATION DES MODLES DICHOTOMIQUES En drivant nouveau en , il vient Z Z 2 Logf Logf f f (x, ) (x, ) 0 (x, ) dx = 0 0 (x, ) dx + Z Z 2 Logf Logf Logf (x, ) (x, ) f (x, ) dx = 0 f (x, ) 0 (x, ) dx + 0 2 log f (x, ) log f (x, ) log f (x, ) 0 + E = 0 E 0
209
12.3.1
Finalement on retrouve a partir des formules GMM que dans le cas du maximum de vraisemblance 1 2 0 1 log L ( z log L ( z , ) , ) , ) log L ( z i i i =E = E Vas b 0
Conditions de 1er ordre pour la maximisation
soit
Lestimateur du maximum de vraisemblance est dni par : b N g xib g xi b b X log LN 0 xi = 0 = yi + (1 yi ) b b G xib 1 G xib i=1 log LN b
N h i X = b yi G xib i=1
Ces quations sont en gnral non linaires et ncessitent la mise en oeuvre dun algorithme doptimisation. On voit que ces quations dans le cas gnral sexpriment sous la forme
N h i 0 X b xi , b yi E yi xi , b b xi = 0 i=1
b g xib 0 h i xi = 0 G xib b 1 G xib b
Elles sont donc assez similaires aux conditions vues pour les moindres carrs, mis part la pondration et la non linarit. On remarque galement que la pondration sinterprte naturellement par le fait que V (yi |xi ) = G (xi , b) (1 G (xi , b)) , et que g (xi , b) x0i est la drive par rapport b de G (xi b) . La pondration est donc analogue la sphricisation pratique dans la mthode des mCQG du modle linaris autour de la vraie valeur du paramtre.
210
Pour le modle Logit on a G (z ) = F (z ) = 1/ (1 + exp (z )) , et g (z ) = exp (z ) / (1 + exp (z ))2 = F (z ) (1 F (z )) . On a donc simplement N h i 0 X log LN b xi = 0 yi F xib = b Logit i=1
Pour le modle Probit on a G (z ) = (z ) , et g (z ) = (z ) . On a donc simplement N h i xib b X log LN 0 b h i xi = 0 = x y b i i b Pr obit b 1 xib b xib i=1
12.3.2
Drives secondes de la log-vraisemblance - condition de concavit
On sait quasymptotiquement, la vraisemblance a un maximum global unique. Ceci ne signie pas quil ny ait pas de maximum local. Ceci ne signie pas non plus quil ny ait pas distance ni des maxima locaux. Il est donc important dexaminer les conditions du second ordre de lobjectif maximis qui permettent dtudier lexistence doptima multiples. On montre que dans le cas du modle probit et du modle logit on est dans un cas favorable dans lequel la matrice hessienne est toujours ngative : la log-vraisemblance est donc globalement concave. Ceci garantit donc que loptimum trouv est bien celui quil faut considrer. Pour le modle Logit, on le vrie directement aisment. La matrice des drives secondes de lobjectif a en eet pour expression : N h i X 2 log LN 0 H= b F xib b xi xi 1 F xib = 0 b b Logit i=1
Pour le modle probit on montre plus gnralement une proposition base sur la log concavit de la densit. On prsente dabord un lemme : Lemme Si log (g) est concave, alors le ratio g (z ) /G (z ) est une fonction dcroissante de z. Dmonstration
0
g (z ) G(Z )
est dcroissant si g 0 G < g 2 cest dire si

0
(t) dcroissante. Dans ce cas g 0 (t) = g g (t) > concave alors g g g ( t) Z z Z z 0 0 (z ) g (z ) g 0 (t) dt > g (t) soit g (z ) > g G (z ) . g (z ) g (z )
g0 G < g. Si log (g) est g g 0 (z ) g (t) pour t z donc g (z )
Proposition Si log (g ) est concave et si g est symtrique, alors le hessien de la vraisemblance du modle dichotomique probabilit G (xib ) est dni ngatif.
12.3. ESTIMATION DES MODLES DICHOTOMIQUES
211
Dmonstration On peut rcrire la log vraisemblance en sparant les observations pour lesquelles yi = 1 de celles pour lesquelles yi = 0, on note I1 et I0 les ensembles dindividus correspondants. En notant gi = g (xi b) et Gi = G (xi b) , on a alors log LN b gi x0i G [1 G ] i i i=1 X X gi gi = [1 Gi ] [0 Gi ] x0i + x0i Gi [1 Gi ] Gi [1 Gi ] I1 I0 X gi X gi = x0i + x0i G 1 G i i I I = [yi Gi ]
1 0
N X
On a alors :
g (z ) g si G est une fonction dcroissante, alors 1 est aussi une fonction dcroissante. Le G(z ) gi gi et 1 sont ngatives. Hessien est ngatif puisque les drives des ratios G Gi i Dans le cas Probit, g (z ) = 1 exp 1 z 2 , cest bien une fonction symtrique et 2 2 z 2 , est bien une fonction concave. Lobjectif est donc globalement log g (z ) = log 2 1 2 concave.
g (z ) g (z ) Comme g est symtrique G (z ) = 1 G (z ) , on a 1 = G , il en rsulte que G(z ) (z )
0 X gi 0 X gi 2 log LN 0 = xi xi + x0i xi 0 b b Gi 1 Gi I I
1 0
12.3.3
Elle peut tre estime partir des drive secondes values en b b: 1 2 b log L yi , xi , b as (b b) = V b b0
La matrice de variance covariance asymptotique est gale 1 1 2 log L log L log L b = E = E Vas b b b0 b b0
Matrice de variance-covariance de b b
: ou des drives premires value en 0 1 b b log L yi , xi , b log L yi , xi , b as (b V b) = b b
212
Compte tenu de lexpression donne plus haut b h i 0 log L yi , xi , b b b = xi , b yi E yi xi , b xi b . h i avec xi , b b = g xib b G xib b 1 G xib b , on note que dans ce cas la matrice de variance scrit sous une forme sapparentant celle des mCQG 1 2 0 as (b b) = b2 b x x V i i i i o b i = yi G xi , b b La matrice de variance covariance de lestimateur est dans tous les cas estime par (b as (b b)/N V b) = V
12.4
Illustration : participation des femmes sur le march du travail
On peut mettre en oeuvre les mthodes destimation prcdentes en examinant le comportement de participation des femmes sur le march du travail. La modlisation de la dcision de participation fait intervenir le salaire de march wi et le salaire de rservation wi . Le salaire de march est modlis comme une fonction du capital humain, cest dire comme une fonction de la scolarit et lexprience sur le march du travail. Le salaire de rservation est fonction lui de la situation familiale : revenu alternatif, clibat, nombre denfants... Au lieu de modliser le capital humain par lexprience, fonction des dcisions passes de participation sur le march du travail, on peut faire intervenir directement lage. Au total on a une dcision de participation prenant la forme : I = 1 wi > wi wi = 0 + 1 scoi + 2 agei + 3 age2 i + ui wi = 0 + 1 wai + 2 sin glei + 3 nenfi + 4 agei + 5 age2 i vi On a donc la modlisation de participation : I = 1 0 + 1 scoi + 2 agei + 3 age2 i + 4 wai + 5 sin glei + 6 nenfi + i > 0 On peut estimer ce modle en faisant lhypothse que les rsidus sont distribus de telle sorte que lon ait un modle Probit, Logit ou probabilit linaire. On met en oeuvre cette estimation sur un chantillon de femmes en 2002, tir de lenqute emploi. Lchantillon comprend 36249 femmes. Les rsultats sont prsents dans le tableau 12.1. On voit que
12.5. SLECTIVIT : LE MODLE TOBIT

Probit Constante Nenf wa single scolarit age age/1000 b -0.207 -0.317 0.043 0.297 0.089 -0.006 -0.237 sb (0.057) (0.008) (0.002) (0.024) (0.003) (0.001) (0.008) b -0.379 -0.530 0.071 0.490 0.151 -0.010 -0.401 Logit sb (0.095) (0.013) (0.003) (0.039) (0.005) (0.001) (0.013) b 0.441 -0.108 0.015 0.103 0.029 -0.002 -0.081
213
Linaire sbh (0.020) (0.002) (0.001) (0.008) (0.001) (0.000) (0.003)
sb (0.019) (0.002) (0.001) (0.008) (0.001) (0.000) (0.003)
Tab. 12.1 Estimation du modle de participation des femmes les paramtres sont distincts dune rgression lautre mais que les sens de variations sont toujours les mmes. On note aussi que les estimations sont trs prcises, ce qui tient la taille importante de lchantillon. Les rsultats sont bien ceux auxquels on sattend : plus le capital humain est important : ge et scolarit levs, plus la participation est importante. De mme plus le nombre denfants est lev, moins la participation est leve. Le clibat conduit aussi comme on sy attend une participation plus importante. On remarque enn que le revenu alternatif (celui du conjoint) na pas le signe attendu. On aurait pu penser en eet que le salaire du conjoint conduisait une participation plus faible. Ceci pourrait tre li au fait que dans la dcision de mise en couple les capacits sur le march du travail des deux individus sont corrles positivement. Pour aller plus loin dans la comparaison des estimateurs entre eux, il faudrait comparer les eets marginaux, cest dire calculer en chaque point leet prdit par le modle dun accroissement marginal de la variable.
12.5
12.5.1
Slectivit : le modle Tobit

Prsentation de la slectivit
La slectivit est une des causes principales de biais dans les estimations des modles linaires. Elle correspond la situation dans laquelle le phnomne que lon tudie est observ uniquement sous certaines conditions qui ne sont pas indpendantes du phnomne tudi. Pour certains individus, on nobserve pas le phnomne tudi, il y a donc un problme de donnes manquantes, et la raison pour laquelle on nobserve pas le phnomne est elle mme lie ce phnomne. Le fait de ne pas observer le phnomne apporte donc paradoxalement une information sur le phnomne lui-mme. On dit dans ce cas que le processus de slection nest pas ignorable. Exemple Le modle dore de travail dHeckman. Pour illustrer le problme de la slectivit on prsente le modle dore de travail dHeckman. On modlise le salaire de march
214
dun individu comme :

wi = xi b + ui
avec xi comprenant les variables aectant le capital humain : la scolarit et lge ( la place de lexprience) et le salaire de rserve comme wi = xri br + uri avec xri comprenant le nombre denfant, une indicatrice valant 1 en cas de clibat, le cas chant, le revenu du conjoint. On introduit en plus de ces variables un polynme de lge pour prendre en compte les spcicits du march du travail franais qui subventionne le retrait dactivit des travailleurs gs. On introduit en outre une modlisation des heures. Les heures de travail oertes dpendent de lcart entre le salaire de march et le salaire de rserve : h i = (wi w i )
> wi . Le paramtre et on a donc un nombre dheures non nul, donc observ si wi est particulirement intressant puisquil correspond llasticit de lore de travail au salaire. A cette modlisation correspond direntes possibilits dobservation.
1. On nobserve que la dcision de participation : pi = 1 si h i > 0 pi = 0 si h i 0 Il sagit du modle Probit dj examin. 2. On observe la dcision de participation et le nombre dheures : hi = h i = xi b xri br + u uri = zic + vi si h i > 0 pi = 1 si h i 0 pi = 0
Il sagit du modle Tobit dit simple ou de type I car la variable dnissant la censure est aussi celle qui est observe lorsquil ny a pas censure. Dans le cas considr ici, il est clair que lestimation de ce modle ne permet pas lestimation simple du paramtre dlasticit dore de travail au salaire. On peut identier l (h i |zi , hi > 0) qui est bien sur dirente de l (h i |zi ) . Le processus de slection nest donc pas ignorable dans ce cas de faon vidente. 3. On observe le salaire et la dcision de participation wi = xi b + ui si h i > 0 pi = 1 si h i 0 pi = 0
Il sagit du modle Tobit dit de type II car la variable dnissant la censure nest pas |zi , h celle qui est observe lorsquil ny a pas censure. On peut identier ici l (wi i > 0)
215
qui peut tre dirente ou non de l (wi |zi ) . Le processus de slection peut donc tre ignorable ou non dans ce cas. On voit que si l (wi |zi , h i ) = l (wi |zi ) , cest dire si la variable ralisant la censure est indpendante de la variable tudie conditionnellement aux variables explicatives, le processus de slection sera ignorable.
4. On observe le salaire, le nombre dheures et la dcision de participation wi = xi b + ui hi = h si h i = xi b xri br + ui uri i > 0 si h p = 1 i i 0 pi = 0
Ce modle est dit modle Tobit de Type III. Il permet sous certaines conditions destimer le paramtre dlasticit de lore de travail aux heures.
Lestimation de ce type de modles est en gnral complexe lorsque lon ne spcie pas la loi des rsidus. On va examiner ici la situation dans laquelle la loi jointe des deux rsidus uwi de lquation de salaire et uhi de lquation dheure, conditionnellement aux variables explicatives, est une loi normale bivarie : uwi w h 0 2 w N , uhi w h 2 0 h Une caractrisitique importante de cette modlisation est de laisser possible une corrlation entre les deux quations de salaire et de participation. Cest justement dans le cas o il y a corrlation que le processus de slection nest pas ignorable dans le cas du modle de type II. Denition 1. On appelle Modle Tobit de type I, ou modle Tobit simple le modle dans lequel une variable dintrt modlise comme
yi = xi b + ui
avec ui N (0, 2 u ) , est observe sous la condition, elle mme observe,

>0 yi
Cest dire, on observe :
= xi b + ui yi = yi Ii = 1 Ii = 0
>0 si yi sin on
2. On appelle Modle Tobit de type II, le modle dans lequel une variable dintrt, modlise comme yi = xi b + ui
216
CHAPITRE 12. VARIABLES DPENDANTES LIMITES est observe sous la condition elle mme observe Ii = zi c + vi > 0 avec (ui , vi ) distribus suivant une loi normale de moyennes nulle et de variance 2 u et 2 et de corrlation . On observe donc v yi = yi = xi b + ui si Ii > 0 Ii = 1 sin on Ii = 0
Pour mesurer limportance potentielle des biais auquel peut conduire une information incomplte, on considre la situation dans laquelle il y a deux variables alatoires y1 = x + u1 y2 = x + u2 Les variables x, u1 et u2 sont toutes trois normales, centre et rduites. x est choisie indpendante de u1 et u2 . En revanche on envisage deux situations polaires pour la corrlation de u1 et u2 : corrlation nulle et corrlation de 0.9. On sintresse la relation entre y1 et x, et on considre deux cas. Dans le premier cas on observe y1 et x sans restriction, dans le second cas on observe y1 et x uniquement pour y2 positif. Les graphiques reports dans le tableau 12.2 montrent les nuages de points observs. On voit que les nuages de points dans les chantillons non tronqus se ressemblent beaucoup, que la corrlation soit nulle ou de 0.9. Les droites de rgressions linaires donnent toutes deux des coecients proches des vraies valeurs : 1 pour la variable x et 0 pour la constante. On voit aussi que la troncature par la variable y2 ne change pas beaucoup lallure de lchantillon dans le cas de la corrlation nulle. On observe nanmoins que comme on a slectionn les observations pour lesquelles x + u2 > 0, on a eu tendance retenir plus de valeurs leves de x. Nanmoins, cette slection des variables explicatives naecte pas la proprit dindpendance des variables explicatives et du rsidu dans lquation de y1 . On vrie que les coecients de la droite de rgression sont l encore trs proches des vraies valeurs. En revanche les changements pour le cas = 0.9 en prsence de troncature sont trs importants. On a t amen ne retenir que les observations pour lesquelles x + u2 > 0. L encore on a eu tendance retenir plus souvent les observations de x avec des valeurs leves. Pour une observation retenue pour une valeur de x donne, on na retenu que les observations avec une valeur importante de u2 et donc de u1 puisque ces variables sont fortement corrles. On en dduit que x donn, on a retenu des observations pour lesquelles u1 est susamment important. Pour une valeur donne de x la moyenne des rsidus des observations slectionnes sera donc positive contrairement ce quimplique lhypothse dindpendance. En outre, si on considre une valeur de x plus importante, on sera amen slectionner des observations de u2 de faon moins stricte, et la moyenne des rsidus de u1 slectionns sera donc toujours positive, mais plus faible.
217
y = - 0,01+1,01x 0 -4 0 4 -4 0 0
y = 0,01+1,00x+
-5
-5
Complet = 0
5
Complet = 0.9
5
0 -4 y = - 0,03+1,03x 0 4 -4 y = 0,75+0,58x
0 0 4
-5
-5
Tronqu = 0
Tronqu = 0.9
Tab. 12.2 Nuages de points et troncatures : direntes congurations
218
On en dduit que lesprance des rsidus conditionnelle une valeur donne de x est une fonction dcroissante de x : le rsidu de lquation de y1 sur les observations slectionns ne sont plus indpendants de la variable explicative. Ce rsultat se matrialise par une droite de rgression de pente beaucoup plus faible que dans le cas prcdent : le biais dit de slectivit est ici trs important. Une autre consquence que lon peut voir sur le graphique et qui est intimement lie dans ce cas la slection, est que la relation entre y1 et x est htroscdastique.
12.5.2
Rappels sur les lois normales conditionnelles.
Quelques rappels sur les lois normales sont ncessaires pour tudier le modle de slectivit. Densit La densit dune loi normale centre rduite est note et a pour expression 2 1 u (u) = exp 2 2 Z u (t) dt. Compte tenu de la symtrie de La fonction de rpartition est note (u) =
la fonction on a (u) = 1 (u) Une variable alatoire de dimension k suivant une loi normale multivarie de moyenne et de variance : y N (, ) a pour densit : 1 1 0 1 f (y ) == q exp (y ) (y ) 2 k (2) det() On considre une loi normale bivarie 1 2 1 2 y1 1 N , y2 2 1 2 2 2
la densit de la loi jointe de u1 et u2 est donc donne par 2 1 (2 1 + 2 2 1 2 ) p f (y1 , y2 ) = exp 2(1 2 ) 2 1 2 1 2
1 2 et 2 = y2 . avec 1 = y1 1 2 La loi marginale de y1 est donne par
1 1 2 f (u1 ) = exp 1 2 1 2
219
un calcul simple permet de montrer que la loi y2 conditionnelle y1 donne par f (y2 |y1 ) = f (y1 ,y2 ) est aussi une loi normale, mais de moyenne et de variance dirente. La moyenne f (y1 ) dpend de la valeur prise par y1 , mais pas la variance : 2 2 2 f (y2 |y1 ) N 2 + (y1 1 ) , 2 (1 ) 1 Moments dune loi normale tronque Denition On appelle inverse du ratio de Mills la quantit M (c) = (c)
Ce ratio est central dans lanalyse des biais de slectivit. On a vu prcdemment en tudiant le modle probit que ce ratio est une fonction dcroissante de c. Proposition Soit u N (0, 1) , et c un scalaire. On sintresse aux moments de la loi normale tronque E (u|u > c) et E (u|u < c), ainsi que V (u|u > c) et V (u|u < c). On a E (u|u > c) = M (c) E (u|u < c) = M (c) et V (u|u > c) = 1 + cM (c) M (c)2 < 1 V (u|u < c) = 1 cM (c) M (c)2 < 1 Dmonstration u a pour densit (u) . Compte tenu de (u) = u (u) , on a : R u(u)du [(u)] (c) (c) c c E (u|u > c) = = = = = M (c) 1 (c) 1 (c) 1 (c) (c) de mme E (u|u < c) = E (u| u > c) = M (c) Pour les moments dordre 2 on a : u2 (u)du = 1 + cM (c) 1 (c) R R o on intgre par partie c u2 (u)du = [u (u)] + (u)du = c (c) + 1 (c) . c c On en dduit la variance conditionnelle
c
0
E u2 |u > c =
V (u|u > c) = E (u2 |u > c) [E (u|u > c)]2 = 1 + cM (c) M (c)2
220
de faon similaire on a pour la loi normale tronque suprieurement E (u2 |u < c) = E ((u)2 | u > c) = 1 cM (c) V (u|u < c) = 1 cM (c) M (c)2
Le lemme que lon avait pour une loi normale z + (z ) > 0 et aussi z + 1 (z ) > 0 soit 2 2 encore zM (z ) + M (z ) > 0 et zM (z ) M (z ) < 0 on en dduit que lon a toujours, comme on sy attend V (u|u c) < 1.
Lemme Quelque soit z, on a z+ et z +
(z ) > 0
Dmonstration Compte tenu de 0 (z ) = z (z ) on dduit de / dcroissant 0 (z ) / 2 /2 < 0, soit z (z ) / 2 /2 < 0. En multipliant cette ingalit par (z ) , on en dduit un rsultat qui sera utile par la suite : z + (z ) > 0. En appliquant cette ingalit z, on en dduit aussi z + 1 (z ) > 0. Remarque Dans le cas dune variable non centre rduite v N (, 2 ) , on peut dduire des rsultats prcdents les moments des lois tronques en notant que (v ) / suit une loi N (0, 1) et que v c u = (v ) / e c = (c ) / . on a donc c E (v|v > c) = E ( u + |u > e c) = + M c E (v|v < c) = E ( u + |u < e c) = M et V (v |v > c) = 2 2 ! c c c 1+ M M
(z ) > 0 1
Pour les moments de la loi tronque suprieurement on a galement 2 ! c c c M M V (v|v < c) = 2 1 On a aussi comme on sy attend pour toute transformation linaire V (a + bv|v > c) = b2 V (v |v > c) V (a + bv|v < c) = b2 V (v |v < c)
221
Moments dune variable normale tronque par une autre variable normale On sintresse au cas dune variable alatoire suivant une loi normale bivarie y1 y2 N 1 2 , 2 1 2 1 1 2 2 2
et on cherche les moments dordre 1 et 2 de la variable y2 tronque par y1 > 0. Proposition On a 1 E (y2 |y1 > 0) = 2 + 2 M 1 E (y2 |y1 > 0) = 2 2 M 1 1 et 2 ! 1 1 2 2 +M V (y2 |y1 > 0) = 2 2 2 1 1 2 ! 1 2 2 M 1 +M 1 V (y2 |y1 < 0) = 2 2 2 1 1 1 1 M 1 Dmonstration On a vu que la loi de y2 conditionnelle y1 est une loi normale de 2 2 (y1 1 ) et de variance 2 moyenne 2 + 2 (1 ) . On en dduit que 1 E (y2 |y1 > 0) = = = = 2 E 2 + (y1 1 ) |y1 > 0 1 y1 1 |y1 > 0 2 + 2 E 1 y1 1 y1 1 1 > 2 + 2 E 1 1 1 1 2 + 2 M 1
222 De mme,
V (y2 |y1 > 0) = V (E (y2 |y1 ) |y1 > 0) + E (V (y2 |y1 ) |y1 > 0) 2 = V 2 + (y1 1 ) |y1 > 0 + 1 2 2 2 1 y1 1 y1 1 > 1 = 2 2 2V 1 1 1 2 ! 1 1 1 + 1 2 2 M M = 2 2 2 1 2 1 1 1 2 ! 1 1 1 2 2 +M = 2 M 2 2 1 1 1 Compte tenu du rsultat prcdent sur la loi normale unidimensionnelle et puisque V (y2 |y1 ) = (1 2 ) 2 2. On obtient directement les moments de la loi normale y2 tronque par y1 < 0 en remplaant 1 par 1 et par
12.6
Estimation du modle Tobit

yi = xi b + ui Ii = zc + vi
On considre nouveau le modle Tobit
dans lequel la loi jointe des rsidus conditionnellement aux variables explicatives est une loi normale bivarie 0 2 u v ui u N , 0 vi u v 2 v Les observations sont rgies par : yi = yi Ii = 1 Ii = 0
si Ii > 0 si Ii 0
12.6.1
Pourquoi ne pas estimer un modle Tobit par les MCO ?

E (yi |xi , zi , Ii = 1) = E (yi |xi , zi , Ii > 0)
Si on se restreint aux observations pour lesquelles le salaire est renseign, on a
12.6. ESTIMATION DU MODLE TOBIT En appliquant les rsultats prcdents y2 = y , et y1 = I on a directement : zi c E (yi |xi , zi , Ii > 0) = xi b + u M v
223
On voit donc que ds lors que la corrlation entre les lments inobservs de lquation de salaire et de lquation de participation sont corrls, cest dire ds que 6= 0, ne pas ic prendre en compte la slectivit revient oublier une variable dans la rgression : M z . v Cet oubli est donc susceptible de conduire une estimation biaise des paramtres ds ic et xi sont corrles. lors que les variables M z v Si on considre titre illustratif que lquation de slection scrit yi > y, on a = 1 xi by zi c et v = u . Lquation prcdente scrit alors xi b y E (yi |xi , zi , Ii > 0) = xi b + u M u Dans ce cas comme M (z ) = est une fonction dcroissante de z le biais est ngatif. ic Dans le cas gnral tout dpend de et de la corrlation entre le ratio de Mills et M z v . les variables explicative entrant dans la modlisation de yi Si on introduit galement les observations pour lesquelles yi = 0, on a E (yi |xi , zi ) = E (yi |xi , zi , Ii = 1) P (Ii = 1 |xi , zi ) + E (yi |xi , zi , Ii = 0) P (Ii = 0 |xi , zi ) = E (wi |xi , zi , Ii = 1) P (Ii = 1 |xi , zi ) zi c zi c = (xi b) + u v v et on voit que la forme linaire nest pas non plus adapte.
(z ) (z )
12.6.2
Estimation par le maximum de vraisemblance
Comme on a spci la loi des perturbations, on a spci la loi des observations. Lestimateur du maximum de vraisemblance est donc le plus ecace. Les estimations vont tre bases sur la densit des observations. celle-ci se calcule de la faon suivante : on crit la probabilit dobserver chaque ralisation du couple (yi , Ii ) . Pour Ii = 0 on nobserve seule pas yi la probabilit est P (Ii < 0) , cest dire zc zc P (zi c + vi < 0) = =1 v v et Ii > 0. La densit correspondante est Pour Ii = 1 on observe yi = yi Z Z f (yi = wi , ii = 1) = f (yi , Ii ) dIi = f (yi ) f (Ii |yi ) dIi
>0 Ii >0 Ii
224
des observations est ! Y xi b Y zi c + v yi 1 zc yi xi b u p 1 L = v u v (1 2 ) Ii =0 Ii =1 u ! 1Ii yi xi b Ii Y c + z 1 zc yi xi b i v u p 1 = 2) (1 v u u v i
et la loi de Ii conditionnelle yi = yi est pas dnition une loi normale de moyenne yi y 2 e2 2 ) la probabilit pour quune telle eI (yi ) = I + v u et de variance v = v (1 y I + v i y e I (yi ) u . Finalement, la densit = variable alatoire soit positive est ev 2 v (1 )
Remarque 1. Dans le cas o = 0 on voit que la vraisemblance est sparable entre une contribution correspondant lobservation de Ii = 0/1 et une contribution associe aux observations de wi : ! Ii ! Y Y x b 1 y i i L= [1 (zie c)]1Ii (zie c)Ii u u i i c).Elle est 2. La fonction de vraisemblance nest pas globalement concave en (, u , b, e concave globalement en = ( u , b, e c) pour x. On retrouve donc le fait que dans le cas = 0 on peut ignorer la slection des observations. On voit aussi que dans le cas gnral o 6= 0 la slectivit importe.
On voit que comme dans le cas du modle Probit, on ne peut pas identier la totalit des paramtres de lquation de slection : seul le paramtre e c = cu est identiable. Compte tenu de cette rednition des paramtres du modle, la vraisemblance scrit : ! yi xi b Ii Y c + u zie 1 yi xi b p L= [1 (zie c)]1Ii 2 (1 ) u u i
12.6.3
3. Une solution consiste xer la valeur de et estimer les paramtre correspondant b () et balayer sur les valeur possible de .
Estimation en deux tapes par la mthode dHeckman
Il existe une mthode destimation trs simple et trs largement utilise dans le cas o les perturbations sont normales. Elle ouvre aussi la voie des spcications plus gnrales dans lesquelles on laisse non spcies la loi des perturbations. Cette mthode est base sur lquation prcdente E (yi |xi , zi , Ii = 1) = xi b + u M (zie c) = xi b + u Mi (e c)
12.6. ESTIMATION DU MODLE TOBIT
225
Le principe de la mthode dHeckman consiste estimer dabord le modle Probit associ Ii . De lestimation de e e c = M zib c = c/ v on tire un estimateur Mi b e c . On procde ensuite la rgression augmente sur les seules observations pour lesquelles les donnes sont disponibles : e c + $i yi = xi b + u Mi b Ces estimateurs sont asymptotiquement sans biais, mais ils ne sont pas asymptotiquement ecaces. Par exemple, cette mthode permet destimer seulement le produit u , alors que la mthode du maximum de vraisemblance permet destimer et u sparment. Remarque Le calcul des carts-type est un peu compliqu. Il fait intervenir deux aspects. Dune part le modle est htroscdastique. En eet, compte tenu des rsultats obtenus prcdemment pour V (y2 |y1 > 0) , on a :
V (yi |xi , zi , Ii = 1) = V (yi |xi , zi , Ii > 0) 2 2 cMi (e c) + Mi (e c)2 = 2 u u zi e
Cette formule montre bien la prsence dhtroscdasticit. Elle donne aussi une voie pour estimer le modle de faon plus ecace en utilisant lestimateur des mCQG. Nanmoins ce nest pas le seul problme, en eet la variable additionnelle introduite dans la rgression fait intervenir le paramtre e c qui nest pas connu et est remplac par une estimation. Lintroduction de ce paramtre estim est aussi une source de complication dans le calcul des carts-type. Plus prcisment, le paramtre est lui mme issu dune estimation (par le MV) que lon peut rsumer par lannulation de la contrepartie empirique de conditions dorthogonalit E (he c)) = 0 c (Ii , zi , e
Le calcul des carts-type doit se faire en considrant les formules de lestimation par la mthode des moments gnralise associe la totalit des conditions dorthogonalit, cest dire he c) c (Ii , zi , e E =0 hb,u (Ii , yi , xi , b, u ) On utilise parfois lestimateur de Heckman comme une premire valeur pour le calcul de lestimateur du maximum de vraisemblance. On utilise lestimateur du modle Probit, lestimateur du modle de Heckman et lexpression de la variance des rsidus qui permet dobtenir une estimation convergente de et w .
Lestimation du modle par les mco conduit quant elle lannulation de la contrepartie empirique de x0i [yi xi b u Mi (e c)] 1Ii =1 E Mi (e c) = E (hb,u (Ii , yi , xi , b, u )) = 0
226
12.6.4
Des extensions paramtriques simples
Le cas normal conduit des spcications particulirement simple. La loi normale peut nanmoins paratre trop restrictive et on peut vouloir spcier encore la loi des rsidus mais dans des ensembles de lois plus gnrales. Loi quelconque donne pour le rsidu de lquation de slection. Tant que la loi du terme de lquation de slection a une fonction de rpartition F strictement croissante, on peut reformuler le modle de telle sorte quil entre dans le cadre prcdent. Cette reformulation repose sur la proprit suivante : Proposition Si une variable alatoire une fonction de rpartition F strictement croissante, alors la variable alatoire v e = F (v) suit une loi uniforme sur [0, 1] . P (e v t) = P (F (v) t) = P v F 1 (t) = F F 1 (t) = t
Dmonstration En eet, comme F est valeurs dans [0, 1] le support de v e est bien [0, 1] . De plus on a On en dduit alors la proposition suivante concernant le modle de slection : En appliquant ce rsultat la transformation : v e = 1 F (v ) , on en dduit que v e suit une loi normale. Le modle de slection I = 1 I = zc + v 0 est donc quivalent I = 1 v e = 1 F (v) 1 F (zc) soit encore 1 F (zc) + v e 0, avec dans ce cas v e normal. On peut donc gnraliser les rsultats prcdents en substituant 1 F (zc) zc. On parvient alors au rsultat que E (y |I = 1, x, z ) = xb + u Compte tenu du fait que 1 F (zc)
P (z ) = P (zc + v 0) = P (v zc) = 1 F (zc) on a E (y |I = 1, x, z ) = xb + u 1 (1 P (z )) 1 P (z ) P (z )
En utilisant le fait que (x) = 1 (x) , soit 1 (P ) = 1 (1 P ) , on a : E (y |I = 1, x, z ) = xb + u
12.6. ESTIMATION DU MODLE TOBIT Des lois plus gnrales que la loi normale
227
On peut considrer le modle de slection prcdent en faisant lhypothse que les lments inobservs ont pour loi jointe une loi de Student de degrs et non pas une loi normale. La densit de la loi jointe des lments inobservs scrit alors : 2 (1/2)(+2) 1 2 1+ u 2uv + v h (u, v) = ( 2) (1 2 ) 2 (1 2 )1/2 2 1 On peut montrer la proprit suivante sur la loi jointe de u et v : E (u |v ) = v La loi de u, g (u) a pour expression : g (u) = s (+1)/2 (( + 1)/2) 1 + t2 ( /2)
On note G (u) sa fonction de rpartition. On peut montrer que lexpression de lesprance de la loi de Student de degrs tronque est : E (v |v < t ) = Do E (v |v > t ) = E (v |v < t ) G (t) + t2 g G (t) = (t) (1 G (t)) (1 G (t)) 1 G + t2 g + t2 g (t) = (t) = 1 1 G 1 G + t2 g (t) 1 G
Ceci permet de gnraliser les rsultats obtenus prcdemment pour le modle de slection E (y |I = 1, x, z ) = = = = xb + E (u |d = 1, x, z ) xb + E (u |zc + v > 0, x, z ) xb + E (E (u |v, x, z ) |zc + v > 0, x, z ) xb + E (v |v > zc ) + zc2 g (zc) = xb + 1 G
228
On peut obtenir une gnralisation supplmentaire en combinant les deux approches et en considrant que lquation de slection un rsidu dune loi quelconque connue. Par le mme genre dargument que dans la premire situation envisage, on a E (y |I = 1, x, z ) = xb +
2 1 1 + G (P (z )) g G (P (z )) 1 P (z )
12.6.5
Le modle de slection semi paramtrique.
On reprend le modle de slectivit sur inobservables : y = xb + u avec la modlisation de laectation au traitement : T = zc + v T = 1 T 0 on suppose comme prcdemment lindpendance entre les variables de conditionnement et les lments inobservs. (u, v) (x, z ) mais on ne fait plus dhypothse sur la loi jointe des perturbations. On montre que lon obtient une relation pour lesprance conditionnelle qui sapparente celles obtenues dans les cas prcdents : Proposition Dans le cas du modle de slectivit sur inobservables, si les fonctions de rpartition de v est strictement croissante, il existe une fonction K (P (zc)) telle que E (y |I = 1, x, z ) = xb + K (P (zc)) o P (zc) = P (T = 1 |r, z ) Dmonstration On montre dabord que P (I = 1 |r, z ) = P (zc) . On a Z Z P (I = 1 |r, z ) = E (1 (zc + v > 0) |r, z ) = f (v |r, z ) = f (v) = 1F (zc) = P (zc)
v>zc v>zc
On en dduit en outre que zc = H1 (P (zc)) , puisque F est strictement croissante. On crit ensuite lesprance de la variable dintrt E (y |I = 1, x, z ) = xb + E (u |I = 1, x, z )
229
et on montre que E (u |I = 1, x, z ) est une fonction de P (zc) Z 1 E (u |I = 1, x, z ) = E (uI |x, z ) P (I = 1 |r, z ) = 1 (zc + v 0) uf (u, v) dudvP (I = 1 |zc )1 = H2 (zc) = K (P (zc)) Remarque On peut voir partir des expressions prcdentes un point trs important. Dans le cas de la normalit, on a une relation non linaire dtermine entre lesprance de la variable laquelle on sintresse et la probabilit de slection. Cette non linarit permet lobtention destimation mme dans le cas o les variables entrant dans lquation de slection et lquation dintrt principal sont identiques. Dans le cas plus gnral, on voit nanmoins que ce nest plus le cas. En eet quelque soit la fonction de probabilit retenue P, si la fonction K est quelconque, et que xp est identique xw , on ne pourra dissocier leet des variables intervenant au travers de la slectivit de leur eet intervenant directement : le modle nest pas identi. Ce nest que lorsque lon introduit dans lquation de slectivit une variable intervenant dans la slectivit mais pas dans lquation principale que lon peut identier le modle. Le raisonnement est ici trs proche de celui fait dans le cas des variables instrumentales : il faut postuler une relation dexclusion. Cette ncessit est un peu masque dans le cas de la normalit par la non linarit du modle, mais elle nen est pas moins essentielle. Ce type de modle peut tre estim sans faire dhypothse sur la forme de la fonction K. On considre lquation : E (y |I = 1, x, z ) = xb + K (P (zc)) Une premire faon destimer le modle consiste utiliser des sries. Lide est trs simple elle consiste introduire direntes puissance du score : P (zc) , P (zc)2 , . . . . Les proprits asymptotiques de ce type destimateur ont t tudie par Andrews (1991). E (y |I = 1, x, z ) = xb + 1 P (zc) + + dN P (zc)dN Cette mthode est trs simple mettre en oeuvre, et de ce fait trs utile. Ses proprits asymptotiques ont t clairement tablies, par Newey (1999) qui montre en particulier que les paramtres dintrt de la partie linaire du modle sont convergent en N. Le problme de ce type de mthode rside dans le choix du degr du polynme retenu. Une mthode destimation alternative est fournie par la mthode destimation de (Robinson 1988) cest une sorte de super mthode de Frish-Waugh. LIde de la mthode de Robinson est de projeter cette quation sur lensemble des fonctions de P (zc) E (y |I = 1, P (zc)) = E (E (y |I = 1, x, z ) |I = 1, P (zc)) = E (x |I = 1, P (zc)) b + K (P (zc))
230
En prenant la dirence avec lquation prcdente on peut liminer la fonction K (P (zc)) . On a alors : E (y E (y |I = 1, P (zc)) |I = 1, x, z ) = (x E (x |I = 1, P (zc))) b
P En notant P y = y E (y |I = 1, P (zc)) et x = x E (x |T = 1, P (zc)) les rsidus des rgressions non paramtriques de y et des variables explicatives r sur le score P (zc) , on a clairement P E P = P y r rb P On peut estimer le paramtre b en rgressant P y sur r . Dans ce cas, on peut montrer que lestimateur de b obtenu est convergent en N bien quil incorpore un intermdiaire de calcul non paramtrique. Toutefois sa variance est dicile calculer et on est amen utiliser des mthodes de bootstrap trs intensives en calculs, notamment pour ce type destimateur par noyaux.
Remarque Cette mthode permet destimer le paramtre b. Nanmoins ceci nest pas vrai pour tous les paramtres : la constante du modle nest pas identie. Ceci se voit trs bien puisque la fonction K est estime en toute gnralit, donc une constante prs. Ceci nest en gnral pas grave car on naccorde que peu dintrt la constante, sauf dans certains cas prcis qui peuvent tre trs importants. Cest en particulier le cas de lvaluation des politique publiques que lon aborde dans le chapitre suivant. On reviendra alors sur cette question dlicate.
12.6.6
Illustration : le modle dore de travail dHeckman
Pour illustrer les rsultats du cadre prcdent on estime le modle dore de travail prsent dans lexemple de la page 213. Il sagit dun modle Tobit dit de TypeIII, dans la terminologie de Amemiya. La forme rduite de ce modle scrit :
wi = xi b + ui hi = xi b xri br + ui uri = zi c + vi
En appliquant le formalisme de la mthode dHeckman, on voit que lon a :

E (wi |zi , h i > 0) = xi b + (ui |zi , hi > 0) = xi b + (zi c) (zi c) E (hi |zi , h i > 0) = xi b xri br + h h
On voit clairement que les paramtres b, et br sont identis. En eet, le modle Probit identie le paramtre c, la rgression de salaire identie b et , la rgression dheure identie b, br et h h . On voit que lon peut en dduire une estimation de ds lors
231
quil y a une variable entrant dans la liste des variables aectant le salaire de march mais pas le salaire de rserve. La variable retenue ici assurant cette identication est la variable de scolarit. En eet on fait intervenir la variable dge dans le salaire de rserve et dans le salaire de march. Nanmoins lidentication du paramtre est lie ici la forme fonctionnelle, cest dire la forme du ratio de Mills. On voit que si on avait retenu une autre loi et que pour cette loi le terme analogue au ratio de Mills avait t linaire le modle ne serait pas identi puisquil impose que zi c soit proportionnel xi b xri br . Mme si le modle impose des restrictions qui peuvent tre testes comme le fait que les paramtres de la partie xi b xri br sont bien proportionnels ceux de la partie zi c, on ne peut en dduire destimateur de ces paramtres, sauf faire une hypothse comme celle faite ici que les variables inobserves sont distribues suivant une loi normale. On peut noter que le modle de salaire de march peut lui aussi faire intervenir les heures. Dans ce cas lidentication porte comme pour le modle dheures oertes sur la forme fonctionnelle. Enn, on voit aussi que lestimation sapparente ici une estimation par la mthode des moments gnralise. En eet, on peut rcrire lquation dore de travail par exemple sous la forme
E (h h eh i wi + xri br |zi , hi 0) = E (uri |zi , hi 0) = e
(zi c)
Soit
avec e h eh = cov (uri , ui uri )/ ( ui uri ) . Il en rsulte que les paramtres peuvent tre estims en utilisant comme conditions dorthogonalit zi h 0 =0 h eh (zi c) E hi wi + xri br e (zi c) i De mme, pour lquation de salaire, on a E whi hi xi b (zi c) zi (zi c) hi 0 = 0
h eh (zi c) |zi , hi 0 = 0 E hi wi + xri br e
qui peut tre utilise avec contraint 1 (lidentication des autres paramtres est alors garanti quelle que soit la forme fonctionnelle retenue) ou librement estim (lidentication des paramtres repose alors sur lhypothse de normalit). Remarque Pour la dtermination des carts-type, il faut tenir compte de deux aspects importants. Le premier est que le modle est htroscdastique. Lutilisation de la mthode des moments gnralise permet de traiter ce problme. Le deuxime est que le ratio de Mills fait intervenir lestimation de lquation de participation. Il faut en thorie corriger les carts-type pour cette estimation intermdiaire. Ceci peut tre fait en considrant lestimation comme un problme destimation par la mthode des moments gnralise. On
232
adjoint lensemble de condition dorthogonalit prcdent les conditions dorthogonalit correspondant lestimation prliminaire, et qui sont les conditions du premier ordre du maximum de vraisemblance. Ici, compte tenu du fait que le modle Probit est estim sur 36249 femmes et que les estimations sont eectus dans le secteur du commerce sur seulement 3164 femmes, on nglige le problme. On prsente dans le tableau 12.3 les rsultats obtenus pour lestimation de lquation de salaire. On voit que le ratio de Mills joue signicativement et que son coecient est ngatif. Le signe est celui de la corrlation entre ui uri et ui . Si on crit uri = ui + i , avec ui et i non corrl, on a cov ( ui uri , ui ) = ( ) 2 u . Le signe ngatif sinterprte donc comme le fait que les lments inobservs dans lquation de salaire et lquation de salaire de rserve sont fortement corrls. On voit quignorer la slectivit, oublier la variable de ratio de Mills, conduit biaiser les coecients. Ici il sagit surtout de celui de la scolarit. Le coecient est en eet de 0.03 avec prise en compte de la slectivit au lieu de 0.04 lorsquon lignore. On voit que lorsque lon introduit la variable dheures comme rgresseur lerreur lie au fait doublier la variable de slectivit est encore plus forte. En eet llasticit du salaire de march (donc de la productivit) aux heures est leve et signicativement dirente de 0 lorsque lon ignore la slectivit. Par contre lorsquon prend en compte la slectivit, on voit que cette variable est deux fois plus faible et quelle nest plus signicativement dirente de 0. Ceci est susceptible de remettre fortement en cause les rsultats prsents dans le chapitre sur la mthode des moments gnralise. Toutefois, il ne faut pas oublier que lorsque lon introduit la variable dheure, lidentication des paramtres repose sur le choix de la normalit pour distribution jointe des rsidus.
Le tableau 12.4 prsente les rsultats de lquation dore de travail. On voit l aussi que la variable de slectivit est signicativement dirente de zro. Son signe est celui de 2 e h eh = cov (uri , ui uri ). Soit pour uri = ui + i , celui de 2 + ( ) u . Le signe obtenu est donc compatible avec le prcdent. On voit que l aussi les changements sont importants lorsque lon estime le modle avec et sans prise en compte de la slectivit. En eet sans prise en compte de la slectivit, on a un coecient faible de lordre de 0.10. Une baisse de la rmunration de 10% conduit une baisse des heures oertes de 1%. Lorsque lon prend en compte la slectivit, on parvient une valeur beaucoup plus leve de 0.4 : une baisse de la rmunration de 10% conduit une baisse des heures de 4%.
233
Constante Age Age Scolarit Ratio de mills Constante Age Age Scolarit Ratio de mills h
Sans les heures Avec Slectivit Sans Slectivit b sb b sb 4.6368 (0.0768) 4.4496 (0.0555) 0.0096 (0.0008) 0.0098 (0.0008) -0.0004 (0.0001) -0.0005 (0.0001) 0.0333 (0.0034) 0.0414 (0.0026) -0.1662 (0.0456) --Avec les heures 3.7674 (0.8199) 2.6204 (0.5044) 0.0094 (0.0008) 0.0094 (0.0008) -0.0004 (0.0001) -0.0005 (0.0001) 0.0346 (0.0035) 0.0369 (0.0029) -0.0967 (0.0708) --0.2380 (0.2251) 0.5454 (0.1496)
Tab. 12.3 Estimation de lquation de salaire avec et sans prise en compte de la slectivit, avec et sans prise en compte des heures
Constante Age Age Nenf wa single Ratio de mills w
Avec Slectivit b sb -0.0805 (1.1674) -0.0051 (0.0015) -0.0002 (0.0001) -0.0665 (0.0150) 0.0071 (0.0025) 0.0672 (0.0133) 0.3055 (0.1421) 0.4124 (0.1314)
Sans Slectivit b sb 2.3980 (0.2713) -0.0019 (0.0004) -0.0001 (0.0001) -0.0349 (0.0054) 0.0022 (0.0012) 0.0554 (0.0133) --0.1332 (0.0309)
Tab. 12.4 Estimation de lquation dore de travail avec et sans prise en compte de la slectivit
234
12.7
Modles de choix discrets : le Modle Logit Multinomial
On sintresse dans cette dernire section un modle de choix entre direntes alternatives. Le choix dun type de vhicule, dun lieu de vacances, etc... Ce modle, appel modle Logit Multinomial est trs simple et trs facile estimer. Il est trs largement employ. Il est en outre susceptible de gnralisations importantes qui permettent notamment de prendre en compte lexistence de caractristiques inobserves des individus oprant les choix. Le dveloppement et lestimation de ce type de modle est aujourdhui un thme de recherche trs actif aux nombreuses applications. Supposons quun individu i ait choisir, parmi un ensemble de K modalits, une et une seule de ces modalits, note k. Pour modliser cette situation on associe chaque modalit un niveau dutilit Uik = ik + ik = xi bk + ik k = 1, ...K
o ik est une variable alatoire non observable. Lindividu choisit la modalit que lui procure lutilit maximale. yi = Arg max (Uik )
k
Proposition Si les {ik }k=1,...K sont des v.a. indpendantes et identiquement distribues selon une loi des valeurs extrmes de fonction de rpartition. G(x) = exp[ exp(x)], de support ], +[ alors la probabilit de choisir la modalit k scrit : P [yi = k] = K l=1 exp(xi bk ) exp(ik ) = K exp (il ) l=1 exp (xi bl )
Ce modle est appel modle logit multinomial. Dmonstration Notons g la fonction de densit des : g (z ) = G (z ) =
0
d exp [ exp (z )] = exp (z ) exp ( exp (z )) = exp (z ) G (z ) dz 1 1+t
On peut remarquer en prliminaire la proprit suivante : E exp (t exp (z )) = En eet : E exp (t exp (z )) = Z
+
exp (t exp (z )) exp (z ) exp ( exp (z )) dz
12.7. MODLES DE CHOIX DISCRETS : LE MODLE LOGIT MULTINOMIAL 235 en faisant le changement de variable v = exp (z ) , on a E exp (t exp (z )) = Z
+
exp (tv ) v exp (v ) v =
1 1+t
On peut crire par exemple la probabilit de choisir la premire solution P (y = 1) = E = E K Y 1 (Uk < U1 ) ! K !! Y =E E 1 (Uk < U1 |U1 ) !
k=2
K Y
k=2
k=2
E (1 (Uk < U1 |U1 ))
Puisque les valeurs des direntes options sont indpendantes les unes des autres. Comme P (k + k < 1 + 1 |1 ) = G (1 k + 1 ) = exp [ exp (1 + k 1 )] , on a P (y = 1) = E = E
K X k=2
k=2
K Y
exp [ exp (1 + k 1 )] "

K X k=2
exp
exp (1 + k 1 )
#!
= E (exp [t exp (1 )])
avec t =
exp (1 + k ) . On en dduit que P (y = 1) = 1 = K 1+t X

k=1
1 exp (1 + k )
Remarque
1. Les probabilits ne dpendent que des dirences l k = x(bl bk ), l 6= k
2. En consquence, les bk sont non identiables sauf poser par exemple b1 = 0 3. Les paramtres estims sinterprtent alors comme des carts la rfrence b1 . Un signe positif signie que la variable explicative accrot la probabilit de la modalit associe relativement la probabilit de la modalit de rfrence.
bl = bl + c. Elles ne sont pas modies si tous les bl sont translats en e
236
12.7.1
Estimation du modle logit multinomial :
Proposition Posons yki = 1 (yi = k) exp(xki bk ) Pki = P (yi = k |xi ) = XK exp(xli bl )

l=1
b1 = 0
La log-vraisemblance de lchantillon scrit : log L =

K n X X i=1 k=1
yik log Pik
Cette fonction est globalement concave. Les conditions du premier ordre pour la dtermi0 nation du paramtre b = (b2 , ..., bK )0 , scrivent simplement sous la forme 0 P ) x ( y i2 i2 n 2i log L X . . = =0 . b 0 i=1 (yiK PiK ) xKi
Pn PK Dmonstration La vraisemblance scrit log L = i=1 k=1 yik log Pik = log L = XK Pn PK exp(xli bl ) . On calcule facilement la drive par i=1 k=2 yik xki bk log 1 + l=2 rapport bl : X log L X exp(xli bl ) 0 = yil x0li = (yil Pli ) x0li x XK li bl 1+ exp(xli bl ) i=1 i=1
n n l=2
On dtermine ensuite la drive seconde n n X 2 log L X exp(xli bl ) exp(xli bl ) 0 0 = xli = x0li yil xli X X K K 0 0 0 bl bm b b m m 1+ 1+ exp(xli bl ) exp(xli bl ) i=1 i=1
l=2 l=2
Pour m 6= l, on a
exp(xli bl ) exp(xli bl ) exp(xmi bm ) 0 0 x0li = XK 2 xli xmi = Pmi Pli xli xmi XK 0 bm 1 + exp(xli bl ) exp(xli bl ) 1+
l=2 l=2
12.8. RSUM Pour m = l, on a
237
Pour montrer la concavit de lobjectif, on calcule 0 H , pour un vecteur quelconque. La matrice H a pour dimension dim b2 + + dim bK . On peut donc crire 0 = (02 , . . . , 0K ) . Comme H est une matrice bloc dont les blocs sont de la forme : Hl,m = mli x0li xmi , avec P P 2 mli = Pmi Pli et mmi = Pmi + Pmi , 0 H = l,m 0l Hl,m m = l,m mli 0l x0li xmi m . En dnissant P vi le vecteur de dimension K 1 dont la mime composante P est xmi m , on a 0 H = l,m mli vmi vli et compte tenu de lexpression de mli , on a l,m mli vmi vli = P P P P 2 2 2 2 ( P + P ) v + 2 P P v v = P v ( P v ) 0 et mi mi li mi li mi mi mi mi mi mi m m6=l m m 0 0 gal zero seulement si vi = 0. On en dduit que H 0 et H = 0 si et seulement si vi = 0i, ce qui signie que tel que i xmi m = 0 ce qui correspond au fait que les variables explicatives ne sont pas indpendantes.
exp(xli bl ) exp(xli bl ) exp(xli bl )2 0 0 0 = x x x XK 2 xli xli li li XK b0l 1 + XK exp(x b ) li 1+ exp(xli bl ) li l 1+ exp(xli bl ) l=2 l=2 l=2 2 = Pli Pli x0li xli
12.8
Rsum
Dans ce chapitre on a prsent trois exemples de modles non linaires gnralisant directement les modles linaires vus prcdemment. On a ainsi examin 1. Les modles dichotomiques, caractriss par le fait que la variable explicative prend ses valeurs dans {0, 1} . On a vu que des modlisations adaptes faisaient intervenir des variables latentes i.e. des variables dont seulement une partie de la ralisation est observe. 2. Deux exemples types sont les modles Logit et les modles Probit. Ces deux modles sestiment par le maximum de vraisemblance et ncessitent une tape doptimisation. 3. On a galement prsent les modles Tobit. Ce sont des modles dans lesquels on observe une variable conditionnellement la valeur prise par une autre variable. 4. La situation standard est celle dans laquelle il y a une variable dintrt et une variable dcrivant la slection. 5. Un exemple typique est celui du salaire : on nobserve le salaire que conditionnellement au fait que le nombre dheures de travail soit strictement positif. 6. Ces modles ncessitent en gnral des hypothses sur la loi des rsidus des quations de slection et de la variable dintrt. 7. On fait en souvent lhypothse de rsidus normaux. Dans ce cas le modle peut tre estim simplement soit par la mthode du maximum de vraisemblance, soit par une mthode alternative, dite de Heckman. Cette mthode donne simplement des
238
CHAPITRE 12. VARIABLES DPENDANTES LIMITES estimateurs mais est moins ecace que la mthode de maximum de vraisemblance. Elle consiste estimer dabord un modle Probit pour lquation de slection, puis partir des estimations calculer un terme correctif dit ratio de Mills introduit ensuite dans la rgression de la variable dintrt.
8. Dans ces modles slection endogne il faut traiter la slection comme on traiterait un rgresseur endogne dans une quation linaire. Il est ainsi ncessaire de disposer dune variable intervenant dans lquation de slection et nintervenant pas dans lquation dintrt, faute de quoi les paramtres ne sont estims que sur la non linarit de la forme fonctionnelle. 9. Direntes gnralisations ont t proposes pour obtenir des estimations avec des lois plus gnrales que la loi normale. Le modle de slection semiparamtrique gnralise ainsi lapproche de Heckman. Une fonction polymries de la probabilit de slection est ainsi introduite au lieu du ratio de Mills. Ces modles ne permettent pas en gnral lestimation de la constante et ncessitent une fois abandonne lhypothse de normalit lexclusion dun rgresseur de la liste des variables explicatives aectant la variable dintrt. 10. Enn on a prsent succinctement les modles de choix discrets qui orent une modlisation de la situation dans laquelle un individu doit arbitrer entre plusieurs choix possibles. Lintrt de ces modles est de prsenter un lien troit entre la thorie des choix et lconomtrie.
Chapitre 13 Evaluation
Lvaluation des politiques publiques ncessite souvent la connaissance de paramtres de comportements des agents qui sont inconnus. La mesure de leet dune politique instaurant une taxe sur certains produits fait ainsi intervenir les lasticits dore et de demande de ces biens. De mme, leet dune politique favorisant le retour lemploi, tel que lEarning Income Taxe Credit aux Etats Unis ou la Prime pour lEmploi en France font intervenir llasticit de lore de travail. La mesure de ces paramtres est une proccupation importante de lconomtrie. Les chapitres prcdents ont montr la dicult de lestimation de ces paramtres et la ncessit de contextes observationnels trs exigeants. La connaissance de ces paramtres permet dapporter de nombreux clairages sur les eets des politiques publiques. Par exemple lestimation dquations dore de travail permet de mesurer la valeur que les agents accordent au temps libre. Lvolution dune telle valeur et sa dispersion dans la population est bien sur intressante dans le contexte de la rduction du temps de travail. Connatre les paramtres structurels du comportements des agents permet de mesurer ex ante les eets probables dune mesure de politique conomique. Elle permet aussi de mesurer leet de politiques ayant dj t mises en oeuvre. Exemple Laroque Salani (2000) Modlisation de lore de travail en fonction de la rmunration et des transferts(modlisation dun salaire de rserve), modlisation de la demande de travail (productivit dun travailleur). Il y a emploi si le salaire oert (la productivit) est suprieur au salaire de rserve et au smic. On peut alors examiner leet dun relvement du smic ou leet dune modication des transferts. Ces valuations reposent sur la spcication de modles de comportement et leur estimation. De nombreux paramtres structurels sont susceptibles dintervenir et il est probable que les conditions de lidentication de ces paramtres ne soient pas runies pour chacun dentre eux. On peut tre tent dapporter une rponse plus prcise une question plus gnrale. Plutt que lvaluation dune politique base sur la dcomposition et la mesure des direntes composantes dune politique (eet via lore et via la demande par exemple) et qui ncessitent lestimation de tous les paramtres structurels (lasticits 239
240
CHAPITRE 13. EVALUATION
dore et de demande par exemple) on peut chercher rpondre la question globale quel a t leet de la politique au total ? Ceci ne ncessite que lestimation de combinaisons des paramtres structurels et pas leur identication individuelle. Une branche de lconomtrie sest dveloppe fortement au cours des dernires annes qui cherche rpondre cette question. Cest essentiellement aux travaux de James Heckman que lon doit ces avances. Elle ne sintresse qu des valuations ex-post et aux situations dans laquelle la politique in ne a concern une partie de la population seulement. Par exemple eet du relvement du salaire minimum dans certains tats aux Etats Unis. Mise en place dun systme de formation pour les chmeurs, ou dun systme daide la recherche demploi (PAP) etc... Lide centrale est quune partie de la population bncie de la mesure et lautre non. On peut sous certaines hypothses, l aussi parfois exigeantes, retrouver leet de la politique sur les individus qui en ont bncis, partir de comparaisons entre les deux populations. On voit bien que mesurer leet global de la politique mise en oeuvre de cette faon est moins exigeant que la mesure de lensemble des paramtres structurels sous-jacents. Seule la faon dont ils se combinent pour conduire au rsultat nal compte. En pratique, on considre des politiques se traduisant par le fait que la population va tre rpartie dans dirents tats. On introduit ainsi une variable appele variable de traitement T prenant ses valeurs dans {0, 1, ..., M } . Ltat T = 0 correspondant au fait de ntre pas directement touch par la politique. On va sintresser principalement la situation dans laquelle il ny a que deux tats : T {0, 1} . Les valuations auxquelles on procde sont des valuations ex post : elles concernent les politiques qui ont t dj mises en oeuvre et ont dj produit leurs eets. Le but est de dnir et de mesurer lampleur de ces eets sur la base des information dont on dispose pour les individus traits et les individus non traits. Cette approche est ainsi dite observationnelle car ancre dans lobservation des eets dune politique.
Exemple Stage de formation. La population va se dcomposer en deux types dindividus : ceux bnciant du stage T = 1,dits traits, et ceux nen bnciant pas T = 0, dits non traits. Il sagit en fait du cas type qui a t largement tudi par Heckman (voir Heckman Lalonde et Smith (1999))
Exemple Modication de certains paramtres de la lgislation. Certains individus ne sont pas concerns par le changement de lgislation, dautres le sont. Un exemple pourrait tre le relvement du Smic : les individus dont la rmunration avant le relvement se trouve entre lancien et le nouveau smic sont dits traits et ceux dont la rmunration se trouve au del du nouveau smic avant son relvement sont dits non traits. Abowd, Kramarz et Margolis (1999) utilisent les augmentations successives du Smic depuis 1981 pour comparer chaque anne les pertes demploi des salaris rattraps par le Smic avec celle des autres salaris.
13.1. LE MODLE CAUSAL
241
13.1
Le Modle causal
On dnit pour chaque individu deux outputs potentiels y1 et y0 . y1 est la variable alatoire caractrisant la situation de lindividu sil bncie de la mesure, par exemple sil suit le stage de formation. y0 est la situation de lindividu lorsquil ne bncie pas de la mesure par exemple sil ne suit pas le stage. Ces deux grandeurs existent pour chaque individu, quil bncie ou non de la mesure. On dnit leet causal comme tant : = y1 y0 Il sagit donc de la dirence entre la situation dun individu lorsquil suit le stage avec sa situation lorsquil ne le suit pas.
13.1.1
Choix de la variable dintrt et choix de ltat de rfrence
Le choix de la variable y est important. Lorsquil sagit dvaluer une politique il est ncessaire de dnir un critre. Concernant les stages de formation ce critre nest pas ncessairement vident. Il peut sagir de la situation vis vis de lemploi, du salaire, de la valeur dun individu sur le march du travail, du bien tre de lindividu... Chacune de ces caractristiques correspond une valorisation dirente du passage par un stage de formation et qui reprsente aussi le point de vue de dirents agents. La dnition de ltat de rfrence est aussi une question importante. On peut au moins distinguer deux types de dnitions pour ltat de rfrence : le traitement existe et on ny participe pas y0 . le traitement nexiste pas y e 0. e = y1 y On pourrait dnir un eet causal e0 = (y1 y0 )+(y0 y e0 ) = +(y0 y e0 ) . Le fait que y0 puisse tre dirent de y e0 correspond lexistence deets indirects. Le fait quune mesure de politique conomique soit prise peut aecter un individu mme sil nest pas directement concern par la mesure. Si on considre la situation dans laquelle deux individus sont en concurrence pour un emploi et quil y a un stage disponible seulement, on conoit que les deux grandeurs y0 et y e0 soient direntes, et quomettre les eets indirects puisse conduire une valuation erronne de la politique mise en oeuvre. Dans le cas du relvement du smic examin par Abowd Kramarz et Margolis, il est possible que la situation des individus non concerns directement par le relvement du smic, cest dire les individus dont la rmunration avant le relvement du smic est au dessus de la nouvelle valeur soient aects malgr tout par le relvement du smic. En eet ils ne sont plus en concurrence avec ceux dont la rmunration tait en dessous du nouveau smic.
242
13.1.2
Paramtres dintrt
On sintresse en gnral deux types de paramtres : T T (x) = E (y1 y0 |T = 1, x ) AT E (x) = E (y1 y0 |x ) Le premier paramtre est leet moyen du traitement sur les individus de caractristiques x ayant bnci de la mesure (Average Treatment Eect). Le second paramtre est leet moyen du traitement sur les individus de caractristiques x quils aient ou non bnci de la mesure (Treatment on the Treated). Linterprtation des ces deux paramtres est dirente. Le premier ne concerne que la mesure des gains pour les individus ayant bnci du traitement alors que le second mesure leet du traitement sil tait tendu lensemble de la population. Ils ont toutes les chances dtre dirents puisque vraisemblablement le gain que lon retire du traitement conditionne la dcision de participation. Ces paramtres ne sont pas directement identis. Dans lidal on souhaiterait pouvoir identier la distribution jointe : l (y1 , y0 , T ) Ceci permettrait didentier la loi jointe de leet causal et du traitement l (, T ) , la source du calcul de nombreux paramtres prsentant un intrt. On observe en eet un individu soit sil bncie du traitement soit sil nen bncie pas, mais jamais dans les deux situations la fois. Les observations sont ainsi : T {1, 0} y = T y1 + (1 T ) y0 Les donnes ne permettent didentier que l (T ) , l (y1 |T = 1) = l (y |T = 1) et l (y0 |T = 0) = l (y |T = 0) . On voit que cest toujours insusant pour estimer nimporte lequel des deux paramtres. En eet le premier paramtre scrit AT E = E (y1 y0 |T = 1, x ) = E (y |T = 1, x )E (y0 |T = 1, x ) , de telle sorte quil est ncessaire didentier E (y0 |T = 1, x ) qui est inobserv. Le second paramtre ncessite lidentication non seulement de E (y0 |T = 1, x ) mais aussi de E (y1 |T = 0, x ) . Remarque Ces paramtres sinterprtent comme les gains de surplus lis la mise en oeuvre de la politique ou son extension. Si on considre les trois outputs potentiels f0 , W, WT , associs respectivement aux situations e0 , et les surplus W pertinents : y1 , y0 et y sans la politique, avec la politique telle quelle a t mise en oeuvre et lorsque la politique est tendue. On calcule simplement les gains associs aux deux situations : f0 = N P (T = 1) E T T (x) |T = 1 + E (y0 ) E (y W W e0 ) E (c |T = 1) Lorsque la politique est mise en oeuvre et que les individus y participent librement, et f0 = N E AT E (x) + E (y0 ) E (y WT W e0 ) E (c)
13.1. LE MODLE CAUSAL
243
Lorsque la politique est tendue toute la population. On voit que le premier paramtre est pertinent pour juger de lecacit de la politique telle quelle a t mise en oeuvre alors que le second est pertinent pour juger de lopportunit de son extension. On voit galement quune valuation complte doit aussi prendre en compte les eets indirects : la situation de rfrence change par linstauration mme du dispositif. De mme une valuation complte doit aussi faire intervenir les cots du traitement. Les deux paramtres considrs, bien que centraux napporte donc quune partie de linformation ncessaire des valuations compltes. Enn on remarque que pour la premire situation, la probabilit de suivre le traitement intervient aussi de faon importante. Remarque Modlisation des outputs potentiels Une modlisation permet de mieux comprendre la nature des paramtres T T (x) et AT E (x) et leurs dirences. On modlise : y1 = 1 + x 1 + u1 y0 = 0 + x 0 + u0 o on fait lhypothse que (u1 , u0 ) x. Les coecients 0 et 1 sont des paramtres susceptibles de recevoir une interprtation conomique : ce sont des paramtres structurels caractrisant le comportement des agents. Les deux paramtres sont alors : AT E (x) = E (y1 y0 |x ) = 1 0 + x ( 1 0 ) et T T (x) = E (y1 y0 |x, T = 1) = 1 0 + x ( 1 0 ) + E (u1 u0 |x, T = 1) On voit que le premier paramtre ne fait intervenir que les variables observes et les paramtres structurels et est donc de ce fait un paramtre standard de lconomtrie. Il nen est pas de mme en revanche du second paramtre qui fait intervenir les caractristiques inobserves u1 et u0 . Les deux paramtres ne sont identiques que lorsquil y na pas dhtrognit inobservable dans leet du traitement, soit u1 = u0 ou lorsquune telle htrognit existe mais nest pas prise en compte par les individus lors de la dcision de participation au programme T (u1 u0 ) |x = 1 .
13.1.3
Biais de slectivit
Denition Lestimateur naf est celui qui correspond la comparaison de la situation moyenne des individus ayant fait lobjet dun traitement et celle de ceux nen ayant pas fait lobjet b 0 = y T =1 y T =0 Cest estimateur est trs populaire, largement rpandu mais potentiellement biais. En eet la situation moyenne des individus ne bnciant pas du traitement nest pas ncessairement la mme que celle qui est pertinente : la situation moyenne des individus ayant bnci du traitement sil nen avait pas bnci.
244
Proposition Pour que lestimateur naf soit un estimateur convergent de T T il faut que laectation au traitement soit indpendante de loutput potentiel y0 . Pour quil soit un estimateur convergent de AT E , il faut que laectation au traitement soit indpendante des deux outputs potentiels y0 et y1 . Dmonstration b 0 0 = E (y1 |T = 1) E (y0 |T = 0) = E (y1 |T = 1) E (y0 |T = 1) + E (y0 |T = 1) E (y0 |T = 0) = T T + B T T On voit quil apparat un biais de slectivit : B T T = E (y0 |T = 1) E (y0 |T = 0) . Il est nul si y0 T. Pour AT E on a E (y1 ) = P (T = 1) E (y1 |T = 1) + (1 P (T = 1)) E (y1 |T = 0) do E (y1 |T = 1) = E (y1 ) + (1 P (T = 1)) [E (y1 |T = 1) E (y1 |T = 0)] de mme E (y0 |T = 0) = E (y 0) P (T = 1) [E (y0 |T = 1) E (y0 |T = 0)] do 0 (x) = AT E + (1 P (T = 1)) [E (y1 |T = 1) E (y1 |T = 0)] + P (T = 1) [E (y0 |T = 1) E (y0 |T = 0)] = AT E + B AT E Il est ncessaire davoir lindpendance de T et du couple doutput potentiels (y1 , y0 ) conditionnellement aux x. Remarque On voit en outre que B AT E = B T T + (1 P (T = 1)) [E (y1 y0 |T = 1) E (y1 y0 |T = 0)] La deuxime source de biais provient de lhtrognit du traitement, alors que la premire source de biais provient du problme classique dendognit de la variable de traitement.
13.2
Lestimateur des Dirences de Dirences
Le cadre des rgressions prcdentes permet de prsenter certains estimateurs standards trs frquemment utiliss. Il sagit de lestimateur Avant-Aprs ou BeforeAfter , de lestimateur en coupe Cross section et de lestimateur par double dirence Dierence in dierence
13.2. LESTIMATEUR DES DIFFRENCES DE DIFFRENCES
245
Les estimateurs Avant Aprs et par Dirence de dirence font intervenir le temps. On suppose donc que le traitement est mis en oeuvre une date t0 et que lon dispose dinformations sur les individus en t< t et en t > t pas ncessairement pour des individus similaires.
13.2.1
Estimateur en coupe
Lestimateur en coupe est trs proche de celui que lon pourrait dduire du modle de rgression prcdent. Le modle sous sa forme gnrale scrirait comme : yt = 0 + xt 0 + T (1 0 + x ( 1 0 )) + u0,t + T u1,t u0,t | {z } vt Les estimateurs standards en coupe ignorent lhtrognit de leet du traitement. Lquation prcdente se rcrit donc : yt = + xt + T c + ut Dans ce cadre le biais est simplement li au fait que lon na pas forcment E (ut |x, T ) = 0. Le biais a pour expression : B Cross = E (ut |x, T = 1) E (ut |x, T = 0) La mise en oeuvre de cet estimateur ne ncessite que des informations en coupe sur une priode suivant le traitement. Une version encore plus simple de cet estimateur consiste ngliger les variables de conditionnement. Dans ce cas lestimateur est simplement b Cross = yt T =1 yt T =0
13.2.2
Estimateur Avant-Aprs
Lestimateur avant aprs est bas sur des informations sur des donnes temporelles dindividus ayant fait lobjet du traitement. Lide gnrale est que les informations dont on dispose sur les individus avant le traitement permettent de reconstituer ce quaurait t leur situation en labsence de traitement. Lestimateur est dni comme la dirence des moyennes des individus traits aprs et avant le traitement. Dans sa forme la plus simple son expression est donne par : b BA = yt T =1 yt T =1
Dans le cadre des rgressions prcdentes il scrirait partir des rgressions : yt = + xt + c + ut pour T = 1 yt = + xt + ut pour T = 1
246 Soit le modle de rgression :
Il y a deux problmes principaux avec cet estimateur. Le premier problme provient du biais classique dj analys. Le biais pour cet estimateur est donn par : BBA = E (ut |x, T = 1) E (ut |x, T = 1) Supposons que le terme de perturbation soit la somme de deux lments : ut = u + t avec t non corrl dans le temps, alors le terme de biais prcdent se rcrit : E (ut |x, T = 1) E (ut |x, T = 1) = E (u |x, T = 1) + E (t |x, T = 1) E (u |x, T = 1) E (t |x, T = 1) = E (t |x, T = 1) E (t |x, T = 1) Si la dcision de participation dpend de la chronique des lments inobservs alors ce terme est non nul. En particulier on a observ que la participation des programme de formation aux Etats-Unis tait en gnral associe une baisse des revenus passs, cest dire des lments t faibles. Le second terme de biais est encore plus radical. Supposons quen labsence de politique le modle scrive yt = t + xt + ut Le t reprsente par exemple des chocs macroconomiques. Alors le modle prcdent se rcrit : yt = t + xt + (c + t t ) 1 t = t + ut 1 t = t + ut 1 (t = t) pour T = 1
yt = + xt + c1 t = t + ut 1 t = t + ut 1 (t = t) pour T = 1
Il est impossible de sparer leet du traitement de leet de chocs macroconomiques. Remarquons que si le traitement sadresse des individus qui sont reprables ex ante : T = {z Z } , alors lestimateur prcdent ne ncessite pas de donnes temporelles. Seules des coupes successives pour les individus tels que {z Z } sont ncessaires.
13.2.3
Estimateur par dirence de dirence.
Cet estimateur combine les deux estimateurs prcdents. Il correspond la situation dans laquelle le traitement correspond la ralisation partir dune date donn dun certain nombre de conditions dligibilit qui sont observables. On peut donc dnir une variable T correspondant aux conditions dligibilit, sur des observations temporelles.
247
Elle ne correspond au traitement que pour t = t postrieur la date de traitement. Dans le cadre du modle de rgression prcdent, il correspond la situation dans laquelle on introduit une indicatrice correspondant la date, une indicatrice correspondant aux conditions dligibilit et le produit crois indicatrice temporelle post et conditions dligibilit : yt = xt + c + t 1 t = t + T T + t,T T 1 t = t + vt
Proposition Lorsque le biais dune estimation en coupe est constant dans le temps ce qui est quivalent au fait que le biais avant-aprs soit le mme pour les ligibles et les non ligibles, la rgression introduisant comme variables une indicatrice temporelle post, une indicatrice pour les conditions dligibilit et le produit de ces deux variables permet destimer leet du traitement. Dmonstration On peut examiner quoi correspondent ces dirents termes dans le cadre du modle prcdent : yt = xt + t + cT + ut On a E (yt |xt , t, T ) = xt + t + cT + E (ut |xt , t, T ) = xt + t + cT + E (ut |t, T ) On introduit mt,T = E (vt |t, T ) , on a E (ut |t, T ) = mt,1 T 1 t = t + mt,0 (1 T ) 1 t = t + mt,1 T 1 (t = t) + mt,0 (1 T ) 1 (t = t) = mt,0 1 t = t + mt,0 1 (t = t) + mt,1 mt,0 T 1 t = t + (mt,1 mt,0 ) T 1 (t = t) = mt,0 + mt,0 mt,0 1 t = t + (mt,1 mt,0 ) T + mt,1 mt,0 (mt,1 mt,0 ) T 1 t = t c = mt,0 t = mt,0 mt,0 = BBA (T = 0) T = (mt,1 mt,0 ) = B Cross t t,T = mt,1 mt,0 (mt,1 mt,0 ) = B Cross t B Cross (t) t,T = mt,1 mt,1 mt,0 mt,0 = BBA (T = 1) BBA (T = 0)
On voit donc que les coecients de la rgression scrivent :
Lestimateur par dirence de dirence rsout donc directement le problme prcdent dinstabilit du modle sous-jacent. On en conclut que la rgression en incluant une indicatrice correspondant au traitement, capture le biais de slectivit de la coupe, en incluant une indicatrice temporelle capture le biais de lestimation Before After, et quen introduisant le produit crois condition dligibilit indicatrice post elle va estimer le coecient + B Cross,t B Cross,t = + B BA,T =1 B BA,T =0 . Le biais est donc nul dans le cas de lestimateur par dirence de dirence lorsque B Cross,t B Cross,t = 0 ou encore si B BA,T =1 B BA,T =0 .
248
Si on reprend la modlisation simple des perturbations prsentes pour lestimateur Avant Aprs : ut = u + t La dirence des termes de biais scrit : B BA,T =1 B BA,T =0 = {E (t |x, T = 1) E (t |x, T = 1)} {E (t |x, T = 0) E (t |x, T = 0)} On voit que si la participation au traitement est conditionne par des chocs ngatifs sur la variable doutput, alors ce terme nest pas nul. On appelle cet estimateur dirence de dirence car dans le cas o il ny a pas de variables explicatives il scrit simplement. Il ncessite aussi en gnral des informations longitudinales sur les individus traits et non traits. Dans sa forme la plus simple cet estimateur scrit simplement b DD = yt T =1 yt T =1 yt T =0 yt T =0 b BA,T =0 b BA,T =1 = T =1 = yt yt T =0 yt T =1 yt T =0 b Cross,t b Cross,t =
13.2.4
Exemple : La Contribution Delalande
La contribution Delalande est une taxe sur le licenciement des travailleurs gs. Elle a t cre en 1987 linstigation du dput Delalande. Dans le schma initial, le licenciement dun salari de plus de 50 ans conduisait une taxe correspondant 3 mois de salaire. Ce schma initial a t profondment modi deux reprises, une fois en 1992 et une fois en 1998. Le schma nal est particulirement dsincitatif puis quil conduit une taxe correspondant un an de salaire pour les salaris de plus de 56 ans. ds 1992 lge seuil dentre dans le dispositif a t abaiss 50 ans. Ce type de politique est susceptible davoir deux eets, lun direct et lautre indirect. Leet direct correspond au fait que le licenciement des travailleurs gs deviennent moins attractif et donc se rduise. Leet indirect correspond au fait que ce type de politique est susceptible de rendre lembauche de salaris moins attractive et donc rduise les embauches. A ce titre la modication du dispositif Delalande en 1992 introduisait une spcicit qui permet de mesurer lampleur de ce phnomne. A partir de 1992 les employeurs embauchant un salari de plus de 50 ans ne sont plus redevable de la contribution Delalande en cas de licenciement de ce salari. Une faon naturelle dtudier leet dsincitatif de la contribution Delalande consiste donc comparer les taux dembauche de salaris de plus de 50 ans et de moins de 50 ans autour de 1992. Lide est que le renforcement important du dispositif en 1992 a conduit rduire les embauches de salaris de moins de 50 ans. Dans la mesure o les demandeurs demploi de plus de 50 ans ont t exclus de ce dispositif, on ne doit pas observer de dgradation similaire de lembauche de chmeurs de plus de 50 ans. On peut donc examiner leet de la contribution Delalande de direntes faons :

48-51 ans 20,0
2,9
249
Avant 1992, <50 ans Avant 1992, >50 ans Aprs 1992, <50 ans Aprs 1992, >50 ans Avant 1992, diffrence 50/+50 Aprs 1992, diffrence 50/+50 Diffrence de diffrence Nombre d'observations
Sans contrles 46-53 ans 44-55 ans 20,3 19,7

1,7 1,3
48-51 ans 19,4

2,8
Avec contrles 46-53 ans 44-55 ans 20,0 18,8

1,7 1,2
20,5
2,9
14,9
1,4
13,7
1,0
19,1
2,7
14,5
1,4
13,9
1,0
14,3
1,7
14,6
1,0
14,9
0,8
14,6
1,7
14,7
1,0
14,8
0,8
14,6
1,8
15,2
1,1
13,0
0,8
15,3
1,8
15,5
1,1
13,4
0,8
-0,5
4,1
5,4
2,2
6,0
1,6
0,3
3,9
5,5
2,1
4,9
1,6
-0,3
2,5
-0,7
1,5
2,0
1,1
-0,6
2,5
-0,8
1,5
1,4
1,1
0,2
4,7
-6,1
2,7
-4,1
2,0
-0,9
4,6
-6,3
2,6
-3,5
1,9
1 211
3 661
6 179
1 211
3 661
6 179
Tab. 13.1 Contribution Delalande - Estimation de leet indirect par la mthode des dirences de dirences Avant aprs : Comparaison de la variation du taux dembauche des moins de 50 ans entre avant et aprs 1992 En coupe : Comparaison des taux dembauche des moins de 50 ans et des plus de 50 ans aprs 1992 En Dirence de Dirence : Comparaison de la variation du taux dembauche des moins de 50 ans et des plus de 50 ans avant et aprs 1992 On peut examiner cette question partir des transitions Chmage-Emploi. LEnqute Emploi fournit les informations ncessaires. Dans lidal on souhaiterait comparer les taux dembauche de chmeurs de juste moins de 50 ans et de juste plus de 50 ans. En pratique ceci nest pas possible car il ny a pas susamment dobservations de ce type dans lenqute emploi. On est amen considrer des fentres plus larges. On parvient aux rsultats reports dans le tableaux 13.1
Le tableau se prsente en deux parties droite et gauche. La partie droite reporte les rsultats portant sur des comparaisons brutes, celle de gauche ceux obtenus lorsque lon corrige des caractristiques inobservables des agents. Chaque partie comprend trois colonnes correspondant aux direntes fentres considres : troite, moyenne, large. Les quatre premires lignes prsentent les taux de retour lemploi en CDI pour les moins de 50 ans et pour les plus de cinquante ans avant 1992, puis aprs 1992. On constate que le taux annuel de retour lemploi des hommes de 48 ans, avant 1992, tait de 20% en moyenne, quantit estime de faon peu prcise comme en tmoigne lcart-type (2,9%). Le taux de retour lemploi des plus de cinquante ans slve alors 20,5% et est lui aussi peu prcisment estim. Cette imprcision tient largement la taille
250
de lchantillon mobilis (1 211 individus-annes). Introduire des variables de contrle ne change les ordres de grandeur ni des paramtres, ni des carts-type. Cest cette imprcision qui motive le choix de fentres plus larges. Ceci conduit introduire des individus moins directement reprsentatifs de la comparaison eectue mais permet dobtenir des cartstype plus rduits. Llargissement conduit au rsultat attendu : les taux bruts ou nets estims sont beaucoup plus prcis Les cinquimes et siximes lignes prsentent les dirences entre les taux de retour lemploi des plus et des moins de 50 ans, avant et aprs 1992. Avant 1992, le taux de retour lemploi des moins de 50 ans est gnralement plus lev que celui des plus de 50 ans (dirence de 5,4 points pour la fentre 46-53 ans). On constate que les carts-type sont beaucoup plus importants que pour les estimations des taux eux-mmes, ce qui provient du fait que (pour les taux bruts) les estimateurs sont indpendants et que de ce fait la variance de leur dirence est la somme des variances. Limprcision est trs sensible pour la fentre troite si bien que la dirence entre les taux nest pas statistiquement signicative. Dans les chantillons plus larges (pour les deux autres fentres), on voit apparatre un cart positif et signicatif entre les taux de retour lemploi des plus et moins de 50 ans, avant 1992. Ce rsultat nest pas totalement satisfaisant, dans la mesure o le choix des fentres dobservation tait motiv par le fait que les deux catgories dindividus devaient tre trs proches. Les dirences de taux de retour lemploi sinversent ou sattnuent aprs 1992, et restent plus sensibles au choix de la fentre. La dernire ligne du tableau prsente les rsultats en dirence de dirence, cest-dire compare la faon dont les carts de taux de retour lemploi des plus et des moins de 50 ans ont volu entre les priodes antrieures et postrieures 1992. La fentre de 46-53 ans est un bon compromis entre taille et comparabilit des chantillons. Selon cet estimateur, le taux relatif de retour lemploi se serait dgrad pour les moins de 50 ans de 6,1 points (6,3 points aprs contrle des eets de structure). Cet eet est statistiquement diffrent de 0, et il est dune ampleur consquente. Il convient nanmoins de noter que leet napparat pas sur une petite fentre dge, peut-tre en raison dchantillons trop petits (les carts-type sont plus levs), et apparat attnu et la limite de la signicativit si on considre la fentre dges largie.
13.3
13.3.1
Indpendance conditionnelles des observables

Identication sous lhypothse dindpendance conditionnelles des observables
Leet moyen du traitement pour les individus de caractristiques x nest pas identi sans hypothses sur la loi jointe des outputs potentiels et du traitement conditionnellement x. En eet, pour estimer leet moyen du traitement sur les traits E (y1 y0 |x, T = 1) ,il est ncessaire didentier E (y0 |x, T = 1) alors que les donnes
13.3. INDPENDANCE CONDITIONNELLES DES OBSERVABLES
251
ne permettent didentier que E (y0 |x, T = 0) = E (y |x, T = 0) . De mme pour identier leet du traitement dans la population, il est ncessaire didentier E (y0 |x, T = 1) et galement E (y1 |x, T = 0) , alors que concernant y1 seul E (y1 |x, T = 1) = E (y |x, T = 1) est identiable. Un premier ensemble dhypothses identiantes consiste faire lhypothse que ces quantits sont gales : Denition On dit quil y a indpendance forte conditionnellement des observables sil existe un ensemble de variables observables x e tel que : On dit quil y a indpendance faible conditionnellement des observables sil existe un ensemble de variables observables x e tel que : Proposition Lhypothses dindpendance faible est susante pour identier le paramtre T T , en revanche, pour identier le paramtre AT E il est ncessaire davoir recours lhypothse dindpendance forte. Proposition En eet dans ces conditions, l (y0 |x e ) = l (y0 |T, x e ) = l (y0 |T = 0, x e) = l (y |T = 0, x e ) la densit de loutput potentiel est identie et on peut donc estimer E (y0 |x e, T = 1) = E (y |x e, T = 0) l (y0 |T, x e ) = l (y0 |x e) l (y1 , y0 |T, x e ) = l (y1 , y0 |x e)
Pour comprendre la signication de cette hypothse, on peut revenir la modlisation des outputs prcdentes : y1 = 1 + x 1 + u1 y0 = 0 + x 0 + u0 On a pour y0 par exemple : E (y0 |T, x ) = 0 + x 0 + E (u0 |T, x ) = g0 (x, T ) si il existe une source de variabilit commune u0 et T conditionnellement x alors on aura E (y0 |T = 1, x ) 6= E (y0 |T = 0, x ) . Si nanmoins on est capable dtendre lensemble des variables observables en x e de telles sorte que lon puisse puiser les sources de variabilit commune entre u0 et T alors on aura Lhypothse dindpendance conditionnellement des observables consiste supposer que lon est capable de contrler pour ces sources de variabilit. Remarquons qualors la fonction g0 (x e) ne reoit plus dinterprtation conomique alors que cela pouvait tre le cas pour 0 + x 0 . Dans cette approche on accepte de perdre des informations sur le E (y0 |T, x e ) = 0 + x 0 + E (u0 |T, x e ) = g0 (x e)
252
comportement des individus : on ne peut plus distinguer leet spcique de x sur y0 de son eet transitant par E (u0 |x e ) . Le point important est qu ce prix, il est possible de construire pour chaque individu trait de caractristique x e un contrefactuel, cest dire une estimation de ce quaurait pu tre sa situation en labsence de traitement, par le biais de g0 (x e).
13.3.2
Le score de propension (propensity score)
La dimension de lensemble des variables de contrle introduire pour assurer lindpendance entre le traitement et les outputs potentiels est souvent lev, ce qui peut conduire des complications importantes, notamment pour la mise en oeuvre de version semi paramtrique des estimateurs. Rubin et Rosenbaum (1983) ont montr un rsultat important permettant de nombreuses simplications pratiques : Proposition Sil y a indpendance conditionnellement des observable, alors il y a indpendance conditionnellement au score : P (Ti = 1 |xi ) : Dmonstration On note s = P (T = 1 |x e) Z Z P (T = 1 |s, y0 ) = P (T = 1 |x e, y0 ) l (x e |s, y0 ) dx = P (T = 1 |x e ) l (x e |s, y0 ) dx e Z = sl (x e |s, y0 ) dx e=s De mme, P (T = 1 |s ) = s On a donc : P (T = 1 |s, y0 ) = P (T = 1 |s ) Ainsi le problme de la dimension peut tre rsolu de faon drastique : il est seulement ncessaire de conditionner par une unique variable quelque soit la dimension de lensemble initialement introduit. Ainsi une tape initiale de toute valuation consiste en une rgression expliquant laectation au traitement. Elle est faite par exemple en utilisant un modle Logit. Remarque Si s e est un ensemble dinformation plus large que s, par exemple s e = {s, g (x e)} , le rsultat demeure : P (T = 1 |s e, y0 ) = P (T = 1 |s e) . un tel ensemble dinformation est appel balancing score. La proprit de Rosenbaum et Rubin est en toute gnralit que lorsquil y a indpendance conditionnelle des observables, il y a aussi indpendance conditionnellement nimporte quel balancing score. y0 T |x e = y0 T |P (T = 1 |x e)
13.3.3
Mthodes destimation
Il y a principalement trois mthodes destimation. Une base sur des rgressions, une base sur des appariements entre individus trait et individus non traits et une base sur
253
des pondrations. Toutes ces mthodes mettent laccent sur lhtrognit de leet du traitement au sein de la population. Les deux premires estimations ont des caractristiques communes. Pour chaque individu trait de caractristique xi on cherche un estimateur de ce quaurait pu tre sa situation en labsence de traitement, i.e E (y0 |T = 1, x = xi ) . La proprit dindpendance permet dcrire E (y0 |T = 1, x = xi ) = E (y0 |T = 0, x = xi ) = E (y |T = 0, x = xi ) . Les procdures destimation consiste estimer de faon aussi peu restrictive que possible la fonction E (y |T = 0, x = xi ). Lestimateur calcul in ne est alors dni par b ( |T = 1, xi X ) = E 1 N1,X
{Ti =1,xi X }
La fonction E (y |T = 0, x = xi ) peut tre estime de dirente faon correspondant aux approche par rgression ou par appariement. Rgression : Une premire faon destimer leet du traitement consiste procder la rgression de la variable doutput observe sur le traitement et les variables de contrle. Proposition Dans la rgression E (y |T, x ) = h (x) + T g (x) La proprit dindpendance faible E (y0 |T, x ) = E (y0 |x ) permet didentier g (x) = E (y1 y0 |T = 1, x ) . On peut estimer T T = E (g (x) |T = 1) partir dune estimation convergente de g comme X b TT = 1 g (xi ) b N1 T =1
i
b (y |T = 0, x = xi ) yi E
La proprit dindpendance forte E (y0 |T, x ) = E (y0 |x ) et E (y1 |T, x ) = E (y1 |x ) permet didentier g (x) = E (y1 y0 |T = 1, x ) = E (y1 y0 |T = 1, x ) . On peut estimer T T = E (g (x) |T = 1) partir dune estimation convergente de g comme prcdemment etAT E = E (g (x)) X b AT E = 1 g (xi ) b N Dmonstration Comme y = y0 (1 T ) + y1 T = y0 + T (y1 y0 ) , on a : E (y |T, x ) = E (y0 |T, x ) + T E (y1 y0 |T, x ) = E (y0 |T, x ) + T E (y1 y0 |T = 1, x ) Comme E (y0 |T, x ) = E (y0 |x ) , on a donc E (y |T, x ) = E (y0 |x ) + T E (y1 y0 |T = 1, x ) et on a bien g (x) = E (y1 y0 |T = 1, x )
254
Une estimation non paramtrique de y sur la variable de traitement et les variables de conditionnement permet donc en prsence de la seule hypothse y0 T |x didentier le paramtre T T (x) . En pratique : si la proprit dindpendance est vraie, elle est aussi vraie pour le score (proprit de Rosenbaum et Rubin) Les rgressions peuvent donc tre bases sur le score et non sur lensemble des variables explicatives. On peut en pratique procder aux rgressions suivantes sur les populations spares :
J X 1 y = 1 j fj (s) + w j =1
pour T = 1
y =
J X 0 0 j fj (s) + w j =1
pour T = 0
o s est le score. Pour leet du traitement sur les traits, on estime alors :
J X X b ( |T = 1) = 1 E y1i b0 j fj (si ) N1 T =1 j =1
i
ou aussi :
Le deuxime estimateur est un peu moins prcis puisquil incorpore la variance du rsidu mais il vite davoir spcier et estimer lquation doutput pour les individus traits. Remarque Lintrt de cette mthode est quelle apparat comme un prolongement naturel de la rgression variables de contrle y = xb + T + u. Appariement Pour individu trait e i, ayant des caractristiques xe i, chaque on cherche un individu non trait j e i , ayant les mmes caractristiques observables, i.e j e i {j |Tj = 0, xj = xe } .On
i
J XX 1 b ( |T = 1) = 1 b0 bj E j fj (si ) N1 T =1 j =1
i
b i = yi y e . On compare ainsi estime alors leet du traitement pour lindividu i par j (i) loutput de lindividu considr et loutput dun individu non trait ayant les mmes caractristiques observables. Le terme dappariement provient de lide que chaque individu trait est appari avec son jumeau non trait. La quantit yj (e i) est un estimateur (non paramtrique) de E (y |T = 0, x = xe i ) = E (y0 |T = 0, x = xe i ) = E (y0 |x = xe i ) = E (y0 |T = 1, x = xe i)
255
Lestimateur calcul nalement est obtenu en prenant la moyenne de la quantit ce i = ye i yj (e i) sur la population traite laquelle on sintresse : X b ( |T = 1) = 1 E yi yj (i) N1 T =1
i
En pratique il nest pas toujours possible de trouver pour chaque individu trait, un individu non trait ayant les mmes caractristiques que lindividu trait considr. On peut alors choisir lindividu appari de telle sorte que xe i xj (e i) soit minimal, pour une mtrique donne. Une mtrique naturelle dans ce cas est la mtrique de Mahalanobis = V (x)_1 . Nanmoins la qualit de cet appariement peut tre mauvaise en pratique : pour certains individus traits, il nexiste pas dindividu proche non trait notamment dans le cas o il y a un grand nombre de variables de conditionnement. La proprit de Rosenbaum et Rubin simplie beaucoup lappariement dans ce cas. En eet cette proprit permet de procder des appariements sur la base du seul rsum des variables de conditionnement que constitue le score. On peut ainsi apparier des individus dont les caractristiques peuvent tre trs loignes, mais qui ont des scores proches. Ceci constitue le principe de lappariement tel quil a t dvelopp par les statisticiens. De nombreuses questions restent nanmoins non rsolues : doit on faire lappariement avec ou sans rejet ? Un individu non trait une fois appari doit-il tre vinc de lensemble des individus susceptibles dtre apparis avec les individus non traits restants. Si on choisit quun individu ne peut tre appari quune seule fois alors la qualit de lappariement se dgradera progressivement. La question est alors de savoir par o commencer. De mme, si on dispose dun chantillon dindividu non trait trs vaste, ne peut on pas tirer partie des individus qui in ne nauront pas t apparis. Enn, ce principe dappariement tel quil est exprim ne permet pas de prciser le comportement asymptotique de lestimateur propos. Extension Kernel matching estimator Les mthodes dappariement se gnralisent directement ds lors que lon interprte yj (e i) comme un estimateur non paramtrique de E (y0 |T = 0, x = xe i ) . Dirents autres types destimateurs non paramtriques peuvent tre envisags. Ils consistent tous remplacer yj (e i) par une moyenne pondre des observations de lchantillon de contrle : X b (y0 |T = 1, x = xe ) = e E w N i, j yj i
Tj =0
On peut ainsi considrer une moyenne pondre dun nombre donn n, choisir, de voisins les plus proches. n nearest neighbours. Lestimateur propos par Rubin est en fait celui du voisin le plus proche. Considrer un nombre plus important de voisins aecte lerreur
256
quadratique moyenne de lestimateur, elle mme somme du carr du biais et de la variance de lestimateur. Lorsque le nombre dindividus considr augmente le biais augmente : on prend en compte des individus dont les caractristiques sont plus loignes que celle de lindividu trait. En revanche la variance baisse car on prend la moyenne sur un ensemble plus important dindividus. On peut montrer que le nombre optimal dindividus prendre en compte crot avec la taille de lchantillon. Lestimateur propos par Heckmann Ichimura and Todd (1998) est un estimateur noyau de la quantit E (y0 |T = 1, x = xe i). b (y0 |T = 1, x = xe ) = E i
Tj =0
Tj =0
z 1 dans cette expression Kh (z ) = h K h ou K est un noyau et h un paramtre appel la fentre. Le noyau est une fonction maximale en zro, positive en zro, symtrique autour de zro et dintgrale unitaire (cette condition ne joue pas de rle dans le cas de lestimation dune fonction de rgression). Il existe de multiples exemples de noyau, par exemple le noyau uniforme valant 0.5 sur [1, 1] , Dans ce cas lestimateur non paramtrique correspondant consiste simplement prendre la moyenne des observations pour des individus dont les caractristiques se situent dans lintervalle [x hN , x + hN ] . Un autre exemple correspond (z ) la densit de la loi normale. Ce noyau prsente lavantage davoir < pour support Un noyau frquemment choisi en pratique dans le cas unidimensionnel est 2 le noyau quartique : K (z ) = 15 (1 z 2 ) 1 {|z | 1} 16 Dans les expressions prcdentes, h est la fentre. Plus elle est faible, moins on prend en compte les observations sloignant de xe i . Dans ce cas lestimateur sera trs peu prcis mais le biais sera en revanche faible. A linverse, lorsque la fentre slargit lestimateur considr devient plus prcis autour de sa valeur limite, mais cette valeur limite tend elle mme scarter de la quantit que lon cherche estimer. Le choix de la fentre est tel quil minimise lerreur quadratique moyenne, somme du carr du biais et de la variance de lestimateur. On peut montrer que lorsque elle est choisie comme une fonction croissante de la dispersion des variables x et dcroissante du nombre dindividu. Un choix possible pour la fentre est dans le cas unidimensionnel : h (N ) = x /N 1/5 . En gnral les estimateurs non paramtriques ont une vitesse de convergence plus faible que les estimateurs paramtriques. Ici le rythme de convergence est en Nh soit une vitesse de 2 convergence en N 5 . Finalement lestimateur de leet moyen du traitement sur les traits est estim par : b ( |T = 1) = E 1 N {Ti = 1} X yi X wN (j, i) yj
Kh (xj xe i ) yj X X Kh (xj xe i) P P i yj wN j, e = yj = Kh (xj xe K ( x x e ) i) h j i T =0 T =0

j
Tj =0
{Ti =1}
Tj =0
257
Bien que bas sur des estimateurs non paramtriques qui donc convergent lentement, Heckman Ichimura et Todd ont montr que la vitesse de convergence de cet estimateur est en N. Ceci tient au fait que lestimateur nal est une moyenne destimateurs non paramtriques. Il est dit semi -paramtrique. Lexpression de la variance de cet estimateur est complexe et son estimation partir de sa formule littrale ncessite l aussi le calcul dintermdiaires non paramtrique. En pratique, on dtermine la variance de cet estimateur par bootstrap. Ceci consiste tirer avec remise un grand nombre dchantillons alatoires dans la population, et appliquer sur chacun de ces chantillons toute la procdure destimation. La distribution des estimateurs que lon obtient in ne est la distribution exacte de lestimateur. On peut lutiliser pour dterminer les carts-type ou les intervalles de conance. L aussi la proprit de Rubin est trs importante. En eet elle autorise procder la rgression non paramtrique sur la seule variable que constitue le score s (x) . b (y0 |T = 1, s (x) = s (xe)) et non On est ainsi amen calculer pour chaque individu : E i b (y0 |T = 1, x = xe ) . Cette simplication ne remet pas en cause la validit de lesplus E i timateur alternatif bas sur lappariement sur chacune des caractristiques. La vitesse de convergence nest pas plus leve avec lun quavec lautre estimateur. Nanmoins le nombre dobservations ncessaires pour que ce comportement asymptotique soit obtenu est vraisemblablement plus faible avec lappariement sur le score. Cet estimateur apparat plus able ce titre. Remarque : Les rsultats prcdents peuvent tre appliqus en sens inverse pour apparis chaque individu non trait avec un (des) individus traits. On estime alors E ( |T = 0, xi X ) . On peut donc par appariement estimer leet moyen du traitement. Pondrations Une dernire mthode destimation est base sur des pondrations. Proposition Sous lhypothse dindpendance faible conditionnelle aux observables, leffet moyen du traitement vrie la relation (1 T ) T E (c) = E y P (x) (1 P (x)) Sous lhypothse dindpendance faible conditionnelle aux observables, leet du traitement sur les traits vrie la relation P (x) T (1 T ) E (c |T = 1) = E y P (T = 1) P (x) (1 P (x)) Dmonstration En eet, les proprits dindpendance conditionnelles permettent didentier trs simplement les esprances des outputs potentiels. yk T |x = E (yk 1 (T = k) |x ) = E (yk |x ) E ((1 (T = k)) |x ) = E (yk |x ) P (T = k |x )
258 On a donc :
1 (T = k) E (yk |x ) = E yk |x P (T = k |x ) Do la premire relation. Par ailleurs on a E (y0 T |x ) = P (x) E (y0 |T = 1, x ) = P (x) E (y0 |T = 1, x ) E 1T |x = E P (x) E (y0 |T = 1, x ) 1 P (x)
1T |x 1 P (x)
Do
Comme E (y0 |T = 1, x ) = E (y0 |T = 0, x ) 1T E (y0 |T = 1) = E P (x) E (y0 |T = 1, x ) P (T = 1) 1 P (x) 1T P (T = 1) = E P (x) E (y0 |T = 0, x ) 1 P (x) 1T = E E P (x) y0 |T = 0, x P (T = 1) 1 P (x) 1T = E P (x) y0 P (T = 1) 1 P (x)
E (y0 T ) = E (y0 |T = 1) P (T = 1) = E P (x) E (y0 |T = 1, x )
1T 1 P (x)
13.3.4
Vraisemblance de lhypothse dindpendance conditionnelle des observables.
en outre : l (z1 , z2 |w1 , w2 ) = l (z1 |w1 , w2 ) l (z2 |w1 , w2 ) = l (z1 |w1 , w2 ) l (z2 |w1 ) , do : Z Z l (z1 |w1 , w2 ) l (z2 |w1 ) l (w2 |w1 ) dw2 = l (z2 |w1 ) l (z1 |w1 , w2 ) l (w2 |w1 ) dw2 l (z1 , z2 |w1 ) = = l (z2 |w1 ) l (z1 |w1 )
Plusieurs questions se posent concernant la mthode par appariement. La premire concerne de savoir sil est raisonnable de faire lhypothse dindpendance conditionnelle des observables. La deuxime est comment choisir en pratique les variables de conditionnement ? Faut-il retenir toute linformation disposition ? On prsente dabord un rsultat permettant de rpondre en partie ces questions : Proposition z1 z2 |w1 , w2 et w2 z2 |w1 = z1 z2 |w1 Dmonstration En eet : Z l (z1 , z2 |w1 ) = l (z1 , z2 |w1 , w2 ) l (w2 |w1 ) dw2
13.3. INDPENDANCE CONDITIONNELLES DES OBSERVABLES Prise en compte deets individuels : lapport de donnes temporelles
259
Lhypothse dindpendance conditionnelle des observables a en fait peu de chance dtre satisfaite ds lors que les variables sont en niveau. Il y a en eet une htrognit trs forte dans les situations individuelles. Il est peu vraisemblable que lon puisse par adjonction de variable de contrle puiser toute la partie de cette htrognit qui est prise en compte dans la dcision de participation. La majeur partie de cette htrognit correspond la prsence de caractristiques inobserves permanentes dans le temps semblable un eet individuel. Les rsultats dont on dispose en conomtrie des donnes de panel montrent bien que premirement, les eets individuels ont une trs forte variance, mme dans les modles dans lesquels on a cherch introduire de nombreux contrles et que deuximement lhypothse dindpendance entre les variables explicatives et les eets individuels est trs frquemment rejete. Une hypothse plus vraisemblable consisterait introduire dans les variables de conditionnement un terme dhtrognit constant dans le temps :
HF orte HF aible
: y0 , y1 T |x, u : y0 T |x, u
Prendre en compte cette htrognit dans le cadre prcdent nest pas directement possible justement parce quelle est inobservable. Nanmoins, linstar de ce qui est eectu dans le cadre de lconomtrie des donnes de panel, elle peut tre limine par direntiation. Plus prcisment, prenant par exemple le cas de lindpendance faible, on a la proposition suivante qui dcoule directement de la proposition prcdente : Proposition Dans le cas o il existe un lment inobserv u tel que la condition y0 T |x, u est vrie. Si : 1. Il existe des observations disponibles y p de loutput antrieures au traitement 3. y0 y p u |x , 2. y0 y p T |x, u , ce qui est vrai ds lors que y p {x} dans la condition y0 T |x, u alors la condition dindpendance, y0 y p T |x est vrie
260
On voit que dans ce cas leet individuel peut tre limin par direntiation et on retrouve une proprit dindpendance conditionnelle des observables. En pratique, ceci revient introduire les variables passes de loutput dans la liste des variables de conditionnement et considrer comme variable doutput non les outputs eux mmes, mais leur volutions. Notant y1 = y1 y p et y0 = y0 y p , on estime E (y1 y0 |T = 1, x ) = E ((y1 y p ) (y0 y p ) |T = 1, x ) = E (y1 y0 |T = 1, x ) qui est donc bien le paramtre cherch. Slection des observables On peut tre tent de considrer un grand nombre de variables de conditionnement. Ceci nest pas ncessairement une bonne proprit comme on le verra et il vaut mieux chercher lensemble de variables de conditionnement le plus petit possible tel que la condition dindpendance soit satisfaite. Proposition Supposons y0 , y1 T |x1 , x2 Si seule une partie de ces variables aecte la variable de traitement : T x2 |x1 Alors on a y0 , y1 T |x1 La liste des variables de conditionnement peut tre ampute de toutes les variables qui naectent pas la variable de traitement, ce qui peut tre aisment test sur les donnes. Problme de support La question du support des distributions du score conditionnellement au traitement est essentielle dans ce type danalyse. Son importance a t souligne par Heckman et al. (1998) qui ont montr quelle constitue une source forte de biais dans lestimation de leet causal du traitement. Dans les mthodes destimation par appariement ou par rgression, il est ncessaire de pouvoir construire pour chaque individu trait un contrefactuel partir des individus non traits, cest--dire de pouvoir estimer E (y |s, T = 0) pour dterminer leet causal du traitement sur la population des individus traits. En outre, il est ncessaire destimer E (y |s, T = 1) ds quon sintresse leet causal du traitement dans la population totale. Une estimation non paramtrique de cette quantit, donc sans restriction sur la forme quelle prend, impose que lon dispose pour un individu trait de score s dindividus non traits ayant des valeurs du score proche de s. Dit dune autre manire, la densit du
261
score pour les individus non traits ne doit pas tre nulles pour les valeurs du score des individus traits considrs. On ne peut donc construire de contrefactuel que pour les individus dont le score appartient lintersection des supports de la distribution du score des individus traits et des individus non traits. Ceci conduit la conclusion que mme sous lhypothse dindpendance conditionnelle des observables, on ne peut pas systmatiquement estimer E () ou E ( |T = 1) dans la mesure o E ( |s ) ne peut tre estim que pour les individus dont le score appartient au support commun de la distribution du score pour les individus traits et non traits. Lestimateur obtenu in ne est alors un estimateur local : E (c |s S ) ou E (c |s S , T = 1), avec S le support commun dni par S = ST =1 ST =0 avec ST =1 le support de la distribution du score des individus traits et ST =0 celui des individus non traits.
f(s) f(s) f(s|T=0) Support commun f(s|T=1)
Cette condition du support a une autre implication : le modle servant la construction du score, cest dire expliquant le traitement partir des variables de conditionnement, ne doit pas tre trop bon. Dans le cas extrme o on expliquerait parfaitement le traitement, les densits du score conditionnellement au traitement seraient toutes deux des masses de Dirac, lune en zro pour les individus non traits, lautre en 1 pour les individus traits. Les supports seraient alors disjoints et aucun appariement ne serait possible. Pour bien comprendre cette condition importante du score, il faut garder prsente lesprit lide initiale de Rubin : conditionnellement un ensemble de variables explicatives x (ou le score), on se trouve dans le cas dune exprience contrle, cest dire dans laquelle on dispose dindividus traits et non traits qui sont aects alatoirement chacun de ces groupes. Il faut dans chaque cellule dans laquelle on se trouve dans des conditions dexprience quil y ait un fort ala sur laectation au traitement. La persistance de cette composante alatoire de laectation au traitement conditionnellement des observables est ainsi essentielle dans la procdure dappariement. Remarque Il peut tre utile dutiliser des restrictions a priori. Les modles prcdents sont en eet purement statistiques. Frquemment on a une ide de modlisation de la
262
variable doutput partir dun ensemble de variables explicatives. y0 = r + u0 avec r u0 Le problme dendognit provient alors du fait que la variable de traitement est corrle la perturbation conditionnellement r. On peut supposer que la proprit dindpendance est vraie lorsque lon adjoint un ensemble de variables z r. u0 T |r, z On fait lhypothse r T |z , ce qui revient supposer P (T = 1 |r, z ) = P (T = 1 |z ) = P (z ) . En outre on tend la condition dindpendance : r u0 r u0 |z . Dans ces conditions on a le rsultat suivant E (y0 |T, r, P (z )) = r + h (P (z )) En eet Comme u0 T |r, z on a en raison de la proprit de Rubin et Rosenbaum u0 T |P (T = 1 |r, z ) . et P (T = 1 |r, z ) = P (T = 1 |z ). On a donc : u0 T |P (z ) , r do o la dernire galit provient du fait que r u0 |z . On peut donc transposer tous les estimateurs prcdents au cas prsent. On peut en particulier procder comme suit. On estime dabord le paramtre . Pour cela on remarque que comme : E (y |T = 0, r, P (z )) = r + h (P (z )) on a En prenant la dirence des deux quations, on en dduit : E (y |T = 0, P (z )) = E (r |T = 0, P (z )) + h (P (z )) E (u0 |T, r, P (z )) = E (u0 |r, P (z )) = E (u0 |P (z )) E (y0 |T, r, P (z )) = r + E (u0 |T, r, P (z ))
E (y E (y |T = 0, P (z )) |T = 0, r, P (z )) = (r E (r |T = 0, P (z ))) Dont on dduit que E (y E (y |T = 0, P (z )) |T = 0, r ) = (r E (r |T = 0, P (z ))) Ce qui signie quon peut estimer en rgressant simplement les rsidus des rgressions b (y |T = 0, P (z )) et r E b (r |T = 0, P (z )) lun sur lautre. La non paramtriques y E fonction h peut alors tre estime partir y r . En eet : E (y r |T = 0, r, P (z )) = h (P (z )) = E (y r |T = 0, P (z ))
13.4. LE MODLE DE SLECTIVIT SUR INOBSERVABLES Le contrefactuel pour un individu trait i de caractristiques ri et Pi est alors K (P P ) X h j i b+ 1 b P b (y0i |T = 1, ri , Pi ) = ri yj rj E N0 T =0 Kh (Pj Pi )
j
263
Tj =0
et lestimateur de leet du traitement est alors
K (P P ) X X h j i b 1 b P b TT = 1 yj rj yi ri N1 T =1 N0 T =0 Kh (Pj Pi )
i j
Tj =0
13.4
Le modle de slectivit sur inobservables
Lapproche prcdente prsente des attraits non ngligeables. Le premier est quelle est assez naturelle : on compare des individus traits et non traits aussi similaires que possible. Le second avantage est quelle ne ncessite pas la modlisation du comportement des agents. En revanche, elle prsente des limites certaines. Ainsi elle nest pas toujours ralisable. Lobtention de la condition dindpendance peut requrir lintroduction dun grand nombre de variables de conditionnement qui ne sont pas toujours accessibles d0 une part et rduisent aussi la pertinence de lanalyse dans la mesure o les possibilits de comparaison dun individu lautre se rduisent lorsque lon explique de mieux en mieux laectation au traitement, i.e. lorsque crot le nombre de variables de conditionnement. Enn et surtout, les mthodes dappariement sur observables prsentent un caractre mcanique qui fait reposer lvaluation sur une proprit purement statistique, en pratique dicile justier partir du comportement des agents. Dans une certaine mesure lintrt que prsente le fait de ne pas modliser les comportements comporte aussi un revers qui est celui de conduire des valuations dont les fondements peuvent paratre peu tays. Il peut tre prfrable de modliser les output potentiel et la dcision de participation de faon jointe. On parvient alors au modle de slectivit sur inobservable. On lcrit sous la forme suivante. Les deux outputs potentiels y1 et y0 sont modliss sous la forme : y1 = 1 + r 1 + u1 y0 = 0 + r 0 + u0 On modlise galement laectation au traitement par le biais dune variable latente, T : T = zc + v T = 1 T 0 T peut reprsenter par exemple le gain net du cot du traitement c (z, ) + : T = y1 y0 c (z, )
264
La principale hypothse identiante eectue consiste supposer lindpendance entre les variables de conditionnement et les lments inobservs. (u1 , u0 , v) (x, z ) Denition Le modle de slectivit sur inobservable est dni par la modlisation jointe des outputs potentiels et de laectation au traitement y1 = 1 + r 1 + u1 y0 = 0 + r 0 + u0 T = 1 zc + v 0 avec en outre lhypothse dindpendance (u1 , u0 , v) (r, z ) Remarque Ces hypothse sont trs direntes de celle du modle de slectivit sur observables. Dans le modle de slectivit sur observables, on faisait lhypothse que la corrlation entre la variable de traitement T et les lments inobservs u0 pouvait tre limine par en introduisant des variables de conditionnement supplmentaires. Ces variables taient par dnition des variables aectant la fois le traitement et la perturbation. Lhypothse est ici diamtralement oppose dans la mesure ou elle consiste dire qu linverse il existe une variable z aectant le traitement mais pas les lments inobservs. Elle est donc trs proche dune variable instrumentale, alors que dans lapproche prcdente il sagissait de variable de contrle. Dans cette approche, le score P (T = 1 |r, z ) est encore amen jou un rle central. Sous les hypothses eectues le score ne dpend que des variables z. En eet P (T = 1 |r, z ) = P (zc + v > 0 |r, z ) = P (zc + v > 0 |z ) = P (z ) Toutefois, ces hypothses ne sont pas susantes pour assurer lidentication des paramtres dintrt et il existe en fait une dirence importante avec les variables instrumentales, sur laquelle on reviendra plus tard. Les paramtres dintrt sont dnis par : AT E = E (y1 y0 ) = E (1 0 + r ( 1 0 )) T T = E (y1 y0 |T = 1) = E (y1 (0 + r 0 + u0 ) |T = 1)
13.4.1
Expression des paramtres dintrt dans le cas gnral
Proposition Dans le cas du modle de slectivit sur inobservables, si les fonctions de rpartition de v est strictement croissante, il existe deux fonctions K0 (P (zc)) et
13.4. LE MODLE DE SLECTIVIT SUR INOBSERVABLES K1 (P (zc)) telles que E (y0 |T = 0, r, z ) = 0 + r 0 + K0 (P (zc)) E (y1 |T = 1, r, z ) = 1 + r 1 + K1 (P (zc)) Les paramtres dintrt sont alors dnis par
TT
265
AT E o
1 P (z ) K0 (P (zc)) = E y 0 + r 0 T = 1 P (z ) = E (1 0 + r ( 1 0 )) P (zc) = P (T = 1 |r, z )
Dmonstration La forme des fonctions retenues est une application directe du modle de slection sur inobservables vu prcdemment. Pour ce qui concerne le paramtre T T , lidentication porte donc essentiellement sur loutput potentiel y0 . Les donnes sur cet output concernent les individus pour lesquels T = 0. On a : E (y0 |T = 0, r, z ) = 0 + r 0 + E (u0 |T = 0, r, z ) = 0 + r 0 + K0 (P (zc)) et on souhaite identier E (y0 |T = 1, r, z ) = 0 + r 0 + E (u0 |T = 1, r, z ) Les quantits E (u0 |T = 0, r, z ) et E (u0 |T = 1, r, z ) sont lies par : 0 = E (u0 |r, z ) = E (u0 |T = 0, r, z ) (1 P (zc)) + E (u0 |T = 1, r, z ) P (zc) do E (u0 |T = 1, r, z ) = (1 P (zc)) K0 (P (zc)) P (zc)
En toute gnralit on ne peut donner la forme des fonctions K0 et K1 . Elle font en eet intervenir la loi jointe des lment (u0 , v) et (u1 , v) . Ceci est lorigine dun problme important pour lestimation puisque comme les expressions prcdentes le montrent clairement, il est ncessaire de pouvoir sparer les fonctions K des constantes . On va voir dabord comment il est possible de rsoudre ce problme en spciant la loi jointes des observations. Puis on examinera le cas dans lequel on ne fait pas dhypothse et on verra quil faut des conditions particulires et au total assez restrictives pour identier chacun des deux paramtres dintrt.
266
13.4.2
Le cas Normal
La spcication de la loi jointe des observations comme des lois normales permet didentier aisment le modle. On peut soit recourir la mthode du maximum de vraisemblance soit recourir une mthode en deux tapes due lorigine Heckman, base sur les rsultats prcdents. Cest cette dernire mthode que lon prsente car elle est dun emploi plus facile et est directement lie la prsentation prcdente. Elle prsente en outre un degrs de gnralit lgrement suprieure. On reprend le modle doutputs potentiels prcdents :
y1 = 1 + r 1 + u1 y0 = 0 + r 0 + u0 avec la rgle daectation au traitement base sur la variable latente, T : T = zc + v T = 1 T 0 Outre lhypothse dindpendance dj voque, on fait lhypothse que les deux couples (u0 , v ) et (u1 , v ) suivent une loi normale. Les rsultats prcdents permettent dcrire que : (zc) 1 E (y1 |r, z, T = 1) = 1 + r 1 + 1 1 (zc) E (y0 |r, z, T = 0) = 0 + r 0 0 0 Par rapport aux expressions obtenues dans le cas gnral E (y0 |T = 0, r, z ) = 0 + r 0 + K0 (P (zc)) et compte tenu du fait que P (zc) = (ze c) , on voit que le fait de spcier la loi des observations comme une loi normale revient imposer que les fonctions K0 (P (zc)) et K1 (P (zc)) ont pour expressions : K0 (P (zc)) = 0 0 1 (P (zc)) 1 P (zc) 1 (P (zc)) K0 (P (z )) = 1 1 P (zc)
13.4. LE MODLE DE SLECTIVIT SUR INOBSERVABLES
267
Elle ne dpend donc que dun paramtre supplmentaire 0 0 . Les paramtres dintrt T T et AT E ont alors pour expressions : 1 P (z ) TT K0 (P (zc)) = E y 0 + r 0 T = 1 P (z ) 1 (P (zc)) = E y 0 + r 0 + 0 0 T = 1 P (zc) = E y 0 + r 0 + 0 0 (ze c) T = 1 AT E = E (1 0 + r ( 1 0 )) Mise en oeuvre : 1. Estimation du modle probit associ au traitement et dtermination des variables de biais (zc) et 1 (zc)
2. Estimation des rgressions sur chacune des populations traites et non traites : identication des paramtres 1 , 0 , 1 , 0 et des paramtres 1 u1 et 0 u0 . 3. Estimation des paramtres dintrt 1 X TT b b yi (zib = b 0 + ri 0 + d c) 00 N1 d =1 i X 1 b1 b0 b AT E = b1 b 0 + ri N
4. Calcul des carts-type, on doit prendre en compte le fait que le paramtres du modle Probit a t estim dans une premire tape.
13.4.3
Des extensions paramtriques simples
Comme dans le cas du modle de slection du chapitre prcdent, on peut tendre dabord les rsultats obtenus avec la loi normale des familles de lois plus gnrales. Loi quelconque donne pour le rsidu de lquation de slection. On a vu dans le chapitre prcdent que le modle de slection pouvait tre facilement tendu en considrant une loi quelconque pour lquation de slection. Elle donne alors lieu une probabilit de slection note P (z ) E (y |I = 1, x, z ) = xb + u 1 P (z ) P (z )
268
Ce rsultats se transposent directement au cas du modle causal. Les quations des outputs potentiels sont : 1 P (z ) 1 P (z ) 1 P (z ) E (y1 |T = 1, r, z ) = 1 + r 1 + 1 1 P (z ) P (T = 1 |z ) = P (z )
E (y0 |T = 0, r, z ) = 0 + r 0 0 0
Les paramtres dintrt ont alors pour expression : 1 (P (z )) TT T = 1 = E y 0 + r 0 + 0 0 P (z ) AT E = E (1 0 + r ( 1 0 )) Des lois plus gnrales que la loi normale On peut considrer le modle de slection prcdent en faisant lhypothse que les lments inobservs ont pour loi jointe une loi de Student de degrs et non pas une loi normale. On a vu dans le chapitre prcdent que ceci conduisait la spcication suivante pour lquation doutput : E (y |d = 1, x, z ) = xb +
2 1 1 + G (P (z )) g G (P (z )) 1 P (z )
L aussi les rsultats se transposent directement au cas du modle causal. Les quations des outputs potentiels sont :
2 1 1 + G (P (z )) g G (P (z )) E (y0 |T = 0, r, z ) = 0 + r 0 0 0 1 1 P (z ) 2 1 1 + G (P (z )) g G (P (z )) E (y1 |T = 1, r, z ) = 1 + r 1 + 1 1 1 P (z )
P (T = 1 |z ) = P (z )
Les paramtres dintrt ont alors pour expression : ! ! 2 1 1 + G ( P ( z )) G ( P ( z )) g T T = E y 0 + r 0 + 0 0 T = 1 1 P (z ) AT E = E (1 0 + r ( 1 0 )) On dispose ainsi dun ensemble trs vaste de possibilits destimation des paramtres correspondant direntes hypothses sur la loi des perturbations. Ces choix reviennent
269
tous introduire des termes dirents dans les quations des outputs potentiels. Ils ont des consquences importantes sur lestimation des paramtres dintrt. Il est en outre dicile de raliser des tests permettant dexaminer quelle spcication est prfrable dans la mesure o les hypothses ne sont pas embotes. On peut donc souhaiter estimer ces modles sans avoir recours la spcication de la loi jointe des perturbations.
13.4.4
Le modle de slection semi paramtrique.
On reprend le modle de slectivit sur inobservables : y1 = 1 + r 1 + u1 y0 = 0 + r 0 + u0 avec la modlisation de laectation au traitement : T = zc + v T = 1 T 0 on suppose comme prcdemment lindpendance entre les variables de conditionnement et les lments inobservs. (u1 , u0 , v) (x, z )
On a vu quen labsence dhypothses sur la loi jointe des perturbations, les quations des outputs potentiels prenaient la forme : E (y0 |T = 0, r, z ) = 0 + r 0 + K0 (P (z )) E (y1 |T = 1, r, z ) = 1 + r 1 + K1 (P (z )) avec K0 et K1 des fonctions non spcies. Les paramtres dintrt scrivent simplement comme :
TT
AT E
La dicult de lestimation est double. Dune part il est ncessaire destimer les paramtres et en laissant la fonction K non spcie. En deuxime lieu il faut estimer la fonction K elle mme. On procde en plusieurs tapes. Dans un premier temps, on estime le paramtre . Dans un deuxime temps, on estime la fonction G = + K . Enn dans un dernier temps on spare de K.
1 P (z ) K0 (P (z )) T = 1 = E y 0 + r 0 P (z ) = E (1 0 + r ( 1 0 ))
270 Identication des paramtres
Pour les paramtres 0 et 1 , on applique la mthode destimation de Robinson vue dans le chapitre prcdent. Ceci consiste prendre rappelons comme dans le thorme de Frish-Waugh, lcart des variables y et r leur esprance conditionnellement au score (la dirence avec le thorme de Frish-Waugh est quil ne sagit plus dune simple projection linaire). Il sut ensuite de rgresser le rsidus obtenu pour y sur ceux obtenus pour les variables r. Identication des constantes et des termes de biais de slectivit K0 et K1 . e 0 (P (z )) = 0 + K0 (P (z )) et Dans un premier temps on identie les quantits K b0 et on utilise le e 1 (P (z )) = 1 + K1 (P (z )). Pour cela on forme le rsidu v b0 = y r K fait que e 0 . Par la rgression non paramtrique du rsidu sur le score fournit un estimateur de K exemple pour une valeur donne de p0 de P (z ) on estime : P Kh (P (zj ) p0 ) v b0i j I0 b e K 0 (p0 ) = P Kh (P (zj ) p0 )
j I0
e 0 (P (z )) E (v0 |T = 0, P (z )) = E (y r 0 |T = 0, P (z )) = 0 + K0 (P (z )) = K
Pour identier les constantes p.e. 0 il est ncessaire de disposer de valeurs de P (z ) telle que K0 (P (z )) = 0. Il existe une possibilit didentication naturelle. On a les relations : K0 (0) = 0 et K1 (1) = 0 En eet, on utilise le fait que E (u0 |z ) = 0 et E (u1 |z ) = 0. Pour la fonction K0 par exemple, on a E (u0 |z ) = 0 = E (u0 |z , T = 1) P (z ) + E (u0 |z , T = 0) (1 P (z )) et la fonction K0 est dnie par : K0 (P (z )) = E (u0 |z, T = 0) On a donc : E (u0 |z , T = 1) P (z ) + K0 (P (z )) (1 P (z )) = 0 On a donc bien K (0) = 0 :
271
Une faon de tirer parti de ces restrictions est de considrer la moyenne desrsidus b0 pour les individus non traits ayant une faible probabilit dtre trait. Plus y r prcisment, un estimateur de la constante 0 pourrait tre : P b0 (1 Ti ) 1 (zib c < yi ri n) i P b0 = (1 Ti ) 1 (zib c < n)
i
est une suite tendant vers .
Remarque Ces hypothses permettent didentier linni la constante 0 , et donc la fonction K0 () . Il est possible didentier ainsi E (y0 ) et E (y0 |T = 1) . Ces hypothses susent donc pour identier . On peut remarquer que dans ce cas la dtermination du paramtre dintrt fait intervenir la dtermination de la fonction K0 en chaque point du support du score pour les individus traits. La forme nale de lestimateur est ainsi P b0 Kh (P (zj ) P (zi )) yj rj X b0 + 1 P (zi ) j I0 P yi b TT = 1 b b r 0 i 0 N1 P (zi ) Kh (P (zj ) P (zi ))
Ti =1
Dans ce cas il est possible didentier la constante 1 et donc la fonction K1 . On peut sous lensemble de ces hypothses identier le paramtre E (y1 ) et donc leet moyen du traitement qui sera simplement dni comme i Xh b1 b0 b AT E = 1 b1 b 0 + ri N i En pratique la probabilit de recevoir le traitement est souvent concentre vers des valeurs faibles. Si les hypothses sur les queues de distribution, concernant lidentication de 0 sont vraisemblables, il nen est pas de mme de celles concernant lidentication de 1 . Il est donc vraisemblable quen gnral lidentication de leet moyen du traitement chappe ce type dapproche.
b0 Kh (P (zj ) P (zi )) yj rj 1 X b0 b0 + 1 P (zi ) j I0 P yi = r i N1 T =1 P (zi ) P (zi ) Kh (P (zj ) P (zi ))

i
j I0
j I0

Econométrie Cours de Bruno Crepon

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Econométrie Cours de Bruno Crepon

Uploaded by

Copyright:

Available Formats

ECONOMETRIE LINEAIRE

Bruno Crpon Novembre 2005

Table des matires

iv 3.3 3.4 3.5 3.6

TABLE DES MATIRES 6.2.3

vii 188 189 189 191

192 193 194 194 195 199

. 250 . 252 . 252 . . . . . . 258 263 264 266 267 269

Do vient le modle ? - 1 de la thorie conomique

1.3. LES DONNES

Estimer le modle cest trouver une fonction des observations y et x

1.5. POURQUOI ESTIMER LE MODLE ?

Pourquoi estimer le modle ?

Do vient le modle ? - 2 de relations stochastiques

Chapitre 2 Lestimateur des moindres carrs ordinaires

Dnition et proprits algbriques

CHAPITRE 2. LESTIMATEUR DES MOINDRES CARRS ORDINAIRES

2.1. DFINITION ET PROPRITS ALGBRIQUES

CHAPITRE 2. LESTIMATEUR DES MOINDRES CARRS ORDINAIRES

De la deuxime quation on tire directement la deuxime partie du thorme 1 0 b x2 y x1b b1 b2 = x2 0 x2

Dmonstration Les coecients de la rgression de y sur x = x1 , x2 satisfont 0 b b x1 y x1 b1 x2 b2 = 0 x2 0 y x1b b1 x2b b2 = 0

2 = Mx2 . Do lexpression de b b1 compte tenu de Mx 2

2.2. MODLE ET PROPRITS STATISTIQUES

Modle et proprits statistiques

Quand lestimateur des mco est-il sans biais ?

= (x0 x) x0 (xb + u) 1 = b + (x0 x) x0 u

CHAPITRE 2. LESTIMATEUR DES MOINDRES CARRS ORDINAIRES

Quelle est la prcision de lestimateur des mco ?

Lestimateur des mco est-il le plus prcis : le thorme de Gauss-Markov

CHAPITRE 2. LESTIMATEUR DES MOINDRES CARRS ORDINAIRES

b |x = 2 (x0 x)1 , on a comme Ax = IK +1 et V b

et la matrice AMx A0 est ncessairement semi-dnie ngative

2.2. MODLE ET PROPRITS STATISTIQUES

Estimation des paramtres du second ordre

Proposition Sous les hypothses H1 H4, lestimateur P 2 bn b u b0 u 2 nu = b = N K 1 N K 1

et Mx = IN x (x0 x)1 x0 do 1 1 T r (Mx ) = T r IN x (x0 x) x0 = N T r x (x0 x) x0 0 1 0 = N T r (x x) x x = N K 1

CHAPITRE 2. LESTIMATEUR DES MOINDRES CARRS ORDINAIRES La prvision de yN +1 est

2.3. VARIABLE OMISE ET RGRESSEUR ADDITIONNEL

Variable omise et rgresseur additionnel

CHAPITRE 2. LESTIMATEUR DES MOINDRES CARRS ORDINAIRES

Chapitre 3 Les MCO sous lhypothse de normalit des perturbations.

Normalit de lestimateur des mco

Ecart-types estims, tests et intervalles de conance

et est indpendant de lestimateur des mco b bmco .

3.2. ECART-TYPES ESTIMS, TESTS ET INTERVALLES DE CONFIANCE

b / k N (0, 1) . En outre le rsultat ) . On en dduit donc que b b Ici b bk N (bk , 2 k k k

3.2. ECART-TYPES ESTIMS, TESTS ET INTERVALLES DE CONFIANCE

On a alors le rsultat suivant

Proposition Considrant la statistique

le test dni par la rgion critique o n o n b b b b W = S S < tN K 1 (1 /2) S S > tN K 1 (1 /2)

0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -5 -3 -1 1 3 5

Fig. 3.1 Distribution de Student pour 5 et 500 degrs de libert

et a rgion critique du test est ) ( ) ( b b b1 b1 N < qn,/2 N > qn,1/2 W = / x / x

Comparaison avec lestimateur du Maximum de Vraisemblance

36CHAPITRE 3. LES MCO SOUS LHYPOTHSE DE NORMALIT DES PERTURBATIONS.

Fig. 3.2 Fonction de puissance du test de Student en fonction du nombre dobseravtions

Annexe : Distribution de la norme de la projection dun vecteur normal

38CHAPITRE 3. LES MCO SOUS LHYPOTHSE DE NORMALIT DES PERTURBATIONS.

Chapitre 4 Estimation sous contraintes linaires

CHAPITRE 4. ESTIMATION SOUS CONTRAINTES LINAIRES

On considre le modle linaire : y =xb+u

CHAPITRE 4. ESTIMATION SOUS CONTRAINTES LINAIRES

LEstimateur des Moindres Carrs Contraints (MCC)

et sexprime simplement partir de bmco