Métodos Estadísticos para Economía y Empresa

Mtodos estadsticos para Economa y
Empresa
Rigoberto Prez y Ana Jess Lpez
rigo@uniovi.es , anaj@uniovi.es
Octubre 2011
2
A nuestras familias y amigos
ISBN13 978-84-694-9009-9
Depsito Legal: AS-04398-2011
Edicin 2011
Revisin V.1.0
This work is licensed under a Creative Commons Attribution-NonCommercial-
NoDerivs 3.0 Unported License.
3
Breve resea de autores
Los autores de este libro son profesores del Departamento de Economa Aplicada de
la Universidad de Oviedo (Unidad de Estadstica y Econometra).
https://sites.google.com/a/uniovi.es/libros/meee
Rigoberto Prez Surez es Catedrtico de Universidad y su
amplia experiencia docente incluye asignaturas de Estadstica
Econometra y Series temporales tanto en primer y segundo ci-
clo como en doctorados y msteres. Es autor de varios libros de
texto (Nociones Bsicas de Estadstica, Anlisis de datos econ-
micos I: Mtodos descriptivos, Anlisis de datos econmicos II:
Mtodos inferenciales) y del software docente ADE+, as como
de numerosas publicaciones relativas a la innovacin educativa y
el e-learning.
Tambin ha sido Director de Area de Innovacin de la Universi-
dad de Oviedo (2000-2006) y Director del Campus Virtual Com-
partido del grupo G9 (2004-2006).
En el mbito investigador es autor de diversas publicaciones en
revistas de impacto y ha dirigido numerosas tesis doctorales y
proyectos de investigacin, generalmente referidos a la predic-
cin econmica y al anlisis de la desigualdad.
Ana Jess Lpez Menndez es Profesora Titular de Univer-
sidad y su docencia abarca asignaturas de Estadstica, Econo-
metra y Series temporales, tanto en la Universidad de Oviedo
como el el Campus Virtual Compartido G9. Tambin ha sido
profesora visitante en universidades de Reino Unido, Hungra y
Cuba. Es autora de los manuales Anlisis de datos econmicos I:
Mtodos descriptivos y Anlisis de datos econmicos II: Mtodos
inferenciales, as como de numerosas publicaciones relativas a la
innovacin educativa y el e-learning.
En el mbito investigador es autora de diversos artculos publi-
cados en revistas de impacto, ha dirigido seis tesis doctorales y
ha participado en numerosos proyectos de investigacin.
4
ndice general
I. Probabilidad 12
1. Incertidumbre y probabilidad 13
1.1. Deniciones de probabilidad . . . . . . . . . . . . . . . . . . . . . . . 13
1.1.1. Probabilidad clsica . . . . . . . . . . . . . . . . . . . . . . . . 14
1.1.2. Probabilidad frecuencial . . . . . . . . . . . . . . . . . . . . . . 15
1.1.3. Probabilidad subjetiva . . . . . . . . . . . . . . . . . . . . . . . 16
1.2. La probabilidad y su cuanticacin . . . . . . . . . . . . . . . . . . . . 18
1.3. Denicin axiomtica de la probabilidad . . . . . . . . . . . . . . . . . 22
1.3.1. Propiedades elementales de la probabilidad . . . . . . . . . . . 25
1.4. Probabilidad condicionada e independencia . . . . . . . . . . . . . . . 27
1.4.1. Probabilidad condicionada . . . . . . . . . . . . . . . . . . . . . 27
1.4.2. Independencia en probabilidad . . . . . . . . . . . . . . . . . . 29
1.5. Probabilidad total y teorema de Bayes . . . . . . . . . . . . . . . . . . 31
1.5.1. Sistema completo de sucesos . . . . . . . . . . . . . . . . . . . 32
1.5.2. Teorema de la probabilidad total . . . . . . . . . . . . . . . . . 32
1.5.3. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . 33
2. Magnitudes aleatorias 35
2.1. Variable aleatoria. Variables discretas y continuas . . . . . . . . . . . . 35
2.2. Distribucin de probabilidad de una variable aleatoria . . . . . . . . . 40
2.2.1. Funcin de distribucin . . . . . . . . . . . . . . . . . . . . . . 41
2.2.2. Probabilidades de intervalos . . . . . . . . . . . . . . . . . . . 44
2.2.3. Funcin de probabilidad . . . . . . . . . . . . . . . . . . . . . . 45
2.2.4. Funcin de densidad . . . . . . . . . . . . . . . . . . . . . . . . 47
2.2.5. Variables aleatorias relacionadas: Cambio de variable . . . . . . 51
2.3. Caractersticas asociadas a variables aleatorias. Valor esperado y va-
rianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.4. Desigualdad de Chebyshev . . . . . . . . . . . . . . . . . . . . . . . . . 65
3. Modelos de probabilidad 68
3.1. Modelo Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.2. Distribuciones Geomtrica y Binomial negativa . . . . . . . . . . . . . 80
3.3. Modelo hipergeomtrico . . . . . . . . . . . . . . . . . . . . . . . . . . 86
3.4. Modelo Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.4.1. Caso discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5
ndice general
3.4.2. Caso continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
3.5. Modelo Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
3.5.1. Modelo Normal estndar . . . . . . . . . . . . . . . . . . . . . 94
3.5.2. Modelo Normal general . . . . . . . . . . . . . . . . . . . . . . 100
3.6. Algunos modelos especiales de probabilidad . . . . . . . . . . . . . . . 103
3.6.1. Sucesos raros: modelo de Poisson . . . . . . . . . . . . . . . . . 103
3.6.2. Tiempos de espera: modelo exponencial . . . . . . . . . . . . . 105
3.6.3. Modelos de distribucin de la renta . . . . . . . . . . . . . . . 108
3.6.3.1. Distribucin logaritmo normal . . . . . . . . . . . . . 109
3.6.3.2. Distribucin de Pareto . . . . . . . . . . . . . . . . . 110
3.6.3.3. Distribucin Gamma . . . . . . . . . . . . . . . . . . 112
4. Vectores aleatorios y distribuciones de agregados 114
4.1. Vectores aleatorios. Distribuciones k-dimensionales . . . . . . . . . . . 115
4.1.1. Variable aleatoria bidimensional . . . . . . . . . . . . . . . . . . 115
4.1.1.1. Funcin de distribucin bidimensional . . . . . . . . . 116
4.1.1.2. Funcin de probabilidad bidimensional . . . . . . . . . 116
4.1.1.3. Funcin de densidad bidimensional . . . . . . . . . . 117
4.1.1.4. Vectores aleatorios k-dimensionales . . . . . . . . . . . 118
4.2. Distribuciones marginales y condicionadas . . . . . . . . . . . . . . . . 119
4.2.1. Distribuciones marginales . . . . . . . . . . . . . . . . . . . . . 119
4.2.2. Distribuciones condicionadas . . . . . . . . . . . . . . . . . . . 125
4.3. Modelos probabilsticos k-dimensionales . . . . . . . . . . . . . . . . . 128
4.3.1. Distribucin Multinomial . . . . . . . . . . . . . . . . . . . . . 128
4.3.2. Distribucin Multihipergeomtrica . . . . . . . . . . . . . . . . 129
4.3.3. Distribucin Normal Multivariante . . . . . . . . . . . . . . . . 130
4.4. Variables aleatorias independientes . . . . . . . . . . . . . . . . . . . . 132
4.4.1. Reproductividad . . . . . . . . . . . . . . . . . . . . . . . . . . 137
4.5. Agregacin de variables aleatorias . . . . . . . . . . . . . . . . . . . . . 140
4.6. Teoremas lmites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
4.6.1. Leyes de los grandes nmeros . . . . . . . . . . . . . . . . . . . 147
4.6.2. Teorema central del lmite . . . . . . . . . . . . . . . . . . . . 149
II. Inferencia estadstica 154
5. Muestras y estimadores 155
5.1. Estudios muestrales. Conceptos bsicos . . . . . . . . . . . . . . . . . . 155
5.1.1. Poblacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
5.1.2. Muestras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
5.1.3. Subpoblaciones o estratos . . . . . . . . . . . . . . . . . . . . . 158
5.1.4. Muestreo probabilstico . . . . . . . . . . . . . . . . . . . . . . 159
5.2. Errores y diseo de encuestas . . . . . . . . . . . . . . . . . . . . . . . 162
5.2.1. Errores de encuesta . . . . . . . . . . . . . . . . . . . . . . . . 163
6
ndice general
5.2.2. Acuracidad y precisin . . . . . . . . . . . . . . . . . . . . . . 164
5.2.3. Diseo de encuestas y seleccin muestral . . . . . . . . . . . . . 164
5.3. Estadsticos y estimadores . . . . . . . . . . . . . . . . . . . . . . . . 167
5.3.1. Funcin de verosimilitud . . . . . . . . . . . . . . . . . . . . . 170
5.4. Propiedades de los estimadores . . . . . . . . . . . . . . . . . . . . . . 172
5.4.1. Ausencia de sesgo . . . . . . . . . . . . . . . . . . . . . . . . . 172
5.4.2. Eciencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
5.4.3. Mnima varianza . . . . . . . . . . . . . . . . . . . . . . . . . . 177
5.4.4. Suciencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
5.4.5. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
5.5. Mtodos de obtencin de estimadores . . . . . . . . . . . . . . . . . . . 185
5.5.1. Mtodo de la mxima verosimilitud . . . . . . . . . . . . . . . 185
5.5.2. Mtodo de los momentos . . . . . . . . . . . . . . . . . . . . . . 189
5.5.3. Mtodo de los mnimos cuadrados . . . . . . . . . . . . . . . . 190
5.6. Algunos estimadores habituales . . . . . . . . . . . . . . . . . . . . . . 191
5.6.1. Parmetro media poblacional . . . . . . . . . . . . . . . . . . 191
5.6.2. Parmetro varianza poblacional
2
. . . . . . . . . . . . . . . . 193
5.6.3. Parmetro proporcin poblacional p . . . . . . . . . . . . . . . 195
6. Herramientas inferenciales 197
6.1. Modelos probabilsticos asociados al muestreo . . . . . . . . . . . . . . 197
6.1.1. Distribucin Normal . . . . . . . . . . . . . . . . . . . . . . . . 198
6.1.2. Distribucin chi-cuadrado . . . . . . . . . . . . . . . . . . . . . 199
6.1.3. Distribucin t de Student . . . . . . . . . . . . . . . . . . . . . 207
6.1.4. Distribucin F de Snedecor . . . . . . . . . . . . . . . . . . . . 209
6.2. Procesos inferenciales y distribuciones asociadas . . . . . . . . . . . . . 215
6.2.1. Inferencias relativas a parmetros . . . . . . . . . . . . . . . . . 216
6.2.2. Inferencias sobre la media . . . . . . . . . . . . . . . . . . . . . 218
6.2.3. Inferencias sobre la varianza . . . . . . . . . . . . . . . . . . . 221
6.2.4. Inferencias sobre proporciones . . . . . . . . . . . . . . . . . . . 222
6.2.5. Inferencias sobre la diferencia de medias . . . . . . . . . . . . . 223
6.2.5.1. Diferencia de medias con datos pareados . . . . . . . . 224
6.2.5.2. Diferencia de medias con muestras independientes . . 225
6.2.6. Inferencias sobre la razn de varianzas . . . . . . . . . . . . . . 229
6.2.7. Inferencias sobre otras caractersticas . . . . . . . . . . . . . . . 230
6.2.8. Inferencias genricas sobre poblaciones . . . . . . . . . . . . . . 231
7. Estimacin 234
7.1. Estimacin puntual y por intervalos . . . . . . . . . . . . . . . . . . . 235
7.2. Intervalos de conanza. Construccin y caractersticas . . . . . . . . . 239
7.2.1. Construccin de intervalos de conanza . . . . . . . . . . . . . 239
7.2.2. Precisin de los intervalos . . . . . . . . . . . . . . . . . . . . . 242
7.2.2.1. Informacin sobre la poblacin . . . . . . . . . . . . . 243
7.2.2.2. Informacin muestral . . . . . . . . . . . . . . . . . . 244
7
ndice general
7.2.3. Nivel de conanza: Interpretacin . . . . . . . . . . . . . . . . . 245
7.3. Algunos intervalos de conanza particulares . . . . . . . . . . . . . . . 246
7.3.1. Intervalos de conanza para la esperanza . . . . . . . . . . . . . 246
7.3.2. Intervalos de conanza para la varianza . . . . . . . . . . . . . 249
7.3.3. Intervalos de conanza para la proporcin . . . . . . . . . . . . 250
7.3.4. Intervalos de conanza para combinaciones lineales de medias . 251
7.3.5. Intervalos de conanza para la razn de varianzas . . . . . . . . 252
7.3.6. Intervalos de conanza para la mediana . . . . . . . . . . . . . 253
7.4. Determinacin del tamao muestral . . . . . . . . . . . . . . . . . . . . 253
7.4.1. Tamao de muestra en intervalos para la esperanza . . . . . . . 254
7.4.2. Tamao de muestra en intervalos para la proporcin . . . . . . 255
8. Contraste de hiptesis 256
8.1. Conceptos bsicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256
8.1.1. Contraste de hiptesis e intervalos de conanza . . . . . . . . . 257
8.1.2. Contrastes de signicacin . . . . . . . . . . . . . . . . . . . . 259
8.2. Metodologa del contraste de hiptesis . . . . . . . . . . . . . . . . . . 264
8.2.1. Enunciado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264
8.2.2. Desarrollo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267
8.2.3. Conclusin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270
8.3. Contrastes de hiptesis bsicas . . . . . . . . . . . . . . . . . . . . . . 272
8.3.1. Hiptesis de m.a.s. . . . . . . . . . . . . . . . . . . . . . . . . . 272
8.3.1.1. Test de rachas . . . . . . . . . . . . . . . . . . . . . . 273
8.3.1.2. Test de rangos . . . . . . . . . . . . . . . . . . . . . . 275
8.3.1.3. Consecuencias del incumplimiento del supuesto de m.a.s.276
8.3.2. Contrastes de bondad de ajuste. Test de normalidad . . . . . . 276
8.3.2.1. Test de Bondad de Ajuste . . . . . . . . . . . . . . . . 277
8.3.2.2. Test de Kolmogorov-Smirnov . . . . . . . . . . . . . . 280
8.3.2.3. Test de normalidad de Jarque-Bera . . . . . . . . . . 282
8.4. Algunos contrastes paramtricos . . . . . . . . . . . . . . . . . . . . . 283
8.4.1. Contrastes sobre la media . . . . . . . . . . . . . . . . . . . . . 285
8.4.1.1. Extensin a poblaciones desconocidas . . . . . . . . . 288
8.4.2. Contrastes sobre la varianza . . . . . . . . . . . . . . . . . . . 289
8.4.3. Contrastes sobre la proporcin . . . . . . . . . . . . . . . . . . 291
8.4.4. Contrastes sobre medias de dos poblaciones . . . . . . . . . . . 292
8.4.5. Contrastes sobre varianzas de dos poblaciones . . . . . . . . . . 294
8.5. Algunos contrastes no paramtricos . . . . . . . . . . . . . . . . . . . . 295
8.5.1. Contrastes del modelo poblacional . . . . . . . . . . . . . . . . 295
8.5.2. Contrastes de independencia de dos poblaciones . . . . . . . . . 296
8.5.3. Contrastes de homogeneidad de poblaciones clasicadas segn
varias categoras . . . . . . . . . . . . . . . . . . . . . . . . . . 298
8.5.3.1. Prueba exacta de Fisher . . . . . . . . . . . . . . . . . 298
8.5.3.2. Contraste
2
de homogeneidad entre poblaciones . . . 300
8
ndice general
8.5.4. Contrastes de identidad de la poblacin a partir de muestras
independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . 302
8.5.4.1. Test de Mann-Whitney (M-W) . . . . . . . . . . . . 302
8.5.4.2. Test de Wald-Wolfowitz . . . . . . . . . . . . . . . . 304
8.5.4.3. Test de Kolmogorov-Smirnov para dos muestras . . . 304
8.5.4.4. Prueba de Kruskal-Wallis para r muestras . . . . . . . 304
8.5.5. Contrastes de cambios sucesivos sobre una poblacin . . . . . . 305
8.5.5.1. Test de McNemar . . . . . . . . . . . . . . . . . . . . 305
8.5.5.2. Prueba Q de Cochran . . . . . . . . . . . . . . . . . . 306
8.6. Anexo: Diseo de contrastes ptimos . . . . . . . . . . . . . . . . . . . 307
III. Introduccin a la Econometra 317
9. Modelos economtricos. El modelo lineal simple 318
9.1. Los modelos economtricos . . . . . . . . . . . . . . . . . . . . . . . . 318
9.2. El modelo de regresin lineal simple . . . . . . . . . . . . . . . . . . . 321
9.3. Estimacin de los parmetros de regresin . . . . . . . . . . . . . . . . 322
9.3.1. Estimacin mnimo cuadrtica . . . . . . . . . . . . . . . . . . 323
9.3.2. Estimacin mximo verosmil . . . . . . . . . . . . . . . . . . . 325
9.3.3. Caractersticas y propiedades de los estimadores . . . . . . . . 326
9.3.4. Construccin de las discrepancias tipicadas . . . . . . . . . . 328
9.3.5. Obtencin de intervalos de conanza . . . . . . . . . . . . . . . 329
9.4. Contrastes asociados a un modelo. Evaluacin de la bondad . . . . . . 330
9.5. Prediccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334
10.El modelo lineal mltiple 337
10.1. Estimacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338
10.1.1. Estimadores mnimo cuadrticos y mximo verosmiles . . . . . 340
10.1.2. Propiedades y caractersticas de los estimadores . . . . . . . . . 341
10.2. Contrastes y anlisis de la bondad del modelo . . . . . . . . . . . . . . 344
10.2.1. Contrastes individuales . . . . . . . . . . . . . . . . . . . . . . 344
10.2.2. Contrastes globales de signicacin . . . . . . . . . . . . . . . . 345
10.2.3. Bondad del modelo. Coecientes de determinacin . . . . . . . 346
10.2.4. Contrastes relativos a subconjuntos de parmetros . . . . . . . 349
10.2.5. Prediccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350
10.3. Modelos con variables cualitativas . . . . . . . . . . . . . . . . . . . . . 354
10.3.1. Variables explicativas cualitativas. . . . . . . . . . . . . . . . . 354
10.3.2. Variables cualitativas dependientes. Introduccin a los modelos
logit y probit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359
10.4. Alteracin de supuestos del modelo lineal . . . . . . . . . . . . . . . . 363
10.4.1. Errores de especicacin . . . . . . . . . . . . . . . . . . . . . . 364
10.4.1.1. Forma funcional del modelo . . . . . . . . . . . . . . . 364
9
ndice general
10.4.1.2. Omisin de variables explicativas relevantes e inclusin
de variables irrelevantes . . . . . . . . . . . . . . . . 365
10.4.1.3. Test de especicacin RESET de Ramsey . . . . . . . 367
10.4.2. Alteracin de las hiptesis sobre la perturbacin . . . . . . . . 368
10.4.2.1. Perturbaciones de media no nula . . . . . . . . . . . 368
10.4.2.2. Matriz de varianzas-covarianzas no escalar . . . . . . 368
10.4.2.3. Heteroscedasticidad. Deteccin y soluciones . . . . . . 372
10.4.2.4. Autocorrelacin. Contraste de Durbin-Watson . . . . 375
10.4.2.5. No normalidad . . . . . . . . . . . . . . . . . . . . . 379
10.4.3. Alteracin de las hiptesis estructurales . . . . . . . . . . . . . 380
10.4.3.1. Regresores estocsticos . . . . . . . . . . . . . . . . . 380
10.4.3.2. Matrices X de rango no pleno . . . . . . . . . . . . . 381
10.4.3.3. Multicolinealidad . . . . . . . . . . . . . . . . . . . . 382
10.4.3.4. Cambio estructural . . . . . . . . . . . . . . . . . . . 384
Bibliografa 386
Index 390
10
ndice general
PRESENTACIN
La informacin econmica forma parte de nuestra realidad cotidiana y afecta a nues-
tras vidas. Estadsticas como el Indice de Precios de Consumo (IPC), la tasa de paro
o los ndices burstiles son referencias habituales en los medios de comunicacin, por
lo que resulta imprescindible conocer su signicado y dominar las tcnicas estadsticas
necesarias para su correcta utilizacin.
Hace aproximadamente un ao, con motivo de la celebracin del primer Da Mun-
dial de la Estadstica (20-10-2010), la declaracin institucional de Naciones Unidas
destacaba la importancia de las estadsticas como herramienta para el desarrollo eco-
nmico y social, y su trascendente papel en la adopcin de decisiones gubernamentales,
empresariales y personales en una sociedad moderna.
Convencidos de la importancia de la Estadstica, presentamos ahora este texto, cu-
yo antecedente es el manual Anlisis de datos econmicos II- Mtodos inferenciales
publicado en 1997 por Ediciones Pirmide y actualmente descatalogado. Nuestro ob-
jetivo al elaborar Mtodos estadsticos para Economa y Empresa es contribuir a la
difusin de las tcnicas estadsticas, animados por nuestras experiencias previas, los
comentarios de nuestros colegas universitarios y las posibilidades que ofrecen las nue-
vas tecnologas para la elaboracin de un manual digital y su difusin a travs de la
Red.
Este libro se estructura en un total 10 captulos agrupados en tres partes, dedicadas
respectivamente a Probabilidad (captulos 1 a 4), Inferencia Estadstica (captulos 5 a
9) e Introduccin a la Econometra (captulos 9 y 10) y consideramos que sus conteni-
dos pueden ser de utilidad tanto para estudiantes universitarios de diversos grados del
mbito de las Ciencias Sociales (Administracin y Direccin de Empresas, Economa,
Contabilidad y Finanzas, Relaciones Laborales y Recursos Humanos, Comercio, . . . )
como para profesionales interesados en las tcnicas inferenciales de aplicacin habitual
en el contexto socioeconmico.
Con este nimo, el manual Mtodos estadsticos para Economa y Empresa estar
a partir de ahora disponible en la Red en formato pdf, de forma libre y gratuita,
accesible bajo licencia Creative Commons en el sitio web:
https://sites.google.com/a/uniovi.es/libros/MEEE
Gracias a todos los que, de un modo u otro, nos han acompaado en el camino
que ha conducido a este libro. Conamos en que sus contenidos resulten de utilidad y
agradecemos de antemano cualquier comentario o sugerencia.
11
Parte I.
Probabilidad
12
1. Incertidumbre y probabilidad
La probabilidad forma parte de nuestros esquemas habituales de razonamiento, pro-
porcionando un instrumento en el que a veces incluso inconscientemente nos apoyamos
para emitir opiniones o tomar decisiones.
En efecto, vivimos en un mundo incierto en el que debemos conformarnos con cuan-
ticar esa incertidumbre, habitualmente en trminos de probabilidad, conociendo as
el grado de creencia en nuestros resultados y conclusiones.
La probabilidad es el pilar bsico en el que descansa todo el proceso inductivo. De
ah la importancia de abordar su estudio desde varias pticas distintas: el concepto y
signicado de la probabilidad, su cuanticacin numrica y la axiomtica de la proba-
bilidad, marco formal que posibilita una modelizacin matemtica de los fenmenos
aleatorios.
Cualquiera de los aspectos sealados puede resultar de gran trascendencia, y de
hecho existe una bibliografa muy extensa sobre cada uno de ellos. Sin embargo, en
nuestros estudios la probabilidad tiene un carcter instrumental y no constituye un
n en s misma. Por ello, aun reconociendo la conveniencia de reexionar sobre el
signicado de la probabilidad, prestaremos aqu una atencin preferente a las reglas
de funcionamiento, las posibilidades y los riesgos de esta poderosa herramienta, que
acompaar como medida de credibilidad a nuestras conclusiones.
El origen de la probabilidad no es claro aunque los juegos de azar se practicaban desde muy antiguo
y las leyes de la combinatoria elemental, imprescindibles para la cuanticacin de probabilidades, eran
conocidas por los rabes y los matemticos del Renacimiento pero ms como una rama del lgebra
que en su contexto actual. En las obras de N.F. Tartaglia (1499-1557) y Galileo Galilei (1564-1642)
se recogen problemas de probabilidad y combinatoria relacionados con juegos de azar y existe una
abundante correspondencia entre B. Pascal (1623-1662) y P. Fermat (1601-1665) en la que, mediante
el estudio de juegos de azar, ambos matemticos sientan la base de los fundamentos de la probabilidad.
El primer tratado sobre probabilidades publicado corresponde a Christian Huygens (1654-1705) con
On reasoning in Games of Chance, obra que sirvi de estmulo a James Bernoulli, autor del texto
Ars Conjectandi, publicado en 1705 y de clara inuencia en todos los trabajos posteriores.
1.1. Deniciones de probabilidad
Los usuarios de la probabilidad no necesitan conocer con exactitud el concepto
al que responde este trmino, del mismo modo que para ser un buen jugador de
ajedrez o un excelente conductor no es necesario conocer la losofa implcita en
estas actividades, sino nicamente sus reglas de funcionamiento.
De hecho, a lo largo de su desarrollo histrico se ha generado una gran controversia
no solucionada sobre el signicado de la probabilidad.
13
1.1.1. Probabilidad clsica
La teora clsica de la probabilidad, originada directamente en los juegos de azar,
establece una denicin conectada a su cuanticacin. Este concepto, debido a Laplace
establece:
Denicin 1.1. La probabilidad de un suceso es el cociente del nmero de casos
favorables al suceso entre el total de casos posibles, supuestos igualmente verosmiles.
Este concepto de probabilidad, que suele denominarse de Laplace, se remonta sin embargo al
trabajo The Doctrine of Chances de De Moivre (1711) concebido como un manual para los interesados
en juegos de azar. Por el contrario, Pierre Simon, marqus de Laplace (1749 1827) elabor un total de
10 principios del clculo de probabilidades, entre los que gura por primera vez la denicin anterior,
que no se han visto alterados desde su obra Thorie Analitique des Probabilits (1812).
El concepto clsico, que ha dominado hasta principios del presente siglo, ha sido
objeto de diversas crticas debidas a su falta de rigor lgico (lo denido entra en la
denicin) y al supuesto de resultados igualmente verosmiles en el que se basa la
teora.
La justicacin de esta hiptesis viene dada por el principio de indiferencia, que deende la sime-
tra u homogeneidad de resultados en la situacin considerada, o bien por el principio de la razn
insuciente segn el cual, si no existe razn que favorezca alguno de los resultados con respecto a los
dems, admitiremos que todos tienen igual probabilidad. Sin embargo ninguno de estos principios
soluciona las dicultades planteadas por la denicin clsica, cuya aplicacin prctica se limita a un
mbito muy reducido (experimentos con nmero nito de resultados equiprobables).
Pese a sus limitaciones el esquema clsico de probabilidad est muy arraigado,
debido en gran medida a su conexin con los juegos de azar. As, nadie duda de
asignar probabilidad de
1
6
a cada una de las caras de un dado,
1
40
a cada carta de la
baraja espaola o
1
2
a los resultados cara y cruz al lanzar una moneda.
No obstante, es necesario ser prudente en la utilizacin de esta probabilidad ya que
en caso contrario pueden cometerse abusos y llegar a resultados incorrectos. As, a
modo de ejemplo, la cuanticacin de la probabilidad de seguir contratado se llevara
a cabo empleando este concepto clsico como cociente entre casos favorables (slo
uno) y posibles (slo dos: seguir contratado o no).
El uso indiscriminado del concepto clsico para cuanticar probabilidades puede
llevarnos, en el caso de que los resultados posibles no sean equiprobables, a conclu-
siones sorprendentes e incluso absurdas. De hecho, segn este mtodo, asignaramos
probabilidades del 50 % a sucesos del tipo llegar a ser premio Nobel, presenciar un
terremoto y en general a todos aquellos sucesos asociados a un experimento con dos
resultados.
No siempre resulta sencillo denir resultados simtricos o equiprobables garantizando as la apli-
cabilidad de la denicin clsica. Un ejemplo famoso es la discusin protagonizada por DAlembert,
Fermat y Pascal en torno a un juego sencillo: el lanzamiento de dos monedas, sobre el que se formula
la apuesta sacar al menos una cara. Segn el razonamiento seguido por DAlembert, la probabili-
dad de victoria sera
2
3
, ya que de los tres resultados posibles (ninguna cara, una cara, dos caras)
dos son favorables. Sin embargo, es necesario tener presente el principio de simetra inherente a la
14
probabilidad clsica. Este principio exigira describir los resultados del experimento mediante sucesos
equiprobables: cara cruz, cara cara, cruz cara, cruz cruz y, dado que de estas cuatro posibilidades
tres son favorables a la apuesta planteada, la probabilidad de xito sera
3
4
.
En otras ocasiones las inexactitudes son ms difciles de detectar. Supongamos una situacin ms
compleja que las anteriores, en la que una empresa concede a sus trabajadores ciertos permisos situa-
dos en das que la empresa denomina comodn. Con el objeto de garantizar a todos sus trabajadores
sea cual sea su horario y jornada laboral la posibilidad de disfrutar de este da, se acuerda que los
"comodines" sern situados en meses seleccionados al azar pero siempre el da 13.
Si un trabajador se preguntan cul es la probabilidad de que el comodn coincida en un viernes,
permitindoles as disfrutar de un largo n de semana, parece legtimo en un principio el supuesto
de equiprobabilidad y simetra que justica un resultado P(V iernes) =
1
7
, coincidente con el de
cualquier otro da de la semana.
La aplicacin de la probabilidad clsica no plantea en principio inconvenientes. Sin embargo, tras
un razonamiento ms sosticado se aprecia que, debido a los ajustes horarios y la conguracin de los
calendarios, los distintos das de la semana como justicaremos ms adelante no son equiprobables.
1.1.2. Probabilidad frecuencial
El enfoque frecuencial -tambin denominado frecuentista- de la probabilidad se sita
en una perspectiva experimental.
Denicin 1.2. Llamamos probabilidad frecuencial de un suceso al valor en torno al
cual tiende a estabilizarse su frecuencia relativa.
Esta idea de probabilidad slo es vlida bajo el supuesto de fenmenos aleatorios
experimentales (reproducibles bajo idnticas condiciones un nmero sucientemente
elevado de veces) y que veriquen el principio de regularidad estadstica, segn el cual
las frecuencias relativas tienden a estabilizarse en torno a un cierto valor.
Esta nocin de probabilidad, introducida por Venn en 1866 y desarrollada matemticamente en
los aos 1920 por Von Mises y Reichenbach, es de uso generalizado, debido en gran parte al sencillo
mtodo de clculo de probabilidades que lleva asociado. De hecho, la axiomtica propuesta por Kol-
mogorov -que constituye una herramienta fundamental en el desarrollo del Clculo de probabilidades-
est inspirada en el comportamiento asinttico de las frecuencias.
Una de las crticas a la concepcin frecuencial va referida al supuesto de que es posible repetir
indenidamente el experimento bajo condiciones idnticas, que excluye de su mbito de aplicacin
gran parte de los fenmenos sociales y econmicos. En estos casos, la nica posibilidad de aplicar el
concepto frecuencial de probabilidad sera admitir la clusula "ceteris paribus".
Pese a las limitaciones tericas que plantea, a menudo la probabilidad se aproxima
directamente a travs de la frecuencia relativa. De este modo, el resumen de la in-
formacin pasada es utilizado como mtodo de estimacin de potencialidades futuras.
As, un graduado universitario puede usar los resmenes de informacin referidos a las
ltimas promociones para calcular su probabilidad de encontrar trabajo, de obtener
una beca, etc.
El concepto frecuentista permite resolver adecuadamente el problema relativo a los das comodn,
justicando que la probabilidad de que el comodn sea viernes es superior a la de cualquier otro da
de la semana. En efecto, la determinacin de las probabilidades de cada da de la semana exigira
conocer el nmero de repeticiones de cada resultado sobre el tiempo total de vigencia de nuestro
15
calendario (aos 1600-2000). Si consideramos que de estos 400 aos 97 son aos bisiestos, el total de
semanas resulta ser 20.871 y de ellas 4.800 fechas son da 13 de un mes. Aunque la enumeracin es
larga, puede observarse el da de la semana en que cada uno de ellos est situado, que resultan ser
una cifra superior en el caso del viernes (688 das respecto a 684 para jueves y sbado, 685 para lunes
y martes y 687 para domingo y mircoles). Una vez determinado este nuevo modelo, la probabilidad
de viernes se situara en
668
4800
= 0, 143.
1.1.3. Probabilidad subjetiva
Las limitaciones de los enfoques anteriores han sugerido mtodos alternativos de
determinacin de la probabilidad, en los que sta aparezca desvinculada de la experi-
mentacin. As, frente a las deniciones objetivas de probabilidad, que incluyen las dos
anteriores, las teoras subjetivas consideran la probabilidad como "grado de creencia",
resultando as aplicables a un conjunto ms amplio de situaciones.
La utilizacin de esta acepcin de probabilidad es muy frecuente, ya que a menudo
se nos plantea la necesidad de cuanticar numricamente el nivel de "verosimilitud"
asignado a un hecho. Esta variante subjetiva introduce como rasgo diferencial respecto
a las objetivas la participacin directa del individuo que -en funcin de su situacin
particular- acta como "asignador" de probabilidades.
El punto de vista subjetivista fue compartido por algunos de los precursores de la teora del clculo
de probabilidades como J. Bernoulli, Bayes o Laplace. No obstante, es desde principios de este siglo
cuando se le ha prestado mayor atencin, siendo pionera la obra de Borel (1924) a la que siguieron,
entre otras, las de Ramsey (1926), De Finetti (1931, 1937) y Savage (1954). Todos ellos consideran
fundamental el comportamiento del individuo frente a la incertidumbre, que le conduce a asignar
implcita o explcitamente un orden o una medida a la posibilidad de que los sucesos tengan lugar.
La corriente subjetivista no conduce a un concepto unvoco de la probabilidad, sien-
do posible distinguir varias acepciones. Algunos autores consideran que puede probarse
la existencia de una funcin de probabilidad personal para cada individuo. Dicha pro-
babilidad, denominada cualitativa o comparativa, se basa para cada individuo dado
en comparaciones del tipo "un suceso no es ms probable que otro".
Esta concepcin logicista es debida, entre otros autores, a Keynes, Jereys, Koopman y Carnap,
siendo su idea bsica la extensin de los principios de la lgica matemtica para establecer la proba-
bilidad como medida en que una proposicin (hiptesis) conrma a otra (experiencia).
Frente a las ventajas de este concepto de probabilidad, derivadas de su carcter
formal, aparecen inconvenientes debidos a la dicultad de determinar probabilidades
numricas. As, en el trabajo original de Keynes (1921) las probabilidades estn tan s-
lo parcialmente ordenadas y no siempre son medibles numricamente, no garantizando
por tanto una medida numrica de la credibilidad racional.
Existen otros conceptos de la probabilidad entre los que, por su originalidad, queremos destacar el
de sorpresa potencial de Shackle. En su obra Decisin, orden y tiempo (1966), este autor plantea de
forma muy ingeniosa el problema de la decisin frente al tiempo, teniendo slo en cuenta el momento
presente. En este contexto, el concepto de probabilidad es sustituido por las ideas de "sorpresa
potencial" y "grado de creencia" que resultan cuanticables si el individuo puede evaluar la distancia
entre distintas sorpresas potenciales. Para Shackle todo decisor racional puede establecer su espacio de
posibles resultados y asignar sus probabilidades, sin embargo el agente nunca es capaz de contemplar
16
Figura 1.1.: Probabilidad subjetiva
Asignacin de
probabilidades subjetivas
A B
pB? pA=0.5
A B
pB? pA=0.6
pB?
pB?
...
A B
pB? pA=0.4
pB?
pB?
...
A
pB?
pA=0.5 B
B
pB?
pA=0.5
A
todas las posibilidades y puede producirse una sorpresa; de esta forma no existe el lmite unitario a la
probabilidad (podemos distribuir inicialmente una masa de probabilidad unitaria entre las distintas
posibilidades y ms tarde admitir una sorpresa no contemplada, con lo que al sumar esta probabilidad
supera la unidad).
El resultado numrico de la probabilidad subjetiva aparece directamente ligado al
individuo que lleva a cabo su cuanticacin, resultando imprescindible que exista
coherencia en el sistema de asignacin (por ejemplo, transitividad).
La traduccin numrica de los esquemas mentales individuales ("es muy probable
que..." o "cierto hecho me parece ms probable que algn otro") conlleva dicultades
derivadas de la propia subjetividad. En realidad no existe un mtodo de cuanticacin
de probabilidades subjetivas sino algunos mecanismos vlidos para su aproximacin.
Uno de estos mecanismos, defendido entre otros por De Finetti, es el estudio de las
condiciones en las que un individuo se encontrara dispuesto a apostar por determinado
suceso.
De este modo, si queremos calcular la probabilidad subjetiva de cierto suceso (que
nos seleccionen para un puesto que hemos solicitado, que nuestro equipo favorito gane
la liga, ...) podemos utilizar un sistema de apuestas, que resulta muy adecuado para
aproximar probabilidades ya que reeja nuestra "creencia" en el suceso, asumiendo
que existen racionalidad y sinceridad (es decir, obviamos el fanatismo, las apuestas
irreexivas o las de "farol").
Otro sistema de asignacin de probabilidades subjetivas se tiene en los juegos: pode-
mos idear un esquema de aproximacin de la probabilidad del suceso que nos interesa
mediante la comparacin con ciertas "loteras".
17
Consideremos el ejemplo cuya ilustracin aparece en la gura 1.1: a un individuo se
le plantea un juego (B) mediante el cual se le otorgara un premio en caso de que se
produzca el suceso considerado (que sea seleccionado para un puesto, que su equipo
gane la liga, etc). Preferira este juego u otro (A) en el que ganase el premio por
el mtodo clsico cara-cruz? Es evidente que esta sencilla decisin -que ilustramos
mediante una balanza- no proporciona por s misma una cifra de probabilidad, pero
aporta nueva informacin: si el individuo responde que preere el juego B (condi-
cionar el premio al suceso), ello reeja que considera este hecho "ms probable" del
50 %. Como consecuencia la balanza se inclinara en esta situacin hacia la derecha,
y viceversa en el caso contrario.
De este modo, tras la primera respuesta, segn el lugar hacia el que se incline la
balanza, deberemos alterar el contrapeso para la probabilidad desconocida. As, si la
primera respuesta es a favor del juego B, podramos considerar una nueva alternativa
A de probabilidad conocida y superior al 50 % (por ejemplo, una urna en la que el
60 % de bolas son xitos). En el caso de que el individuo todava preera jugar con
la opcin B frente a la urna, podemos concluir que la probabilidad subjetiva que le
asigna al suceso tambin supera el 60 % y as sucesivamente.
Las compensaciones podran ser efectuadas tambin en el otro sentido -tal y como
recoge la gura 1.1- si las respuestas fuesen a favor del juego aleatorio. Siguiendo este
esquema de razonamiento, el objetivo es aproximarse cada vez ms a la cuanticacin
de la probabilidad subjetiva.
1.2. La probabilidad y su cuanticacin
El anlisis histrico de los estudios probabilsticos revela que los primeros esfuerzos
fueron dirigidos a la solucin de problemas concretos, esto es, a la cuanticacin de la
probabilidad, ignorndose su concepto. En efecto, el noble francs Antoine Gambaud,
caballero de Mr, plante al famoso matemtico Blaise Pascal (1623-1662) uno de
los problemas probabilsticos ms antiguos y conocidos, relacionado con las apuestas
a las que de Mr era acionado. La discusin de estos problemas dio lugar a una
extensa correspondencia entre los matemticos Pascal y Pierre de Fermat, quienes
nunca publicaron sus trabajos sobre probabilidad.
El problema planteado por de Mr, que habitualmente se designa "falacia de la Probabilidad"
surga al comparar dos apuestas, enunciadas como "Sacar al menos un 6 en 4 tiradas con un dado"
y "Sacar al menos una suma 12 en 24 tiradas con dos dados". Segn los clculos llevados a cabo por
de Mr, la probabilidad de xito era idntica en ambas apuestas, siendo las expresiones empleadas
en su clculo P(E) = 4
1
6
= 0, 66667 para la primera y P(E) = 24
1
36
= 0, 66667 para la segunda.
Fueron las diferencias de rentabilidad obtenidas con ambas apuestas las que llevaron a de Mr a
consultar a Pascal.
[Por qu son incorrectos los clculos propuestos? qu concepto de probabilidad se aplica en estos
casos?]
La cuanticacin de probabilidades, que no es un tema completamente resuelto,
aparece asociado a la teora combinatoria. En efecto, para cuanticar el nmero de
casos favorables y posibles asociados a determinada experiencia debemos identicar
18
Figura 1.2.: Variaciones con repeticin. Selecciones sucesivas
!
Seleccin 1"
Alternativas segunda seleccin
para cada posibilidad de la primera
Alternativas tercera seleccin
para cada posibilidad de la
segunda
las condiciones en las que sta se realiza, evitando as confusiones como la que se
esconde tras la falacia protagonizada por de Mr.
Una vez especicadas estas condiciones, la cuanticacin de los casos (tanto favora-
bles como posibles) se llevar a cabo mediante los conceptos de variaciones, permuta-
ciones o combinaciones. Aunque no es nuestro objetivo efectuar un estudio detallado
de teora combinatoria, s resulta conveniente sealar -mediante ilustraciones- las di-
ferencias entre los conceptos y las frmulas de clculo asociadas a los mismos.
Imaginemos a modo de ejemplo que el dominical de un peridico decide incluir en
cada ejemplar un cupn de sorteo con un nmero de 4 dgitos. Cuntos cupones dis-
tintos existirn? Mediante un sencillo razonamiento -ilustrado en el grco 1.2- puede
verse que las posibilidades son 10.000. En efecto, hay 10 opciones para el primer dgito
(en el grco se han representado solamente 7 para no cargar excesivamente la gura)
y, para cada uno de stos, pueden a su vez seleccionarse 10 para el segundo. A su vez,
para cada una de esas 100 posibilidades tendramos otras 10 para el tercero y lo mismo
para el cuarto dgito. El clculo efectuado se corresponde con el caso de Variaciones
con repeticin de 4 elementos seleccionados entre 10 (tambin denominadas de 10
elementos de orden 4), y sus rasgos son la posibilidad de repeticin (la seleccin de
un dgito no le excluye para una nueva utilizacin) y la importancia del orden (es
relevante en qu lugar est situado cada nmero).
Denicin. Las Variaciones con repeticin de m elementos de orden n se obtienen
como: V R
m,n
= m.m. . . m = m
n
Una variante se obtiene cuando se excluye la posibilidad de repeticin, apareciendo
as las Variaciones.
Como es lgico, en esta situacin disminuye el nmero de casos, ya que se eliminan
posibilidades respecto al supuesto con repeticin. De hecho, el nmero de cupones en
los que no se repiten cifras son 10.9.8.7, variaciones de 4 elementos distintos seleccio-
nados (sin repeticin) entre 10.
19
Denicin. Las Variaciones de m elementos de orden n se obtienen mediante la
expresin:V
m,n
= m(m1)(m2) (mn + 1), que se denomina "factorial gene-
ralizado de m de orden n".
Las Variaciones aparecen con gran frecuencia en la prctica, donde es bastante
habitual excluir un elemento ya seleccionado. Supongamos, por ejemplo, que en el
dominical del peridico se desea 5 reportajes para otras tantas pginas, y deben decidir
entre un total de 12 trabajos ya elaborados. Como parece evidente que cada reportaje
slo puede ser utilizado una vez, nos encontraramos con Variaciones de 5 elementos
seleccionados sin repeticin entre 12, esto es, V
12,5
= 12,11,10,9,8.
Qu sucedera si el nmero de reportajes disponibles fuese tan slo 5? En esta
situacin las variaciones anteriores presentan un rasgo particular: estamos seguros
de que todos los artculos aparecern recogidos en el suplemento y el nico rasgo
diferenciador ser por tanto el orden de los mismos. Nos encontramos as con un
caso particular de variaciones: las Permutaciones, en este caso de 5 elementos, cuyo
resultado sera 5.4.3.2.1=5!
Denicin. Las Permutaciones de m elementos son las ordenaciones posibles de los
mismos, y coinciden con las variaciones sin repeticin de m elementos de orden m:
P
m
= V
m,m
= m(m1)(m2) 1 = m!
En las permutaciones slo aparece como elemento diferenciador el orden, supuesto
que todos los elementos ordenados son distintos entre s.
Imaginemos ahora que el suplemento dominical dedica su contraportada a publici-
dad, para lo cual dispone de un total de 6 casillas. En principio podramos plantear
que, una vez seleccionados los seis anunciantes, hay 6! formas de congurar la contra-
portada, segn el modo en que se ordene la publicidad.
Sin embargo qu sucedera si un mismo anuncio aparece dos veces, para enfatizar
as el efecto publicitario? En este caso el lector ver dos veces la misma imagen sin
distinguir posibles intercambios entre las casillas en las que se halla y en consecuencia
las ordenaciones percibidas no sern ahora 6! sino slo la mitad (dividimos entre 2!
formas en las que pueden ordenarse los elementos repetidos).
De modo similar, podra haber ms "anuncios repetidos", con la consiguiente re-
duccin en las permutaciones [Qu sucedera por ejemplo si de los 6 anuncios hay 2
de un macroconcierto y otros 3 son la portada de un libro?]
Denicin. Las Permutaciones con repeticin recogen las ordenaciones de m elemen-
tos, donde a, b, c ... son repetidos entre s. Su mtodo de clculo es:
P
a,b,c
m
=
P
m
P
a
P
b
P
c
=
m!
a!b!c!
Supongamos por ltimo que el peridico decide aumentar el equipo de colaboradores
del dominical, al cual se incorporarn 3 trabajadores ms, seleccionados de entre
los 7 nuevos contratados. De cuntos modos pueden ser seleccionados estos nuevos
miembros del equipo?
20
En situaciones como la descrita, denominadas Combinaciones, se trata de extraer
subgrupos a partir de un total. Como consecuencia, el orden es un factor irrelevante
ya que simplemente nos interesa qu nuevos trabajadores integran el equipo pero no
qu lugar ocupan.
Cmo se cuanticaran las posibilidades de seleccionar esos 3 individuos entre
los 7 candidatos? Un posible razonamiento sera distinguir dos grupos: uno de ellos
integrado por los 3 que pasan al equipo y otro por los 4 trabajadores que se ocuparn
de otras tareas.
En la situacin planteada, lo nico que nos interesa distinguir es si un individuo
est o no en ese grupo. Por tanto, una aproximacin vlida consiste en partir del total
de posibles ordenaciones de los 7 individuos (7!) y eliminar de ellas las ordenaciones
dentro de cada grupo (no nos interesa cmo se ordenan los 3 que pasan al equipo ni
tampoco las ordenaciones de los 4 que no entran en el mismo). As se llegara a la
frmula de clculo de las combinaciones 7 sobre 3, esto es,
_
7
3
_
=
7!
3!4!
Denicin. Las Combinaciones de m de orden n son subconjuntos de n elementos
seleccionados de un total de m: C
m,n
=
m!
n!(mn)!
Esta expresin se corresponde con el nmero combinatorio, cuya representacin en
forma tabular es el tringulo de Pascal, en el que cada trmino es suma de los dos
trminos situados inmediatamente por encima de l.
La expresin de las combinaciones puede ser obtenida como caso particular de permutaciones con
repeticin. Para ello, basta tener presente que nos interesa nicamente la agrupacin efectuada, por
lo cual del total de ordenaciones de los m elementos (m!) ignoramos las ordenaciones de los elementos
seleccionados para integrar los subconjuntos (n!) y tambin las de los no seleccionados(m n)!. Se
obtiene as: C
m,n
= P
n,(mn)
m
.
Desde luego la teora combinatoria abarca otras expresiones de clculo que no hemos recogido aqu.
As, si por ejemplo distribuimos tres ejemplares del dominical entre 2 kioscos sin ninguna restriccin
(podran ir todos al mismo, por ejemplo), la expresin de clculo de las posibilidades vendra dada
por Combinaciones con repeticin, de aparicin menos frecuente que las anteriores y cuya frmula
guarda relacin con las combinaciones.
Las Combinaciones con repeticin permiten cuanticar las posibilidades de repartir en m grupos
un total de n elementos idnticos, a travs de la expresin: CR
m,n
=
(m+n1)!
n!(m1)!)
. En concreto, para
el ejemplo propuesto se tendran combinaciones en dos grupos con tres elementos repetidos, cuya
frmula viene dada por
CR
2,3
=
(2 + 3 1)!
3!1!
Las expresiones anteriores resultan tiles para solucionar el problema planteado por De Mr: El
clculo correcto para su primera apuesta viene dado por:
P(G) =
c.f.
c.p.
=
Resultados con al menos un 6
Resultados en 4 tiradas
=
C
4,1
V R
5,3
+C
4,2
V R
5,2
+C
4,3
V R
5,1
+ 1
V R
6,4
= 0, 52
21
donde la presencia de Combinaciones corresponde a los "huecos" o tiradas en las que aparece el
resultado 6, mientras las Variaciones con Repeticin del numerador recogeran los posibles nmeros
para completar las restantes tiradas.
Por su parte, la segunda apuesta sera resuelta en los siguientes trminos:
P(G) =
c.f.
c.p.
=
Resultados con suma 12 en las 24 tiradas
Resultados en 24 tiradas
cuya cuanticacin resulta de mayor complejidad.
Como veremos en un apartado posterior, las probabilidades asociadas a estas dos apuestas pueden
ser cuanticadas de forma ms sencilla aplicando ciertas propiedades de la probabilidad.
1.3. Denicin axiomtica de la probabilidad
La caracterizacin axiomtica de la probabilidad es una idealizacin matemtica en
la cual encajan las diferentes interpretaciones. De este modo, con independencia de
cul sea el concepto de probabilidad que utilicemos, la probabilidad ser concebida
como una cantidad numrica asociada con un suceso que posee ciertas propiedades
bsicas expresadas por medio de axiomas.
En las primeras dcadas de este siglo se cuestionaba el signicado de la probabilidad
y haban surgido diferentes concepciones de la misma; pareca imperiosa la necesidad
de formular un modelo terico sobre el que fundamentar el desarrollo sistemtico
del Clculo de Probabilidades y donde encajasen las diversas interpretaciones de la
probabilidad fuera cual fuera su concepcin.
Este modelo lo proporciona la teora axiomtica de la probabilidad, que sobre la
base de un reducido nmero de axiomas permite desarrollar todo el Clculo de Pro-
babilidades, independientemente de cul sea el signicado de la probabilidad; si una
concepcin satisface la axiomtica exigida, puede ser considerada una probabilidad
y por lo tanto puede aplicrsele todo el desarrollo posterior alcanzado por esa teo-
ra. Adems, otra caracterstica de esta formalizacin es la de ser autnoma, es decir,
que se adhiere al principio de que el clculo de probabilidades es un mtodo para
transformar unas probabilidades en otras.
Las axiomticas establecidas en el primer cuarto de este siglo no tenan un carc-
ter de formalizacin, sino que trataban de caracterizar concepciones concretas de la
probabilidad. Tras varios intentos, fue Kolmogorov quien en 1933 dio una axiomtica
para la probabilidad, hoy reconocida casi universalmente, sobre la que se fundament
el Clculo de Probabilidades. Esta axiomtica se basa en dos conceptos fundamentales:
lgebra o -lgebra de sucesos y la medida de probabilidad.
Para exponer la axiomtica de Kolmogorov, consideremos un fenmeno aleatorio,
y sea E el conjunto de resultados posibles, que tambin se denominan casos o sucesos
elementales; a E se le llama espacio muestral o suceso seguro.
Consideremos a modo de ejemplo el lanzamiento de un dado. Teniendo en cuenta que su resultado
no es predecible de una forma determinista, se tratar de un fenmeno aleatorio cuyos casos o sucesos
elementales sern: {1}, {2}, ..., {6}, que describen los posibles resultados en el lanzamiento del dado.
22
El espacio muestral E o suceso seguro estar formado por todos los posibles resultados: E={1, 2, ...,
6}.
No siempre nos interesar conocer la probabilidad de sucesos elementales, sino que
a veces estaremos interesados en la probabilidad de que ocurran determinadas combi-
naciones de estos sucesos.
En el ejemplo anterior puede interesarnos no slo conocer la probabilidad de los resultados ele-
mentales, sino tambin cuanticar la probabilidad de que el resultado sea par, mayor que 4 o menor
que 3, por ejemplo.
Por lo tanto tendremos que establecer una estructura que recoja estas combina-
ciones. As, despus de denir ciertos sucesos (suceso imposible (vaco), unin, inter-
seccin, complementario, diferencia y diferencia simtrica), acompaamos al espacio
muestral E de una familia de sucesos (o subconjuntos de l), A, que tiene cierta
estructura algebraica (-lgebra).
Denicin 1.3. Toda -lgebra se caracteriza por vericar las tres condiciones si-
guientes:
1. El suceso imposible est en A
2. Si un suceso est en A, su complementario A
c
=

A tambin lo est
3. La unin numerable de conjuntos de A, pertenece a A, A
1
, A
2
, . . . A,
i=1
A
i

A
Cuando se sustituye la condicin 3) por la unin nita, el resultado es un lgebra. En
espacios muestrales nitos ambos conceptos coinciden.
En el ejemplo del lanzamiento del dado, el lgebra de sucesos estara formado por los sucesos
elementales: {1}, {2}, ..., {6}, sus complementarios: {2,3,...,6}, {1,3,...,6}, ..., {1,2,...,5}, la unin
de cada dos sucesos elementales: {1,1},{1,2}, ....,{1,6},{2,1}, ...,{2,6}, ...,{6,1},{6,2},....,{6,6}, los
complementarios de estos sucesos, la unin de cada 3 sucesos elementales, sus complementarios, ....,
las intersecciones, etc. [Cuntos elementos integrarn este lgebra?]
Denicin 1.4. A cada elemento de A se le llama suceso, y al par (E,A) se le
denomina espacio probabilizable (o espacio medible).
Sobre cada espacio probabilizable pueden denirse distintas medidas de probabili-
dad. Siguiendo la formulacin dada por Kolmogorov, podemos establecer la siguiente
denicin:
Denicin 1.5. Dado un espacio probabilizable (E, A), una medida de probabilidad
es una aplicacin de A en 1:
P : A A P(A) 1
que verica las siguientes propiedades:
23
1. P(A) 0 , A A
2. P(E) = 1
3. Si A
1
, A
2
, . . . , A
n
, . . . pertenecen a A y son incompatibles dos a dos, entonces la
probabilidad de la unin es la suma de probabilidades:
A
i
A
j
= , i ,= j P (
i=1
A
i
) =
i=1
P(A
i
)
Cuando el espacio muestral es nito, la familia A queda reducida a un lgebra (que
puede ser partes de E), y el tercer axioma de la probabilidad puede ser sustituido
por la aditividad nita. Sin embargo, cuando el espacio muestral es innito, tenemos
que denir la probabilidad sobre una -lgebra, ya que no podemos denir una me-
dida sobre la familia de todos los subconjuntos de E, de forma que siga vericando
la propiedad de aditividad numerable. La terna (E, A, P) se denomina espacio de
probabilidad.
Sobre el espacio muestral anterior, el lgebra de sucesos estar formada, entre otros, por los siguien-
tes: A={{1},...,{6},....{2,4,6},...,{1,2},...,{5,6},...}. Sobre el espacio probabilizable (E, A) podemos
denir distintas medidas de probabilidad, por ejemplo:
P : A A P(A)
P({1}) =
1
6
, P({2}) =
1
6
, . . . , P({6}) =
1
6
P({2, 4, 6}) = P({2}) + P({4}) + P({6}) =
3
6
por tratarse de la probabilidad de una unin de
sucesos incompatibles.
P({5, 6}) = P({5} {6}) = P({5}) +P({6}) =
2
6
P({1, 2}) =
2
6
Con lo cual, bajo la estructura de lgebra podemos responder a las preguntas que nos habamos
planteado como probabilidad de obtener un nmero par, mayor que 4 o inferior a 3. De igual forma
podemos calcular la probabilidad de cualquier otro suceso que nos planteemos sobre los resultados
del lanzamiento de un dado.
Esta funcin de probabilidad cumple los axiomas anteriores [Comprubese]
La cuanticacin de probabilidades para sucesos compuestos se llev a cabo a partir de la asignacin
hecha a los sucesos elementales. Si, por ejemplo, hacemos una nueva asignacin de probabilidad a los
sucesos elementales:
P({1}) =
2
12
, P({2}) =
1
12
, P({3}) =
2
12
, P({4}) =
1
12
, P({5}) =
2
12
, P({6}) =
4
12
es fcil comprobar que nos conducira a otra funcin de probabilidad diferente. [Obtener la proba-
bilidad de los sucesos anteriores]. Observamos por tanto que sobre un espacio probabilizable pueden
denirse diversos espacios de probabilidad.
Los axiomas anteriores estn inspirados en las propiedades de las frecuencias y resultan aplicables
en una amplia variedad de situaciones. As, si un trabajador, ante la incertidumbre laboral, desea
obtener la probabilidad de que su actual contrato sea prorrogado, el experimento tendra dos resul-
tados posibles, que podemos denotar por T: continuar contratado y S: ser despedido. El espacio
24
muestral E estar entonces formado por esos dos sucesos elementales: E = {T, S} y para cuanticar
la probabilidad de cada suceso podramos basarnos en informacin frecuencial sobre renovacin de
contratos. A modo de ejemplo, si sabemos que el 75 % de los contratos han sido renovados se tendra:
f(T) =
3
4
; f(S) =
1
4
.
Resulta evidente que las frecuencias obtenidas en ningn caso sern negativas. Por su parte la
frecuencia del suceso seguro viene dada por:
f(E) = f(T S) =
n de veces que ocurre (T o S)
n de realizaciones del experimento
=
4
4
= 1
Sobre esta expresin podemos comprobar que, dado que T y S no tienen interseccin comn, se
verica:
f(T S) =
n de ocurrencias de T+n de ocurrencias de S
4
=
3 + 1
4
= f(T) +f(S)
por tanto, observamos que las frecuencias relativas verican los tres axiomas exigidos a la probabili-
dad. [Comprobar que la probabilidad clsica tambin verica los axiomas anteriores]
La axiomtica de Kolmogorov fue posible gracias al gran desarrollo alcanzado por la teora de
la medida y la integral de Lebesgue; por otra parte, su desarrollo se debi en gran medida a la
identicacin entre sucesos y conjuntos, puesta de maniesto por Stone en 1936, mediante el teorema
que lleva su nombre. Esta circunstancia le permiti tambin aprovechar los conocimientos relativos a
la teora de conjuntos y gracias a este isomorsmo podemos utilizar indistintamente la terminologa
de sucesos (imposible, incompatibles, ...) o la relativa a conjuntos (vaco, disjuntos, ...).
En la axiomtica original dada por Kolmogorov el axioma 3) se encontraba desdoblado en dos
axiomas: aditividad nita y continuidad montona en el vaco; sin embargo, algn tiempo despus se
demostr que estos supuestos eran equivalentes a la aditividad numerable.
1.3.1. Propiedades elementales de la probabilidad
Como consecuencia de los axiomas de Kolmogorov, dados los sucesos A y B se
cumplen una serie de propiedades bsicas:
1. P(A
c
) = 1 P(A)
2. P() = 0
3. Si A B entonces P(A) P(B)
4. P(A B) = P(A) +P(B) P(A B)
La comprobacin de estas propiedades es bastante inmediata:
1. E = A
A
c
entonces P(E) = P(AA
c
); teniendo en cuenta el segundo axioma la probabilidad
del suceso seguro es la unidad y si adems consideramos que un suceso y su complementario
son disjuntos, el axioma 3 nos dice que esa probabilidad es la suma de las probabilidades de
los dos sucesos, luego: P(E) = 1 = P(A) +P(A
c
); de donde se tiene: P(A
c
) = 1 P(A)
2. Este resultado se deduce del anterior teniendo en cuenta que E
c
= .
25
3. Como A B, podemos expresar B como: B = A (B A
c
), siendo los dos sucesos que
forman la unin (A y B A
c
) disjuntos [por qu?], de donde el axioma 3 asegura: P(B) =
P(A) + P(B A
c
), y como la probabilidad es una funcin no negativa (P(B A
c
) 0), por
tanto se tiene la proposicin enunciada [por qu?].
4. Los sucesos A y B pueden ser expresados de la siguiente forma: A = (AB) (AB
c
), B =
(A B) (A
c
B) siendo los sucesos interseccin considerados en los dos casos disjuntos
[por qu?], por lo cual se tiene: P(A) = P(A B) + P(A B
c
), P(B) = P(A B) +
P(A
c
B). Por otra parte A B puede descomponerse como unin de sucesos disjuntos:
A B = (A B
c
) (A B) (A
c
B), con lo que su probabilidad puede obtenerse como:
P(AB) = P(AB
c
) +P(AB) +P(A
c
B) Teniendo en cuenta las expresiones anteriores
y sustituyendo se llega al resultado enunciado. [Completar la justicacin]
Esta ltima propiedad puede extenderse a un mayor nmero de sucesos; por ejemplo si C es otro
suceso se tiene:
P(A B C) = P(A) +P(B) +P(C) P(A B) P(A C) P(B C) +P(A B C)
[Justicar este enunciado]
Los valores extremos de probabilidad sugieren algunos comentarios. Como hemos comprobado el
suceso imposible tiene probabilidad nula; sin embargo, algunas veces incluimos dentro del suceso
imposible ciertos resultados que, aunque no tienen asignada probabilidad inicial, podran llegar a
ocurrir, hecho que contradice o bien la asignacin de probabilidad nula o bien la especicacin del
experimento.
Un ejemplo muy intuitivo para ilustrar esta discusin es el experimento consistente en lanzar una
moneda. Los resultados que consideramos posibles son cara (C) y cruz (F), por lo cual el suceso
seguro ser E={C,F} y su complementario ser considerado como suceso imposible; sin embargo, al
lanzar una moneda, sta puede caer de canto, resultado que es complementario al suceso seguro y en
cambio no es imposible.
Este mismo ejemplo nos sirve para reexionar sobre la probabilidad unitaria: el hecho de que sea
posible obtener resultados fuera de E nos exigira asignar a ste una probabilidad inferior a la unidad.
La solucin de estos problemas puede basarse en una revisin del espacio muestral, incluyendo su-
cesos de probabilidad nula (sera la probabilidad asignada a caer de canto una moneda); sin embargo,
esta solucin podra ser compleja cuando trabajamos con espacios muestrales innitos. Otra solucin
posible ira en la lnea de la sorpresa potencial de Shackle, donde la probabilidad puede alcanzar
valores superiores a la unidad.
En el trabajo habitual no suele adoptarse ninguna de las soluciones propuestas, pero conviene ser
conscientes de la posibilidad -aunque remota- de que aparezca este problema.
[Si al lanzar 1.000.000 veces una moneda la frecuencia relativa de que sta quede de canto es
prcticamente despreciable convertira este hecho en "imposible" al resultado?]
La axiomtica dada por Kolmogorov es la habitualmente utilizada, pero no es la nica. Otras
axiomticas importantes han sido desarrolladas por Renyi y Popper.
A. Renyi (1954) elabor una axiomtica de la probabilidad basada en el concepto de probabilidad
condicionada que generaliza la introducida por Kolmogorov.
Por su parte, la teora formal introducida por Popper en su gran obra La lgica de la investigacin
cientca (1934) puede ser considerada "abstracta" y supera algunas limitaciones de las axiomticas
anteriores.
26
1.4. Probabilidad condicionada e independencia
Como ya hemos comentado, la asignacin de probabilidades slo en ciertas ocasio-
nes puede ser efectuada de forma exacta, resultando habitual que existan distintas
estimaciones de la verosimilitud de cierto suceso.
Una de las razones -pero no la nica- que justica estas diferencias en la asignacin
de la probabilidad es la subjetividad a la que ya hemos aludido: el hecho de que
un individuo sea ms o menos optimista, su propia opinin respecto a un tema, le
pueden llevar a asignar probabilidades mayores a los hechos que considera deseables
y viceversa para los que querra evitar.
En ciertos casos, las diferencias entre las probabilidades, pueden venir tambin jus-
ticadas por la informacin disponible, que conducir a la asignacin de probabilidad
condicionada a dicha informacin.
A modo de ejemplo, al calcular la probabilidad de renovacin de un contrato se-
r interesante disponer de informacin lo ms amplia y actualizada posible sobre las
distintas posibilidades futuras, de modo que al incorporar esta informacin la proba-
bilidad asignada ser "condicionada".
A menudo tiene inters estudiar cmo un suceso puede condicionar a otro, de modo
que la disponibilidad de informacin llega a alterar las probabilidades asignadas a los
posibles resultados.
Consideremos un nuevo ejemplo, representado en la tabla que sigue: se trata de la
distribucin porcentual de los contratos, clasicados segn un doble criterio: el tipo
de contrato (clasicado en tcnicos y de gestin) y el sector de actividad (industria o
servicios).
Sexo \ Sector Industria Servicios
Tcnicos 40 25
Gestin 10 25
Si a partir de la informacin anterior comparamos la proporcin de contratos de
los dos sectores de actividad -que sera equivalente a la probabilidad de cada uno de
ellos- observamos que stas son coincidentes (
c.f.
c.p.
= 0, 5 en los dos casos). Sin embargo
qu ocurrira si nos interesasen especcamente los contratos tcnicos? En este caso
eliminaramos de nuestro anlisis los contratos de gestin (que representan un 35 %
del total) y pasaramos a considerar nicamente el 65 % restante (primera la de la
tabla).
En consecuencia, ahora la industria tendra una mayor proporcin de contratos
(
c.f.
c.p.
=
40
65
frente a los servicios, donde se obtiene
c.f.
c.p.
=
25
65
).
1.4.1. Probabilidad condicionada
La informacin desempea un papel relevante en la asignacin de probabilidades.
Denicin 1.6. La probabilidad condicionada por un suceso B (P(B)>0), se dene
para cada suceso A A como:
27
P(A/B) =
P(A B)
P(B)
Esta expresin puede ser aplicada en el ejemplo anterior, en el que denominaremos
T, G, I y S a los sucesos "Tcnicos", "Gestin", "Industria" y "Servicios", respectiva-
mente. Las probabilidades iniciales seran entonces P(I) = P(S) =
50
100
, mientras las
probabilidades condicionadas al perl tcnico se obtendran, aplicando la denicin
anterior:
P(I/T) =
P(I T)
P(T)
=
40
100
65
100
=
40
65
; P(S/T) =
P(S T)
P(T)
=
25
100
65
100
=
25
65
De una manera ms formal podemos establecer la siguiente denicin:
Denicin 1.7. Dado un espacio de probabilidad (E, A, P) y un suceso B (B A) con probabi-
lidad no nula (P(B) > 0), denominamos probabilidad condicionada por el suceso B a una aplicacin
P
B
denida como:
P
B
() : A A P
B
(A) = P(A/B) =
P(A B)
P(B)
[0, 1]
[La funcin toma valores no negativos por ser el cociente de dos probabilidades, donde cada una
de ellas es no negativa].
La funcin P
B
cumple la axiomtica de Kolmogorov.
En efecto, tendramos que comprobar que:
1. P
B
(A) 0
2. P
B
(E) = 1
3. Dada una coleccin de sucesos A
1
, A
2
, . . . , A
n
(A
i
A) disjuntos dos a dos, se tiene:
P
B
_
n
_
i=1
A
i
_
= P
__
n
_
i=1
A
i
_
/B
_
=
n
i=1
P(A
i
/B)
El primer axioma se comprueba de modo inmediato ya que se tiene P(A/B) =
P(A B)
P(B)
0,
por serlo el numerador.
Por lo que se reere al segundo axioma, se tiene: P(E/B) =
P(E B)
P(B)
=
P(B)
P(B)
= 1
Consideremos ahora la coleccin de sucesos especicada en el tercer axioma; se verica:
P
B
_
n
_
i=1
A
i
_
= P
__
n
_
i=1
A
i
_
/B
_
=
P
__
n
i=1
A
i
_
B
_
P(B)
=
P
_
n
i=1
(A
i
B)
_
P(B)
teniendo en cuenta que los sucesos A
i
B son disjuntos dos a dos [por qu?], el axioma iii) de la
caracterizacin de Kolmogorov, garantiza:
28
P
B
_
n
_
i=1
A
i
_
=
n
i=1
P(A
i
B)
P(B)
=
n
i=1
P(A
i
B)
P(B)
=
n
i=1
P(A
i
/B) =
n
i=1
P
B
(A
i
)
Puede extenderse sin ningn problema la justicacin anterior al caso de una sucesin innita de
sucesos.
Queda pues comprobado que la probabilidad condicionada P
B
es una verdadera funcin de pro-
babilidad.
En la denicin anterior el suceso que condiciona (B) debe tener una probabilidad positiva para
que el cociente de probabilidades est denido. Pero podemos preguntarnos qu ocurrira si B tuviese
asignada probabilidad nula? En este caso caben dos tipos de argumentacin: por un lado podramos
decir que no tiene sentido condicionar a un suceso imposible puesto que esta condicin en la prctica
no se va a dar; sin embargo, utilizando el concepto frecuencial de la probabilidad existen sucesos
que nunca se han vericado, que por tanto tienen probabilidad nula, y que podran servirnos para
hacer simulaciones del tipo "qu habra ocurrido si ....?"; esto es, existen hechos sobre los que no
disponemos de experiencia y que sin embargo de vericarse habran alterado los resultados posteriores.
En tales supuestos resulta claro que la denicin anterior de probabilidad condicionada no es
adecuada. Una alternativa puede ser replantearse el espacio de probabilidad que sirvi para establecer
la denicin e introducir un nuevo lgebra A
B
de la forma siguiente:
A
B
= {A B/A A}
[A
B
cumple las condiciones de lgebra o -lgebra si lo es A].
Ahora sobre el nuevo espacio probabilizable (E, A
B
) podemos denir la probabilidad condicionada
como una funcin de probabilidad general.
Una idea de gran inters y trascendencia en los anlisis estadsticos es el concepto
de independencia en probabilidad.
1.4.2. Independencia en probabilidad
Este concepto admite una interpretacin muy intuitiva:
Denicin 1.8. Dados dos sucesos A, B A, se dice que A es independiente de B
cuando la probabilidad de ocurrencia de A no se ve afectada por la de B, es decir:
P(A/B) = P(A).
[Establecer la denicin "B independiente en probabilidad de A"]
Proposicin 1.1. La denicin de independencia en probabilidad es equivalente a la
relacin:
P(A B) = P(A)P(B)
conocida como condicin de independencia.
Demostracin. En efecto, si Aes independiente en probabilidad de B, se tiene: P(A/B) =
P(A)
29
Por otra parte, teniendo en cuenta la denicin de probabilidad condicionada se
verica: P(A/B) = P(A B)/P(B)
Igualando las dos expresiones y despejando se obtiene: P(A B) = P(A)P(B).
Recprocamente, si se verica la condicin de independencia, entonces A es inde-
pendiente de B. En efecto, partimos ahora de la relacin P(A B) = P(A)P(B), y
por otra parte, segn la probabilidad condicionada se tiene:
P(A/B) = P(A B)/P(B), de donde: P(A B) = P(A/B)P(B)
Los primeros miembros son iguales con lo cual igualando los segundos se obtiene:
P(A) = P(A/B) lo que concluye la demostracin
Gracias a la condicin de independencia y a las propiedades anteriormente vistas, estaramos en
condiciones de resolver de modo ms rpido el problema planteado por de Mr.
En efecto, aplicando la propiedad relativa a la probabilidad del complementario, el clculo correcto
de la apuesta 1 vendra dado por:
P(G) = 1 P(Ningn 6 en las 4 tiradas) =
= 1 P(No 6 en la 1)P(No 6 en la 2)P(No 6 en la 3)P(No 6 en la 4) =
= 1
_
5
6
_
4
= 0, 52
Por su parte, para la apuesta II se tiene el clculo:
P(G) = 1 P(Ninguna suma 12 en las 24 tiradas) = 1
_
36
36
_
24
= 0, 491
La condicin de independencia es una relacin simtrica de los sucesos A y B; por tanto si A es
independiente de B, B tambin ser independiente de A. Por este motivo, en el futuro slo hablaremos
de sucesos independientes sin especicar ningn sentido para esa independencia.
Aunque no se haya hecho una mencin explcita a ello, la denicin de independencia se apoya en
la probabilidad condicionada que exige que el suceso que condiciona tenga una probabilidad no nula;
esto es, P(B) > 0; y como la independencia entre A y B implica la misma entre B y A, tambin debe
cumplirse P(A) > 0.
La equivalencia probada entre la denicin y la condicin de independencia es vlida para todo
par de sucesos de probabilidades no nulas.
Si por ejemplo P(B) = 0 y A es otro suceso cualquiera, la denicin de "A independiente de
B" no puede aplicarse con lo cual no podremos armar nada al respecto. Sin embargo, aplicando la
condicin de independencia se tiene: P(A B) P(B) = 0, por tanto: P(A B) = 0.
Por otra parte: P(A)P(B) = P(A),0 = 0, de donde se obtiene: P(A B) = P(A)P(B).
De la comprobacin anterior se extraen dos consecuencias: la primera es que la condicin de
independencia es ms general que la denicin establecida y es aplicable a cualquier par de sucesos A
y B; y la segunda es que un suceso de probabilidad nula siempre es independiente de cualquier otro.
Hemos expresado el concepto de independencia ligado al de probabilidad; sin embargo pueden es-
tablecerse diversos conceptos de independencia segn cul sea la referencia respecto a la que medimos
esa independencia. De hecho, esta idea guarda relacin con la independencia estadstica, que viene
expresada en trminos de frecuencias relativas.
30
Otro concepto que guarda gran similitud con los anteriores es el de independencia en informacin;
un suceso A es informativamente independiente de otro B, si la informacin que proporciona el pri-
mero no disminuye al conocerse la que puede suministrar el segundo. Si introducimos una medida I
indicativa de la informacin que contiene un suceso, representamos por I(A) la informacin suminis-
trada por A y por I(A/B) la informacin que permanece en A cuando se conoce B. Pues bien, A
ser independiente en informacin de B si I(A) = I(A/B), es decir, la informacin que proporciona
A cuando se conoce B es la mxima que puede suministrar y por tanto B no contiene informacin
sobre A.
1.5. Probabilidad total y teorema de Bayes
En algunos casos, un mismo resultado puede tener lugar bajo distintas situaciones
alternativas, por lo que su probabilidad debe ser cuanticada mediante una "frmula
compuesta".
Consideremos por ejemplo las perspectivas de renovacin de contrato de un traba-
jador, que lgicamente estarn relacionadas con el contexto econmico. Como conse-
cuencia, la cuanticacin de la probabilidad total de renovacin del contrato exigir
tomar en cuenta los distintos escenarios o posibilidades que podran presentarse.
Admitamos para simplicar que las perspectivas futuras se limitan a tres posibi-
lidades recogidas en la tabla: la existencia de un crecimiento econmico signicativo
que parece la situacin ms verosmil (digamos con probabilidad del 60 %) permitira
a la empresa renovar todos los contratos; una segunda posibilidad sera el estanca-
miento, al que se asigna una probabilidad del 10 % y en cuyo caso se renovaran el
80 % de los contratos y por ltimo se contempla la posibilidad de crisis econmica
(con una verosimilitud del 30 %), escenario en el que slo un 50 % de los contratos
seran renovados.
La informacin disponible se resume en la tabla
Alternativa Probabilidad Renov. Contratos
Expansin (X) 0,6 100 %
Estancamiento (E) 0,1 80 %
Crisis (C) 0,3 50 %
Como es lgico, las tres alternativas de futuro X, E y C son incompatibles y cada
una de ellas puede tener interseccin con el resultado que nos interesa (renovacin de
contrato, R).
Se tiene entonces P(R) = P((R X) (R E) (R C)) = P(R X) + P(R
E) +P(RC) que, aplicando la frmula de la probabilidad condicionada, pueden ser
expresadas a su vez como:
P(R) = P(R/X)P(X) +P(R/E)P(E) +P(R/C)P(C) = 0, 6 + 0, 08 + 0, 15 = 0, 83
En ocasiones nos interesa conocer cul es la probabilidad de que el suceso se haya
producido bajo una situacin concreta. Por ejemplo, si a un trabajador se le informa
31
de que su contrato ser renovado qu probabilidad asignaramos a la existencia de
expansin econmica? y a la crisis? Este tipo de razonamiento plantea un "ajuste" en
el sistema de probabilidades iniciales a medida que incorporamos nueva informacin.
En concreto, con el supuesto planteado tendramos para la situacin concreta R
la expresin condicionada: P(X/R) = P(X R)/P(R) cuyo denominador ha sido
calculado mediante probabilidad total.
As pues, el resultado de esta probabilidad sera P(X/R) =
0,6
0,83
= 0, 72, esto es, una
vez conrmada la renovacin del contrato, estimaramos en un 72 % la probabilidad
de expansin econmica.
De modo anlogo se revisaran las probabilidades de estancamiento y crisis. Este
ejemplo ilustra los teoremas de la probabilidad total y de Bayes, de gran importancia
en la evolucin de la estadstica.
1.5.1. Sistema completo de sucesos
Antes de formalizar esos teoremas debemos introducir el concepto de particin.
Denicin 1.9. Dado un sistema de sucesos A
1
, . . . , A
n
A, se dice que forman
una particin o un sistema completo de sucesos, si todos ellos son "factibles", esto
es, tienen una probabilidad positiva de vericarse, son incompatibles dos a dos y su
unin cubre todo el espacio muestral.
1. P(A
i
) > 0, i = 1, . . . , n
2. A
i
A
j
= , i ,= j
3.

n
i=1
A
i
= E, que aplicando la funcin de probabilidad a ambos miembros y
teniendo en cuenta 2) equivale a: P(E) = 1 =
n
i=1
P(A
i
)
[Las alternativas de futuro del ejemplo anterior forman una particin. Por qu?]
1.5.2. Teorema de la probabilidad total
Teorema 1.1. Dado un espacio de probabilidad (E, A, P) sobre el cual se puede esta-
blecer una particin (A
1
, . . . , A
n
), la probabilidad de un suceso cualquiera B, (B A),
puede calcularse mediante la siguiente expresin:
P(B) =
n
i=1
P(B/A
i
)P(A
i
)
Esta relacin se conoce como frmula de la probabilidad total , porque permite cal-
cular la probabilidad total de un suceso a partir de las probabilidades de sus partes
(intersecciones con los elementos de la particin).
Demostracin. En efecto, podemos expresar: B = B E
Como (A
1
, . . . , A
n
) forman un sistema completo de sucesos, la tercera caracterstica
de los mismos implica que B = BE = B(
n
i=1
A
i
) =
n
i=1
(BA
i
). Los elementos
32
Figura 1.3.: Sistema completo de sucesos
de la particin son incompatibles dos a dos, (BA
i
) A
i
, por tanto esas intersecciones
son tambin incompatibles dos a dos y en consecuencia si aplicamos la funcin de
probabilidad, se tiene:
P(B) = P (
n
i=1
(B A
i
)) =
n
i=1
P(B A
i
) [por qu?]
Por otra parte, de la frmula de la probabilidad condicionada se sigue:
P(B/A
i
) =
P(BA
i
)
P(A
i
)
, y despejando: P(B A
i
) = P(B/A
i
)P(A
i
)
Por tanto sustituyendo en la expresin anterior, resulta:
P(B) =
n
i=1
P(B/A
i
)P(A
i
)
La interpretacin del teorema de la probabilidad total aparece ilustrada en el esque-
ma adjunto 1.3, donde los sucesos de la particin son representados como piezas de
un puzzle (incompatibles y cuya unin es el espacio muestral). Segn el enunciado de
este teorema, la probabilidad de que se presente un determinado efecto nal (suceso
B) puede ser evaluada considerando las verosimilitudes del suceso B bajo las distintas
alternativas (sucesos de la particin, A
i
), debidamente ponderadas por la probabilidad
asociada a cada alternativa.
Sin duda la propiedad de la probabilidad que ha alcanzado una mayor trascendencia
es el siguiente resultado.
1.5.3. Teorema de Bayes
Teorema 1.2. Dada una particin A
1
, . . . , A
n
de E y otro suceso B tal que P(B) > 0,
el teorema de Bayes nos dice que entonces:
33
P(A
i
/B) =
P(B/A
i
)P(A
i
)
n
i=1
P(B/A
i
)P(A
i
)
Este teorema fue enunciado por primera vez por Bayes en 1763, aunque ste slo lo demostr para
el caso de equiprobabilidad de las causas (A
i
). La demostracin completa del teorema corresponde a
Laplace (1812).
Demostracin. Vamos a demostrar este resultado. Aplicando la denicin de proba-
bilidad condicionada se tiene:
P(B/A
i
) =
P(BA
i
)
P(A
i
)
, de donde P(B A
i
) = P(B/A
i
)P(A
i
).
Por otra parte, P(A
i
/B) =
P(A
i
B)
P(B)
y sustituyendo el numerador por la expre-
sin anterior y el denominador por la frmula de la probabilidad total, obtenemos el
resultado enunciado.
Las probabilidades P(A
i
) se denominan probabilidades iniciales o a priori o probabi-
lidades de las causas; las P(A
i
/B) se denominan probabilidades nales o a posteriori ,
probabilidades que se asignan a las causas despus del conocimiento del suceso B; y
las P(B/A
i
) se conocen como verosimilitudes. La frmula de Bayes nos indica cmo la
informacin proporcionada por el suceso B modica las probabilidades iniciales que,
mediante el empleo de la verosimilitud, transforma en probabilidades nales. Tam-
bin puede interpretarse este teorema en los siguientes trminos: si consideramos el
suceso B como un efecto (resultado de alguna observacin o experimento), entonces
la frmula anterior nos indica la probabilidad de que A
i
sea la causa de B.
Para el ejemplo propuesto, la introduccin de informacin adicional (renovacin o
no del contrato) permitira pasar de las probabilidades iniciales a probabilidades a
posteriori segn indica la tabla siguiente [Justicar cmo se ha obtenido cada uno de
estos resultados]:
Probabilidades
Alternativa A priori P(A
i
)
Condicionadas a Condicionadas a
Renovacin P(A
i
/R) no Renovacin P(A
i
/
R)
Expansin (X) 0,6 0,72 0
Estancamiento (E) 0,1 0,10 0,12
Crisis (C) 0,3 0,18 0,88
Es fcil comprobar cmo las "correcciones" incorporadas a las probabilidades a
priori van en la direccin esperada segn la informacin recibida: si sabemos que
producir la renovacin de un contrato, tenderamos a pensar que es ms verosmil la
expansin econmica (cuya probabilidad pasa a ser del 72 %). Si por el contrario la
informacin es que no se producir la renovacin, la probabilidad ms afectada al alza
es la de crisis econmica que pasa a situarse en un 88 %.
La principal dicultad del teorema de Bayes estriba en calcular o denir las probabilidades iniciales.
Este fue un tema de gran controversia que dio lugar a dos concepciones distintas de la estadstica: la
clsica y la bayesiana.
34
2. Magnitudes aleatorias
A menudo resulta interesante el estudio de magnitudes cuyo valor es imposible
predecir de forma exacta. En estas situaciones, las tcnicas estadsticas descriptivas
-aunque tiles- son insucientes, revelndose como imprescindible la utilizacin de
probabilidades para cuanticar la potencialidad.
A modo de ejemplo, si consideramos la actualidad econmica de una jornada, es
posible que aparezcan noticias referidas a los benecios de las entidades bancarias,
el nivel de precios, los nuevos empleos que se generarn asociados a una inversin, el
crecimiento del PIB, . . .
Aunque todas estas caractersticas tienen elementos comunes, tambin se aprecian
entre ellas algunos rasgos diferenciales. As, para tratar la informacin relativa a los
benecios de entidades bancarias podramos aplicar herramientas de estadstica des-
criptiva, ya que estamos describiendo informacin pasada. Por el contrario, el plan-
teamiento cambiara si la informacin se reere al nmero de empleos que de forma
directa o indirecta sern generados por cierta inversin, ya que en este caso hablamos
de un hecho futuro y por tanto existir un componente de incertidumbre. De mo-
do anlogo, esta presencia de incertidumbre se maniesta en hechos que, aun sin ser
futuros, no pueden ser analizados desde un punto de vista determinista, al resultar
imposible un anlisis exhaustivo de los mismos. De ah que las informaciones relativas
al crecimiento del PIB o la inacin sean estimaciones, basadas en informacin parcial
y que aparecern acompaadas de alguna medida de su credibilidad, en trminos de
probabilidad.
2.1. Variable aleatoria. Variables discretas y continuas
Cuando la realidad se estudia de forma descriptiva, las variables estadsticas resul-
tan adecuadas, al describir o representar esa realidad mediante sus correspondientes
valores y frecuencias.
Este mismo esquema puede ser trasladable a la descripcin de magnitudes alea-
torias, categora en la que se incluyen gran parte de los fenmenos econmicos, que
raramente son predecibles de forma determinista ya que suelen contener una compo-
nente estocstica.
Aparece as el concepto de variable aleatoria (v.a.), de gran trascendencia en los
anlisis inferenciales, entendido como una funcin numrica de los resultados asociados
a fenmenos aleatorios.
En ciertas ocasiones, esta realidad econmica aparece directamente como una varia-
ble, esto es, descrita mediante valores. Por el contrario, otros fenmenos se presentan
35
Figura 2.1.: Variables aleatorias
en principio como categoras ("sector econmico en el que se incluye una actividad",
"situacin laboral de un individuo", "contexto econmico", ...) por lo cual resulta
conveniente una transformacin de las mismas, que lleve aparejada su descripcin
numrica.
Consideremos un experimento aleatorio que describe la situacin laboral de un indi-
viduo w. El conjunto de posibles resultados ser: E = A = activo, NA = noactivo.
1
Consideremos denida sobre este espacio muestral una variable X que asigna el valor
1 a A y 0 a NA. Est claro que esta funcin es una variable aleatoria, puesto que si
elegimos al azar un individuo w no podemos conocer de forma exacta si el valor que
le asignar X es 0 o 1, aunque s podremos llegar a calcular la probabilidad con la
que puede tomar esos valores.
Una variable aleatoria debe transformar los resultados de un fenmeno aleatorio,
elementos del espacio muestral E, en nmeros reales, luego ser una aplicacin X de
E en 1. Como el resultado del fenmeno es incierto, el valor de la aplicacin tambin
lo ser, pero la identicacin de resultados con valores (reales), lleva implcita la
identicacin de sus probabilidades.
Sin embargo, el conocimiento de la probabilidad representa ms un hecho cualitativo
que cuantitativo, pues en el ejemplo anterior slo nos informa sobre las posibilidades
de encontrarse en cada una de esas categoras, sin detenerse en las valoraciones que
stas llevan implcitas.
1
Segn la Encuesta de Poblacin Activa del INE, se denen como activas aquellas personas que
realizan una actividad econmica (caso de los empleados u ocupados) o que, no realizando tal
actividad, estn en condiciones y desean hacerlo (caso de los desempleados o parados).
En el suceso complementario NA consideramos por tanto la poblacin inactiva, en la que se
incluyen los estudiantes, los jubilados, las personas dedicadas exclusivamente al cuidado del propio
hogar y las personas incapacitadas para trabajar.
36
Figura 2.2.: Probabilidad inducida
Supongamos una funcin aleatoria que asigna valor unitario a la situacin de acti-
vidad. Tal y como muestra la gura 2.1todos los activos conducen al valor 1; por lo
tanto tendremos tantas posibilidades de obtener 1 como de seleccionar un activo. As
pues, el sistema inicial de probabilidades sobre E induce un nuevo sistema P sobre
1, de manera que P(1) = P(A) y P(0) = P(NA). Esta probabilidad inducida viene
inferida por la denicin de la v.a. que especica a qu valores se les asigna una pro-
babilidad no nula y por el sistema inicial de probabilidades que permite la asignacin
de su cuanta.
De una forma ms general, necesitamos establecer un espacio probabilizable sobre el cuerpo de los
nmeros reales, y a partir de l denir la probabilidad (inducida) que permita esa identicabilidad
El espacio nos lo proporciona y la -lgebra de Borel , , denida sobre ; esta -lgebra estar
formada por todos los intervalos abiertos, semiabiertos, cerrados y sus intersecciones, uniones, ... .
Denotaremos por (, ) este espacio probabilizable.
Denicin 2.1. Denimos una variable aleatoria, X, como una funcin de E en que sea
medible; esto es, que la imagen inversa de todo boreliano (elemento de ) sea un suceso (elemento
de A).
En un sentido estricto tendramos que distinguir entre el concepto de magnitud aleatoria (in-
troducido en prrafos anteriores como v.a.) y la denicin que acabamos de establecer de variable
aleatoria. Podemos observar que esta denicin es ms restrictiva que la enunciada anteriormen-
te, pues se pueden buscar contraejemplos de magnitudes aleatorias (asociadas a los resultados de
fenmenos aleatorios) que no satisfacen la denicin de variable aleatoria.
La denicin dada responde satisfactoriamente a nuestros objetivos, pues nos permite denir de
forma natural una probabilidad inducida sobre por P y X que garantice la identicacin anterior
como se recoge en la gura 2.2.
En efecto, dado un boreliano B en , la contraimagen de B por X ser un suceso A en A, y adems
es el nico suceso que la variable aleatoria transforma en B. Por tanto, como la probabilidad inducida,
37
P
, de B tiene que coincidir con la probabilidad de A, la denicin natural de la probabilidad inducida

ser: P
(B) = P(X
1
(B)) = P(A).
Por otra parte, los intervalos semiabiertos de la forma (, x], x , generan la -lgebra de
Borel, y por lo tanto, podemos reducir las deniciones anteriores a intervalos de este tipo, puesto que
cualquier boreliano podr ser expresado mediante una combinacin de los intervalos anteriores. As
tenemos:
Denicin 2.2. Una variable aleatoria X es una aplicacin de E en , que verica: X
1
(, x]
es un elemento de A para todo x .
Denicin 2.3. Denimos la probabilidad inducida, P
, sobre como aquella funcin de conjunto,

que para todo x de verica: P
((, x]) = P
_
X
1
(, x]
_
.
Proposicin 2.1. La probabilidad inducida as denida es una funcin de probabilidad.
Demostracin. En efecto, tendremos que comprobar que cumple los tres axiomas de la probabili-
dad; esto es:
P
(B) 0 , B
P
(E) = 1
Si B
1
, . . . , B
n
, . . . es una sucesin de borelianos disjuntos dos a dos B
i
B
j
= , i = j,
entonces: P
i=1
B
i
_
=
i=1
P
(B
i
).
Los dos primeros supuestos son elementales [Por qu?]
Por otra parte, al ser X una v.a., se cumple que la imagen inversa de cualquier boreliano es
un elemento de A; por tanto, X
1
(B
i
) = A
i
A, i = 1, . . . , n, . . . . Puesto que la coleccin de
borelianos son incompatibles dos a dos, existe en A una sucesin A
1
, . . . , A
n
, . . . , tambin disjuntos
[Por qu?], tales que:
P
_
i
B
i
_
= P
_
X
1
_
i
B
i
__
= P
_
i
_
X
1
(B
i
)
__
= P
_
i
A
i
_
y por ser P una funcin de
probabilidad y los A
i
disjuntos se tiene:
P
_
i
A
i
_
=
i
P(A
i
) =
i
P
_
X
1
(B
i
)
_
=
i
P
(B
i
) lo cual concluye la justicacin.
En lo que sigue no haremos distincin terminolgica entre la probabilidad inicial y la inducida.
Volviendo al ejemplo anterior de individuos activos e inactivos, es fcil comprobar que la magnitud
denida cumple la denicin de variable aleatoria. En efecto, la -lgebra A en este caso viene deter-
minada por: A = {{}, {A}, {NA}, {E}} (incluye todas las uniones, intersecciones y complementarios
de sus elementos); luego el espacio (E, A) es un espacio probabilizable.
Sobre este espacio pueden establecerse innitas medidas de probabilidad, por ejemplo: P(A) = 0, 75
y P(NA) = 0, 25. (P es una funcin denida sobre todos los elementos de A, evidentemente P() = 0
y P(E) = 1). De esta forma la terna (E, A, P) constituye un espacio de probabilidad.
Para comprobar que X es una v.a. tendremos que ver que la imagen inversa de todo intervalo de
la forma (, x] pertenece a A; en efecto,
x < 0, X
1
(, x] = A
x [0, 1), X
1
(, x] = {NA} A
x 1, X
1
(, x] = E A [por qu?]
38
Luego queda justicado que X es una variable aleatoria.
Especiquemos ahora su funcin de probabilidad inducida. Los intervalos de la forma (, x] que
debemos estudiar se reducen a los tres casos anteriores, y la probabilidad inducida se cuanticar
como sigue:
x < 0, P
(, x] = P
_
X
1
(, x]
_
= P() = 0
x [0, 1), P
(, x] = P
_
X
1
(, x]
_
= P(NA) = 0, 25
x 1, P
(, x] = P
_
X
1
(, x]
_
= P
_
X
1
(, 0]
_
+P
_
X
1
(0, 1]
_
+P
_
X
1
(1, x]
_
=
0 +P(NA) +P(A) = 0 + 0, 25 + 0, 75 = 1
La probabilidad inducida est inferida por la probabilidad inicial (podra ser otra, por ejemplo P(A) =
0, 5 y P(NA) = 0, 5) y por la variable aleatoria (as la v.a. que asignase X(A) = 10 y X(NA) = 10,
inducira una nueva probabilidad).
Es interesante tener presente que la funcin de probabilidad es una funcin de
conjunto; esto es, est denida sobre conjuntos, hecho que diculta su manipulacin
matemtica (sin ir ms lejos, las funciones de conjunto no son representables). La
introduccin de la variable aleatoria y la probabilidad inducida permiten transformar
esta funcin en otra que reduce esos conjuntos abstractos a intervalos de la recta real.
Sin embargo, y a pesar de la considerable simplicacin que representa, la maneja-
bilidad de la funcin de probabilidad inducida sigue siendo escasa; como veremos en
epgrafes posteriores resulta deseable pasar de este tipo de funciones a otra que sea
una funcin de punto denida sobre nmeros reales.
Las magnitudes aleatorias admiten una clasicacin segn los valores que pueden
adoptar y as siguiendo criterios anlogos a las variables estadsticas distinguimos las
variables discretas de las continuas.
El caso de variables discretas se corresponde con aquellas magnitudes cuyo recorrido
de valores posibles es nito o innito numerable: trabajadores afectados por cierto
convenio laboral, nmero de clientes que acuden a una entidad bancaria, poblacin
ocupada de cierto sector econmico, ...
Cuando en cambio las magnitudes que analizamos pueden tomar un conjunto de
valores innito no numerable, estamos en el caso de variables continuas. En esta
categora se incluyen la Renta Nacional de cierto pas, el nivel de inacin acumulada
en un mes, el consumo de combustible en cierto proceso productivo, ...
Las dos categoras anteriores, aunque son las ms frecuentes, no agotan todas las
posibilidades. As, consideremos por ejemplo la variable T="tiempo de espera de un
conductor ante un semforo, cuyo recorrido de valores viene dado por 0, [T
1
, T
2
]
Esta magnitud aleatoria pertenece a la categora de variables que podemos denomi-
nar mixtas, ya que adoptara un primer tramo de recorrido discreto (valor T = 0 para
aquellos casos en los que el semforo est en verde y por tanto el conductor no debe
esperar) y en los restantes casos se situara en el tramo continuo representado por
el intervalo [T
1
, T
2
], cuyos extremos recogeran respectivamente los tiempos de espera
mnimo (T
1
, que indicara el tiempo de reaccin del conductor cuando el semforo
cambia inmediatamente a verde) y mximo (T
2
, tiempo total de espera si el semforo
acaba de cambiar a rojo).
39
Aunque este ltimo tipo de variable mixta es poco frecuente, merece ser tenido en
consideracin y podran encontrarse algunas ilustraciones del mismo en la vida diaria
(el tiempo que un individuo se ve obligado a esperar en la consulta de un mdico, las
tarifas de algunos servicios telefnicos o elctricos, las ganancias obtenidas con ciertos
juegos de azar...).
Los sucesos aleatorios se caracterizan por "poder ser" y no por "ser"; esta "poten-
cialidad" es la diferencia bsica entre una variable estadstica y una aleatoria y entre
sus correspondientes valores.
Podramos plantearnos entonces si, una vez observada una variable aleatoria, sta se transforma en
estadstica por el simple hecho de pasar de futuro a pasado. Evidentemente, la respuesta es negativa
ya que la diferencia entre ambas categoras entraa algo ms, referido al hecho de que la variable
estadstica se supone exenta de incertidumbre a diferencia de la variable aleatoria cuyos valores
pudieron haber sido otros (sustituimos la certeza por la posibilidad o grados de posibilidad).
Ahora bien, una vez observada cierta variable aleatoria, si nos abstraemos de la incertidumbre que
rodea a sus valores y los tomamos como ciertos, entonces podramos efectuar sobre los mismos un
estudio de tipo descriptivo.
Cuando desarrollamos un anlisis sobre variables estadsticas, el mbito se denomina estadstica
descriptiva. Teniendo en cuenta la identicacin anterior, la estadstica descriptiva tambin se puede
desarrollar sobre los valores de variables aleatorias, reservando en este caso la probabilidad para el
proceso de induccin posterior de resultados.
2.2. Distribucin de probabilidad de una variable
aleatoria
La descripcin de una variable estadstica se lleva a cabo mediante sus valores y las
frecuencias con las que toma los mismos.
Para las v.a. tenemos que sustituir los valores y las frecuencias por el rango hipot-
tico de valores que puede tomar y las probabilidades asociadas.
El rango de la variable se determina en funcin de lo que conceptualmente mida
esa magnitud. Por lo que se reere a la funcin de probabilidad, sta podra denirse
como:
p : x 1 p(x) = P(X = x) = P (w E/X(w) = x) [0, 1]
La cuanticacin de esta probabilidad puntual no siempre tiene sentido, dependien-
do la descripcin probabilstica de una variable de su carcter discreto o continuo.
Consideremos dos caractersticas asociadas a cierta entidad bancaria durante el
prximo ao: nmero de empleados por sucursal y volumen de benecios de la misma.
Dado que ambas magnitudes van referidas al futuro sern variables aleatorias. La
primera de ellas, discreta, quedara descrita si consiguiramos aproximar mediante
algn mtodo la probabilidad de que el nmero de empleados de una sucursal sea 1, 2,
..., procedimiento que sin embargo no es generalizable al caso de los benecios, como
consecuencia de su carcter continuo.
En efecto, existen innitas posibilidades de benecio que son no numerables. Cada
una de ellas tiene cierta posibilidad de ocurrencia -en principio todas ellas positivas-
40
y, por pequeas que sean estas cantidades, su suma sera innito, no vericando el
segundo axioma de la probabilidad.
Supongamos que los benecios pueden oscilar entre a y b, a X b, y cualquier valor de ese
recorrido es posible, P(x) > 0, x [a, b]. Si denotamos por p el nmo de estos valores:
p = inf {P(x) : x [a, b]}
entonces:

x
P(x)
x
p =
La justicacin intuitiva de este comportamiento radica en que en el primer caso, cuando las
variables son discretas, la suma est indexada en un subconjunto de los nmeros naturales, mientras
que en el segundo caso la suma se realiza sobre un campo continuo de valores.
2.2.1. Funcin de distribucin
La probabilidad inducida asigna a cada intervalo de la forma (, x] un valor de
probabilidad que depende de x, y representa la probabilidad acumulada hasta ese
valor. As pues, podemos denir una funcin real de variable real, que a cada x le
asigne su probabilidad acumulada. Esta funcin, que se denota por F, se denomina
funcin de distribucin.
Denicin 2.4. La funcin de distribucin de una v.a. X es una funcin denida
como:
F : x 1 F(x) = P
_
X
1
(, x]
_
= P ((, x]) = P(X x) [0, 1]
Proposicin 2.2. Una funcin de distribucin cumple las siguientes propiedades:
1. F es montona no decreciente: x
1
< x
2
F(x
1
) F(x
2
)
2. lim
x
F(x) = 0 y lim
x+
F(x) = 1
3. F es continua a la derecha. (Algunos autores, consideran como sistema de generadores de la
lgebra intervalos de la forma [x, +), en cuyo caso la continuidad ser por la izquierda).
Estas tres propiedades caracterizan a las funciones de distribucin, de forma que toda funcin que
satisfaga dichas propiedades ser la funcin de distribucin de una cierta variable aleatoria.
Demostracin. Vamos a justicar estas propiedades:
Comencemos por comprobar que F es montona no decreciente: Sean x
1
y x
2
dos nmeros reales
cualesquiera con x
1
< x
2
, y denotemos por [X x] el suceso {w E/X(w) x}. Podemos
descomponer el suceso [X x
2
] de la siguiente forma:
[X x
2
] = [X x
1
] [x
1
< X x
2
]
es decir, mediante la unin de dos sucesos incompatibles; aplicando la funcin de probabilidad a los
dos miembros, tendremos:
41
P ([X x
2
]) = P ([X x
1
]) +P ([x
1
< X x
2
])
y en el segundo miembro los dos sumandos son no negativos, por lo cual se tiene: P ([X x
2
])
P ([X x
1
]) o equivalentemente: F(x
1
) F(x
2
).
Comprobemos ahora la propiedad segunda: lim
x+
F(x) = 1 y lim
x
F(x) = 0
lim
x+
F(x) = F(+) = P ([X ]) = P ({w E/X(w) +}) = P(E) = 1
lim
x
F(x) = F() = P ([X ]) = P ({w E/X(w) }) = P() = 0
estas justicaciones son intuitivas aunque no totalmente rigurosas (obsrvese que hemos tratado el
campo innito como un punto, cuando tendramos que tomar lmites y calcular lm
x+
P([X x]).
Para la demostracin completa de esta propiedad tendremos que considerar una sucesin arbitraria
de valores x
n
, con x
n
< x
n+1
y lm
n
x
n
= ; sin prdida de generalidad podemos suponer que
esta sucesin es la de los nmeros naturales {0, 1, . . . , n, . . .} que cumplen las condiciones anteriores.
El suceso [X n] puede ser expresado como una unin de sucesos incompatibles de la forma
siguiente:
[X n] = [X 0] [0 < X 1] [n 1 < X n]
y como la probabilidad de la unin es la suma de probabilidades, tenemos:
F(n) = P ([X n]) = P ([X 0]) +P ([0 < X 1]) + +P ([n 1 < X n])
Por otra parte, el suceso seguro puede ser expresado como unin innita de los sucesos disjuntos
anteriores: E = [X 0]
i
[i 1 < X i], por lo tanto:
P(E) = P ([X 0]) +
i
P ([i 1 < X i])
de donde se determina que la serie que ah aparece es convergente y por tanto, > 0, podemos
encontrar un n sucientemente grande tal que:
P([X n]) = P([X 0]) +P([0 < X 1]) + +P([n 1 < X n]) > 1
Por tanto queda demostrado que lm
n
F(n) = 1 y de forma general lm
x+
F(x) = 1.
De forma anloga se demuestra lm
x
F(x) = 0.
Finalmente, pasemos a demostrar la propiedad tercera: F es continua a la derecha, esto es:
lm
h0
+ F(x +h) = F(x)
En efecto, podemos considerar la siguiente descomposicin: [X x+h] = [X x][x < X x+h]
Calculando la probabilidad en ambos miembros y sustituyendo la funcin de distribucin, se tiene:
F(x+h) = F(x)+P([x < X x+h]) con lo cual: lm
h0
+ F(x+h) = F(x)+lm
h0
+ P ([x < X x +h]).
Y el ltimo sumando del segundo trmino es nulo porque ese suceso se reduce al suceso imposible
[por qu?], lo cual concluye la demostracin.
Si consideramos la variable aleatoria discreta que recoge la situacin laboral de un
individuo
42
X =
_
1 si w es activo
0 si w es inactivo
las probabilidades acumuladas sern nulas para todo valor de X inferior a 0. Para todo
x positivo e inferior a 1 el nico valor factible menor que 1 es el 0 (P(X = 0) = 0, 25),
por lo cual la probabilidad acumulada ser 0,25, y nalmente para todo x 1, los
valores factibles menores o iguales a x son el 0 y el 1, por lo que la probabilidad
acumulada ser 0, 25 + 0, 75 = 1.
Las caractersticas de la funcin de distribucin (f.d.) son anlogas para toda varia-
ble discreta: es una funcin escalonada que est denida en toda la recta real, antes
del primer valor posible de la variable F(x) es nula, la funcin experimenta un salto
en cada uno de los valores factibles de la variable, la altura de dicho salto es igual a
la probabilidad puntual de ese valor (que, por ser no negativa, da lugar a una funcin
montona no decreciente) y, por ltimo, para x no inferiores al ltimo valor de la
variable, F(x) permanece constante e igual a la unidad.
Como podemos observar en el comentario anterior quedan reejadas las propiedades sealadas de
la funcin de distribucin. En este ejemplo se trata de una funcin de distribucin no continua, con
tantos puntos de discontinuidad como valores puede tomar la variable (para v.a. discretas sern un
nmero nito o innito numerable). Adems cuando avanzamos hacia un valor de la variable por la
izquierda la f.d. toma un valor constante que no coincide con el del punto:
lm
0
+
F(x
i
) = F(x
i
)
y la diferencia entre las dos cantidades ser precisamente la probabilidad asociada a ese valor. Por
tanto la funcin no es continua por la izquierda. [Lo es por la derecha?, raznese la respuesta] [en
qu condiciones la funcin sera continua?]
La introduccin en el modelo matemtico asociado a un experimento aleatorio del concepto de
variable aleatoria tiene como objetivo primordial facilitar el manejo de la probabilidad asociada al
experimento. Este objetivo se logra al poder pasar de la probabilidad denida inicialmente sobre la
-lgebra de los sucesos (que es una funcin real de conjuntos de naturaleza variada) a la probabilidad
inducida (que es una funcin real de conjuntos reales, debido a la consideracin de la -lgebra de
Borel sobre ). Adems, esta probabilidad inducida puede ser caracterizada mediante la funcin de
distribucin, que es una funcin de punto (funcin real de variable real) y por tanto ms sencilla de
interpretar y manejar desde un punto de vista matemtico.
En general, las representaciones grcas de las funciones de distribucin correspon-
dientes a v.a. discretas y continuas son las que se recogen en los grcos siguientes:
[Figura 2.3]
Estas representaciones grcas nos sugieren establecer nuevas deniciones de variables aleatorias
discretas y continuas. Podemos denir una v.a. discreta como aqulla cuya funcin de distribucin es
escalonada y una v.a. continua como aqulla cuya f.d. tambin lo es.
Estas ltimas deniciones nos permiten comprobar grcamente la existencia de variables mixtas,
que se correspondern con aquellas funciones de distribucin que sin ser continuas tampoco sean
escalonadas. [Figura 2.4]
43
Figura 2.3.: Funcin de Distribucin
X Continua X Discreta
F(x)
1
F(x)
1
0
Figura 2.4.: Funcin de distribucin de una v.a. mixta
El concepto de probabilidad acumulada resulta de gran inters ya que a menudo es
muy til conocer la probabilidad de que una magnitud alcance valores hasta uno dado
o, de forma complementaria, valores superiores a l (1F(x)). Parece claro por tanto
que la funcin de distribucin proporciona una respuesta a preguntas del tipo cul
es la probabilidad de que una sucursal elegida al azar tenga a lo sumo 8 empleados?
o, de modo complementario, con qu probabilidad encontraremos un volumen de
benecios superior a cierta cifra?
2.2.2. Probabilidades de intervalos
En algunas ocasiones resulta interesante conocer la probabilidad asociada a cierto
recorrido (valores entre 4 y 6 empleados) o incluso una probabilidad puntual (cul
es la probabilidad de que una sucursal tenga exactamente 10 empleados?).
El primero de estos interrogantes aparece directamente conectado a la funcin de
distribucin, ya que para cualquier intervalo real (a, b] se tiene:
P(a < X b) = P(X b) P(X a) = F(b) F(a)
De este modo, a partir de los grcos anteriores podemos identicar las probabilida-
des de intervalos, que vendran representadas en el eje de ordenadas por la diferencia
entre los correspondientes valores de la f.d.
44
Figura 2.5.: Funcin de distribucin discreta
0,5
0,7
0,9
1
F(x)
0 1 2 3
Cabe preguntarse si este esquema de razonamiento es extrapolable hasta llegar a
identicar probabilidades de puntos concretos:
P(X = x) = lim
0
P(x < X x+) = lim
0
[F(x +) F(x )] = F(x
+
)F(x
) = F(x)F(x
)
debindose la ltima igualdad al hecho de que F es continua a la derecha.
2.2.3. Funcin de probabilidad
Cuando la v.a. es discreta, la funcin de distribucin es escalonada y para dos valores
consecutivos, x
i1
, x
i
, se verica: F(x) = F(x
i
1), x [x
i1
, x
i
).
Entonces, a partir de la relacin anterior, se tiene:
P(X = x) = F(x) F(x
) = F(x
i1
) F(x
i1
) = 0 si x
i1
< x < x
i
P(X = x
i
) = F(x
i
) F(x
i
) = F(x
i
) F(x
i1
) = P(x
i
) si x = x
i
Por tanto hemos comprobado que a partir de la funcin de distribucin podemos
obtener la probabilidad de los valores de una v.a. discreta.
Consideremos a modo de ilustracin la funcin de distribucin asociada a la variable
aleatoria discreta X="Nmero de medallas que obtendr un deportista de lite en
ciertos campeonatos" cuya representacin grca aparece recogida en la gura 2.5.
Esta funcin permite calcular probabilidades acumuladas hasta cierto nmero de
medallas. As, a travs de la grca de F(x) podemos responder fcilmente a preguntas
del tipo cul es la probabilidad de que un deportista no obtenga ms de 2 medallas?,
cuya respuesta P(X 2) = 0, 9 se obtiene con slo consultar la ordenada asociada al
punto x = 2 en el diagrama.
De modo anlogo podramos obtener probabilidades de intervalos. Por ejemplo, la
probabilidad de que un deportista logre en la competicin entre 1 y 3 medallas viene
dada por P(1 X 3) = P(0 < X 3) = F(3) F(0) = 0, 5.
45
Figura 2.6.: Funcin de probabilidad
0 1 2 3
0,2
0,1
P(x)
0,5
Dado que X es claramente discreta cmo podramos obtener la probabilidad de un
valor concreto, digamos 3 medallas? Acudiendo a la expresin anteriormente obtenida
para P(X = x
i
) se tiene:
P(X = 3) = F(3) F(3
) = F(3) F(2) = 0, 1
Es posible considerar otras magnitudes aleatorias discretas con recorrido mucho ms
amplio. Este sera el caso de la variable "Nmero de votos obtenidos por un partido
poltico en las prximas elecciones municipales", cuya funcin de distribucin sera
-con la nica salvedad del mayor recorrido- anloga a la anteriormente estudiada y
dara as respuesta a preguntas del tipo cul es la probabilidad de que un partido no
exceda los 2.500 votos?, con qu probabilidad se situar entre 3.000 y 5.000 votos? o
bien cul es la probabilidad de lograr exactamente 4.850 votos?
El procedimiento recogido para v.a. discretas, cuyo carcter numerable garantiza la
identicacin de los valores con probabilidad no nula, permite denir una funcin de
probabilidad que asocia a cada valor de X una probabilidad no negativa, resultando
evidente que la suma de todas ellas es -con independencia del concepto de probabilidad
utilizado- la unidad.
Denicin 2.5. La funcin de probabilidad de una variable aleatoria discreta, deno-
minada a menudo funcin de cuanta o funcin de masa de probabilidad, viene dada
por una aplicacin p : x 1 [0, 1] que cumple las condiciones:
p(x) 0 y
i
p(x
i
) = 1
La representacin grca de la funcin de probabilidad asociada a la variable X="Nmero
de medallas que obtendr un deportista de lite en ciertos campeonatos aparece reco-
gida en la gura 2.6, y es anloga a los diagramas de barras utilizados para variables
estadsticas discretas.
Proposicin 2.3. La f.d. F(x) de una v.a. X puede expresarse como la suma de
valores de probabilidad hasta ese valor.
46
Demostracin. En efecto, partiendo de la relacin: P(X = x
i
) = F(x
i
) F(x
i
) =
F(x
i
) F(x
i1
) = p(x
i
), podemos expresar:
F(x
i
) = F(x
i1
) +p(x
i
)
y procediendo de forma recursiva:
F(x
i
) = F(x
i2
) +p(x
i
) +p(x
i1
) = = F(x
1
) +p(x
i
) +p(x
i1
) + +p(x
2
)
teniendo en cuenta por otra parte que para x
1
se cumple F(x
1
) = p(x
1
), se obtiene:
F(x
i
) =
i
j=1
p(x
j
)
2.2.4. Funcin de densidad
Cuando la variable X considerada es continua y por tanto lo es tambin su funcin
de distribucin, se tiene:
P(X = x) = F(x) F(x
) = 0
por lo cual obtenemos que la probabilidad de cualquier punto es nula.
As pues, en este caso no resulta posible aislar valores ni sus correspondientes pro-
babilidades (la imposibilidad de enumerar los puntos hace que no tenga sentido hablar
de la probabilidad de un punto aislado). En cambio, s podramos trabajar sobre un
intervalo del que cuanticamos su probabilidad (de hecho, este es el modo de actuar
en variables estadsticas con datos agrupados).
De esta forma, aunque carezca de sentido aislar la probabilidad de que los benecios
de una sucursal bancaria sean exactamente de 25 millones, s podramos considerar
la probabilidad del intervalo (20, 30], u otros cualesquiera (a, b] ; conocida la forma
explcita de la funcin de distribucin obtendramos P(a < X b) = P(X b)
P(X a) = F(b) F(a).
Si dividimos el recorrido de la v.a. en k intervalos y asignamos a cada uno su proba-
bilidad segn el mtodo anterior, siguiendo una analoga con la estadstica descriptiva,
podemos representar grcamente [gura 2.7] esta distribucin de probabilidad me-
diante un histograma, donde las reas de los rectngulos son proporcionales a las
probabilidades de los correspondientes intervalos que tienen como base.
Si consideramos subdivisiones cada vez ms nas de ese recinto la silueta del histo-
grama se va transformando y en el lmite cuando la amplitud de los intervalos tiende a
0 podemos suponer que la representacin [gura 2.8] corresponde a una cierta funcin,
47
Figura 2.7.: Histogramas de probabilidad
Figura 2.8.: Funcin de densidad
48
f, denominada funcin de densidad, y que a cada valor x real le asigna su densidad de
probabilidad.
Para un intervalo cualquiera de amplitud 2h, la probabilidad del intervalo viene
dada por:
P(x h < X x +h) = F(x +h) F(x h)
Por otra parte, si la funcin f(x) es integrable, entonces el teorema del valor medio
del clculo integral, nos dice que existe un punto intermedio y, de manera que el rea
de ese intervalo se puede expresar como: P(xh < X x+h) = f(y) 2h, de donde:
f(y) =
P(x h < X x +h)
2h
y tomando lmites cuando h tiende a cero, podemos escribir:
f(x) = lim
h0
P(x h < X x +h)
2h
expresin que justica el nombre que se le asigna a esta funcin: cuantica la masa
de probabilidad de un intervalo en relacin a su amplitud, cociente que responde a la
idea de densidad, ya que para cada x puede ser interpretada como la densidad de
probabilidad en un entorno innitesimal de ese punto.
Proposicin. Dada la f.d. F(x) de una cierta v.a. X, la funcin de densidad se
obtiene como la derivada de F(x).
Demostracin. Partiendo de la expresin de la funcin de densidad, si ahora expresa-
mos la probabilidad del intervalo considerado en trminos de la f.d., se tiene:
f(x) = lim
h0
P(x h < X x +h)
2h
= lim
h0
F(x +h) F(x h)
2h
= F
(x) =
dF(x)
dx
con lo cual queda justicado que la funcin de densidad se obtiene por derivacin
de la funcin de distribucin (obsrvese que esta relacin f(x) = F(x) sera una
extensin al caso continuo de la anteriormente vista para variables discretas P(X =
x
i
) = F(x
i
) F(x
i1
)).
La funcin f(x) que recoge la densidad de probabilidad ser no negativa pues, segn
comprobamos en las propiedades de la f.d., F(x) es una funcin montona no decre-
ciente y por tanto su derivada (si existe) no puede ser negativa. Desde un punto de
vista an ms intuitivo, si fuese negativa podramos encontrar algn intervalo -aunque
tuviese amplitud innitesimal- con probabilidad negativa.
Consideremos por ejemplo una magnitud aleatoria continua X que cuantica la
distancia (expresada en miles de km.) recorrida semanalmente por un viajante, cuya
funcin de distribucin viene dada por la expresin:
49
F
X
(x) =
_
_
0 si x < 2
1,25x2,5
x
si 2 x < 10
1 si 10 x
a partir de la misma, derivando, se obtiene fcilmente la funcin de densidad:
f(x) =
_
2,5
x
2
si 2 x < 10
0 en otro caso
[Efectuar los clculos necesarios]
De igual forma que para v.a. discretas es posible obtener F(x) mediante agregacin
de la funcin de probabilidad, en el caso de las variables continuas podemos obtener
la f.d. F(x) a partir de la funcin de densidad. En este caso la suma ser sustituida
por una integral, obtenindose:
F(x) =
f(t)dt
Demostracin. Bastara tener en cuenta que podemos expresar F(x) como una integral
de Stieltjes-Lebesgue F(x) =
dF(t) y que cuando la variable es continua se

cumple: dF(x) = f(x)dx; por tanto se vericar:
F(x) =
dF(t) =
f(t)dt
Obsrvese que para variables discretas, las diferencias dF(x) son nulas en casi to-
dos los puntos salvo en los posibles valores de la variable, donde dF(x
i
) = F(x
i
)
F(x
i1
) = p(x
i
).
Las propiedades de la f.d., F(x) 0 y lm
x
F(x) = 1 trasladan a la funcin de densidad las
caractersticas de no negatividad y rea unitaria

f(x)dx=1.
Por otra parte, hemos visto cmo se expresa la probabilidad de un intervalo en trminos de la f.d.;
sustituyendo ahora sta por la funcin de densidad, se tendr:
P(a < X b) = F(b) F(a) =
f(x)dx
f(x)dx =
b
a
f(x)dx
Denicin 2.6. Llamamos funcin de densidad, si existe, a una aplicacin f : x
1 1
+
, que cumple las condiciones:
f(x) 0
f(x)dx = 1
a, b 1, < a < b < + se tiene: P(a < X b) =
b
a
f(x)dx
50
En la denicin anterior hemos introducido la puntualizacin si existe. Es necesario sealar que,
buscando una mayor claridad intuitiva, en los prrafos anteriores hemos cometido algunos abusos de
lenguaje.
En efecto, el hecho de que la f.d. de una v.a. continua tambin sea continua no implica que sea
diferenciable ni que se pueda expresar como la integral de la funcin de densidad. La existencia de esta
integral queda garantizada si le imponemos a F(x) alguna otra restriccin, como la de continuidad
absoluta, en cuyo caso tendramos que distinguir entre v.a. continuas y absolutamente continuas,
siendo estas ltimas las que permiten enlazar la f.d. con la de densidad.
Por otra parte, el teorema fundamental del clculo integral establece que si F(x) =
f(t)dt,
entonces F(x) es una funcin continua y F
(x) = f(x) en todo punto x de continuidad de f.

As pues, para obtener la f.d. F(x) a partir de la funcin de densidad ser necesario que la primera
sea absolutamente continua, y la funcin de densidad puede obtenerse como derivada de F(x) slo
en los puntos de continuidad de la primera.
Una vez efectuadas estas puntualizaciones debemos, sin embargo, sealar que todos los modelos
continuos considerados a lo largo de este texto son tambin absolutamente continuos. Por tanto no
haremos tal distincin, utilizando en un abuso de lenguaje la denominacin de v.a. continuas aunque
en realidad nos estaremos reriendo a las absolutamente continuas, que por tanto tienen siempre
garantizada la existencia de la funcin de densidad.
Volviendo al ejemplo anterior, dada la funcin de densidad:
f(x) =
_
2,5
x
2
si 2 x < 10
0 en otro caso
es posible obtener mediante integracin de esta funcin de densidad la probabilidad
acumulada o funcin de distribucin que, para cada recorrido kilomtrico x (2 x <
10), viene dada por expresin F
X
(x) =
1,25x2,5
x
[comprobar cmo se ha obtenido esta
funcin] [cul es su valor para x = 10?]
La relacin entre f(x) y F(x) permite calcular la probabilidad de un intervalo
cualquiera (a, b] mediante la expresin:
P(a < X b) = F(b) F(a) =
b
a
f(x)dx
As, por ejemplo, la probabilidad de que el recorrido del viajante oscile entre 2.000
y 4.000 km. semanales vendra dada por el valor P(2 < X 4) = 0, 625. Puede
observarse que dicha probabilidad supera a la del recorrido entre 6.000 y 8.000 km.,
intervalo de igual amplitud que el anterior, pero que sin embargo resulta menos pro-
bable como consecuencia de la propia densidad de probabilidad f(x) [comprobar que
P(6 < X 8) 0, 10417].
Una vez estudiadas las distintas vas a travs de las cuales puede venir descrita una
variable aleatoria, presentamos una sntesis de las mismas:
2.2.5. Variables aleatorias relacionadas: Cambio de variable
A menudo las magnitudes econmicas se hallan relacionadas entre s. Por ejemplo,
supongamos que el nmero de empleados de una ocina bancaria es una v.a.; si cada
51
Figura 2.9.:
Funcin de distribucin

Funcin de probabilidad Funcin de densidad

DISCRETA CONTINUA

Variable Aleatoria
empleado trabaja h horas semanales, la variable que recoge el nmero total de horas
es tambin aleatoria y vendra dada por X
= hX.
De modo anlogo, si la plantilla de cada sucursal aumentase en dos empleados, la
v.a. que indica el nuevo nmero de empleados sera ahora X = X + 2.
En cualquiera de estas dos situaciones nos enfrentamos a un cambio de variable.
La magnitud aleatoria denida aparece conectada con la inicial, por lo cual resulta
posible conocer su distribucin de probabilidad a partir de la informacin sobre X.
En concreto, para los ejemplos anteriores, por tratarse de variables discretas, bas-
tara con identicar el recorrido de valores de las nuevas variables X
y X y sus
correspondientes probabilidades, que se obtienen a partir de las asociadas a X.
En los ejemplos propuestos, las transformaciones de X, X
y X vendran descritas en los trminos

siguientes,
F
X
(x) = P(X
x) = P(hX x) = P(X
x
h
) = F
X
(
x
h
)
F
X
(x) = P(X
x) = P(X + 2 x) = P(X x 2) = F
X
(x 2)
Es evidente que a menudo aparecen cambios de variable ms sosticados que los anteriormente
descritos. As, podramos encontrarnos con cambios por tramos (por ejemplo, aumentos de 1, 2 o 3
empleados por sucursal segn sus niveles iniciales) en cuyo caso la deduccin de la distribucin de la
nueva variable sera ms complicada.
Si consideramos ahora una magnitud continua (por ejemplo, los benecios empresa-
riales Y ) y asumimos que la entidad debe pagar en concepto de impuestos un 15 % de
sus benecios tendramos la variable Y
= 0, 15Y , cuya distribucin de probabilidad

podra ser obtenida a partir de la idea de probabilidad acumulada (recogida para los
impuestos mediante la funcin de distribucin de Y
), conectando esta expresin con

la probabilidad acumulada de los benecios:
F
(y
) = P(Y
) = P(0, 15Y y
) = P
_
Y
y
0, 15
_
= F
_
y
0, 15
_
En denitiva, se tratara en este caso de buscar qu recorrido de la variable benecios
se corresponde con uno dado de los impuestos, tarea sencilla siempre que la expresin
de cambio de variable sea una funcin montona y continua.
52
En el procedimiento genrico del cambio de variable distinguiremos segn se trate de v.a. discretas
o continuas.
1) Supongamos que X es una v.a. discreta que puede tomar un conjunto de valores x
1
, . . . , x
n
, . . .
con probabilidades respectivas p, . . . , p
n
, . . . . Sea g una funcin denida en el conjunto imagen de X
tal que g(X) es una nueva v.a.:
E X(E) g(X(E))
Entonces la variable Y = g(X) es tambin discreta, y quedar especicada cuando conozcamos
los valores que puede tomar y sus probabilidades respectivas. Por lo que se reere a los valores, stos
sern y
1
= g(x
1
), . . . , y
n
= g(x
n
), . . . y sus probabilidades se cuantican de la forma siguiente:
P(Y = y
i
) = P ({x
i
/g(x
i
) = y
i
}) = P
_
{x
i
/x
i
{g
1
(y
i
)}}
_
= P ({x
i
/x
i
C
i
}) =
x
i
C
i
p(x
i
)
para obtener la ltima relacin tngase en cuenta que C
i
es un conjunto formado por un nmero
nito o numerable de puntos (estos puntos son disjuntos y por tanto la probabilidad de C
i
es la suma
de las probabilidades de los puntos que lo integran).
A modo de ejemplo, reconsideremos la variable anterior X="Plantilla de una sucursal bancaria" y
su transformacin X
="Nmero de horas trabajadas". Segn el razonamiento expuesto se obtendra

la probabilidad puntual de un nmero concreto de horas trabajadas como:
P(X
= x
i
) = P ({x
i
/hx
i
= x
i
}) = P
__
x
i
/x
i
=
x
i
h
__
Dado que la relacin entre X y X
es biyectiva, la distribucin de probabilidad de ambas variables

ser coincidente (esto es, la correspondencia biyectiva entre las magnitudes aleatorias se traslada a
sus distribuciones de probabilidad).
Consideremos ahora nuevamente la v.a. X="Nmero de votos obtenidos por los partidos polticos
en las prximas elecciones municipales", a partir de la cual podemos denir Y ="Nmero de concejales
obtenidos por un partido poltico" segn criterios del tipo:
Y =
_
_
0 si 0 x < 1,000
1 si 1,000 x < 2,000
2 si 2,000 x < 3,000
3 si 3,000 x < 4,000
.
.
.
.
.
.
En este caso, la correspondencia es sobreyectiva por lo cual la expresin genrica anterior nos
proporcionara la probabilidad de la variable Y como suma de probabilidades puntuales de varios
valores de X.
2) Si la variable X es continua, la transformacin Y = g(X) puede ser discreta o continua. En el
primer caso, resulta sencillo obtener la funcin de probabilidad de la nueva variable Y a partir de la
funcin de densidad de X:
P(Y = y
j
) =
C
j
f(x)dx, siendo C
j
= {x/g(x) = y
j
}
Si por el contrario g es una funcin continua, ser posible -siempre que g tenga inversa- obtener
su f.d. a partir de la de X como:
53
F
Y
(y) = P(Y y) = P(g(X) y) = P(X g
1
(y)) = F
X
_
g
1
(y)
_
si g(x) es montona
creciente
F
Y
(y) = P(Y y) = P(g(X) y) = P(X g
1
(y)) = 1 F
X
_
g
1
(y)
_
si g(x) es montona
decreciente
Adems en determinadas condiciones podemos encontrar una relacin entre las funciones de densidad
de X y de Y , como pone de maniesto la siguiente propiedad:
Proposicin 2.4. Sea X una v.a. continua con funcin de densidad f(x), la cual es estrictamente
positiva en un intervalo [a, b]. Sea Y = g(X) una transformacin montona y continua en el intervalo
[a, b], entonces Y es una v.a. continua cuya funcin de densidad viene dada por la expresin:
f
Y
(y) =
_
f
X
_
g
1
(y)
_
dg
1
(y)
dy
si y g ([a, b])
0 en otro caso
La justicacin consiste en aplicar la regla de la cadena y distinguir los casos de monotona creciente
y decreciente.
A modo de ilustracin de este ltimo caso, retomando la variable X="Distancia kilomtrica recorri-
da semanalmente por un viajante" podemos denir ahora Y ="Dietas cobradas por desplazamientos"
que viene dada por Y = 24X. Dado que se trata de una funcin montona creciente de x es posible
aplicar la expresin anterior para el cambio de variable, con lo cual se obtiene:
f
Y
(y) =
_
f
X
_
y
24
_
_
1
24
_
si y [24, 240]
0 en el resto
2.3. Caractersticas asociadas a variables aleatorias.
Valor esperado y varianza
El estudio de magnitudes econmicas se simplica considerablemente cuando se
utilizan algunas caractersticas que ayudan a describir su distribucin.
As, en nuestro anlisis de las entidades bancarias puede ser interesante resumir la
informacin en datos sintticos: "el valor esperado de benecios es de 42 millones" o
bien "el 75 % de las ocinas tienen menos de 12 empleados", ...
En denitiva, al igual que en estadstica descriptiva estudibamos un conjunto de
medidas tiles para describir, desde distintas pticas, una variable y que en consecuen-
cia nos informaban sobre su valor central, dispersin, simetra, ... el razonamiento es
vlido para las magnitudes aleatorias, resultando conveniente denir una serie de ca-
ractersticas asociadas a su distribucin.
En la prctica, estas caractersticas llegan a ser los rasgos identicadores de una
variable aleatoria, siendo frecuente describir la variable mediante un "perl" de la
misma, que incluye el modelo probabilstico al que se adapta y ciertos parmetros
relacionados con sus caractersticas de posicin y dispersin.
Siguiendo un esquema similar al de las variables estadsticas deniremos dos tipos
de caractersticas identicadoras de una variable aleatoria: una medida de posicin
(esperanza) y otras de dispersin (varianza y desviacin tpica).
54
El valor esperado o esperanza de una variable aleatoria se establece como un valor
resumen de la misma, obtenido mediante una expresin sinttica en la que intervienen
tanto los valores de la variable como sus probabilidades.
Denicin 2.7. Se dene el valor esperado o esperanza matemtica de una v.a. X,
que denotamos por E(X) o , como el valor, si existe, de la siguiente expresin:
E(X) = =
xdF(x)
Se trata de una integral de Stieltjes-Lebesgue, que no siempre ser convergente.
Cuando la variable es continua, dF(x) = f(x)dx y en consecuencia su valor esperado
se expresar como:
E(X) = =
xf(x)dx
[Aplicando esta expresin, comprubese que, para el ejemplo del viajante, se obtiene
un recorrido semanal esperado de 4.024 km. ( = 4, 024)].
Para variables discretas, los nicos valores no nulos de las diferencias dF(x) se
corresponden con los valores de la variable, para los cuales se obtiene:
dF(x
i
) = F(x
i
) F(x
i1
) = p(x
i
) = p
i
y en consecuencia el valor esperado para este tipo de variables se transforma en una
suma numerable:
E(X) = =
i
x
i
p
i
expresin similar a la media aritmtica de variables estadsticas donde la probabilidad
sustituye a la frecuencia relativa.
[Obtngase, a partir de la expresin anterior, la esperanza para la variable "Nmero
de medallas obtenidas por un deportista", = 0, 9].
En la concepcin frecuentista o frecuencialista de la probabilidad, sta se dene como lmite de
las frecuencias relativas, luego en el lmite media aritmtica y esperanza coincidirn. En efecto,
cuando se llevan a cabo un nmero elevado de observaciones de la variable, la media aritmtica
de estas observaciones se aproxima considerablemente al valor esperado de la misma; en concreto
demostraremos en el captulo 4 que, > 0 se tiene:
lim
n
P
_

X
>
_
= 0
lo que asegura una convergencia en probabilidad entre ambas caractersticas.
A pesar de su denominacin de "valor esperado" la esperanza no debe ser interpretada como el
valor que esperamos que adopte la variable aleatoria. De hecho, en algunas ocasiones el clculo de la
esperanza da como resultado valores que la variable X no puede adoptar (esto sucede en el ejemplo de
las medallas ganadas por el deportista, con esperanza de 0,9) e incluso puede ocurrir que la esperanza
no exista, esto es, que se obtenga una suma innita o una integral no convergente.
55
La esperanza matemtica no siempre permite resolver de forma adecuada algunos problemas re-
lativos a la ganancia esperada de un juego. La "paradoja de San Petersburgo" -denominada as por
haber aparecido publicada en la Revista de la Academia de San Petersburgo- pone de maniesto la
diferencia entre esperanza matemtica y esperanza moral.
Esta paradoja, que dio origen a numerosas discusiones en el siglo XVIII, puede ser planteada como
sigue: "Dos jugadores A y B participan en un juego consistente en lanzar una moneda y apostar sobre
el resultado considerado favorable (cara, por ejemplo). Las condiciones del juego son: el nmero de
lanzamientos es ilimitado, el juego concluye cuando aparece una cara por primera vez y la apuesta
se va duplicando con el nmero de lanzamientos. As, por ejemplo, A pagar a B una cantidad x si
sale cara en la primera tirada, 2x si no sale en la primera pero s en la segunda, 4x si no sale hasta
la tercera, etc.
Como consecuencia, la probabilidad que tiene B de ganar una cantidad x es
1
2
, de ganar 2x es
1
4
, la de 4x es
1
8
y en general la probabilidad de ganar 2
n
x es
_
1
2
_
n+1
. Su ganancia esperada en n
pruebas vendr dada por la expresin:
E(X) =
1
2
x +
1
2
2
2x +
1
2
3
2
2
x + +
1
2
n+1
2
n
x = nx
1
2
que puede llegar a ser innito si no limitamos el nmero de lanzamientos n y sin embargo ningn
jugador estara dispuesto a exponer en un juego como el descrito una suma importante de dinero,
ponindose as de relieve la limitacin de la esperanza matemtica.
Daniel Bernoulli introdujo en 1738 el concepto de "esperanza moral", germen de la moderna teora
de la utilidad marginal y donde adems ya expresaba el principio de la utilidad marginal decreciente.
Este concepto fue tambin analizado por Laplace (1814) quien comenta algunas aplicaciones del
criterio de la expectativa moral o utilidad esperada.
La inexistencia del valor esperado en una v.a. continua se pone de maniesto con la distribucin
de Cauchy, cuya funcin de densidad viene dada por la expresin:
f(x) =
1
(1 +x
2
)
, < x <
Cuando nos interesa resumir una variable obtenida mediante una transformacin de la variable
original, podemos establecer la siguiente denicin:
Denicin. Dadas una v.a. X y una funcin g tal que g(X) es de nuevo una v.a., se dene la
esperanza de esta nueva variable como:
E[g(X)] =
g(x)dF(x)
Segn que la nueva variable sea discreta o continua, este valor esperado podr ser expresado con
las formulaciones vistas anteriormente.
Como consecuencia de su carcter de operador lineal, la esperanza matemtica
cumple una serie de propiedades deseables.
Proposicin 2.5. La esperanza de cualquier v.a. X, presenta las siguientes propie-
dades para cualesquiera a, c 1:
56
1. E(c) = c
2. E(aX) = aE(X)
3. E(X +c) = E(X) +c
4. E(aX +c) = aE(X) +c
Demostracin. En efecto,
E(c) =
cdF(x) = c
dF(x) = c
E(aX) =
axdF(x) = a
xdF(x) = aE(X)
E(X +c) =
(X +c)dF(x) =
xdF(x) +c
dF(x) = E(X) +c
y a partir de los dos ltimos resultados se obtiene: E(aX +c) = aE(X) +c
[Hemos aplicado que

dF(x) =
i
p
i
= 1 para variables discretas y para variables
continuas

dF(x) =
f(x)dx = 1 ]
Proposicin 2.6. Para cualesquiera variables aleatorias X e Y , la esperanza de la
suma puede ser obtenida como suma de sus esperanzas: E(X +Y ) = E(X) +E(Y )
Esta propiedad resulta de gran inters ya que, como veremos en captulos posteriores, a menudo
nos interesa trabajar con magnitudes aleatorias que se obtienen como agregados de otras.
La esperanza puede ser interpretada como "centro de gravedad" de una distribucin
de probabilidad ya que, si asumisemos dicho valor como nico representante de la
poblacin el error esperado sera nulo.
Es decir, si evalusemos el error cometido al adoptar la esperanza como repre-
sentante obtendramos una nueva variable aleatoria (X E(X)) resultando sencillo
comprobar que su valor esperado es cero.
Tambin podramos considerar el error o desviacin en forma complementaria; la es-
peranza puede ser un valor desconocido y podemos utilizar la variable o un conjunto
de valores de sta para aproximar ese valor desconocido. En este caso nos encontra-
ramos con que cada valor de X conducira a un error o desviacin, pero en sntesis
estos errores se compensaran, obtenindose una esperanza nula.
[Demustrese que E(XE(X)) = 0 aplicando las propiedades anteriores y teniendo
en cuenta que E(X) = = cte.]
Las desviaciones o errores podran ser denidos en trminos ms generales respecto a una caracte-
rstica M de la variable, con lo cual ya no queda garantizado un error esperado nulo. Este concepto
de error o desviacin (X M) va a jugar un papel muy importante en captulos posteriores de este
libro.
Adems del "centro" de una distribucin interesa tambin conocer la separacin en-
tre sus valores, ya que es necesario diferenciar las distribuciones en las que ciertos erro-
res puntuales elevados resulten muy probables de aquellas otras donde estos mismos
errores extremos tengan una pequea probabilidad. Para diferenciar estas situaciones
introduciremos la varianza como medida de dispersin que resume las desviaciones
cuadrticas de una variable aleatoria respecto a su valor esperado.
57
As, a partir de la distancia o desviacin de un valor x al "centro" de la distribucin
(X ), denimos la varianza como la "desviacin cuadrtica esperada".
Denicin 2.8. Dada una v.a. X denimos la varianza, que denotamos por
2
o
V ar(X), como el valor, si existe, de la expresin:
2
= V ar(X) = E [X E(X)]
2
=
(x )
2
dF(x)
que en el caso continuo puede calcularse como:
2
=
(x )
2
f(x)dx
y en el caso discreto como:
2
=
i
(x
i
)
2
p
i
Como consecuencia del carcter aleatorio de la variable X, la varianza puede ser
interpretada como una medida de riesgo en el sentido de que sintetiza los errores o
desviaciones cuadrticas respecto a la esperanza, ponderando cada error o desviacin
por su correspondiente potencialidad (probabilidad). Es evidente que el mnimo riesgo
posible se presentara en el caso de varianza nula, esto es, para una variable cuyos
valores coinciden con el esperado y que por tanto se denomina habitualmente "variable
degenerada".
Si en vez de considerar los errores respecto a la media los considersemos respecto a
otra magnitud cualquiera M, e = (XM), entonces la desviacin cuadrtica esperada
E(e
2
) = E(X M)
2
, se denomina error cuadrtico medio respecto a M.
Proposicin 2.7. A partir de la denicin de varianza es posible obtener una expre-
sin alternativa de esta medida:
2
= E(X
2
)
2
, que suele resultar ms operativa
para su clculo.
Demostracin. Para comprobar la equivalencia entre las expresiones E(X )
2
y
E(X
2
)
2
basta desarrollar el cuadrado en la denicin de varianza:
2
= E(X )
2
= E
_
X
2
2X +
2
_
= E(X
2
) +E(2X) +E(
2
)
Teniendo en cuenta las propiedades de la esperanza y que y -2 son constantes, se
tiene:
2
= E(X
2
) 2E(X) +
2
= E(X
2
) 2 +
2
= E(X
2
)
2
Proposicin 2.8. La varianza de cualquier v.a. X, presenta las siguientes propiedades
para cualesquiera b, c, M 1:
1.
2
0
58
2. V ar(X +c) = V ar(X)
3. V ar(bX) = b
2
V ar(X)
4. V ar(X) E(X M)
2
Esta ltima propiedad permite calicar a la varianza de medida cuadrtica ptima
en el sentido de que esta expresin miminiza el valor de las desviaciones cuadrticas.
Demostracin. La primera propiedad garantiza que la varianza es no negativa y se de-
muestra de forma inmediata a partir de la denicin, en la que intervienen desviaciones
al cuadrado que por tanto sern no negativas.
3.
V ar(bX) = E [bX E(bX)]
2
= E[bX bE(X)]
2
= E[b(X E(X))]
2
=
= b
2
E[X E(X)]
2
= b
2
V ar(X)
En la demostracin de esta expresin se ha hecho uso de la propiedad de la esperanza
relativa al producto de una variable aleatoria por una constante. [Comprubese la
propiedad 2, segn la cual la varianza permanece inalterada ante cambios de origen
en la variable aleatoria]
4. Sea M un valor real cualquiera; entonces se cumple que la desviacin cuadrtica
respecto a M se hace mnima cuando dicho valor coincide con el esperado.
Para comprobar esta propiedad basta desarrollar la expresin genrica:
E(X M)
2
= E(X + M)
2
= E [(X ) + ( M)]
2
=
= E
_
(X )
2
+ 2(X )( M) + ( M)
2
Teniendo en cuenta que el operador esperanza es lineal y que y M son constantes,

se tiene:
E(X M)
2
= E(X )
2
+ 2( M)E(X ) + ( M)
2
y, como E(X ) = 0, resulta:
E(X M)
2
= E(X )
2
+ ( M)
2
. .
0
Al ser ( M)
2
un cuadrado y por tanto no negativo, se tiene que a
2
hay que
sumarle una cantidad mayor o igual a cero para alcanzar a E(X M)
2
de donde:
E(X M)
2

2
La descomposicin anterior separa el error cuadrtico medio respecto a M en dos
sumandos: la varianza de X y el cuadrado de la diferencia entre M y . La aleato-
riedad de la variable afecta al primer sumando y no al segundo que es el cuadrado
de una constante. As pues, el primer sumando es un error aleatorio intrnseco a la
59
variable y el segundo un error determinista debido a la distancia entre y M.
Como consecuencia de su denicin, la varianza es una medida de dispersin que
analiza la proximidad de los valores de la variable a su valor esperado. En muchas
ocasiones es til construir un intervalo en torno a la esperanza donde probablemente
se site un alto porcentaje de valores de la variable; los lmites de este intervalo
se construyen sumndole y restndole a el nivel de dispersin. Sin embargo, nos
encontramos con el inconveniente de que las unidades de son las mismas que las de
la variable y en cambio, las de la varianza son unidades cuadrticas. Por este motivo
es conveniente introducir nuevas medidas de dispersin.
Denicin 2.9. Denimos la desviacin tpica o estndar, que denotamos por o
STD(X), como la raz cuadrada (con signo positivo) de la varianza.
De este modo, se dispone de una medida de dispersin cuya informacin aparece como complemen-
taria a la proporcionada por la esperanza. Esta medida permite acotar probabilidades de intervalos
con independencia del modelo de probabilidad que siga la variable X ya que, como demostraremos
en un epgrafe posterior, se cumple para cualquier k > 0:
P ( k < X < +k) 1
1
k
2
expresin conocida como desigualdad de Chebyshev y cuya interpretacin es muy clara: la probabilidad
de que un valor de la variable se site en cierto entorno de su esperanza, determinado ese entorno
por su desviacin tpica, es mayor que una cierta cantidad.
As pues, gracias a la acotacin anterior, podemos entender la desviacin tpica -y en su caso la
varianza- como una medida de riesgo asociada a la v.a.
Adems, en el caso de que la variable X siga una distribucin conocida, las acotaciones an-
teriores pueden ser perfeccionadas. Ms concretamente, si X se adapta a un modelo normal, se
puede comprobar que el 66 % de los valores se sitan dentro del intervalo ( , + ); esto es:
P( < X < +) 0, 66. Ampliando el intervalo observamos que la proporcin de valores que
se sitan en l aumenta y as se tiene:
P( 2 < X < + 2) 0, 95 y P( 3 < X < + 3) 0, 99
Las caractersticas anteriormente vistas -esperanza, varianza y desviacin tpica- son equivalentes
a las correspondientes medidas descriptivas media, varianza y desviacin tpica, con la nica salvedad
de que ahora su rasgo caracterstico es la potencialidad como consecuencia del carcter aleatorio de X.
Las caractersticas anteriores, aun siendo las ms habituales, no agotan las posi-
bilidades de describir una magnitud aleatoria. De hecho, las distintas medidas de
tendencia denidas para variables estadsticas son generalizables al caso de variables
aleatorias.
Una vez visto el paralelismo entre media y esperanza, la Moda podra ser identicada como valor
que maximiza la probabilidad o densidad y, a travs de la funcin de distribucin podemos contemplar
de modo inmediato cualquier cuantil (a modo de ejemplo, la Mediana sera aquel valor de la variable
para el que se acumula una probabilidad del 50 %, esto es, se cumple p (X Me) = 0, 5).
60
Cuando se quieren comparar las dispersiones de varias v.a., la varianza y la desviacin tpica no
son tiles porque muestran la variacin respecto a su valor esperado y dependen de las unidades y de
la magnitud de ste. En este tipo de problemas es conveniente introducir las medidas de dispersin
relativas, de las cuales la de uso ms generalizado es el coeciente de variacin de Pearson, denido
como el valor de la expresin: CV =

.
Las caractersticas de esperanza y varianza vistas anteriormente son casos particu-
lares de otras de carcter ms general que denominamos momentos. Un momento es
una medida de desviacin que viene caracterizada por dos parmetros M y r; el pa-
rmetro M indica el centro de referencia respecto al cual se calculan las desviaciones
y r expresa la forma de medir esa desviacin y sus unidades.
Denicin 2.10. Se denomina momento de orden r centrado respecto a M al valor
esperado, si existe, de la variable (X M)
r
:
r,M
= E(X M)
r
Para valores especcos de M y r esta expresin proporciona momentos concretos
y as, en el caso r = 2 se obtiene el error cuadrtico medio respecto a M. Por otra
parte, las particularizaciones habituales de M son 0 y E(X); as podemos establecer
las siguientes deniciones:
Denicin 2.11. Se denomina momento de orden r centrado respecto a E(X) o
simplemente momento centrado de orden r, que se denota por
r
, al valor, si existe,
de la expresin:
r
= E [X E(X)]
2
Se llama momento de orden r centrado respecto al origen (0) o simplemente mo-
mento no centrado de orden r,
r
, al valor, si existe, de la expresin:
r
= E(X 0)
r
= E(X)
r
[Comprubese que se cumple:
0
= 1,
1
= E(X) = ,
2
= E(X)
2
, y tambin:
0
= 1,
1
= 0,
2
=
2
].
A veces la notacin de los valores esperados puede llevarnos a confusin; conviene
tener presente que E(X
2
) = E(X)
2
, (E(X))
2
= E
2
(X), E[(X )
2
] = E(X )
2
.
Dada una v.a. X, si existe el momento (centrado o no) de orden s, existen todos los de orden
inferior a s y, de modo complementario, si no existe el de orden s tampoco existe el de cualquier otro
orden superior a s.
La relacin entre momentos centrados y no centrados viene dada por la siguiente expresin:
r
=
r
C
r,1
r1
+C
r,2
r2
+ + (1)
r
r
[La justicacin es sencilla sin ms que considerar la expresin de un binomio elevado a r]
Un caso particular de esta relacin es la frmula de clculo deducida para la varianza:
2
=
2
=
2
1
.
61
Otras caractersticas importantes asociadas a las v.a. estn referidas a la forma que presenta su
funcin de probabilidad o de densidad; nos referimos a las caractersticas de asimetra y apuntamiento
de la curva. Existen varios indicadores para medir estos parmetros, siendo los ms usuales los
denominados coecientes
1
y
2
de Fisher.
El estudio de la forma de una distribucin se efecta habitualmente adoptando como referencia
el modelo normal -que analizaremos con detalle en el captulo siguiente- cuya representacin es una
curva simtrica campaniforme conocida como "campana de Gauss".
Denicin 2.12. El coeciente de asimetra
1
se dene como el cociente:
1
=

3
3
y su valor se
compara respecto al 0, resultando una distribucin asimtrica positiva o a la derecha si su coeciente
1
es positivo y asimtrica negativa o a la izquierda si ste es negativo. Cuando el resultado es nulo,
decimos que la curva es simtrica.
El coeciente de apuntamiento
2
se dene como:
2
=

4
4
3, y su resultado se compara tambin
con el 0, valor de referencia que corresponde a una distribucin normal estndar y que de presentarse
permite calicar a una distribucin de mesocrtica. Los valores positivos de este ndice se correspon-
den con un apuntamiento superior al normal (distribuciones calicadas de leptocrticas) mientras
que para valores negativos el apuntamiento es inferior al normal y las distribuciones se denominan
platicrticas.
En ocasiones nos interesar conocer la distribucin del valor agregado total de v.a. X entre los
elementos que componen la poblacin. En este caso se utilizan las medidas de concentracin y de-
sigualdad.
Las medidas ms utilizadas son la curva de Lorenz y el ndice de Gini -Lorenz que lleva asociado,
que en este caso formalizaremos en trminos probabilsticos
Denicin 2.13. Dada una variable aleatoria X con funcin de distribucin F(x) el ndice de
concentracin de Gini-Lorenz viene dado por el resultado de la expresin:
L(X) = 1 2
1
0
F
1
(x)dF(x)
donde la f.d. F(x) representa la proporcin de rentistas por debajo de una cantidad x y F
1
(x) se
dene como:
F
1
(x) =
x
0
t
dF(t)
y representa la proporcin de renta que reciben los rentistas anteriores.

La interpretacin, propiedades e inconvenientes de este ndice son idnticas a las recogidas en el
caso de variables estadsticas y remitimos al lector al libro Introduccin a la Estadstica Econmica
(Rigoberto Prez, Covadonga Caso, Mara Jess Ro y Ana J. Lpez) donde se trata el tema con
detalle.
Aunque la curva de Lorenz y el ndice de Gini-Lorenz son las medidas ms tradicionales, con
carcter ms reciente han sido introducidas medidas que solucionan sus limitaciones. En concreto, en
trabajos anteriores hemos propuesto medidas de la desigualdad desde las pticas individual (indicador
asociado a la persona que sufre o repercute desigualdad) y colectiva (medida obtenida como sntesis
de los indicadores individuales)
2
.
2
Un estudio detallado de estas medidas de desigualdad, que incluye tambin sus conexiones con los
indicadores de pobreza y su anlisis normativo, aparece recogido en el trabajo de Lpez, A.J. y
R. Prez (1991): Indicadores de desigualdad y pobreza. Nuevas alternativas publicado como Docu-
mento de trabajo 037/1991 de la Facultad de CC. Econmicas y Empresariales de la Universidad
de Oviedo
62
Denicin 2.14. Denominamos ndice de desigualdad individual asociado a una renta x al valor
de la expresin:
d(x) =

x
-1
Para x distinto de 0, este coeciente es una nueva v.a. que recoge la desigualdad generada por
cada renta individual. Como consecuencia, su valor esperado, si existe, ser indicativo del nivel de
desigualdad colectiva:
D = E(d) = E
_
x
1
_
=

0
_
x
1
_
dF(x)
Adems de las funciones de probabilidad, de densidad y de distribucin estudia-
das existen otras funciones que podemos asociar a toda v.a. y que son importantes
instrumentos de trabajo; a partir de ellas pueden obtenerse, por ejemplo, la funcin
de densidad o los momentos de una distribucin. Nos estamos reriendo a la funcin
generatriz de momentos y a la funcin caracterstica.
Denicin 2.15. Se denominada funcin generatriz de momentos (f.g.m.), de una
v.a. X, si existe, al valor de la expresin:
M
X
(t) = E(e
tX
)
donde t es una variable real.
Se trata de una funcin real de variable real, que identica por completo una variable
aleatoria. Se cumple as una condicin de identidad, de modo que si la funcin gene-
ratriz de momentos existe puede demostrarse que es nica y determina por completo
a la distribucin de probabilidad de X (a toda funcin de distribucin corresponde
una funcin generatriz de momentos y recprocamente).
La funcin generatriz puede plantear problemas de existencia, pues puede ocurrir
que para determinados valores de t el valor esperado E(e
tX
) no exista. No obstante,
para las distribuciones usuales la f.g.m. toma un valor nito por lo que la dicultad
anterior puede ser obviada.
La justicacin de la denominacin funcin generatriz de momentos viene dada por
la siguiente propiedad:
Proposicin 2.9. Si existe el momento de orden r, se tiene:
d
r
M
X
(t)
dt
r
t=0
=
r
; r = 1, 2, . . .
es decir, dada una variable aleatoria X es posible obtener sus momentos sucesivos a
partir de M
X
(t) siempre que esta funcin y sus derivadas existan.
Demostracin. La demostracin de esta propiedad se lleva a cabo teniendo en cuenta que pueden
intercambiarse los operadores diferencial y esperanza:
dM
X
(t)
dt
t=0
=
d
dt
E
_
e
tX
_
t=0
= E
_
d
dt
_
e
tX
_
_
t=0
= E
_
X
_
e
tX
__
t=0
= E(X) = =
1
63
De modo anlogo, para la segunda derivada se obtiene en el punto t = 0:
d
2
M
X
(t)
dt
2
t=0
=
d
2
dt
2
E
_
e
tX
_
t=0
= E
_
d
2
dt
2
_
e
tX
_
_
t=0
= E
_
d
dt
_
Xe
tX
_
_
t=0
= E
_
X
2
_
e
tX
__
t=0
= E(X
2
) =
2
y en general, para la derivada de orden r:
d
r
M
X
(t)
dt
r
t=0
=
d
r
dt
r
E
_
e
tX
_
t=0
= E
_
d
r
dt
r
_
e
tX
_
_
t=0
= E
_
X
r
_
e
tX
__
t=0
= E(X
r
) =
r
Consideremos de nuevo la v.a. "Nmero de medallas obtenidas por un deportista" y su distribucin
de probabilidad:
X = 0 P(X = 0) = 0, 5
X = 1 P(X = 1) = 0, 2
X = 2 P(X = 2) = 0, 2
X = 3 P(X = 3) = 0, 15
Segn la expresin vista para la funcin generatriz de momentos se tiene en este caso
M
X
(t) = E
_
e
tX
_
=
_
0, 5 + 0, 2
_
e
t
+e
2t
_
+ 0, 1e
3t
_
cuya derivada respecto a t es:
dM
X
(t)
dt
t=0
= 0, 2
_
e
t
+ 2e
2t
_
+ 0, 3e
3t
expresin que para t = 0 da lugar a:
dM
X
(t)
dt
t=0
= 0, 2(1 + 2) + 0, 3 = 0, 9
valor coincidente con la E(X) anteriormente calculada.
Proposicin 2.10. Otras propiedades importantes de la f.g.m. son las relativas a los cambios de
origen y escala:
1. M
c+X
(t) = e
tc
M
X
(t)
2. M
bX
(t) = M
X
(tb)
Demostracin. En efecto:
M
c+X
(t) = E
_
e
t(c+X)
_
= E
_
e
tc
e
tX
_
= e
tc
E
_
e
tX
_
= e
tc
M
X
(t)
M
bX
(t) = E
_
e
t(bX)
_
= E
_
e
(tb)X
_
= M
X
(tb)
64
Figura 2.10.: Acotacin de la probabilidad
La funcin caracterstica presenta como ventaja con respecto a la f.g.m. que siempre tiene garan-
tizada su existencia.
Denicin. Se dene la funcin caracterstica asociada a una v.a. X como una aplicacin
X
:
t
x
(t) C, dada por la expresin:
X
(t) = E
_
e
itx
_
= E [cos tx +i sin tx]
Este valor esperado existe siempre para todo t real vericndose una identidad entre las funciones de
densidad y caracterstica: a toda funcin de densidad corresponde una nica funcin caracterstica y
recprocamente.
Como observamos, la funcin caracterstica toma valores en el campo de los nmeros complejos
y los conocimientos de integracin compleja exceden el nivel de formalizacin que seguimos en esta
obra.
2.4. Desigualdad de Chebyshev
En epgrafes anteriores hemos estudiado el clculo de probabilidades basado en la
distribucin probabilstica de las variables aleatorias. Dado que esta distribucin no
siempre resulta conocida en la prctica, presentamos en este apartado una ampliacin
del clculo de probabilidades a las situaciones con informacin ms escasa.
A modo de introduccin, consideremos una magnitud aleatoria X cuya distribu-
cin probabilstica desconocemos. Ante esta ausencia de informacin debemos confor-
marnos con un clculo aproximado de probabilidades, bien sea la correspondiente al
interior de un intervalo o bien la complementaria (probabilidad de las colas).
Tal y como indica la gura 2.10, podramos plantearnos evaluar la probabilidad de
que la variable aleatoria X se encuentre fuera de la zona sombreada, esto es, discrepe
de su valor esperado en cuanta superior a cierto margen . Dada la ausencia de in-
formacin, deberemos limitarnos a garantizar que dicha probabilidad guarde relacin
directa con la dispersin de la variable (V ar(X)) e inversa con el margen jado ().
65
P.L. Chebyshev (1821-1894) y J. Bienaym (1796-1878) desarrollaron de modo independiente la
desigualdad generalmente conocida con el nombre del primero, en la que se establece una acotacin
superior para la probabilidad de las colas de un intervalo centrado en el valor esperado de una variable.
Proposicin. Consideremos una variable aleatoria X con esperanza y varianza ni-
tas; entonces la desigualdad de Chebyshev permite armar que para cualquier nmero
real positivo se verica:
P ([X E(X)[ )
V ar(X)
2
La desigualdad de Chebyshev se obtiene como caso particular de la desigualdad bsica:
Proposicin. Sea b una constante positiva y h(X) una funcin no negativa, donde X es una v.a.
Entonces siempre que E(X) exista se cumple:
P [h(X) b]
1
b
E[h(X)]
Ms concretamente, la desigualdad de Chebyshev se correspondera con el caso en que h(X) =
[X E(X)]
2
, =
b. [Comprubese].
Demostracin. Para demostrar la desigualdad bsica denimos un conjunto A = {x/h(x) b}
con 0 < P(A) < 1. Podemos entonces expresar:
E [h(X)] = E [h(X)/A] P(A) +E [h(X)/A
c
] P(A
c
) E [h(X)/A] P(A) bP(A)
donde hemos aplicado para la primera desigualdad h(x) 0 y para la segunda h(x) b para todo x
de A.
En el caso de que nos interese acotar la probabilidad interior al intervalo (rea
sombreada en la gura anterior) se obtiene una garanta o cota inferior dada por la
siguiente expresin, aplicable a cualquier variable aleatoria X con esperanza y varianza
nitas, > 0:
P ([X E(X)[ < ) 1
V ar(X)
2
Esta desigualdad se obtiene de forma inmediata ya que con slo aplicar la propiedad de la pro-
babilidad del complementario se tiene: P (|X E(X)| < ) = 1 P (|X E(X)| ) expresin a la
que aplicamos el primer enunciado de Chebyshev:
P (|X E(X)| )
V ar(X)
2
La desigualdad de Chebyshev en cualquiera de sus dos expresiones proporciona
cotas para probabilidades de la variable aleatoria X, en funcin de su dispersin y del
margen de error considerado .
66
En sntesis, estas desigualdades garantizan ciertas probabilidades mnimas para
cualquier entorno de la esperanza, que aumentan con el margen considerado y dis-
minuyen con la dispersin poblacional. Si por el contrario queremos aproximar la
probabilidad fuera de ese entorno, la desigualdad de Chebyshev proporciona una cota
superior, que guarda relacin directa con la dispersin e inversa con el margen jado.
Adems, cuando el margen de error considerado se expresa como proporcin de la
desviacin estndar ( = k) es posible llegar a formulaciones alternativas para las
dos acotaciones de Chebyshev. As, dada una variable aleatoria X con esperanza y
varianza nitas se cumple para cualquier k > 0:
P ([X E(X)[ k)
1
k
2
P ([X E(X)[ < k) 1
1
k
2
Estos nuevos enunciados de la desigualdad de Chebyshev conrman la interpretacin
de la desviacin estndar como medida de la dispersin. En efecto, resulta sencillo
comprobar cmo cambia la acotacin inferior del intervalo y superior de las colas a
medida que aumenta el nmero de desviaciones tpicas consideradas en nuestro margen
de error:
Valor k Cota inferior para Cota superior para
P ([X E(X)[ < k) P ([X E(X)[ k)
1 0 1
2 0,75 0,25
3 0,89 0,11
4 0,9375 0,0625
5 0,96 0,04
10 0,99 0,01
Como puede apreciarse en la tabla anterior, la consideracin de un margen no
superior a una sola desviacin estndar no resultara en absoluto informativa, ya que
para k = 1 la cota inferior es 0 y la superior 1, valores entre los cuales -como recoge la
axiomtica de Kolmogorov- se halla comprendida toda probabilidad. [Qu acotaciones
se obtendran si el margen considerado es de

2
?].
67
3. Modelos de probabilidad
En nuestra realidad cotidiana nos encontramos diversas variables de carcter aleato-
rio que, tal y como hemos expuesto en el captulo anterior, slo pueden ser analizadas
convenientemente si disponemos de informacin sobre su distribucin de probabilidad.
Supongamos a modo de ejemplo que una publicacin est elaborando un reportaje so-
bre experiencias empresariales, en el que existen varios aspectos inciertos.
I Se ha contactado con 20 empresarios de distintos perles a los que se desea en-
trevistar para el reportaje pero se desconoce cuntos de ellos accedern a ser
entrevistados. Desde el equipo de redaccin se asume que las respuestas de los
distintos empresarios convocados son independientes y se confa en que, dado el
prestigio de la publicacin, un 80 % de ellos accedern nalmente a colaborar.
II El reportaje incluir, adems de las entrevistas, imgenes alusivas a la actividad de
los empresarios. De las 15 fotografas seleccionadas se elegirn aleatoriamente
3 para la portada y se confa en que est representado el empresariado tanto de
sexo masculino como femenino.
III La entrevista, que se ajustar a un modelo ya diseado, tendr una duracin alea-
toria en funcin de las respuestas y talante del empresario. No obstante, se prev
una duracin cercana a dos horas, resultando poco probable que la entrevista se
desve considerablemente de este tiempo por exceso o por defecto.
IV El equipo responsable del reportaje confa en la calidad de su trabajo, por lo que se
espera que apenas aparezcan errores tipogrcos a lo largo de sus pginas.
En las cuatro etapas descritas aparecen magnitudes de carcter aleatorio, con distintas
distribuciones de probabilidad. No obstante, en la prctica muchas de estas variables
aleatorias presentan comportamientos comunes que pueden ser descritos mediante
pautas. As, el esquema del nmero de empresarios que acceden a la entrevista del
peridico es similar al de los potenciales clientes que nalmente compran un producto
o al de los estudiantes que aprueban un examen.
De igual modo, los tiempos de duracin de las entrevistas, aunque aleatorios, segui-
rn previsiblemente un modelo en forma de campana (mayores probabilidades para
los valores centrales y menores para observaciones extremas). Este tipo de distribu-
cin -como justica su denominacin, normal- servir para describir otras muchas
caractersticas (la altura de los empresarios, su peso, ...).
En efecto, existen modelos probabilsticos cuyo inters reside en la capacidad de
describir comportamientos genricos de distintas magnitudes aleatorias que resultan
68
semejantes segn ciertas pautas. Nos encontramos as con grandes familias probabils-
ticas designadas con nombres propios que incluyen como casos particulares numerosos
fenmenos, incorporando sus rasgos diferenciales mediante parmetros.
Los modelos de probabilidad son idealizaciones probabilsticas de fenmenos aleatorios. Repre-
sentamos los fenmenos o experimentos aleatorios mediante variables aleatorias, y estas variables
proporcionan una particin de la clase de todos los fenmenos posibles, de modo que a cada fen-
meno le corresponde una variable aleatoria, pero cada una de stas representa a diversos fenmenos.
Por otra parte, cada magnitud aleatoria lleva asociada, como ya hemos visto, una funcin de
distribucin (que a veces tambin se denomina ley de probabilidad), y muchas de stas mantienen
estructuras comunes, salvo algn parmetro que las especique. Entonces dividimos el conjunto de to-
das las distribuciones posibles en grupos (tambin llamados modelos), de forma que las distribuciones
que integran cada grupo tengan la misma estructura.
En este nivel de abstraccin, hemos pasado del conjunto de fenmenos a un conjunto de modelos
matemticos o probabilsticos ms fciles de analizar, de modo que un reducido nmero de estos
modelos recogen una mayora de los experimentos posibles, bien porque las caractersticas del expe-
rimento encajen plenamente en las condiciones del modelo o bien porque las observaciones se ajusten
ms o menos a los resultados tericos que predice el modelo.
Naturalmente existen muchos modelos de probabilidad. Nos ocuparemos en este
captulo de los ms importantes, que han sido estudiados con detalle y llevan nombre
propio.
Cada modelo probabilstico representa una familia de funciones de distribucin,
que dependen de uno o ms parmetros y cuyas especicaciones determinan las dis-
tribuciones particulares que integran la familia. El estudio de estos modelos se centra
en analizar la ecuacin general que representa a la familia, sus caractersticas y sus
propiedades.
Por otra parte, nos interesa conocer la probabilidad con la que un fenmeno se pre-
sentar a travs de determinados sucesos; conocida la variable aleatoria y el modelo
que representa a ese fenmeno, tal probabilidad se puede calcular a partir de la ecua-
cin general y los parmetros (conocidos o supuestos) de forma exacta o bien de forma
aproximada, mediante el empleo de mtodos numricos. No obstante algunos de estos
modelos se encuentran tabulados, lo que simplica el clculo de esas probabilidades.
En los apartados que siguen analizaremos aquellos modelos probabilsticos de uso
ms habitual -distribuciones binomial, geomtrica, hipergeomtrica, uniforme y normal-
y tambin algunos otros que, aunque no son de utilizacin tan generalizada, resultan
de inters por describir adecuadamente ciertos fenmenos relevantes en el mbito eco-
nmico: ocurrencia de sucesos raros, tiempos de espera, distribuciones de renta, ...
En algunos casos se considera tambin como modelo probabilstico la denominada
distribucin singular que, por su gran sencillez, puede servir de introduccin a las
restantes distribuciones. Se trata de un modelo que concentra toda la masa de pro-
babilidad -la unidad- en un nico valor, por lo cual su aplicabilidad prctica es muy
escasa.
De hecho, el modelo singular se correspondera con el caso de una variable degene-
rada, carente de inters para nuestros estudios al no manifestar variacin alguna.
69
Una variable X presenta distribucin singular cuando su probabilidad se concentra en un punto,
x
0
. Como consecuencia su funcin de probabilidad viene dada por:
P(X = x) =
_
1 para x = x
0
0 para x = x
0
Dado que la variable X presenta un nico valor, resulta evidente que ste coincidir con su espe-
ranza ( = x
0
). [Cul ser su varianza?]
Una variable X con distribucin singular es probabilsticamente equivalente a
una constante, pues toma con probabilidad 1 determinado valor x
0
. Conviene sin
embargo tener presentes las consideraciones sobre los sucesos de probabilidad nula y
de probabilidad unitaria realizadas en el primer tema.
3.1. Modelo Binomial
Un modelo probabilstico de aplicacin generalizada es el binomial, que aparece
cuando al efectuar observaciones reiteradas analizamos en cuntos casos se han pre-
sentado determinados resultados, habitualmente denominados xitos.
Consideremos el ejemplo anterior, asumiendo que 20 empresarios han sido convoca-
dos para entrevistarles. Dado que no podemos anticipar la respuesta de cada uno de
ellos, sta puede ser identicada con una variable aleatoria con dos nicos resultados
asociados a los sucesos aceptar (xito) y su complementario no aceptar (fracaso).
Aunque la variable aleatoria respuesta de un empresario podra venir denida
de mltiples formas, resulta habitual asignar el valor 1 al xito y 0 al fracaso. De
este modo, tendramos una v.a. discreta cuya distribucin de probabilidad quedara
perfectamente determinada una vez conocida la probabilidad de aceptacin p.
Denicin 3.1. Dada una prueba dicotmica (tambin llamada de Bernoulli), carac-
terizada por dos resultados mutuamente excluyentes (xito y fracaso), indicando por
p la probabilidad de xito, la variable aleatoria denida como:
X =
_
1 si ocurre xito
0 si ocurre fracaso
se denomina modelo o distribucin de Bernoulli (o dicotmica) B(p) .
Conocida la probabilidad de xito p se tiene tambin la probabilidad de fracaso
(complementario) 1 p = q y la funcin de probabilidad de X vendra dada por:
P(X = 0) = q ; P(X = 1) = p
Este sencillo modelo discreto puede ser representado mediante un diagrama de ba-
rras como como recoge la gura 3.1, a partir del cual se obtiene de modo inmediato
la probabilidad acumulada asociada a la funcin de distribucin:
70
Figura 3.1.: Funcin de probabilidad del modelo de Bernoulli
F(x) = P(X x) =
_
_
0 si x < 0
q si 0 x < 1
1 si 1 x
Las caractersticas de este modelo probabilstico pueden ser tambin obtenidas con
facilidad, ya que a partir de su denicin se tiene:
= E(X) = 1 p + 0 q = p
2
= V ar(X) = (1 p)
2
p + (0 q)
2
q = pq(q +p) = pq
expresin a la que puede llegarse tambin a partir de la frmula alternativa E(X
2
)
2
.
[Comprubese que en este caso se obtiene E(X
2
) = E(X)
2
= p y E
2
(X) = p
2
]
La interpretacin de ambos parmetros es ilustrativa: la esperanza o centro de gravedad de la
distribucin (cuyos nicos valores son 0 y 1) correspondera a la probabilidad de xito (p).
Por su parte, la varianza, al aproximar el riesgo, debe tambin tomar en consideracin la proba-
bilidad de fracaso q. De hecho, puede verse fcilmente, derivando la varianza respecto a p (condicin
necesaria de extremo), que el riesgo mximo se obtendra para el caso en que xito y fracaso tuvieran
probabilidades idnticas (p = q = 0, 5). [Cul sera el caso de riesgo mnimo? por qu?].
Al exigirle a la variable que tome los valores 0 y 1, de alguna forma estamos normalizando dicha
variable. Esta normalizacin resulta muy cmoda, ya que podemos observar que los valores no slo
intervienen en las funciones de probabilidad y de distribucin, sino que tambin condicionan las ca-
ractersticas esperanza y varianza, por lo que variables dicotmicas con valores distintos de 0 y 1 no
tendran caractersticas comparables. [Cunto valdran la esperanza y la varianza de una variable
que asignase los valores -10 y 10 a los sucesos fracaso y xito respectivamente?].
La distribucin de Bernoulli toma su nombre de Jakob Bernoulli (1654-1705) quien introdujo el
modelo en su obra Ars Conjectandi. A este autor, perteneciente a una de las familias ms relevantes
71
en la historia de la probabilidad, se deben numerosas aportaciones. Fue el primero que se preocup
por la extensin de la probabilidad a otros campos distintos de los juegos de azar; tambin introdujo el
teorema de Bernoulli en el cual demostraba la convergencia de la frecuencia relativa a la probabilidad.
Ya nos hemos referido a otro de los miembros de la familia, Daniel Bernoulli, quien propuso una
solucin para la famosa paradoja de San Petersburgo.
Si bien el modelo anterior permite describir gran cantidad de fenmenos, en general
las investigaciones no se limitarn a una prueba nica, siendo frecuentes en el mbito
econmico los estudios donde se observa cierto resultado en una serie de pruebas
repetidas.
Este es el caso del ejemplo propuesto, donde un total de 20 empresarios han sido
convocados para la entrevista, pudiendo decidir cada uno de ellos si acudir o no.
Como consecuencia de la repeticin de la experiencia, deniremos ahora una variable
aleatoria que designe el nmero de xitos obtenidos a lo largo de la investigacin (en
nuestro ejemplo nmero de empresarios que acceden a la entrevista).
El rasgo distintivo de esta variable con respecto al modelo de Bernoulli es la impor-
tancia de un nuevo parmetro n, que representa el nmero de observaciones llevadas
a cabo. Suponemos que estas n observaciones son independientes entre s y asumi-
mos como constante a lo largo de n pruebas la probabilidad de xito recogida por
el parmetro p. Ambos sern los rasgos caractersticos del modelo binomial, que sue-
le designarse por B(n, p). La siguiente tabla ilustra varias situaciones en las que un
modelo binomial describe adecuadamente los resultados que nos interesan:
Experiencia xito Probabilidad de xito N de pruebas
Lanzar un dado Sacar un 2 p =
1
6
3
Situacin laboral Activo Tasa actividad 12
Sondeo Votar SI p = 0, 4 24
Entrevista Acudir p = 0, 8 20

v.a. N de xitos en n pruebas B(n, p)
Si examinamos los rasgos que tienen en comn los ejemplos propuestos podemos
llegar a la conclusin de que existen ciertos requisitos para que una experiencia sea
incluida dentro de la familia binomial. As, ser relevante conocer si la probabilidad
de xito es constante en todas las pruebas (en los lanzamientos de un dado este su-
puesto parece evidente, pero sin embargo podran existir diferentes tasas de actividad
segn los sectores econmicos, distintas probabilidades de votar s segn la ideologa
poltica, o diferentes probabilidades de acudir a la entrevista segn la fama o el nivel
de ocupacin del empresario).
Del mismo modo, nos interesar saber si las observaciones son independientes (en
los ejemplos del sondeo y de las entrevistas a empresarios podra existir relacin entre
las respuestas, ya que sabemos que unas personas ejercen inuencia sobre otras).
Recopilando las consideraciones anteriores:
72
Denicin 3.2. Un modelo binomial se basa en los siguientes supuestos:
Se llevan a cabo n pruebas u observaciones.
Las n observaciones son independientes entre s.
La probabilidad de xito p permanece constante en todas las pruebas.
En estas condiciones, la variable aleatoria que recoge el nmero de xitos en las n
pruebas se dice que sigue un modelo binomial B(n, p).
Toda sucesin de pruebas que verican las condiciones anteriores se denominan pruebas de Bernou-
lli y dan lugar al proceso de Bernoulli. El proceso de Bernoulli surge de una manera natural cuando
realizamos observaciones en una poblacin innita o cuando, tratndose de una poblacin nita, las
observaciones se seleccionan al azar con reposicin. En estas situaciones los supuestos enunciados
son fcilmente admisibles, ya que las observaciones no alteran la estructura poblacional (gracias al
reemplazamiento o bien al tamao poblacional innito) quedando as garantizada la independencia
entre observaciones y la constancia de la probabilidad de xito p.
Una vez descritos sus rasgos bsicos, la distribucin de probabilidad de un modelo
binomial se obtiene con facilidad.
Consideremos una variable X B(n, p). En primer lugar, debemos denir su reco-
rrido de valores que, por describir el nmero de xitos, en ningn caso podrn superar
el nmero de pruebas realizadas ni ser inferiores a cero.
Tendremos por tanto que los valores que la variable X puede adoptar son: 0, 1, 2, . . . , n
y podemos deducir gracias a los supuestos subyacentes en el modelo binomial la pro-
babilidad asociada a cada uno de esos valores.
Para cada valor posible k, P(X = k) recoge la probabilidad de que se presenten
k xitos a lo largo de n pruebas (esto es, que k empresarios acudan a la entrevista,
que obtengamos k veces el resultado 2 al lanzar un dado, que k de los individuos
seleccionados sean activos, ...).
Para cuanticar la probabilidad anterior debemos responder a dos interrogantes:
de cuntas formas distintas podramos obtener esos k xitos? y cul es la probabi-
lidad de cada una de ellas?
El primero de los interrogantes hace referencia a los casos favorables (cuya secuencia aparece en
el esquema) mientras el segundo evala la verosimilitud de cada uno de ellos. Como cada una de
las secuencias posibles excluye todas las dems, se trata de resultados incompatibles y por tanto la
probabilidad de la unin viene dada por la suma de probabilidades. [Figura 3.2]
Para responder a la cuestin formas de seleccionar k xitos en n pruebas, podemos acudir -como ya
hemos visto en un tema anterior- al anlisis combinatorio. Concretamente se trata de combinaciones
de n elementos de orden k, supuesto que tambin responde al caso de permutaciones de n elementos
con repeticiones k (no distinguimos un xito de los dems) y (n k) (no distinguimos los fracasos
entre s).
A partir de cualquiera de los razonamientos anteriores la expresin de clculo sera C
n,k
=
_
n
k
_
=
n!
k!(n k)!
, que cuantica el nmero de secuencias de n observaciones con k xitos.
73
Figura 3.2.: Esquema Binomial
Ahora bien, necesitaramos adems conocer la probabilidad de que se presente cada una de esas
situaciones favorables, que se corresponde con el suceso k xitos y nk fracasos . Se trata pues de
la probabilidad de la interseccin que -gracias al supuesto de independencia entre pruebas- se obtiene
como producto de probabilidades, dando como resultado la expresin p
k
q
nk
.
Una duda que podra plantearse es si todos los casos favorables, esto es, los que presentan k xitos,
son equiprobables. La respuesta es armativa ya que los supuestos del modelo nos permiten armar
que las pruebas son independientes y la probabilidad de xito p permanece constante. Como conse-
cuencia la probabilidad de cualquier secuencia de resultados que incluya k xitos y n k fracasos
ser la probabilidad de n sucesos independientes, dada por un producto en el que k trminos son p
y los restantes (n k) trminos son 1 p = q.
Una vez examinados los factores que intervienen en la probabilidad, estamos en con-
diciones de construir la funcin de probabilidad correspondiente a un modelo binomial
B (n, p) que viene dada por:
P(X = k) =
_
n
k
_
p
k
(1 p)
nk
; conk = 0, 1, , n (3.1)
Para comprobar que la expresin anterior es una verdadera funcin de probabilidad basta vericar
las condiciones de no negatividad y suma unitaria.
La primera de ellas es inmediata por ser no negativos todos los trminos que aparecen en la
expresin P(X = k). Por lo que respecta a la segunda condicin, se tiene
n
k=0
P(X = k) =
n
k=0
_
n
k
_
p
k
(1 p)
nk
expresin que se corresponde con el desarrollo del Binomio de Newton (p+q)
n
cuyo valor es la unidad
por ser q = 1 p.
La denominacin del modelo binomial se debe a su conexin con el binomio de Newton. De hecho,
74
Figura 3.3.: Funcin de Distribucin Binomial
la expresin de la probabilidad binomial
_
n
k
_
p
k
(1p)
nk
representa el k-simo trmino del desarrollo
del binomio (p +q)
n
.
Con independencia de cul haya sido su proceso de generacin, podemos armar que toda variable
aleatoria discreta, cuya funcin de probabilidad venga dada por la expresin 3.1 sigue un modelo
Binomial (X B(n, p)).
La expresin de la funcin de distribucin para un modelo binomial B(n, p) es
F(x) = P(X x) =
_
_
0 si x < 0
[x]
k=0
_
n
k
_
p
k
(1 p)
nk
si 0 x < n
1 si n x
fcilmente deducible a partir de la correspondiente funcin de probabilidad y cuya
representacin grca se recoge en la gura 3.3.
Tanto la funcin de probabilidad como la de distribucin -aunque sencillas- pueden
resultar poco operativas para valores elevados de la variable. Para subsanar este in-
conveniente, las probabilidades del modelo binomial aparecen tabuladas para ciertos
valores de los parmetros n y p.
El manejo de las tablas del modelo binomial, que aparecen recogidas a continuacin,
consiste en seleccionar la la correspondiente al tamao (n), a partir de la cual se elige
el nmero de xitos (k), y nalmente determinaremos la columna en la que se sita la
probabilidad de xito (p). En la interseccin se obtienen las probabilidades puntuales
de los valores correspondientes al modelo binomial B(n, p), esto es, k = 0, 1, . . . , n.
A modo de ejemplo, calculemos la probabilidad de que, al lanzar 3 veces un dado, se obtengan
dos resultados pares. Dado que los resultados de los lanzamientos son independientes y que las
75
Tabla 3.1.: Distribucin Binomial B(n, p). Funcin de probabilidad
n k/p 0, 05 0, 10 0, 15 0, 20 0, 25 0, 30 0, 35 0, 40 0, 45 0, 50
1 0 0, 9500 0, 9000 0, 8500 0, 8000 0, 7500 0, 7000 0, 6500 0, 6000 0, 5500 0, 5000
1 0, 0500 0, 1000 0, 1500 0, 2000 0, 2500 0, 3000 0, 3500 0, 4000 0, 4500 0, 5000
2 0 0, 9025 0, 8100 0, 7225 0, 6400 0, 5625 0, 4900 0, 4225 0, 3600 0, 3025 0, 2500
1 0, 0950 0, 1800 0, 2550 0, 3200 0, 3750 0, 4200 0, 4550 0, 4800 0, 4950 0, 5000
2 0, 0025 0, 0100 0, 0225 0, 0400 0, 0625 0, 0900 0, 1225 0, 1600 0, 2025 0, 2500
3 0 0, 8574 0, 7290 0, 6141 0, 5120 0, 4219 0, 3430 0, 2746 0, 2160 0, 1664 0, 1250
1 0, 1354 0, 2430 0, 3251 0, 3840 0, 4219 0, 4410 0, 4436 0, 4320 0, 4084 0, 3750
2 0, 0071 0, 0270 0, 0574 0, 0960 0, 1406 0, 1890 0, 2389 0, 2880 0, 3341 0, 3750
3 0, 0001 0, 0010 0, 0034 0, 0080 0, 0156 0, 0270 0, 0429 0, 0640 0, 0911 0, 1250
4 0 0, 8145 0, 6561 0, 5220 0, 4096 0, 3164 0, 2401 0, 1785 0, 1296 0, 0915 0, 0625
1 0, 1715 0, 2916 0, 3685 0, 4096 0, 4219 0, 4116 0, 3845 0, 3456 0, 2995 0, 2500
2 0, 0135 0, 0486 0, 0975 0, 1536 0, 2109 0, 2646 0, 3105 0, 3456 0, 3675 0, 3750
3 0, 0005 0, 0036 0, 0115 0, 0256 0, 0469 0, 0756 0, 1115 0, 1536 0, 2005 0, 2500
4 0, 0000 0, 0001 0, 0005 0, 0016 0, 0039 0, 0081 0, 0150 0, 0256 0, 0410 0, 0625
5 0 0, 7738 0, 5905 0, 4437 0, 3277 0, 2373 0, 1681 0, 1160 0, 0778 0, 0503 0, 0313
1 0, 2036 0, 3281 0, 3915 0, 4096 0, 3955 0, 3602 0, 3124 0, 2592 0, 2059 0, 1563
2 0, 0214 0, 0729 0, 1382 0, 2048 0, 2637 0, 3087 0, 3364 0, 3456 0, 3369 0, 3125
3 0, 0011 0, 0081 0, 0244 0, 0512 0, 0879 0, 1323 0, 1811 0, 2304 0, 2757 0, 3125
4 0, 0000 0, 0004 0, 0022 0, 0064 0, 0146 0, 0284 0, 0488 0, 0768 0, 1128 0, 1563
5 0, 0000 0, 0000 0, 0001 0, 0003 0, 0010 0, 0024 0, 0053 0, 0102 0, 0185 0, 0313
6 0 0, 7351 0, 5314 0, 3771 0, 2621 0, 1780 0, 1176 0, 0754 0, 0467 0, 0277 0, 0156
1 0, 2321 0, 3543 0, 3993 0, 3932 0, 3560 0, 3025 0, 2437 0, 1866 0, 1359 0, 0938
2 0, 0305 0, 0984 0, 1762 0, 2458 0, 2966 0, 3241 0, 3280 0, 3110 0, 2780 0, 2344
3 0, 0021 0, 0146 0, 0415 0, 0819 0, 1318 0, 1852 0, 2355 0, 2765 0, 3032 0, 3125
4 0, 0001 0, 0012 0, 0055 0, 0154 0, 0330 0, 0595 0, 0951 0, 1382 0, 1861 0, 2344
5 0, 0000 0, 0001 0, 0004 0, 0015 0, 0044 0, 0102 0, 0205 0, 0369 0, 0609 0, 0938
6 0, 0000 0, 0000 0, 0000 0, 0001 0, 0002 0, 0007 0, 0018 0, 0041 0, 0083 0, 0156
7 0 0, 6983 0, 4783 0, 3206 0, 2097 0, 1335 0, 0824 0, 0490 0, 0280 0, 0152 0, 0078
1 0, 2573 0, 3720 0, 3960 0, 3670 0, 3115 0, 2471 0, 1848 0, 1306 0, 0872 0, 0547
2 0, 0406 0, 1240 0, 2097 0, 2753 0, 3115 0, 3177 0, 2985 0, 2613 0, 2140 0, 1641
3 0, 0036 0, 0230 0, 0617 0, 1147 0, 1730 0, 2269 0, 2679 0, 2903 0, 2918 0, 2734
4 0, 0002 0, 0026 0, 0109 0, 0287 0, 0577 0, 0972 0, 1442 0, 1935 0, 2388 0, 2734
5 0, 0000 0, 0002 0, 0012 0, 0043 0, 0115 0, 0250 0, 0466 0, 0774 0, 1172 0, 1641
6 0, 0000 0, 0000 0, 0001 0, 0004 0, 0013 0, 0036 0, 0084 0, 0172 0, 0320 0, 0547
7 0, 0000 0, 0000 0, 0000 0, 0000 0, 0001 0, 0002 0, 0006 0, 0016 0, 0037 0, 0078
8 0 0, 6634 0, 4305 0, 2725 0, 1678 0, 1001 0, 0576 0, 0319 0, 0168 0, 0084 0, 0039
1 0, 2793 0, 3826 0, 3847 0, 3355 0, 2670 0, 1977 0, 1373 0, 0896 0, 0548 0, 0313
2 0, 0515 0, 1488 0, 2376 0, 2936 0, 3115 0, 2965 0, 2587 0, 2090 0, 1569 0, 1094
3 0, 0054 0, 0331 0, 0839 0, 1468 0, 2076 0, 2541 0, 2786 0, 2787 0, 2568 0, 2188
4 0, 0004 0, 0046 0, 0185 0, 0459 0, 0865 0, 1361 0, 1875 0, 2322 0, 2627 0, 2734
5 0, 0000 0, 0004 0, 0026 0, 0092 0, 0231 0, 0467 0, 0808 0, 1239 0, 1719 0, 2188
6 0, 0000 0, 0000 0, 0002 0, 0011 0, 0038 0, 0100 0, 0217 0, 0413 0, 0703 0, 1094
7 0, 0000 0, 0000 0, 0000 0, 0001 0, 0004 0, 0012 0, 0033 0, 0079 0, 0164 0, 0313
8 0, 0000 0, 0000 0, 0000 0, 0000 0, 0000 0, 0001 0, 0002 0, 0007 0, 0017 0, 0039
76
probabilidades de las distintas caras del dado son constantes, la variable aleatoria X:nmero de
resultados pares en tres lanzamientos de dado sigue un modelo binomial con n = 3 y p = P(par) =
1
2
.
Seleccionando en la tabla ambos parmetros se obtienen las probabilidades correspondientes a los
valores de la variable: 0, 1, 2 y 3. Para nuestro ejemplo concreto, se tiene por tanto P(X = 2) = 0, 375.
El objetivo de las tablas es recoger en un espacio limitado informacin amplia sobre las probabili-
dades binomiales. Este ahorro de espacio se consigue limitando los recorridos de los valores n y p, y
tambin aprovechando algunas propiedades del modelo binomial. As, cuando el valor de p sea mayor
que 0,5, la simetra entre xitos y fracasos permite tambin obtener probabilidades de un modelo
B(n, p) a partir de su relacin con B(n, q). [Comprobar que si X B(n, p) e Y B(n, q), entonces:
P(X = k) = P(Y = n k)]
Por su parte, los valores de n contemplados no suelen exceder 10 o 12, hecho que se debe a que
-como veremos ms adelante- a medida que el tamao n crece, el modelo binomial puede ser aproxi-
mado por la distribucin normal.
La siguiente tabla recoge la funcin de distribucin binomial para algunos valores
de n y p.
El uso de esta tabla es anlogo al descrito en el caso anterior, sin ms que te-
ner en cuenta que ahora para cada n y p se recogen en columna las probabilidades
acumuladas hasta los valores k = 0, 1, . . . , n. Esta tabla resulta muy adecuada para
responder a preguntas del tipo: probabilidad de que el nmero de xitos sea al menos
x
1
, probabilidad de obtener a lo sumo x
2
xitos, ...
Las caractersticas esperanza y varianza del modelo binomial vienen dadas en fun-
cin de sus parmetros a partir de las expresiones = np y
2
= npq.
La obtencin de las caractersticas esperanza y varianza puede ser efectuada a partir del binomio
de Newton. En efecto, el valor esperado se obtiene como:
E(X) =
n
k=0
kP(X = k) =
n
k=0
k
n!
k!(n k)!
p
k
(1 p)
nk
=
n
k=1
n!
(k 1)!(n k)!
p
k
(1 p)
nk
=
= np
n
k=1
(n 1)!
(k 1)!(n 1 (k 1))!
p
k1
(1 p)
n1(k1)
y haciendo r=k-1 se tiene:
E(X) = np
n1
r=0
(n 1)!
r!(n 1 r)!
p
r
q
n1r
= np(p +q)
n1
= np
Por su parte, la varianza de la variable viene dada por V ar(X) = E(X)
2
E
2
(X), cuyo clculo
resulta ms sencillo mediante la expresin V ar(X) = E[X(X 1) +X] E
2
(X)
En efecto, se tiene mediante un procedimiento anlogo al clculo de la esperanza:
E[X(X 1)] =
n
k=0
k(k 1)
n!
k!(n k)!
p
k
q
nk
=
m
k=2
n!
(k 2)!(n k)!
p
k
q
nk
=
= n(n 1)p
2
n
k=2
(n 2)!
(k 2)!(n k)!
p
k2
q
nk
que haciendo r = k 2 conduce a:
77
Tabla 3.2.: Modelo Binomial B(n, p). Funcin de Distribucin
n k\p 0, 10 0, 20 0, 30 0, 40 0, 50 0, 60 0, 70 0, 80 0, 90
1 0 0, 9000 0, 8000 0, 7000 0, 6000 0, 5000 0, 4000 0, 3000 0, 2000 0, 1000
1 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000
2 0 0, 8100 0, 6400 0, 4900 0, 3600 0, 2500 0, 1600 0, 0900 0, 0400 0, 0100
1 0, 9900 0, 9600 0, 9100 0, 8400 0, 7500 0, 6400 0, 5100 0, 3600 0, 1900
2 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000
3 0 0, 7290 0, 5120 0, 3430 0, 2160 0, 1250 0, 0640 0, 0270 0, 0080 0, 0010
1 0, 9720 0, 8960 0, 7840 0, 6480 0, 5000 0, 3520 0, 2160 0, 1040 0, 0280
2 0, 9990 0, 9920 0, 9730 0, 9360 0, 8750 0, 7840 0, 6570 0, 4880 0, 2710
3 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000
4 0 0, 6561 0, 4096 0, 2401 0, 1296 0, 0625 0, 0256 0, 0081 0, 0016 0, 0001
1 0, 9477 0, 8192 0, 6517 0, 4752 0, 3125 0, 1792 0, 0837 0, 0272 0, 0037
2 0, 9963 0, 9728 0, 9163 0, 8208 0, 6875 0, 5248 0, 3483 0, 1808 0, 0523
3 0, 9999 0, 9984 0, 9919 0, 9744 0, 9375 0, 8704 0, 7599 0, 5904 0, 3439
4 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000
5 0 0, 5905 0, 3277 0, 1681 0, 0778 0, 0312 0, 0102 0, 0024 0, 0003 0, 0000
1 0, 9185 0, 7373 0, 5282 0, 3370 0, 1875 0, 0870 0, 0308 0, 0067 0, 0005
2 0, 9914 0, 9421 0, 8369 0, 6826 0, 5000 0, 3174 0, 1631 0, 0579 0, 0086
3 0, 9995 0, 9933 0, 9692 0, 9130 0, 8125 0, 6630 0, 4718 0, 2627 0, 0815
4 1, 0000 0, 9997 0, 9976 0, 9898 0, 9688 0, 9222 0, 8319 0, 6723 0, 4095
5 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000
6 0 0, 5314 0, 2621 0, 1176 0, 0467 0, 0156 0, 0041 0, 0007 0, 0001 0, 0000
1 0, 8857 0, 6554 0, 4202 0, 2333 0, 1094 0, 0410 0, 0109 0, 0016 0, 0001
2 0, 9841 0, 9011 0, 7443 0, 5443 0, 3438 0, 1792 0, 0705 0, 0170 0, 0013
3 0, 9987 0, 9830 0, 9295 0, 8208 0, 6562 0, 4557 0, 2557 0, 0989 0, 0158
4 0, 9999 0, 9984 0, 9891 0, 9590 0, 8906 0, 7667 0, 5798 0, 3446 0, 1143
5 1, 0000 0, 9999 0, 9993 0, 9959 0, 9844 0, 9533 0, 8824 0, 7379 0, 4686
6 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000
7 0 0, 4783 0, 2097 0, 0824 0, 0280 0, 0078 0, 0016 0, 0002 0, 0000 0, 0000
1 0, 8503 0, 5767 0, 3294 0, 1586 0, 0625 0, 0188 0, 0038 0, 0004 0, 0000
2 0, 9743 0, 8520 0, 6471 0, 4199 0, 2266 0, 0963 0, 0288 0, 0047 0, 0002
3 0, 9973 0, 9667 0, 8740 0, 7102 0, 5000 0, 2898 0, 1260 0, 0333 0, 0027
4 0, 9998 0, 9953 0, 9712 0, 9037 0, 7734 0, 5801 0, 3529 0, 1480 0, 0257
5 1, 0000 0, 9996 0, 9962 0, 9812 0, 9375 0, 8414 0, 6706 0, 4233 0, 1497
6 1, 0000 1, 0000 0, 9998 0, 9984 0, 9922 0, 9720 0, 9176 0, 7903 0, 5217
7 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000
8 0 0, 4305 0, 1678 0, 0576 0, 0168 0, 0039 0, 0007 0, 0001 0, 0000 0, 0000
1 0, 8131 0, 5033 0, 2553 0, 1064 0, 0352 0, 0085 0, 0013 0, 0001 0, 0000
2 0, 9619 0, 7969 0, 5518 0, 3154 0, 1445 0, 0498 0, 0113 0, 0012 0, 0000
3 0, 9950 0, 9437 0, 8059 0, 5941 0, 3633 0, 1737 0, 0580 0, 0104 0, 0004
4 0, 9996 0, 9896 0, 9420 0, 8263 0, 6367 0, 4059 0, 1941 0, 0563 0, 0050
5 1, 0000 0, 9988 0, 9887 0, 9502 0, 8555 0, 6846 0, 4482 0, 2031 0, 0381
6 1, 0000 0, 9999 0, 9987 0, 9915 0, 9648 0, 8936 0, 7447 0, 4967 0, 1869
7 1, 0000 1, 0000 0, 9999 0, 9993 0, 9961 0, 9832 0, 9424 0, 8322 0, 5695
8 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000
78
E[X(X 1)] = n(n 1)p
2
n2
r=0
(n 2)!
r!(n 2 r)!
p
r
q
n2k
= (n(n 1)p
2
(p +q)
n2
= n(n 1)p
2
As pues, sustituyendo esta expresin se obtiene para la varianza:
V ar(X) = E[X(X 1)] +E(X) E
2
(X) = n(n 1)p
2
+np (np)
2
= np(1 p) = npq
Los clculos anteriores resultan ms sencillos a partir de la funcin generatriz de momentos, que
para un modelo B(n, p) viene dada por la expresin M
X
(t) = (e
t
p +q)
n
para < t < .
Partiendo de la denicin de funcin generatriz de momentos se obtiene:
M
X
(t) = E
_
e
tX
_
=
n
k=0
e
tk
p
k
q
nk
=
n
k=0
_
n
k
_
(e
t
p)
k
q
nk
=
_
e
t
p +q
_
n
Como ya hemos comprobado en el captulo anterior, la funcin generatriz de momentos M propor-
ciona los momentos de cualquier orden r como valor particular en el punto t = 0 de la correspondiente
derivada de orden r. Es decir:
E (X
r
) =
d
r
M
X
(t)
dt
r
t=0
[Comprobar que E(X) =
dM
X
(t)
dt
t=0
= np]
El valor esperado puede ser interpretado como valor al que tiende el promedio de
xitos al aumentar indenidamente en idnticas condiciones el nmero de pruebas.
Por su parte, la varianza de X cuantica el riesgo, aumentando con el nmero de
pruebas y tambin a medida que se aproximan los valores p y q.
As, si en el ejemplo de los empresarios convocados para la entrevista asumimos
que la probabilidad de aceptacin es de un 80 %, el nmero esperado de empresarios
entrevistados ser 16 y la varianza de 3,2.
Si por el contrario el valor de p fuese 0,56 se tendra = 11, 2 y
2
= 4, 928.
[Qu cambios signicativos se han producido en los parmetros?] [cmo se inter-
pretara el valor esperado 11,2 entrevistados?]
El inters del modelo binomial es considerable. Adems de su generalizada aplicacin
en muchos casos prcticos, es posible establecer conexiones entre esta distribucin y
otros modelos probabilsticos que estudiaremos en apartados posteriores.
As, podemos denir nuevos modelos probabilsticos con slo alterar la denicin
de las variables (distribucin geomtrica y binomial negativa) o bien algunos de los
supuestos en los que se basa el modelo binomial (distribucin hipergeomtrica).
Por otra parte, las probabilidades binomiales pueden ser aproximadas -para valores
elevados de n y pequeos de p- por la distribucin denominada de Poisson y es posible
-bajo ciertos supuestos que analizaremos en temas posteriores- aproximar cualquiera
de estas distribuciones por el modelo normal.
79
3.2. Distribuciones Geomtrica y Binomial negativa
Los supuestos en que se basan los procesos de Bernoulli (independencia entre prue-
bas y valor constante de la probabilidad de xito p) permiten denir nuevos modelos
probabilsticos.
As, podramos suponer ahora que, en vez de prejar el nmero de empresarios
convocados a las entrevistas, se decide llevar a cabo consultas sucesivas hasta tener
conrmado determinado nmero de entrevistas.
Las hiptesis de independencia entre las respuestas y probabilidad constante de
aceptacin (p) siguen siendo vlidas, pero cambia sin embargo la variable aleatoria
de inters, que vendra ahora denida como nmero de consultas hasta obtener las
entrevistas necesarias.
La situacin ms sencilla sera efectuar consultas hasta conrmar una entrevista,
variable recogida por la distribucin geomtrica.
Denicin 3.3. Dado un proceso de Bernoulli de pruebas independientes con slo dos
alternativas y probabilidad de xito (p) constante, la magnitud aleatoria X denida
como nmero de pruebas necesarias hasta la obtencin del primer xito sigue un
modelo denominado geomtrico que abreviadamente se representa por ((p).
Aunque presenta rasgos comunes con el modelo binomial, la distribucin geomtrica
resulta mucho ms sencilla, dado que slo debemos cuanticar la probabilidad de que
en cierta observacin aparezca el primer xito, sin preocuparnos de las observaciones
anteriores (en las que todos los resultados fueron fracasos y por tanto idnticos entre
s).
Como consecuencia de estas caractersticas, el recorrido de una variable X ((p)
ser innito numerable: 1, 2, . . . y su funcin de probabilidad viene dada por la expre-
sin P(X = k) = (1 p)
k1
p, en la que se aprecia que p -probabilidad de xito- es el
parmetro caracterstico del modelo.
Toda variable aleatoria discreta cuya funcin de probabilidad venga dada por la expresin:
P(X = k) = (1 p)
k1
p ; conk = 1, 2, . . .
se dice que sigue un modelo Geomtrico o de Pascal (X G(p)).
El matemtico y lsofo Blaise Pascal (1623-1662), cuyo apellido se utiliza para designar la dis-
tribucin geomtrica, es -gracias en gran medida a su correspondencia con Pierre Fermat- autor de
algunos de los fundamentos de la ciencia de la probabilidad, hasta el punto de que Laplace considera
a ambos autores como precursores de la Teora de la Probabilidad.
Vamos a analizar las caractersticas de la distribucin geomtrica. Para ello comencemos por
justicar que la expresin vista para P(X = k) es una verdadera funcin de probabilidad; esto es, se
trata de una funcin no negativa (puesto que los factores que intervienen son no negativos) y adems
su suma es la unidad:
k=0
P(X = k) =
k=1
pq
k1
= p
k=1
q
k1
80
La ltima suma corresponde a una progresin geomtrica de razn q, lo cual justica el nombre
que recibe esta distribucin. Cuando la razn es menor que la unidad (q<1) la serie geomtrica es
convergente y su suma es el primer trmino de la serie partido por uno menos la razn. En este caso:
k=0
P(X = k) = p
q
0
1 q
=
p
p
= 1
La funcin de distribucin de esta variable ser:
F(x) = P(X x) =
[x]
k=0
P(X = k) = 1
k=[x]+1
pq
k1
= 1 p
k=[x]+1
q
k1
= 1 p
q
[x]
1 q
= 1 q
[x]
En ciertas ocasiones se plantea una versin alternativa del modelo geomtrico, deniendo la va-
riable X como Nmero de fracasos antes del primer xito. Resulta sencillo deducir la funcin de
probabilidad, que en este caso viene dada por la expresin:
P(X
= k) = (1 p)
k
p ; conk = 0, 1, 2, . . .
a la que es tambin posible llegar mediante un cambio de variable (si designamos por X y X a las
variables nmero de pruebas hasta el primer xito y nmero de fracasos antes del primer xito
respectivamente, se tendra X = X + 1).
Una v.a. geomtrica puede tomar innitos valores y la probabilidad de la cola au-
menta conforme va disminuyendo la probabilidad de xito.
El valor esperado de esta distribucin es =
1
p
, expresin a la que se llega a partir
del desarrollo E(X) =
k=0
kpq
k1
. Como es lgico, esta caracterstica variar de mo-
do inverso con la probabilidad de xito. Por su parte, la varianza viene dada por la
expresin V ar(X) =
q
p
2
.
Para obtener el valor esperado, debemos tener en cuenta que la derivada de la suma
es la suma de las derivadas y que la serie es convergente, con lo cual esta caracterstica
viene dada por:
E(X) = p
k=1
kq
k1
= p
k=1
d
dq
q
k
= p
d
dq
_

k=1
q
k
_
= p
d
dq
_
q
1 q
_
= p
(1 q) +q
(1 q)
2
=
p
p
2
=
1
p
Por lo que se reere a la varianza, sta puede ser expresada como:
V ar(X) = E(X
2
) E
2
(X) = E[X(X 1)] +E(X) E
2
(X)
donde todos los sumandos son conocidos a excepcin de E[X(X 1)] que puede ser
calculado de forma anloga al caso de la esperanza, donde ahora aparecer una deri-
81
vada segunda.
Tanto el valor esperado como la varianza pueden ser obtenidos fcilmente a partir
de la funcin generatriz de momentos del modelo, que viene dada por
M
X
(t) = E(e
tX
) =
k=1
e
tk
q
k1
p =
p
q
k=1
_
e
t
q
_
k
=
e
t
p
1 e
t
q
a partir de la cual se obtiene E(X) =
d
dt
M
X
(t)[
t=0
=
1
p
.
[Comprubese de modo anlogo que E(X
2
) =
d
2
dt
2
M
X
(t)[
t=0
=
1+q
p
2
, y en conse-
cuencia se obtiene de nuevo: V ar(X) =
q
p
2
]
Las tablas 3.3 y 3.4 recogen la funcin de probabilidad y de distribucin del modelo
geomtrico.
El manejo de tablas de la distribucin geomtrica es similar al descrito para la
distribucin binomial: en la primera columna se recoge el nmero de pruebas necesarias
para obtener el primer xito y en las restantes columnas se han seleccionado ciertos
valores de p.
Como ya se coment a la vista de los grcos, las tablas conrman cmo al aumentar
la probabilidad de xito p la probabilidad de la cola se hace menor y as, aunque el
nmero de pruebas para obtener un xito pueden ser innitas, se observa que con
p = 0, 5 obtenemos una probabilidad casi nula a partir de la prueba nmero 15.
Son numerosas las aplicaciones prcticas del modelo geomtrico, que podra resultar
til para describir -bajo los supuestos de independencia y probabilidad constante- el
nmero de apuestas efectuadas por un jugador hasta obtener premio, las visitas de
un viajante hasta vender un artculo, las convocatorias de examen a las que acude
un alumno hasta obtener un aprobado, los das que un individuo mira el buzn hasta
recibir cierta carta, ...
[Sera adecuado en estos ejemplos el supuesto de p constante? y el de indepen-
dencia entre las observaciones?]
La hiptesis de independencia garantiza que la probabilidad de que sean necesarios
ms de k nuevos intentos para obtener el primer xito no se ve afectada por el nmero
de pruebas que ya llevemos realizadas. Esta propiedad se conoce como prdida de
memoria de la distribucin geomtrica.
El resultado anterior puede formalizarse como sigue: Si X es una v.a. G(p), entonces se cumple:
P(X > k +m/X > m) = P(X > k). En efecto:
P(X > k +m/X > m) =
P(X > k +m, X > m)
p(X > m)
=
P(X > k +m)
P(X > m)
=
1 F
X
(k +m)
1 F
X
(m)
=
=
1
_
1 q
k+m
_
1 (1 q
m
)
= q
k
= 1 P(X k) = P(X > k)
La interpretacin de esta expresin es la siguiente: la informacin de que hemos realizado ya m
82
Tabla 3.3.: Modelo Geomtrico. Funcin de probabilidad
k\p 0, 10 0, 20 0, 30 0, 40 0, 50 0, 60 0, 70 0, 80 0, 90
1 0, 0900 0, 1600 0, 2100 0, 2400 0, 2500 0, 2400 0, 2100 0, 1600 0, 0900
2 0, 0810 0, 1280 0, 1470 0, 1440 0, 1250 0, 0960 0, 0630 0, 0320 0, 0090
3 0, 0729 0, 1024 0, 1029 0, 0864 0, 0625 0, 0384 0, 0189 0, 0064 0, 0009
4 0, 0656 0, 0819 0, 0720 0, 0518 0, 0312 0, 0154 0, 0057 0, 0013 0, 0001
5 0, 0590 0, 0655 0, 0504 0, 0311 0, 0156 0, 0061 0, 0017 0, 0003
6 0, 0531 0, 0524 0, 0353 0, 0187 0, 0078 0, 0025 0, 0005 0, 0001
7 0, 0478 0, 0419 0, 0247 0, 0112 0, 0039 0, 0010 0, 0002
8 0, 0430 0, 0336 0, 0173 0, 0067 0, 0020 0, 0004
9 0, 0387 0, 0268 0, 0121 0, 0040 0, 0010 0, 0002
10 0, 0349 0, 0215 0, 0085 0, 0024 0, 0005 0, 0001
11 0, 0314 0, 0172 0, 0059 0, 0015 0, 0002
12 0, 0282 0, 0137 0, 0042 0, 0009 0, 0001
13 0, 0254 0, 0110 0, 0029 0, 0005 0, 0001
14 0, 0229 0, 0088 0, 0020 0, 0003
15 0, 0206 0, 0070 0, 0014 0, 0002
16 0, 0185 0, 0056 0, 0010 0, 0001
17 0, 0167 0, 0045 0, 0007 0, 0001
18 0, 0150 0, 0036 0, 0005
19 0, 0135 0, 0029 0, 0003
20 0, 0122 0, 0023 0, 0002
21 0, 0109 0, 0018 0, 0002
22 0, 0098 0, 0015 0, 0001
23 0, 0089 0, 0012 0, 0001
24 0, 0080 0, 0009 0, 0001
25 0, 0072 0, 0008
26 0, 0065 0, 0006
27 0, 0058 0, 0005
28 0, 0052 0, 0004
29 0, 0047 0, 0003
30 0, 0042 0, 0002
40 0, 0015
50 0, 0005
100
83
Tabla 3.4.: Modelo Geomtrico. Funcin de distribucin
k\p 0, 10 0, 20 0, 30 0, 40 0, 50 0, 60 0, 70 0, 80 0, 90
1 0, 1900 0, 3600 0, 5100 0, 6400 0, 7500 0, 8400 0, 9100 0, 9600 0, 9900
2 0, 2710 0, 4880 0, 6570 0, 7840 0, 8750 0, 9360 0, 9730 0, 9920 0, 9990
3 0, 3439 0, 5904 0, 7599 0, 8704 0, 9375 0, 9744 0, 9919 0, 9984 0, 9999
4 0, 4095 0, 6723 0, 8319 0, 9222 0, 9688 0, 9898 0, 9976 0, 9997 1, 0000
5 0, 4686 0, 7379 0, 8824 0, 9533 0, 9844 0, 9959 0, 9993 0, 9999 1, 0000
6 0, 5217 0, 7903 0, 9176 0, 9720 0, 9922 0, 9984 0, 9998 1, 0000 1, 0000
7 0, 5695 0, 8322 0, 9424 0, 9832 0, 9961 0, 9993 0, 9999 1, 0000 1, 0000
8 0, 6126 0, 8658 0, 9596 0, 9899 0, 9980 0, 9997 1, 0000 1, 0000 1, 0000
9 0, 6513 0, 8926 0, 9718 0, 9940 0, 9990 0, 9999 1, 0000 1, 0000 1, 0000
10 0, 6862 0, 9141 0, 9802 0, 9964 0, 9995 1, 0000 1, 0000 1, 0000 1, 0000
11 0, 7176 0, 9313 0, 9862 0, 9978 0, 9998 1, 0000 1, 0000 1, 0000 1, 0000
12 0, 7458 0, 9450 0, 9903 0, 9987 0, 9999 1, 0000 1, 0000 1, 0000 1, 0000
13 0, 7712 0, 9560 0, 9932 0, 9992 0, 9999 1, 0000 1, 0000 1, 0000 1, 0000
14 0, 7941 0, 9648 0, 9953 0, 9995 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000
15 0, 8147 0, 9719 0, 9967 0, 9997 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000
16 0, 8332 0, 9775 0, 9977 0, 9998 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000
17 0, 8499 0, 9820 0, 9984 0, 9999 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000
18 0, 8649 0, 9856 0, 9989 0, 9999 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000
19 0, 8784 0, 9885 0, 9992 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000
20 0, 8906 0, 9908 0, 9994 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000
21 0, 9015 0, 9926 0, 9996 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000
22 0, 9114 0, 9941 0, 9997 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000
23 0, 9202 0, 9953 0, 9998 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000
24 0, 9282 0, 9962 0, 9999 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000
25 0, 9354 0, 9970 0, 9999 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000
26 0, 9419 0, 9976 0, 9999 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000
27 0, 9477 0, 9981 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000
28 0, 9529 0, 9985 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000
29 0, 9576 0, 9988 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000
30 0, 9618 0, 9990 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000
40 0, 9867 0, 9999 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000
50 0, 9954 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000
100 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000 1, 0000
84
pruebas sin xito (X > m), no altera la probabilidad de que an necesitemos k pruebas ms hasta
obtener un xito. As pues, el modelo geomtrico no tiene memoria.
Una extensin natural de la distribucin geomtrica se obtiene cuando nos interesa
observar las pruebas de Bernoulli necesarias hasta obtener un nmero determinado
de xitos (por ejemplo, si se realizasen las llamadas necesarias hasta conseguir 6 en-
trevistas con empresarios). La variable aleatoria denida en este caso se adapta a la
distribucin denominada binomial negativa.
Denicin 3.4. Bajo los supuestos de un proceso de Bernoulli, una variable aleatoria
X denida como nmero de pruebas hasta el r-simo xito se distribuye segn un
modelo binomial negativo, denotado por BA(r, p).
La funcin de probabilidad de la variable viene dada por P(X = k) =
_
k1
r1
_
p
r
q
kr
donde k = r, r + 1, . . . ., expresin que puede ser justicada con un razonamiento
similar al de los modelos anteriores.
En este caso, la probabilidad de que sean necesarias k pruebas hasta los r xitos se obtiene toman-
do en cuenta dos factores: la probabilidad de interseccin de r xitos y k r fracasos y las posibles
secuencias en que estas situaciones pueden presentarse. Obsrvese que para este segundo factor igno-
ramos la ltima prueba, que necesariamente corresponde al xito r-simo, con lo cual se calculan las
combinaciones
_
k1
r1
_
.
La denominacin de esta distribucin queda justicada en el esquema que sigue, donde se recogen
paralelamente las condiciones del modelo binomial negativo y las correspondientes a la distribucin
binomial.
Como puede observarse, los rasgos distintivos de ambas distribuciones se reeren al papel aleatorio
que el modelo binomial asigna al nmero de xitos (jadas las pruebas) y viceversa para la binomial
negativa.
Binomial B(n, p) Binomial Negativa BN(r, p)
Probabilidad xito p p
Nm. de pruebas n(dado) X(aleatorio)
Nm. de xitos Y (aleatorio) r(dado)
Func. de Probabilidad
P(Y = k) =
_
n
k
_
p
k
q
nk
k = 0, 1, 2, . . .
P(X = k) =
_
k1
r1
_
p
r
q
kr
k = r, r + 1, . . .
Como consecuencia de esta conexin entre ambas distribuciones de probabilidad puede compro-
barse que dadas las variables Y B(n, p) y X BN(r, p) se cumple: P(Y r) = P(X n) y
tambin P(Y < r) = P(X > n).
Por otra parte, podemos observar fcilmente que el caso particular X BN(r = 1, p) coincide con
la distribucin geomtrica G(p).
La grca de la funcin de probabilidad de la distribucin binomial negativa vie-
ne condicionada por los dos parmetros r y p; as en la gura 3.4 representamos 4
situaciones que muestran estas diferencias:
El primero de los grcos de esta gura recoge la distribucin de una v.a. BA(3, 0, 5),
en cuya representacin observamos que se mantiene la asimetra caracterstica de la
85
Figura 3.4.: Modelo Binomial negativo. Funcin de probabilidad
distribucin geomtrica; en cambio en el siguiente grco (superior derecha) se recoge
una variable BA(7, 0, 5), que presenta un menor grado de asimetra.
El grco inferior izquierdo corresponde a una BA(7, 0, 3), en la que se observa
una mayor simetra, como consecuencia de la disminucin en la probabilidad de xito
y nalmente, en el ltimo grco se recoge una v.a. BA(3, 0, 1). Podemos concluir
a la vista de estos resultados que a medida que aumenta el nmero de xitos (r)
o disminuye la probabilidad de xito (p), la representacin se aproxima hacia una
funcin campaniforme.
El nmero esperado de pruebas hasta obtener r xitos viene dado por la expresin
E(X) =
r
p
y la varianza del modelo es V ar(X) =
rq
p
2
.
En ocasiones la distribucin binomial negativa se asocia a la variable X=nmero
de fracasos obtenidos antes del r-simo xito, denicin que conduce a expresiones
distintas a las estudiadas tanto para la funcin de probabilidad como para las ca-
ractersticas del modelo. Ms concretamente, se tendra en este caso una funcin de
probabilidad dada por:
P(X
= k) =
_
r +k 1
k
_
p
r
q
k
; k = 0, 1, . . .
observndose entonces con la variable X nmero de pruebas hasta el r-simo xito
la relacin X = X +r.
3.3. Modelo hipergeomtrico
A menudo la realidad sobre la que efectuamos nuestras observaciones dista de los
supuestos establecidos por los modelos probabilsticos. As, recordando los ejemplos
que recogamos anteriormente podramos plantearnos qu sucede si la respuesta de un
86
Figura 3.5.: Probabilidad Hipergeomtrica
empresario afecta a las restantes, con lo cual los resultados de las pruebas dejan de
ser independientes.
En estas situaciones se incumplen las hiptesis de independencia y de probabilidad
constante asumidas en el proceso de Bernoulli, por lo cual, aun cuando nos siga in-
teresando estudiar los elementos que presentan cierta caracterstica, queda excluida la
utilizacin del modelo binomial, resultando adecuada la distribucin hipergeomtrica.
Las condiciones en las que se dene este modelo de probabilidad son las siguientes:
consideramos una poblacin total integrada por N elementos (empresarios, alumnos
presentados a un examen, candidatos a un empleo, ...) sobre los que nos interesa estu-
diar determinada caracterstica, que podramos seguir denominando xito (acceder
a la entrevista, aprobar el examen, obtener el empleo, ...).
Denicin 3.5. Supongamos clasicados los integrantes de la poblacin segn la
caracterstica de inters, tal y como indica el esquema 3.5: M elementos presentan el
rasgo estudiado y (N M) no lo presentan.
Si de la poblacin total seleccionamos aleatoriamente y sin reposicin una muestra
de n elementos, el nmero de ellos que presentan la caracterstica analizada (xitos)
es una variable aleatoria que sigue una distribucin hipergeomtrica 1(N, M, n).
Este modelo probabilstico aparece directamente asociado al anlisis combinatorio ya que las con-
diciones del modelo equivalen a una seleccin aleatoria de n elementos extrados simultneamente
(sin reposicin) de una poblacin de tamao N.
Como consecuencia, la probabilidad de xito no es constante y el nmero de posibilidades de
seleccin coincide con los subconjuntos de n elementos extrados sin reposicin entre N, que pueden
ser cuanticados mediante la frmula de las combinaciones:
C
N,n
=
_
N
n
_
Dado que la seleccin es aleatoria, cada uno de estos grupos de tamao n tiene idntica probabilidad
de ser seleccionado. Por tanto, se trata de sucesos equiprobables resultando aplicable la expresin de
la probabilidad clsica. As pues, se tiene:
87
P(X = k) =
C
M,k
C
NM,nk
C
N,n
=
_
M
k
__
NM
nk
_
_
N
n
_
[Justicar cmo ha sido obtenida la expresin del numerador][Si los n elementos se seleccionasen
con reposicin cul sera el modelo probabilstico para el nmero de xitos?]
En la ilustracin del reportaje sobre empresarios se puede encontrar un modelo
hipergeomtrico asociado a las fotografas de la portada. Supongamos que de un total
de 15 entrevistados -de los cuales 6 eran mujeres- se seleccionarn aleatoriamente 3
fotografas para la portada.
La variable aleatoria X que describe el nmero de mujeres que aparecen en portada
viene descrita por un modelo 1(N = 15, M = 6, n = 3). [Por qu es obvio que no se
trata de un modelo binomial?]
Aunque en principio podra parecer razonable que el recorrido de esta variable os-
cilase entre 0 y n (y as sucede en nuestro ejemplo, ya que puede haber en portada de
0 a 3 mujeres) es necesario tener presente tanto el nmero de elementos seleccionados
(n) como el tamao de elementos de la poblacin con el rasgo estudiado (M). As,
por ejemplo qu sucedera si slo hubiese dos mujeres entre los 15 entrevistados?
Es evidente que X no podra exceder el valor 2. Y si por el contrario 13 de los 15
entrevistados fueran mujeres?; podramos asegurar en ese caso que X 1.
En denitiva, resulta necesario contemplar situaciones en las que el colectivo de
inters tenga menos de n elementos (M < n) en cuyo caso el recorrido de X no
podra exceder el valor M. Adems la cota inferior no necesariamente se sita en 0,
pudiendo existir un nmero de elementos extrados que obligatoriamente pertenecern
al colectivo (en concreto, el valor inferior de X es el mximo entre 0 y la diferencia
n (N M)).
Como consecuencia de este razonamiento se tiene max 0, n (N M) k
mn n, M, cumplindose
mn{n,M}
k=max{0,n(NM)}
_
M
k
__
NM
nk
_
_
N
n
_ = 1
La funcin de probabilidad denida por la variable hipergeomtrica cumple las
condiciones exigidas a stas al ser no negativa [por qu?], y de suma unitaria. Para
comprobar este segundo aspecto basta tener en cuenta una propiedad de los nmeros
combinatorios segn la cual:
_
N
n
_
=
n
x=0
_
M
x
__
N M
n x
_
Las caractersticas del modelo hipergeomtrico son las siguientes:
88
E(X) = n
M
n
= np
V ar(X) = n
M
n
_
1
M
N
__
N n
N 1
_
= npq
_
N n
N 1
_
en las que pueden apreciarse similitudes con el modelo binomial: el valor esperado se
obtiene de modo anlogo (siendo p =
M
N
) y el riesgo disminuye como consecuencia
del factor de correccin
_
N n
N 1
_
correspondiente al rasgo de seleccin sin reposicin.
El factor de correccin (que ser inferior a la unidad para n > 1) resulta de gran
inters en el muestreo de poblaciones nitas, puesto que incorpora el ajuste en la
dispersin de la variable que se produce como consecuencia del muestreo sin reposicin,
esto es, al eliminar el riesgo inherente a las observaciones repetidas.
Puede comprobarse que, a medida que el tamao poblacional N aumenta, este factor
de correccin se aproxima a la unidad, de tal modo que en poblaciones conceptual-
mente innitas resulta irrelevante que el muestreo se efecte con o sin reposicin.
El clculo del valor esperado se efecta mediante el desarrollo siguiente:
E(X) =
mn{n,M}
k=max{0,n(NM)}
k
_
M
k
__
NM
nk
_
_
N
n
_ = M
mn{n,M}
k=max{0,n(NM)}
_
M1
k1
__
NM
nk
_
_
N
n
_ =
=
Mn
N
mn{n,M}
k=max{0,n(NM)}
_
M1
k1
__
NM
nk
_
_
N1
n1
_ =
Mn
N
ya que se cumple
mn{n,M}
k=max{0,n(NM)}
_
M1
k1
__
NM
nk
_
_
N1
n1
_ = 1
Mediante un mtodo similar se obtiene la varianza
2
, caracterstica que puede ser expresada
como:
V ar(X) = E [X(X 1)] +E(X) E
2
(X)
[Comprubese que se cumple E [X(X 1)] =
M(M1)n(n1)
N(N1)
y utilizando el resultado obtenido
para la esperanza se tiene V ar(X) = npq
Nn
N1
, siendo p =
M
N
]
A medida que en un modelo discreto aumenta el nmero de parmetros, resulta ms
difcil resumir en unas tablas de probabilidad la funcin de cuanta o la de distribucin.
Por ejemplo, en el caso binomial se tienen dos parmetros adems del valor x cuya
probabilidad tratamos de calcular, motivo por el cual una representacin tridimensio-
nal sera lo ms indicado. En el modelo hipergeomtrico surge un nuevo parmetro
con lo que la representacin es ms difcil.
89
Una alternativa a las limitaciones anteriores sera el clculo directo de las probabilidades a partir
de la expresin de la funcin de probabilidad, pero esto puede dar lugar a errores de aproximacin
importantes. Por ejemplo, si el tamao de la poblacin es muy elevado, podemos tener problemas
de desbordamiento de memoria por manejar cifras excesivamente altas o bajas; en este caso sera
recomendable factorizar las expresiones de clculo mediante cocientes parciales que permitiran ma-
yor exactitud (esto quiere decir que deberamos ir simultaneando operaciones de multiplicar y dividir
para mantener los resultados dentro de un tamao razonable).
Afortunadamente, este problema puede ser resuelto considerando otras alternativas.
La principal diferencia entre los modelos binomial e hipergeomtrico estriba en el tamao de la
poblacin, ya que si sta fuese innita las probabilidades de seleccin en cada observacin permanece-
ran constantes y el modelo podra reducirse a uno binomial. Pues bien, aunque el tamao poblacional
no sea innito, si es sucientemente grande la aproximacin binomial puede resultar satisfactoria al
proporcionarnos bajos mrgenes de error respecto a las probabilidades hipergeomtricas. Sin embar-
go, para que esta aproximacin sea buena, debemos tener en cuenta una cosa ms: el tamao de la
muestra.
En efecto, si el tamao de la poblacin es elevado, en las primeras observaciones las probabilida-
des prcticamente no se alteran, pero si la muestra llegase al 90 % de la poblacin, en las ltimas
observaciones los casos posibles se reducen a poco ms del 10 % de la poblacin original por lo que
el tamao pudo haberse vuelto pequeo. Un criterio para la sustitucin de las probabilidades de la
hipergeomtrica por la binomial sera N > 50, n < 0, 1N.
Para comprobar empricamente el efecto de esta aproximacin, recordemos el supuesto que venimos
considerando respecto al nmero de mujeres empresarias que aparecen en la portada de la publicacin.
Se trata de una distribucin hipergeomtrica: H(N = 15, M = 6, n = 3), sobre la que podemos estar
interesados en conocer la probabilidad de que en la portada aparezca exactamente una mujer:
P(X = 1) =
_
6
1
__
9
2
_
_
15
3
_ = 0, 474725
Si aproximamos esta probabilidad por una binomial, se obtendra: p =
6
15
, P(X = 1) = 0, 432,
pudiendo apreciarse que las diferencias de probabilidad son del orden del 10 %.
Supongamos que multiplicamos por 10 el nmero de entrevistas y el de mujeres, con lo cual el mo-
delo resultante sera: H(N = 150, M = 60, n = 3). En esta situacin la probabilidad hipergeomtrica
sera: P(X = 1) = 0, 43587 mientras que la de la binomial no cambiara [por qu?] y se obtienen
diferencias del orden del 0,7 %.
El proceso de Bernoulli puede ser considerado como punto de partida para la de-
nicin de los modelos probabilsticos analizados hasta ahora, que aparecen conectados
entre s segn el esquema y presentan a su vez relaciones con otras distribuciones de
probabilidad que estudiaremos en posteriores apartados.
3.4. Modelo Uniforme
En algunas magnitudes aleatorias no existe ninguna evidencia a favor de determi-
nados resultados, por lo cual resulta aplicable el principio de indiferencia. Este sera
el caso cuando lanzamos un dado, extraemos una bola de un bombo de lotera, o
seleccionamos al azar una carta de la baraja.
Tambin con frecuencia nos encontramos con que conocemos el recorrido de una
90
Figura 3.6.: Esquema de modelos discretos
magnitud aleatoria pero carecemos de cualquier informacin adicional. Esta situa-
cin, que puede darse tanto en variables discretas como continuas, conduce al modelo
uniforme, cuya distribucin se corresponde con un reparto equitativo de la probabili-
dad.
Supongamos, por ejemplo, que una persona se dispone a desplazarse utilizando el
metro de su ciudad, y consultando el plano, observa que existen tres lneas alternativas
que le conducen hasta su destino, con servicio cada 10 minutos.
En este ejemplo aparecen dos magnitudes aleatorias de distinta ndole pero de ca-
ractersticas similares: una de ellas es la lnea de metro elegida y la otra la hora a la
que ste realiza su salida.
Tal y como representa la gura 3.7 la primera de estas caractersticas es una variable
discreta a la que pueden asociarse valores 1, 2 y 3. Sin embargo, la segunda es continua
dentro de un recorrido que, a partir de una hora genrica h, expresada en minutos,
podemos denominar (h, h + 10).
En ambos casos la informacin se limita a la ya recogida, ignorndose cmo se
distribuye la probabilidad de las magnitudes. Ante esta falta de informacin, se adopta
el principio de indiferencia, asumiendo equiprobabilidad de los resultados posibles.
Como consecuencia de este supuesto aparece -en sus versiones discreta y continua-
el modelo uniforme. Los grcos adjuntos ilustran la distribucin de probabilidad de
ambas caractersticas: si la lnea de metro es seleccionada al azar se tiene
P(X = 1) = P(X = 2) = P(X = 3) =
1
3
Anlogamente, la probabilidad se reparte de modo uniforme en cada intervalo de
amplitud 10 minutos como el representado, pudiendo adoptar cualquier valor de dicho
91
Figura 3.7.: Modelo uniforme discreto y continuo
recorrido.
3.4.1. Caso discreto
Consideremos una variable aleatoria X con posibles valores x
1
, x
2
, . . . , x
n
que se
asumen indiferentes p(x
1
) = p(x
2
) = = p(x
n
). Podremos encontrarnos en esta
situacin si conocemos que dichos resultados son equiprobables o bien si la ausencia
de informacin adicional nos lleva a admitir el supuesto de uniformidad.
Teniendo en cuenta que debe cumplirse
n
i=1
p(x
i
) = 1, se tiene entonces p(x
i
) =
1
n
para cada uno de los valores i = 1, 2, . . . , n.
Esta distribucin de probabilidad correspondiente a un modelo uniforme conduce a
la denicin clsica de probabilidad como cociente entre casos favorables y casos posi-
bles. En efecto, al carecer de informacin, asumimos que todos los posibles resultados
de X son equiprobables y as se tiene para cualquier k = 1, 2, . . . que
P(X x
k
) =
k
i=1
p(x
i
) = k
1
n
=
k
n
Como consecuencia de los rasgos anteriores, para el modelo uniforme se obtiene
un valor esperado coincidente con la media aritmtica de los valores de la variable
=
n
i=1
x
i
n
.
Esta expresin de la esperanza recoge el principio de indiferencia: asigna igual peso a cada uno de
los valores de la variable aleatoria X como consecuencia de que sus correspondientes probabilidades
son en este caso coincidentes.
92
3.4.2. Caso continuo
Las caractersticas del modelo uniforme anterior pueden extenderse de modo in-
mediato al caso continuo. En realidad, ste es el supuesto que subyace en las repre-
sentaciones grcas tipo histograma para datos agrupados, cuando slo conocemos
la frecuencia o la probabilidad de un intervalo y asumimos que este valor se reparte
uniformemente en cierto recorrido genrico (a, b).
El modelo uniforme, que se representa abreviadamente |(a, b) se denomina tambin
rectangular en alusin a su representacin grca. Esta distribucin -como consecuen-
cia del principio de indiferencia o de la ausencia de informacin- asigna probabilidades
idnticas a cualesquiera intervalos de igual amplitud. As, en nuestro ejemplo del me-
tro ilustrado en la gura 3.7, se observa que coinciden las probabilidades asociadas a
cualquier intervalo de un minuto de amplitud (subintervalos (h, h+1) y (h+5, h+6)
por ejemplo).
Denicin 3.6. Dada una variable aleatoria continua X distribuida segn un modelo
uniforme X |(a, b) su funcin de densidad viene dada por la expresin:
f(x) =
_
_
_
1
b a
si a < x < b
0 en otro caso
La expresin de f(x) puede ser deducida fcilmente de modo grco, teniendo en cuenta que dicha
funcin asigna una densidad constante a cada punto del intervalo y que -segn la denicin de f(x)-
el rea del rectngulo de base (b a) debe ser unitaria. Se tiene as que:
P(a X b) =
b
a
f(x)dx =
b
a
kdx = k(b a) = 1
con lo cual f(x) = k =
1
b a
para todo a < x < b.
[Obtener la funcin de distribucin de X, que vendr dada por la expresin: F(x) =
x a
b a
para
a x < b] [cul sera su representacin grca?]
Las caractersticas del modelo uniforme vienen dadas en funcin de los extremos
del correspondiente intervalo. As, dada X |(a, b) puede obtenerse fcilmente =
a +b
2
, centro de gravedad del recorrido de la variable. [Cul es la hora esperada para
el metro del ejemplo anterior?]
Por su parte, la varianza viene dada por la expresin
2
=
(b a)
2
12
, que depende
nicamente del recorrido de la variable considerada y se puede obtener por diferencia
de E(X
2
) =
b
3
a
3
3(b a)
y el cuadrado de la esperanza (
2
).
Ambas caractersticas pueden tambin ser deducidas a partir de la funcin generatriz
de momentos, que para este modelo adopta la expresin M
X
(t) =
e
tb
e
ta
t(b a)
.
93
3.5. Modelo Normal
El supuesto de continuidad resulta adecuado para numerosas magnitudes econ-
micas, que frecuentemente pueden adoptar cualquiera de los innitos valores de su
campo de variacin.
El nico modelo continuo que hemos analizado hasta ahora, la distribucin unifor-
me, puede resultar adecuado si no tenemos razones para pensar que ciertos valores
de la variable sean ms probables que otros. No obstante, a menudo aparecen distri-
buciones cuya representacin viene dada por una curva campaniforme, esto es, cuyo
recorrido central concentra gran parte de la probabilidad. La generalidad de este tipo
de magnitudes justica su denominacin como modelo normal.
La distribucin normal fue obtenida inicialmente por De Moivre en 1733. Sin embargo, habitual-
mente se conoce como modelo de Gauss, o de Gauss-Laplace por ser estos autores quienes, durante
el siglo XVIII, analizaron sus propiedades e impulsaron su utilizacin.
Aunque la distribucin normal se revela como un modelo probabilstico sumamente til para la
descripcin de numerosos fenmenos econmicos, los trabajos iniciales de Gauss (1777-1855), que
dieron lugar a la curva normal, iban referidos a errores de medida en observaciones astronmicas,
cuya distribucin era de tipo campaniforme.
Por su parte, Pierre Simon, marqus de Laplace (1749-1827) obtuvo este modelo como aproxima-
cin de otras distribuciones. Este resultado, de gran trascendencia en las tcnicas inferenciales, se
conoce como Teorema Central del Lmite y ser analizado con detalle en un captulo posterior.
A modo de ilustracin de este modelo normal, consideremos de nuevo el ejemplo
inicial y supongamos que los empresarios son convocados para realizar la entrevista
a las 4 de la tarde, realizando el reportaje fotogrco a su nalizacin. As pues, y
teniendo en cuenta que la duracin esperada de las entrevistas es de 2 horas se ha
convocado al equipo fotogrco a las 6 de la tarde, pero es evidente que, por motivos
diversos, no todas las entrevistas tendrn exactamente la misma duracin, sino que
puede haber ligeras desviaciones, anticipndose o retrasndose la hora de nalizacin.
Como consecuencia, el "retraso respecto a la hora prevista" ser una variable aleato-
ria continua, cuya representacin podra ser como sigue: una curva aproximadamente
simtrica, que acumula la mayor probabilidad en torno a la observacin central (en-
trevistas que nalizan a la hora prevista, con retrasos aproximadamente nulos) siendo
despreciable la probabilidad de entrevistas muy breves (valores negativos extremos) o
muy largas (valores elevados con signo positivo).
3.5.1. Modelo Normal estndar
El tipo de representacin comentado se corresponde con una distribucin normal
tipicada o estndar , denotada como A(0, 1) y que sirve como modelo de referencia
por ser su esperanza nula y su desviacin tpica unitaria.
Denicin 3.7. Se dice que una variable aleatoria X sigue una distribucin normal
estndar, que denotamos X A(0, 1), si su funcin de densidad viene dada por la
94
Figura 3.8.: Modelo normal estndar
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
-5 -4 -3 -2 -1 0 1 2 3 4 5
D
e
n
s
i
d
a
d
Valores
Funcin de densidad N(0,1)
N(0, 1)
Punto de inflexin
expresin:
f(x) =
1
2
e
x
2
2
; < x < +
La representacin grca de esta funcin corresponde a una curva simtrica, que
alcanza su valor mximo en el punto x = 0, presenta dos puntos de inexin (en -1 y
+1) y una asntota horizontal en el eje de abscisas.
Proposicin 3.1. La anterior f(x) es una verdadera funcin de densidad dado que
su expresin es no negativa y adems su integral es la unidad.
Demostracin. En efecto,
f(x)dx =
2
e
x
2
2
dx =
1
x
2
2
dx =
1
2
2
+
0
e
x
2
2
dx
y haciendo el cambio t =
x
2
2
, dx =
1
2t
dt, se obtiene:
f(x)dx =
2

0
t
1
2
e
t
dt =
1

0
t
1
2
1
e
t
dt =
1
_
1
2
_
= 1
donde la ltima integral es la funcin matemtica
_
1
2
_
cuyo valor es

.
Proposicin 3.2. Las caractersticas de esta distribucin son = 0, V ar(X) =
2
=
1, que coinciden con los parmetros del modelo normal.
Demostracin. En efecto:
95
= E(X) =
2
xe
x
2
2
dx =
1
2
e
x
2
2
= 0
Por otra parte:
E(X
2
) =
2
x
2
e
x
2
2
dx
que integrando por partes:
_
u = x du = dx
dv = xe
x
2
2
dx v =
dv = e
x
2
2
_
se obtiene:
E(X
2
) =
2
x
2
e
x
2
2
dx =
1
2
_
_
xe
x
2
2
. .
=0
x
2
2
dx
_
_
=
1
x
2
2
dx = 1
Proposicin. La funcin generatriz de momentos de una distribucin A(0, 1), viene
dada por la expresin: M
X
(t) = e
t
2
2
, < t < +, a partir de la cual se podran
obtener las caractersticas anteriores.
Demostracin. Esta funcin se obtiene como:
M
X
(t) = E
_
e
tx
_
=
2
e
tx
e
x
2
2
dx =
1
x
2
2
+tx
dx
ahora construimos un cuadrado perfecto en el exponente para lo cual sumamos y restamos
t
2
2
,
M
X
(t) =
1
x
2
2
+tx
t
2
2
+
t
2
2
dx =
1
(xt)
2
2
+
t
2
2
dx =
=
1
2
e
t
2
2
(xt)
2
2
dx = e
t
2
2
_
1
z
2
2
dz
_
La expresin que gura entre parntesis en el ltimo trmino, en la que hemos hecho el cambio de
variable z = xt, se corresponde con la integral de la funcin de densidad de una N(0, 1) cuyo valor
es unitario; por tanto se obtiene: M
X
(t) = e
t
2
2
.
Al presentar esperanza nula y dispersin unitaria, la interpretacin del modelo
A(0, 1) resulta muy intuitiva: cada valor de la variable X mide el nmero de des-
viaciones estndar que dicho valor se separa de su valor esperado.
96
El modelo normal sirve adems de referencia en cuanto a las caractersticas de forma: simetra y
curtosis. De hecho, el coeciente de apuntamiento habitualmente utilizado es el propuesto por Fisher,
que es resultado de comparar para cada distribucin el ratio

4
4
con el valor 3, asociado al apunta-
miento del modelo normal estndar.
Por lo que se reere a las reas acumuladas bajo la curva normal, que se corres-
ponden con la funcin de distribucin F(x), stas vendrn dadas por la expresin:
F(x)=
2
e
x
2
2
dx, cuyo clculo debe ser efectuado por mtodos de integracin
numrica.
En la notacin anterior aparece un abuso de lenguaje al denotar por x tanto el punto donde
nos situamos para calcular la probabilidad acumulada como la variable de integracin en ese reco-
rrido. Si queremos ser ms precisos podemos diferenciar ambos papeles de x, expresando: F(x) =
2
e
t
2
2
dt .
Como consecuencia, las probabilidades asociadas a este modelo aparecen tabuladas,
siendo posible as calcular para cada punto x el correspondiente valor de probabilidad
acumulada F(x).
La estructura habitual de las tablas, que viene recogida en la tabla 3.5, slo propor-
ciona los valores de la funcin de distribucin correspondientes al recorrido positivo
de la variable, seleccionando para sta el valor entero y dos decimales. Sin embar-
go, gracias a la simetra del modelo resulta inmediata la obtencin de probabilidades
acumuladas para valores negativos.
Por otra parte, si nos interesase calcular probabilidades tipo "mayor que" bastara
aplicar la idea de complementario a las probabilidades recogidas en tablas ("menor o
igual a"). Los mismos planteamientos anteriores son tambin vlidos para obtener las
probabilidades de intervalos.
Manejo de tablas N(0,1)
El manejo de estas tablas consiste simplemente en compatibilizar nuestras necesi-
dades con la informacin que aparece recogida en ellas, esto es, el valor de la funcin
de distribucin F(x). As, en el esquema siguiente proponemos algunos ejemplos -que
aparecen ilustrados grcamente- de cmo se llevara a cabo este proceso de adecua-
cin:
Las probabilidades de los intervalos considerados, que aparecen ilustradas grca-
mente en la cuarta columna, pueden ser obtenidas mediante las expresiones indicadas
en la columna tercera. Puede apreciarse que la expresin nal de clculo incluye F(a)
y F(b) cuando los valores a y b son positivos, mientras que en el caso de que sean
negativos aparecen respectivamente F(a) y F(b).
Conviene tener presente que no todas las tablas tienen el mismo formato. En concreto, aunque las
97
Tabla 3.5.: Modelo normal. Funcin de distribucin
x 0 0, 01 0, 02 0, 03 0, 04 0, 05 0, 06 0, 07 0, 08 0, 09
0 0, 5000 0, 5040 0, 5080 0, 5120 0, 5160 0, 5199 0, 5239 0, 5279 0, 5319 0, 5359
0, 1 0, 5398 0, 5438 0, 5478 0, 5517 0, 5557 0, 5596 0, 5636 0, 5675 0, 5714 0, 5753
0, 2 0, 5793 0, 5832 0, 5871 0, 5910 0, 5948 0, 5987 0, 6026 0, 6064 0, 6103 0, 6141
0, 3 0, 6179 0, 6217 0, 6255 0, 6293 0, 6331 0, 6368 0, 6406 0, 6443 0, 6480 0, 6517
0, 4 0, 6554 0, 6591 0, 6628 0, 6664 0, 6700 0, 6736 0, 6772 0, 6808 0, 6844 0, 6879
0, 5 0, 6915 0, 6950 0, 6985 0, 7019 0, 7054 0, 7088 0, 7123 0, 7157 0, 7190 0, 7224
0, 6 0, 7257 0, 7291 0, 7324 0, 7357 0, 7389 0, 7422 0, 7454 0, 7486 0, 7517 0, 7549
0, 7 0, 7580 0, 7611 0, 7642 0, 7673 0, 7704 0, 7734 0, 7764 0, 7794 0, 7823 0, 7852
0, 8 0, 7881 0, 7910 0, 7939 0, 7967 0, 7995 0, 8023 0, 8051 0, 8078 0, 8106 0, 8133
0, 9 0, 8159 0, 8186 0, 8212 0, 8238 0, 8264 0, 8289 0, 8315 0, 8340 0, 8365 0, 8389
1 0, 8413 0, 8438 0, 8461 0, 8485 0, 8508 0, 8531 0, 8554 0, 8577 0, 8599 0, 8621
1, 1 0, 8643 0, 8665 0, 8686 0, 8708 0, 8729 0, 8749 0, 8770 0, 8790 0, 8810 0, 8830
1, 2 0, 8849 0, 8869 0, 8888 0, 8907 0, 8925 0, 8944 0, 8962 0, 8980 0, 8997 0, 9015
1, 3 0, 9032 0, 9049 0, 9066 0, 9082 0, 9099 0, 9115 0, 9131 0, 9147 0, 9162 0, 9177
1, 4 0, 9192 0, 9207 0, 9222 0, 9236 0, 9251 0, 9265 0, 9279 0, 9292 0, 9306 0, 9319
1, 5 0, 9332 0, 9345 0, 9357 0, 9370 0, 9382 0, 9394 0, 9406 0, 9418 0, 9429 0, 9441
1, 6 0, 9452 0, 9463 0, 9474 0, 9484 0, 9495 0, 9505 0, 9515 0, 9525 0, 9535 0, 9545
1, 7 0, 9554 0, 9564 0, 9573 0, 9582 0, 9591 0, 9599 0, 9608 0, 9616 0, 9625 0, 9633
1, 8 0, 9641 0, 9649 0, 9656 0, 9664 0, 9671 0, 9678 0, 9686 0, 9693 0, 9699 0, 9706
1, 9 0, 9713 0, 9719 0, 9726 0, 9732 0, 9738 0, 9744 0, 9750 0, 9756 0, 9761 0, 9767
2 0, 9772 0, 9778 0, 9783 0, 9788 0, 9793 0, 9798 0, 9803 0, 9808 0, 9812 0, 9817
2, 1 0, 9821 0, 9826 0, 9830 0, 9834 0, 9838 0, 9842 0, 9846 0, 9850 0, 9854 0, 9857
2, 2 0, 9861 0, 9864 0, 9868 0, 9871 0, 9875 0, 9878 0, 9881 0, 9884 0, 9887 0, 9890
2, 3 0, 9893 0, 9896 0, 9898 0, 9901 0, 9904 0, 9906 0, 9909 0, 9911 0, 9913 0, 9916
2, 4 0, 9918 0, 9920 0, 9922 0, 9925 0, 9927 0, 9929 0, 9931 0, 9932 0, 9934 0, 9936
2, 5 0, 9938 0, 9940 0, 9941 0, 9943 0, 9945 0, 9946 0, 9948 0, 9949 0, 9951 0, 9952
2, 6 0, 9953 0, 9955 0, 9956 0, 9957 0, 9959 0, 9960 0, 9961 0, 9962 0, 9963 0, 9964
2, 7 0, 9965 0, 9966 0, 9967 0, 9968 0, 9969 0, 9970 0, 9971 0, 9972 0, 9973 0, 9974
2, 8 0, 9974 0, 9975 0, 9976 0, 9977 0, 9977 0, 9978 0, 9979 0, 9979 0, 9980 0, 9981
2, 9 0, 9981 0, 9982 0, 9982 0, 9983 0, 9984 0, 9984 0, 9985 0, 9985 0, 9986 0, 9986
3 0, 9987 0, 9987 0, 9987 0, 9988 0, 9988 0, 9989 0, 9989 0, 9989 0, 9990 0, 9990
3, 1 0, 9990 0, 9991 0, 9991 0, 9991 0, 9992 0, 9992 0, 9992 0, 9992 0, 9993 0, 9993
3, 2 0, 9993 0, 9993 0, 9994 0, 9994 0, 9994 0, 9994 0, 9994 0, 9995 0, 9995 0, 9995
3, 3 0, 9995 0, 9995 0, 9995 0, 9996 0, 9996 0, 9996 0, 9996 0, 9996 0, 9996 0, 9997
3, 4 0, 9997 0, 9997 0, 9997 0, 9997 0, 9997 0, 9997 0, 9997 0, 9997 0, 9997 0, 9998
3, 5 0, 9998 0, 9998 0, 9998 0, 9998 0, 9998 0, 9998 0, 9998 0, 9998 0, 9998 0, 9998
3, 6 0, 9998 0, 9998 0, 9999 0, 9999 0, 9999 0, 9999 0, 9999 0, 9999 0, 9999 0, 9999
98
Figura 3.9.:
Informacin
Situacin
Tratamiento de Representacin
necesaria Informacin de Tablas Grca
P(X a) a < 0 F(a) = 1 F(a)
P(X > a) a 0 1 F(a)
a < 0 F(a)
P(a < X < b)
0 < a < b F(b) F(a)
a < 0 < b
F(b) (1 F(a)) =
F(b) 1 +F(a)
a < b < 0 F(a) F(b)
P(a X a) =
P(|X| a)
0 < a
F(a) F(a)
= F(a) (1 F(a))
= 2F(a) 1
99
Figura 3.10.: Modelo A(, ). Funcin de densidad
ms habituales son las que incluyen valores de la funcin de distribucin, podran resultar tambin ti-
les otros tipos de tablas, como las que recogen el rea central entre cada valor considerado y el origen.
En este caso la tabla proporciona para cada a > 0 el valor de P(0 < X < a) = P(a < X < 0),
probabilidades que aparecen relacionadas con las comentadas anteriormente. Se dispone as de una
expresin alternativa de las probabilidades que en algunos casos resulta ms directa que la funcin
de distribucin. A modo de ejemplo, para el caso a < 0 < b escribiramos ahora P(a < X b) =
P(a < X 0) +P(0 < X b).
3.5.2. Modelo Normal general
Gracias a las tablas de probabilidad comentadas, el modelo normal estndar es la
referencia obligada para gran nmero de investigaciones. Sin embargo parece claro
que muchas magnitudes cuya descripcin podra adaptarse al modelo "normal" no
presentarn sus caractersticas = 0 y = 1.
As, en la ilustracin inicial de las entrevistas realizadas a empresarios, la duracin
se concentrar en torno al tiempo esperado no nulo (2 horas, por ejemplo); su grca
ser campaniforme, centrada en y ms o menos apuntada segn la dispersin en las
duraciones de las diferentes entrevistas.
Otros ejemplos de variables que pueden ser ajustadas al modelo normal son: los
benecios de una empresa, las ventas en establecimientos comerciales, el peso de los
nios recin nacidos, la demanda de determinado producto, ... En todos estos casos el
centro de la distribucin se situar en una cantidad no nula que representa el valor
esperado de la correspondiente variable.
Las caractersticas grcas de esta distribucin corresponden a la curva campanifor-
me, positiva, simtrica respecto a la recta x = (en la cual alcanza su valor mximo)
y con colas asintticas al eje de abscisas. Dicha curva es creciente para x < y decre-
ciente para x > , presentando puntos de inexin en ; es cncava en el intervalo
( , +) y convexa en el resto de su recorrido.
Denicin 3.8. Se dice que una variable aleatoria X sigue una distribucin normal
de parmetros y , que denotamos como X A(, ), si su funcin de densidad
viene dada por la expresin:
100
Figura 3.11.: Modelo A(, ). Cambio de origen
f(x) =
1
2
e
1
2
(
x
)
2
; < x <
La esperanza y la desviacin tpica de esta distribucin coinciden precisamente con
los parmetros que caracterizan esta poblacin. Su funcin generatriz de momentos
M
X
(t) = e
t+
1
2
2
t
2
Las demostraciones en este caso se realizan de forma anloga a las desarrolladas para la normal
estndar considerando previamente el cambio z =
x
.
Si sobre una v.a. Z con distribucin normal estndar, Z N(0, 1) efectuamos una transformacin del
tipo X = +Z, entonces la variable aleatoria X resultante se distribuye segn un modelo normal
general N(, ).
A modo de recproco, si X N(, ), entonces:
z =
X
N(0, 1)
Los parmetros del modelo normal general y representan respectivamente ca-
ractersticas de posicin y de escala, tal como indican las guras 3.11 y 3.12. Cambios
en suponen desplazamientos del eje de simetra de la curva a lo largo del eje de
abscisas (Figura 3.11), mientras que las alteraciones en afectan a la dispersin, esto
es, a la forma de la curva (Figura 3.12).
Como ya hemos comentado, la distribucin normal estndar A(0, 1) presenta la gran
ventaja de hallarse tabulada, hecho que garantiza un clculo sencillo de probabilidades.
Sin embargo aparece ahora el problema de calcular probabilidades asociadas a una
distribucin normal general, que se resuelve mediante un proceso de tipicacin de la
variable para reducirla a su forma estndar.
El procedimiento de tipicacin se revela como imprescindible si observamos que,
para diferentes modelos de partida, las probabilidades de un mismo intervalo dieren.
Consideremos por ejemplo dos distribuciones A y B, ambas normales, sobre las que
deseamos calcular la probabilidad de un mismo intervalo (10, 20).
101
Figura 3.12.: Modelo A(, ). Cambio de escala
!
Para cuanticar la probabilidad del intervalo resulta necesario traducir las distribu-
ciones A y B a una normal tipicada A(0, 1), cuyos valores aparecern perfectamente
tabulados.
Por lo que respecta al mecanismo para llevar a cabo la tipicacin, ste ser anlogo
al de variables estadsticas. A partir de cualquier variable X A(, ) es posible
obtener un modelo Z A(0, 1) con slo eliminar de la primera los efectos de sus
parmetros, esto es, operar sobre ella el cambio .
La aplicacin del procedimiento de tipicacin a las distribuciones A y B conduce a
los intervalos sealados sobre la distribucin estndar, que se obtienen como resultado
de eliminar de los intervalos iniciales los parmetros y . De este modo, para la
variable A A(9, 5) el intervalo inicial (10, 20) quedara transformado en (0, 2 , 2, 2)
una vez tipicada dicha variable
_
Z
A
=
A9
5
_
, mientras el mismo proceso aplicado
a B A(15; 2, 5) dara lugar al intervalo estandarizado (2, 2).
Conviene insistir en que la tipicacin tiene como nico objetivo referir las variables
a un modelo estndar, permitiendo el clculo de probabilidades. En cambio, este pro-
ceso elimina el propio signicado de la magnitud inicial, impidiendo por tanto hacer
interpretaciones sobre la misma.
En nuestro ejemplo, una vez tipicados los correspondientes recorridos es posible
calcular las probabilidades correspondientes a los intervalos con ayuda de las tablas
A(0, 1), obtenindose los resultados 0,4068 y 0,9544 respectivamente. [Comprubese]
A pesar de que, como hemos visto, el modelo normal es adecuado para la descripcin
de numerosos fenmenos, la distribucin de muchas magnitudes econmicas (como la
renta, la riqueza, los salarios, ...) no es simtrica, ya que la densidad se reparte de
forma distinta en los estratos bajos que en niveles elevados.
Sin embargo, este hecho se resuelve a menudo con una transformacin logartmica
de la variable, de modo que la distribucin de Y = ln X s se aproxima a un modelo
normal.
En estas situaciones, la distribucin de la variable X se denomina logaritmo normal
y resulta muy adecuada para la descripcin de magnitudes econmicas como la renta,
en especial para los niveles ms bajos de ingreso.
102
3.6. Algunos modelos especiales de probabilidad
Entre el amplio abanico de posibilidades que se presentan para modelizar variables
aleatorias estudiaremos a continuacin algunas distribuciones que, aunque no son de
utilizacin tan generalizada como las de apartados anteriores, resultan sin embargo
muy adecuadas para describir ciertos fenmenos de inters.
3.6.1. Sucesos raros: modelo de Poisson
A menudo nos interesa estudiar sucesos que, aunque no resultan frecuentes, pue-
den presentarse en el transcurso del tiempo o del espacio. Estas situaciones del tipo
"nmero de casas incendiadas en un ao", "erratas en la pgina de un peridico",
"llamadas de telfono equivocadas", errores de un equipo informtico, "atracos en
una sucursal bancaria", ... se adaptan bien al modelo probabilstico denominado de
Poisson o "ley de los sucesos raros".
Esta distribucin fue analizada por S.D. Poisson en un libro publicado en 1837 con el ttulo
Investigacin sobre la probabilidad de juicios en materia criminal y civil, lo cual en cierto modo
justica sus dos denominaciones.
Por su parte, L.Bortkiewicz (1868-1931) fue el primero en observar que las ocurrencias de sucesos
con pequeas frecuencias en una poblacin amplia pueden ajustarse mediante una distribucin de
Poisson, lo que denomin "ley de los pequeos nmeros".
Bortkiewicz estudi el nmero de soldados fallecidos anualmente por coces de caballo en el ejrcito
prusiano. Se examinaron 14 cuerpos durante 20 aos, observando que estos 280 datos se ajustaban
bien por un modelo de Poisson (de hecho, del total de cuerpos estudiados, se observaron 144 en los
que no se registr ninguna muerte por la causa investigada).
Otros conocidos ejemplos histricos de ajustes a un modelo de Poisson corresponden a las obser-
vaciones de estallidos de guerras mundiales entre los aos 1500 y 1931, y los impactos de bombas
alemanas sobre el rea de Londres durante la segunda guerra mundial.
Volviendo a las ilustraciones iniciales, podramos plantearnos analizar el nmero de
errores tipogrcos que se producirn a lo largo del reportaje sobre los empresarios.
Examinando el recorrido de esta variable aleatoria, parece claro que podra llegar a
tomar valores elevados, pero sin embargo, el nmero esperado de errores ser bajo, al
resultar poco probable que stos tengan lugar en un intervalo determinado (pgina,
seccin, ...).
Las caractersticas anteriores describen un modelo de Poisson, asociado al proceso
del mismo nombre que se basa en los siguientes supuestos:
El proceso es estable, al producir un nmero medio de sucesos constante por
unidad de tiempo o espacio.
Los sucesos se presentan aleatoriamente y de modo independiente, es decir, el
nmero de sucesos observados en un intervalo no condiciona los resultados de
otro intervalo disjunto del anterior.
La probabilidad de que el suceso estudiado se presente dos o ms veces en un
intervalo pequeo es aproximadamente nula.
103
Figura 3.13.: Modelo de Poisson. Funcin de probabilidad
(a) P(=5) (b) P(=20)
Bajo las condiciones descritas, la variable aleatoria X que recoge el nmero de sucesos
en un intervalo de determinada amplitud se distribuye segn un modelo de Poisson,
representado abreviadamente por P(). Los valores que puede tomar esta variable
son: 0, 1, 2, . . . y su funcin de probabilidad viene dada por:
P(X = k) =
e
k
k!
La gura 3.13 recoge la representacin de esta funcin de probabilidad para valores
de = 5 y = 20.
Podemos observar cmo cuando aumenta (gura 3.13b) la grca tiende a ser
campaniforme, lo que nos sugiere que para valores elevados del parmetro esta distri-
bucin podr ser aproximada por el modelo normal.
Esta distribucin viene caracterizada por un nico parmetro que representa el
nmero medio de sucesos por unidad de tiempo o espacio. Como consecuencia, el valor
del parmetro cambia segn cul sea la "unidad" adoptada, esto es, en funcin de la
amplitud del intervalo espacial o temporal en el que nos movemos.
Denicin 3.9. De un modo general, toda v.a. discreta X que puede adoptar valores
0, 1, 2, . . . con probabilidades dadas por la expresin P(X = k) =
e
k
k!
, se dice que
sigue un modelo de Poisson T().
Esta funcin de probabilidad puede ser obtenida como lmite de un modelo binomial B(n, p), cuan-
do se aumenta indenidamente el nmero de pruebas n y la probabilidad p tiende a 0. Bajo estas
condiciones el modelo binomial se aproxima a una distribucin de Poisson con = np, resultando
estas aproximaciones adecuadas cuando np < 5 y p < 0, 1.
Haciendo = np se tiene p =

n
y q = 1

n
con lo cual:
104
lim
n
P(X = k) = lim
n
__
n
k
_
p
k
q
nk
_
= lim
n
__
n
k
_
_
n
_
k
_
1

n
_
nk
_
=
=

k
k!
lim
n
_
n(n 1) (n k + 1)
_
1

n
_
n
n
k
_
1

n
_
k
_
=
=

k
k!
lim
n
_
_
1

n
_
n
1
_
1
1
n
_

_
1
k1
n
_
_
1

n
_
k
_
=

k
k!
e
por ser lm
n
_
1

n
_
n
= e
y lm
n
1(1
1
n
)(1
k1
n
)
(1
n
)
k
= 1
Manejo de tablas T()
Con el objetivo de facilitar su clculo, las probabilidades de la distribucin de Pois-
son aparecen tabuladas para distintos valores de . En la tabla 3.6 se recoge la funcin
de probabilidad de esta distribucin.
Por lo que se reere a las caractersticas de este modelo, su rasgo ms destacado es
la coincidencia de esperanza y varianza con el valor del parmetro .
Dado que es un parmetro determinante del modelo de Poisson, cabra pregun-
tarse cmo se llega a conocer su valor en la prctica. La respuesta es la informacin
pasada, ya que -asumidos los supuestos de estabilidad del proceso- el promedio de xi-
tos que se han producido en un intervalo de determinada amplitud permite conocer
la esperanza de la variable.
La esperanza y la varianza pueden ser obtenidas a partir de la funcin generatriz de momentos,
que en esta distribucin viene dada por la expresin M
X
(t) = e
(e
t
1)
que se obtiene como sigue:
M
X
(t) =
k=0
e
tk
e
k
k!
= e
k=0
e
tk
k
k!
= e
k=0
_
e
t
_
k
k!
= e
e
e
t
= e
(e
t
1)
3.6.2. Tiempos de espera: modelo exponencial
En el apartado anterior hemos visto algunos ejemplos de magnitudes discretas que
podra describirse segn un modelo de Poisson (errores tipogrcos, llamadas equivo-
cadas, fallos de un equipo informtico...). Si en cambio estudisemos el tiempo que
transcurre hasta que se produce el siguiente error o fallo, la variable -aunque relacio-
nada en cierto modo con la anterior- sera continua.
Este nuevo planteamiento resulta habitual en el mbito econmico-empresarial, en
el que frecuentemente interesa conocer el perodo de tiempo necesario hasta que se pre-
senta determinado acontecimiento: aprobacin de presupuestos, salida de una empresa
a bolsa, contratacin de un trabajador, ....
Estas magnitudes aleatorias se adaptan a un modelo continuo denominado expo-
nencial cuya funcin de densidad es decreciente como indica la gura 3.14
105
Tabla 3.6.: Modelo de Poisson. Funcin de probabilidad
\x 0 1 2 3 4 5 6 7 8 9
0, 1 0, 9048 0, 0905 0, 0045 0, 0002
0, 2 0, 8187 0, 1637 0, 0164 0, 0011 0, 0001
0, 3 0, 7408 0, 2222 0, 0333 0, 0033 0, 0003
0, 4 0, 6703 0, 2681 0, 0536 0, 0072 0, 0007 0, 0001
0, 5 0, 6065 0, 3033 0, 0758 0, 0126 0, 0016 0, 0002
0, 6 0, 5488 0, 3293 0, 0988 0, 0198 0, 0030 0, 0004
0, 7 0, 4966 0, 3476 0, 1217 0, 0284 0, 0050 0, 0007 0, 0001
0, 8 0, 4493 0, 3595 0, 1438 0, 0383 0, 0077 0, 0012 0, 0002
0, 9 0, 4066 0, 3659 0, 1647 0, 0494 0, 0111 0, 0020 0, 0003
1 0, 3679 0, 3679 0, 1839 0, 0613 0, 0153 0, 0031 0, 0005 0, 0001
1, 1 0, 3329 0, 3662 0, 2014 0, 0738 0, 0203 0, 0045 0, 0008 0, 0001
1, 2 0, 3012 0, 3614 0, 2169 0, 0867 0, 0260 0, 0062 0, 0012 0, 0002
1, 3 0, 2725 0, 3543 0, 2303 0, 0998 0, 0324 0, 0084 0, 0018 0, 0003 0, 0001
1, 4 0, 2466 0, 3452 0, 2417 0, 1128 0, 0395 0, 0111 0, 0026 0, 0005 0, 0001
1, 5 0, 2231 0, 3347 0, 2510 0, 1255 0, 0471 0, 0141 0, 0035 0, 0008 0, 0001
1, 6 0, 2019 0, 3230 0, 2584 0, 1378 0, 0551 0, 0176 0, 0047 0, 0011 0, 0002
1, 7 0, 1827 0, 3106 0, 2640 0, 1496 0, 0636 0, 0216 0, 0061 0, 0015 0, 0003 0, 0001
1, 8 0, 1653 0, 2975 0, 2678 0, 1607 0, 0723 0, 0260 0, 0078 0, 0020 0, 0005 0, 0001
1, 9 0, 1496 0, 2842 0, 2700 0, 1710 0, 0812 0, 0309 0, 0098 0, 0027 0, 0006 0, 0001
2 0, 1353 0, 2707 0, 2707 0, 1804 0, 0902 0, 0361 0, 0120 0, 0034 0, 0009 0, 0002
2, 1 0, 1225 0, 2572 0, 2700 0, 1890 0, 0992 0, 0417 0, 0146 0, 0044 0, 0011 0, 0003
2, 2 0, 1108 0, 2438 0, 2681 0, 1966 0, 1082 0, 0476 0, 0174 0, 0055 0, 0015 0, 0004
2, 3 0, 1003 0, 2306 0, 2652 0, 2033 0, 1169 0, 0538 0, 0206 0, 0068 0, 0019 0, 0005
2, 4 0, 0907 0, 2177 0, 2613 0, 2090 0, 1254 0, 0602 0, 0241 0, 0083 0, 0025 0, 0007
2, 5 0, 0821 0, 2052 0, 2565 0, 2138 0, 1336 0, 0668 0, 0278 0, 0099 0, 0031 0, 0009
2, 6 0, 0743 0, 1931 0, 2510 0, 2176 0, 1414 0, 0735 0, 0319 0, 0118 0, 0038 0, 0011
2, 7 0, 0672 0, 1815 0, 2450 0, 2205 0, 1488 0, 0804 0, 0362 0, 0139 0, 0047 0, 0014
2, 8 0, 0608 0, 1703 0, 2384 0, 2225 0, 1557 0, 0872 0, 0407 0, 0163 0, 0057 0, 0018
2, 9 0, 0550 0, 1596 0, 2314 0, 2237 0, 1622 0, 0940 0, 0455 0, 0188 0, 0068 0, 0022
3 0, 0498 0, 1494 0, 2240 0, 2240 0, 1680 0, 1008 0, 0504 0, 0216 0, 0081 0, 0027
3, 1 0, 0450 0, 1397 0, 2165 0, 2237 0, 1733 0, 1075 0, 0555 0, 0246 0, 0095 0, 0033
3, 2 0, 0408 0, 1304 0, 2087 0, 2226 0, 1781 0, 1140 0, 0608 0, 0278 0, 0111 0, 0040
3, 3 0, 0369 0, 1217 0, 2008 0, 2209 0, 1823 0, 1203 0, 0662 0, 0312 0, 0129 0, 0047
3, 4 0, 0334 0, 1135 0, 1929 0, 2186 0, 1858 0, 1264 0, 0716 0, 0348 0, 0148 0, 0056
3, 6 0, 0273 0, 0984 0, 1771 0, 2125 0, 1912 0, 1377 0, 0826 0, 0425 0, 0191 0, 0076
3, 8 0, 0224 0, 0850 0, 1615 0, 2046 0, 1944 0, 1477 0, 0936 0, 0508 0, 0241 0, 0102
4 0, 0183 0, 0733 0, 1465 0, 1954 0, 1954 0, 1563 0, 1042 0, 0595 0, 0298 0, 0132
5 0, 0067 0, 0337 0, 0842 0, 1404 0, 1755 0, 1755 0, 1462 0, 1044 0, 0653 0, 0363
6 0, 0025 0, 0149 0, 0446 0, 0892 0, 1339 0, 1606 0, 1606 0, 1377 0, 1033 0, 0688
7 0, 0009 0, 0064 0, 0223 0, 0521 0, 0912 0, 1277 0, 1490 0, 1490 0, 1304 0, 1014
8 0, 0003 0, 0027 0, 0107 0, 0286 0, 0573 0, 0916 0, 1221 0, 1396 0, 1396 0, 1241
9 0, 0001 0, 0011 0, 0050 0, 0150 0, 0337 0, 0607 0, 0911 0, 1171 0, 1318 0, 1318
10 0, 0005 0, 0023 0, 0076 0, 0189 0, 0378 0, 0631 0, 0901 0, 1126 0, 1251
106
Figura 3.14.: Modelo exponencial. Funcin de densidad
Denicin 3.10. Dada una variable aleatoria X se dice que se distribuye segn un
modelo exponencial de parmetro cuando su funcin de densidad viene dada por:
f(x) = e
x
; x > 0, > 0
La probabilidad acumulada para este modelo viene dada por la funcin de distri-
bucin F(x) = 1 e
x
.
Las principales caractersticas del modelo exponencial vienen expresadas en funcin
del parmetro . As se tiene una esperanza =
1
, que permite interpretar como

la inversa del tiempo medio de espera hasta la aparicin de un suceso.
Por lo que respecta a la dispersin se tiene
2
=
1
2
[Comprubese].
Los parmetros esperanza y varianza de este modelo exponencial guardan claras si-
militudes con los correspondientes a la distribucin geomtrica, que es la "traduccin"
al caso discreto del modelo exponencial. La funcin generatriz de momentos por su
parte viene dada por la expresin:
M
X
(t) =
_
1
t
_
1
=

t
El modelo exponencial presenta dos caractersticas destacables. La primera es que se trata de
una distribucin sin memoria, esto es, la probabilidad de que no se produzca un suceso durante
un intervalo es independiente de que haya tenido lugar antes. Este rasgo se expresa como: P(X >
k +m/X > m) = P(X > k) donde k y m son dos nmeros reales ambos positivos.
Esta propiedad de prdida de memoria se demuestra de modo similar a la vista para el modelo
geomtrico, ya que se tiene:
P(X > k+m/X > m) =
P(X > k +m, X > m)
P(X > m)
=
P(X > k +m)
P(X > m)
=
e
(k+m)
e
m
= e
k
= P(X > k)
Adems, la distribucin exponencial aparece conectada con la de Poisson en los siguientes tr-
minos: dada una variable Y P() que recoge el nmero de veces que se presenta un suceso en
cierto intervalo, entonces el intervalo X transcurrido entre dos sucesos se distribuye segn un modelo
exponencial.
107
Si consideramos la variable Y : nmero de veces que se presenta cierto suceso por unidad de
tiempo Y P() y denimos ahora X: tiempo transcurrido hasta la primera aparicin del suceso,
entonces X ser una variable aleatoria continua para la cual podemos calcular probabilidades gracias
a su conexin con la variable Y .
En efecto, la probabilidad de que el tiempo necesario hasta la aparicin del suceso sea superior a
x coincide con la probabilidad de que en un intervalo temporal de amplitud x no se haya producido
el suceso. As pues, la variable Y
X
: nmero de veces que se presenta cierto suceso en un intervalo de
amplitud x vendr caracterizada por el parmetro x (es decir, Y
X
P(x)) y en consecuencia se
tiene: P(X > x) = P(Y
X
= 0) = e
x
.
La funcin de distribucin de X puede tambin ser obtenida como:
F(x) = P(X x) = 1 P(X > x) = 1 P(Y
X
= 0) = 1 e
x
, x > 0
El modelo exponencial puede tambin ser estudiado como caso particular (cuando p = 1) del
modelo generalizado gamma (p, a). Se trata de una distribucin continua biparamtrica que, por
resultar adecuada para la modelizacin de rentas, estudiaremos en el epgrafe siguiente.
3.6.3. Modelos de distribucin de la renta
El comportamiento de fenmenos econmicos como la renta o la riqueza resulta
difcil de describir mediante modelos probabilsticos. De hecho, a menudo se emplean
con carcter complementario varios de los modelos que analizaremos en este apartado,
o bien generalizaciones de los mismos.
La modelizacin probabilstica de las rentas resulta de gran inters para poder apro-
ximar la proporcin de rentistas incluidos en determinado estrato de rentas. Entre las
posibilidades que ofrece esta modelizacin se encuentran la realizacin de interpolacio-
nes y extrapolaciones del nmero de rentistas en determinados grupos, la estimacin
-a partir de los parmetros caractersticos del modelo- de ciertos indicadores de de-
sigualdad y pobreza, o la realizacin de simulaciones de polticas redistributivas de
renta con la consiguiente evaluacin de resultados.
Desde nales del siglo pasado las teoras estocsticas proporcionan una alternativa a los estudios
deterministas de distribucin de la renta. Los autores pioneros de estos estudios -McAlister (1879),
Pareto (1897)- abrieron una corriente de investigacin que ha alcanzado un notable desarrollo.
Supongamos que nos interesa conocer la distribucin de la renta en una poblacin. Desde una ptica
descriptiva, esta variable vendra representada por una tabla estadstica con valores x
1
, x
2
, . . . , x
k
y
sus correspondientes frecuencias n
1
, n
2
, . . . , n
k
.
Sin embargo, para conseguir una mayor operatividad en su manejo, estos datos aparecen frecuen-
temente agrupados en intervalos que representan en realidad decilas de ingresos. Este es el tipo de
informacin recogida habitualmente por las Encuestas de Presupuestos Familiares, y su representa-
cin podra ser efectuada mediante un histograma (gura 3.15).
Este histograma representa las decilas de hogares segn sus ingresos. Cada uno de los rectngulos
que componen el histograma tendra una frecuencia relativa -o proporcin de familias- del 10 %.
Sin embargo, para llegar a una descripcin ms completa de la poblacin investigada, debera-
mos analizar tambin la distribucin de ingresos dentro de las decilas. En este sentido una primera
opcin sera -reconociendo nuestras limitaciones de informacin- asumir el modelo uniforme, esto
es, considerar como vlido el histograma, donde los rectngulos construidos sobre cada una de las
108
Figura 3.15.: Histograma. Decilas de ingresos
decilas recogen un 10 % de probabilidad, repartido igualitariamente entre los hogares que componen
ese intervalo, con las consecuencias que ello conlleva.
[A modo de ejemplo cul sera la esperanza de ingresos en cada decila? resulta adecuado este
representante?]
Parece claro que el supuesto de uniformidad puede ser mejorado, buscando modelos que describan
de forma ms realista la distribucin de la renta. En concreto, las distribuciones ms habituales
en la modelizacin de rentas, ingresos y gastos son la logaritmo normal, el modelo de Pareto y la
distribucin gamma.
3.6.3.1. Distribucin logaritmo normal
Las rentas no se distribuyen habitualmente de modo simtrico, pero resulta posible
llevar a cabo una transformacin lineal de stas mediante logaritmos, apareciendo as
el modelo log-normal.
La distribucin logaritmo normal (o simplemente log-normal) aparece cuando los
logaritmos de los valores de la magnitud analizada se distribuyen normalmente, y se
describe indicando los parmetros y de la variable en logaritmos.
Consideremos una v.a Y log-normal y sea X = ln Y . Calculemos en primer lugar la f.d. de Y
F
Y
(y) = P(Y y) = P(ln Y ln y) = P(X ln y) = F
X
(ln y)
donde X sigue un modelo normal N(, ).
Para calcular la funcin de densidad de Y derivemos su f.d.:
f
Y
(y) =
dF
Y
(y)
dy
=
dF
X
(ln y)
d(ln y)
d(ln y)
dy
= f
X
(ln y)
1
y
As pues, teniendo en cuenta la expresin de f
X
, se tiene:
Denicin 3.11. Decimos que una v.a. Y sigue una distribucin log-normal, si su funcin de
densidad viene dada por la expresin:
f
Y
(y) =
1
y
2
e
1
2
(
ln y
)
2
; y > 0
109
Figura 3.16.: Modelo de Pareto. Funcin de densidad
Debemos observar que los parmetros y que aparecen en las expresiones anteriores correspon-
den al modelo normal y no al log-normal. Las caractersticas de la distribucin logaritmo normal son
las siguientes:
E(Y ) = e
+
2
2
; V ar(Y ) = e
2
_
e
2
2
e
2
_
El modelo log-normal resulta aplicable cuando numerosos factores pequeos presentan un efecto
multiplicativo. Esta ley, denominada "ley del efecto proporcional", fue introducida por McAlister
(1879), si bien es conocida habitualmente como Ley de Gibrat debido a que fue este autor quien en
su obra Les Inegalits Economiques (1931) la estudi de modo exhaustivo y la aplic como modelo
de renta.
Aunque el modelo logaritmo normal resulta adecuado para describir el comporta-
miento probabilstico de los tramos bajos de renta, suelen aparecer problemas en los
tramos altos, para los que habitualmente esta distribucin subestima las proporciones
de rentistas.
3.6.3.2. Distribucin de Pareto
En un anlisis distributivo de la renta parece deseable tener en cuenta la existen-
cia de un mnimo necesario para subsistir. Este valor (umbral que denominamos x
0
)
podra ser el gasto en alimentacin, el salario mnimo interprofesional, la subvencin
a hogares pobres,...) y como consecuencia, la distribucin de la variable podra venir
representada por una curva como la recogida en la gura, correspondiente a un modelo
de Pareto (en este caso P(X
0
= 5, = 3)).
El modelo de Pareto, introducido por este autor a nales del siglo pasado, se ha
revelado histricamente til en la descripcin de la distribucin de la renta y la riqueza.
Dicho modelo se basa en que el nmero de personas que reciben una renta superior a
cierta cantidad R es inversamente proporcional (aunque no de forma lineal) al citado
valor.
110
Esta distribucin viene caracterizada por dos parmetros: el ya comentado "nivel
mnimo" x
0
y una constante , ambos no negativos.
La funcin de densidad de este modelo y su representacin grca, denominada
curva de Pareto e ilustrada en la gura, 3.16 indican cmo a medida que aumentan
los niveles de X disminuye su densidad de probabilidad. A partir de ella es posible
obtener la proporcin de personas con renta superior a un valor dado x como
_
x
0
x
_
.
El modelo de Pareto es un caso particular de distribucin truncada, que se presenta con cierta
frecuencia en estadstica econmica.
Una distribucin truncada es aqulla elaborada a partir de otra distribucin, al darle un corte a
la altura de cierto valor de la variable aleatoria e ignorando la parte derecha o izquierda de la misma
(tambin podra considerarse un doble truncamiento e ignorar las dos bandas, quedndonos slo con
la parte central).
La ley de Pareto fue introducida por este autor a nales del siglo pasado, al estudiar la distribucin
de la renta y la riqueza. Segn su propia formulacin la distribucin de renta viene dada por: N =
A
x
,
donde N es el nmero de personas por encima de un cierto valor R, y A y son constantes.
Suponiendo que la renta x se sita por encima de un mnimo x
0
, esta ley se reduce a un trunca-
miento de la distribucin exponencial negativa en el punto ln x
0
.
Denicin 3.12. Decimos que una variable aleatoria sigue la ley de Pareto de parmetros y
x
0
, siendo >0, x
0
>0, si su funcin de densidad viene dada por:
f(x) =
_
_
_
x
0
x
+1
si x x
0
0 en otro caso
La esperanza matemtica de este modelo existir para > 1 y viene dada por la expresin:
E(X) =
x
0
1
. Por su parte, la varianza existir para todo > 2: V ar(X) =
x
2
0
( 2)( 1)
2
[Deducir las expresiones anteriores. Para la varianza puede comprobarse previamente que se cumple
E(X
2
) =
x
2
0
2
]
Esta distribucin admite una interpretacin muy sencilla por cuanto que el ratio entre su valor
esperado y la renta mnima,
E(X)
x
0
=

1
, puede ser considerado como una medida de desigualdad.
De hecho, los estudios de Wilfredo Pareto aplicando su ley empricamente a varios pases y en distintos
perodos de tiempo arrojaban resultados muy estables de , lo que llev a este autor a defender la
incapacidad de las polticas ms progresistas para reducir el nivel de desigualdad.
Debemos tener en cuenta sin embargo que la eleccin del valor mnimo condiciona el valor de .
Como consecuencia, el modelo de Pareto slo describe la distribucin de la renta -y por tanto mide
la correspondiente desigualdad- para rentas superiores a la adoptada como umbral.
El inters del modelo de Pareto en economa se justica por su validez para ajustar
distribuciones empricas, excepto en los estratos inferiores de renta. Como consecuen-
cia, esta ley se complementa muy bien con la distribucin logaritmo normal, en el
sentido de que cuando una no se ajusta bien a la distribucin de la renta, la otra
suele dar resultados satisfactorios, y, viceversa. De forma global (las dos colas) las
distribuciones de renta tambin suelen ajustarse, entre otros, a travs de modelos
Gamma.
111
Figura 3.17.: Modelo Gamma. Funciones de densidad
3.6.3.3. Distribucin Gamma
El modelo gamma es otra distribucin continua utilizada para describir la renta.
Este modelo, que depende de dos parmetros (p y a), viene representado grcamente
por una curva que suele adaptarse bien a los distintos niveles de rentas.
Denicin 3.13. Decimos que una variable aleatoria X sigue una distribucin Gamma con
parmetros p y a, que se denota por (p, a), si su funcin de densidad viene dada por:
f(x) =
_
_
_
a
p
(p)
x
p1
e
ax
si x > 0
0 en otro caso
Los parmetros caractersticos del modelo gamma p y a adoptan siempre valores positivos y
recogen caractersticas de forma y escala respectivamente. En consecuencia, cambios en el parmetro
p alteran el perl o forma grca del modelo, mientras que el parmetro a viene relacionado con la
unidad de medida de la variable tal y como muestra la gura 3.17.
Un caso particular de esta distribucin es la expresin correspondiente a p = 1, modelo que recibe
la denominacin de exponencial de parmetro a y ha sido estudiado anteriormente.
Por lo que se reere a las caractersticas de la distribucin gamma, su valor esperado viene dado
por E(X) =
p
a
y su varianza es V ar(X) =
p
a
2
.
La distribucin gamma es una contribucin de L. Euler (1707-1783) pero fue O. Ammon (1895) el
primero en proponerla como modelo descriptivo de la distribucin de la renta.
Otras aplicaciones de este modelo se deben a March (1898), Salem y Mount (1974) y Bartels
(1977). Existen adems generalizaciones de la distribucin gamma como la propuesta por Amoroso
(1924) y varios modelos probabilsticos conectados con ste.
112
Con el objetivo de aumentar la capacidad descriptiva de los modelos, algunos au-
tores han introducido nuevas distribuciones probabilsticas de la renta. Entre ellas se
encuentran la de Singh-Maddala (1976) que se obtiene como caso particular de una
generalizacin de la familia beta, y la de Dagum (1977) que ha mostrado una buena
adaptacin a las distribuciones de renta tanto en pases desarrollados como en otros
en vas de desarrollo. No obstante, algunos de los modelos ms recientes que se han
revelado como muy adecuados para la descripcin de la renta presentan expresiones
muy complejas en las que intervienen varios parmetros que no resultan sencillos de
estimar.
Todas estas distribuciones persiguen una descripcin adecuada del comportamiento
probabilstico de las rentas. Adems, es interesante sealar que los parmetros caracte-
rsticos de estos modelos aparecern conectados con los indicadores de la desigualdad
de renta.
Sin entrar aqu en un anlisis detallado de la desigualdad, presentamos a modo de resumen las
expresiones que adoptan la medida clsica de Gini-Lorenz y el ndice de desigualdad colectiva bajo
los modelos probabilsticos ms habituales para las rentas: Pareto, Log-normal y Gamma.
ndice Pareto Log-normal Gamma
Indice Gini-Lorenz
1
2 1
2F
N(0,1)
_

2
_
1
_
+
1
2
_
( + 1)
Desigualdad colectiva
1
2
1
e
V ar(X)
1
1
1
Si la renta es una variable aleatoria X cuya funcin de densidad de probabilidad es f(x), los
indicadores de desigualdad anteriores vienen dados por las expresiones siguientes:
Indice de Gini-Lorenz: L(X) = 1 2
+
0
F
1
(x)f(x)dx, donde F
1
(x) =
1
+
0
f(t)dt
Indice de desigualdad colectiva: D(X) =
+
0
_
x
1
_
f(x)dx
113
4. Vectores aleatorios y distribuciones
de agregados
La realidad socioeconmica es compleja y de ah la necesidad de introducir los con-
ceptos y expresiones que permitan un tratamiento simultneo de k variables aleatorias.
Supongamos a modo de ejemplo que estamos interesados en conocer la probabilidad
de que los benecios de un centro comercial al nalizar este ao superen a los del
anterior. Lgicamente, este suceso aparecer relacionado con el comportamiento de
numerosas variables como el nivel de precios, la renta familiar disponible, las campaas
publicitarias, la competencia de otros centros comerciales cercanos, .... As pues, la
variable X, benecios netos aparecera relacionada con otro conjunto de variables
Y , Z, W, ... con lo cual una probabilidad referida a X (por ejemplo, que los benecios
superen los 2.000 euros) podra ser planteada en los siguientes trminos:
P(X > 2.000) = P(Y 0, 12, Z 15.000, ....)
y para poder determinar la probabilidad pedida sera necesario conocer la distribucin
conjunta de ese vector de variables aleatorias.
Adems, al realizar nuestro anlisis podramos tambin tener en cuenta que los
benecios totales del centro comercial son resultado de agregar los benecios de cada
uno de los establecimientos que lo integran, esto es, X =
i
X
i
. Evidentemente, los
distintos establecimientos podran registrar evoluciones dispares, pero si su nmero
es elevado, un comportamiento anmalo en uno de ellos no afectar demasiado al
agregado (esta desviacin podra verse compensada por otras de sentido contrario).
Como consecuencia, resultar posible efectuar armaciones relativas al total ignorando
cada uno de los sumandos, ya que este benecio agregado tendr un comportamiento
normal.
La consideracin de vectores aleatorios integrados por k variables aleatorias permite
abordar el estudio exhaustivo (marginal o condicionado) de una de ellas, resultando
perfectamente aplicables los contenidos de captulos anteriores. Sin embargo, nos in-
teresarn preferentemente los anlisis conjuntos, que permitirn conocer el modo en
el que las variables se relacionan, si son o no independientes, ....
Al igual que suceda para el estudio individualizado de variables aleatorias, existen
innitas distribuciones de probabilidad k-dimensionales. De entre ellas, podemos des-
tacar ciertos modelos probabilsticos habituales para describir fenmenos econmicos
que resultan de generalizar al caso k-dimensional los modelos conocidos: as, la genera-
lizacin del modelo binomial conducir a la distribucin de probabilidad multinomial
y la extensin del hipergeomtrico a la distribucin multihipergeomtrica. De forma
114
4. Vectores aleatorios y distribuciones de agregados
similar, introduciremos los modelos de Poisson multivariante y normal multivariante,
resultado de generalizar al caso k-dimensional las distribuciones de Poisson y normal
respectivamente.
Por otra parte, en el mbito econmico son numerosos los ejemplos de magnitudes
aleatorias que se obtienen como resultado de la actuacin conjunta de diversas causas.
En estas situaciones -por ejemplo, los benecios globales de los establecimientos del
centro comercial, la produccin nal del sector industrial, la demanda agregada de
un producto agrcola- el estudio se centra a menudo en el efecto nal, para el cual es
posible garantizar -bajo ciertos supuestos- una distribucin aproximadamente normal.
4.1. Vectores aleatorios. Distribuciones k-dimensionales
La formalizacin del estudio de vectores aleatorios k-dimensionales permite ampliar
el anlisis de fenmenos aleatorios. Sin nimo de llevar a cabo un estudio exhaustivo
de las distribuciones k-dimensionales, dedicamos este epgrafe a recoger las principales
deniciones y conceptos asociados al estudio de vectores aleatorios.
Centrndonos en el caso bidimensional, si investigamos conjuntamente dos caracte-
rsticas aleatorias X e Y , podemos disponer la informacin relativa a ambas variables
mediante una tabla como la representada a continuacin, en la que aparecen las pro-
babilidades asociadas a los pares (x
i
, y
j
).
Y/X x
1
x
2
x
k
p
j
y
1
p
11
p
21
p
k1
p
1
y
2
p
12
p
22
p
k2
p
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
y
h
p
1h
p
2h
p
kh
p
h
p
i
p
1
p
2
p
k
p
= 1
4.1.1. Variable aleatoria bidimensional
Denicin 4.1. Dadas dos v.a. unidimensionales X e Y denidas sobre el mismo
espacio de probabilidad (E, /, P), se denomina variable aleatoria bidimensional, que
denotamos por el par (X, Y ), a la observacin conjunta de dos variables:
(X, Y ) : w E (X(w), Y (w)) 1
2
De una manera ms formalizada, si X e Y son dos v.a. denidas sobre el mismo espacio de pro-
babilidad (E, A, P), y denotamos por
2
la -lgebra de Borel sobre
2
, construida con todas las
uniones, intersecciones, complementarios, ... de rectngulos de
2
, denimos una variable aleatoria
bidimensional (X, Y ) como una aplicacin:
(X, Y ) : w E (X(w), Y (w))
2
tal que la imagen inversa de cualquier boreliano de B
2
sea un elemento de la -lgebra A.
115
En este caso se dene la probabilidad inducida como una aplicacin: P
: B
2
P
(B) =
P
_
(X, Y )
1
(B)
_

La -lgebra de Borel
2
est generada por rectngulos de la forma (, x] (, y] (todo ele-
mento B puede ser expresado mediante operaciones de los rectngulos anteriores); si denotamos
por [X x, Y y] = {w E/ < X(w) x, < Y (w) y}, para comprobar que la
variable bidimensional (X, Y ) es aleatoria basta comprobar que para todo (x, y)
2
, se verica:
[X x, Y y] = {w E/X(w) x, Y (w) y} A.
De la misma forma, la probabilidad inducida puede establecerse como: P
[(, x] (, y]] =
P(X x, Y y).
Decimos que una v.a. bidimensional (X, Y ) es discreta si las variables X e Y que la integran son
discretas. De igual manera diremos que es continua si sus componentes lo son.
En esta clasicacin de las v.a. bidimensionales, la denicin dada para variables continuas (que lo
sean sus componentes) es en realidad una condicin necesaria pero no suciente; pueden encontrarse
contraejemplos en los que tanto X como Y son continuas y en cambio la variable conjunta no lo es.
4.1.1.1. Funcin de distribucin bidimensional
Denicin 4.2. Dada una v.a. bidimensional (X, Y ) denimos la funcin de distri-
bucin conjunta asociada a esta variable como:
F : (x, y) 1
2
F(x, y) = P(X x, Y y) [0, 1]
Esta funcin cumple las propiedades exigidas a las f.d.. Su representacin grca
tendra forma de un estereograma escalonado en el espacio para variables discretas
(con puntos de salto en los pares (x
i
, y
j
)) y sera una supercie continua para variables
continuas.
A partir de la funcin de distribucin bidimensional podemos calcular la probabili-
dad de cualquier rectngulo (a, b] (c, d], mediante la expresin:
P(a < X b, c < Y d) = F(b, d) F(a, d) F(b, c) +F(a, c)
4.1.1.2. Funcin de probabilidad bidimensional
Dada una v.a. bidimensional discreta, sta podr tomar un conjunto numerable de
valores (x
i
, y
j
), i, j = 1, 2, . . . . Como caso particular de la expresin anterior podemos
obtener la probabilidad conjunta de cada par de valores a partir de la funcin de
distribucin como:
P(X = x
i
, Y = y
j
) = F(x
i
, y
j
) F(x
i
, y
j1
) F(x
i1
, y
j
) +F(x
i1
, y
j1
) = p
ij
Denicin. Podemos denir la funcin de probabilidad conjunta de una v.a. bidi-
mensional (X, Y ) como aqulla que asigna a cada posible resultado (x
i
, y
j
) una masa
de probabilidad que verica: p
ij
0, y
ij
p
ij
= 1.
116
A partir de la funcin de probabilidad es posible obtener la f.d. en un punto (x
i
, y
j
),
como suma de las probabilidades de todos los pares con coordenadas no superiores al
punto considerado; esto es:
F(x
i
, y
j
) =
i
1
i
j
1
j
p
i
1
j
1
4.1.1.3. Funcin de densidad bidimensional
Si consideramos dos variables aleatorias continuas, podemos utilizar el mismo ra-
zonamiento anterior partiendo de una agrupacin por intervalos de estas variables;
pero este mtodo perdera validez si plantesemos el problema a partir de valores
individuales [por qu?].
Denicin. Dada una v.a. bidimensional continua (X, Y ), si existe una funcin
f(x, y), tal que:
f(x, y) =

2
F(x, y)
xy
la denominaremos funcin de densidad bidimensional (o conjunta) de X e Y .
Obsrvese que para que exista la funcin de densidad de una v.a. bidimensional continua es nece-
sario que exista la derivada parcial de segundo orden respecto a x e y.
A modo de operacin inversa, podemos obtener la funcin de distribucin conjunta
a partir de la de densidad como:
F(x, y) =
f(x, y)dxdy
Por otra parte, a partir de la f.d. F(x, y), podemos calcular la probabilidad de
cualquier rectngulo (a, b] (c, d], mediante la expresin:
P(a < X b, c < Y d) =
b
a
d
c
f(x, y)dxdy
La probabilidad de que una v.a. se encuentre en un intervalo representa el rea
en ese intervalo por debajo de la funcin de densidad. En el caso bidimensional, la
probabilidad de encontrarse en un rectngulo (a, b] (c, d], ser el volumen que sobre
el mismo establece la funcin de densidad conjunta.
As pues, podemos denir la funcin de densidad conjunta f(x, y), si existe, como
una aplicacin f : (x, y) 1
2
1
+
, tal que:
117
Figura 4.1.: Funcin de densidad bidimensional
f(x, y)dxdy = 1 y
P(a < X b, c < Y d) =
b
a
d
c
f(x, y)dxdy
Las condiciones de existencia de la funcin de densidad bidimensional son equivalentes a las co-
mentadas para el caso unidimensional con la extensin lgica de una a dos variables.
Las variables continuas que utilizaremos en este libro son absolutamente continuas por lo que
identicaremos ambos trminos, en un abuso de lenguaje, y por tanto consideraremos que dada una
v.a. bidimensional continua, su funcin de densidad siempre existe.
4.1.1.4. Vectores aleatorios k-dimensionales
Habitualmente nos interesar recoger ms de dos caractersticas de los elemen-
tos de la poblacin. Podemos extender entonces los conceptos anteriores al caso k-
dimensional, considerando el vector aleatorio (X
1
, X
2
, . . . , X
k
).
Supongamos que cada componente del vector anterior es una v.a., en cuyo caso se dice que se trata
de un vector aleatorio, y que son observadas conjuntamente para cada elemento de la poblacin, de
forma que cada elemento w proporciona un vector de informacin: (X
1
(w), X
2
(w), . . . , X
k
(w)); esto
es, la variable aleatoria k-dimensional puede entenderse como:
(X
1
, X
2
, . . . , X
k
) : w E (X
1
(w), X
2
(w), . . . , X
k
(w))
k
Denida una -lgebra de Borel sobre
k
, generada por cubos k-dimensionales de la forma
(, x
1
] (, x
2
] (, x
k
], la probabilidad inducida nos permite establecer una funcin
de distribucin k-dimensional F(x
1
, x
2,
. . . , x
k
):
F : (x
1
, x
2
, . . . , x
k
)
k
F(x
1
, x
2
, . . . , x
k
) [0, 1]
118
Consideraremos una v.a. k-dimensional discreta o continua cuando lo sean sus componentes.
Dada una v.a. k-dimensional discreta (X
1
, X
2
, . . . , X
k
), denimos la funcin de probabilidad k-
dimensional como aquella que a cada posible valor de la variable, (x
1
, x
2
, . . . , x
k
), le asigna una masa
de probabilidad, que verica:
p
i
1
,i
2
,...,i
k
= P(x
i
1
, x
i
2
, . . . , x
i
k
) = P(X
1
= x
i
1
, X
2
= x
i
2
, . . . , X
k
= x
i
k
)
p
i
1
,i
2
,...,i
k
0 y
+
i
1
=0
+
i
2
=0

+
i
k
=0
p
i
1
i
2
i
k
= 1
La funcin de distribucin se puede obtener mediante agregacin de la funcin de probabilidad y
sta por diferencias de la funcin de distribucin.
Para el caso de una v.a. k-dimensional continua (X
1
, X
2
, . . . , X
k
) , denimos la funcin de densidad
como una aplicacin f de
k
en , que cumple: f(x
1
, x
2
, . . . , x
k
) 0,

+
f(x
1
, x
2
, . . . , x
k
)dx
1
dx
2
dx
k
=
1 y P(a
1
< X
1
b
1
, a
2
< X
2
b
2
, . . . , a
k
< X
k
b
k
) =
b
1
a
1
b
2
a
2

b
k
a
k
f(x
1
, x
2
, . . . , x
k
)dx
1
dx
2
dx
k
Podemos obtener la funcin de distribucin a partir de la de densidad como una integral mltiple
de sta, y de forma inversa, la densidad conjunta se obtiene a partir de la funcin de distribucin
como la derivada parcial de orden k respecto a sus componentes x
1
, x
2
, . . . , x
k
.
4.2. Distribuciones marginales y condicionadas
Una variable aleatoria bidimensional (X, Y ) es un vector formado por dos v.a. uni-
dimensionales. Abordamos en este epgrafe la caracterizacin probabilstica de cada
una de estas componentes considerando un comportamiento libre de la otra variable
o bien exigindole determinada condicin.
Cuando imponemos alguna restriccin al rango de la segunda variable nos encon-
traremos con distribuciones condicionadas, mientras que en caso contrario hablaremos
de distribuciones marginales.
4.2.1. Distribuciones marginales
Para introducir el concepto de marginalidad consideremos una variable estadstica
bidimensional genrica (X, Y ) que representamos por la siguiente tabla:
Y/X 2 4 8 f
.j
1 0,1 0,2 0,1 0,4
2 0,05 0,05 0,1 0,2
3 0,1 0,1 0,2 0,4
f
i
0,25 0,35 0,4 1
Si nos preguntamos por la frecuencia relativa con la que la variable X toma el va-
lor 4 independientemente del comportamiento de la variable Y , la respuesta es 0,35,
resultado obtenido como suma de las frecuencias relativas de X = 4 con todas las
diferentes alternativas de la variable Y . Pues bien, podemos extender este concepto
119
de forma inmediata a las variables aleatorias.
Dada una v.a. bidimensional (X, Y ), denominamos distribucin marginal de X a la distribucin
de probabilidad de la v.a. X cuando consideramos un comportamiento libre de Y . Esto es, denotando
por F
X
(x) a su funcin de distribucin, se tiene:
F
X
(x) = P(X x) = P(X x, Y < +) = lim
y+
F(x, y)
Distinguiendo para variables discretas y continuas, se obtiene:
F
X
(x
i
) = lim
y+
F(x
i
, y) =
hi
+
j=1
p
hj
F
X
(x) = lim
y+
F(x, y) =
_
+
f(x, y)dy
_
dx
A partir de la funcin de distribucin obtenemos las funciones de probabilidad o de densidad mediante
la diferencia o la derivada de la primera, obteniendo en cada caso la expresin que gura entre
parntesis ; es decir:
p
X
(x
i
) = F
X
(x
i
) F
X
(x
i1
) =
+
j=1
p
ij
f
X
(x) = F
X
(x) =
f(x, y)dy
Denicin 4.3. Si (X, Y ) es una v.a. bidimensional discreta denimos la funcin de
probabilidad marginal de X como:
p
X
(x) =
+
j=1
p
ij
Si la variable es continua, denimos la funcin de densidad marginal de X, que
denotamos por f
X
(x), como:
f
X
(x) =
f(x, y)dy
Si ahora consideramos la tabla inicial como una distribucin probabilstica bidimen-
sional donde aparecen los valores que pueden adoptar las variables X e Y y las proba-
bilidades p
ij
con las que pueden asumir conjuntamente los valores (x
i
, y
j
), podemos
obtener la probabilidad marginal p
X
(4) = 0, 2 + 0, 05 + 0, 1 = 0, 35.
Razonando de modo similar para los restantes valores de X se llega a la distribucin
marginal recogida a continuacin:
X p
X
(x)
2 0,25
4 0,35
8 0,4
120
Figura 4.2.: Campo de variacin bidimensional
[Comprobar que se trata de una verdadera distribucin de probabilidad. Cul sera
la distribucin marginal de la variable Y ?]
El caso continuo incorpora algunos rasgos diferenciales, que podemos examinar a travs de una
ilustracin. Consideremos un reciente estudio sobre los mrgenes comerciales del sector de electrodo-
msticos, en el que se observaron conjuntamente los precios de venta (X) y su coste (Y ), ambos en
miles de unidades monetarias, obtenindose la siguiente funcin de densidad:
f(x, y) =
_
_
_
200
x
2
y
2
si 10 < y < x
0 en otro caso
cuyo campo de variacin -representado en la gura 4.2- supone que el precio de venta tie-
ne que ser mayor que su coste (y < x). [Comprubese que f(x, y) es no negativa y se cumple
f(x, y)dxdy = 1].

Si ahora queremos obtener la distribucin marginal del precio de venta, podemos utilizar las
expresiones anteriormente vistas para f
X
(x):
f
X
(x) =
f(x, y)dy =
x
10
200
x
2
y
2
dy =
200
x
2
_
1
y
_
x
10
=
20
x
2

200
x
3
, x > 10
[Obtener de modo similar la distribucin marginal del coste f
Y
(y)]
Podemos comprobar que las funciones de probabilidad y de densidad marginales verican los
requisitos exigidos a estas expresiones; esto es, que son funciones no negativas cuya suma o integral
es la unidad.
En el caso de la funcin de densidad marginal tendramos que es un valor no negativo puesto que a
cada punto le asigna el rea de la seccin determinada por la supercie f(x, y) con un plano paralelo
al eje de la variable que marginamos, y como tal rea no puede adoptar valores negativos.
En segundo lugar tendramos que comprobar que

+
f
X
(x)dx = 1 (en el caso que se tratase de
la marginal de X). En efecto:
f
X
(x)dx =
f(x, y)dxdy = 1
obtenindose la ltima igualdad por serf(x, y) una funcin de densidad.
[Comprobar que la funcin de probabilidad marginal p
X
(x) verica las condiciones de no negati-
vidad y suma unitaria]
121
La funcin de distribucin marginal F
X
(x), puede obtenerse a partir de las correspondientes fun-
ciones de probabilidad o de densidad, segn se trate de v.a. discretas o continuas, mediante suma o
integracin de las mismas:
F
X
(x) =
x
i
[x]
p
X
(x
i
) =
x
i
[x]
j=1
p(x
i
, y
j
)
F
X
(x) =
f
X
(x)dx =
f(x, y)dxdy
Las expresiones de clculo de las probabilidades de intervalos, [a < X b], de valores [X = x
i
]
o la obtencin de la funcin de densidad marginal a partir de la funcin de distribucin son igua-
les que en el caso unidimensional, teniendo en cuenta que ahora se trata de una distribucin marginal.
Caractersticas marginales y medidas de correlacin
Dado que las distribuciones marginales son variables unidimensionales es posible
denir las caractersticas marginales asociadas a las mismas. En el caso continuo, la
esperanza y la varianza marginal de X vendran dadas por las siguientes expresiones:
E(X) =
xf(x, y)dxdy =
x
_
f(x, y)dy
. .
=f
X
(x)
_
_
dx =
=
xf
X
(x)dx =
X
2
X
= E(X
X
)
2
=
(x
X
)
2
f(x, y)dxdy =
=
(x
X
)
2
_
f(x, y)dy
. .
=f
X
(x)
_
_
dx =
(x
X
)
2
f
X
(x)dx
[Cmo se expresaran las caractersticas de la distribucin marginal de Y ?, cules
seran las expresiones anteriores para el caso de v.a. discretas?]
Entre las caractersticas marginales se encuentran los momentos centrados de orden
2, que se corresponden con las varianzas marginales. Nos interesan tambin otros
momentos, mixtos, de orden 1 en la variable X y 1 en la variable Y .
Denicin 4.4. Dadas dos variables aleatorias X e Y llamamos Covarianza, que
denotamos por Cov(X, Y ) o
XY
al valor de la expresin, si existe:
X,Y
= Cov(X, Y ) = E [(X
X
)(Y
Y
)]
122
Figura 4.3.: Correlacin X, Y
Sus frmulas de clculo para los casos discreto y continuo son las siguientes:
X,Y
=
i=1
j=1
(x
i
X
)(y
j
Y
)p
ij
X,Y
=
(x
X
)(y
Y
)f(x, y)dxdy
La covarianza es una medida de la correlacin lineal existente entre dos variables
aleatorias. As, si las variables X e Y presentan una relacin lineal directa, se observar
una nube de puntos como la representada en la parte izquierda de la gura 4.3, esto
es, distribuida a lo largo de los cuadrantes I y III.
En tal situacin, se observa que las desviaciones (X
X
) > 0 aparecen asociadas
a (Y
Y
) > 0 y del mismo modo las desviaciones (X
X
) < 0 se presentan con
(Y
Y
) < 0. Ambas posibilidades dan como resultado productos positivos por lo
cual la covarianza presentar signo positivo.
Razonando de modo similar para el caso de relacin lineal negativa, se observaran
desviaciones negativas para una de las variables junto a desviaciones positivas para
la otra (que se agruparan en los cuadrantes II y IV, tal y como recoge la grca
representada a la derecha).
Puede observarse que la expresin de la covarianza es simtrica y por tanto la
covarianza de X con Y es igual a la obtenida de Y con X.
Proposicin. La covarianza de una variable sobre s misma coincide con la varianza marginal:
X,X
=
2
X
= E [(X
X
)(X
X
)] = E (X
X
)
2
Al igual que la varianza, la covarianza admite una expresin de clculo ms simple. En concreto,
la covarianza puede obtenerse como diferencia entre la esperanza del producto y el producto de las
esperanzas marginales:
123
X,Y
= E(XY ) E(X)E(Y )
[Comprubese]
La covarianza presenta la importante limitacin de no encontrarse acotada; el valor resultante de
la covarianza nos permitir establecer el tipo de dependencia lineal (nula, directa o inversa), pero no
as el nivel de la relacin. Este inconveniente motiva la utilizacin del coeciente de correlacin lineal
denido como cociente entre la covarianza y las desviaciones tpicas de las variables:
X,Y
=

X,Y
Y
expresin que se encuentra acotada entre -1 y 1, y resulta adecuada como medida de correlacin lineal
entre dos variables aleatorias, puesto que su valor absoluto expresa el grado de la relacin lineal.
Si consideramos el vector la aleatorio x = (X, Y ), podemos construir un vector de valores espe-
rados y matrices de varianzas-covarianzas y de correlaciones como sigue:
E(x) = E(X, Y ) = (E(X), E(Y )) = (
X
,
Y
)
Cov(x) =
_

2
X

Y,X
Y,X

2
Y
_
Corr(x) =
_
1
Y,X
Y,X
1
_
Al igual que hemos visto para las variables unidimensionales, es posible generar los momentos
bidimensionales a partir de una funcin generatriz.
La funcin generatriz de momentos de una v.a.bidimensional se dene como el valor, si existe, de
la expresin:
M
(X,Y )
(t
1
, t
2
) = E
_
e
t
1
X+t
2
Y
_
pudiendo comprobarse fcilmente a partir de esta expresin: M
X+Y
(t) = M
(X,Y )
(t, t).
Distribuciones marginales en variables k-dimensionales
Podemos extender los conceptos anteriores de distribuciones marginales y sus matrices caracters-
ticas al caso de variables k-dimensionales sin ms complejidad que la derivada de su terminologa.
En efecto, si denotamos por x un vector aleatorio con k componentes, x = (X
1
, X
2
, . . . , X
k
), la
distribucin marginal del componente X
j
, ser la distribucin unidimensional de esta variable con
independencia de lo que ocurra con los restantes componentes; esto es:
F
X
j
(x
j
) = lim
x
1
lim
x
j1
lim
x
j+1
lim
x
k
F(x
1
, . . . , x
j1
, x
j
, x
j+1
, . . . x
k
)
Para variables discretas y continuas obtenemos las funciones de probabilidad y densidad, respec-
tivamente:
P
X
j
(x
i
) =
i
1
=0

i
j1
=0
i
j+1
=0

i
k
=0
P(x
i
1
, . . . , x
i
j1
, x
i
j
, x
i
j+1
, . . . , x
i
k
)
124
f
X
j
(x
j
) =
f(x
1
, . . . , x
j
, . . . , x
k
)dx
1
dx
j1
dx
j+1
dx
k
Las distribuciones marginales son de carcter unidimensional y por tanto su funcin de distribucin se
obtiene sumando o integrando las correspondientes funciones de probabilidad o de densidad margina-
les. [A partir de una distribucin k-dimensional cuntas distribuciones marginales pueden obtenerse?]
El vector de esperanzas y las matrices de covarianzas y correlaciones vienen en este caso dados
por:
= E(x) = E(X
1
, X
2
, . . . , X
k
) = (E(X
1
), E(X
2
), . . . , E(X
k
)) = (
1
,
2
, . . . ,
k
)
Cov(x) =
_
_
_
_
_
2
1

12

1k
21

2
2
. . .
2k
.
.
.
.
.
.
.
.
.
.
.
.
k1

k2
. . .
2
k
_
_
Corr(x) =
_
_
_
_
_
1
12

1k
21
1 . . .
2k
.
.
.
.
.
.
.
.
.
.
.
.
k1

k2
. . . 1
_
_
La funcin generatriz de momentos de una v.a. k-dimensional se dene como el valor, si existe, de
la expresin:
M
(X
1
,X
2
,...,X
k
)
(t
1
, t
2
, . . . , t
k
) = E
_
e
t
1
X
1
+t
2
X
2
++t
k
X
k
_
A partir de la denicin anterior es inmediato comprobar:
M
k
i=1
X
i
(t) = M
(X
1
,X
2
,...,X
k
)
(t, t, . . . , t)
4.2.2. Distribuciones condicionadas
Otras distribuciones interesantes que se derivan de la observacin conjunta de va-
riables aleatorias son las distribuciones condicionadas.
Supongamos en primer lugar un vector bidimensional (X, Y ). En el anlisis marginal
buscbamos la distribucin de una variable con independencia del comportamiento de
la otra; abordamos ahora un planteamiento complementario: la distribucin de una
variable cuando la otra adopta un comportamiento determinado; esto es, por ejemplo,
la distribucin de Y cuando X toma cierto valor x, un conjunto B de posibles valores
o cualquier valor no superior a x.
Consideremos este ltimo caso, analizando la distribucin de Y cuando X adopta
valores no superiores a x. Si denotamos por Y/X x esta variable condicionada, su
recorrido es idntico al de Y , cambiando nicamente la distribucin de probabilidad
125
asociada a la misma.
Dada una v.a. bidimensional (X, Y ), con funcin de distribucin conjunta F(x, y), denimos la
funcin de distribucin de Y condicionada a X x, como la aplicacin:
F
Y/Xx
(./X x) : y F(y/X x) = P(Y y/X x) =
P(X x, Y y)
P(X x)
=
F(x, y)
F
X
(x)
[0, 1]
En lugar de condicionar al intervalo (, x] podramos hacerlo a cualquier otro conjunto B de
posibles resultados o incluso a un nico valor x. Cuando la restriccin se limita a un nico valor
pueden surgir algunos problemas, puesto que para variables continuas es nula la probabilidad de un
punto concreto (que aparecera en el denominador) por lo que no podramos determinar la expresin
de F
Y/X=x
.
No obstante, estos problemas pueden resolverse sustituyendo el valor por un intervalo innitesimal
y tomando lmites cuando la amplitud de ste tiende a cero.
Como en casos anteriores, podemos pasar de la funcin de distribucin a la funcin de probabilidad
o de densidad, segn se trate de variables discretas o continuas, calculando la diferencia o la derivada
de la funcin de distribucin.
Denicin 4.5. Dada una v.a. bidimensional discreta (X, Y ) y un resultado [X = x
i
]
de probabilidad no nula, denimos la funcin de probabilidad condicionada como:
P(Y = y
j
/X = x
i
) =
P(x
i
, y
j
)
P
X
(x
i
)
=
P(x
i
, y
j
)
j=1
P(x
i
, y
j
)
De forma similar, para variables aleatorias continuas, podemos denir la funcin de
densidad condicionada a un valor x como:
f(y/x) =
f(x, y)
f
X
(x)
=
f(x, y)
f(x, y)dy
expresin que permite asignar a cada valor de Y su densidad de probabilidad condi-
cionada, siempre que se cumpla f
X
(x) > 0.
A modo de ilustracin, consideremos que en el ejemplo anterior nos piden la distri-
bucin de Y condicionada a que X tome el valor 4. La probabilidad marginal de que
se haya presentado el valor X = 4 es 0,35 como ya vimos en un apartado anterior,
y los valores que puede presentar la variable condicionada Y/X = 4 son {1,2,3} (es
decir, el mismo recorrido que la variable marginal Y ). La probabilidad del valor Y = 1
condicionado a X = 4 vendr dada por:
P(Y = 1/X = 4) =
P(X = 4, Y = 1)
P(X = 4)
=
0, 2
0, 35
= 0, 5714
y de modo anlogo se obtiene P(Y = 2/X = 4) = 0, 1429 y P(Y = 3/X = 4) =
0, 2857.
126
Las expresiones anteriores cumplen las condiciones exigidas a las funciones de probabilidad y de
densidad. En efecto, dada la variable bidimensional continua (X, Y ), la densidad de Y condicionada
a X = x es una funcin:
f(./x) : y f(y/x)
Segn la denicin anterior esta funcin f(y/x) ser no negativa, al obtenerse como cociente entre
un valor de la funcin de densidad conjunta y un rea, ambos no negativos.
Por otra parte, se tiene:
f(y/x)dy =
_
f(x, y)
f(x, y)dy
_
dy =
f(x, y)dy
f(x, y)dy
= 1
[Justicar que en el caso discreto, la probabilidad condicionada es una funcin de probabilidad].
[Denir las funciones de densidad y probabilidad de X condicionada a un valor Y = y]
* La funcin de distribucin condicionada F
Y/X=x
(y) = P(Y y/X = x), presenta las siguientes
frmulas de clculo:
F(y/X = x
i
) =
y
j
<[y]
P(y
j
/x
i
) =
y
j
<[y]
P(x
i
, y
j
)
j=1
P(x
i
, y
j
)
=
y
j
<|y|
P(x
i
, y
j
)
j=1
P(x
i
, y
j
)
F(y/X = x) =
f(t/x)dt =
f(x, t)
f(x, y)dy
dt
A modo de ejemplo, a partir de la distribucin bidimensional recogida en la tabla inicial, se obtendra
la siguiente funcin de distribucin para la variable Y condicionada al valor X = 4:
F(y/X = 4) =
_
_
0 para y < 1
0, 2857 para 1 y < 2
0, 4286 para 2 y < 3
1 para 3 y
[Obtener de modo similar la funcin de distribucin F(x/Y = 2)]
Por lo que se reere a las caractersticas de las distribuciones condicionadas, stas pueden ser
obtenidas de forma anloga al caso de las distribuciones marginales, teniendo en cuenta que ahora se
utilizar la funcin de densidad o de probabilidad condicionada.
Distribuciones condicionadas en variables k-dimensionales
Si consideramos un vector k-dimensional (X
1
, X
2
, . . . , X
k
) podemos establecer a partir de l con-
diciones muy diversas; por ejemplo: X
i
/X
j
, X
i
/X
j
X
k
, X
i
X
k
/X
j
. Puede entonces considerarse un
mayor nmero tanto de variables condicionadas como condicionantes; y en el caso de estas ltimas
las condiciones pueden ir referidas a valores determinados o bien a rangos de la variable; respetando
siempre la condicin de que la probabilidad o densidad (segn corresponda) del suceso que condiciona
sea positiva.
No contemplamos aqu la casustica posible, que se desarrolla a partir de la probabilidad condi-
cionada y sera generalizacin de las expresiones correspondientes a dos variables. [Proponemos al
lector la obtencin de algunos de estos resultados. Por ejemplo, cmo se denira la distribucin de
probabilidad de X
3
condicionada a X
1
= x
1
y X
4
= x
4
?]
127
4.3. Modelos probabilsticos k-dimensionales
4.3.1. Distribucin Multinomial
Entre los modelos unidimensionales discretos, la distribucin binomial ocupa sin
duda un papel relevante al describir el nmero de resultados favorables obtenidos en
experiencias sucesivas.
La distribucin binomial apareca asociada a una experiencia dicotmica en la que
slo distinguimos dos posibles resultados, denominados xito y fracaso. No obstante,
a menudo nos interesan experiencias que presentan ms de dos modalidades, cuya
descripcin por tanto no se adapta a dicho modelo. Este sera, por ejemplo, el caso
de un estudio del sector econmico en el que desarrolla su actividad una empresa, el
estrato de edad al que pertenece un individuo o la intencin de voto ante las prximas
elecciones.
En todas estas situaciones, existen mltiples modalidades observables en la magni-
tud objeto de estudio, por lo cual es preciso denir una variable aleatoria capaz de
cuanticar la intensidad con la que se ha presentado cada modalidad, surgiendo as el
modelo multinomial o polinomial .
Considerando uno de los ejemplos citados, supongamos que estamos interesados
en investigar la actividad econmica a la que se dedican n empresas, seleccionadas
aleatoriamente y con reposicin. Si adoptamos la clasicacin sectorial convencio-
nal: agricultura, industria, construccin y servicios, deniremos el vector aleatorio
(X
1
, X
2
, X
3
, X
4
), cuyas componentes recogen el nmero de empresas dedicadas a ca-
da una de las actividades econmicas.
Supongamos un experimento aleatorio que repetimos n veces. En cada una de estas n repeticiones
-que asumimos independientes entre s- el resultado del experimento ser uno y slo uno de los
resultados (modalidades) A
1
, A
2
, . . . , A
k
y designaremos por p
j
la probabilidad de que en una de las
realizaciones independientes ocurra A
j
, asumiendo que dichas probabilidades se mantienen constantes
en las n pruebas.
Los sucesos A
1
, A
2
. . . , A
k
constituyen una particin de E:
k
_
i=1
A
i
= E, A
i
A
j
= , i = j y se
cumple por tanto
k
i=1
p
i
= 1. Sean las variables aleatorias X
1
, X
2
, . . . , X
k
que recogen el nmero de
veces que han sido observados los sucesos A
1
, A
2,
. . . , A
k
en las n realizaciones del experimento. En-
tonces el vector aleatorio k dimensional ((X
1
, X
2
, . . . , X
k
) recibe el nombre de variable aleatoria mul-
tinomial de parmetros n, p
1
, p
2
, . . . , p
k
y se representa como (X
1
, X
2
, . . . , X
k
) M(n, p
1
, p
2
, . . . , p
k
)
La funcin de masa de probabilidad del vector aleatorio (X
1
, X
2
, . . . , X
k
) M(n, p
1
, p
2
, . . . , p
k
)
ser la siguiente:
P(X
1
= x
1
, . . . , X
k
= x
k
) =
n!
x
1
! x
k
!
p
x
1
1
p
x
k
k
; con
k
j=1
x
j
= n
Estas probabilidades son no negativas y su suma es la unidad, por lo que se cumplen las condiciones
de una funcin de probabilidad.
Justicbamos el nombre de la distribucin binomial porque sus probabilidades se correspondan
con los sumandos del binomio (p +q)
n
. Del mismo modo, en la distribucin actual las probabilidades
128
se corresponden con los sumandos correspondientes del multinomio (p
1
+p
2
+ +p
k
)
n
, hecho que
por una parte justica su nombre y por otra garantiza que la suma de la funcin de probabilidad es
precisamente (p
1
+p
2
+ +p
k
)
n
= 1
n
=1.
Por lo que se reere a las caractersticas de esta distribucin, los momentos marginales nos pro-
porcionan las medias y varianzas marginales dadas por las expresiones:
E(X
j
) = np
j
; V ar(X
j
) = np
j
(1 p
j
) ; j = 1, . . . , k
Adems, por tratarse de un modelo k dimensional nos interesa conocer las expresiones de algunas
caractersticas de correlacin entre variables unidimensionales. As la covarianza entre dos variables
X
i
y X
j
, viene dada por:
X
i
,X
j
= E [(X
i
np
i
)(X
j
np
j
)] = np
i
p
j
; i = j = 1, . . . , k
y el correspondiente coeciente de correlacin lineal:
X
i
,X
j
=
X
i,
X
j
X
i
X
j
=
np
i
p
j
_
np
i
(1 p
i
)
_
np
j
(1 p
j
)
=
_
p
i
p
j
(1 p
i
)(1 p
j
)
expresin que como vemos depende de las probabilidades de los sucesos considerados pero no del
nmero de pruebas.
En ocasiones la denicin de la distribucin multinomial se lleva a cabo excluyendo una de las cate-
goras que se adopta como referencia. Se tendra en este caso un vector k-1 dimensional (X
1
, . . . , X
k1
)
siendo

k1
j=1
x
i
n.
4.3.2. Distribucin Multihipergeomtrica
Al igual que el modelo hipergeomtrico, la distribucin multihipergeomtrica (tam-
bin llamada polihipergeomtrica) aparece asociada al muestreo sin reposicin, si bien
en este caso se observan simultneamente varias caractersticas. Se trata de una gene-
ralizacin de la distribucin hipergeomtrica similar a la que el modelo multinomial
establece del binomial.
Si en la ilustracin anterior de la actividad econmica de las empresas asumimos
ahora que el muestreo se realiza sin reposicin, la situacin podra describirse en los
siguientes trminos: partimos de una poblacin de N empresas que pertenecen a 4
sectores distintos y al seleccionar sin reposicin una muestra de n empresas investiga-
mos cuntas de ellas se adscriben a cada sector, obteniendo as una variable aleatoria
distribuida segn un modelo multihipergeomtrico.
Consideremos una poblacin de tamao N en la cual existen N
i
elementos con las caractersticas
de inters A
1
, A
2
, . . . , A
k
, que son excluyentes entre s. Al extraer de esta poblacin muestras de ta-
mao n sin reposicin, denimos el vector aleatorio (X
1
, X
2
, . . . , X
k
) donde X
i
representa el nmero
de elementos de la muestra con la caracterstica A
i
.
La funcin de masa de probabilidad de (X
1
, X
2
, . . . , X
k
) viene dada por la expresin:
P(X
1
= x
1
, X
2
= x
2
, . . . , X
k
= x
k
) =
_
N
1
x
1
__
N
2
x
2
_

_
N
k
x
k
_
_
N
n
_
129
que corresponde a una distribucin de probabilidad multihipergeomtrica de parmetros N, N
1
, N
2
, . . . , N
k
, n
y se representa (X
1
, X
2
, . . . , X
k
) MH(N, N
1
, N
2
, . . . , N
k
, n)
Las caractersticas de la distribucin multihipergeomtrica guardan relacin con las vistas para el
modelo hipergeomtrico obtenindose:
E(X
i
) = n
N
i
N
= np
i
; V ar(X
i
) = n
N
i
N
_
1
N
i
N
_

N n
N 1
= np
i
(1 p
i
)
N n
N 1
donde por p
i
representamos la proporcin de casos favorables a la categora A
i
.
Por lo que se reere a la covarianza, su expresin mantiene cierta similitud con la correspondiente
a la distribucin multinomial:
X
i
,X
j
=
nN
i
N
j
N
2
N n
N 1
= np
i
p
j
N n
N 1
; i = j = 1, 2, . . . k
y conduce al coeciente de correlacin lineal
X
i
,X
j
=
_
N
i
N N
i
N
j
N N
j
=
_
N
i
N
NN
i
N
N
j
N
NN
j
N
=
_
p
i
1 p
i
p
j
1 p
j
4.3.3. Distribucin Normal Multivariante
La distribucin normal ocupa un papel fundamental en el anlisis de datos, al
tratarse de un modelo probabilstico adecuado para la descripcin de numerosas mag-
nitudes. En el caso de que estudiemos simultneamente varias variables aleatorias, la
idea de normalidad sigue siendo vlida, extendida en este caso al mbito multivariante.
Consideremos ahora un vector columna k-dimensional x, para el cual suponemos que
existe su vector de esperanzas y su matriz de varianzas-covarianzas, que denotamos
por :
=
_
_
_
_
_
2
.
.
.
k
_
_
_
_
_
; =
_
2
1

12

1k
21

2
2
. . .
2k
.
.
.
.
.
.
.
.
.
.
.
.
k1

k2
. . .
2
k
_
_
se dice que x sigue una distribucin normal multivariante de parmetros y , que
representamos por x A(, ), si su funcin de densidad viene dada por la expresin:
f(x
1
, x
2
, . . . , x
n
) =
1
(2)
k
2
[[
1
2
e
1
2
[(x)
1
(x)]
donde [[ denota el determinante de la matriz de covarianzas y (x )
el vector
transpuesto de (x ).
En el caso k = 1, se tiene: x = X
1
, =
1
, =
2
1
= [[, con lo que al sustituir
obtenemos la funcin de densidad de la normal general univariante.
130
En el caso k = 2, se obtienen las siguientes expresiones para el vector de esperanzas,
la matriz de covarianzas y su determinante:
=
_

1
2
_
; =
_

2
1

12
21

2
2
_
; [[ =
2
1
2
2
2
12
donde al calcular el determinante se tiene en cuenta que la covarianza es simtrica:
12
=
21
.
El determinante podemos expresarlo como: [[ =
2
1
2
2
_
1

2
12
2
1
2
2
_
=
2
1
2
2
(1
2
),
y la matriz inversa de resulta:
1
=
1
_

2
2

12
12

2
1
_
Sustituyendo ahora en la expresin general, se obtiene:
f(x
1
, x
2
) =
1
2
1
2
_
1
2
e
1
2
1
2
1
2
2
(1
2
)
(x
1
1
,x
2
2
)
_
_

2
2

12
12

2
1
_
_
_
_
x
1
1
x
2
2
_
_
=
1
2
1
2
_
1
2
e
1
2
1
2
1
2
2
(1
2
)
[(x
1
1
)
2
2
(x
2
2
)
12
,(x
1
1
)
12
+(x
2
2
)
2
1
]
_
_
x
1
1
x
2
2
_
_
=
1
2
1
2
_
1
2
e
1
2
1
2
1
2
2
(1
2
)
_
(x
1
1
)
2
2
1
+
(x
2
2
)
2
2
2
2(x
1
1
)(x
2
2
)
2
_
que es la funcin de densidad de la normal bivariante.
La funcin generatriz de momentos de la normal multivariante viene dada por:
M
(X
1
,...X
k
)
(t
1
, . . . , t
k
) = e
(t
1
,...,t
k
)
_
_
_
_
_
1
.
.
.
k
_
_
_
_
_
+
(t
1
,.,t
k
)
11

1k
.
.
.
.
.
.
.
.
.
k1

kk
t
1
.
.
.
t
k
2
= e
t
+
t
t
2
donde el ltimo miembro est expresado en notacin matricial.
Dada una variable normal multivariante, las funciones de densidad marginales coin-
ciden con las funciones de densidad univariantes de distribuciones A(
i
,
i
), con lo
que se tiene: E(X
i
) =
i
y V ar(X
i
) =
2
i
.
Si las variables unidimensionales que componen la normal multivariante tienen es-
peranza 0 y varianza 1, las expresiones anteriores se simplican considerablemente. A
131
Figura 4.4.: Modelo normal bivariante. Funcin de densidad
modo de ejemplo, la funcin de densidad de la normal bivariante resultara:
f(x
1
, x
2
) =
1
2
_
1
2
e
1
2
1
1
2
(x
2
1
+x
2
2
2x
1
x
2)
Por lo que se reere a la representacin del modelo, para el caso bidimensional se
obtendra un grco como el representado en la gura 4.4.
4.4. Variables aleatorias independientes
Cuando abordamos el estudio conjunto de varias variables aleatorias parece lgico
interrogarnos sobre las ventajas que presenta el anlisis del vector (X
1
, X
2
, . . . , X
k
)
con respecto al estudio marginal de las variables X
1
, X
2
,. . ., X
k
.
La respuesta a este interrogante aparece conectada con el tipo de relaciones existen-
tes entre las variables analizadas y resultar por tanto reveladora de las posibilidades
de llevar a cabo posteriores estudios de regresin o modelizaciones causales.
Consideremos a modo de ilustracin una serie de magnitudes econmicas de carcter
aleatorio: X
1
:Valor aadido bruto del sector industrial, X
2
:Tipo de inters a lar-
go plazo, X
3
:Recaudacin total del impuesto sobre sociedades, X
4
:Tasa de paro,
plantendonos su anlisis conjunto. Si el estudio del vector aleatorio (X
1
, X
2
, X
3
, X
4
)
aporta informacin de la que no dispondramos analizando separadamente las cuatro
caractersticas (esto es, en sus distribuciones marginales) estamos detectando la exis-
tencia de interrelaciones entre las magnitudes (por ejemplo, que la evolucin de los
tipos de inters condiciona el VAB industrial, que ste ltimo afecta a la tasa de paro,
etc.). En esta situacin, el hecho de imponer determinadas condiciones a una o varias
132
de las variables afectar a la distribucin probabilstica de las restantes, resultando
por tanto de inters el planteamiento de estudios condicionados, que -como veremos
en un captulo posterior- aparece muy ligado a los anlisis de regresin.
En denitiva, el objetivo ltimo al que nos enfrentaramos consiste en explicar
o modelizar una caracterstica a partir de las restantes, e incluso llegar a plantear
modelos de ecuaciones simultneas capaces de recoger las interrelaciones existentes
entre el conjunto de magnitudes analizadas.
Si por el contrario llegsemos a la conclusin de que resulta indiferente estudiar las
caractersticas de forma conjunta o marginal, estaramos en situaciones donde el an-
lisis conjunto no aporta nada a nuestro estudio, como consecuencia de la no existencia
de interconexiones entre las variables estudiadas. As pues, nos encontraramos an-
te caractersticas aleatorias independientes, por lo cual carecera de inters cualquier
anlisis condicionado o intento de modelizacin causal.
La formalizacin del concepto de independencia para el caso bidimensional podra
ser efectuada en los siguientes trminos:
Denicin 4.6. Sea (X, Y ) una variable aleatoria bidimensional con funcin de distri-
bucin conjunta F(x, y), y sean F
X
(x), F
Y
(y) las funciones de distribucin marginales
de X e Y respectivamente. En estas condiciones diremos que las variables X e Y son
independientes si se verica: F(x, y) = F
X
(x)F
Y
(y) , (x, y) 1
2
.
Dado que las variables aleatorias representan sucesos asociados a determinada experiencia alea-
toria, el concepto de independencia de variables aparece conectado a la independencia de sucesos.
As, diremos que dos variables aleatorias X e Y son independientes si los sucesos [a < X b] y
[c < Y d] son independientes para cualesquiera valores reales a, b, c, d.
En efecto, para comprobar que estos sucesos son independientes tendramos que probar la siguiente
igualdad:
P(a < X b, c < Y d) = P(a < X b)P(c < Y d)
y para ello partimos de la denicin anterior de independencia. Utilizando la funcin de distribucin
conjunta podemos expresar:
P(a < X b, c < Y d) = F(b, d) F(b, c) F(a, d) +F(a, c) =
= F
X
(b)F
Y
(d) F
X
(b)F
Y
(c) F
X
(a)F
Y
(d) +F
X
(a)F
Y
(c)
donde en la ltima igualdad hemos aplicado la independencia de las v.a., y si ahora sacamos factor
comn se tiene:
P(a < X b, c < Y d) = F
X
(b)[F
Y
(d) F
Y
(c)] F
X
(a)[F
Y
(d) F
Y
(c)] =
= [F
X
(b) F
X
(a)][F
Y
(d) F
Y
(c)] =
= P(a < X b)P(c < Y d)
De modo recproco, si se verica la relacin anterior para cualquier par de sucesos [a < X b],
[c < Y d], entonces se tiene la condicin de independencia enunciada. En efecto, para todo (x, y)
2
bastar considerar los intervalos de tipo (-, x], (, y] y la comprobacin resulta inmediata.
F(x, y) = P(< X x, < Y y) = P(< X x)P(< Y y) = F
X
(x)F
Y
(y)
133
La condicin de independencia puede tambin ser recogida mediante expresiones
equivalentes en las que aparecen las funciones de probabilidad o de densidad, segn que
la variable considerada sea discreta o continua. As, diremos que X es independiente
de Y si y slo si se verica:
p(x
i
, y
j
) = p(x
i
)p(y
j
) , (x
i
, y
j
) 1
2
, para (X, Y ) discreta
f(x, y) = f
X
(x)f
Y
(y) , (x, y) 1
2
, para (X, Y ) continua
Para comprobar el resultado discreto, el proceso es similar al desarrollado anterior-
mente para intervalos, considerando ahora la probabilidad de un punto.
Por lo que se reere al caso continuo, se tiene la siguiente expresin:
f(x, y) =

2
F(x, y)
xy
[F
X
(x)F
Y
(y)] =
_

x
F
X
(x)
_ _

y
F
Y
(y)
_
=
= f
X
(x)f
Y
(y)
A partir de cualquiera de las deniciones anteriores de independencia podemos demostrar que dos
v.a. son independientes si y slo si las distribuciones marginales y condicionadas coinciden. Aparece
as un nuevo signicado de la independencia; X es independiente de Y si su distribucin no se ve
afectada por los hipotticos valores de Y que puedan haberse vericado.
En efecto, teniendo en cuenta la denicin de probabilidad condicionada, para todo x
i
y para todo
y
j
con p(y
j
) > 0 se tiene:
p(x
i
, y
j
) = p(x
i
/y
j
)p(y
j
)
y por ser independientes se cumple: p(x
i
, y
j
) = p(x
i
)p(y
j
). Comparando miembro a miembro las dos
ecuaciones resulta: p(x
i
) = p(x
i
/y
j
), y esto para todo x
i
y para todo y
j
.
[Comprubese que la implicacin en sentido recproco tambin es cierta]
Tambin podemos expresar la independencia entre variables en trminos de la f.g.m., y en este
caso se tiene el siguiente resultado:
Proposicin. Dos variables X e Y son independientes si y slo si M
(X,Y )
(t
1
, t
2
) = M
X
(t
1
)M
Y
(t
2
)
Sin duda, la independencia entre variables aleatorias es un concepto de gran tras-
cendencia porque de esta caracterstica se derivan propiedades de inters en el anlisis
conjunto de variables aleatorias.
Antes de pasar a estudiar esas propiedades, conviene comentar que, como conse-
cuencia de su denicin, el concepto de independencia entre variables aleatorias es
simtrico. Este rasgo -ya comentado al estudiar la independencia entre sucesos- resul-
ta sumamente intuitivo, ya que si la variable aleatoria X es independiente de Y se
cumplir tambin que Y es independiente de X.
134
Propiedades de la independencia de variables aleatorias
Proposicin 4.1. Dadas X e Y independientes se cumple E(XY ) = E(X)E(Y )
Demostracin. La comprobacin de esta propiedad resulta muy sencilla con slo apli-
car la condicin de independencia anteriormente vista. As, en el caso de una variable
(X, Y ) discreta, si el rango de valores de X es x
1
, . . . , x
k
, y el de Y, y
1
, . . . , y
h
, se tiene:
E(XY ) =
k
i=1
h
j=1
x
i
y
j
p(x
i
, y
j
) =
k
i=1
h
j=1
x
i
y
j
p(x
i
)p(y
j
) =
=
_
k
i=1
x
i
p(x
i
)
_
_
_
h
j=1
y
j
p(y
j
)
_
_
= E(X)E(Y )
[Comprobar que la propiedad se cumple en el caso continuo]
Proposicin 4.2. Para todo par de variables X e Y independientes, se cumple
Cov(X, Y ) = 0 y
XY
= 0
Demostracin. La comprobacin es inmediata como consecuencia de la propiedad
anterior y de la expresin alternativa de la covarianza: Cov(X, Y ) = E(XY )
E(X)E(Y ).
[Comprobar que en este caso
XY
= 0]
Proposicin 4.3. Dadas X e Y independientes, se cumple V ar(X+Y ) = V ar(X) +
V ar(Y )
Demostracin. La demostracin se efecta desarrollando la expresin de la varianza
de la suma:
V ar(X +Y ) = E [(X +Y ) E(X +Y ]
2
= E [(X E(X)) + (Y E(Y ))]
2
=
= E(X E(X))
2
+E(Y E(Y ))
2
+ 2E [(X E(X))(Y E(Y ))] =
= V ar(X) +V ar(Y ) + 2Cov(X, Y )
y aplicando ahora la propiedad anterior de covarianza nula, se tiene:
V ar(X +Y ) = V ar(X) +V ar(Y )
[Comprobar que para la diferencia de v.a. independientes se obtendra de modo
similar: V ar(X Y ) = V ar(X) +V ar(Y )]
Una generalizacin de la propiedad anterior puede establecerse tal y como sigue:
Proposicin 4.4. Dadas X e Y independientes, se cumple para cualesquiera a y b
reales:
V ar(aX +bY ) = a
2
V ar(X) +b
2
V ar(Y )
135
Demostracin. Para comprobar esta propiedad basta desarrollar la varianza de la
combinacin lineal hasta obtener:
V ar(aX +bY ) = a
2
V ar(X) +b
2
V ar(Y ) + 2abCov(X, Y )
Puede comprobarse fcilmente que la varianza de la diferencia se corresponde con
el caso particular de esta expresin cuando a = 1, b = 1
Proposicin 4.5. Para todo par de variables independientes X e Y y para cuales-
quiera f y g funciones medibles-Borel de esas variables, se cumple que las variables
aleatorias f(X) y g(Y ) son tambin independientes.
Demostracin. En efecto, se tiene:
Pf(X) x, g(Y ) y = P
_
X f
1
(, x], Y g
1
(, y]
_
=
= P
_
X f
1
(, x]
_
P
_
Y g
1
(, y]
_
=
= P f(X) x P g(Y ) y
desarrollo que puede efectuarse por ser f y g funciones medibles-Borel.
Proposicin 4.6. Si X e Y son dos variables aleatorias independientes se verica:
M
X+Y
(t) = M
X
(t)M
Y
(t)
siendo M
X
(t), M
Y
(t) y M
X+Y
(t) las funciones generatrices de momentos de X, de
Y y de su suma respectivamente.
Esta propiedad es un caso particular de la condicin de independencia enunciada anteriormente en
trminos de la funcin generatriz de momentos k-dimensional, pues se tiene: M
X+Y
(t) = M
(X,Y )
(t, t).
Se trata de la particularizacin t
1
= t y t
2
= t, que es una condicin necesaria de la independencia
pero no suciente.
Demostracin. En la comprobacin de esta propiedad utilizamos la anterior, ya que
si X e Y son v.a. independientes tambin lo sern sus funciones e
tX
y e
tY
:
M
X+Y
(t) = E
_
e
t(X+Y )
_
= E
_
e
tX
e
tY
_
= E
_
e
tX
_
E
_
e
tY
_
= M
X
(t)M
Y
(t)
Hemos visto que cuando dos variables son independientes entonces son incorreladas.
La implicacin simtrica no es cierta en general, pero sin embargo se verica:
Proposicin 4.7. Si X e Y son variables aleatorias normales e incorreladas, entonces
son independientes.
136
Demostracin. Supongamos X A(
1
,
1
) e Y A(
2
,
2
) . La funcin generatriz
de momentos de estas variables vienen dadas por:
M
X
(t
1
) = e
t
1
1
2
t
2
1
2
1
; M
Y
(t
2
) = e
t
2
1
2
t
2
2
2
2
Por otra parte, en el apartado anterior hemos visto la expresin de la f.g.m. para
el modelo normal multivariante, que en el caso particular bivariante (k = 2) vendr
dada por:
M
(X,Y )
(t
1
, t
2
) = e
t
1
1
+t
2
2
+
1
2
(t
2
1
2
1
+t
2
2
2
2
+2t
1
t
2
12
)
Si las variables son incorreladas
12
= 0 y en consecuencia esta funcin puede
expresarse como:
M
(X,Y )
(t
1
, t
2
) = e
t
1
1
+
1
2
(t
2
1
2
1
)
e
t
2
2
+
1
2
(t
2
2
2
2
)
= M
X
(t
1
)M
Y
(t
2
)
4.4.1. Reproductividad
Adems de las propiedades anteriores, algunos modelos probabilsticos cumplen la
propiedad denominada reproductividad que resulta muy intuitiva y de gran inters
prctico. A grandes rasgos esta propiedad garantiza que, dadas dos variables aleatorias
independientes distribuidas segn cierto modelo, la variable suma sigue tambin ese
modelo probabilstico.
A modo de ilustracin de esta propiedad, consideremos que un individuo apuesta al
resultado sacar 2 en 3 lanzamientos sucesivos de un dado. Como hemos estudiado en
un captulo anterior, la variable aleatoria que recoge el nmero de xitos viene descrita
por un modelo binomial con parmetros n = 3 y p =
1
6
.
Si consideramos ahora que un amigo del individuo anterior realiza la misma apuesta
para 5 lanzamientos sucesivos de dado, qu podramos armar sobre el nmero de
xitos conseguidos por los dos amigos? La respuesta es que se tiene ahora la suma de
dos variables independientes (los resultados del primer individuo no afectarn a los
obtenidos por su amigo) y con p =
1
6
constante, por lo cual la variable nmero total
de xitos tambin ser binomial, en este caso con parmetros n = 8 y p =
1
6
.
Denicin 4.7. Dada una familia de variables aleatorias se dice que sta es repro-
ductiva si y slo si para todo par de variables aleatorias independientes X
1
, X
2

se cumple X
1
, +X
2
.
Este enunciado genrico del requisito de reproductividad es aplicable a muchos
de los modelos estudiados con anterioridad. Gracias a la reproductividad, podemos
garantizar que la suma de variables aleatorias independientes distribuidas segn cierto
modelo sigue ese mismo modelo, presentando adems parmetros relacionados con los
de las variables iniciales. Dicho con otras palabras, un modelo reproductivo, permite
137
reproducirse dentro de l; es cerrado para la operacin de sumar siempre que las
variables sean independientes.
La reproductividad es un concepto relativo; si la familia depende de un vector de
parmetros v, puede ser reproductiva respecto a algunas componentes de este vector
y no serlo respecto de otras.
Tal y como recoge la tabla 4.1, los modelos binomial, binomial negativo, normal,
Poisson y gamma son reproductivos, pudiendo expresarse formalmente esta propiedad
en los siguientes trminos:
Proposicin 4.8. Si X e Y son variables aleatorias independientes que siguen distri-
buciones binomiales B(n
X
, p) y B(n
Y
, p) respectivamente, entonces la variable suma
X +Y tambin sigue una distribucin binomial B(n
X
+n
Y
, p).
Demostracin. La comprobacin de la reproductividad binomial se efecta a partir
de la funcin generatriz de momentos:
M
X+Y
(t) = E
_
e
t(X+Y )
= E
_
e
tX
e
tY
_
= E(e
tX
)E(e
tY
) =
=
_
e
t
p +q
_
n
X
_
e
t
p +q
_
n
Y
=
_
e
t
p +q
_
n
X
+n
Y
correspondiendo esta ltima expresin a la funcin generatriz de momentos de una
variable binomial B(n
X
+n
Y
, p).
Proposicin 4.9. Si X e Y son variables aleatorias independientes que siguen dis-
tribuciones binomiales negativas BA(r
X
, p) y BA(r
Y
, p) respectivamente, entonces la
variable suma X+Y tambin sigue una distribucin binomial negativa BA(r
X
+n
Y
, p).
Demostracin. La comprobacin se lleva a cabo de modo similar al modelo anterior,
partiendo de la expresin de la funcin generatriz de momentos para una distribucin
binomial negativa X BA(r, p):
M
X
(t) =
_
e
t
p
1 e
t
p
_
r
[Comprubese que, aplicando esta propiedad en el caso particular r = 1, es posible
obtener una distribucin binomial negativa X BA(r, p) como suma de r variables
aleatorias independientes, cada una de ellas con distribucin geomtrica ((p)]
tribuciones normales A(
X
,
X
) y A(
Y
,
Y
) respectivamente, entonces la variable
suma X +Y tambin sigue una distribucin normal .
[Comprobar, a partir de la funcin generatriz de momentos, que el modelo normal
es reproductivo respecto a las caractersticas esperanza y varianza]
En el caso particular de que las distribuciones iniciales de X e Y se encuentren estandarizadas,
puede verse fcilmente que la suma X +Y seguir un modelo N
_
0,
2
_
.
138
Tabla 4.1.: Modelos y reproductividad
V.A. independientes Variable Suma Modelo Reproductiviad
X B(n
X
, p)
X +Y B(n
X
+n
Y
, p) Binomial
respecto a n
Y B(n
Y
, p) (p constante)
X BA(r
X
, p)
X +Y BA(r
X
+r
Y
, p)
Binomial respecto a r
Y BA(r
Y
, p) Negativa (p constante)
X A(
X
,
X
)
X +Y A
_
X
+
Y
,
_
2
X
+
2
Y
_
Normal respecto a
Y A(
Y
,
Y
) y
2
X T(
X
)
X +Y T(
X
+
Y
)
Poisson respecto a
Y T(
Y
)
X (p
X
, a)
X +Y (p
X
+p
Y
, a)
Gamma respecto a p
Y (p
Y
, a)
tribuciones de Poisson T(
X
) y T(
Y
) respectivamente, entonces la variable suma
X +Y tambin sigue una distribucin de Poisson T(
X
+
Y
).
Si X e Y son variables aleatorias independientes que siguen distribuciones gamma
(p
X
, a) y (p
Y
, a) respectivamente, entonces la variable suma X + Y tambin sigue
una distribucin gamma (p
X
+p
Y
, a).
Hasta ahora hemos abordado la independencia y sus propiedades en el caso bidimensional. Sin
embargo, cabe extender este concepto al caso k-dimensional en los siguientes trminos:
Denicin. Se dice que las variables X
1
, X
2
, . . . , X
k
son independientes si y slo si se cumple:
F(x
1
, x
2
. . . , x
k
) =
k
i=1
F
X
i
(x
i
), (x
1
, x
2
, . . . , x
k
)
k
donde F(x
1
, x
2
. . . , x
k
) es la funcin de distribucin de la variable k-dimensional y F
X
i
(x
i
) la funcin
de distribucin marginal de la variable unidimensional X
i
, (i = 1, 2, . . . , k).
De la misma forma pueden establecerse las equivalencias de independencia k-dimensional en tr-
minos de la funcin de probabilidad, funcin de densidad o funcin generatriz de momentos.
Todas las propiedades anteriores pueden generalizarse al caso k-dimensional con la nica dicultad
derivada del cambio de notacin.
A partir de este concepto de independencia pueden efectuarse las siguientes armaciones:
Si X
1
, X
2
, . . . , X
k
son variables unidimensionales e independientes, entonces toda subcoleccin
de X
1
, X
2
, . . . , X
k
es tambin una coleccin de variables aleatorias independientes.
Si x = (X
1
, X
2
, . . . , X
k
) e y = (Y
1
, Y
2
, . . . , Y
h
) son dos vectores aleatorios independientes,
entonces la variable aleatoria unidimensional X
i
y la variable aleatoria unidimensional Y
j
(componentes i-simo y j-simo de los vectores x e y respectivamente) son variables aleatorias
independientes.
139
Si x = (X
1
, X
2
, . . . , X
k
) e y = (Y
1
, Y
2
, . . . , Y
h
) son dos vectores aleatorios independientes,
y f(x) y g(y) son funciones medibles-Borel de los vectores aleatorios, entonces los vectores
f(x) = f(X
1
, X
2
, . . . , X
k
) y f(y) = f(Y
1
, Y
2
, . . . , Y
h
) son independientes.
4.5. Agregacin de variables aleatorias
Son numerosos los ejemplos de magnitudes econmicas que se obtienen a partir
de variables individuales. En algunos casos, la nueva variable se obtiene como suma
de las iniciales (la demanda agregada de un bien, por ejemplo) y en otras ocasiones
como promedio, generalmente una media aritmtica simple (el nmero anual medio
de parados en cierto sector econmico), si bien en ocasiones se calcula tambin una
media ponderada (ndices de precios o de produccin).
Obsrvese que en estos casos el planteamiento es distinto al de epgrafes anteriores:
hasta ahora nos ocupbamos de analizar conjuntamente k caractersticas mediante
un vector k-dimensional mientras que en este apartado nuestro objetivo consiste en
estudiar una caracterstica aleatoria sobre n unidades (hogares, empresas, pases,...).
Obtendremos as una sucesin de variables aleatorias X
1
, X
2
, . . . , X
n
que podemos
identicar con un vector n-dimensional, a partir del cual podemos denir nuevas ex-
presiones aleatorias.
Dadas las variables aleatorias unidimensionales X
1
, X
2
, . . . , X
n
es posible denir a
partir de las mismas las siguientes expresiones aleatorias:
Suma o valor total: S
n
=
n
i=1
X
i
Media o valor medio:

X
n
=
n
i=1
X
i
n
Media ponderada

X
W
=
n
i=1
w
i
X
i
con pesos o ponderaciones w
i
constantes,
0 < w
i
< 1 y

n
i=1
w
i
= 1
Nos planteamos ahora el estudio de estas nuevas magnitudes aleatorias para lo cual
analizaremos en primer lugar sus caractersticas esperanza y varianza.
Consideremos el vector aleatorio (X
1
, X
2
, . . . , X
n
), con vector de esperanzas y ma-
triz de varianzas-covarianzas nitos. Entonces las caractersticas de las magnitudes
aleatorias suma, media y media ponderada pueden ser obtenidas a partir de las co-
rrespondientes caractersticas del vector n-dimensional.
As, las esperanzas vendran dadas por las siguientes expresiones:
E(S
n
) = E
_
n
i=1
X
i
_
=
n
i=1
E(X
i
) =
n
i=1
i
140
E
_
X
n
_
= E
_
n
i=1
X
i
n
_
=
1
n
n
i=1
i
E
_
X
W
_
= E
_
n
i=1
w
i
X
i
_
=
n
i=1
w
i
i
en cuya obtencin hemos aplicado nicamente las propiedades de la esperanza como
operador lineal.
Por su parte, para las varianzas se obtiene:
V ar(S
n
) = V ar
_
n
i=1
X
i
_
=
n
i=1
V ar(X
i
) +
n
i=j
Cov(X
i
, X
j
) =
n
i=1
2
i
+
n
i=j
ij
expresin que, asumiendo el supuesto de independencia entre las variables podra
escribirse como:
V ar(S
n
) =
n
i=1
2
i
(obsrvese que bastara con que las variables fuesen independientes dos a dos, ya
que en ese caso se cumplira
ij
= 0, i ,= j = 1, 2, . . . n).
Aplicando el mismo razonamiento a las expresiones de la media simple y ponderada
se obtendra, bajo el supuesto de independencia:
V ar
_
X
n
_
=
1
n
2
n
i=1
2
i
; V ar
_
X
W
_
=
n
i=1
w
2
i
2
i
[Comprubense estos resultados]
Aunque en algunas ocasiones nos podra interesar tan slo conocer las caractersticas
de una magnitud agregada, en general nuestro objetivo ser ms amplio, ya que nos
interesar obtener probabilidades referidas a esos agregados o incluso, si es posible,
determinar por completo su distribucin de probabilidad.
La cuanticacin o aproximacin de probabilidades relativas a agregados depender
del nivel de informacin disponible en cada situacin. Comenzando por el caso ms
favorable, podemos considerar como primera posibilidad aqulla en que las variables
individuales X
i
son independientes y distribuidas segn cierto modelo probabilstico
reproductivo. Bajo estos supuestos, es posible determinar con exactitud el modelo
probabilstico de la suma o la media, as como los correspondientes parmetros.
A modo de ejemplo, si se consideran n variables aleatorias independientes X
i
N(
i
,
i
) las
distribuciones de los agregados suma y media seran respectivamente:
141
S
n
N
_
_
n
i=1
i
,
_
n
i=1
2
i
_
_
;

X
n
N
_
_
1
n
n
i=1
i
,
1
n
_
n
i=1
2
i
_
_
lo que permitira el clculo exacto de probabilidades.
Es necesario tener presente que la propiedad de reproductividad se reere a la suma de variables,
por lo cual no permite efectuar armaciones sobre el modelo probabilstico de la media ponderada.
As, el hecho de que X
i
se distribuya segn un modelo binomial o de Poisson no permite armar que
la expresin w
i
X
i
se adapte a dichos modelos.
Como caso particular, para el modelo normal s podra garantizarse bajo el supuesto de indepen-
dencia:
X
i
N(
i
,
i
) w
i
X
i
N(w
i
i
, w
i
i
)
n
i=1
w
i
X
i
N
_
_
n
i=1
w
i
i
,
_
n
i=1
w
2
i
2
i
_
_
En general no dispondremos de informacin exacta sobre la distribucin de las va-
riables individuales X
i
, por lo cual deberemos conformarnos con aproximaciones a las
probabilidades. Ms concretamente, siempre que el vector n-dimensional tenga carac-
tersticas nitas conocidas (esperanzas y matriz de varianzas-covarianzas) es posible
obtener acotaciones de las probabilidades mediante la desigualdad de Chebyshev que
aplicada respectivamente a las magnitudes suma, media y media ponderada da lugar
a las expresiones que siguen:
P ([S
n
E(S
n
)[ )
V ar(S
n
)
2
P
_

X
n
E(

X
n
)
V ar(

X
n
)
2
P
_

X
W
E(

X
w
)
V ar(

X
w
)
2
Si sustituimos ahora las expresiones de estas magnitudes y sus correspondientes
valores esperados y asumimos adems la hiptesis de independencia, se tiene:
P
_
i=1
X
i
i=1
i=1
2
i
2
P
_
n
i=1
X
i
n

n
i=1
i
n
i=1
2
i
n
2
142
P
_
i=1
w
i
X
i
i=1
w
i
i=1
w
2
i
2
i
2
Tal y como hemos visto al enunciar la desigualdad de Chebyshev para una variable
individual, a partir de las desigualdades anteriores es posible obtener formulaciones
alternativas donde la cota sea proporcional a la desviacin estndar y/o pasando a
los complementarios.
Un caso particular de inters sera que las variables aleatorias X
1
, X
2
, . . . , X
n
fueran
independientes e identicamente distribuidas. Se obtendra entonces para cualquier i:
E(X
i
) = y V ar(X
i
) =
2
, caractersticas que conducen a las siguientes expresiones
para la esperanza, la varianza y la cota de Chebyshev de las magnitudes suma, la
media simple y ponderada:
Magnitud Esperanza Varianza Acotacin Chebyshev
Suma E(S
n
) = n V ar(S
n
) = n
2
P ([S
n
n[ )
n
2
2
Media E
_
X
n
_
=
V ar(

X
n
) =

2
n
P
_

X
n

2
n
2
Media
E(X
W
) = V ar
_
X
W
_
=
2
n
i=1
w
2
i
P
_

X
W

n
i=1
w
2
i
2
ponderada
Son numerosas las magnitudes econmicas generadas mediante procesos aditivos
como las anteriormente analizadas (sumas, promedios, medias ponderadas). Sin em-
bargo, es tambin posible encontrar ciertas caractersticas originadas mediante proce-
sos multiplicativos que, aunque menos frecuentes, resultan interesantes en el mbito
econmico.
As, en los modelos de mercados empresariales se asume en ocasiones la presencia
de mltiples factores cuya interrelacin origina un efecto nal. Se tratara por tanto
de expresiones multiplicativas del tipo , en las que el efecto de cada variable interacta
con los restantes factores.
Este tipo de esquema de composicin fue investigado por autores como Gibrat
(1931), quien en sus estudios sobre ingresos supona que los valores de estas varia-
bles se hallan afectados por gran cantidad de factores aleatorios independientes, de
varianza nita, que operan de modo multiplicativo y no aditivo. Esta propiedad se
conoce como ley del efecto proporcional y bajo dicha ley la aplicacin del teorema
central del lmite a los logaritmos de los elementos aleatorios conduce, en el lmite, a
una distribucin logartmo normal.
Sean n variables aleatorias unidimensionales X
1
, X
2
, . . . , X
n
, independientes con
esperanza
i
y varianza
2
i
para i = 1, . . . , n. Entonces se tiene:
143
E
_
n
i=1
X
i
_
=
n
i=1
E(X
i
) =
n
i=1
i
V ar
_
n
i=1
X
i
_
= E
_
n
i=1
X
2
i
_
i=1
E
2
(X
i
) =
n
i=1
E
_
X
2
i
_
i=1
E
2
(X
i
)
si las variables tienen igual esperanza e igual varianza marginal, resulta:
E
_
n
i=1
X
i
_
=
n
; V ar
_
n
i=1
X
i
_
=
n
2

2n
4.6. Teoremas lmites
Los teoremas lmites son considerados como los resultados tericos ms trascenden-
tales de la teora de la probabilidad. Bajo este epgrafe se incluyen dos tipos distintos
de resultados: las leyes de los grandes nmeros y el teorema central del lmite.
Las leyes de los grandes nmeros hacen referencia a las condiciones bajo las cuales
la media de una sucesin de variables aleatorias converge en algn sentido a la media
poblacional. La importancia de estas leyes se debe a que justican tericamente el
concepto frecuencialista de probabilidad y son de aplicacin generalizada en inferencia
estadstica, cuando estudiamos muestras de tamao elevado.
El teorema central del lmite, por su parte, va referido a las condiciones bajo las
cuales la suma de un nmero elevado de variables aleatorias tiene una distribucin de
probabilidad que es aproximadamente normal.
Los teoremas lmites suponen una nueva etapa en nuestra aproximacin a la distri-
bucin de los agregados econmicos. Tal y como ilustra la gura 4.5, las situaciones
estudiadas hasta el momento se corresponderan con dos casos extremos: el primero
sera un conocimiento perfecto de la distribucin (gracias, por ejemplo, a la aplicacin
de la reproductividad a cada una de las variables aleatorias que intervienen en el agre-
gado) mientras que el extremo opuesto se correspondera con situaciones donde slo
es aplicable la acotacin de probabilidades mediante la desigualdad de Chebyshev.
Como su propia denominacin indica, los teoremas lmites permiten establecer conclusiones re-
feridas a los comportamientos asintticos de sucesiones de variables aleatorias, por lo cual resulta
interesante concretar el concepto de convergencia con el que estamos trabajando.
Cuando consideramos una sucesin numrica {x
n
} convergente a un valor x
0
, el concepto de
lmite es unvoco. Pero cuando consideramos una sucesin de v.a. {X
n
} cada elemento de la sucesin
presenta cierta aleatoriedad y converge a otra variable X
0
que tambin es aleatoria, por lo cual el
concepto de convergencia admitir diversos planteamientos segn dnde pongamos el nfasis. As
podemos considerar la incertidumbre asociada a la convergencia numrica (Plim: probabilidad del
lmite) o bien el lmite de las discrepancias aleatorias (LimP: lmite de la probabilidad); tambin
podemos considerar las convergencias de los modelos de probabilidad de X
n
al de X
0
o considerar la
convergencia en promedio de las desviaciones de cualquier orden.
144
Figura 4.5.: Probabilidades de Agregados
Las armaciones ms fuertes que podemos llegar a efectuar responden al concepto de convergencia
fuerte o casi-segura (c.s.) que se dene en los siguientes trminos:
Denicin 4.8. Se dice que la sucesin {X
n
} converge a X casi-seguro, lo que representamos por
X
n
c.s.
X
o
, si y slo si P(lm
n
X
n
= X) = 1 o bien > 0, n
0
tal que n > n
0
, entonces:
P (|X
n
X| > ) = P ({w E/|X
n
(x) X(w)| > }) = 0
Por su parte, la convergencia en probabilidad (P) -denominada habitualmente dbil en contrapo-
sicin a la anterior- se dene como sigue:
Denicin 4.9. Se dice que la sucesin {X
n
} converge a X en probabilidad, X
n
p
X
o
, si y slo
si:
> 0, lm
n
P(|X
n
X| ) = 0
o bien: > 0 y > 0, n
0
tal que n > n
0
, entonces:
P (|X
n
X| ) = P ({wE/|X
n
(w) X(w) ) <
En el primer tipo de convergencia estamos garantizando que en el lmite ambas variables coinciden
salvo a lo sumo en un conjunto de probabilidad nula; intuitivamente, para un n sucientemente
grande, la probabilidad de que X
n
diste de de la variable lmite ms de cierto nmero es nula, esto
es, X
n
coincide casi-seguro con X. Con otras palabras, la convergencia casi-segura (que tambin se
puede denominar convergencia con probabilidad uno) nos indica que para casi todos los resultados
elementales (w E) se verica:
lm
n
X
n
(w) = X(w)
si denotamos por E E el conjunto de resultados para los que se verica el lmite anterior, se tiene
que P(E) = 1; el complementario podra no ser vaco pero su probabilidad es nula.
En el segundo tipo de convergencia garantizamos que el lmite de la probabilidad de los conjuntos
de discrepancia es nulo; de nuevo de forma intuitiva, jada una constante arbitraria, podemos
145
encontrar un n sucientemente grande, tal que la probabilidad de que X
n
diste de la variable lmite
ms de cierto nmero es menor que la constante prejada.
Otra forma de expresar esta convergencia sera:
> 0, lm
n
P (|X
n
X| < ) = 1
lo cual quiere decir que si denotamos por E
n
E el conjunto de resultados donde |X
n
(w)X(w)| < ,
se tiene:
lm
n
P(E
n
) = 1
La convergencia en promedio podemos enunciarla como sigue:
Denicin 4.10. Dada una sucesin de v.a. {X
n
} se dice que converge en media r-sima a la
variable X si:
lm
n
E [|X
n
X|
r
] = 0
Los dos valores de r ms utilizados son 1 y 2. Cuando r = 1, decimos que la convergencia es en
media y cuando r = 2 se denomina convergencia en media cuadrtica.
Proposicin 4.12. Si la sucesin X
n
converge en media cuadrtica a X entonces tambin
converge en probabilidad.
Demostracin. En efecto, teniendo en cuenta la desigualdad de Chebyshev podemos expresar:
P (|X
n
X| )
E(X
n
X)
2
2
por tanto:
lm
n
P (|X
n
X| ) lm
n
E(X
n
X)
2
2
Si se verica la convergencia cuadrtica el segundo miembro es cero; entonces se tiene:
lm
n
P (|X
n
X| ) 0
y como la probabilidad no puede ser negativa ese lmite tiene que ser nulo y por tanto {X
n
} converge
en probabilidad a X.
En principio no podemos establecer implicaciones entre la convergencia en media cuadrtica y la
convergencia casi-segura salvo que aadamos alguna hiptesis adicional.
Por ltimo la convergencia entre los modelos de probabilidad, que denominamos en ley (L) o
distribucin y representamos X
n
L
X podemos expresarla como sigue:
Denicin 4.11. Se dice que una sucesin de v.a. {X
n
}, cuyas funciones de distribucin repre-
sentamos por F
n
, converge en ley o distribucin a otra v.a. X, con f.d. F, si:
lm
n
F
n
(x) = F(x) , x
donde F es continua.
146
Figura 4.6.: Relacin entre convergencias
La convergencia en distribucin puede expresarse en trminos de la funcin generatriz de momentos
(el criterio habitualmente utilizado para analizar esta convergencia). La convergencia en probabilidad
implica la convergencia en ley.
Ya hemos estudiado algunos modelos entre los cuales podemos establecer una convergencia en ley.
As, el modelo binomial converge al modelo de Poisson. Tendramos que demostrar que la funcin de
distribucin binomial converge a la funcin de distribucin de Poisson. Por ser ambas distribuciones
discretas, para todo x , sus f.d. constan de los mismos sumandos

x
i
x
p(x
i
) y ya hemos
demostrado al estudiar estas distribuciones la convergencia de cada sumando de la binomial a la de
Poisson, con lo cual se verica la convergencia enunciada.
De modo similar, la distribucin hipergeomtrica converge en ley a la distribucin binomial.
A modo de sntesis, en la gura 4.6 recogemos la relacin entre los distintos tipos de convergencia:
4.6.1. Leyes de los grandes nmeros
Las leyes de los grandes nmeros resultan de gran inters, ya que justican la con-
cepcin frecuentista de la probabilidad y avalan la utilizacin de la media muestral
como aproximacin del valor esperado de una poblacin.
Teorema 4.1. Sea {X
n
} una sucesin de variables aleatorias independientes e idnticamente
distribuidas (i.i.d.), con E(X
i
) = y V ar(X
i
) =
2
. Si denimos la variable media
X
n
=
X
1
+X
2
+ +X
n
n
entonces se cumple: X
n
P
.
Esto es, para cualquier > 0 se cumple:
lm
n
P
_

X
n

_
= 0
147
Este enunciado se denomina habitualmente ley dbil de los grandes nmeros, dado que se trata de
una convergencia dbil o en probabilidad. (En el enunciado anterior puede sustituirse por su equiva-
lente ).
Demostracin. La comprobacin de este enunciado puede llevarse a cabo a partir de la desigualdad
de Chebyshev, asumiendo que las variables tienen una varianza nita
2
. En ese caso, la aplicacin
de la desigualdad de Chebyshev a la media proporciona la expresin:
P
_
X
1
+X
2
+ +X
n
n

2
n
2
a partir de la cual, con slo tomar lmites, se llega al resultado enunciado.
La primera demostracin de la ley de los grandes nmeros aparece recogida en la obra Ars
Conjectandi de Jacob Bernoulli (1832). Este autor demostr la ley para el caso particular de variables
dicotmicas:
Corolario. Supongamos que se realizan n pruebas independientes de un experimento aleatorio en
el que se observa el suceso A. Si denotamos por f(A) la frecuencia relativa de este suceso y por
p = P(A) su probabilidad, que se asume constante a lo largo de las n pruebas, se cumple: f(A)
P
p;
esto es, para cualquier > 0:
lm
n
P (|f
n
(A) p| ) = 0
El enunciado de esta propiedad es equivalente a considerar una sucesin {X
n
} de pruebas inde-
pendientes de Bernoulli, con probabilidad de xito constante. La suma de estas variables indica el
nmero de xitos en las n pruebas y si calculamos la media reejaremos la frecuencia relativa del
xito o suceso A:
X
n
=
X
1
+X
2
+ +X
n
n
= f(A)
y por otra parte E(X
i
) = = p. As pues, la expresin de la ley dbil de los grandes nmeros nos
conduce al enunciado de esta propiedad.
Dado que dicha prueba es anterior a la desigualdad de Chebyshev, Bernoulli necesit una meto-
dologa muy ingeniosa para llegar a su demostracin de la ley.
El enunciado anterior puede ser generalizado al caso en que no se verique la igualdad de esperanzas
y varianzas.
Teorema 4.2. Sea {X
n
} una sucesin de variables aleatorias independientes con E(X
i
) =
i
y
V ar(X
i
) =
2
i
. Si denimos la media de estas variables
X
n
=
n
i=1
X
i
n
y =
n
i=1
i
n
entonces se cumple

X
n
P
.
Demostracin. La comprobacin de este enunciado puede ser efectuada aplicando la desigualdad
de Chebyshev a la sucesin de medias, teniendo en cuenta que E
_
X
n
_
= y
V ar
_
X
n
_
=
1
n
2
[V ar(X
1
) +V ar(X
2
) + +V ar(X
n
)] =
1
n
2
n
i=1
2
i

2
n
148
donde
2
= max
i
{
2
i
}.
En los enunciados anteriores hay una circunstancia que nos puede llamar la atencin, y es el hecho
de que para asegurar la convergencia de la media debamos establecer una hiptesis sobre un momento
de orden superior (varianza). En este sentido, una demostracin general de la ley dbil de los grandes
nmeros fue establecida por el matemtico ruso Khintchine (1929). Adems de l, numerosos autores
contribuyeron a la generalizacin de estas leyes, entre ellos Laplace, Chebyshev, Kolmogorov, Levy,
Cramer, Gnedenko y Feller.
Adems de la ley dbil enunciada, que hace referencia a la convergencia en probabilidad, existen
leyes fuertes de los grandes nmeros, referidas a la convergencia casi-segura. Entre ellas, el enunciado
ms simple es el siguiente:
Teorema 4.3. Sea {X
n
} una sucesin de variables aleatorias independientes e idnticamente
distribuidas, con la misma esperanza y varianza y
2
respectivamente, nitas. Entonces se verica:
X
n
c.s.
.
Este enunciado fue generalizado por Kolmogorov en dos sentidos: para el caso de sumas innitas
y para la convergencia a cualquier constante C.
4.6.2. Teorema central del lmite
Como su propio nombre indica, el Teorema central del lmite (TCL) ocupa un papel
central en estadstica. A grandes rasgos, este postulado garantiza que la suma de
un nmero elevado de variables aleatorias independientes presenta una distribucin
aproximadamente normal; por tanto su aportacin es doble: en primer lugar, permite
el clculo aproximado de probabilidades para tamaos elevados de muestra y adems
de ello proporciona una explicacin a la generalidad con la que aparecen distribuciones
campaniformes -aproximadamente normales- en los estudios empricos.
Una de las formulaciones ms sencillas del teorema central del lmite es la versin
de Levy-Lindeberg, que puede ser expresada en los siguientes trminos:
Teorema 4.4. Sea X
n
una sucesin de n variables aleatorias independientes e
idnticamente distribuidas, con E(X
i
) = y V ar(X
i
) =
2
nitas y consideremos la
suma de estas variables
S
n
=
n
i=1
X
i
Entonces se cumple:
S
n
L
A
_
n,
n
_
o equivalentemente
S
n
n
n
L
A(0, 1)
149
Figura 4.7.: Interpretacin TCL
En trminos generales, este teorema garantiza que la variable aleatoria denida
como suma o como media de una sucesin de variables independientes e idnticamente
distribuidas X
1
, X
2
, . . . , X
n
presenta una forma que se aproxima al modelo normal
a medida que el tamao de muestra aumenta. En general, dicha aproximacin se
considera vlida para tamaos muestrales superiores a n = 30.
La interpretacin del teorema central del lmite, que aparece ilustrada por la gu-
ra 4.7, puede ser efectuada en los siguientes trminos: si se produce una actuacin
conjunta de numerosas causas individuales independientes entre s, con distribucin
idntica y escaso peso cada una de ellas, entonces el efecto total de estas causas es
aproximadamente normal.
El teorema central del lmite puede tambin ser aplicado a la media de las observa-
ciones

X
n
=
n
i=1
X
i
n
, con el siguiente enunciado:
Teorema 4.5. Dada una sucesin X
n
de v.a. independientes e idnticamente dis-
tribuidas, con E(X
i
) = y V ar(X
i
) =
2
nitas, entonces se cumple:
X
n
L
A
_
,

n
_
o equivalentemente
X
n
n
L
A(0, 1)
considerndose estas aproximaciones vlidas para n > 30.
La demostracin de este teorema, que no vamos a realizar, puede ser efectuada en
trminos de la funcin generatriz de momentos.
La primera versin del TCL fue establecida por Abraham De Moivre (1667-1754)
para variables de Bernoulli.
150
Teorema 4.6. Si X
n
es una sucesin de v.a. de Bernoulli de parmetro p e inde-
pendientes, se verica:
n
i=1
X
i
np
npq
L
A(0, 1)
Demostracin. La comprobacin de este resultado es inmediata a partir del enunciado
del TCL anterior, pues bastara tener en cuenta que
E
_
n
i=1
X
i
_
=
n
i=1
E(X
i
) = np y V ar
_
n
i=1
X
i
_
=
n
i=1
V ar(X
i
) = npq
Corolario 4.1. Como conclusin de este resultado se tiene que la distribucin binomial B(n, p)
converge a la normal N
_
np,
npq
_
.
Demostracin. Bastara tener en cuenta que la suma de n v.a. independientes de Bernoulli de
parmetro p es una binomial, B(n, p). En efecto, sean X
1
, X
2
, . . . , X
n
, v.a. independientes B(p),
entonces la f.g.m de cada una de ellas ser: M
X
i
(t) =
_
e
t
p +q
_
.
La f.g.m. de la suma ser:
M
n
i=1
X
i
(t) =
n
i=1
M
X
i
(t) = (M
X
i
(t))
n
=
_
e
t
p +q
_
n
que es la f.g.m. de una binomial B(n, p).
Por tanto, en el enunciado de De Moivre sustituyendo la suma de Bernoulli por la correspondiente
binomial, obtendremos la propiedad enunciada.
Laplace generaliz el enunciado dado por De Moivre, para el caso de variables discretas y si-
mtricas. Paul Levy lo extendi a v.a. independientes idnticamente distribuidas con momentos de
segundo orden nitos.
Corolario 4.2. Para valores elevados de la distribucin de Poisson P() converge a la normal
.
Demostracin. De modo intuitivo, la justicacin podra efectuarse en los siguientes trminos:
consideremos n v.a. independientes, X
1
, X
2
, . . . , X
n
, distribuidas segn un modelo de Poisson de
parmetro

n
. Se verica entonces E(X
i
) =

n
y V ar(X
i
) =

n
.
Al ser la distribucin de Poisson reproductiva y las variables X
1
, X
2
, . . . , X
n
independientes, se
tiene para la suma:
S
n
P
_
n
+

n
+ +

n
_
= P()
Por otra parte, se trata de una sucesin de v.a. i.i.d. con esperanza y varianza nitas; por tan-
to en virtud del TCL su suma S
n
converge a una normal con media E(S
n
) y varianza V ar(S
n
),
caractersticas que vienen dadas por las expresiones:
151
E(S
n
) = E
_
n
i=1
X
i
_
= n
n
= ; V ar(S
n
) = V ar
_
n
i=1
X
i
_
=
n
i=1
V ar(X
i
) = n
n
=
As pues, se cumple para tamaos sucientemente elevados de n:
S
n
L
N
_
,
_
con lo cual la distribucin de Poisson puede ser aproximada por el modelo normal, siendo adecuada
dicha aproximacin para valores elevados del parmetro .
La demostracin se llevara a cabo de forma anloga para cualquier otra distribucin que sea
reproductiva.
Lvvich Chebyshev (1821-1894) y Andrei A. Markov (1856-1922), ambos autores pertenecientes a
la escuela rusa de San Petersburgo, establecieron la validez del teorema central del lmite en condi-
ciones ms generales, como la alteracin del supuesto de independencia. M.A. Liapunov (1857-1918)
estableci una condicin suciente para que se produzca una convergencia a la normal aunque las
variables X
i
no tengan idntica distribucin.
Lindeberg dio en 1922 unas condiciones sucientes para la validez del teorema y William Feller en
1935 demostr en cierto sentido la necesidad de tales condiciones.
Como hemos visto, el teorema central del lmite resulta aplicable a las magnitudes
originadas mediante agregacin de variables individuales. Este sera por ejemplo el
caso de los errores de distinta ndole, que se superponen hasta dar lugar al error total
observado en un estudio, para el cual se obtienen habitualmente representaciones
campaniformes aproximadamente normales.
Cabe por ltimo sealar que, en el caso de que el teorema central del lmite sea
aplicado a variables aleatorias discretas, se plantean dudas sobre el valor puntual a
partir del cual debe ser efectuada la aproximacin. Para solucionar este inconveniente
se introduce la correccin de continuidad, consistente en calcular la probabilidad sobre
el valor medio de dos observaciones consecutivas de la variable.
En efecto, la aplicacin del TCL podr dar lugar a resultados distintos segn el
punto a partir del cual se cuantique la probabilidad. As, la probabilidad P(X > x
i
)
podra ser tambin planteada como P(X x
i+1
), expresin que conducira a un
resultado inferior al anterior.
Para resolver este problema, se introduce la correccin de continuidad, consistente
en enunciar las dos alternativas para la probabilidad buscada, adoptando nalmente
como aproximacin la correspondiente al valor intermedio,
x
=
x
i
+x
i1
2
que no pertenecer al recorrido de la variable discreta.
Se tendra entonces como aproximacin P(X x
i
) tanto si la probabilidad ini-
cialmente enunciada es P(X > x
i
) como si sta fuese P(X x
i+1
). A modo de
152
ilustracin, supongamos que deseamos conocer la probabilidad de que durante el pr-
ximo trimestre llueva ms de 15 das. Si conocemos la probabilidad de que un da
cualquiera llueva (p = 0, 2, por ejemplo) tendramos inicialmente una distribucin
binomial X B(90, 0, 2) que como hemos visto anteriormente puede ser aproximada
por un modelo normal con esperanza np = 18 y varianza npq = 14, 4.
Si calculamos la probabilidad pedida como P(X > 15) se obtendra mediante la
aproximacin normal P(X > 15) = P(Z > 0, 7906) = 0, 7854 [comprubese]. Sin
embargo, dado que el nmero de das con lluvia es una v.a. discreta, esta probabilidad
debera coincidir con P(X 16), hecho que no se verica si utilizamos la aproximacin
normal sobre este valor [comprubese que P(X 16) = 0, 7009]. Para solucionar
este tipo de situaciones, la correccin de continuidad nos llevara a aproximar ambas
probabilidades como: P(X 15, 5) = P(Z 0, 6588) = 0, 745.
153
Parte II.
Inferencia estadstica
154
5. Muestras y estimadores
Las variables econmicas no pueden ser conocidas de forma determinista ni siquiera
de forma probabilstica, ya que el tiempo, el espacio y otros factores contribuyen a
que no tengan carcter esttico y como consecuencia nuestros anlisis se desarrolla-
rn en un contexto dinmico e incierto. As pues, las poblaciones que investigamos
sern cambiantes, y generalmente nos encontraremos con un cierto desconocimiento
sobre algunos parmetros y caractersticas de la poblacin, o incluso sobre su propia
estructura.
En la prctica nuestras decisiones deben ser adoptadas a partir de informacin par-
cial sobre la poblacin investigada. As, los estudios de mercado se basan en muestras
de clientes, las pruebas de control de calidad examinan muestras del producto analiza-
do, e incluso algunas de las principales estadsticas ociales como el Indice de Precios
de Consumo (IPC) o la tasa de paro se basan en la informacin procedente de en-
cuestas muestrales: la Encuesta de Presupuestos Familiares (EPF) y la Encuesta de
Poblacin Activa (EPA), ambas realizadas por el Instituto Nacional de Estadstica
(INE).
Teniendo en cuenta la importancia de las investigaciones muestrales en el mbito
socioeconmico, en este captulo recogemos una breve introduccin a la seleccin de
muestras y sus errores, para posteriormente centrarnos en el estudio de los estimadores,
las propiedades bsicas que deben cumplir y los principales mtodos para su obtencin.
5.1. Estudios muestrales. Conceptos bsicos
5.1.1. Poblacin
En estadstica descriptiva el concepto de poblacin es entendido como el conjunto
de personas o cosas a las que va referida una investigacin.
En este sentido estamos identicando los conceptos de poblacin y universo. Sobre el
colectivo de personas o cosas investigadas, habitualmente observamos una variable que
puede tomar un conjunto de valores con una distribucin de probabilidad determinada.
En el mbito de la inferencia estadstica la poblacin suele identicarse no con el
universo sino con la propia variable aleatoria, y as es habitual hablar de una pobla-
cin X que se distribuye normalmente, la esperanza poblacional, la distribucin de
la poblacin, ... armaciones que en realidad iran inicialmente referidas a la variable
aleatoria pero que resultar ms cmodo plantear en trminos de la poblacin.
En inferencia estadstica esta segunda acepcin suele ser la habitual y en algunas ocasiones se
mezclan ambas terminologas. As en poblaciones nitas hablamos indistintamente de una poblacin
155
E (formada por unidades: personas o cosas) sobre la que se disea el plan de muestreo y de una
poblacin X (v.a.) sobre la que estimamos el total o la media.
Cuando observamos varias variables partimos de una poblacin identicada como universo. Sin
embargo, cuando identicamos la poblacin como v.a. podemos encontrarnos con una poblacin k-
dimensional o con k poblaciones unidimensionales.
Se denomina tamao poblacional al nmero de elementos u observaciones que inte-
gran una poblacin.
El tamao de una poblacin puede ser nito o innito. En la mayor parte de las apli-
caciones reales las poblaciones investigadas son nitas, como el nmero de lectores de
un peridico o el nmero de automviles que sale de una factora. En otras ocasiones
el tamao poblacional puede ser innito, como sucede por ejemplo para la poblacin
generada por los lanzamientos sucesivos de un dado o el conjunto de nmeros reales
pertenecientes al intervalo [0, 1]. A menudo, las poblaciones de inters, aunque nitas,
son de tamao tan elevado que en teora se asumen como innitas (por ejemplo, la
poblacin mundial, el parque mvil europeo, ...).
Sera preferible una poblacin nita o una innita? Hemos hecho esta pregunta durante muchos
cursos a nuestros alumnos y la respuesta siempre es nita: los nmeros nitos nos parecen siempre
ms tangibles y conocidos (podemos alcanzarlos) y por tanto de ms fcil manejo. El innito es un
campo cuyo tratamiento y comprensin requiere imaginacin y que, en cualquier caso, se percibe
como lejano. Sin embargo, ya hemos comentado que los modelos son idealizaciones matemticas y en
ellas lo innito y lo continuo, en contra de nuestra intuicin, tienen un importante papel simplicador.
La mayor parte del aparato matemtico desarrollado hasta la actualidad es de carcter continuo, la
matemtica discreta o nita se encuentra menos desarrollada y por tanto su aplicacin para resolver
problemas reales (nitos) es limitada.
Por este motivo, nos interesar que las poblaciones sean innitas y a ser posible continuas o apro-
ximables por stas.
La informacin necesaria para llevar a cabo el estudio estadstico se encuentra dis-
ponible en los elementos que componen la poblacin (universo), a los que se denomina
unidades elementales o unidades primarias. En estas unidades la informacin se en-
cuentra en estado puro, completa y por tanto a partir de ellas la informacin se ir
transmitiendo, agregando y sintetizando, de manera que cada proceso constituye un
ltro donde la informacin va perdiendo abilidad.
La transmisin de la informacin desde los elementos de la poblacin se realiza
mediante encuestas que pueden ser censales o muestrales.
A pesar de que los avances informticos nos permiten procesar volmenes de infor-
macin que hace unos aos resultaban impensables, en general no ser posible analizar
exhaustivamente las poblaciones, como consecuencia de las limitaciones de recursos
(tiempo, presupuesto, e incluso imposibilidad fsica cuando las poblaciones que inves-
tigamos son innitas o perecederas). De ah que debamos conformarnos con efectuar
estudios parciales, llevando a cabo posteriormente una generalizacin de los resultados
obtenidos.
156
5.1.2. Muestras
En el caso de que las poblaciones que estudiamos sean nitas -supuesto ms ha-
bitual en la prctica- podra parecer en un principio que la investigacin exhaustiva
conlleva mayor abilidad que los estudios muestrales. Sin embargo, ello no es nece-
sariamente cierto, puesto que la disminucin del nmero de unidades investigadas
permite aumentar el detalle con que stas se analizan y en consecuencia la calidad de
los resultados.
Esta ventaja, junto con el ahorro en tiempo y costes, justica el inters que tienen
en estadstica las investigaciones muestrales.
As, si deseamos llevar a cabo un anlisis sobre la penetracin de cierto producto en
el mercado nos encontraremos con que un estudio exhaustivo de todos los puntos de
venta muy probablemente desbordara las posibilidades de cualquier empresa, debido
al personal necesario, los desplazamientos del mismo, las consiguientes necesidades en
cuanto a tiempo y costes ...
Estos mismos argumentos serviran para justicar la necesidad de tomar muestras en
una amplia variedad de situaciones, en las que resultar recomendable limitar nuestro
anlisis a algunas unidades de la poblacin investigada. De hecho, este tipo de estudio
ser inevitable cuando el anlisis realizado afecte a las unidades investigadas, como
en el caso de los procesos destructivos.
Los procesos destructivos de investigacin justican plenamente las tcnicas muestrales, ya que
en este tipo de estudios un anlisis exhaustivo conllevara el deterioro o destruccin de la poblacin
investigada. Ejemplos claros son las pruebas de control alimentario que incluyen degustacin de pro-
ductos, las experiencias cientcas con elevado riesgo, las pruebas blicas, etc.
Adems de las caractersticas sealadas anteriormente, existen poblaciones en las
que, por sus especiales caractersticas, se hacen ms patentes las ventajas del muestreo:
se trata de colectivos en los que existe homogeneidad respecto a las caractersticas in-
vestigadas. A modo de ejemplo, si se desea publicar una fe de erratas de determinada
obra bastara examinar un ejemplar, dado que la tirada sera una poblacin perfecta-
mente homognea, generada como reproduccin de un nico original.
Algunos ejemplos extremos de poblaciones homogneas se tienen en las pruebas clnicas (anlisis
de sangre, por ejemplo) o bien de cocina (temperatura o sabor de una sopa, ...), situaciones en las
que una mnima parte de la poblacin resulta sucientemente informativa del total.
Una vez analizadas sus ventajas, conviene sealar tambin algunos inconvenien-
tes del muestreo. Entre ellos, el ms inmediato es la posible introduccin de errores
asociados a la propia seleccin de la muestra, que no siempre es posible evitar.
Adems, los estudios muestrales requieren una mayor cualicacin personal, ya que
aumenta considerablemente la complejidad del aparato estadstico necesario tanto
157
para el diseo de la muestra como para el tratamiento de la informacin.
Este balance de ventajas e inconvenientes de los estudios muestrales aparece sinteti-
zado en el esquema siguiente. Su observacin nos conduce a la conclusin recogida por
el profesor Francisco Azorn -uno de los mayores impulsores del muestreo en nuestro
pas- quien arma "las muestras en sentido amplio no slo podran ser importantes y
en ocasiones necesarias, sino que generalmente son inevitables"
1
.
'
&
$
%
ESTUDIO CENSALES
Imprescindibles en recuentos e
investigaciones
Exigen amplios recursos
humanos y materiales
Largo tiempo de ejecucin
Costes elevados
'
&
$
%
ESTUDIOS MUESTRALES
Exigen trabajo especializado
Permiten ahorro econmico y
de trabajo de campo
Convenientes en poblaciones
homogneas
Imprescindibles en procesos
destructivos y poblaciones
innitas
Con el objetivo de aprovechar al mximo las ventajas del muestreo, en la actualidad
este tipo de tcnicas se incorporan incluso a algunas investigaciones censales. As,
el Censo de Poblacin y Viviendas 2011 realizado por el INE, con el objetivo de
ser ms rpido, eciente y econmico, combina por primera vez el uso de registros
administrativos con trabajo de campo, que incluye un censo de edicios y una gran
encuesta muestral para conocer las caractersticas de personas y viviendas.
5.1.3. Subpoblaciones o estratos
Una vez justicada la conveniencia de limitarnos a anlisis parciales de una po-
blacin, podramos preguntarnos si todo estudio parcial es muestral, es decir, si todo
subconjunto de una poblacin puede ser considerado como una muestra.
Obviamente, la respuesta es negativa, ya que una muestra estar constituida por
elementos seleccionados de una poblacin con el n de representar a todo el colectivo.
Se distingue as este concepto de otros subconjuntos poblacionales -habitualmente de-
nominados subpoblaciones o estratos- integrados por elementos que presentan alguna
caracterstica en comn.
La seleccin de subpoblaciones se lleva a cabo atendiendo a ciertos criterios, que garantizan la ho-
mogeneidad entre los elementos que integran cada subpoblacin. As, en algunas estadsticas ociales
los hogares son estraticados atendiendo a criterios socioeconmicos, los establecimientos se agrupan
en subpoblaciones segn el nmero de trabajadores, ...
1
AZORIN, F. (1988): Curso breve de muestreo en poblaciones nitas. Curso de doctorado Infor-
macin y esquemas difusos, Universidad de Oviedo.
158
Si por el contrario seleccionsemos algunos hogares a partir del callejero o de la gua telefnica el
resultado sera una muestra, ya que es previsible que en ese subconjunto de la poblacin estuviesen
incluidos muy distintos tipos de hogares. Esta heterogeneidad, equivalente a la que se observa en
la poblacin, es el rasgo caracterstico de las muestras: as, un colegio podra ser considerado como
una muestra de la poblacin infantil, un hospital como una muestra de una poblacin de enfermos o
un establecimiento como una muestra de una poblacin de trabajadores. No obstante, las muestras
utilizadas en la investigacin estadstica suelen ser resultado de procesos de seleccin ms complejos.
A modo de ejemplo, supongamos que deseamos realizar un estudio sobre la cuota de mercado de
un producto y, una vez descartado por las razones anteriormente expuestas un estudio exhaustivo,
debemos concretar el mbito de la encuesta.
Una primera posibilidad sera realizar la encuesta slo en una parte de la poblacin (digamos una
capital como Madrid). Sin embargo este mtodo parece poco recomendable dado que cada ciudad
presenta unos rasgos especcos (volumen de poblacin, tipo de actividad a la que se dedican, dota-
ciones de servicios, ...) que la hacen distinta por ejemplo de las zonas rurales. Dichas caractersticas
conguran a las ciudades como subpoblaciones, mientras que nuestro objetivo sera la extraccin de
muestras.
Resultara interesante por tanto llegar a disponer de un ncleo representativo de la poblacin,
algo similar a una "micropoblacin robot" cuyos rasgos seran los siguientes: un volumen moderado
de habitantes, distribuidos segn una pirmide poblacional similar a la de la poblacin global, una
estructura productiva equivalente a la global (en cuanto a proporcin de poblacin dedicada a cada
sector productivo), la misma renta percpita e igualmente distribuida, una reproduccin a escala de
las ideologas, religiones, razas, etc.
Esta idea de micropoblacin robot -que sera una fuente perfecta de informacin sobre la pobla-
cin total- resulta sin embargo demasiado ambiciosa, por lo cual en la prctica debemos contentarnos
con muestras que presentan -consideradas globalmente- caractersticas similares a las del colectivo de
inters. En denitiva, dado que nuestro estudio tendr por objetivo una o varias caractersticas de
la poblacin, trataremos de que la aproximacin que proporciona la muestra sea adecuada, es decir,
que no se produzcan demasiadas discrepancias entre muestra y poblacin.
5.1.4. Muestreo probabilstico
Un segundo interrogante referido al muestreo, sera si toda muestra debe necesaria-
mente ser aleatoria o probabilstica. Nuevamente la respuesta es negativa, puesto que
el concepto genrico de muestra hace referencia a su nalidad (representar adecuada-
mente al conjunto de la poblacin) pero no a su mtodo de obtencin, entendiendo
como tal el criterio mediante el cual se procede a la eleccin de las unidades de la
poblacin. Este criterio permitir distinguir entre muestras aleatorias (aqullas selec-
cionadas al azar) y no aleatorias.
En un abuso del lenguaje utilizamos aqu el trmino "aleatorio" como sinnimo de "probabilsti-
co". En realidad, "aleatorio" se aplica habitualmente a todo suceso que depende del azar y por tanto
no puede ser conocido de antemano, mientras los trminos "estocstico" o "probabilstico" indican
que es posible asignar probabilidades de realizacin a los sucesos, esto es, cuanticar su incertidumbre.
Denicin 5.1. Decimos que un proceso de seleccin es probabilstico o aleatorio
cuando es posible asignar a cada muestra una probabilidad de ser elegida.
159
Cuando la muestra es aleatoria podemos asignarle una cierta funcin de distribucin
y sus correspondientes funciones de probabilidad o densidad segn que la poblacin sea
discreta o continua; gracias a ello podemos establecer una distribucin de probabilidad
de los errores o un coeciente de abilidad de los resultados asociados a estas muestras.
En cambio, si la muestra no es aleatoria, las estimaciones pueden ser muy buenas, pero
nunca tendremos garantas porque no es posible calcular ninguna medida de bondad
asociada a la muestra. Por este motivo, desarrollaremos nuestros anlisis inferenciales
sobre las muestras aleatorias.
Funcin de distribucin muestral
Nuestro objetivo central sern los procesos de muestreo aleatorio y las posibilidades
inferenciales derivadas de los mismos.
Supongamos una poblacin X y seleccionemos a partir de ella una muestra de tamao unitario,
que denotamos por X
1
. Antes de realizar la seleccin, el valor que puede aparecer es uno cualquiera
de la poblacin y la probabilidad de que salga un valor determinado ser la que dicho valor tenga en
la poblacin. Por tanto la distribucin de X
1
ser idntica a la de X, de modo que, denotando por
F la distribucin de X y por F
X
1
la de X
1
se tiene:
F
X
1
(x) = F(x)
Hablamos de muestra genrica cuando sta an no se ha concretado en una realizacin, sino que
se trata de una muestra potencial. En el caso anterior se trata de una muestra de tamao uno
que podemos identicar con la variable muestral X
1
y de la misma forma a F
X
1
la denominaremos
distribucin de la muestra.
Supongamos ahora que se toma una muestra de tamao dos. En la primera seleccin puede obtener-
se un valor aleatorio, X
1
y en la segunda extraccin de nuevo se puede obtener un valor aleatorio X
2
;
por tanto la muestra puede identicarse con una v.a. bidimensional (X
1
, X
2
). Utilizando la frmula
de la probabilidad condicionada, la funcin de distribucin de la muestra en este caso ser:
F
X
1
,X
2
(x
1
, x
2
) = F
X
1
(x
1
)F
X
2
/X
1
=x
1
(x
2
)
Si la poblacin es innita el conocimiento de la primera unidad seleccionada no tiene inuencia en
la probabilidad de la segunda y lo mismo ocurrira si la poblacin es nita y el proceso de seleccin
conlleva la reposicin de cada unidad observada. En estas condiciones las variables X
1
y X
2
son
independientes y la distribucin anterior puede ser simplicada:
F
X
1
,X
2
(x
1
, x
2
) = F
X
1
(x
1
)F
X
2
(x
2
)
Ya hemos visto que la primera componente tiene la misma distribucin que X. Adems, dado que
consideramos que las dos extracciones son independientes, al devolver la unidad a la poblacin para
la segunda seleccin, la composicin poblacional vuelve a ser la original y por tanto la distribucin
de X
2
tambin coincide con la de X, obtenindose:
F
X
1
,X
2
(x
1
, x
2
) = F(x
1
)F(x
2
)
en este caso se dice que las variables muestrales son idnticamente distribuidas (i.d.).
160
Los supuestos de independencia e idntica distribucin (i.i.d.) son hiptesis simpli-
cadoras del tratamiento estadstico; por tal motivo la inferencia estadstica trabaja
bajo estos supuestos y en los desarrollos que siguen, salvo que se especique lo con-
trario, supondremos que las poblaciones son innitas o bien que la seleccin se realiza
con reemplazamiento.
Denicin 5.2. Se denomina muestra aleatoria simple (m.a.s.), a aqulla que es
seleccionada bajo los supuestos de independencia e idntica distribucin.
Si consideramos una muestra aleatoria simple de tamao n, sta puede ser identi-
cada con una v.a. n-dimensional (X
1
, X
2
, . . . , X
n
) cuyas componentes, bajo los supues-
tos asumidos, son independientes e idnticamente distribuidas. As pues, la funcin de
distribucin de la muestra viene dada por:
F
X
1
,X
2
,...,X
n
(x
1
, x
2
, . . . , x
n
) = F(x
1
)F(x
2
) F(x
n
) =
n
i=1
F(x
i
)
La comprobacin de esta expresin es una extensin de las desarrolladas en los prrafos preceden-
tes. [Qu expresiones adoptara la f.d. si se alterara alguna de las hiptesis anteriores?].
Puesto que la distribucin de cada componente de la muestra genrica coincide con la de X, la
variable (X
1
, X
2
, . . . , X
n
) ser discreta o continua segn lo sea X. A partir de la f.d. anterior podemos
obtener en su caso la funcin de probabilidad o densidad de la muestra genrica, denominada funcin
de verosimilitud. Sin embargo, dado que el estudio de esta funcin -de suma importancia en todo el
proceso inferencial- surge ligada a algn parmetro poblacional, posponemos al siguiente apartado
su denicin e interpretacin.
Consideremos ahora una muestra particular (x
1
, x
2
, . . . , x
n
), algunos de cuyos valores aparecern
repetidos y representemos en una tabla de frecuencias cada valor muestral x
i
con su correspondiente
frecuencia relativa f(x
i
). La aplicacin que a cada valor observado le asigna su frecuencia relativa
acumulada se denomina distribucin de frecuencias de la muestra F
(x
i
).
Es de suma importancia diferenciar entre los conceptos de muestra genrica y muestra concreta,
y tambin entre la distribucin probabilstica de la muestra y su distribucin de frecuencias. En los
primeros casos existen las componentes de potencialidad o incertidumbre caractersticas de las varia-
bles aleatorias, mientras que en los segundos se trata de problemas descriptivos. Las diferencias son
equivalentes a las que existen entre probabilidad y frecuencia o entre las caractersticas esperanza y
media aritmtica.
Para aclarar los conceptos anteriores, consideremos un ejemplo sencillo consistente en extraer bolas
de la urna en la que hay un total de diez bolas, de las que seis son de color blanco y las cuatro restantes
son negras.
El resultado de la extraccin de una bola de la urna puede ser identicado con una v.a. X dico-
tmica (1 para el suceso Blanco y 0 para Negro, por ejemplo) que vendr caracterizada por la
probabilidad p = 0, 6.
Si de esta urna se realizan dos extracciones sucesivas con reposicin, se obtiene una muestra
aleatoria simple que describimos mediante la variable aleatoria (X
1
, X
2
), cuya distribucin de proba-
bilidad puede ser obtenida fcilmente, teniendo en cuenta las condiciones de independencia e idntica
distribucin:
161
Observaciones
(x
1
, x
2
) p(x
1
, x
2
)
muestrales
(B,B) (1,1) 0,36
(B,N) (1,0) 0,24
(N,B) (0,1) 0,24
(N,N) (0,0) 0,16
Puede comprobarse que la funcin p(x
1
, x
2
) es una verdadera funcin de probabilidad, por cumplir
los requisitos de no negatividad y suma unitaria.
[Denir la variable aleatoria asociada a la extraccin de tres bolas de la urna]
5.2. Errores y diseo de encuestas
Las encuestas tienen por objetivo la investigacin de poblaciones para llegar a co-
nocer ciertas caractersticas o parmetros poblacionales que denominaremos valores
verdaderos (por ejemplo la tasa de paro, la renta media o el nivel de inacin de
un pas). Estos valores verdaderos sern desconocidos y nunca podrn ser cuantica-
dos de una forma exacta, por lo cual deberemos ser conscientes de que el resultado de
cualquier investigacin -y especialmente las de tipo social- vendr afectado por errores.
El estudio de la cuanticacin de los errores est mucho ms desarrollado en las ciencias naturales
que en las ciencias sociales. Para constatar esta armacin, basta recordar que en sus orgenes la dis-
tribucin normal aparece asociada a los errores de medicin en astronoma, investigaciones realizadas
por Gauss a nales del siglo XVIII y principios del XIX.
Sin embargo, en las ciencias sociales los problemas de la medicin se encuentran menos desarrolla-
dos debido a la mayor dicultad que entraa en ellas la cuanticacin. Ello no debe llevarnos a pensar
que los errores en las ciencias sociales sean de menor cuanta, pues como recoge O. Morgenstern , en
un amplio estudio sobre la exactitud de los datos econmicos, en el mbito de las ciencias sociales
estn presentes, al menos, todas las causas de error de las ciencias naturales.
En muchas ocasiones la necesidad de facilitar datos de carcter econmico inspira cierto recelo en
los agentes (sobre todo por las implicaciones de tipo jurdico o scal), lo que puede conducir a un
falseamiento deliberado de la informacin. As la falta de exactitud que pueden presentar los datos
econmicos facilitados por las empresas y los consumidores aconsejan una confrontacin entre datos
obtenidos por distintas vas de captacin.
Otro tipo de dicultades son las relacionadas con la utilizacin de distintas fuentes, ya que con
frecuencia existen discrepancias entre la informacin facilitada por varios organismos. La existencia
de una pluralidad de observadores de una misma realidad introduce por s misma elementos de error
en la informacin cuantitativa porque los observadores pueden tener objetivos diferenciados (pinsese,
por ejemplo, en las discrepancias sobre el paro estimado en la Encuesta de Poblacin Activa (EPA)
del INE y el paro registrado por los Servicios Pblicos de Empleo).
Del mismo modo, pueden aparecer problemas de homogeneidad por parte de las unidades de ob-
servacin, debido a la utilizacin de deniciones diferentes, a cambios en los criterios de clasicacin,
a desfases temporales en las magnitudes consideradas, etc.
162
Figura 5.1.: Errores de encuesta
5.2.1. Errores de encuesta
Aunque habitualmente nos centramos en un nico error global, entendido como
diferencia entre el valor verdadero y el resultado de nuestra investigacin, conviene
tener presente que dicho error habr sido generado por varias fuentes, que dieren en
cuanto a su importancia y sus posibilidades de control.
Aun analizando todos los elementos de la poblacin, los errores de observacin,
como fallos en los instrumentos de medida, listados no actualizados, ..., nos llevarn
a tomar como verdaderos ciertos valores que denominamos valores observados. Es
evidente que el error o discrepancia entre los valores verdaderos y los observados no
podr ser cuanticado de una forma exacta aunque existan controles de calidad de las
encuestas censales.
A partir de la informacin facilitada por una encuesta muestral, podemos obtener
aproximaciones al valor verdadero que conocemos como valor estimado. Normalmente
designamos por error de encuesta la discrepancia total existente entre las caractersti-
cas poblacionales investigadas (valores verdaderos) y los resultados inferidos a partir
de la muestra (valores estimados).
La gura 5.1 recoge las distintas fuentes de error que acompaan a una encuesta
muestral y que conforman el error de la encuesta. As, el hecho de seleccionar una
parte de la poblacin ya puede introducir un error de muestreo (por qu las unidades
seleccionadas y no otras que nos conduciran a resultados distintos?). Si la seleccin
muestral es aleatoria podemos conocer a priori la probabilidad que tiene la muestra de
ser elegida y por tanto la probabilidad de cometer un determinado error de muestreo;
es decir, nos interesan muestras probabilsticas para poder acotar el riesgo de estos
errores en trminos de probabilidad.
A continuacin, una vez seleccionadas las unidades muestrales aparecen nuevas
fuentes de error: aqullas que se reeren a la observacin de las unidades y que se
denominan errores ajenos al muestreo, porque van asociados a la observacin de las
unidades con independencia de que el estudio sea muestral o poblacional. En esta
categora recogemos errores de tipo diverso como posibles deciencias del marco o el
163
cuestionario, inuencias del agente encuestador, ... que estudiaremos con detalle en
un captulo posterior y que habitualmente introducen sesgos en las conclusiones de
nuestros estudios.
Decimos que un diseo (o la estimacin derivada del mismo) es sesgado cuando las desviaciones o
errores que origina tienen carcter sistemtico. El sesgo puede ser debido a diversos factores, como
el diseo de la encuesta, los instrumentos de medida o las respuestas y sus consecuencias son habi-
tualmente subestimaciones o sobreestimaciones de las caractersticas investigadas.
5.2.2. Acuracidad y precisin
Como consecuencia de su carcter sistemtico, los errores ajenos al muestreo resul-
tan ms fcilmente identicables que los muestrales aunque su control slo ser posible
dentro de ciertos lmites. Por el contrario, la aleatoriedad de los errores muestrales hace
que sea necesaria para su cuanticacin una sosticada herramienta matemtica.
La bsqueda de la mayor calidad posible en nuestros resultados aconseja minimizar
las desviaciones entre valores verdaderos y estimados, esto es, el error de encuesta,
con sus dos componentes. Segn dnde se site el nfasis aparecen los conceptos de
precisin y exactitud o acuracidad.
El requisito de precisin exige limitar el error debido al muestreo, esto es, las oscila-
ciones de carcter aleatorio. Por su parte, la idea de exactitud o acuracidad va referida
a todo el error de encuesta, por lo cual resulta ms ambiciosa (adems del requisito
de precisin, exige un control de los errores ajenos al muestreo).
A modo de ilustracin, pensemos en una balanza que en su posicin normal se encuentra inclinada,
de modo que pesa siempre algunos gramos de ms.
Esto signicara que el instrumento de peso que estamos utilizando es sesgado. Sin embargo, puede
ser muy preciso en el sentido de detectar cualquier diferencia de peso por reducida que sta sea. El
instrumento de medida en este caso ser preciso y poco acurado, pues el peso de cualquier objeto se
encuentra desviado respecto a su verdadero valor.
5.2.3. Diseo de encuestas y seleccin muestral
Como ya hemos comentado, es impensable llegar a realizar un estudio exento de
errores. Sin embargo, los objetivos de exactitud y precisin sern ms accesibles en la
medida en que nuestro estudio tenga una base slida. De ah que el diseo de encuestas
-cuyas etapas resumimos en el esquema siguiente- constituya una fase decisiva, que
condiciona en gran medida la calidad de los resultados obtenidos.
164
DISEO DE ENCUESTAS
Fase preliminar: objetivos del estudio
Determinacin del marco
Unidades elementales
Unidades complementarias
Seleccin muestral
Transmisin de la informacin
Contexto del estudio
Trabajo de campo
Tratamiento de la informacin
Tabulacin y sntesis
Tcnicas inferenciales
Evaluacin de resultados
Dentro del diseo de encuestas incluimos desde las etapas previas al estudio (de-
nicin de objetivos y determinacin de la poblacin y sus unidades) hasta el trabajo
de campo y los anlisis posteriores (publicacin y evaluacin de resultados), siendo
especialmente interesante desde la ptica estadstica la etapa de seleccin muestral.
Todas estas etapas sern analizadas con detalle en un captulo posterior, dedicado
al muestreo en poblaciones nitas, por lo cual nos limitaremos aqu a describir cmo
se seleccionan en la prctica muestras aleatorias o probabilsticas.
El trmino aleatorio, que consideramos sinnimo de probabilstico, suele ser utilizado de forma
abusiva en el lenguaje coloquial, para indicar que una seleccin no est expresamente dirigida. As
por ejemplo, frases como "un encuestador de televisin ha salido a la calle preguntando la opinin de
personas seleccionadas aleatoriamente" no seran estrictamente correctas. En efecto, el hecho de que
el encuestador intente que su opinin subjetiva no afecte a la seleccin no basta para calicar a una
muestra de aleatoria ya que, aunque los resultados muestrales son imprevisibles (interviene el azar),
no es posible asignarles probabilidades.
As pues, solamente denominaremos aleatorios (o estocsticos o probabilsticos) a aquellos procesos
en los que podemos determinar la probabilidad de seleccin para cada muestra concreta.
Consideremos el total de hogares sobre los que deseamos analizar las pautas de
lectura o bien el total de puntos de venta del peridico, para los cuales disponemos de
un listado correctamente numerado. Una vez decididos a extraer una muestra aleatoria
o probabilstica qu mecanismo podemos emplear para introducir azar en la seleccin?
Los ejemplos ms conocidos son los sorteos: extraccin al azar de bolas numeradas
de una urna o un bombo de lotera, de tal forma que los elementos de la poblacin
cuyos nmeros se correspondan con los extrados pasan a integrar la muestra. Este
165
mecanismo, muy popular gracias a los sorteos de lotera nacional, resulta sin embargo
impracticable para tamaos muestrales elevados debido al coste material y de tiempo
que conlleva.
Como consecuencia de estas limitaciones, el mtodo general consiste en acudir a
tablas de nmeros aleatorios generadas por distintos procedimientos fsicos y matem-
ticos.
Estas tablas recogen los resultados de un proceso que genera dgitos decimales alea-
torios, asociados a variables aleatorias independientes con valores 0, 1, ..., 9, que
cumplen las siguientes propiedades:
Cualquier dgito de la tabla tiene probabilidad
1
10
de presentar valores 0, 1, ...
, 9, es decir, corresponden a realizaciones de una v.a. discreta con distribucin
uniforme.
Los distintos dgitos de la tabla son independientes.
Como consecuencia de su carcter aleatorio, los dgitos de las tablas no presentarn ningn orden
concreto. Para ilustrar esta idea, E.U. Condon, director del Bureau of Standards armaba que la
obtencin de una secuencia lgica al seleccionar nmeros aleatorios resulta tan probable como que
los saltos de un mono sobre una mquina de escribir reproduzcan un prrafo de Shakespeare.
2
Por lo que se reere a la utilizacin de estas tablas, las nicas dudas podran ir
referidas a cuntos dgitos seleccionar y en qu orden.
El punto de arranque es arbitrario dado el propio carcter aleatorio de las tablas.
Una vez situados en ciertas coordenadas, efectuaremos selecciones sucesivas de nme-
ros avanzando por las o por columnas.
Es importante adems tener presente que cualquier elemento de la poblacin debe
ser candidato a formar parte de la muestra. Para garantizar esta potencialidad, el
nmero de columnas seleccionadas en la tabla debe coincidir con el nmero de dgitos
del tamao poblacional N.
Una de las primeras tablas de nmeros aleatorios fue elaborada en 1927 por L.H.C. Tippett, quien
construy una tabla de 41.600 dgitos a partir de datos del censo britnico sobre las reas parroquiales,
eliminando en cada caso los dgitos primero y ltimo.
En 1943 Fisher y Yates publicaron una tabla con 15.000 nmeros, correspondientes a los dgitos
que ocupaban el orden 15 y 19 en tablas logartmicas de 20 dgitos.
El antecedente de las actuales rutinas generadoras de nmeros aleatorios fue un mtodo puesto en
marcha en 1939 por Kendall y Babington-Smith, quienes generaron una tabla de 100.000 nmeros
con ayuda de una mquina electrnica que simulaba lanzamientos de un cuerpo geomtrico de 10
caras, numeradas del 0 al 9. En la actualidad, la generacin y contraste de nmeros aleatorios sigue
siendo un campo de investigacin.
2
Esta ancdota aparece recogida en Youden, W.J. (1957): Random Numbers arent Nonsense
Industrial and Engineering Chemistry, 49, n. 10, 89 A
166
Como sucede en otros muchos campos, el avance de la informtica ha simplicado
considerablemente la seleccin de nmeros aleatorios: hoy da gran parte de los progra-
mas estadsticos e incluso las hojas de clculo contienen procedimientos para generar
nmeros aleatorios segn distintos modelos de probabilidad (uniforme, normal, ...).
5.3. Estadsticos y estimadores
Imaginemos que nuestro objetivo fuese aproximar el valor verdadero de la renta
esperada de una poblacin de hogares, esto es, el parmetro poblacional = E(X).
Una vez que dispongamos de informacin muestral (es decir, de rentas observadas
para ciertos hogares, seleccionados aleatoriamente), debemos preocuparnos de llevar
a cabo un tratamiento adecuado de la misma, diseando procedimientos de sntesis
muestral que se adapten a nuestros objetivos de estimacin.
Parece claro que en ningn caso llegaremos a conocer con exactitud la verdadera
renta esperada de la poblacin. Sin embargo, podemos considerar algunas restriccio-
nes respecto a los errores que estamos dispuestos a asumir: en general, toleraremos
los errores de tipo aleatorio (inevitables si tenemos en cuenta que es el azar quien de-
termina qu hogares forman parte de la muestra) pero no ser admisible sin embargo
una sobrevaloracin (o una subvaloracin) sistemtica de las rentas, que introducira
un sesgo en nuestro proceso de estimacin de .
De modo complementario, debemos exigir a nuestro proceso de estimacin que el
riesgo de desviarnos del verdadero valor del parmetro sea moderado (esto es, que
exista una baja probabilidad de obtener estimaciones muy alejadas de la verdadera
renta esperada). Este requisito proporciona una especie de garanta para el proceso
de estimacin, al acotar la dispersin de nuestras estimaciones respecto al parmetro.
Por otra parte, parece necesario que los estimadores utilicen toda la informacin
a su alcance, ya que de lo contrario estaran ignorando datos tiles en la aproxima-
cin del valor buscado. En este sentido, bastara recordar que una medida de sntesis
de las rentas observadas en la muestra debe abarcar todos y cada uno de los datos
proporcionados por los hogares incluidos en la misma.
Cabe por ltimo enfatizar la distincin entre los conceptos de estimacin (resulta-
do) y proceso de estimacin (procedimiento). El primero depender de la informacin
muestral disponible en cada caso, que conducir a un valor concreto como aproxima-
cin (nunca exacta) del parmetro, mientras que el segundo describe nuestro mtodo
de trabajo. Como consecuencia, cabe esperar que, si el procedimiento empleado es
correcto, la existencia de informacin adicional (nuevos datos sobre las rentas de los
hogares) nos permita aproximarnos ms adecuadamente a nuestro objetivo. En el lmi-
te, si la muestra creciese indenidamente y llegsemos a disponer de informacin sobre
todos los hogares de la poblacin, cabra esperar que nuestra estimacin se aproximase
indenidamente al parmetro .
El ejemplo propuesto pretende hacer explcita una lista de requisitos que resultan
intuitivamente deseables en todo proceso de aproximacin o estimacin. Su cumpli-
miento no garantizar la bondad de resultados concretos pero s en cambio del mtodo
167
Figura 5.2.: Esquema del proceso inferencial
general.
Nuestro esquema de actuacin, que aparece recogido en la gura 5.2, exige la pre-
sencia de instrumentos de sntesis denominados estadsticos que, por ser funciones de
la muestra aleatoria, sern tambin aleatorios.
En efecto, consideremos una m.a.s. (X
1
, . . . , X
n
) extrada de una poblacin X. Se
trata de n v.a. independientes e idnticamente distribuidas (i.i.d.) y una vez que dicha
muestra aleatoria se concrete en determinada observacin muestral, podemos llevar
a cabo una sntesis de su informacin mediante medidas descriptivas aplicadas a los
valores obtenidos. Adems, antes de que la muestra concreta haya sido seleccionada
es posible tambin establecer expresiones matemticas que son funcin de la muestra
aleatoria y por tanto variables aleatorias. Dichas expresiones genricas, que represen-
taremos por T = T(X
1
, . . . , X
n
) se denominan estadsticos.
Denicin 5.3. Sea (X
1
, . . . , X
n
) una muestra aleatoria de tamao n de una variable
X. Llamamos estadstico T = T(X
1
, . . . , X
n
) a cualquier funcin medible denida
sobre las variables muestrales; esto es, una funcin observable del vector aleatorio.
Como ya hemos comentado en el captulo segundo, toda funcin medible de v.a. es
una v.a. Por lo tanto, un estadstico ser una v.a., lo cual signica que llevar asocia-
da una distribucin de probabilidad y las correspondientes caractersticas: esperanza,
varianza, etc.
A modo de ejemplo, a partir de una m.a.s. (X
1
, . . . , X
n
) denamos un estadstico T =
n
i=1
X
i
.
Se trata de una variable aleatoria cuyas caractersticas ya han sido obtenidas en temas anteriores;
as, por ser la esperanza un operador lineal se tiene:
E(T) = E
_
n
i=1
X
i
_
=
n
i=1
E(X
i
) =
n
i=1
= n
ya que las variables estn idnticamente distribuidas y por tanto E(X
i
) = , i = 1, . . . n.
Para obtener la varianza se tiene en cuenta, adems de la idntica distribucin, la independencia
entre las variables X
1
, . . . , X
n
:
168
V ar(T) = V ar
_
n
i=1
X
i
_
=
n
i=1
V ar(X
i
) =
n
i=1
2
= n
2
La distribucin de probabilidad del estadstico T vendra dada por la funcin:
F
T
(t) = P(T t) = P
_
n
i=1
X
i
t
_
en cuya expresin aparece la distribucin de la suma, que en el captulo 4 ha sido analizada para
distintos supuestos.
En sntesis, considerbamos las siguientes situaciones:
Si la poblacin X se distribuye segn un modelo reproductivo, es posible armar para cualquier
tamao muestral que la suma presenta el mismo modelo probabilstico, conocindose adems
sus parmetros.
Para tamaos elevados de muestra, el teorema central del lmite garantiza -con independencia
de la distribucin de partida- la convergencia de la distribucin de la suma a un modelo normal.
Por ltimo, para poblaciones desconocidas y tamaos pequeos de muestra, no es posible
determinar la distribucin de la suma por lo cual nicamente obtendramos acotaciones de las
probabilidades mediante la desigualdad de Chebyshev.
El estadstico es una funcin que puede tomar valores en una o ms dimensiones, por lo que puede
tratarse de una v.a. unidimensional o k-dimensional. Nos interesarn fundamentalmente los estads-
ticos de resumen, que a cada vector aleatorio (X
1
, . . . , X
n
) asocian un valor real T(X
1
, . . . , X
n
).
Generalmente las poblaciones investigadas dependen de ciertos parmetros desco-
nocidos (,
2
, p, ...) y la introduccin de estadsticos suele tener como objetivo la
aproximacin de dichos parmetros a partir de muestras aleatorias. De ah que a tales
estadsticos se les denomine estimadores.
Denicin 5.4. Consideremos una variable aleatoria X cuya distribucin de probabi-
lidad F depende de un parmetro (o vector de parmetros) perteneciente al espacio
paramtrico , esto es F
X
(x, ). Denominaremos estimador de a un estadstico
T(X
1
, . . . , X
n
) que toma valores slo en .
Como puede apreciarse, la denicin de estimador resulta ms restrictiva que la de estadstico, ya
que un estimador T de slo podr tomar valores en el espacio paramtrico . Nuestro objetivo ser
seleccionar, de entre todas las expresiones que satisfacen este requisito, aqullas cuyas propiedades
proporcionen garantas en el proceso de estimacin del parmetro.
En el caso de que la distribucin de X dependa de k parmetros
1
, . . . ,
k
, podramos plan-
tearnos la utilizacin de k estimadores unidimensionales o bien la consideracin de un estimador
k-dimensional.
Como consecuencia de su denicin, los estimadores T(X
1
, . . . , X
n
) sern variables
aleatorias. Sin embargo, una vez seleccionada una muestra particular (x
1
, . . . , x
n
)
se obtiene un valor concreto del estimador t = T(x
1
, . . . , x
n
) al que se denomina
estimacin.
169
Figura 5.3.: Interpretacin de la funcin de verosimilitud
5.3.1. Funcin de verosimilitud
Dado que gran parte de la inferencia tiene como objetivo la aproximacin de pa-
rmetros desconocidos a partir de informacin muestral, resulta necesario analizar la
distribucin probabilstica de las muestras y de los estadsticos denidos a partir de
las mismas.
La distribucin de probabilidad de una muestra aparece conectada al concepto de
funcin de verosimilitud. Se trata de una expresin que admite dos interpretaciones
alternativas ilustradas en la gura 5.3 y que resulta de gran inters para examinar la
idoneidad de las expresiones propuestas como estimadores.
Denicin 5.5. Consideremos una poblacin X cuya distribucin depende de cierto
parmetro desconocido , esto es, F
X
(x, ). Si de esta poblacin extraemos m.a.s.
de tamao n, (X
1
, . . . , X
n
), entonces la distribucin de probabilidad muestral vendr
dada para cada realizacin (x
1
, . . . , x
n
), por la expresin:
F(x
1
, . . . , x
n
, ) =
n
i=1
F(x
i
, )
Esta expresin ha sido obtenida en el primer epgrafe de este tema cuando la distribucin no de-
penda de ningn parmetro. En este caso el razonamiento sera anlogo.
La consideracin de F como funcin de parmetros poblacionales desconocidos
conlleva nuevas interpretaciones para esta expresin, y ms concretamente para su
derivada que recibe la denominacin de funcin de verosimilitud (f.v.) y se denota
habitualmente por L (del trmino ingls Likelihood).
L = L(x
1
, . . . , x
n
) =

n
F(x
1
, . . . , x
n
, )
x
1
x
n
=
n
i=1
F(x
i
, )
x
i
Segn la tipologa de la variable X, la f.v. puede ser expresada como:
170
L(x
1
, . . . , x
n
, ) =
n
i=1
p(x
i
, ) para el caso discreto
L(x
1
, . . . , x
n
, ) =
n
i=1
f(x
i
, ) para el caso continuo
De este modo, si consideramos un valor jo -aunque desconocido- del parmetro, que
designamos por
, la expresin L(x
1
, . . . , x
n
,
) representa la probabilidad de la
muestra aleatoria (x
1
, . . . , x
n
).
De modo alternativo, si disponemos de una realizacin muestral concreta (x
1
, . . . , x
n
),
la expresin L(x
1
, . . . , x
n
, ) depender nicamente del parmetro , respondiendo as
a su denominacin como funcin de verosimilitud (evala la verosimilitud o credibili-
dad de una observacin muestral concreta en funcin del parmetro ).
A modo de ilustracin, consideremos dos ejemplos con los que trabajaremos a lo largo de este tema.
El primero de ellos se corresponde con una variable aleatoria discreta X que recoge si un individuo
activo se encuentra o no en paro, y por tanto sigue un modelo de Bernoulli de parmetro p, cuya
distribucin de probabilidad viene dada por la expresin:
p(x
i
, p) = p
x
i
(1 p)
1x
i
, x
i
= 0, 1
Por lo tanto, a partir de una muestra de tamao n se obtendra la funcin de verosimilitud:
L(x
1
, . . . , x
n
, p) =
n
i=1
p(x
i
, p) =
n
i=1
p
x
i
(1 p)
1x
i
= p
n
i=1
x
i
(1 p)
n
n
i=1
x
i
que, segn las interpretaciones anteriormente comentadas, para valores jos de p proporciona la
distribucin muestral, mientras que para cada muestra concreta evala su verosimilitud en funcin
de la tasa de paro p.
Consideremos por otra parte una variable continua que recoge el gasto mensual de los hogares y
se distribuye segn un modelo normal en el que, para mayor operatividad, asumimos una dispersin
unitaria. A partir de la distribucin X N(, = 1) se obtiene:
L(x
1
, . . . , x
n
, p) =
n
i=1
f(x
i
, p) =
n
i=1
1
2
e
1
2
(x
i
)
2
=
1
(2)
n
2
e
1
2
n
i=1
(x
i
)
2
La interpretacin de L como funcin de verosimilitud equivale a asumir una realizacin muestral
concreta, es decir, determinados hogares para los que se ha examinando el gasto mensual. De este
modo, no existe ya incertidumbre sobre la muestra, y L(x
1
, . . . , x
n
, ) mide su verosimilitud para
cada potencial gasto esperado .
La funcin de verosimilitud genrica es L(x
1
, . . . , x
n
, ) con , expresin que para valores
concretos del parmetro proporciona resultados L(x
1
, . . . , x
n
, ) [0, 1], que evalan el nivel de
credibilidad o verosimilitud de nuestra realizacin muestral para cada valor potencial de .
Por tanto, si para dos posibles valores del parmetro
1
y
2
se tiene L(x
1
, . . . , x
n
,
1
) < L(x
1
, . . . , x
n
,
2
)
parece razonable armar que la probabilidad de haber obtenido la muestra (x
1
, . . . , x
n
) sera mayor
con el valor
2
que con
1
. Esta interpretacin de la funcin de verosimilitud ha inspirado un mtodo
de obtencin de estimadores que analizaremos en un apartado posterior.
En nuestro ejemplo de la tasa de paro, imaginemos que sobre una muestra de 20 activos hemos
observado 5 parados. Si asumimos para mayor claridad que el parmetro p (tasa de paro) pertenece
a un espacio paramtrico con slo dos valores = {0, 1; 0, 3}, entonces se tiene:
L(x
1
, . . . , x
n
, p = 0, 1) = 0, 1
5
0, 9
15
171
L(x
1
, . . . , x
n
, p = 0, 3) = 0, 3
5
0, 7
15
vericndose L(x
1
, . . . , x
n
, p = 0, 1) < L(x
1
, . . . , x
n
, p = 0, 3), con lo cual concluiramos que p = 0, 3
es el valor de la tasa de paro que hace ms verosmil la muestra seleccionada.
5.4. Propiedades de los estimadores
A la vista del planteamiento general del apartado anterior, sera posible construir
innitos estadsticos con capacidad de resumir la informacin muestral. Sin embargo,
los parmetros interesantes de una poblacin son a menudo sus caractersticas ms dis-
tintivas: la esperanza, la varianza, la proporcin, ... y los estadsticos que analizaremos
tendrn en general vocacin de estimadores de estos parmetros.
Consideremos una v.a. X con distribucin de probabilidad F(x, ) cuyo parmetro
pretendemos aproximar a partir de la informacin suministrada por una m.a.s.
Existiran numerosas expresiones que proporcionan estimaciones del parmetro y,
dado que en la prctica la utilizacin de una u otra no va a resultarnos indiferente,
debemos enunciar los requisitos considerados deseables en un buen estimador, que
servirn para discriminar entre expresiones alternativas.
5.4.1. Ausencia de sesgo
Un primer requisito deseable en un estimador es que su comportamiento sea "im-
parcial" o centrado, que no conduzca sistemticamente a subvaloraciones o sobreva-
loraciones del parmetro. Esta propiedad se conoce como ausencia de sesgo.
Al asumir como objetivo la aproximacin de un parmetro desconocido , las li-
mitaciones de informacin hacen inevitable la presencia de errores o desviaciones. De
este modo, es posible denir:
Denicin 5.6. Se denomina error aleatorio asociado a T que se genera como dife-
rencia entre el estimador y el parmetro desconocido:
e
T
= T
En el caso de que el origen de estos errores sea nicamente aleatorio, sin que se
presente ninguna componente de tipo sistemtico, se puede asumir fcilmente que
stos llegarn a compensarse, dando lugar a un error esperado nulo, E(e
T
) = 0 .
El requisito de ausencia de sesgo exige que no haya intencionalidad en los errores,
esto es, que las desviaciones tengan carcter aleatorio y por tanto exista neutralidad
en el proceso de estimacin. Cuando una expresin T satisface esta condicin de
neutralidad recibe la denominacin de estimador insesgado o centrado.
Denicin 5.7. Se dice que T(X
1
, . . . , X
n
) es un estimador insesgado del parmetro
si el valor esperado de su error aleatorio asociado existe y es nulo para cualquier
valor posible del parmetro (E(e
T
) = 0 o equivalentemente E(T) = ).
172
Cuando un estimador es centrado, su valor esperado coincide con el parmetro que
pretende aproximar. De ah que el requisito de ausencia de sesgo se exija habitualmente
a los estimadores como garanta de su carcter objetivo.
En el caso de que un estimador T no sea centrado para estimar el parmetro
(E(e
T
) ,= 0) se denomina sesgado. Para cuanticar el sesgo o desviacin sistem-
tica inherente a un estimador comparamos su valor esperado con el parmetro que
pretende aproximar.
Denicin 5.8. El sesgo introducido por un estimador T para estimar un parmetro
viene denido por la expresin:
B
T
() = E(e
T
) = E(T)
Dicho sesgo ser una funcin del parmetro , que habitualmente se denota con la
inicial del trmino ingls Bias.
Cuando un estimador T lleva asociado un sesgo positivo (esto es, un error esperado
positivo) dicho estimador se desva sistemticamente al alza" en su aproximacin del
parmetro desconocido, y lo contrario sucede para los estimadores con sesgo negativo
(conducen a subestimaciones sistemticas de ). Por ltimo, los estimadores que lle-
van asociados sesgos o errores esperados nulos han sido denidos anteriormente como
centrados o insesgados.
Consideremos de nuevo la v.a. gasto mensual de los hogares, X A(, 1) de la que
se ha extrado una m.a.s. de tamao n = 4, deniendo las tres expresiones siguientes
como estimadores del parmetro = E(X):
T
1
=
X
1
+X
2
+X
3
+X
4
4
; T
2
=
2X
1
+X
4
4
; T
3
X
1
+X
2
+ 2X
3
+X
4
+ 50
5
Se comprueba fcilmente que slo el primero de los estimadores propuestos es cen-
trado o insesgado para estimar por ser el nico que conduce a un error esperado nulo
o, equivalentemente, el nico que presenta esperanza coincidente con el parmetro :
E(T
1
) = ; E(T
2
) = 0, 75 ; E(T
3
) = + 10
[Comprubese]
Calculando ahora los sesgos de los estimadores anteriores B
T
() = E(T) se
obtiene:
B
T
1
() = 0 ; B
T
2
() = 0, 25 ; B
T
3
() = 10
informando estos valores sobre la direccin y la cuanta del error sistemtico cometido
con cada estimador.
En el caso de T
1
el sesgo es nulo ya que dicho estimador es centrado y por tanto no
introduce ningn error de carcter no aleatorio. En cambio no sucede lo mismo con
T
2
y T
3
.
173
Analizando las expresiones de los sesgos se aprecia que T
2
subestima el verdadero
valor de , ya que B
T
2
() = 0, 25 mientras que para T
3
se obtiene un sesgo positivo
B
T
3
() = 10 y por tanto una sobreestimacin del parmetro.
Se observa adems que en ciertos casos particulares (para T
3
, por ejemplo) el sesgo
adopta valor constante (en este caso 10 unidades). En general sin embargo el sesgo
es funcin del parmetro desconocido (situacin que se presenta por ejemplo para el
estimador T
3
, cuya expresin sobreestima sistemticamente el parmetro ).
Cuando el sesgo viene expresado en funcin de no puede ser calicado de alto o
bajo ya que desconocemos la magnitud de . Puede entonces resultar til denir el
sesgo relativo, como cociente entre el sesgo y el parmetro desconocido:
B
R
T
() =
B
T
()
A modo de ilustracin, para el estimador T

2
se tena un sesgo B
T
2
() = 0, 25 que
expresado en trminos relativos proporciona el valor B
R
T
2
() = 0, 25. Este resultado
permite armar que T
2
subestima el parmetro en un 25 % de su valor.
Los estimadores insesgados presentan propiedades interesantes:
Proposicin 5.1. Si T es un estimador insesgado de , entonces aT + b es un esti-
mador insesgado de a +b, a, b 1.
Demostracin. La comprobacin de esta propiedad es inmediata, con slo tener pre-
sente que la esperanza es un operador lineal:
E(aT +b) = aE(T) +b = a +b
Proposicin 5.2. Si T
1
y T
2
son dos estimadores insesgados de entonces cualquier
combinacin convexa de ellos es tambin un estimador insesgado.
Demostracin. En efecto, si T
1
y T
2
son insesgados, se tiene: E(T
1
) = y E(T
2
) = .
Dada ahora una combinacin convexa: T = T
1
+ (1 )T
2
, 0 < < 1, su valor
esperado viene dado por:
E(T) = E(T
1
+ (1 )T
2
) = E(T
1
) + (1 )E(T
2
) = + (1 ) =
y por tanto T es insesgado.
As pues, si existen dos estimadores insesgados, entonces existen innitos.
La gura 5.4 recoge una ilustracin grca de la idea de estimador centrado o
insesgado. En dicha gura representamos el proceso de estimacin como lanzamientos
sucesivos de dardos a una diana, cuyo punto central se corresponde con el parmetro
174
Figura 5.4.: Eciencia
Estimador T
a
Estimador T
b
desconocido . Los lanzamientos representados son equivalentes a las estimaciones
obtenidas al aplicar T a las realizaciones muestrales, y el error de estimacin es en
cada caso la distancia del dardo al centro de la diana. La gura a) representa una
situacin de ausencia de sesgo en la que los errores cometidos al estimar se compensan
por no tener carcter sistemtico. Los dardos lanzados se distribuyen aleatoriamente
alrededor del centro de la diana o, en otras palabras, las estimaciones se distribuyen
aleatoriamente en torno al parmetro por lo cual E(T
a
) = .
La gura 5.4b) representa una situacin bastante distinta, en la que los dardos
lanzados presentan un error sistemtico o sesgo. En este caso los errores cometidos
no parecen debidos nicamente al azar sino ms bien a algn fallo del proceso (algn
defecto de vista del propio tirador, corrientes de aire, un arco defectuoso, ...) por lo
cual la esperanza ya no es el centro de la diana, sino que se sita en la parte superior
derecha.
5.4.2. Eciencia
El criterio de ausencia de sesgo exige que el valor esperado de los errores sea nulo;
sin embargo, este requisito no ofrece garantas respecto al riesgo de obtener estima-
ciones muy alejadas del parmetro.
En efecto, si examinamos de nuevo los grcos de la gura 5.4 vemos que pueden existir estimadores
insesgados cuyo uso no resulta aconsejable. Esta sera la situacin del estimador T
a
, ya que su
esperanza (resumen de los lanzamientos) coincide con el parmetro (centro de la diana) pero sin
embargo puede conducir a estimaciones muy distantes del valor central (alta dispersin).
Por el contrario el estimador T
b
presenta un sesgo pero, frente a este rasgo negativo, el estimador
tiene a su favor la baja dispersin (los dardos se encuentran concentrados en un radio pequeo, lo
que equivaldra a estimaciones muy prximas entre s).
Supongamos que deseamos elegir un estimador de entre varias expresiones alterna-
tivas. Si estas expresiones resultan indiferentes respecto al sesgo (es decir, si todos son
insesgados o bien presentan sesgos idnticos) parece claro que deberamos seleccionar
el estimador con menor riesgo o varianza.
175
Sin embargo, en general necesitaremos comparar estimadores con diferentes sesgos,
por lo cual debemos considerar un criterio ms amplio de seleccin, que tenga en
cuenta tanto el sesgo como el nivel de riesgo asociados a un estimador. Surge as la
idea de eciencia.
Para comparar la eciencia de varios estimadores alternativos de un parmetro
estudiaremos los errores asociados a los mismos que, para evitar compensaciones
de signo, elevamos al cuadrado. Este planteamiento conduce al concepto de error
cuadrtico medio.
Denicin 5.9. El error cuadrtico medio (ECM) asociado a un estimador T del
parmetro es una medida de eciencia denida como el valor esperado del error
cuadrtico de T:
ECM
T
() = E(e
2
T
) = E(T )
2
Dicha medida puede tambin ser formulada como:
ECM
T
() = B
2
T
() +V ar(T)
expresin que se obtiene fcilmente a partir de la anterior y permite distinguir dentro
del error cuadrtico medio dos componentes: sesgo y varianza.
En efecto, a partir de la expresin de la varianza del error V ar(e
T
) = E
_
e
2
T
_
E
2
(e
T
), se obtiene:
E
_
e
2
T
_
= E
2
(e
T
) +V ar(e
T
) = B
2
T
() +V ar(T)
con slo aplicar la denicin de sesgo de T y tener en cuenta que se cumple V ar(e
T
) = V ar(T) [por
qu ?].
Otra alternativa ms habitual para llegar a esta expresin consiste en desarrollar el cuadrado del
error:
ECM
T
() = E
_
e
2
T
_
= E(T )
2
= E(T
2
2T +
2
) = E(T
2
) +
2
2E(T) =
= E(T
2
) E
2
(T) +E
2
(T) +
2
2E(T) = V ar(T) +B
2
T
()
El error cuadrtico medio es el criterio utilizado para comparar la eciencia de varios
estimadores de un parmetro.
Denicin 5.10. Para cualesquiera T
1
y T
2
estimadores de se dir que T
1
es ms
eciente que T
2
si su error cuadrtico medio es inferior:
ECM
T
1
() < ECM
T
2
()
Volviendo al ejemplo anteriormente considerado, podemos construir ahora los ECM de las tres
expresiones propuestas como estimador del gasto esperado . Teniendo en cuenta los dos componentes
sesgo y varianza, se obtienen los resultados recogidos a continuacin:
Estimador Sesgo Varianza ECM
T
1
=
X
1
+X
2
+X
3
+X
4
4
0
1
4
1
4
T
2
=
2X
1
+X
4
4
0, 25
5
16
0, 0625
2
+
5
16
T
3
X
1
+X
2
+2X
3
+X
4
+50
5
10
7
25
100 +
7
25
176
que permiten concluir que, de las tres expresiones consideradas como estimadores del gasto men-
sual esperado, T
1
resulta ser la ms eciente.
El requisito de eciencia permite formalizar las propiedades de precisin y exactitud
o acuracidad a las que nos hemos referido en un apartado anterior. La precisin va
referida a la concentracin de la distribucin de las estimaciones respecto al valor es-
perado, y por tanto aparece relacionada inversamente con la dispersin y su indicador,
la varianza.
Por su parte, el requisito de exactitud o acuracidad es ms estricto, por ir referido
a la concentracin de la distribucin de estimaciones respecto al valor verdadero del
parmetro y aparece por tanto inversamente relacionado con el error cuadrtico medio.
Consideremos de nuevo la ilustracin grca 5.4 de los estimadores T
a
y T
b
, plantendonos la
pregunta cul de estos estimadores resultara -en trminos relativos- ms eciente?
La comparacin de la eciencia de ambos estimadores nos llevar a considerar simultneamente
los componentes de sesgo y riesgo a travs del ECM.
Razonando en trminos grcos a partir de la gura 5.4, el estimador T
b
tiene un sesgo representado
por el segmento B
T
(), mientras que su dispersin puede ser cuanticada a partir del radio de la
circunferencia en la que se incluyen las estimaciones. Si a partir de ambos componentes construimos
un tringulo, el cuadrado de su hipotenusa se correspondera con el ECM, y podra obtenerse como
suma de los cuadrados de los catetos, es decir:
ECM
T
b
() = B
2
T
b
() +V ar(T
b
)
alcanzando esta expresin valores ms reducidos cuanto ms eciente sea T
b
.
Por su parte, el estimador T
a
es insesgado, presentando por tanto un ECM coincidente con su
varianza (aproximacin -salvo constante- del rea del crculo en el que se inscriben las estimaciones).
5.4.3. Mnima varianza
Hasta ahora hemos estudiado la eciencia como criterio de seleccin entre varios
estimadores. Sin embargo, teniendo en cuenta que podran existir mltiples expresio-
nes vlidas como estimadores de cierto parmetro, cabe preguntarse cmo es posible
seleccionar aqulla que resulte, en sentido absoluto, ms eciente.
Denicin 5.11. Se dice que un estimador T = T(X
1
, . . . , X
n
) es eciente cuando
es insesgado y posee mnima varianza.
La condicin de mnima varianza no resulta tan inmediata en su comprobacin como
la de ausencia de sesgo. Sin embargo es posible establecer una cota inferior para la
varianza de cualquier estimador, de modo que si un estimador concreto alcanza esta
cota podemos garantizar que no existe ningn otro estimador de varianza inferior.
Esta acotacin, denominada desigualdad de Frechet-Cramer-Rao, permite una de-
nicin alternativa de la eciencia:
Teorema 5.1. Sea x = (x
1
, . . . , x
n
) una muestra aleatoria extrada de una poblacin
X con distribucin F(x, ) y denotemos por L(x, ) la funcin de verosimilitud aso-
ciada. Si T es un estimador cualquiera de , entonces la varianza de T verica, bajo
ciertas condiciones de regularidad, la desigualdad:
177
V ar(T)
_
1 +
B
T
()
_
2
E
_
ln L(x, )
_
2
Las condiciones de regularidad necesarias para la demostracin de la desigualdad anterior hacen
referencia a que el campo de variacin de X no dependa del parmetro , que el espacio paramtrico
sea un intervalo que no se reduce a un punto, que existan derivadas de primero y segundo orden de la
funcin de verosimilitud y que se puedan permutar las operaciones de derivabilidad e integrabilidad.
De estas condiciones nos interesa especialmente la primera, que iremos comprobando en las ilus-
traciones de este captulo.
En la acotacin de Frechet-Cramer-Rao (F-C-R) puede observarse que slo el nume-
rador depende del estimador considerado. En el caso particular de que dicho estimador
sea insesgado, el numerador adopta valor unitario.
Por lo que se reere al denominador de la cota de Frechet-Cramer-Rao, se trata de
una expresin de gran inters, denotada habitualmente por I
n
y denominada cantidad
de informacin de Fisher. Esta medida es un indicador de la cantidad de informacin
que la muestra contiene sobre el parmetro y para cada muestra aleatoria x viene
dada por la expresin:
I
n
(x, ) = E
_
ln L(x, )
_
2
Entre los rasgos de esta medida de informacin destacan los siguientes:
Proposicin 5.3. La cantidad de informacin de Fisher puede ser tambin expresada de forma
ms operativa como:
Proposicin.
I
n
(x, ) = E
_
2
ln L(x, )
2
_
Demostracin. Primero comprobamos:
E
_
ln L(x, )
_
=
ln L(x, )
L(x, )dx =
_
L(x, )
1
L(x, )
_
L(x, )dx =
=

L(x, )dx =

(1) = 0
Con lo cual su derivada tambin es nula:

ln L(x,)
L(x, )dx
_
= 0, y desarrollando esta
derivada se tiene:
0 =

_
ln L(x, )
L(x, )dx
_
=
_
_
_
_
_
_
2
ln L(x, )
2
L(x, ) +
ln L(x, )
L(x, )
. .
=
ln L(x,)
L(x,)
_
_
dx
178
Por lo tanto:
0 =
_
_
_
_
_
_
_
2
ln L(x, )
2
L(x, ) +
ln L(x, )
ln L(x, )
. .
ln L(x,)
2
L(x, )
_
_
dx
o lo que es lo mismo:
_
ln L(x, )
_
2
L(x, )dx =
_
2
ln L(x, )
2
_
L(x, )dx
que, por denicin de esperanza, coincide con lo que queremos demostrar:
E
_
ln L(x, )
_
2
= E
_
2
ln L(x, )
2
_
Proposicin 5.4. La cantidad de informacin es una medida aditiva en el sentido de que la
informacin de Fisher contenida en una m.a.s. de tamao n coincide con la suma de la informacin
contenida en n muestras de tamao unitario:
I
n
(x, ) = nI
1
(x, )
Demostracin. Partiendo de la denicin de la cantidad de informacin, se tiene:
I
n
(x, ) = E
_
ln L(x,)
_
2
= E
_

ln
_
n
i=1
f(x
i
, )
__
2
=
= E
_

n
i=1
ln f(x
i
, )
_
2
= E
_
n
i=1
ln f(x
i
, )
_
2
Desarrollando ahora el cuadrado de esta suma y teniendo en cuenta que los componentes de una
m.a.s son independientes se llega al enunciado propuesto:
I
n
(x, ) = E
_
n
i=1
_

ln f(x
i
, )
_
2
_
+E
_
j=j
_

ln f(x
i
, )
_ _

ln f(x
j
, )
_
_
=
=
n
i=1
E
_

ln f(x
i
, )
_
2
+
j=j
E
_

ln f(x
i
, )
_
E
_

ln f(x
j
, )
_
. .
=0 (propiedad anterior)
=
= nE
_

ln f(x, )
_
2
= nI
1
(x, )
Con lo cual queda demostrada la propiedad enunciada.
Esta propiedad de aditividad permite obtener la cantidad de informacin asociada a una muestra
global como suma de las cantidades de informacin correspondientes a las distintas submuestras que
la integran. Es interesante sealar sin embargo que este rasgo de aditividad es susceptible de crticas,
dado que no recoge la existencia de "rendimientos marginales decrecientes" en la informacin mues-
tral.
Desde un punto de vista intuitivo, parece claro que la cantidad de informacin sobre aportada
por el primer elemento de la muestra I
1
(x
1
, ) supera la cantidad de informacin incorporada por el
179
elemento n-simo I
1
(x
n
, ), ya que en el primer caso se parte de una situacin de desconocimiento
mientras que la informacin asociada al elemento n-simo I
1
(x
n
, ) se incorpora a partir de un nivel
determinado de informacin I
n1
(x
1
, . . . , n
n1
, ).
A modo de ilustracin, calculemos la cantidad de informacin y la acotacin de Frechet-Cramer-
Rao correspondientes a nuestro ejemplo del gasto normalmente distribuido con dispersin unitaria.
Debemos tener presente que dicha acotacin slo se cumple bajo ciertas condiciones de regularidad.
En concreto, en nuestro ejemplo asumimos un modelo N(, 1) por lo cual el recorrido de la variable
es (, +) que no depende del parmetro, y el espacio paramtrico no se reduce a un punto por
incluir todos los posibles valores de .
La funcin de verosimilitud, obtenida anteriormente, viene dada por la expresin:
L(x, ) =
1
(2)
n
2
e
1
2
n
i=1
(x
i
)
2
A partir de la cual se obtiene:
ln L(x, ) =
n
2
ln(2)
1
2
n
i=1
(x
i
)
2
Y derivando respecto al parmetro :
ln L(x, ) =
n
i=1
(x
i
) =
n
i=1
x
i
n
2
ln L(x, ) = n
Se obtiene entonces para la cantidad de informacin de la muestra:
I
n
(x, ) = E
_
2
ln L(x, )
2
_
= E(n) = n
es decir, la cantidad de informacin sobre contenida por una muestra coincide con su tamao n.
Teniendo en cuenta que se cumplen las condiciones de regularidad, la acotacin de Frechet-Cramer-
Rao permite armar:
V ar(T) >
_
1 +
B
T
()
_
2
n
A partir de esta expresin es sencillo comprobar que la media muestral es un estimador eciente,
ya que su varianza sera:
V ar(

X) =

2
n
=
1
n
y la cota de F-C-R, cuyo numerador es unitario por ser el estimador insesgado, adopta el mismo
valor:
_
1 +
B
X
()
_
2
n
=
1
n
180
5.4.4. Suciencia
Un estudio muestral no podr ser calicado de adecuado si desperdicia o ignora
parte de la informacin disponible. De ah el concepto de suciencia, entendido como
capacidad de un estadstico para conservar toda la informacin que contiene una
muestra.
Un estadstico suciente deber resultar igualmente til -en cuanto al objetivo per-
seguido en cada caso- que la muestra inicial. Como recoge el esquema siguiente, la idea
de suciencia exige que toda la informacin de la muestra sea recogida o "atrapada"
por T y en consecuencia, la distribucin de la muestra una vez conocido T ya no
depender del parmetro .
'
&
$
%
Muestra
(X
1
, . . . , X
n
)
Sntesis
Informacin
sobre la poblacin
Estimador
T(X
1
, . . . , X
n
) Suciente?
Como ilustra el esquema anterior, la utilizacin de estimadores supone en cierto
sentido la aplicacin de un ltro a nuestra informacin muestral. Desde un punto de
vista conceptual, la propiedad de suciencia resulta muy intuitiva, ya que se traducir
en que dicho ltro sea capaz de "asimilar" toda la informacin muestral disponible.
No obstante, desde un punto de vista "tcnico" la comprobacin de la suciencia no
resulta sencilla.
El concepto de estadstico suciente fue introducido por Fisher en 1922. Segn dicho autor, un
estadstico es suciente para los objetivos de la inferencia estadstica si contiene, en cierto sentido,
toda la informacin acerca de la funcin de distribucin a partir de la cual se ha generado la muestra.
Consideremos a modo de ejemplo la estimacin del parmetro poblacional tasa de paro p. La
situacin de cada individuo activo se describe mediante una v.a. dicotmica X que adopta el valor
1 si el individuo se encuentra en paro y 0 en caso contrario, y a partir de muestras de 5 individuos
activos se proponen dos estimadores alternativos de p:
T
1
=
1
5
5
i=1
X
i
; T
2
=
1
5
(2X
1
+X
2
+X
5
)
5
4
2
3
Estimadores
V.A. T
1
T
2
(0,1,0,0,0)
1
5
1
5
(0,1,1,1,0)
3
5
1
5
(1,0,0,0,0)
1
5
2
5
Como se aprecia en el cuadro anterior, los estimadores presentan comportamientos distintos frente
al requisito de suciencia. Para estudiar este comportamiento, consideremos las tres muestras alea-
torias representadas, que reejan situaciones claramente distintas: en la primera y la tercera hay slo
un individuo parado, mientras que en la segunda el nmero de parados se eleva a 3.
181
Cmo recogen esta informacin muestral los dos estimadores propuestos para p? Puede verse que
T
1
es capaz de diferenciar las situaciones muestrales registradas pero no sucede lo mismo con T
2
,
estimador para el que se aprecian dos tipos de contradicciones:
Por una parte, T
2
adopta el mismo valor (
1
5
) para dos situaciones muestrales distintas (la primera
muestra con un slo individuo en paro y la segunda con 3 parados).
Adems, se observa que T
2
adopta valores distintos para dos situaciones muestrales que resultan
indiferentes. En efecto, la tercera situacin se obtiene como permutacin de la primera, registrando
ambas un slo individuo parado; sin embargo los valores de T
2
asociados a dichas muestras son
1
5
y
2
5
respectivamente.
Denicin 5.12. Se dice que T es un estimador suciente de si y slo si la
distribucin de una realizacin muestral (x
1
, . . . , x
n
) condicionada a un valor T = t
no depende del parmetro , esto es, si la expresin: F(x
1
, . . . , x
n
/T) = t) no depende
de .
La denicin anterior no resulta de fcil aplicacin, ni permite conocer las modi-
caciones necesarias para transformar el estimador en otro suciente. Debido a estas
limitaciones, el mtodo ms habitual para comprobar la suciencia de los estadsticos
es el teorema de factorizacin de Fisher-Neyman:
Teorema 5.2. Sea (X
1
, . . . , X
n
) una m.a.s. de una poblacin X, con funcin de
verosimilitud L(x
1
, . . . , x
n
, ) con y sea T = T(X
1
, . . . , X
n
) un estadstico para
estimar . Entonces T es suciente si y slo si es posible la siguiente factorizacin:
L(x
1
, . . . , x
n
, ) = h(x
1
, . . . , x
n
)t(t, ) ; (x
1
, . . . , x
n
) 1
n
donde h es una funcin no negativa que slo depende de la muestra (x
1
, . . . , x
n
) y g
es una funcin no negativa que slo depende de y del valor del estadstico t.
En este enunciado del teorema de factorizacin se asume que se cumplen las condi-
ciones de regularidad exigidas por la acotacin de Frechet-Cramer-Rao. En otro caso
sera necesario que g(t, ) coincidiera con la funcin de densidad del estimador consi-
derado.
Bajo las condiciones de regularidad, un mtodo alternativo para comprobar la su-
ciencia de un estimador se basa en la cantidad de informacin. Recordando el propio
concepto de suciencia, diremos que un estimador T de es suciente si y slo si la
cantidad de informacin contenida en T coincide con la informacin de la muestra, es
decir, si se cumple:
I
n
(x, ) = I(T, ) ; x = (x
1
, . . . , x
n
) 1
n
El concepto de suciencia lleva asociadas varias propiedades de inters:
Proposicin 5.5. Toda funcin inyectiva de un estimador suciente es tambin su-
ciente
182
Proposicin. Si T
1
y T
2
son estimadores, el primero suciente y el segundo con error
cuadrtico medio determinado, entonces es posible obtener otro estimador T
3
, funcin
del suciente y con error cuadrtico medio inferior al de T
2
.
La segunda propiedad permite limitar el nmero de estimadores a considerar en un
problema: bastara con elegir un estimador suciente, estudiando slo los que fuesen
funcin de l ya que entre ellos estara el ptimo, entendido como aqul que minimiza
el error cuadrtico medio. Como consecuencia de ambas propiedades es posible ar-
mar que la clase de estimadores ecientes es un subconjunto de la clase de estimadores
sucientes.
La media muestral es un estimador suciente de la esperanza poblacional . En
concreto, para nuestro ejemplo del gasto normalmente distribuido X A(, 1), a
partir de la funcin de verosimilitud:
L(x, ) =
1
(2)
n
2
e
1
2
n
i=1
(x
i
)
2
se obtiene, desarrollando el sumatorio del exponente:
L(x, ) =
1
(2)
n
2
e
1
2
n
i=1
(x
i
+ x x)
2
=
1
(2)
n
2
e
1
2
n( x)
e
1
2
n
i=1
(x
i
x)
2
expresin que cumple el criterio de factorizacin de Fisher-Neyman, ya que:
1
(2)
n
2
e
1
2
n( x)
= g( x, ) y e
1
2
n
i=1
(x
i
x)
2
= h(x
1
, . . . , x
n
)
Siguiendo el mtodo alternativo anteriormente comentado, para vericar la sucien-
cia de la media muestral basta comprobar que su cantidad de informacin coincide
con la de la muestra, esto es:
I
n
(x, ) = I( x, ) ; x = (x
1
, . . . , x
n
) 1
n
Para el primer trmino de la igualdad ya hemos obtenido I
n
(x, ) = n y para
calcular el segundo basta con tener presente que por ser X A(, 1), se tiene
X A
_
,
1
n
_
con lo cual su distribucin de probabilidad viene dada por:
f( x, ) =
1
1
2
e
1
2
_
x
1
n
_
2
obtenindose a partir de ella:
183
Tabla 5.1.: Consistencia
9
8
6
7
(X
1
, . . . , X
n
)
.
.
.
(X
1
, . . . , . . . , X
n
)
n
T
n
+
lm
n
P ([T
n
[ < ) = 1
I( x, ) = E
_
2
ln f( x, )
2
_
= n
[Comprubese].
5.4.5. Consistencia
Las propiedades que hemos examinado hasta ahora asumen como dado el tamao
muestral. Sin embargo, parece razonable que cuando la muestra aumente de tamao se
disponga de ms informacin y tengamos una seguridad mayor de que las estimaciones
se concentran en torno al verdadero valor del parmetro. Este requisito, denominado
consistencia, se incluye tambin entre las propiedades exigidas a los estimadores.
El requisito de consistencia viene ilustrado en el esquema 5.1, donde los aumentos
en el tamao de la muestra se corresponden con estimadores que, cada vez con mayor
probabilidad, adoptarn valores en determinado entorno de .
Denicin 5.13. Si partimos de una muestra cuyo tamao podemos aumentar inde-
nidamente (n ) y consideramos la sucesin de estimadores T
n
de (cada uno
de ellos asociado a un tamao de muestra), se dice que esta sucesin es consisten-
te si converge en probabilidad al valor del parmetro. Es decir, la sucesin estima
consistentemente a si:
> 0, , lm
n
P ([T
n
[ > ) = 0
184
Este enunciado puede ser tambin interpretado en trminos del error ya que, a me-
dida que el tamao muestral aumenta, los errores e
T
n
= T
n
convergen a 0.
Si consideramos el ejemplo de los gastos mensuales con el que venimos trabajando, para comprobar
el requisito de consistencia bastara con tener en cuenta que

X N
_
,
1
n
_
, y por tanto (

X)
n
N(0, 1), con lo cual se obtiene:
P
_
|

X | <
_
= P
_
|

X |
n <
n
_
= P
_
n < (

X )
n <
n
_
= 2F
X
_
n
_
1
y bastara con tomar valores sucientemente elevados de n para que la probabilidad anterior se apro-
xime a 1 (y en consecuencia su complementaria a 0) tanto como queramos.
La aplicacin general del criterio de consistencia al estimador media muestral puede ser efectuada
gracias a la ley dbil de los grandes nmeros, cuyo postulado es:
, lm
n
P
_
|

X | >
_
= 0
y permite calicar a la media muestral de estimador consistente de la media poblacional.
Una formulacin alternativa del criterio de consistencia, viene dada en los siguientes trminos:
dada una sucesin de estimadores T
n
del parmetro , se dice que T
n
es consistente para si se
cumple:
lm
n
E(T
n
) = , lm
n
V ar(T
n
) = 0
Aunque el concepto de consistencia hace referencia a una sucesin de estimadores, habitualmente
se presupone que todos sus miembros gozan de las mismas propiedades, hablando as de estimadores
consistentes.
5.5. Mtodos de obtencin de estimadores
En el epgrafe anterior nos hemos ocupado de las propiedades que debe vericar un
buen estimador, pero no hemos abordado el problema de cmo obtenerlos.
Aunque existen varios procedimientos alternativos, posiblemente el primer criterio
al que acudiramos para construir estimadores sera el de analoga.
Denicin 5.14. Para estimar cierta caracterstica poblacional, denominamos esti-
mador analgico a la correspondiente expresin muestral.
Este mtodo es altamente intuitivo, pero sin embargo resulta poco riguroso ya que
no disponemos de herramientas para comprobar de modo general si los estimadores
analgicos cumplen o no las propiedades consideradas deseables.
5.5.1. Mtodo de la mxima verosimilitud
El procedimiento ms empleado para la obtencin de estimadores es el mtodo de la
mxima verosimilitud, debido a las buenas propiedades que presentan los estimadores
que genera.
185
Tabla 5.2.: Estimacin mximo verosmil
1
0
(
)
Zonas Tasa de paro Verosimilitud EMV
Europa 12 % L=0,0098 p = 12%
EEUU 6,2 % L=0,0032
Japn 2,5 % L=0,0007
El planteamiento subyacente a este mtodo es muy intuitivo, tal y como ilustramos
en el siguiente ejemplo, y consiste en aprovechar la informacin muestral para obtener
estimaciones verosmiles de los parmetros desconocidos.
Consideremos una nueva ilustracin basada en nuestro ejemplo de la tasa de paro: disponemos de
una muestra aleatoria de 5 trabajadores procedentes de una delegacin cuyo origen desconocemos.
Para mayor comodidad asumiremos que existen slo las tres posibilidades siguientes:
Si la muestra fuese la recogida en el esquema de la gura 5.2 cul sera el origen ms verosmil de
los trabajadores? o, dicho de otro modo, cul sera la estimacin mximo-verosmil de la tasa de paro
p? Para responder a esta pregunta utilizaremos la informacin disponible, obteniendo la verosimilitud
de la muestra de trabajadores para cada valor posible de p:
L(0, 1, 1, 0, 0, p
EUROPA
) = 0, 12
2
(1 0, 12)
3
= 0, 0098
L(0, 1, 1, 0, 0, p
EEUU
) = 0, 062
2
(1 0, 062)
3
= 0, 0032
L(0, 1, 1, 0, 0, p
JAP

ON
) = 0, 028
2
(1 0, 028)
3
= 0, 0007
A partir de estos resultados podemos calicar de ms verosmil el primer supuesto (Europa, con tasa
de paro del 12 %), ya que la muestra efectivamente extrada, con dos trabajadores en paro, resulta
ms verosmil o creible en ese caso.
Es fcil observar que en el mtodo de mxima verosimilitud la muestra desempea un papel cen-
tral. En denitiva, el ejemplo anterior se limita a considerar que, si la muestra es representativa de
la poblacin, la muestra mantendr la misma estructura de la poblacin y por tanto resultar ms
probable bajo la composicin correcta que bajo otra cualquiera.
Como hemos visto, el mtodo de mxima verosimilitud consiste en elegir la esti-
macin del parmetro que maximiza la funcin de verosimilitud muestral. Su idea es
muy sencilla, ya que conduce a los valores del parmetro que hacen ms probable la
seleccin de la muestra realmente obtenida.
El principio de mxima verosimilitud puede ser descrito en los siguientes trminos:
Denicin 5.15. Se llama estimacin mximo verosmil del parmetro al valor, si
existe,

= T(x
1
, . . . , x
n
) que maximiza la funcin de verosimilitud, esto es, un valor
tal que:
L(x
1
, . . . , x
n
) = sup
L(x
1
, . . . , x
n
)
186
Al estimador correspondiente se denomina estimador mximo verosmil de o abre-
viadamente EMV ().
Aunque la maximizacin de la funcin de verosimilitud suele conducir a un valor nico

, no puede
garantizarse que esto sea cierto en general.
Adems en ciertas ocasiones el valor

que hace mxima la funcin de verosimilitud no pertenece
al espacio paramtrico , concluyndose entonces que el EMV de no existe.
La obtencin prctica del estimador mximo verosmil parte de la pregunta cul
es la probabilidad de seleccin de una muestra determinada? Para responderla es
necesario construir la funcin de verosimilitud L(x
1
, . . . . , x
n
, ) que depende de la
distribucin de la poblacin y por tanto del parmetro desconocido.
Una vez construida la funcin L (producto de funciones de densidad o de probabi-
lidad segn la variable aleatoria sea continua o discreta) debemos buscar el valor del
parmetro que maximice la probabilidad de la muestra, esto es:
sup
L(x
1
, . . . , x
n
, )
Dado que muchas de las funciones de verosimilitud presentan expresiones exponen-
ciales, en la prctica resulta habitual -para aumentar la operatividad- trabajar con la
funcin de verosimilitud transformada mediante logaritmos neperianos:
sup
ln L(x
1
, . . . , x
n
, )
ya que dicha transformacin (por ser el logaritmo una funcin montona) linealiza las
expresiones a maximizar, sin que ello afecte a sus puntos extremos.
La condicin necesaria de extremo sera:
ln L(x
1
. . . , x
n
, )
= 0
obtenindose a partir de esta igualdad la EMV de , que denotamos por

.
Este valor debe adems vericar la condicin suciente de mximo:
2
ln L(x
1
, . . . , x
n
, )
2
< 0
El mtodo de mxima verosimilitud es consistente con la segunda de las interpre-
taciones contempladas al denir la funcin de verosimilitud L, esto es, asume como
jos los datos muestrales, dependiendo su valor del parmetro desconocido.
El mtodo de mxima verosimilitud traslada importantes propiedades a sus estimadores, lo que es
una buena garanta para utilizar EMV.
Proposicin 5.6. Entre las principales propiedades de los estimadores mximo verosmiles des-
tacan las siguientes:
187
Bajo condiciones generales, los estimadores mximo verosmiles son consistentes y adems su
distribucin converge a una normal de esperanza y varianza
1
I
n
.
El estimador mximo verosmil es invariante; es decir, si T es un estimador mximo verosmil
de entonces g(T) lo es de g(), siendo g una aplicacin entre intervalos abiertos.
Si existe un estimador suciente, entonces el estimador mximo verosmil es funcin de l. Si
adems existe un estimador de mnima varianza, ste es de mxima verosimilitud.
Los estimadores mximo verosmiles son asintticamente ecientes.
Estamos ahora en condiciones de deducir el estimador mximo verosmil de la tasa de paro p.
Siguiendo el mtodo anteriormente expuesto, partimos de una realizacin muestral buscando el
valor p que haga mxima la expresin:
L(x, p) = p
n
i=1
x
i
(1 p)
n
n
i=1
x
i
que, linealizada mediante logaritmos neperianos, conduce a:
ln L(x, p) =
n
i=1
x
i
ln p +
_
n
n
i=1
x
i
_
ln(1 p)
La condicin necesaria de extremo,
ln L(x,p)
p
= 0, sera entonces:
p
_
n
i=1
x
i
ln p +
_
n
n
i=1
x
i
_
ln(1 p)
_
= 0
1
p
n
i=1
x
i
1
1 p
_
n
n
i=1
x
i
_
= 0
cuya solucin conduce al valor:
p =
n
i=1
x
i
n
[Comprubese que se cumple tambin la condicin suciente de mximo]
Con nuestra realizacin muestral anterior (0,1,1,0,0) se obtendra el EMV p =
2
5
= 0, 4; es decir,
una tasa de paro del 40 % maximiza la verosimilitud de la muestra observada.
Obsrvese que el proceso seguido parte de una realizacin muestral concreta (x
1
, . . . , x
n
), por
lo cual proporciona una estimacin mximo verosmil (que ser la solucin de la ecuacin a la que
conduce la condicin de extremo). El estimador mximo verosmil vendr dado por la correspondiente
expresin aleatoria, funcin de la muestra genrica (X
1
, . . . , X
n
), que en el ejemplo anterior sera:
EMV (p) =
n
i=1
X
i
n
De modo anlogo, para deducir el EMV de en el ejemplo de los gastos mensuales, deberamos
partir de la funcin de verosimilitud dada por la expresin:
L(x, ) =
2
(2)
n
2
e
1
2
n
i=1
(x
i
)
2
que una vez linealizada da lugar a la expresin:
ln L(x, ) =
1
2
n
i=1
(x
i
)
2
n
2
ln(2)
Si ahora derivamos respecto al parmetro e igualamos a cero, se tiene el EMV:
188
Tabla 5.3.: Mtodo de los momentos
9
8
6
7
Poblacin X Muestra (X
1
, . . . , X
n)
Momentos Momentos
Poblacionales muestrales
E(X)
n
i=1
X
i
n
E(X
2
)
n
i=1
X
2
i
n
.
.
.
.
.
.
E(X
k
)
n
i=1
X
k
i
n
Sistema de k ecuaciones e incgnitas
1
, . . .
k
ln L(x, )
= 0
n
i=1
(x
i
) = 0 =
n
i=1
x
i
n
= x
con lo cual el correspondiente estimador mximo verosmil vendra dado por la expresin:
EMV () =
n
i=1
X
i
n
=

X
5.5.2. Mtodo de los momentos
Otro procedimiento para la obtencin de estimadores es el mtodo de los momentos,
basado en la conexin entre poblacin y muestra.
Cuando nos planteamos aumentar indenidamente el tamao muestral, extendiendo
la seleccin al conjunto poblacional parece lgico asumir que los resmenes de la
informacin muestral se aproximen a los parmetros desconocidos. De hecho, este es
el planteamiento subyacente en el requisito de consistencia, que inspira tambin un
nuevo procedimiento de obtencin de estimadores llamado mtodo de los momentos.
Denicin 5.16. La estimacin de k parmetros por el mtodo de los momentos con-
siste en resolver el sistema de ecuaciones resultante de igualar los k primeros momen-
tos poblacionales, si existen,
1
, . . . ,
k
a los correspondientes momentos muestrales
a
1
, . . . , a
k
.
Dado que los momentos muestrales son estadsticos obtenidos a partir de la muestra
y los momentos poblacionales dependen de la distribucin probabilstica de la variable
aleatoria X y por tanto del correspondiente parmetro (o parmetros), la igualacin
de los momentos da lugar a un sistema de tantas ecuaciones como incgnitas (k pa-
rmetros), cuya resolucin proporciona los valores considerados como estimaciones de
los parmetros.
Denominando m
1
, . . . , m
k
a los momentos muestrales se llegara mediante el procedimiento descrito
a un sistema de k ecuaciones con incgnitas
1
, . . . ,
k
:
189
1
= h
1
(m
1
, . . . , m
k
)
2
= h
2
(m
1
, . . . , m
k
)
.
.
.
k
= h
k
(m
1
, . . . , m
k
)
El mtodo de los momentos resulta de aplicacin ms sencilla que el de mxima verosimilitud y
conduce a estimadores consistentes. Sin embargo, su utilizacin es menos generalizada ya que los
estimadores mximo verosmiles suelen resultar ms ecientes.
5.5.3. Mtodo de los mnimos cuadrados
Denicin 5.17. El mtodo de los mnimos cuadrados permite obtener estimadores
basndose en minimizar la suma de las desviaciones cuadrticas entre las observaciones
y sus valores esperados, esto es, la expresin:
n
i=1
(X
i
E(X
i
))
2
en la que E(X
i
) sern funcin de los parmetros desconocidos.
La aplicacin de este mtodo resulta operativa en el caso de que E(X
i
) sea una
funcin lineal de los parmetros que deseamos estimar, pero sin embargo no pro-
porciona estimadores para parmetros que no guren en los valores esperados de las
observaciones.
La obtencin de estimadores mnimo cuadrticos (EMC) resulta habitual en los
procesos de regresin, cuando una variable aleatoria Y presenta un valor esperado que
es funcin lineal de una o varias caractersticas X:
E(Y ) =
1
+
2
X
2
+ +
k
X
k
Los procedimientos alternativos que hemos examinado conducen en ocasiones a ex-
presiones coincidentes para estimar determinado parmetro, llegando a menudo inclu-
so a los estimadores analgicos que aconsejaba nuestra intuicin inicial. As la media
poblacional sera estimada a travs de la media muestral

X, la proporcin pobla-
cional p mediante la proporcin muestral p, etc.
Los mtodos anteriormente recogidos, aunque habituales, no agotan las posibilida-
des para la construccin de estimadores. As, en el caso de que las observaciones se
agrupen en intervalos o bien sean frecuencias de sucesos disjuntos resulta aconsejable
el mtodo de la chi-cuadrado mnima, que consiste en minimizar la medida de discre-
pancia chi-cuadrado entre las frecuencias observadas y tericas (estas ltimas dadas
en trminos de la probabilidad de la variable y por tanto en funcin de los parme-
190
tros). Una ventaja de este mtodo es que los estimadores a los que conduce satisfacen
el requisito de consistencia.
5.6. Algunos estimadores habituales
Las posibilidades inferenciales son ilimitadas como consecuencia de la diversidad de
parmetros de los que puede depender la distribucin de una magnitud aleatoria. Sin
embargo, en la prctica los parmetros habitualmente investigados se corresponden
con las principales caractersticas poblacionales: la esperanza , la varianza
2
y la
proporcin p.
Supongamos por ejemplo que nos interesa la v.a. X: "Consumo de electricidad de
los hogares. Aunque por su propio carcter aleatorio no ser posible llegar a anticipar
el comportamiento de este consumo, si disponemos de informacin muestral podremos
reducir nuestra incertidumbre inicial.
Ms concretamente, si asumimos para X un modelo probabilstico determinado
dependiente de uno o varios parmetros desconocidos, podramos formular algunos
interrogantes del tipo siguiente: cul es el consumo mensual esperado? qu nivel
de dispersin existe entre los consumos de los hogares? qu proporcin de hogares
superan cierta cifra de consumo mensual?
Preguntas similares a las anteriores aparecen con gran frecuencia y una respuesta
adecuada para ellas puede condicionar en gran medida el xito de una investigacin.
Por tanto, resulta aconsejable examinar en detalle las expresiones idneas para la
estimacin de las caractersticas poblacionales de inters.
En los apartados que siguen asumiremos que disponemos de m.a.s. de tamao n
(X
1
, . . . , X
n
) seleccionadas de la poblacin considerada y analizaremos los estimado-
res adecuados para aproximar con la informacin muestral los parmetros objeto de
estudio.
5.6.1. Parmetro media poblacional
Si nuestro primer objetivo es aproximar el consumo esperado , parece lgico re-
sumir la informacin muestral calculando el promedio de consumo para los meses
observados.
El estimador analgico media muestral resulta muy adecuado para llevar a cabo
inferencias sobre la media poblacional = E(X). A partir de una m.a.s. (X
1
, . . . , X
n
)
la media muestral es una nueva variable aleatoria denida por la expresin:
X =
1
n
n
i=1
X
i
Por lo que respecta a las caractersticas de esta variable aleatoria, se obtiene fcil-
mente:
191
E
_
X
_
= ; V ar
_
X
_
=
2
X
=

2
n
;
X
=

n
[Efectuar la deduccin de las caractersticas anteriores]
La media muestral es un estimador insesgado de la media poblacional y su riesgo
viene dado en funcin de dos caractersticas: la dispersin poblacional y el tamao de
la muestra.
Para sucesivas realizaciones muestrales el estimador media muestral adoptara va-
lores x
1
, x
2
, . . . , x
k
obtenindose como valor esperado de todos ellos la esperanza po-
blacional .
La dispersin asociada a la media muestral viene recogida por su varianza V ar(

X)
o la correspondiente raz cuadrada, denominada error estndar de la media.
Denicin 5.18. El error estndar de la media muestral se obtiene como cociente
entre la desviacin tpica poblacional y la raz cuadrada del tamao muestral:

X
=

n
Esta es la medida de dispersin habitualmente utilizada para la media muestral,
ya que -a diferencia de la varianza- viene expresada en las mismas unidades que la
variable aleatoria X. Como podemos apreciar en su expresin, el error estndar de la
media aparece relacionado directamente con la dispersin poblacional e inversamente
con el tamao de la muestra.
Cuando seleccionamos una nica observacin de la variable aleatoria X la desviacin es-
tndar (que aproxima su dispersin respecto al valor esperado E(X) = ) viene dada por
el parmetro . Si en cambio seleccionamos una muestra aleatoria simple de n elementos
(X
1
, . . . , X
n
), el riesgo o dispersin respecto al valor esperado disminuir a medida que au-
menta el tamao de la muestra.
Las expresiones anteriores han sido obtenidas para el supuesto de muestreo aleato-
rio simple en poblaciones innitas o bien con reposicin en el caso nito, que hemos
adoptado como situacin de referencia. Sin embargo, como ya hemos comentado, en
la prctica resultan habituales otras tcnicas de seleccin cuyas caractersticas sern
analizadas con detalle en un captulo especco dedicado al muestreo en poblaciones
nitas.
En concreto, en la prctica es frecuente la seleccin de muestras aleatorias en las que cada
elemento poblacional puede aparecer una vez a lo sumo, esto es, los muestreos aleatorios sin
reposicin o sin reemplazamiento. Las consecuencias de este cambio en el procedimiento de
muestreo -que sern tratadas con detalle en un captulo posterior- aparecen recogidas en la
gura 5.4.
Como ya hemos visto, las condiciones de independencia no son necesarias para calcular
192
Tabla 5.4.: Media muestral en el muestreo aleatorio simple
mtodo de muestreo
con reposicin sin reposicin
Esperanza E
_
X
_
= E
_
X
_
=
Varianza V ar
_
X
_
=

2
n
V ar
_
X
_
=
Nn
N1
2
n
Error estndar
X
=

n

X
=
_
Nn
N1
n
el valor esperado de una suma, por lo cual se sigue cumpliendo en este caso E
_
X
_
= . Sin
embargo, se producirn cambios en las medidas de dispersin (varianza y error estndar),
dado que el riesgo disminuye en el muestreo sin reposicin, como consecuencia de la garanta
de no poder observar ms de una vez un mismo elemento.
La expresin de la varianza sera ahora:
V ar
_
X
_
=
N n
N 1
2
n
denominndose factor de correccin a la expresin
Nn
N1
que adoptar valores inferiores a la
unidad siempre que n > 1.
5.6.2. Parmetro varianza poblacional
2
Una vez que conocemos los consumos esperados, puede ser relevante investigar su
dispersin poblacional, esto es, cuanticar en qu medida los hogares realizan consu-
mos homogneos o existen discrepancias entre las cifras de consumo de electricidad.
Si nuestro objetivo es efectuar inferencias sobre la varianza poblacional
2
una pri-
mera posibilidad podra ser partir del estimador analgico de la varianza, que vendra
dado por la expresin aleatoria:
S
2
n
=
n
i=1
_
X
i

X
_
2
n
No obstante, al examinar las caractersticas de esta expresin se comprueba que no
resulta muy adecuada, por ser un estimador sesgado del parmetro
2
.
En efecto, desarrollando la esperanza de S
2
n
se obtiene:
E(S
2
n
) = E
_
n
i=1
_
X
i

X
_
2
n
_
= E
_
n
i=1
X
2
i
n

X
2
_
=
1
n
E
_
n
i=1
X
2
i
_
E
_
X
2
_
=
= E
_
X
2
i
_
E
_
X
2
_
= V ar(X
i
) +E
2
(X
i
) V ar
_
X
_
E
2
_
X
_
=
=
2
+
2

2
n

2
=
n 1
n

2
igualdad en la que hemos aplicado la denicin de varianza para las variables X
i
y
para la media muestral.
193
El resultado anterior permite armar que el estimador analgico de la varianza poblacional
subestima su verdadero valor, ya que conlleva un sesgo negativo:
B
S
2
n
_
2
_
=

2
n
[Comprubese]
Con el objetivo de solucionar las limitaciones que presenta en cuanto a la estimacin
insesgada la expresin muestral analgica de
2
, deniremos la varianza muestral S
2
como la expresin:
S
2
=
n
i=1
_
X
i

X
_
2
n 1
Dado que este estimador se diferencia del anterior S
2
n
slo en el denominador, se
verica la relacin
S
2
=
n
n 1
S
2
n
a partir de la cual se comprueba fcilmente que S
2
s es un estimador insesgado de la
varianza poblacional:
E(S
2
) =
n
n 1
E
_
S
2
n
_
=
n
n 1

n 1
n

2
=
2
En estadstica clsica resulta comn la denominacin de varianza muestral para el estima-
dor analgico, designando al estimador insesgado S
2
cuasivarianza muestral. Sin embargo,
hemos considerado ms conveniente utilizar el trmino varianza muestral para la expresin
S
2
, que ser la utilizada en todos los estudios inferenciales sobre la varianza.
Como hemos visto, la varianza de la media muestral y su error estndar dependen de
la varianza poblacional
2
. Por tanto la estimacin de estas caractersticas se efectuar
tambin a partir de la varianza muestral anteriormente denida. As se obtiene:
S
2
X
=

V ar
_
X
_
=
S
2
n
; S
X
=
S
n
La ausencia de sesgo es una propiedad de gran inters, que justica la utilizacin de la
varianza muestral S
2
en lugar de la expresin analgica S
2
n
. Sin embargo, ello no permite
concluir que el estimador S
2
sea mejor, ya que sera necesario estudiar lo que ocurre con las
restantes propiedades.
En concreto, si se admite el supuesto de normalidad para la poblacin estudiada X, es
posible demostrar que el estimador analgico S
2
n
presenta un menor error cuadrtico medio
(y por tanto una mayor eciencia relativa) que la varianza muestral S
2
.
194
Tambin comprobaremos ms adelante que en poblaciones nitas cuando las unidades ob-
servadas no se reponen a la poblacin, el comportamiento de los estimadores diere del obte-
nido aqu, puesto que la varianza muestral es un estimador sesgado.
5.6.3. Parmetro proporcin poblacional p
La tercera pregunta planteada sobre nuestro ejemplo era qu proporcin de hogares
realizan consumos de electricidad superiores a una cifra determinada? En este caso la
situacin consiste en describir una caracterstica e investigar la proporcin poblacional
asociada a la misma.
Las inferencias sobre la proporcin son frecuentes cuando trabajamos con caracte-
rsticas cualitativas (este es el caso de la tasa de paro, el porcentaje de votantes a
favor de cierto candidato, la cuota de mercado de cierto producto, ...) y el estimador
adecuado en estas situaciones es la proporcin muestral que denominamos p.
La proporcin muestral se dene como
p =
X
n
donde X es la v.a. que recoge el nmero de elementos de la muestra que presentan la
caracterstica analizada.
As pues, se tiene ahora un caso particular de m.a.s. (X
1
, . . . , X
n
) donde las variables
X
i
son dicotmicas o Bernoulli:
X
i
= 1 si se presenta la caracterstica investigada P(X
i
= 1) = p
X
i
= 0 en otro caso P(X
i
= 0) = 1 p
siendo por tanto el numerador de la proporcin muestral X =
n
i=1
X
i
una v.a.
distribuida segn un modelo binomial B(n, p).
Como consecuencia, se obtienen las siguientes caractersticas para la proporcin
muestral:
E ( p) = E
_
X
n
_
=
1
n
E(X) =
np
n
= p
V ar ( p) = V ar
_
X
n
_
=
1
n
2
V ar(X) =
np(1 p)
n
2
=
p(1 p)
n
El estimador proporcin muestral podra ser analizado como un caso particular
de la media muestral para variables dicotmicas. No obstante, presenta como rasgo
diferencial la presencia del parmetro p tanto en la esperanza como en la varianza del
estimador, por lo cual resulta conveniente trabajar con estimaciones de la varianza,
dadas por la expresin:
S
2
( p) =
p(1 p)
n 1
Puede comprobarse que esta expresin es insesgada para estimar V ar ( p) , ya que se obtiene:
195
E
_
S
2
( p)
= E
_
p(1 p)
n1
_
=
1
n1
E
_
p p
2
_
=
1
n1
E ( p) E
_
p
2
_
=
=
1
n1
_
p V ar ( p) E
_
p
2
_
=
1
n1
[p(1 p) V ar ( p)] =
=
1
N1
[nV ar ( p) V ar ( p)] =
(n1)V ar( p)
n1
= V ar ( p)
196
6. Herramientas inferenciales
Como hemos comentado en captulos anteriores, la informacin muestral es el punto
de partida para un amplio abanico de procesos inferenciales. Dichos procesos se basan
en la informacin disponible y tienen como objetivo reducir la incertidumbre, que
puede ir referida a parmetros concretos o a las poblaciones en su conjunto.
Cuando las inferencias que realizamos van referidas a caractersticas poblacionales
concretas, es necesaria una etapa de diseo de estimadores que ya hemos abordado
en el captulo anterior. Una vez que dispongamos de estimadores adecuados para los
parmetros de inters, debemos conectar sus expresiones con modelos probabilsticos
conocidos, tarea de la que nos ocuparemos en este tema. En algunos casos ser posible
adaptar las expresiones a modelos empricos ya estudiados, mientras que en otras
situaciones las necesidades muestrales obligan a denir otra serie de distribuciones de
carcter "articial" cuya nalidad son precisamente los procesos inferenciales.
Cuando las inferencias son de carcter genrico (por ejemplo, si contrastamos hipte-
sis relativas al conjunto de la poblacin) debemos aprovechar la informacin muestral,
construyendo expresiones que permitan efectuar armaciones probabilsticas sobre
nuestras conclusiones inferenciales.
6.1. Modelos probabilsticos asociados al muestreo
En este apartado analizamos las distribuciones de probabilidad usuales en los estu-
dios inferenciales. Con excepcin del modelo normal, que ya ha sido estudiado y ocupa
un lugar central en los estudios empricos, estas distribuciones muestrales pueden ser
calicadas de "articiales" por tratarse de modelos no observables en la realidad.
En efecto, las distribuciones probabilsticas asociadas a los procesos inferenciales no
tienen por objeto describir el comportamiento de magnitudes aleatorias sino que se
trata de construcciones "de laboratorio" que aparecen asociadas a ciertas expresiones
muestrales bajo determinados supuestos. Sus distribuciones de probabilidad aparecen
tabuladas y sern herramientas imprescindibles en los anlisis inferenciales.
Como veremos en los apartados que siguen, estas distribuciones muestrales (chi-
cuadrado, t de Student, F de Snedecor) se introducen asumiendo ciertos supuestos
o hiptesis sobre la poblacin de partida. Por tanto, resulta interesante conocer en
qu medida se ven afectadas las distribuciones por la alteracin de dichos supuestos,
concepto que se conoce como robustez.
Una distribucin, y los procesos inferenciales basados en la misma, se denominan robustos cuando
no resultan muy sensibles a los cambios en los supuestos de partida, es decir, cuando no presentan
197
alteraciones graves ante el incumplimiento de las hiptesis poblacionales.
6.1.1. Distribucin Normal
Al examinar los principales modelos probabilsticos tiles en el mbito de la inferen-
cia estadstica debemos ocuparnos en primer lugar de la distribucin normal, que a su
importancia en la descripcin de magnitudes econmicas y como lmite de agregados
une ahora su inters desde una ptica inferencial.
Consideremos una m.a.s. (X
1
, . . . , X
n
) a partir de la cual es posible denir la v.a.
media muestral:
X
n
=
n
i=1
X
i
n
Como ya hemos visto en captulos anteriores, existen diferentes situaciones en las
que esta expresin seguir una distribucin normal:
Siempre que la poblacin de partida X se distribuya normalmente (X A(, )),
la propiedad de reproductividad garantiza para la media muestral:
X
n
N
_
,

n
_
[Este resultado aparece recogido en un captulo anterior, epgrafe 4.5]
Aun cuando se desconozca el modelo poblacional de partida, los teoremas lmites
permiten armar que
X
n
N
_
,

n
_
aproximacin que suele realizarse para tamaos muestrales n > 30. Esta convergencia
generaliza de modo considerable la aplicacin del modelo normal como distribucin
de la media muestral.
Un caso particular de esta segunda situacin se presenta cuando la muestra (X
1
, . . . , X
n
) est
formada por variables dicotmicas o de Bernoulli. Se obtiene en este caso una suma distribuida
segn un modelo binomial B(n, p) que, gracias al Teorema de De Moivre puede ser aproximada para
tamaos elevados por una distribucin normal:
S
n
N
_
np,
_
np(1 p)
_
y en consecuencia
X
n
N
_
p,
_
p(1 p)
n
_
198
6.1.2. Distribucin chi-cuadrado
El modelo chi-cuadrado aparece conectado con la distribucin normal al venir de-
nido en los siguientes trminos:
Denicin 6.1. Dadas n v.a. X
1
, . . . , X
n
independientes y distribuidas segn un
modelo A(0, 1), se dene la v.a. chi-cuadrado (o ji-cuadrado) con n grados de libertad,
que denotamos por
2
n
, como:
2
n
=
n
i=1
X
2
i
Consideremos una poblacin normal estndar, X A(0, 1) y sea (X
1
, . . . , X
n
) una
muestra aleatoria simple de esa poblacin. Entonces la variable
2
n
=
n
i=1
X
2
i
sigue
una distribucin chi-cuadrado (o ji-cuadrado) con n grados de libertad (basta tener
en cuenta que las componentes de una muestra genrica son independientes e idnti-
camente distribuidas).
Cuando partimos de una poblacin normal genrica Y N(, ), y consideramos una muestra
aleatoria (Y
1
, . . . , Y
n
), entonces la suma de los cuadrados de las variables muestrales tipicadas se
distribuye segn un modelo chi-cuadrado, con n grados de libertad:
n
i=1
_
Y
i
_

2
n
La justicacin en este caso resulta sencilla con slo llevar a cabo un proceso de tipicacin sobre la
muestra, deniendo variables X
i
=
_
Y
i
_
distribuidas segn modelos N(0, 1), a partir de las cuales
se obtiene de forma inmediata la distribucin chi-cuadrado anteriormente denida.
Como consecuencia de su denicin, esta variable adopta valores no negativos, y
su distribucin de probabilidad viene caracterizada por el parmetro n, que recoge el
nmero de sumandos que intervienen en su denicin y se denomina grados de libertad
(g.l.).
Los grados de libertad asociados a una expresin pueden ser interpretados como
"nmero de valores que es posible jar de modo arbitrario" y aparecen relacionados
con el nmero de variables o tamao muestral n. Una muestra de tamao n tiene
n grados de libertad, pues no establecemos ninguna restriccin sobre los valores que
pueden obtenerse en cada componente y stos se eligen libremente. Por extensin, un
estadstico denido a partir de esa muestra tambin tiene n grados de libertad, salvo
que su expresin est sometida a alguna restriccin, en cuyo caso los niveles de holgura
o libertad se reducen.
Para ilustrar el concepto de grados de libertad supongamos una poblacin N(0, 1) a partir de la
cual extraemos una muestra aleatoria simple de tamao n = 3 (X
1
, X
2
, X
3
) y denimos el estads-
tico media aritmtica. Tanto sobre la expresin muestral como sobre la media podemos seleccionar
arbitrariamente 3 valores, por lo cual ste es el nmero de grados de libertad existentes.
199
Imaginemos por ejemplo, x
1
= 4, x
2
= 2 y x
3
= 9, con lo cual se obtendra la media x = 5; hemos
elegido 3 valores por lo cual el nmero de g.l. es n = 3 (podramos tambin haber jado dos valores
y la media, con lo cual quedara determinado el tercer valor; por tanto los g.l. siguen siendo 3).
Supongamos ahora que denimos la expresin:
3
i=1
(X
i

X)
2
Resulta sencillo comprobar que en ella podemos seleccionar nicamente dos sumandos, ya que el
tercero quedar automticamente determinado. As, a modo de ejemplo, con la muestra anterior se
tendra (x
1

X) = 1, (x
2

X) = 3 y la tercera desviacin deber ser obligatoriamente (x
3

X) = 4
para que se cumpla la propiedad
3
i=1
(X
i

X) = 0
En denitiva, se aprecia que existe una restriccin:

3
i=1
(X
i

X) = 0, equivalente a la denicin
de la media
X =
3
i=1
X
i
3
Como consecuencia, se reducen en uno los grados de libertad de la muestra, de modo que la
expresin presenta en este caso 2 g.l.
En el caso de una muestra de tamao n, la expresin

n
i=1
(X
i

X)
2
tendra n 1 grados de
libertad. De hecho, estos g.l. coinciden con el denominador del estimador insesgado varianza muestral
S
2
=
n
i=1
(X
i

X)
2
n 1
A modo de resumen, la tabla siguiente recoge los grados de libertad asociados a expresiones
genricas con y sin restriccin.
Expresin Variables aleatorias Restricciones g.l.
n
i=1
X
2
i
X
1
, . . . , X
n
n
n
i=1
_
X
i

X
_
2
X
1
, . . . , X
n
n
i=1
X
i
n
=

X n-1
o bien
X
1

X, . . . , X
n
n
i=1
_
X
i

X
_
= 0 n-1
En general, para una muestra de tamao n agrupada en k intervalos o clases, los grados de
libertad sern k 1 ya que, una vez especicadas k 1 frecuencias, la frecuencia restante n
k
vendr
determinada como n
k1
i=1
n
i
.
Razonando de modo anlogo, dada una muestra de tamao n si se adoptan como constantes k
funciones de los valores muestrales, el nmero de grados de libertad vendr reducido en k.
La funcin de densidad del modelo chi-cuadrado para n g.l. viene dada por la
expresin:
200
Tabla 6.1.: Modelo
2
. Funcin de distribucin
g.l. n
5 10 20
Valores
2
n
5 0,5841 0,1088 0,0003
10 0,9248 0,5595 0,0318
20 0,9988 0,9709 0,5421
f(x) =
1
2
n
2
_
n
2
_x
n
2
1
e
x
2
, x > 0
donde
_
n
2
_
representa la funcin matemtica gamma en el punto
n
2
.
La expresin de esta funcin de densidad puede obtenerse en dos etapas: en la primera, se parte
de una variable X
i
N(0, 1) efectuando sobre la misma el cambio de variable Y
i
= X
2
i
, con lo cual
se obtiene para Y
i
una funcin de densidad que corresponde a un modelo gamma de parmetros p =
1
2
, a =
1
2
. En la segunda etapa, teniendo en cuenta que las X
i
son v.a. independientes e idnticamente
distribuidas (i.i.d.), es posible aplicar la reproductividad del modelo gamma respecto al parmetro
p; as se tiene:
n
i=1
Y
i
=
n
i=1
X
2
i

_
p =
n
2
, a =
1
2
_
La probabilidad de que
2
n
tome valores en un intervalo [a, b] sera la integral entre
estos lmites de la expresin anterior que slo puede resolverse mediante mtodos
numricos, por lo cual el modelo aparece tabulado para diferentes grados de libertad. A
modo ilustrativo recogemos en la tabla 6.1 algunos valores de su funcin de distribucin
para ciertos g.l.
Sin embargo, conviene sealar que esta estructura de tablas resulta poco til, dado
que en las aplicaciones habituales de esta distribucin nos interesa tener un amplio
recorrido de g.l. y buscaremos el valor correspondiente a determinados centiles (esto
es, valores cuya probabilidad acumulada se sita en el 0,1 %, 1 %, 5 %, etc). De ah
que una estructura ms habitual sea la de la tabla 6.2:
Como puede verse, en la primera columna se recogen los grados de libertad, en la
primera la el orden de los centiles indicados y en el interior de la tabla aparecen los
distintos valores de la distribucin
2
n
.
En una aplicacin usual de esta distribucin, lo primero que conoceremos ser el nmero de g.l.,
obtenido directamente a partir del tamao muestral, en segundo lugar jaremos el nivel de incerti-
dumbre (1 %, 5 % o 10 % en general) o bien el nivel de conanza con el que deseamos trabajar (90 %,
95 % o 99 %) y luego buscaremos el valor de la
2
n
correspondiente a esas restricciones.
201
Tabla 6.2.: Modelo
2
n
. Valores x para P(
2
n
x)
n\F 0, 01 0, 025 0, 05 0, 1 0, 9 0, 95 0, 975 0, 99
1 0, 0002 0, 0010 0, 0039 0, 0158 2, 7055 3, 8415 5, 0239 6, 6349
2 0, 0201 0, 0506 0, 1026 0, 2107 4, 6052 5, 9915 7, 3778 9, 2103
3 0, 1148 0, 2158 0, 3518 0, 5844 6, 2514 7, 8147 9, 3484 11, 3449
4 0, 2971 0, 4844 0, 7107 1, 0636 7, 7794 9, 4877 11, 1433 13, 2767
5 0, 5543 0, 8312 1, 1455 1, 6103 9, 2364 11, 0705 12, 8325 15, 0863
6 0, 8721 1, 2373 1, 6354 2, 2041 10, 6446 12, 5916 14, 4494 16, 8119
7 1, 2390 1, 6899 2, 1673 2, 8331 12, 0170 14, 0671 16, 0128 18, 4753
8 1, 6465 2, 1797 2, 7326 3, 4895 13, 3616 15, 5073 17, 5345 20, 0902
9 2, 0879 2, 7004 3, 3251 4, 1682 14, 6837 16, 9190 19, 0228 21, 6660
10 2, 5582 3, 2470 3, 9403 4, 8652 15, 9872 18, 3070 20, 4832 23, 2093
11 3, 0535 3, 8157 4, 5748 5, 5778 17, 2750 19, 6751 21, 9200 24, 7250
12 3, 5706 4, 4038 5, 2260 6, 3038 18, 5493 21, 0261 23, 3367 26, 2170
13 4, 1069 5, 0088 5, 8919 7, 0415 19, 8119 22, 3620 24, 7356 27, 6882
14 4, 6604 5, 6287 6, 5706 7, 7895 21, 0641 23, 6848 26, 1189 29, 1412
15 5, 2293 6, 2621 7, 2609 8, 5468 22, 3071 24, 9958 27, 4884 30, 5779
16 5, 8122 6, 9077 7, 9616 9, 3122 23, 5418 26, 2962 28, 8454 31, 9999
17 6, 4078 7, 5642 8, 6718 10, 0852 24, 7690 27, 5871 30, 1910 33, 4087
18 7, 0149 8, 2307 9, 3905 10, 8649 25, 9894 28, 8693 31, 5264 34, 8053
19 7, 6327 8, 9065 10, 1170 11, 6509 27, 2036 30, 1435 32, 8523 36, 1909
20 8, 2604 9, 5908 10, 8508 12, 4426 28, 4120 31, 4104 34, 1696 37, 5662
21 8, 8972 10, 2829 11, 5913 13, 2396 29, 6151 32, 6706 35, 4789 38, 9322
22 9, 5425 10, 9823 12, 3380 14, 0415 30, 8133 33, 9244 36, 7807 40, 2894
23 10, 1957 11, 6886 13, 0905 14, 8480 32, 0069 35, 1725 38, 0756 41, 6384
24 10, 8564 12, 4012 13, 8484 15, 6587 33, 1962 36, 4150 39, 3641 42, 9798
25 11, 5240 13, 1197 14, 6114 16, 4734 34, 3816 37, 6525 40, 6465 44, 3141
26 12, 1981 13, 8439 15, 3792 17, 2919 35, 5632 38, 8851 41, 9232 45, 6417
27 12, 8785 14, 5734 16, 1514 18, 1139 36, 7412 40, 1133 43, 1945 46, 9629
28 13, 5647 15, 3079 16, 9279 18, 9392 37, 9159 41, 3371 44, 4608 48, 2782
29 14, 2565 16, 0471 17, 7084 19, 7677 39, 0875 42, 5570 45, 7223 49, 5879
30 14, 9535 16, 7908 18, 4927 20, 5992 40, 2560 43, 7730 46, 9792 50, 8922
40 22, 1643 24, 4330 26, 5093 29, 0505 51, 8051 55, 7585 59, 3417 63, 6907
50 29, 7067 32, 3574 34, 7643 37, 6886 63, 1671 67, 5048 71, 4202 76, 1539
60 37, 4849 40, 4817 43, 1880 46, 4589 74, 3970 79, 0819 83, 2977 88, 3794
70 45, 4417 48, 7576 51, 7393 55, 3289 85, 5270 90, 5312 95, 0232 100, 4252
80 53, 5401 57, 1532 60, 3915 64, 2778 96, 5782 101, 8795 106, 6286 112, 3288
90 61, 7541 65, 6466 69, 1260 73, 2911 107, 5650 113, 1453 118, 1359 124, 1163
100 70, 0649 74, 2219 77, 9295 82, 3581 118, 4980 124, 3421 129, 5612 135, 8067
202
Figura 6.1.:
2
n
. Funcin de densidad
0
0.02
0.04
0.06
0.08
0.1
0.12
0 10 20 30 40 50 60
D
e
n
s
i
d
a
d
Chi-cuadrado(8)
Chi-cuadrado(28)
E(X)=8 E(X)=28
En la tabla 6.1 observamos cmo para determinados grados de libertad la probabilidad acumulada
aumenta con el valor de la
2
n
o bien para un valor jo de sta, la probabilidad disminuye conforme
aumentan los grados de libertad. Siguiendo el mismo razonamiento, la tabla nos muestra cmo jados
los grados de libertad, los valores de
2
n
aumentan con el valor de la probabilidad, mientras para una
probabilidad acumulada ja estos valores aumentan con los grados de libertad.
Intuitivamente este comportamiento es muy razonable, teniendo en cuenta que X
i
N(0, 1) y X
2
i
toma slo valores positivos, con valor esperado la unidad. Por tanto, cuando denimos
2
n
=
n
i=1
X
2
i
a medida que aumenta n se incrementa el valor esperado de la expresin y el punto donde se alcanza
determinada probabilidad acumulada se desplaza a la derecha.
La representacin grca del modelo chi-cuadrado aparece recogida en la gura 6.1.
Esta funcin presenta una forma ms simtrica a medida que aumentan sus grados de
libertad n.
Las caractersticas del modelo chi-cuadrado dependen nicamente de sus grados
de libertad: E
_
2
n
_
= n, V ar
_
2
n
_
= 2n. Esta relacin directa con n es razonable
puesto que las variables cuya suma da lugar a la
2
n
estn normalizadas y por tanto
no dependen de los valores de cada X
i
. En la tabla 6.1 podemos observar que cuando el
valor de la chi-cuadrado coincide con el nmero de grados de libertad, la probabilidad
acumulada, aunque algo superior, se sita prxima a 0,5.
Proposicin 6.1. El modelo probabilstico chi-cuadrado es reproductivo respecto a los
grados de libertad, esto es, dadas dos v.a. independientes X e Y con distribuciones
respectivas
2
n
y
2
m
es posible armar que su suma (X + Y ) se distribuye segn un
modelo
2
n+m
.
203
Demostracin. La comprobacin de la reproductividad es inmediata a partir de la
denicin vista para el modelo chi-cuadrado, ya que se tendra:
X =
n
i=1
X
2
i
, con (X
1
, . . . , X
n
) m.a.s. extrada de una poblacin X A(0, 1)
Y =
m
i=1
Y
2
i
con (Y
1
, . . . , Y
m
) m.a.s. extrada de una poblacin Y A(0, 1)
Si operamos el cambio X
n+1
= Y
1
, X
n+2
= Y
2
, ..., X
n+m
= Y
n
, entonces podemos
escribir:
X +Y =
n+m
i=1
X
2
i
(6.1)
Adems X
1
, . . . , X
n
son independientes por tratarse de una m.a.s, X
n+1
, . . . , X
n+m
lo son por tratarse de otra muestra aleatoria y adems, por ser las variables X e Y
independientes, tambin lo son las muestras entre s. Como consecuencia, el sumatorio
6.1 es por denicin una chi-cuadrado con n +m g.l.
Desde un punto de vista intuitivo, la reproductividad va directamente asociada a la
interpretacin de los grados de libertad: si en las variables X e Y se tienen holguras
de n y m valores respectivamente, la consideracin conjunta de ambas caractersticas
aleatorias nos proporcionar libertad para jar un total de n +m valores.
Proposicin 6.2. Para tamaos elevados de muestra la distribucin chi-cuadrado
puede ser aproximada por el modelo normal.
Demostracin. En efecto, aplicando el TCL a una sucesin de variables
2
n
indepen-
dientes, su suma se distribuira segn un modelo normal cuya esperanza y varianza se
obtienen como sumas de las correspondientes caractersticas de cada sumando.
Este resultado puede ser aplicado a la siguiente sucesin:
2
1
1
= X
2
1
, . . . ,
2
1
n
= X
2
n
cuyos elementos presentan distribucin chi-cuadrado con un grado de libertad y son
variables independientes por serlo las componentes muestrales. As se obtiene:
2
n
=
n
i=1
2
1
i
A
_
n,
2n
_
Sin embargo, para obtener una convergencia ms rpida utilizamos la aproximacin:
_
2
2
n
2n 1 A(0, 1) (6.2)
En la tabla que sigue aparecen calculadas por distintos mtodos las probabilidades P
_
2
n
n
_
,
esto es, la probabilidad acumulada hasta el valor esperado para diferentes grados de libertad.
204
g.l. y valores P
_
2
n
x
_
Aprox. TCL Aprox. rpida
n=30, x=30 0,5343 0,5 0,5258
n=50, x=50 0,5266 0,5 0,5200
n=100, x=100 0,5188 0,5 0,5141
n=500, x=500 0,5084 0,5 0,5063
En la segunda columna, que recoge los resultados de esta probabilidad calculada mediante el
modelo chi-cuadrado, se observa que dicha probabilidad converge lentamente hacia 0,5 a medida que
aumentan los tamaos muestrales. En cambio, la aproximacin de estas probabilidades mediante la
aplicacin del TCL, que se recoge en la columna tercera, da siempre un resultado constante e igual
a 0,5.
Por ltimo, la aproximacin que hemos denominado rpida (6.2) subvalora la verdadera probabi-
lidad, aunque se aproxima considerablemente al valor verdadero a medida que n aumenta. De ah que
sta ser la aproximacin utilizada siempre que dispongamos de tamaos muestrales sucientemente
elevados.
[En realidad, habra que tener en cuenta que en todas las situaciones - incluida la que hemos llama-
do verdadera probabilidad- se utilizan algoritmos de clculo numrico con lo cual se trata siempre
de aproximaciones].
La distribucin chi-cuadrado tambin aparece ligada a otros modelos de probabilidad. As, dada
una v.a. distribuida uniformemente en el intervalo (0, 1) y siendo (X
1
, . . . , X
n
) una m.a.s. de esa
poblacin, entonces la variable:
ln
_
n
i=1
X
2
i
_
=
n
i=1
ln X
2
i
sigue una distribucin
2
n
.
El signo negativo de la expresin anterior se debe a que los valores de X
i
son inferiores a la unidad
y por tanto sus logaritmos resultan negativos.
El modelo chi-cuadrado desempea un papel destacado en los procesos inferencia-
les. Concretamente, esta es la distribucin de probabilidad que aparece asociada a
las inferencias relativas a la dispersin poblacional, y adems su utilizacin es muy
frecuente en la inferencia no paramtrica (por ejemplo, cuando realizamos contrastes
de independencia, de bondad de ajuste, de homogeneidad, ...).
Karl Pearson (1857-1936), considerado por algunos autores como el fundador de la ciencia esta-
dstica, fue el primero en introducir el modelo chi-cuadrado, en el ao 1900, como expresin vlida
para contrastar la bondad del ajuste de una distribucin terica a la observada.
Pearson obtuvo tambin un sistema de curvas de frecuencias generalizadas basndose en una sola
ecuacin diferencial obteniendo los parmetros por el mtodo de los momentos. Esta aportacin con-
virti al modelo chi-cuadrado en una herramienta bsica del anlisis estadstico, hecho que explica
la mayor relevancia otorgada a Pearson que a Helmert, autor que le precedi cronolgicamente ob-
teniendo, en 1875, la distribucin de la varianza muestral para una poblacin con distribucin normal.
205
Teorema de Fisher
La generalidad del modelo chi-cuadrado como distribucin muestral se debe en gran
medida al Teorema de Fisher, que garantiza la independencia entre los estadsticos
media y varianza muestral, as como un modelo probabilstico relacionado con esta
ltima.
Teorema 6.1. Dada una m.a.s. (X
1
, . . . , X
n
) extrada de una poblacin A(, ), se
cumple:
La media muestral

X y la varianza muestral S
2
son variables aleatorias inde-
pendientes.
La expresin aleatoria
(n 1)S
2
2
se distribuye segn un modelo chi-cuadrado
con n-1 grados de libertad (
2
n1
).
Demostracin. El primero de los resultados del teorema de Fisher se basa en el hecho de que el
vector (X
1

X, . . . , X
n

X) es independiente de la media muestral por lo cual S
2
, que es funcin del
vector (X
1

X, . . . , X
n

X), tambin ser independiente de

X. Este resultado puede demostrarse
construyendo la funcin generatriz de momentos n+1-dimensional del vector (

X, X
1

X, . . . , X
n

X)
y viendo que dicha funcin se puede factorizar como un producto de dos f.g.m.: una correspondiente
a

X y la otra al vector (X
1

X, . . . , X
n

X), lo cual es una condicin necesaria y suciente (como
hemos visto en el captulo 4) para la independencia entre las dos variables.
Es posible garantizar que esta independencia entre las variables

X y S
2
slo se obtiene cuando la
poblacin de partida es normal.
Por lo que se reere al segundo resultado del teorema de Fisher, ste se basa en la descomposicin:
n
i=1
_
X
i
_
2
=
(n 1)S
2
2
+
_
X
_
2
2
n
en la que se cumple:
n
i=1
_
X
i
_
2

2
n ;
_
X
_
2
2
n

2
1
; [Justifquese por qu ]
Adems, gracias al primer resultado del teorema de Fisher podemos garantizar que los sumandos
(n 1)S
2
2
y
_
X
_
2
2
n
son independientes, y por tanto la reproductividad de la distribucin chi-cuadrado garantiza que la
expresin
(n 1)S
2
2
se distribuir segn un modelo
2
n1
.
En el caso particular de que la distribucin poblacional fuese N(0,1), entonces la comprobacin
(n 1)S
2

2
n1
podra hacerse de forma directa:
(n 1)S
2
=
n
i=1
_
X
i

X
_
2
= n
n
i=1
_
X
i

X
_
2
n
=
n
i=1
X
2
i
n

X
2
=
n
i=1
X
2
i

_
n

X
_
2
donde, teniendo en cuenta que
206
X N
_
0,
1
n
_
y

n

X N(0, 1)
obtenemos nuevamente la denicin de
2
n1
.
El enunciado de Fisher garantiza un modelo probabilstico chi-cuadrado conectado
a la dispersin muestral. Los grados de libertad de esta distribucin sern n1, debido
a que en la expresin de S
2
aparece la restriccin
X =
n
i=1
X
i
n
que reduce en uno los niveles de libertad de la muestra.
Siguiendo este mismo planteamiento, cada restriccin adicional que limite la posibilidad de elegir
las componentes de la expresin supondra una nueva reduccin en los grados de libertad.
6.1.3. Distribucin t de Student
La necesidad de trabajar con muestras de pequeo tamao limita la aplicabilidad
del modelo normal, y justica la utilizacin de la distribucin denominada t de Stu-
dent, cuya aparicin histrica ilustra la interaccin entre el desarrollo de las tcnicas
estadsticas y los problemas del mundo real.
Denicin 6.2. Dadas dos variables aleatorias independientes X A(0, 1) e Y
2
n
,
la variable aleatoria
t =
X
_
Y
n
se distribuye segn un modelo t de Student con n grados de libertad (t
n
).
La derivacin del estadstico t se debe a W. S. Gosset, empleado de las industrias cerveceras
Guinness, quien se enfrentaba a la necesidad de estimar, a partir de muestras pequeas, parmetros
relativos a la fermentacin de la cerveza. Dado que la compaa Guinness, para evitar el espionaje
industrial, no autorizaba a sus empleados a publicar los resultados de sus investigaciones, Gosset
(1908) utiliz el seudnimo Student que an en la actualidad da nombre a la distribucin t.
Si consideramos una poblacin X N(0, 1) y una m.a.s. de la misma, (X
1
, . . . , X
n
), entonces la
expresin:
t =
X
_
X
2
1
++X
2
n
n1
sigue una distribucin t con n g.l. (t
n
). Del mismo modo, teniendo en cuenta los comentarios del
epgrafe anterior, podemos armar que:
t =
X
_
n
i=1
(X
i
X)
2
n1
207
Figura 6.2.: Modelo t de Student
0
0.1
0.2
0.3
0.4
0.5
-5 -4 -3 -2 -1 0 1 2 3 4 5
t(8)
t(30)
E(X)=0
sigue el modelo t con n 1 g.l. (t
n1
).
Si la poblacin X sigue un modelo normal general, X N(, ) y (X
1
, . . . , X
n
) es una m.a.s. de
X, entonces considerando los cambios de variable:
Y =
X
y Y
i
=
X
i
para i = 1, 2, . . . , n, y aplicando los estadsticos anteriores a las nuevas variables, se tiene:

t =
X
_
n
i=1
(X
i
)
2
n
t
n
y t =
X
_
n
i=1
(X
i
X)
2
n1
t
n1
El modelo t es en muchos sentidos similar al normal que aparece en su numerador,
ya que se trata de una distribucin unimodal simtrica y campaniforme. Este mo-
delo viene caracterizado por el parmetro n, que representa sus grados de libertad,
coincidentes con los de la distribucin chi-cuadrado que aparece en su denominador.
La funcin de densidad del modelo t
n
f(x) =
1
_
n+1
2
_
_
n
2
_
_
1 +
x
2
n
_
n+1
2
< x <
La esperanza y la varianza de esta distribucin son respectivamente:
E(t
n
) = 0 y V ar(t
n
) =
n
n 2
208
observndose que el riesgo del modelo disminuye a medida que aumentan los grados de libertad de
la distribucin t de Student (se cumple lm
n
V ar(t
n
) = 1).
Por lo que se reere a la utilizacin de las tablas (6.3), el procedimiento es similar
al estudiado para la distribucin
2
n
y consiste en buscar en la tabla los valores corres-
pondientes a determinados niveles de probabilidad y para ciertos grados de libertad.
Sin embargo, dado que la densidad de la distribucin t de Student es simtrica, las
tablas pueden ser utilizadas buscando probabilidades correspondientes a las reas de
una sola cola (indicadas en la la superior) o de las dos colas (tal y como recoge la
la inferior). Obsrvese que para cualquier t > 0 se cumple: P([t
n
[ > t) = 2P(t
n
> t).
Como ya hemos comentado, para valores elevados de n la distribucin t se aproxima
por el modelo A(0, 1). Sin embargo, como muestra la gura 6.3, se obtienen aproxi-
maciones ms adecuadas adoptando un modelo normal con la verdadera dispersin de
la variable X (en la tabla se observa que, incluso para valores bajos de los grados de
libertad n, las discrepancias aparecen slo en la cuarta cifra decimal).
6.1.4. Distribucin F de Snedecor
La distribucin denominada F de Snedecor juega un importante papel en la com-
paracin de la homogeneidad de varias poblaciones y viene denida en los siguientes
trminos:
Denicin 6.3. Dadas dos v.a. independientes X e Y distribuidas segn modelos de
probabilidad
2
n
y
2
m
respectivamente, la expresin
F =
X
n
Y
m
sigue un modelo F de Snedecor con n y m grados de libertad, que denotamos por F
n,m
o F
n
m
(indicando as que tenemos n g.l. en el numerador y m en el denominador).
Debido a su construccin como cociente de dos modelos chi-cuadrado, la distribu-
cin F viene caracterizada por dos parmetros, que describen los grados de libertad
en el numerador y el denominador respectivamente.
Sean X e Y dos poblaciones distribuidas segn modelos N(0, 1). Dadas dos m.a.s. independientes
extradas de esas poblaciones (X
1
, . . . , X
n
) y (Y
1
, . . . , Y
m
), entonces la expresin:
F =
1
n
n
i=1
X
2
i
1
m
m
i=1
Y
2
i
sigue una distribucin F de Snedecor con grados de libertad n y m ( F
n
m
).
Si las variables poblacionales fuesen N(
X
,
X
) y N(
Y
,
Y
) respectivamente, entonces la expre-
sin:
209
Tabla 6.3.: Modelo t de Student. Valores x para p = P([t
n
[ x)
n/p 0, 001 0, 0025 0, 005 0, 01 0, 025 0, 05 0, 1 0, 25
1 636, 6192 254, 6466 127, 3213 63, 6567 25, 4517 12, 7062 6, 3138 2, 4142
2 31, 5991 19, 9625 14, 0890 9, 9248 6, 2053 4, 3027 2, 9200 1, 6036
3 12, 9240 9, 4649 7, 4533 5, 8409 4, 1765 3, 1824 2, 3534 1, 4226
4 8, 6103 6, 7583 5, 5976 4, 6041 3, 4954 2, 7764 2, 1318 1, 3444
5 6, 8688 5, 6042 4, 7733 4, 0321 3, 1634 2, 5706 2, 0150 1, 3009
6 5, 9588 4, 9807 4, 3168 3, 7074 2, 9687 2, 4469 1, 9432 1, 2733
7 5, 4079 4, 5946 4, 0293 3, 4995 2, 8412 2, 3646 1, 8946 1, 2543
8 5, 0413 4, 3335 3, 8325 3, 3554 2, 7515 2, 3060 1, 8595 1, 2403
9 4, 7809 4, 1458 3, 6897 3, 2498 2, 6850 2, 2622 1, 8331 1, 2297
10 4, 5869 4, 0045 3, 5814 3, 1693 2, 6338 2, 2281 1, 8125 1, 2213
11 4, 4370 3, 8945 3, 4966 3, 1058 2, 5931 2, 2010 1, 7959 1, 2145
12 4, 3178 3, 8065 3, 4284 3, 0545 2, 5600 2, 1788 1, 7823 1, 2089
13 4, 2208 3, 7345 3, 3725 3, 0123 2, 5326 2, 1604 1, 7709 1, 2041
14 4, 1405 3, 6746 3, 3257 2, 9768 2, 5096 2, 1448 1, 7613 1, 2001
15 4, 0728 3, 6239 3, 2860 2, 9467 2, 4899 2, 1314 1, 7531 1, 1967
16 4, 0150 3, 5805 3, 2520 2, 9208 2, 4729 2, 1199 1, 7459 1, 1937
17 3, 9651 3, 5429 3, 2224 2, 8982 2, 4581 2, 1098 1, 7396 1, 1910
18 3, 9216 3, 5101 3, 1966 2, 8784 2, 4450 2, 1009 1, 7341 1, 1887
19 3, 8834 3, 4812 3, 1737 2, 8609 2, 4334 2, 0930 1, 7291 1, 1866
20 3, 8495 3, 4554 3, 1534 2, 8453 2, 4231 2, 0860 1, 7247 1, 1848
21 3, 8193 3, 4325 3, 1352 2, 8314 2, 4138 2, 0796 1, 7207 1, 1831
22 3, 7921 3, 4118 3, 1188 2, 8188 2, 4055 2, 0739 1, 7171 1, 1815
23 3, 7676 3, 3931 3, 1040 2, 8073 2, 3979 2, 0687 1, 7139 1, 1802
24 3, 7454 3, 3761 3, 0905 2, 7969 2, 3909 2, 0639 1, 7109 1, 1789
25 3, 7251 3, 3606 3, 0782 2, 7874 2, 3846 2, 0595 1, 7081 1, 1777
26 3, 7066 3, 3464 3, 0669 2, 7787 2, 3788 2, 0555 1, 7056 1, 1766
27 3, 6896 3, 3334 3, 0565 2, 7707 2, 3734 2, 0518 1, 7033 1, 1756
28 3, 6739 3, 3214 3, 0469 2, 7633 2, 3685 2, 0484 1, 7011 1, 1747
29 3, 6594 3, 3102 3, 0380 2, 7564 2, 3638 2, 0452 1, 6991 1, 1739
30 3, 6460 3, 2999 3, 0298 2, 7500 2, 3596 2, 0423 1, 6973 1, 1731
40 3, 5510 3, 2266 2, 9712 2, 7045 2, 3289 2, 0211 1, 6839 1, 1673
50 3, 4960 3, 1840 2, 9370 2, 6778 2, 3109 2, 0086 1, 6759 1, 1639
60 3, 4602 3, 1562 2, 9146 2, 6603 2, 2990 2, 0003 1, 6706 1, 1616
70 3, 4350 3, 1366 2, 8987 2, 6479 2, 2906 1, 9944 1, 6669 1, 1600
80 3, 4163 3, 1220 2, 8870 2, 6387 2, 2844 1, 9901 1, 6641 1, 1588
90 3, 4019 3, 1108 2, 8779 2, 6316 2, 2795 1, 9867 1, 6620 1, 1578
100 3, 3905 3, 1018 2, 8707 2, 6259 2, 2757 1, 9840 1, 6602 1, 1571
210
Figura 6.3.: Modelo t. Aproximacin normal
0
0.1
0.2
0.3
0.4
0.5
-5 -4 -3 -2 -1 0 1 2 3 4 5
t(30)
N(0, 1)
g.l. y valores P(t
n
x) Aprox. A(0, 1) Aprox. A
_
0,
_
n
n2
_
n = 10, x = 1, 96 0,9608 0,9750 0,9602
n = 30, x = 1, 96 0,9703 0,9750 0,9709
n = 50, x = 1, 96 0,9722 0,9750 0,9726
n = 100, x = 1, 96 0,9736 0,9750 0,9738
211
F =
1
n
n
i=1
(X
i
X
)
2
1
m
m
i=1
(Y
i
Y
)
2
sigue tambin un modelo F
n
m
.
R. A. Fisher (1890-1962) fue el primero en estudiar la distribucin del cociente de varianzas. Estos
estudios fueron proseguidos por G. W. Snedecor (1881-1974), autor de la obra Statistical Methods
(1937) quien denomin F a la distribucin de la razn de varianzas en honor de Fisher.
Existe tambin una distribucin denominada z de Fisher que se obtiene mediante una transfor-
macin de la F de Snedecor:
z =
1
2
ln F
que resulta de utilidad para llevar a cabo inferencias relativas a la correlacin entre variables.
La funcin de densidad de la distribucin F
n
m
f(x) = n
n
2
m
m
2
_
n+m
2
_
_
n
2
_
_
m
2
_
x
n
2
1
(nx +m)
n+m
2
; x > 0
Las caractersticas del modelo F de Snedecor aparecen relacionadas con sus grados de libertad.
As se obtiene:
E (F
n
m
) =
n
n 2
con n > 2
y
V ar (F
n
m
) =
2n
2
(n +m2)
m(n 2)
2
(n 4)
con n > 4
Por lo que se reere a la representacin grca, esta distribucin presenta una forma
similar a la del modelo chi-cuadrado, tal y como puede apreciarse en la gura 6.4.
Para tabular las probabilidades de este modelo es necesario recoger los grados de
libertad tanto del numerador (n) como del denominador (m), por lo cual cada tabla
contiene valores de la distribucin que llevan asociada una probabilidad ja. En la
tabla 6.4 recogemos una de las situaciones ms habituales, con probabilidades en la
cola derecha del 5 % (esto es P (F
n
m
> x) = 0, 05 y por tanto P (F
n
m
x) = 0, 95).
En general, utilizaremos las tablas del modelo F cuando disponemos de informacin
sobre los tamaos muestrales y jamos alguna probabilidad para la cola derecha de la
distribucin.
La interseccin en las tablas entre la columna y la la asociadas a los g.l. del
numerador y del denominador proporciona el valor de la distribucin que deja a su
derecha la probabilidad jada.
La utilizacin prctica del modelo F de Snedecor se benecia en gran medida de la
propiedad de inversin.
212
Tabla 6.4.: Modelo F de Snedecor. Valores x para P(F
n
m
x) = 0, 05
gl d/n 1 2 3 4 5 6 7 8 9 10
1 161, 448 199, 500 215, 707 224, 583 230, 162 233, 986 236, 768 238, 883 240, 543 241, 882
2 18, 513 19, 000 19, 164 19, 247 19, 296 19, 330 19, 353 19, 371 19, 385 19, 396
3 10, 128 9, 552 9, 277 9, 117 9, 013 8, 941 8, 887 8, 845 8, 812 8, 786
4 7, 709 6, 944 6, 591 6, 388 6, 256 6, 163 6, 094 6, 041 5, 999 5, 964
5 6, 608 5, 786 5, 409 5, 192 5, 050 4, 950 4, 876 4, 818 4, 772 4, 735
6 5, 987 5, 143 4, 757 4, 534 4, 387 4, 284 4, 207 4, 147 4, 099 4, 060
7 5, 591 4, 737 4, 347 4, 120 3, 972 3, 866 3, 787 3, 726 3, 677 3, 637
8 5, 318 4, 459 4, 066 3, 838 3, 687 3, 581 3, 500 3, 438 3, 388 3, 347
9 5, 117 4, 256 3, 863 3, 633 3, 482 3, 374 3, 293 3, 230 3, 179 3, 137
10 4, 965 4, 103 3, 708 3, 478 3, 326 3, 217 3, 135 3, 072 3, 020 2, 978
11 4, 844 3, 982 3, 587 3, 357 3, 204 3, 095 3, 012 2, 948 2, 896 2, 854
12 4, 747 3, 885 3, 490 3, 259 3, 106 2, 996 2, 913 2, 849 2, 796 2, 753
13 4, 667 3, 806 3, 411 3, 179 3, 025 2, 915 2, 832 2, 767 2, 714 2, 671
14 4, 600 3, 739 3, 344 3, 112 2, 958 2, 848 2, 764 2, 699 2, 646 2, 602
15 4, 543 3, 682 3, 287 3, 056 2, 901 2, 790 2, 707 2, 641 2, 588 2, 544
16 4, 494 3, 634 3, 239 3, 007 2, 852 2, 741 2, 657 2, 591 2, 538 2, 494
17 4, 451 3, 592 3, 197 2, 965 2, 810 2, 699 2, 614 2, 548 2, 494 2, 450
18 4, 414 3, 555 3, 160 2, 928 2, 773 2, 661 2, 577 2, 510 2, 456 2, 412
19 4, 381 3, 522 3, 127 2, 895 2, 740 2, 628 2, 544 2, 477 2, 423 2, 378
20 4, 351 3, 493 3, 098 2, 866 2, 711 2, 599 2, 514 2, 447 2, 393 2, 348
21 4, 325 3, 467 3, 072 2, 840 2, 685 2, 573 2, 488 2, 420 2, 366 2, 321
22 4, 301 3, 443 3, 049 2, 817 2, 661 2, 549 2, 464 2, 397 2, 342 2, 297
23 4, 279 3, 422 3, 028 2, 796 2, 640 2, 528 2, 442 2, 375 2, 320 2, 275
24 4, 260 3, 403 3, 009 2, 776 2, 621 2, 508 2, 423 2, 355 2, 300 2, 255
25 4, 242 3, 385 2, 991 2, 759 2, 603 2, 490 2, 405 2, 337 2, 282 2, 236
26 4, 225 3, 369 2, 975 2, 743 2, 587 2, 474 2, 388 2, 321 2, 265 2, 220
27 4, 210 3, 354 2, 960 2, 728 2, 572 2, 459 2, 373 2, 305 2, 250 2, 204
28 4, 196 3, 340 2, 947 2, 714 2, 558 2, 445 2, 359 2, 291 2, 236 2, 190
29 4, 183 3, 328 2, 934 2, 701 2, 545 2, 432 2, 346 2, 278 2, 223 2, 177
30 4, 171 3, 316 2, 922 2, 690 2, 534 2, 421 2, 334 2, 266 2, 211 2, 165
40 4, 085 3, 232 2, 839 2, 606 2, 449 2, 336 2, 249 2, 180 2, 124 2, 077
50 4, 034 3, 183 2, 790 2, 557 2, 400 2, 286 2, 199 2, 130 2, 073 2, 026
60 4, 001 3, 150 2, 758 2, 525 2, 368 2, 254 2, 167 2, 097 2, 040 1, 993
70 3, 978 3, 128 2, 736 2, 503 2, 346 2, 231 2, 143 2, 074 2, 017 1, 969
80 3, 960 3, 111 2, 719 2, 486 2, 329 2, 214 2, 126 2, 056 1, 999 1, 951
90 3, 947 3, 098 2, 706 2, 473 2, 316 2, 201 2, 113 2, 043 1, 986 1, 938
100 3, 936 3, 087 2, 696 2, 463 2, 305 2, 191 2, 103 2, 032 1, 975 1, 927
213
Figura 6.4.: Modelo F de Snedecor. Funcin de densidad
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
0 1 2 3 4 5 6
F(10, 30)
F(30, 10)
Proposicin 6.3. Si una variable X se distribuye segn un modelo F
n
m
entonces su
inversa
1
X
aparece tambin distribuida segn este modelo, invertido el orden de sus
grados de libertad (F
m
n
).
Demostracin. En efecto, si una variable X sigue distribucin F con grados de libertad
n y m, entonces puede ser expresada como:
X =
2
n
n
2
m
m
F
n
m
y calculando su inversa se obtiene
1
X
=
2
m
m
2
n
n
F
m
n
Esta propiedad de inversin rentabiliza el uso de las tablas de la F, ya que permite limitar la
informacin contemplando un mayor recorrido de los grados de libertad en el numerador o en el
denominador, de forma que si la probabilidad buscada no aparece en las tablas podemos llevar a
cabo la transformacin:
F (F
n
m
x) = P
_
1
F
n
m
1
x
_
= P
_
F
m
n

1
x
_
De esta forma, combinando inversos y complementarios podemos resolver buena
parte de las lagunas que presentan estas tablas.
214
Otra propiedad interesante de la distribucin F de Snedecor es su conexin con el
modelo t de Student:
Proposicin 6.4. Si X es una variable con distribucin t de Student de m grados de
libertad (X t
m
) entonces la variable X
2
sigue un modelo F
1
m
.
Demostracin. En efecto, por denicin de la distribucin t de Student, la variable X
es de la forma:
X =
A(0, 1)
_
2
m
m
con lo cual para su cuadrado se tiene:
X
2
=
(N(0, 1))
2
2
m
m
=
2
1
1
2
m
m
= F
1
m
6.2. Procesos inferenciales y distribuciones asociadas
Un proceso inferencial consiste en utilizar de forma coordinada gran parte de las
tcnicas que hemos analizado en captulos anteriores. De este modo, una vez decidido
el objetivo de nuestros estudios ser posible determinar las expresiones muestrales ade-
cuadas para cada caso y conectar dichas expresiones con algn modelo probabilstico
conocido.
Este procedimiento ser a su vez el punto de partida para los captulos posteriores,
en los que abordaremos diversos objetivos inferenciales mediante dos tcnicas diferen-
ciadas: la estimacin y el contraste de hiptesis.
El objetivo de la inferencia ser en cualquier caso la investigacin de una o varias
poblaciones que identicamos con variables aleatorias y sobre las que existe incerti-
dumbre. En ocasiones nos centraremos en ciertos parmetros poblacionales que deno-
tamos genricamente por , mientras que en otros casos abordaremos caractersticas
ms genricas como la aleatoriedad, la distribucin probabilstica de la poblacin o la
independencia entre dos poblaciones.
Conviene destacar la importancia de estas caractersticas genricas, que a menudo coinciden con
los supuestos asumidos sobre una o varias poblaciones (normalidad, independencia,...). De ah la
necesidad de ser rigurosos en nuestros procesos inferenciales, en el sentido de especicar (y contrastar)
los supuestos que en cada caso estamos admitiendo como vlidos.
Entre dichos supuestos merece una mencin especial la hiptesis de normalidad, que ocupa un
papel central en la inferencia estadstica: por una parte, es frecuente asumir que la poblacin de
partida se distribuye normalmente y por otra, aun partiendo de poblaciones desconocidas, siempre
que analicemos muestras de tamao sucientemente elevado y se cumplan los supuestos necesarios,
215
Figura 6.5.: Esquema de trabajo en inferencia
'
&
$
%
POBLACIN X
Parmetros
Parmetros

Parmetros
de posicin de dispersin
m.a.s.
(X
1
, . . . , X
n
)
T(X
1
, . . . , X
n
)
e
T
= T Error e
T
e
R
T
=
T
Discrepancia d
T
podremos aplicar el teorema central del lmite que garantiza la convergencia de agregados o prome-
dios a una distribucin normal.
6.2.1. Inferencias relativas a parmetros
Supongamos que deseamos llevar a cabo inferencias sobre algn parmetro pobla-
cional que denominamos . En este caso el esquema de trabajo que seguiremos aparece
descrito en la gura 6.5 y consiste en aprovechar toda la informacin muestral, lle-
gando a resumir dicha informacin mediante expresiones que nos permitan realizar
armaciones probabilsticas.
Como puede apreciarse en el esquema, el punto de partida es la poblacin X cuya
distribucin probabilstica viene dada por F
X
(x, ) que depende de ciertos parmetros
desconocidos .
La primera etapa del proceso inferencial consistir en seleccionar una muestra alea-
toria que podemos identicar con una v.a. n-dimensional, cuya distribucin probabi-
lstica depender tambin de los parmetros .
A partir de esta muestra se denen estimadores T que, por ser funciones de la mues-
tra, sern tambin variables aleatorias cuya distribucin de probabilidad denotamos
por F
T
(t, ).
Como hemos visto en el captulo anterior, el estimador T no coincidir con el valor
del parmetro desconocido , por lo cual denimos los correspondientes errores alea-
torios. Cuando el parmetro investigado sea una caracterstica de posicin (esperanza,
proporcin) este error se dene como diferencia e
T
= T , mientras que si es una
caracterstica de dispersin debemos denir errores relativos, que vienen dados por el
cociente e
R
T
=
T
.
Las caractersticas de estos errores aleatorios aparecen conectadas con las del esti-
216
mador T, tal y como muestra la siguiente tabla:
Error Esperanza Varianza
e
T
= T E(e
T
) = E(T) V ar(e
T
) = V ar(T)
e
R
T
=
T
E
_
e
R
T
_
=
E(T)
V ar
_
e
R
T
_
=
V ar(T)
2
Como ya hemos visto, las propiedades de ausencia de sesgo y eciencia pueden
ser formuladas indistintamente sobre los errores o sobre el estimador. As, si T es
insesgado se cumple E(T) = o equivalentemente E(e
T
) = 0 y en el caso del error
relativo E(e
R
T
) = 1.
De modo similar, se observa que si T es un estimador de mnima varianza, entonces
tambin se hace mnima la varianza del error.
Si T es un estimador sesgado del parmetro investigado se tiene:
E(e
T
) = E(T) = B
T
() ; E
_
e
R
T
_
= 1 +
B
T
()
= 1 +B
R
T
()
[Comprubese]
Una vez conocidas las caractersticas de los errores, nos interesar llevar a cabo un
proceso de transformacin de los mismos, efectuando ciertos ajustes sobre las expre-
siones de e
T
y e
R
T
hasta llegar a obtener discrepancias tipicadas o estandarizadas que
denotaremos por d
T
.
La denicin de estas discrepancias abarca dos etapas:
1. La primera etapa consiste en reducir los errores a su expresin de referencia o
estndar.
En el caso de los parmetros de posicin, este objetivo se consigue mediante una
tipicacin de los errores que conduce a expresiones:
e
T
E(e
T
)
e
T
=
T E(T)
T
que presentan esperanza nula y varianza unitaria.
Para los parmetros de dispersin el procedimiento es distinto como consecuencia de
su carcter multiplicativo. En este caso los errores relativos deben presentar esperanza
unitaria, para lo cual -si es necesario- se efecta el ajuste:
e
R
T
E
_
e
R
T
_
2. La segunda etapa abarca los ajustes necesarios en las expresiones anteriores hasta
obtener modelos de probabilidad conocida, que no dependan de ningn parmetro
desconocido.
En general, las discrepancias tipicadas se adaptarn a los modelos probabilsticos
analizados en el epgrafe anterior (normal, chi-cuadrado, t de Student y F de Snede-
217
cor).
En los apartados que siguen estudiamos la construccin de las discrepancias utili-
zadas en las inferencias sobre los parmetros de inters.
Es conveniente observar que, aunque este apartado tiene por objetivo las inferencias relativas a
parmetros, ello no implica que todas las inferencias examinadas sean de tipo paramtrico. La situa-
cin ms habitual -y ms conveniente para nuestros objetivos- ser que la poblacin X investigada
sea conocida, limitndose la ausencia de informacin a los parmetros con lo que el estudio sera de
inferencia paramtrica.
Sin embargo, es posible tambin que nos enfrentemos a poblaciones completamente desconocidas,
en cuyo caso nos situaramos en el mbito de la inferencia no paramtrica. En estos casos, a menudo
deberemos renunciar a la segunda etapa de la construccin de discrepancias, ya que no resulta posible
garantizar su conexin con modelos probabilsticos conocidos.
6.2.2. Inferencias sobre la media
Como hemos justicado en temas anteriores, cuando deseamos llevar a cabo inferen-
cias sobre la esperanza poblacional , resulta adecuado el estimador media muestral
que viene dado por la expresin
X =
n
i=1
X
i
n
En concreto, sus caractersticas esperanza y varianza vienen dadas por:
E
_
X
_
= ; V ar
_
X
_
=

2
n
El error cometido con este estimador ser una variable aleatoria, que se obtiene por
diferencia entre la media muestral y la media poblacional: e
X
=

X .
Siguiendo el esquema anteriormente descrito, debemos analizar las caractersticas
del error, para el que se obtiene un valor esperado nulo:
E(e
X
) = E
_
X
_
= 0
y una dispersin dada por las expresiones:
V ar(e
X
) = V ar
_
X
_
=

2
n
;
e
X
=

n
As pues, es posible en una primera etapa llevar a cabo una tipicacin o ajuste del
error aleatorio, llegando a una expresin:
e
X
E(e
X
)
e
X
=
n
que presenta esperanza nula y dispersin unitaria.
218
Por lo que se reere a la segunda etapa, la distribucin de probabilidad de esta
expresin depender de los supuestos asumidos sobre la poblacin de partida X. As,
en el caso de que asumamos que X se distribuye normalmente con varianza conocida,
se obtendra la discrepancia tipicada para la media:
d
X
=
e
X
e
X
=
n
A(0, 1)
No obstante, si la varianza
2
fuese desconocida la expresin anterior no sera vlida.
Podramos en este caso proponer una discrepancia dada por:
d
X
=
e
X
S
e
X
=
X
S
n
t
n1
expresin en la que hemos sustituido
2
por su estimador S
2
.
La deduccin de estos modelos probabilsticos resulta sencilla aplicando resultados anteriores. En
efecto, siempre que la poblacin investigada sea normal, X N(, ) y por estar todas las variables
muestrales idnticamente distribuidas se tiene:
X
i
n
N
_
n
,

n
_
Dado que dichas variables son independientes, podemos aplicar la propiedad de reproductividad
del modelo normal, con lo cual obtenemos:
X =
n
i=1
X
i
n
N
_
,

n
_
Para el error aleatorio se tiene por tanto:
e
X
=

X N
_
0,

n
_
y en consecuencia para la discrepancia tipicada:
d
X
=
e
X
n
=
n
N(0, 1)
As pues, la discrepancia es funcin de la dispersin poblacional y si sta es conocida podemos
acudir a las tablas del modelo normal estndar para obtener la probabilidad de que esta expresin
se encuentre en cualquier intervalo [a, b].
Si por el contrario la varianza poblacional resulta desconocida entonces no podramos calcular las
probabilidades anteriores y por tanto tendramos que construir una expresin alternativa. Para ello
acudimos a las distribuciones denidas en el apartado anterior, construyendo una distribucin t de
Student (t
n
) como cociente entre una distribucin N(0, 1) y la raz cuadrada de una
2
n
entre sus
grados de libertad.
En efecto, la discrepancia tipicada anterior
n
N(0, 1)
nos proporciona el numerador, mientras que para el denominador se tiene, gracias al teorema de
Fisher:
219
(n 1)S
2
2

2
n1
Teniendo en cuenta que -tambin por el teorema de Fisher- ambas expresiones son v.a. indepen-
dientes, se obtiene:
d
X
=
X
/
n
_
(n1)S
2
2
(n1)
t
n1
expresin que puede tambin ser formulada como:
d
X
=
X
S
/
n
Hasta la introduccin de la t de Student por parte de Gosset (1908), el procedimiento habitual en
los estudios inferenciales sobre la media consista en calcular

X y S
2
procediendo como si la media
muestral siguiese un modelo
X N
_
,
S
n
_
No obstante, teniendo en cuenta que este supuesto no necesariamente era correcto (al ignorar el
riesgo asociado a la estimacin de por S) Gosset intua que este procedimiento aplicado a muestras
pequeas dara una falsa idea de exactitud. Dicho inconveniente se soluciona al introducir el modelo
probabilstico t, que en tamaos pequeos de muestra viene representado por curvas campaniformes
con menor apuntamiento que la normal.
Parece lgico pensar, y as lo conrmaremos en captulos posteriores, que si utilizamos la infor-
macin muestral para estimar los dos parmetros y
2
perderemos abilidad, de modo que para
conseguir un mismo nivel de probabilidad, la distribucin t de Student exige un mayor recorrido que
el modelo normal.
Las dos distribuciones obtenidas (normal y t de Student) se basan en el supuesto
de normalidad de X. Resulta interesante examinar cmo se veran afectados estos
resultados si la poblacin de partida no es normal.
El efecto de la ausencia de normalidad sobre las distribuciones anteriores depender
de la informacin poblacional. As, si la poblacin X no es normal pero su varianza es
conocida y el tamao de muestra n es elevado, entonces la distribucin de d
X
puede
ser aproximada por una A(0, 1).
En efecto, en el desarrollo anterior hemos obtenido

X como un agregado de v.a. independientes
e idnticamente distribuidas. Por tanto, para tamaos sucientemente elevados, el TCL garantiza la
convergencia a un modelo normal.
Cuando la varianza poblacional es conocida y el tamao de muestra elevado, el
procedimiento descrito resulta vlido con hiptesis de normalidad o sin ella. Sin em-
bargo, la situacin cambia cuando la varianza es desconocida, ya que en ese caso el
incumplimiento del supuesto de normalidad invalida el procedimiento desarrollado an-
teriormente para construir d
X
t
n1
.
220
Obsrvese que en esta situacin podemos aplicar el TCL, con lo cual el numerador convergera a
una distribucin N(0, 1). Sin embargo, la no normalidad nos impide aplicar el teorema de Fisher,
con lo cual no tenemos garantizada la independencia entre numerador y denominador ni tampoco la
distribucin
2
n
para el denominador.
No obstante, es interesante sealar que aunque Gosset deriv la expresin de la t a partir del su-
puesto de poblaciones normales, se ha comprobado que las poblaciones no normales aproximadamente
simtricas proporcionan expresiones que se aproximan mucho a la distribucin t.
Este rasgo permite calicar a la distribucin t de robusta y constituye una garanta de estabilidad
para los procesos inferenciales. En general, la distribucin t de Student asociada a la discrepancia de
la media d
X
resulta insensible a la hiptesis de normalidad cuando n > 15 y se ha comprobado que
para tamaos pequeos de muestra dicha distribucin se ve ms afectada por la asimetra que por la
no normalidad.
6.2.3. Inferencias sobre la varianza
Las inferencias sobre la varianza poblacional se basan en la varianza muestral S
2
cuya expresin se compara con
2
mediante el error relativo
e
R
S
2
=
S
2
2
que adoptar valores superiores a la unidad si la varianza muestral sobreestima la
poblacional y ser inferior a 1 en caso contrario.
Obsrvese que en este caso la comparacin del estimador con el parmetro se lleva a cabo por
cociente y no por diferencia como se haca para la esperanza. Este hecho se debe al propio concepto
de dispersin, que tiene carcter multiplicativo (en este sentido, basta recordar que la dispersin no
viene afectada por el origen sino nicamente por la escala y tambin que en el procedimiento de
tipicacin de variables aleatorias se eliminan la esperanza y la dispersin, pero mientras la primera
se elimina mediante diferencias, en cambio la dispersin se elimina por cociente, dividiendo entre la
desviacin tpica).
El error relativo
S
2
2
es una v.a. denida en funcin de la varianza muestral, cuya
esperanza es unitaria por cumplirse E(S
2
) =
2
.
Por lo que respecta a la segunda etapa, si asumimos que la poblacin de partida
es normal, la expresin anterior puede ser ajustada a un modelo conocido con slo
multiplicar por los grados de libertad de la varianza muestral (n-1).
Denimos entonces la discrepancia tipicada de la varianza:
d
S
2 =
(n 1)S
2
2
expresin que, gracias al teorema de Fisher, sigue un modelo chi-cuadrado con n-1
grados de libertad siempre que X sea normal.
221
A diferencia de los procesos inferenciales referidos a la media, los procesos asociados a la varianza
resultan poco robustos, en el sentido de que el incumplimiento del supuesto de normalidad para la
poblacin de partida invalida la obtencin de una distribucin chi-cuadrado asociada a la varianza
muestral.
6.2.4. Inferencias sobre proporciones
La proporcin poblacional puede ser analizada como caso particular de la esperanza,
cuando la poblacin investigada es dicotmica o de Bernoulli B(p).
Como consecuencia, en esta situacin la m.a.s. sera del tipo (X
1
, . . . , X
n
) donde
cada X
i
est denida como sigue:
X
i
= 0 si el elemento i presenta el rasgo estudiado P(X
i
= 1) = p
X
i
= 1 si el elemento i no presenta el rasgo estudiado P(X
i
= 0) = 1 p
y el estimador analgico proporcin muestral viene denido por la expresin:
p =
1
n
n
i=1
X
i
siendo
n
i=1
X
i
una v.a. que sigue un modelo binomial B(n, p). Denimos el error como
la diferencia entre la proporcin muestral y la poblacional e
p
= p p, que presenta
las caractersticas:
E (e
p
) = 0 ; V ar (e
p
) =
p(1 p)
n
La deduccin de la varianza puede ser efectuada en los siguientes trminos:
V ar (e
p
) = V ar ( p) = V ar
_
1
n
n
i=1
X
i
_
=
1
n
2
n
i=1
V ar(X
i
) =
1
n
2
n
i=1
p(1p) =
p(1 p)
n
La discrepancia tipicada para la proporcin se obtiene entonces como:
d
p
=
e
p
_
p(1p)
n
=
p p
_
p(1p)
n
y para tamaos muestrales sucientemente elevados es posible aplicar la convergencia
del modelo binomial al normal, con lo cual se tiene: d
p
A(0, 1).
En efecto, el teorema de De Moivre nos indica que:
n
i=1
X
i
L
N
_
np,
_
np(1 p)
_
con lo cual para tamaos elevados de n asumimos
222
p =
1
n
n
i=1
X
i
N
_
p,
_
p(1 p)
n
_
y por tanto se obtienen tambin aproximaciones normales para el error y la discrepancia tipicada:
e
p
N
_
0,
_
p(1 p)
n
_
; d
p
N(0, 1)
Puede observarse que el error estndar o desviacin tpica del estimador,
_
p(1p)
n
, depende de la
proporcin p y por tanto, si esta desviacin tpica fuese conocida podramos despejar de forma exacta
el valor de la proporcin, sin necesidad de utilizar la informacin muestral para su estimacin.
No obstante, en el caso de la proporcin esta armacin no es enteramente correcta. En muchos
supuestos asumiremos como conocido el valor de la dispersin (a veces en problemas reales apro-
vechamos cierta informacin obtenida de algn censo anterior o relativo a una actividad afn a la
que estamos estudiando, con lo cual estamos asumiendo que no cambia el riesgo). Sin embargo, la
informacin sobre la dispersin no es vlida para establecer el valor concreto del parmetro p, ya que
los hbitos, el entorno y otras caractersticas inuirn en alteraciones de la proporcin poblacional,
aun cuando la banda de riesgo que acompaa a estas estimaciones en perodos no muy grandes de
tiempo se mantenga constante.
Si la varianza del error es desconocida, sta podra aproximarse por su estimador insesgado
p(1 p)
n1
.
En efecto, en el captulo anterior hemos comprobado que se cumple:
E
_
p(1 p)
n 1
_
=
p(1 p)
n
= V ar ( p)
La aproximacin normal para la discrepancia tipicada de la proporcin exige tamaos de muestra
elevados ya que se basa en los teoremas lmites. Debemos tener presente que la variable aleatoria X
que aparece en el numerador de la proporcin muestral es discreta y sin embargo las transformaciones
sucesivas que operamos sobre ella (clculo de errores y tipicacin de los mismos) desembocan en
un modelo aproximadamente normal; por tanto, cuando nos interese aproximar probabilidades para
valores concretos de X conviene llevar a cabo la correccin de continuidad estudiada en el captulo 4.
Los desarrollos precedentes son tambin aplicables si nuestro objetivo inferencial es
una combinacin de proporciones (generalmente diferencias de proporciones referidas
a varias poblaciones, ...).
6.2.5. Inferencias sobre la diferencia de medias
En el mbito econmico-empresarial resultan frecuentes las situaciones en las que se
deben realizar inferencias relativas a las esperanzas de dos poblaciones. Este sera el
caso si deseamos estimar la diferencia de ingresos medios entre dos regiones, contrastar
si ha aumentado la esperanza de vida a lo largo del tiempo o si se ha producido
ganancia salarial en una poblacin tras la aplicacin de cierta medida econmica.
En estos casos, aun siendo perfectamente vlido el planteamiento visto en los apar-
tados anteriores, existe una mayor complejidad en el estudio como consecuencia de
la diversidad de situaciones que pueden presentarse. As, debemos considerar si las
223
muestras a partir de las cuales extraemos informacin son o no independientes, si los
parmetros poblacionales son conocidos, etc.
Las distintas situaciones posibles presentan como objetivo comn llevar a cabo
inferencias sobre el parmetro
X
Y
= E(X) E(Y ), pero la casustica que puede
aparecer es amplia, tal y como se describe en los apartados siguientes.
6.2.5.1. Diferencia de medias con datos pareados
Comencemos por considerar aquellas situaciones en las que extraemos la informacin
de dos muestras aleatorias que no son independientes. Ms concretamente, asumiremos
que disponemos de dos muestras dependientes con datos pareados, esto es, que sobre
cada integrante de la muestra estudiamos dos caractersticas dependientes.
Ilustraciones de esta situacin podran ser las siguientes: muestras de individuos
sobre los que observamos renta y gasto, muestras de empresas sobre las que estudia-
mos los benecios antes y despus de impuestos, muestras de artculos sobre los que
analizamos precio de adquisicin y de venta, etc.
Si denotamos por X e Y las caractersticas aleatorias analizadas y por (X
1
, . . . , X
n
),
(Y
1
, . . . , Y
n
) las muestras respectivas [por qu tienen el mismo tamao?], resultara
posible denir la v.a. diferencia D = XY , pasando as de las dos muestras anteriores
a una muestra nica (D
1
, ..., D
n
).
Nuestro objetivo ser realizar inferencias sobre E(D) = E(X) E(Y ) para lo cual
debemos basarnos en la informacin muestral (D
1
, ..., D
n
). Por tanto el problema es
idntico al ya visto con anterioridad para una media poblacional, y conducir en ge-
neral a una distribucin t de Student con n 1 grados de libertad.
Dado que nuestro objetivo inferencial es E(D), si consideramos como estimador la
diferencia media, el error correspondiente puede ser denido como: e
D
=

D E(D).
Resulta sencillo comprobar que la esperanza de este error es nula y su varianza viene
dada por la expresin:
V ar (e
D
) = V ar
_
D
_
=
V ar(D)
n
que slo podr ser determinada si conocemos las varianza de D o bien las varianzas
de las variables originales y su covarianza.
En general, la varianza anterior resulta desconocida, por lo cual debera ser estimada
a partir de la muestra mediante la expresin:
S
2
e
D
=
S
2
D
n
=
1
n
_
_
n
i=1
_
D
i

D
_
2
n 1
_
_
=
1
n
_
_
_
_
n
i=1
_
(X
i
Y
i
)
_
X

Y
_
2
n 1
_
_
_
_
Por tanto, bajo el supuesto de normalidad para la variable D la expresin de la
discrepancia tipicada vendr dada por:
224
d
D
=
e
D
S
D
n
=
D E(D)
S
D
n
t
n1
Obsrvese que en el supuesto poco frecuente de que la varianza de D resultase
conocida se tendra
d
D
=
e
D
_
V ar (e
D
)
A(0, 1)
La distribucin normal resultara tambin aplicable cuando la variable D no fuera
normal, siempre que el tamao de muestra fuese elevado y la varianza conocida. En
tal situacin, la aplicacin del TCL conducira a la discrepancia tipicada
d
D
=
e
D
_
V ar (e
D
)
L
A(0, 1)
6.2.5.2. Diferencia de medias con muestras independientes
Supongamos ahora que a partir de las poblaciones X e Y hemos extrado muestras
aleatorias independientes: (X
1
, . . . , X
n
) e (Y
1
, . . . , Y
n
).
Si denotamos por
X
y
Y
las medias poblacionales y por
2
X
y
2
Y
las varianzas de X
e Y respectivamente, denimos el estimador de la diferencia de las medias muestrales
T =

X
Y , a partir del cual obtenemos el error aleatorio e

X
Y
= (

X
Y )(
X
Y
),
cuyas caractersticas son:
E
_
e
X
Y
_
= 0 ; V ar
_
e
X
Y
_
=

2
X
n
+

2
Y
m
En efecto, se tiene:
V ar (e
X
Y
) = V ar
_
X

Y
_
= V ar
_
X
_
+V ar
_
Y
_
2Cov
_
X,

Y
_
=

2
X
n
+

2
Y
m
puesto que al ser las muestras independientes Cov(X, Y ) = 0 y en consecuencia Cov(

X,

Y ) = 0 [Por
qu?]
As pues, adoptamos como discrepancia en este caso la expresin:
d
X
Y
=
e
X
Y
_
V ar
_
e
X
Y
_
=
X

Y (
X

Y
)
_
V ar
_
X

Y
_
que podemos ajustar a modelos probabilsticos conocidos en funcin de las hiptesis
de partida.
Supongamos que las poblaciones X e Y se distribuyen normalmente:
X A(
X
,
X
) , Y A(
y
,
y
)
225
Siempre que las varianzas poblacionales de X e Y sean conocidas, tambin lo ser
la varianza de e
X
Y
. En consecuencia, la expresin
d
X
Y
=
e
X
Y
_
V ar
_
e
X
Y
_
=
X

Y (
X

Y
)
_
2
X
n
+

2
Y
m
se distribuye segn un modelo A(0, 1).
En efecto, segn hemos visto al estudiar la distribucin de la media,
X N
_
X
,

X
n
_
e

Y N
_
Y
,

Y
m
_
Se trata de muestras independientes y aplicando la propiedad de reproductividad del modelo
normal se tiene
X

Y N
_
X
-
Y
,
_
2
X
n
+

2
Y
m
_
As pues, se obtienen las siguientes distribuciones para el error aleatorio y para la discrepancia
tipicada:
e
X
Y
=

X

Y (
X
-
Y
) N
_
0,
_
2
X
n
+

2
Y
m
_
d
X
Y
=
e
X
Y
_
V ar (e
X
Y
)
=
X

Y (
X

Y
)
_
2
X
n
+

2
Y
m
N(0, 1)
Si no se verica la hiptesis de normalidad pero los tamaos de las dos muestras,
n y m, son sucientemente elevados, entonces -gracias al teorema central del lmite-
obtenemos una distribucin de la discrepancia que es aproximadamente A(0, 1).
La comprobacin de este caso se limita a aplicar el teorema central del lmite, ya que si n y m son
elevados, entonces obtenemos:
X N
_
X
,

X
n
_
e

Y N
_
Y
,

Y
m
_
siendo vlido el resto del razonamiento sin ms que tener presente que trabajamos con distribuciones
aproximadas.
Obsrvese que si una de las dos muestras tuviese un tamao inferior a 30 ya no podramos aplicar
este desarrollo.
En el caso de que las variables se distribuyan normalmente pero las varianzas pobla-
cionales sean desconocidas, la expresin anterior de la discrepancia no resulta vlida.
No obstante, este problema podr ser solventado si las varianzas, aunque desconocidas,
son coincidentes:
2
X
=
2
Y
=
2
.
En esta situacin, la varianza poblacional
2
podr ser estimada utilizando la in-
formacin que proporcionan las dos muestras, mediante la expresin:
226
S
2
=
(n 1)S
2
X
+ (m1)S
2
Y
n +m2
que como vemos es una media ponderada de las varianzas muestrales, adoptando como
pesos los grados de libertad.
Utilizando dicha estimacin se llegara a una discrepancia dada por la expresin
d
X
Y
=
X

Y (
X

Y
)
_
(n1)S
2
X
+(m1)S
2
Y
n+m2
_
1
n
+
1
m
t
n+m2
que se distribuye segn un modelo t de Student con n +m2 grados de libertad.
La deduccin de la expresin anterior se realiza asumiendo los siguiente supuestos:
Normalidad de las poblaciones: X N(
X
,
X
) , Y N(
Y
,
Y
)
Igualdad de varianzas:
2
X
=
2
Y
=
2
Muestras (X
1
, . . . , X
n
) e (Y
1
, . . . , Y
n
) independientes
Bajo estas hiptesis, el error asociado a la diferencia de medias de dos muestras independientes:
e
X
Y
= (

X

Y ) (
X

Y
), se distribuye normalmente con las siguientes caractersticas:
E (e
X
Y
) = 0 ; V ar (e
X
Y
) =

2
X
n
+

2
X
m
=
2
_
1
n
+
1
m
_
As pues, la discrepancia tipicada vendra dada inicialmente por:
e
X
_
1
n
+
1
m
N(0, 1)
pero, dado que en esta expresin aparece el parmetro desconocido , resulta necesario acudir a la
informacin proporcionada por las dispersiones muestrales.
Gracias al supuesto de normalidad, es posible aplicar a cada muestra el teorema de Fisher, segn
el cual se verica:
(n 1)
S
2
X
2

2
n1
; (m1)
S
2
Y
2

2
m1
Teniendo en cuenta que ambas variables son independientes por serlo las muestras y aplicando la
reproductividad de la distribucin chi-cuadrado se obtiene:
(n 1)S
2
X
+ (m1)S
2
Y
2

2
n1
+
2
m1
=
2
n+m2
El teorema de Fisher garantiza adems que esta distribucin chi-cuadrado y la expresin nor-
mal anterior son independientes, por lo cual podemos denir a partir de ambas una nueva variable
distribuida segn un modelo t de Student:
e
X
1
n
+
1
m
1
_
(n1)S
2
X
+(m1)S
2
Y
n+m2
=
X

Y (
X

Y
)
_
(n1)S
2
X
+(m1)S
2
Y
n+m2
_
1
n
+
1
m
t
n+m2
227
Resulta interesante analizar cmo se ve afectada esta expresin por la alteracin de los supuestos
de partida.
Comenzando por la hiptesis de normalidad de las poblaciones investigadas, ya hemos comentado
en epgrafes anteriores que la distribucin t de Student resulta ser muy robusta, es decir, poco sensible
a la no normalidad.
En concreto, los estudios efectuados por Barlett (1935), Gayen (1949,1951) y Boneau (1960) ponen
de maniesto que, siempre que las muestras investigadas tengan tamaos coincidentes, la distribucin
de la expresin no se ve alterada por la no normalidad (incluso cuando las poblaciones de partida sean
muy asimtricas). De modo similar, si las distribuciones de partida son aproximadamente simtricas,
la expresin resulta robusta aun cuando las muestras tengan tamaos distintos.
La alteracin del supuesto de igualdad de varianzas invalida la deduccin efectuada para la t de
Student, dando lugar al problema conocido como de Behrens-Fisher, ampliamente tratado por varios
autores sin que exista una solucin universalmente aceptada.
En general, las propuestas para solucionar este problema parten de la consideracin de las varianzas
muestrales, estimadores consistentes de las varianzas poblacionales, que conducen a la expresin:
d
X
Y
=
X

Y (
X

Y
)
_
S
2
X
n
+
S
2
Y
m
que sigue aproximadamente una distribucin t de Student con grados de libertad:
g.l. =
(n 1)
S
2
X
n
+ (m1)
S
2
Y
m
S
2
X
n
+
S
2
Y
m
Esta aproximacin, que se debe a Cochran (1964), conduce a un nmero de g.l. que, en general,
no ser entero, por lo cual cuando consultemos en las tablas tendremos que buscar el nmero de g.l.
ms prximo o bien interpolar.
Por ltimo, el supuesto de independencia entre las muestras resulta de gran importancia ya que,
si esta hiptesis se incumple, las expresiones anteriormente deducidas pierden su validez. De ah el
inters de distinguir las inferencias sobre diferencia de medias con muestras independientes de las
correspondientes a datos pareados, analizada con anterioridad.
El planteamiento recogido en este apartado para la diferencia de medias es suscep-
tible de ser generalizado a la suma o a cualquier combinacin lineal de esperanzas del
tipo
X
+
Y
.
Aunque no recogemos aqu estos desarrollos, en el supuesto ms sencillo de normalidad y varianzas
conocidas, la discrepancia normalizada viene dada por la expresin:
d
Y
=

X +
Y (
X
+
Y
)
_
2
X
n
+

2
2
Y
m
N(0, 1)
[Llevar a cabo la deduccin de esta expresin]
Otra posible generalizacin consiste en llevar a cabo comparaciones de las esperanzas
en ms de dos poblaciones. Este planteamiento conduce al anlisis de varianza, que
ser analizado en un captulo posterior.
228
6.2.6. Inferencias sobre la razn de varianzas
Como hemos visto en el apartado anterior, al analizar la diferencia de medias po-
blacionales resulta de gran importancia conocer si las varianzas de las poblaciones
investigadas son coincidentes. En consecuencia, estaremos interesados en llevar a cabo
inferencias sobre el parmetro

2
X
2
Y
, o ms concretamente, contrastar si esta expresin
es unitaria.
Supongamos dos poblaciones X e Y normales:
X A(
X
,
X
) , Y A(
Y
,
Y
)
y consideremos dos muestras independientes de cada poblacin (X
1
, . . . , X
n
), Y
1
, . . . , Y
n
).
El estimador analgico del parmetro investigado ser
T =
S
2
X
S
2
Y
y deniremos un error relativo que -como ya hemos justicado en las inferencias sobre
la varianza- resulta ms adecuado para las caractersticas de dispersin. Dicho error
e
R
S
2
X
/S
2
Y
=
S
2
X
S
2
Y
2
X
2
Y
=
S
2
X
2
Y
S
2
Y
2
X
presenta esperanza unitaria y distribucin conocida, por lo cual no es necesario efec-
tuar ningn ajuste sobre el mismo. Se dene as la discrepancia tipicada:
d
S
2
X
S
2
Y
=
S
2
X
S
2
Y
2
X
2
Y
=
S
2
X
2
Y
S
2
Y
2
X
expresin que se adapta a un modelo F de Snedecor con n 1 g.l. en el numerador y
m-1 en el denominador.
Aplicando el teorema de Fisher a las dos muestras, se tiene
(n 1)
S
2
X
2
X

2
n1
; (m1)
S
2
Y
2
Y

2
m1
Adems ambas variables son independientes por serlo las muestras, luego el cociente
de dos variables chi-cuadrado divididas por sus g.l. dene una variable F de Snedecor.
As:
(n1)
S
2
X
/
2
X
n1
(m1)
S
2
Y
/
2
Y
m1
=
S
2
X
2
X
S
2
Y
2
Y
=
S
2
X
2
Y
S
2
Y
2
X
F
n1
m1
229
Gracias a la propiedad de inversin de la distribucin F, es sencillo comprobar que en el caso de
que las inferencias fuesen referidas a

2
Y
2
X
se llegara a un modelo F
m1
n1
[Comprubese]
Este proceso resulta poco robusto, ya que la distribucin F se ver muy afectada por posibles
alteraciones en el supuesto de normalidad de las poblaciones investigadas.
6.2.7. Inferencias sobre otras caractersticas
Es evidente que las situaciones sealadas no agotan toda la casustica inferencial.
Sin embargo, s cubren los parmetros de mayor inters prctico.
En ciertas ocasiones podemos estar interesados en parmetros que aparecen rela-
cionados mediante alguna expresin con las esperanzas o las varianzas poblacionales,
por lo cual resultaran aplicables los procedimientos anteriormente descritos, utilizan-
do como punto de partida los estimadores adecuados en cada caso y explicitando los
correspondientes supuestos.
A modo de ilustracin, podramos estar interesados en llevar a cabo inferencias sobre el parmetro
b en un modelo uniforme U[0, b] (obsrvese que en este caso b = 2) o sobre la desigualdad en un
modelo de Pareto (es decir, la expresin

1
, que coincide con el ratio

x
0
).
Por otra parte, existen situaciones en las que, por el propio carcter del parmetro
investigado, la metodologa inferencial cambia considerablemente. Este ser el caso de
las inferencias relativas a la mediana o, ms en general, a cualquier caracterstica de
posicin no central (cuantiles).
Las inferencias relativas a la mediana Me se abordan desde un marco no param-
trico, esto es, sin explicitar supuestos sobre la poblacin de partida X. (Obsrvese que
bajo la hiptesis de normalidad se cumple Me = , por lo cual nos remitiramos a las
deducciones ya estudiadas para la media).
La caracterstica que identica al parmetro Me es por denicin su probabili-
dad acumulada F
X
(Me) = P(X Me) = 0, 5. As pues, a partir de una m.a.s.
(X
1
, . . . , X
n
) podemos tambin garantizar para una X
i
cualquiera: P(X
i
Me) =
0, 5.
Dado que nuestro objetivo es llegar a un modelo probabilstico conocido que utilice
las informaciones muestral y poblacional, deniremos ahora una v.a. Z que recoge el
nmero de observaciones muestrales inferiores o iguales a Me. Dicha variable segui-
r un modelo B(n, 0, 5) y en consecuencia podremos calcular cualquier probabilidad
asociada a valores concretos de Z, y a partir de ellas llevar a cabo inferencias (esti-
maciones o contrastes) del parmetro Me.
La utilizacin de la mediana presenta como ventaja su robustez, pero en cambio supone prdidas
de eciencia con respecto a otros procesos inferenciales. Para solucionar este inconveniente, en oca-
siones se deende la utilizacin de una media ajustada (trimmed mean) obtenida como promedio de
una muestra de la que se han eliminado las observaciones extremas (por exceso y por defecto).
230
Figura 6.6.: Inferencias genricas
'
&
$
%
Poblacin X
Caractersticas
poblacionales

m.a.s
Caractersticas
(X
1
, . . . , X
n
) muestrales
Discrepancia
d
La media ajustada de nivel k para una muestra n se obtiene como promedio de sus n 2k obser-
vaciones centrales. Puede comprobarse que la mediana se corresponde con el caso particular de nivel
n1
2
para n impar y
n2
2
para n par.
De modo similar, para cualquier cuantil Q se tiene una probabilidad asociada p
Q
, por lo cual a
partir de la muestra garantizamos P(X
i
Q) = p
Q
, deniendo ahora la variable Z: nmero de
observaciones muestrales inferiores a Q que sigue un modelo B(n, p
Q
).
6.2.8. Inferencias genricas sobre poblaciones
Cuando los procesos inferenciales no tienen como objetivo una caracterstica con-
creta, el planteamiento cambia ligeramente respecto al visto en apartados anteriores
(gura 6.6).
En efecto, en este caso no estamos interesados en parmetros concretos sino en
caractersticas ms globales de la poblacin, tales como su distribucin de probabi-
lidad. Es habitual tambin, en el caso de que nos interesen varias poblaciones, que
investiguemos la independencia entre ambas o su homogeneidad.
En este tipo de inferencias resulta de gran inters la distribucin chi-cuadrado, que
surge, siguiendo el esquema anterior, en los siguientes trminos: para cada elemento de
la muestra comparamos la informacin muestral (C
m
i
) con la correspondiente informa-
cin terica poblacional (C
p
i
), construyendo de este modo unos errores e = (C
m
i
C
p
i
)
que, por depender de la informacin muestral, son aleatorios.
Dado que estos errores deben ser sintetizados y reducidos a un modelo probabilstico
terico, el procedimiento de tipicacin consiste en este caso en elevar los errores al
cuadrado (evitando as la compensacin de signos), y dividir entre la caracterstica
terica.
Una vez llevado a cabo este procedimiento para todos los componentes de la muestra,
se obtiene la expresin de la discrepancia:
231
Tabla 6.5.: Inferencias sobre caractersticas genricas
Caracterstica C
m
i
C
p
i
Error e Expresin Grados de
investigada Ajustada Libertad
Distribucin
n
i
np
i
n
i
np
i
r
i=1
(n
i
np
i
)
np
i
2 r 1 k
de r=n de clases
k=n de parmetros
probabilidad estimados
Independencia n
ij
n
i
n
j
n
n
ij
n
i
n
j
n
r
i=1
s
j=1
_
n
ij
n
i
n
j
n
_
2
n
i
n
j
n
(r 1)(s 1)
r, s=n de clases de
las dos caractersticas
investigadas
Homogeneidad n
ij
n
i
n
j
n
n
ij
n
i
n
j
n
r
i=1
s
j=1
_
n
ij
n
i
n
j
n
_
2
n
i
n
j
n
(r 1)(s 1)
r=n de poblaciones
s=modalidades de la
caracterstica investigada
d =
n
i=1
(C
m
i
C
p
i
)
2
C
p
i
que se distribuye, siempre que se garanticen ciertos tamaos muestrales mnimos,
segn un modelo chi-cuadrado con un nmero de grados de libertad igual a n (tamao
de muestra) menos k (nmero de restricciones).
El procedimiento descrito es aplicable a varias situaciones diferenciadas, que apare-
cen sintetizadas en la gura 6.5.
En general estas expresiones son aplicadas al contraste de ciertas hiptesis (contras-
tes de bondad de ajuste, contrastes de independencia y contrastes de homogeneidad)
que analizaremos con detalle en un captulo posterior, por lo cual nos limitamos aqu
a comentar brevemente sus rasgos ms destacables.
Las inferencias basadas en la distribucin chi-cuadrado se llevan a cabo agrupando
la informacin muestral en intervalos o clases y comparando las frecuencias observadas
en la muestra con las frecuencias esperadas (esto es, las asociadas a la caracterstica
poblacional investigada).
En concreto, cuando llevamos a cabo inferencias sobre la distribucin de probabi-
lidad, denotamos por n
i
la frecuencia observada en el intervalo i-simo y por np
i
su
frecuencia esperada (calculada asumiendo que la variable sigue determinado modelo
probabilstico, que nos proporciona para cada intervalo su probabilidad p
i
).
Repitiendo el proceso para todos los intervalos se llega a la discrepancia tipicada:
r
i=1
(n
i
np
i
)
np
i
2

2
r1k
232
cuyos grados de libertad se obtienen como diferencia entre el tamao muestral (r clases
o intervalos) y el nmero de restricciones (al menos existe una:
r
i=1
np
i
=
r
i=1
n
i
= n
pero podra haber nuevas restricciones, k en general, si el modelo probabilstico inves-
tigado depende de k parmetros que debemos estimar).
Las condiciones de convergencia hacia la distribucin chi-cuadrado exigen que ninguna de las fre-
cuencias esperadas np
i
adopte un valor bajo, considerndose habitualmente 5 como frecuencia mnima
para un intervalo.
Si nuestro objetivo es investigar (en general contrastar) la independencia entre dos
poblaciones o caractersticas, debemos partir de la informacin de una muestra con-
junta, agrupada en clases, para las dos variables investigadas. Para construir la dis-
crepancia en este caso se comparan las frecuencias conjuntas observadas (n
ij
) con
las esperadas, que sern
n
i
nj
n
bajo la condicin de independencia, llegando as a la
expresin:
r
i=1
s
j=1
_
n
ij
n
i
n
j
n
_
2
n
i
n
j
n
(r1)(s1)
(6.3)
cuyos grados de libertad se obtienen como producto de los asociados a cada una de
las caractersticas investigadas (para la primera caracterstica se tienen r 1 g.l., ya
que existen r clases sometidas a la restriccin

r
i=1
n
i
= n; de modo anlogo para la
segunda se tienen s 1 g.l., ya que las s clases deben cumplir

s
j=1
n
j
= n).
La independencia puede ser investigada sobre caractersticas tanto cuantitativas como cualitati-
vas, siendo aplicable en ambas situaciones la distribucin chi-cuadrado deducida, en la que tan slo
intervienen las frecuencias. Para que este modelo probabilstico quede garantizado es necesario que
ninguna de las frecuencias esperadas sea excesivamente pequea.
Por ltimo, la distribucin chi-cuadrado es aplicable al estudio de la homogeneidad
de varios colectivos o poblaciones respecto a una caracterstica. En este caso, aunque
se produce un cambio de planteamiento, las expresiones resultan muy similares a las
estudiadas anteriormente para la independencia (ecuacin 6.3), si bien en este caso
r representa el nmero de colectivos o poblaciones investigados, n
i
recoge el tamao
de muestra correspondiente al colectivo r y s indica las modalidades excluyentes que
presenta la caracterstica respecto a la cual se investiga la homogeneidad.
233
7. Estimacin
Cada da, los medios de comunicacin difunden noticias basadas en estimaciones:
la subida media de los precios durante el ltimo mes, la audiencia que ha tenido una
retransmisin deportiva en televisin, la proporcin de votos que obtendra un partido
poltico en las prximas elecciones, ... En todos estos ejemplos las noticias se basan en
informacin parcial, no exhaustiva, y por tanto los datos publicados no sern exactos,
pero sin embargo resultarn de gran utilidad.
As, en el caso de la subida media de precios, la informacin proporcionada por el
IPC (Indice de Precios de Consumo) no puede medir los precios de todos los bienes y
servicios consumidos y por tanto las noticias que se publican cada mes en los medios
de comunicacin corresponden a una estimacin realizada por el Instituto Nacional de
Estadstica (INE) a travs de un muestreo muy completo. De modo similar, las audien-
cias de programas televisivos se estiman a partir de encuestas entre los espectadores
y la intencin de voto se estima mediante encuestas o sondeos electorales.
Es importante tener presente que el hecho de que las estimaciones no tengan carc-
ter exacto no afecta a su veracidad ni a su utilidad: en el contexto socioeconmico nos
interesar disponer de aproximaciones ables de la subida de precios, la renta perc-
pita, la tasa de paro, ... y la calidad de las estimaciones depender bsicamente de
dos factores que ya hemos analizado en los temas precedentes: en primera instancia la
informacin muestral disponible (que ser la "materia prima" en la que se fundamenta
cualquier estudio inferencial) y en segundo lugar la "calidad" de las tcnicas aplica-
das (trmino que abarca tanto las expresiones de los estimadores como el mtodo de
estimacin utilizado).
Como consecuencia de los condicionantes sealados, a menudo encontramos diferentes estimacio-
nes para los mismos parmetros. As, distintos organismos e instituciones publican sus estimaciones y
predicciones referidas al crecimiento del PIB, el IPC o la tasa de paro, con resultados no coincidentes.
Analizando los comentarios anteriores llegamos a la conclusin de que disponemos
de algunas "garantas" para los resultados de nuestras estimaciones. Tal y como indica
la Figura 7.1 la primera de estas garantas ser el diseo muestral, ya que trabaja-
mos con muestras aleatorias y a partir de ellas inferimos resultados para el conjunto
poblacional.
Adems, conocemos los requisitos exigibles a los estimadores por lo cual podre-
mos saber hasta qu punto estamos trabajando con instrumental adecuado. Como
consecuencia de la propia denicin vista para estas propiedades, si el estimador es
insesgado garantiza que no introduce errores sistemticos y si es eciente consigue una
dispersin mnima respecto al parmetro.
234
7. Estimacin
Figura 7.1.: Garantas del proceso de estimacin
Muestras aleatorias garantizan que la seleccin es probabils-
tica
Estimadores y sus propiedades:
Insesgados: garantizan que no hay errores sistemticos
Ecientes: garantizan mnimo riesgo respecto al parme-
tro
Sucientes: garantizan aprovechamiento de la informa-
cin
Consistentes: garantizan la convergencia al parmetro
Discrepancia asociada al estimador con distribucin conoci-
da: garantiza cierta abilidad en la estimacin.
La suciencia por su parte es una garanta de aprovechamiento de la totalidad de
la informacin muestral mientras que la consistencia asegura la convergencia al valor
verdadero.
Por otra parte, en el captulo anterior hemos visto que es posible especicar una
distribucin probabilstica asociada a la discrepancia del estimador respecto al par-
metro. Basndonos en estas distribuciones podremos efectuar armaciones probabi-
lsticas, garantizando que cierta proporcin de las discrepancias se sita entre ciertos
mrgenes.
Este ltimo tipo de garanta aparece directamente relacionado con el procedimiento
de estimacin, para el que son posibles dos modalidades que estudiaremos con detalle
en los epgrafes que siguen: la primera de ellas -denominada estimacin puntual- pro-
porciona una aproximacin concreta del parmetro desconocido mientras la segunda
-estimacin por intervalos- consiste en estimar un intervalo o banda de conanza.
7.1. Estimacin puntual y por intervalos
Un proceso global de estimacin consiste en utilizar de forma coordinada gran parte
de las tcnicas que hemos analizado en captulos anteriores. Gracias a ellas estamos ya
en condiciones de responder a preguntas del tipo qu caracterstica de la poblacin
tratamos de aproximar?, cul es la expresin ms adecuada como estimador?, qu
modelo probabilstico podemos llegar a obtener para la discrepancia asociada a ese
estimador?
Nos preocuparemos ahora de estudiar la estimacin de la caracterstica investigada
a la que llegaremos con la informacin muestral disponible, y de evaluar la abilidad
asociada a dicha estimacin.
235
7. Estimacin
Consideramos como punto de partida del proceso de estimacin una muestra alea-
toria simple (X
1
, . . . , X
n
) extrada de la poblacin investigada, a partir de la cual
denimos un estimador T = T(X
1
, . . . , X
n
) que ser tambin una v.a.
Para cada muestra concreta (x
1
, . . . , x
n
), el estimador T proporciona una estimacin
puntual determinada t = T(x
1
, . . . , x
n
) que aproxima el parmetro desconocido y
por tanto conlleva un error concreto e = t .
Ser aceptable esta estimacin de ? Para responder a esta pregunta sera nece-
sario conocer la magnitud del error cometido, objetivo que no resulta factible en la
prctica por ser dicho error funcin del parmetro desconocido.
Debemos tener presente que las propiedades estudiadas para los estimadores garantizan un buen
comportamiento probabilstico de los mismos pero no permiten efectuar ninguna armacin sobre
las estimaciones particulares. De este modo es perfectamente posible que, aun utilizando un estima-
dor centrado, eciente, suciente y consistente cometamos errores de gran magnitud al estimar el
parmetro.
En denitiva, las propiedades de los estimadores avalan el instrumento utilizado pero no cada re-
sultado particular obtenido con ste. De hecho, a partir de la expresin nica de un estimador, cada
muestra concreta nos conducir a estimaciones diferentes, que llevan asociados los correspondientes
errores.
En el captulo anterior hemos analizado las distribuciones probabilsticas asociadas
a los procesos inferenciales relativos a diversos parmetros. No obstante, por tratar-
se habitualmente de modelos continuos (normal, chi-cuadrado, t de Student o F de
Snedecor) es imposible cuanticar probabilidades para estimaciones concretas de un
parmetro desconocido .
Consideremos a modo de ejemplo que nuestro objetivo es estimar la renta esperada en determinada
poblacin. A partir de una m.a.s. de tamao n y dado que la media muestral -como ya hemos visto
con anterioridad- es un estimador adecuado de podramos enunciar armaciones del tipo:
E
_
X
_
= ; V ar
_
X
_
=

2
n
; lm
n
P
_

X
> k
X
_
= 0
o bien, en trminos de las correspondientes discrepancias tipicadas:
E (d
X
) = 0 ; V ar (d
X
) = 1 ; lm
n
P (|d
X
| > k) = 0
Sin embargo, una vez que partimos de una muestra concreta no tiene sentido plantearse ese ti-
po de armaciones, (habremos obtenido, por ejemplo, x = 50, y no resultar posible asignar una
probabilidad al error asociado a este valor concreto). En realidad para cada estimacin puntual slo
cabran dos grandes posibilidades excluyentes: haber estimado de forma exacta el valor de o bien
(alternativa ms habitual) haber cometido algn error en dicha estimacin.
Si queremos llegar a efectuar armaciones probabilsticas sobre un resultado inferen-
cial, cabe la posibilidad de ampliar la ptica de la estimacin pasando a la construccin
de intervalos o bandas de conanza.
Este procedimiento, que aparece conectado de modo natural con la estimacin pun-
236
7. Estimacin
tual, resulta sin embargo ms general. A grandes rasgos, la aportacin de la estimacin
por intervalos respecto a la puntual consiste en hacer explcito el error o discrepancia
inherente al proceso de estimacin, incorporando mrgenes -por exceso y por defecto-
respecto a la estimacin puntual.
Siguiendo con el ejemplo anterior, la estimacin de la renta esperada se efectuara ahora adop-
tando como punto de partida la media muestral a la que incorporamos mrgenes de error , cuya
determinacin estudiaremos ms adelante.
Al igual que ocurra en la estimacin puntual, cada muestra concreta llevar a unos valores par-
ticulares de x y x + (47 y 53, por ejemplo) que determinan un intervalo en el que no podemos
asegurar que est contenido el parmetro . Sin embargo, la gran novedad es que ahora resulta posible
efectuar armaciones probabilsticas referidas a los intervalos genricos
_
X ,

X +
_
.
Para claricar las conexiones y diferencias entre la estimacin puntual y la estima-
cin por intervalos, supongamos que nuestro objetivo es determinar la tasa de paro
en una poblacin. Como ya hemos visto en captulos anteriores se trata de un caso
particular de estimacin de la proporcin p, problema que resulta muy habitual en el
mbito econmico y del que por tanto pueden encontrarse otros muchos ejemplos (la
cuota de mercado de un producto, la participacin femenina en el mercado laboral, el
peso relativo de un sector econmico, ....).
A partir de una m.a.s. el estimador analgico de la proporcin poblacional sera
la proporcin muestral p =
X
n
donde n es el tamao muestral (nmero de activos
investigados para nuestro estudio) y X es la variable aleatoria que recoge el nmero
de activos que se encuentran en paro.
La proporcin muestral nos permite estimar la tasa de paro p tanto puntualmente
como por intervalos. En el primero de estos casos, el estimador nos proporciona un
valor nico, que queda determinado a partir de la muestra, mientras que la incorpo-
racin de mrgenes de conanza -tal y como se indica en la gura 7.2- nos permitira
garantizar cierta probabilidad de que la tasa p se encuentre comprendida entre dos
valores aleatorios.
En principio podra parecer deseable maximizar esta probabilidad o conanza del
intervalo, pero ello nos llevara a aumentar su tamao, cosa que no resulta deseable.
En realidad, al llevar a cabo este tipo de estimacin debemos cuestionarnos en un
doble sentido: qu probabilidad podemos garantizar? pero tambin qu precisin
tiene el intervalo que facilitamos?
Ambas caractersticas, que denominaremos conanza y precisin respectivamente,
resultan de gran inters, y puede percibirse fcilmente la relacin de sustitucin entre
las mismas. Como muestra la gura, un afn por garantizar la mxima conanza
(probabilidad del 100 %) conduce inevitablemente al intervalo [0, 1] para la tasa de
paro. Dicho resultado no es en absoluto informativo, hasta el punto de que coincide
con el espacio paramtrico inicial, ya que por denicin se tiene p [0, 1].
Frente a este caso extremo de mxima conanza con mnima precisin se encontrara
la situacin opuesta, en la que consideraramos prioritaria la obtencin de intervalos
237
7. Estimacin
Figura 7.2.: Estimacin puntual y por intervalos
precisos. La maximizacin de la precisin o minimizacin de la amplitud nos conducira
a intervalos con margen de error nulo, que coinciden con la estimacin puntual y a los
que resulta imposible asignar un nivel de conanza o probabilidad (por tanto el nivel
de conanza adoptara su valor mnimo, 0 %).
Entre los dos casos extremos descritos existen innitas situaciones intermedias en las
que se presentaran distintas opciones de las caractersticas de precisin y conanza.
A la vista de los comentarios anteriores cabra preguntarse si una estimacin por
intervalos resulta siempre preferible a la estimacin puntual. La respuesta es nega-
tiva puesto que, si bien la estimacin por intervalos presenta claras ventajas sobre
la puntual, la eleccin de uno u otro procedimiento depender de los objetivos que
persigamos en cada investigacin.
A modo de ilustracin, una empresa no estar demasiado interesada en una cifra concreta de ventas
esperadas sino que preferir conocer con ciertas garantas un intervalo en el que stas se encuentren
situadas. Este mismo razonamiento podra ser aplicable a la evolucin de precios, pero deja de ser
vlido si lo que se pretende es obtener un ndice que posteriormente pueda ser utilizado como deac-
tor, funcin sta que no puede desempear un intervalo.
En denitiva, aunque la estimacin por intervalos presenta la ventaja de garantizar
una probabilidad o nivel de conanza, no siempre es ste nuestro objetivo prioritario.
En muchas ocasiones resulta imprescindible disponer de un dato nico y as la propia
estadstica ocial muestra numerosos ejemplos en los que las estimaciones se llevan a
cabo puntualmente (IPC, tasa de paro, PIB, ...).
Esta opcin permite disponer de cifras precisas -no avaladas por ninguna probabi-
lidad directa pero s por su mtodo de obtencin- que en ocasiones sern utilizadas
como deactores o indicadores econmicos. Adems, en la estadstica ocial estos re-
sultados aparecen a menudo complementados con informacin relativa a su margen
de error, que permite la construccin de intervalos en el caso de que sta se considere
238
7. Estimacin
conveniente.
7.2. Intervalos de conanza. Construccin y
caractersticas
Una vez examinadas las ventajas de la estimacin por intervalos, nos ocuparemos
de su determinacin, estudiando tambin los factores que afectan a su precisin y su
nivel de conanza.
Denicin 7.1. Llamamos intervalo de conanza a un intervalo del espacio param-
trico limitado por dos valores aleatorios T
1
y T
2
entre los que, con cierta probabilidad
se halle comprendido el verdadero valor del parmetro desconocido .
Llamamos nivel de conanza, que denotamos por 1, a la probabilidad o conanza
de que el parmetro se encuentre entre los lmites anteriores:
1 = P (T
1
T
2
)
7.2.1. Construccin de intervalos de conanza
Se trata por tanto de determinar los valores que delimitan el intervalo, y que de-
pendern tanto de la informacin muestral (X
1
, . . . , X
n
) como del estimador T.
Dado que sera difcil determinar los valores extremos que podra presentar la mues-
tra, la construccin de intervalos se lleva a cabo mediante la consideracin de valores
extremos para el estimador. As pues, el mtodo utilizado para la determinacin de
intervalos consiste en incorporar ciertos mrgenes de error al estimador T, hasta llegar
a obtener un recorrido aleatorio (T
1
, T
2
) cuya amplitud denotamos por A = T
2
T
1
.
Cuanto ms reducida sea esta amplitud, calicaremos al intervalo de ms preciso.
En ocasiones el intervalo de conanza se obtiene aadiendo un mismo margen a derecha e izquierda
de la estimacin puntual, con lo cual el intervalo es simtrico respecto al punto, y su amplitud coin-
cide con el doble del margen. No obstante, esta situacin no resulta aplicable a todos los parmetros
de inters.
Consideremos una poblacin que identicamos con una variable aleatoria X cuya
distribucin de probabilidad depende de cierto parmetro desconocido . El procedi-
miento general que seguiremos para la construccin de intervalos de conanza para
aparece descrito en la gura 7.3.
La primera etapa, ya conocida, consiste en resumir la informacin muestral me-
diante un estimador T(X
1
, . . . . , X
n
) y construir la discrepancia tipicada asociada a
este estimador. Para ello seguiremos la metodologa estudiada en el captulo anterior,
llegando a expresiones d
T
que son funcin tanto de la m.a.s. (X
1
, . . . . , X
n
) como del
parmetro investigado : d
T
= d
T
(X
1
, . . . . , X
n
, ) y que, en general, seguirn un mo-
239
7. Estimacin
Figura 7.3.: Esquema de Estimacin por intervalos
9
8
6
7
POBLACIN X

m.a.s. Parmetro
(X
1
, . . . , X
n
) desconocido
Estimador P (T
1
T
2
) = 1-
T(X
1
, . . . , X
n
) = (
T
1
)
T
2

d
T
(X
1
, . . . , X
n
, ) = P(a d
T
b) = 1
(
a
d
T
)
b
delo probabilstico conocido.
Las discrepancias tipicadas d
T
que hemos introducido en el captulo anterior son expresiones alea-
torias construidas por comparacin de T y , cuyo modelo probabilstico es habitualmente conocido
y no depende del parmetro .
As, dada una v.a. X con distribucin F
X
(x), hemos estudiado las distintas expresiones tipicadas
d
T
(X
1
, . . . . X
n
, ), cuya distribucin de probabilidad es conocida (Normal, t de Student, chi-cuadrado
o F de Snedecor) y no depende de ningn parmetro desconocido.
La distribucin de d
T
aparecer en general tabulada. Por tanto, una vez jado el
nivel de conanza 1 que deseamos garantizar para nuestra estimacin, es posible
determinar con ayuda de las correspondientes tablas un par de valores a y b tan
prximos como sea posible tales que se cumpla:
P(a d
T
(X
1
, . . . , X
n
, ) b) = 1
Dado que d
T
es una expresin aleatoria que resume la discrepancia entre T y
convenientemente tipicada, mediante la igualdad anterior garantizamos una proba-
bilidad de que la discrepancia se encuentre en cierto recorrido [a, b].
Los niveles de conanza ms habituales son el 90 %, 95 % y 99 %. Una vez jado un nivel de con-
anza determinado 1 , en principio existen innitas posibilidades para determinar los valores a
y b que encierran esa probabilidad. Sin embargo, nuestro objetivo es obtener intervalos precisos por
lo cual intentaremos que a y b se encuentren lo ms prximos posible. En concreto, para expresiones
d
T
distribuidas simtricamente (caso de los modelos Normal o t de Student) el recorrido ptimo -en
el sentido de mxima precisin- se obtiene para valores opuestos, esto es, con a = b.
240
7. Estimacin
Mediante las etapas descritas hasta ahora hemos llegado a obtener intervalos cons-
tantes [a, b] para la variable aleatoria d
T
. Se trata de un paso intermedio hacia nuestro
objetivo, que es la construccin de intervalos aleatorios para el parmetro .
Por tanto, debemos ocuparnos ahora de la etapa nal de la gura 7.3, consistente en
pasar del intervalo constante [a, b] que incluye un (1 ) % de la probabilidad de d
T
,
a otro intervalo con lmites aleatorios T
1
y T
2
entre los que, con probabilidad 1 ,
se encontrar el parmetro .
Dado que d
T
es una funcin continua e inyectiva de , a partir de su expresin
d
T
(X
1
, . . . . , X
n
, ) es posible obtener (igualando d
T
a los extremos constantes a y b)
un par de funciones de la muestra T
1
(X
1
, . . . . , X
n
) y T
2
(X
1
, . . . . , X
n
) tales que se
cumpla:
P(T
1
T
2
) = 1
El proceso de obtencin de [T
1
, T
2
] a partir de [a, b] se basa en el siguiente razo-
namiento: al igualar la discrepancia d
T
a su valor mnimo a, estamos asumiendo el
mximo error por defecto (subestimacin) y como consecuencia, debemos corregir T
al alza para compensar esa subestimacin de , llegando as al extremo superior del
intervalo T
2
.
Este razonamiento se aplicara de modo anlogo a la situacin opuesta en la que la
discrepancia d
T
adopta su valor mximo b, por lo cual al estimar corregiremos el
valor de T a la baja hasta llegar a T
1
. As pues, se tiene:
d
T
(X
1
, . . . . , X
n
, ) = a

= T
2
d
T
(X
1
, . . . . , X
n
, ) = b

= T
1
y con la obtencin de los lmites aleatorios T
1
y T
2
hemos concluido la construccin
de un intervalo de conanza (IC) para el parmetro .
En apartados posteriores deduciremos las expresiones de los intervalos de conanza
correspondientes a los parmetros de inters. Sin embargo, para ilustrar el proce-
dimiento anteriormente descrito, recogemos aqu la construccin de un intervalo de
conanza para la esperanza .
Consideremos una poblacin X A(, ) con conocida y supongamos que desea-
mos obtener un intervalo para con nivel de conanza 1 = 0, 95. En tal situacin,
las etapas a seguir aparecen recogidas en el esquema de la gura 7.4.
A partir de la media muestral se construye la discrepancia tipicada (que en este
caso sigue una distribucin normal estndar) y se determina el intervalo [1, 961, 96],
que es el mnimo recorrido de d
X
que encierra la probabilidad pedida (1 = 0, 95).
Una vez obtenido este recorrido constante, basta despejar el parmetro para llegar
a un intervalo aleatorio
_
X 1, 96

n
,

X + 1, 96

n
_
241
7. Estimacin
Figura 7.4.: Etapas en la estimacin por intervalos para
que, con probabilidad del 95 %, incluye el verdadero valor esperado.
7.2.2. Precisin de los intervalos
Una vez que hemos comentado el procedimiento general de obtencin de intervalos
que garanticen cierto nivel de conanza 1- , pasamos a analizar su precisin, caracte-
rstica que, como ya hemos comentado, evaluamos a travs de la amplitud A = T
2
T
1
.
Los factores que determinan la precisin de un intervalo, recogidos en la gura 7.5,
son de dos tipos: por una parte, el nivel de conanza que queramos garantizar en
nuestra estimacin, y por otra la informacin disponible, que -en sentido amplio- hace
referencia tanto a la poblacin como a la muestra.
Ya hemos justicado que el nivel de conanza de un intervalo aparece inversamente
relacionado con su precisin, siendo imposible optimizar simultneamente ambas ca-
ractersticas. En la prctica, la construccin de intervalos se lleva a cabo prejando
un nivel de conanza 1 y buscando a continuacin la expresin del intervalo que,
garantizando dicho nivel de conanza, optimiza la precisin.
Como hemos visto en el apartado anterior, una vez jado el nivel de conanza 1
se determinan las constantes a y b que, en el mnimo recorrido posible, encierran esa
probabilidad. Resulta evidente que a y b estarn ms distanciados cuanto mayor haya
sido la probabilidad 1 jada; por tanto, para una situacin dada, el intervalo
ptimo al 99 % ser siempre ms amplio (menos preciso) que el intervalo ptimo al
90 %.
Por lo que se reere a la informacin disponible, podemos armar que, para un nivel
de conanza dado, el intervalo ser ms preciso (es decir, presentar una menor am-
242
7. Estimacin
Figura 7.5.: Precisin del intervalo
9
8
6
7

Nivel de conanza Informacin
1 disponible

POBLACIN MUESTRA
Distribucin Tamao
Parmetros Seleccin
Estadsticos
plitud) a medida que mejoremos nuestra informacin, tanto poblacional (distribucin
de X y parmetros caractersticos) como muestral (tamao, mtodos de seleccin y
estadsticos utilizados).
7.2.2.1. Informacin sobre la poblacin
En primera instancia, nos interesa la informacin referida a la poblacin investigada,
esto es, su distribucin de probabilidad y sus parmetros. En la prctica, gran parte de
los procesos inferenciales se llevan a cabo partiendo del supuesto de normalidad, pero
resulta interesante estudiar la construccin de intervalos en poblaciones desconocidas.
Consideremos una poblacin X, desconocida tanto en lo que respecta a su distribu-
cin F
X
(x) como al parmetro . En esta situacin no es posible garantizar modelos
probabilsticos para las discrepancias d
T
, por lo cual acudiremos a la desigualdad de
Chebyshev, que da lugar a la siguiente expresin:
P ([d
T
E (d
T
)[ k
d
T
) 1
1
k
2
; k > 0
Obsrvese que el enunciado de Chebyshev ira en realidad referido a la probabilidad de que d
T
se desve de su valor esperado en menos de un cierto margen. No obstante, teniendo en cuenta que
d
T
es una funcin continua de T, la desigualdad estricta es equivalente a la condicin menor o igual.
Aunque hasta ahora utilizbamos la desigualdad de Chebyshev para aproximar
probabilidades, en este caso nos interesar el planteamiento opuesto, ya que desea-
mos garantizar cierta probabilidad (coincidente con el nivel de conanza 1 ) pero
desconocemos el margen que debemos incorporar a la discrepancia.
As pues, igualaremos la probabilidad que deseamos garantizar para nuestro inter-
valo con la cota de Chebyshev:
1 = 1
1
k
2
k =
_
1
243
7. Estimacin
obteniendo la constante k en funcin del nivel de conanza jado.
Una vez determinado, este margen k proporciona un par de valores a y b entre los
cuales se encuentra d
T
con probabilidad de al menos 1-:
P ([d
T
E (d
T
)[ k
d
T
) 1 P (a d
T
b) 1
y a partir de la expresin d
T
(X
1
, . . . , X
n
, ), podremos despejar un intervalo aleatorio
(T
1
, T
2
) para , tal que:
P (T
1
T
2
) 1
Estos intervalos basados en la desigualdad de Chebyshev sern -para niveles de
conanza dados- menos precisos que los obtenidos a partir de distribuciones probabi-
lsticas conocidas, puesto que la ausencia de informacin inicial es un inconveniente
que conlleva un coste en trminos de precisin. As pues, la aplicacin de Chebys-
hev nicamente es aconsejable cuando no existe otra alternativa, ya que cualquier
informacin adicional sobre X proporcionar informacin sobre d
T
y en consecuencia
mejorar la precisin de nuestro intervalo.
La construccin de intervalos basados en la desigualdad de Chebyshev sera un caso de estimacin
no paramtrica, en el sentido de que los intervalos no se basan en ningn modelo probabilstico
conocido.
Como veremos en apartados posteriores, en estas situaciones, la amplitud del intervalo de conan-
za depender del nivel de conanza jado y de la eciencia de nuestros estimadores.
Si consideramos ahora que la poblacin X presenta una distribucin conocida (habi-
tualmente normal), podremos obtener intervalos de conanza basados en los modelos
probabilsticos asociados a las discrepancias d
T
.
Dado que las caractersticas poblacionales afectan a las distribuciones de las d
T
,
tambin condicionarn la precisin de los intervalos. En general, obtendremos inter-
valos ms precisos cuanto ms homogneas sean las poblaciones investigadas.
En un apartado posterior analizaremos la importancia que tiene en la estimacin de diversos
parmetros la informacin sobre la varianza poblacional. As, ya hemos visto que las inferencias
sobre la esperanza con
2
conocida conducen a un modelo normal mientras que si
2
es desconocida
debemos utilizar su estimacin S
2
, que conduce a una t de Student y, en general, a estimaciones
menos precisas.
A su vez, en las situaciones con
2
conocida, veremos que la amplitud del intervalo aumentar con
el valor de la varianza.
7.2.2.2. Informacin muestral
La informacin muestral abarca factores relevantes como el tamao de muestra
(n), los mtodos de seleccin empleados y las expresiones utilizadas como estadsticos
muestrales.
244
7. Estimacin
El tamao de la muestra resulta de gran importancia en los procesos de estimacin.
En primer lugar, ya hemos visto que los tamaos elevados de muestra permiten aplicar
los teoremas lmites, garantizando as la convergencia al modelo normal.
Adems, la expresin nal de los intervalos de conanza para :
P (T
1
T
2
) = 1
conduce a dos lmites aleatorios T
1
y T
2
que en general son funciones de n. En apartados
posteriores analizaremos la relacin entre la amplitud de un intervalo A = T
2
T
1
y
el tamao de muestra.
La seleccin muestral puede colaborar en gran medida a mejorar la precisin de
los intervalos. Nos referiremos aqu nicamente al muestreo aleatorio simple que es la
tcnica de seleccin ms sencilla y se adopta habitualmente como referencia, pero los
diseos muestrales ms elaborados contribuyen a mejorar la precisin de las estima-
ciones.
Por ltimo, debemos tener presente que la informacin muestral debe ser resumida
mediante estadsticos o estimadores, por lo cual su denicin ser tambin de impor-
tancia en la determinacin de los intervalos.
Las expresiones T(X
1
, . . . , X
n
) utilizadas como estimadores sern las que resulten
en cada caso ms adecuadas segn los criterios estudiados en captulos anteriores (au-
sencia de sesgo, eciencia, suciencia, consistencia) ya que estas propiedades deseables
se trasladan a las discrepancias tipicadas d
T
(X
1
, . . . , X
n
, ) y tambin a la precisin
de los intervalos de conanza para .
7.2.3. Nivel de conanza: Interpretacin
Como hemos visto, el proceso de construccin de intervalos concluye con la de-
terminacin de un recorrido aleatorio al que, con cierto nivel de conanza (1 ),
pertenecer el parmetro desconocido. Es importante tener presente que esta interpre-
tacin probabilstica, vlida para la expresin [T
1
, T
2
] deja de serlo cuando se obtiene
una m.a.s. concreta (x
1
, . . . , x
n
) y a partir de la misma las estimaciones t
1
(x
1
, . . . , x
n
)
y t
2
(x
1
, . . . , x
n
) que ya no tienen carcter aleatorio.
En efecto, cada concrecin de un intervalo de conanza proporciona un recorrido
numrico concreto sobre el que no puede efectuarse ninguna armacin probabilstica.
Sin embargo, el mtodo de construccin de los intervalos de conanza garantiza que
si efectusemos numerosos estudios muestrales, que se concretaran en los correspon-
dientes intervalos IC
1
, IC
2
, etc, entonces una proporcin (1-) % de ellos contendra
el verdadero valor del parmetro .
Esta interpretacin aparece ilustrada en la gura 7.6 donde representamos el par-
metro que pretendemos estimar y los intervalos de conanza obtenidos a partir de
diferentes realizaciones muestrales.
Como puede apreciarse, la mayora de estos intervalos abarcan en su recorrido a
pero existen algunos (en la ilustracin, el tercero y el sptimo) en los que no se
245
7. Estimacin
Figura 7.6.: Nivel de conanza
encuentra el parmetro. As pues, la concepcin frecuencialista de la probabilidad nos
llevara a armar que la proporcin de intervalos estimados que contienen en su recorri-
do el verdadero se aproxima al nivel de conanza 1 utilizado para su construccin.
Obsrvese que esta armacin probabilstica debe ser efectuada en relacin al intervalo aleatorio
y no al parmetro. As, sera incorrecto decir que tiene una probabilidad 1 de pertenecer
al intervalo ya que el parmetro, aunque desconocido, es un valor constante al que por tanto no
podemos asignar ninguna probabilidad.
7.3. Algunos intervalos de conanza particulares
El esquema expuesto anteriormente (gura 7.4) es aplicable a la construccin de
intervalos de conanza para los parmetros de inters, esto es, las caractersticas po-
blacionales relativas a valores esperados, proporciones y varianzas.
7.3.1. Intervalos de conanza para la esperanza
Las inferencias sobre el parmetro se llevan a cabo habitualmente partiendo del
supuesto de normalidad que, adems de ser adecuado desde el punto de vista emprico,
proporciona distribuciones conocidas para las discrepancias normalizadas.
Dada una v.a. X A(, ) y partiendo de la informacin proporcionada por una
m.a.s. adoptaremos como punto de partida el estimador analgico media muestral,
que viene avalado por sus propiedades, a partir del cual construimos las discrepancias
estudiadas en el captulo anterior:
246
7. Estimacin
d
X
=
n
A(0, 1) , si
2
es conocida
d
X
=
X
S
n
t
n1
, si
2
es desconocida
En el supuesto ms sencillo, con
2
conocida, se parte de la expresin tipicada con
distribucin normal estndar a partir de la cual, una vez jado el nivel de conanza
1 , es posible determinar el valor k tal que:
P (k d
X
k) = 1
Puede apreciarse que en este caso particular los valores que encierran la probabili-
dad 1 son opuestos ya que, como consecuencia de la simetra del modelo normal,
sta es la opcin que, jado el nivel de conanza, conduce al intervalo ptimo (de
mnima amplitud o mxima precisin).
A modo de ilustracin, los valores k para los niveles de conanza habituales son:
Nivel de conanza k
0,9 1,645
0,95 1,96
0,99 2,576
Teniendo en cuenta que en este caso la discrepancia viene dada por la expresin
d
X
=
n
es posible despejar el parmetro , llegando a la expresin:
P
_
X k

n

X +k

n
_
que proporciona un intervalo aleatorio para con nivel de conanza 1 .
_
X k

n
,

X +k

n
_
El procedimiento seguido hasta la obtencin de este intervalo nal consiste en igualar la discre-
pancia a cada uno de sus valores lmites k y +k. De este modo, si d
X
adoptase el valor k entonces
se obtendra la mxima discrepancia -por exceso- de la media muestral respecto a ; por tanto, el
lmite inferior del intervalo se obtiene al corregir el estimador media muestral en el mximo error por
exceso
n
= k =

X k

n
247
7. Estimacin
Con el razonamiento exactamente simtrico, se llegara al estimador considerado lmite superior:
n
= k =

X +k

n
A partir de la expresin obtenida para el intervalo de conanza de se observa que
ste se encuentra centrado en

X y presenta amplitud
A = 2k

n
en la que pueden apreciarse tres factores: el nivel de conanza (que determina k), la
dispersin poblacional () y el tamao muestral (n).
Estudiemos ahora cmo se vera alterado el procedimiento descrito si la varianza
poblacional se desconoce, esto es, si la discrepancia tipicada viene dada por
d
X
=
X
S
n
t
n1
A partir de esta expresin, una vez jado el nivel de conanza 1 podramos
obtener en las tablas de la distribucin t un par de valores simtricos k y k tales
que:
P(k d
X
k) = 1
obtenindose a partir de la expresin anterior:
P
_
X k
S
n

X +k
S
n
_
que conduce al siguiente intervalo de conanza para :
_
X k
S
n
,

X +k
S
n
_
Dicho intervalo sigue estando centrado en la media muestral pero presenta ahora
amplitud variable
A = 2k
S
n
dependiente de la dispersin muestral.
Al comparar esta amplitud con la asociada al IC para con conocida se aprecian dos cambios.
En primer lugar, el valor k aumenta, ya que para un mismo nivel de conanza el valor obtenido en
las tablas t de Student ser superior al del modelo normal (si bien estas diferencias se atenan al
aumentar n).
Por otra parte, la amplitud pasa de ser constante a variable, por lo cual no es posible comparar la
precisin de ambos tipos de intervalos.
248
7. Estimacin
Por ltimo, en ausencia de informacin sobre la distribucin poblacional y si los
tamaos de muestra no son sucientemente elevados para aplicar los teoremas lmites,
tampoco conoceramos la distribucin de la discrepancia, por lo cual deberamos acudir
a la desigualdad de Chebyshev:
P ([d
X
E (d
X
)[ k) 1
1
k
2
La igualacin de la cota con el nivel de conanza exigido proporciona el resultado
k =
1
y, dado que la discrepancia d

X
tiene esperanza nula y dispersin unitaria, se obtiene
el intervalo:
_
X
1
n
,

X +
1
n
_
que, como consecuencia de su obtencin, tiene un nivel de conanza de al menos 1.
Este intervalo presenta una mayor amplitud que los anteriormente vistos y para
situaciones con varianza desconocida podra ser aproximado mediante la dispersin
muestral.
7.3.2. Intervalos de conanza para la varianza
En ocasiones nuestro objetivo es aproximar la dispersin poblacional, obteniendo
intervalos de conanza para la varianza
2
. En tales casos, partiendo de poblaciones
normales, la discrepancia se construye como un cociente entre la varianza muestral S
2
y la varianza poblacional, ajustado por los grados de libertad (n 1) hasta obtener
la expresin
d
S
2 =
(n 1)S
2
2

2
n1
Una vez jado el nivel de conanza 1 sera necesario obtener un par de valores
k
1
y k
2
tales que: P (k
1
d
S
2 k
2
) = 1
Como consecuencia de la asimetra del modelo chi-cuadrado, el mtodo de determi-
nacin de estos valores no coincide con el visto para los intervalos de . En concreto, la
opcin ms habitual consiste en determinar recorridos [k
1
, k
2
] que dejan a su izquierda
y a su derecha colas con idntica probabilidad

2
.
A partir de esos valores se llega a intervalos de conanza para
2
dados por la
expresin:
_
(n 1)S
2
k
2
,
(n 1)S
2
k
1
_
que se encuentran prximos al ptimo.
249
7. Estimacin
Los extremos de este intervalo se obtienen al igualar la discrepancia normalizada a las constantes
k
1
y k
2
obtenidas anteriormente. En el primer caso se hace coincidir d
S
2 con su valor mnimo k
1
,
por lo cual la varianza muestral se corrige al alza multiplicando por el ndice
n1
k
1
> 1, llegando al
extremo superior
(n1)S
2
k
1
; la situacin contraria aparece al igualar la discrepancia a k
2
y conduce al
lmite inferior
(n1)S
2
k
2
.
Otra posibilidad sera adoptar soluciones unilaterales que, aunque en ciertos casos
resultan interesantes, en general son poco informativas ya que proporcionan un slo
extremo para el intervalo.
As, cuando el nivel de conanza se acumula a la izquierda P (d
S
2 k) = 1 , se
obtiene [0, k] con lo cual el intervalo de conanza para
2
es
_
(n1)S
2
k
, +
_
que no
tiene cota superior.
Si en cambio se obtiene el valor k tal que P (d
S
2 k) = 1 , entonces el intervalo
para
2
resulta ser
_
0,
(n1)S
2
k
_
.
En cualquiera de las situaciones comentadas, los intervalos de conanza para la
varianza poblacional presentan un rasgo que los diferencia de los construidos para la
media. Se trata de la incorporacin de un coeciente o margen de carcter multipli-
cativo, que sustituye a los mrgenes aditivos considerados hasta ahora.
7.3.3. Intervalos de conanza para la proporcin
Cuando investigamos caractersticas cualitativas, aparece un caso particular de
la media poblacional: se trata de la proporcin, p, parmetro que -como ya hemos
comentado- presenta gran inters en anlisis inferenciales y se aproxima por la pro-
porcin muestral.
En el captulo anterior hemos visto que para tamaos muestrales sucientemente
elevados es posible -gracias al teorema de De Moivre- construir discrepancias tipica-
das
d
p
=
p p
_
p(1p)
n
A(0, 1)
Aplicando ahora el procedimiento descrito para la construccin de intervalos se
obtiene la expresin:
_
p k
_
p(1 p)
n
, p +k
_
p(1 p)
n
_
que no puede ser determinada en la prctica ya que sus extremos dependen del par-
metro desconocido p. Para solucionar este inconveniente, se suele sustituir la varianza
poblacional de p por su estimador insesgado, con lo cual se obtiene el intervalo:
_
p k
_
p(1 p)
n 1
, p +k
_
p(1 p)
n 1
_
250
7. Estimacin
donde k ha sido calculado mediante las tablas de la distribucin normal para el nivel
de conanza 1 jado.
El razonamiento anterior no resultar sin embargo aplicable para muestras de ta-
mao pequeo. En estas situaciones, nicamente es posible armar que X (numerador
de la proporcin muestral) sigue una distribucin binomial B(n, p).
As pues, conocida la proporcin muestral p y dado un nivel de conanza 1 se
buscan dos valores de probabilidad p
1
y p
2
tales que:
P (X < n p/p
2
) =

2
; P(X > n p/p
1
)=
2
con lo cual se obtiene directamente el intervalo de conanza [p
1
, p
2
] para p.
La estimacin de p puede tambin llevarse a cabo mediante la utilizacin de bandas grcas de
conanza. El mtodo consiste en seleccionar en el eje de abscisas el valor muestral p, para el cual
se obtienen en ordenadas los lmites inferior y superior para el parmetro p con un cierto nivel de
conanza y determinado tamao de muestra.
C. J. Clopper y E. S. Pearson (1934) elaboraron bandas grcas para la proporcin con niveles de
conanza del 95 % y el 99 % y para ciertos tamaos de muestra. Posteriormente autores como Clark
(1953) y Pachares (1960) construyeron mediante el mismo procedimiento bandas asociadas a nuevos
niveles de conanza y tamaos muestrales.
Partiendo del valor p observado en una muestra, estas grcas proporcionan bandas de conanza
que en general no son simtricas respecto a p, ya que para proporciones observadas bajas se incorpora
un mayor margen a la derecha y viceversa si la proporcin observada es cercana a 1. (A modo de
ilustracin, para n = 20 con p = 0, 8 se llegara a una banda [0, 55 , 0, 95] mientras que para el mismo
tamao con p = 0, 1 se obtiene el intervalo [0, 01 , 0, 33]).
7.3.4. Intervalos de conanza para combinaciones lineales de medias
A menudo nos interesa llevar a cabo inferencias sobre la diferencia, la suma u otra
combinacin lineal de esperanzas de dos poblaciones. Para mayor generalidad, con-
sideremos el parmetro
X
+
Y
que deseamos aproximar mediante intervalos de
conanza.
Para la construccin de estos intervalos debemos tener presentes las diversas situa-
ciones descritas en el captulo anterior para la diferencia de medias (muestras depen-
dientes e independientes, poblaciones normales y desconocidas, varianzas conocidas y
desconocidas, etc.).
Si las muestras son dependientes se obtienen datos pareados, que se reducen a
una muestra nica sobre la cual resulta aplicable el procedimiento descrito para la
construccin de IC para la esperanza poblacional.
Por otra parte, en el supuesto de independencia, partiendo de muestras de tamaos
n y m la construccin de intervalos para
X
+
Y
se basa en el estimador insesgado

X +
Y que conduce a la discrepancia tipicada:

d

X+
Y
=

X +
Y (
X
+
Y
)
_
2
X
n
+

2
2
Y
m
251
7. Estimacin
cuya distribucin de probabilidad depende de la informacin disponible sobre las po-
blaciones.
En el supuesto ms sencillo, con X A (
X
,
X
), Y A (
Y
,
Y
) y varianzas
conocidas, los intervalos de conanza para la combinacin de esperanzas vienen dados
por la expresin:
_

X +
Y k
_
2
X
n
+

2
2
Y
m
,

X +
Y +k
_
2
X
n
+

2
2
Y
m
_
donde k se determina en las tablas del modelo normal.
[Dedzcase la expresin anterior] [Cul sera el intervalo de conanza si las varian-
zas fuesen desconocidas y coincidentes?].
Para poblaciones desconocidas la solucin consiste en aplicar la desigualdad de
Chebyshev, cuya cota igualamos al nivel de conanza deseado. Se llega entonces a la
expresin:
_

X +
Y
1
2
X
n
+

2
2
Y
m
,

X +
Y +
1
2
X
n
+

2
2
Y
m
_
[Comprubese]
7.3.5. Intervalos de conanza para la razn de varianzas
Como hemos visto, en la obtencin de los intervalos para combinaciones de medias
resulta importante conocer si las varianzas poblacionales son iguales. De ah que la
razn de varianzas sea tambin un objetivo inferencial.
Dadas dos poblaciones normales X A (
X
,
X
) e Y A (
Y
,
Y
) supongamos
que deseamos obtener un intervalo de conanza para la razn de varianzas

2
X
2
Y
.
Partiremos de la informacin suministrada por dos muestras aleatorias independien-
tes de tamaos n y m respectivamente, a partir de las cuales es posible construir la
discrepancia
S
2
X
2
Y
S
2
Y

2
X
que sigue una distribucin F de Snedecor con (n 1) y (m 1)
grados de libertad.
Siguiendo el mismo procedimiento visto para la varianza, podemos construir inter-
valos bilaterales o unilaterales. En el primer caso, buscaramos en las tablas de la F
dos valores k
1
y k
2
tales que:
P
_
_
d
S
2
X
S
2
Y
< k
1
_
_
=

2
; P
_
_
d
S
2
X
S
2
Y
> k
2
_
_
=

2
con lo cual se obtiene la expresin del intervalo bilateral para la razn de varianzas
2
X
2
Y
:
252
7. Estimacin
_
S
2
X
S
2
Y
k
2
,
S
2
X
S
2
Y
k
1
_
[Cmo se obtendran los intervalos unilaterales?] [y los intervalos para

2
Y
2
X
]
7.3.6. Intervalos de conanza para la mediana
La construccin de intervalos para la mediana de una poblacin es un problema
de inferencia no paramtrica, dado que no es necesario en este caso asumir ningn
supuesto sobre la poblacin X de partida.
Teniendo en cuenta que la mediana (Me) es el parmetro poblacional que garantiza
F
X
(Me) = 0, 5, entonces para todo elemento X
i
de una m.a.s. (X
1
, . . . , X
n
) se cumple
P(X
i
Me) = 0, 5.
Aprovechando la informacin muestral deniremos un intervalo aleatorio [X
a
, X
b
]
que, con el nivel de conanza deseado, contenga al valor mediano. En esta construccin
resultar til la variable Z: Nmero de observaciones muestrales menores o iguales a
Me distribuida segn un modelo B(n, 0, 5), ya que se cumple:
P (X
a
Me X
b
) = P(a Z b) =
b
k=a
_
n
k
_
0, 5
n
y en consecuencia para cada nivel de conanza 1 determinaremos con las tablas
del modelo binomial (o con ayuda de un ordenador) dos cantidades a y b que poste-
riormente conducen a un intervalo numrico [x
a
, x
b
] para la mediana.
Entre las distintas posibilidades para determinar los valores a y b de la variable binomial, optare-
mos por aqulla que proporcione a y b ms prximos. Sin embargo, esta opcin no garantiza que el
intervalo [x
a
, x
b
] al que conduce sea ptimo en el sentido de maximizar la precisin.
El procedimiento descrito puede ser aplicado a la construccin de intervalos para cualquier cuantil
Q, con slo denir la variable aleatoria Z: nmero de observaciones muestrales inferiores al cuantil
Q que sigue un modelo B(n, p
Q
).
7.4. Determinacin del tamao muestral
Hasta ahora nos hemos ocupado de determinar intervalos de conanza para los par-
metros de inters, analizando diversas situaciones con distintos niveles de informacin.
Consideramos ahora otra posibilidad habitual, consistente en determinar el tamao
muestral que permita obtener cierto intervalo.
Este planteamiento resulta de inters en el mbito econmico, ya que son frecuentes
las situaciones en las que el investigador debe determinar el tamao de muestra ne-
cesario para que un intervalo cumpla ciertos requisitos (precisin y nivel de conanza).
253
7. Estimacin
Obsrvese que el tamao de muestra es determinante para conocer el presupuesto de una investi-
gacin. De ah el inters de optimizar, buscando el mnimo tamao que garantice las condiciones de
precisin y conanza que se consideran necesarias en el intervalo buscado.
7.4.1. Tamao de muestra en intervalos para la esperanza
Consideremos una poblacin normal con varianza conocida para la que deseamos
estimar el valor esperado con un cierto nivel de conanza 1 . En ocasiones
podemos estar interesados en obtener el tamao de muestra n necesario para garantizar
determinada precisin en nuestras estimaciones.
Dado que los intervalos para la media son simtricos, su precisin puede ser cuanti-
cada indistintamente mediante la amplitud A o mediante su margen de error =
A
2
.
As pues, se obtiene:
A = 2k

n
= k

n
n =
_
k
_
2
En esta expresin se observa que el tamao muestral n aumenta con la dispersin
poblacional (), con el nivel de conanza (que determina el valor k) y con la precisin
(inverso del margen ).
Puede verse adems que este tamao aumenta cuando nos enfrentamos a mayor
incertidumbre sobre la poblacin, tal y como se recoge en la tabla comparativa que
sigue:
Situacin Margen de error() Tamao muestral
X A(, )
= k

n
n =
_
k
_
2
con conocida
X desconocida
=

n
n =
_

_
2
con conocida
El tamao aumenta al enfrentarnos a poblaciones desconocidas, ya que para un nivel de conanza
dado se obtiene k <
1
1 90 % 95 % 99 %
k 1,645 1,96 2,576
1
3,1623 4,4721 10
En las expresiones deducidas para el tamao muestral n aparece la dispersin po-
blacional, caracterstica que en la prctica puede ser desconocida. Para solucionar
este inconveniente, la prctica ms habitual consiste en obtener una estimacin de la
dispersin mediante una muestra piloto, considerando a continuacin este parmetro
como conocido.
254
7. Estimacin
Debemos tener en cuenta que la realizacin de un estudio piloto para estimar la dispersin pobla-
cional aumentar el presupuesto necesario para nuestra investigacin. Sin embargo, tambin presenta
ciertas ventajas, ya que en la medida en que detectemos errores en este estudio previo podremos
mejorar el diseo de la encuesta denitiva.
7.4.2. Tamao de muestra en intervalos para la proporcin
Supongamos que deseamos estimar la proporcin asociada a determinada caracters-
tica poblacional con cierto nivel de conanza 1. Como hemos visto en un apartado
anterior, la expresin del intervalo viene dada por:
_
p k
_
p(1 p)
n
, p +k
_
p(1 p)
n
_
con lo cual podemos obtener el tamao muestral necesario para garantizar un nivel
de conanza (1 ) y una precisin () concretos:
= k
_
p(1 p)
n
n =
k
2
p(1 p)
2
Puede verse que el tamao obtenido aumenta con las exigencias de conanza y
precisin para nuestro intervalo. Adems, esta expresin depende de la proporcin p
desconocida, problema que puede ser solucionado de dos formas:
Seleccionar una muestra piloto que proporcione una primera estimacin de p.
Sustituir el valor desconocido p(1 p) por su cota mxima, que es 0,25.
Esta segunda alternativa es la ms habitual y, como consecuencia de asumir la disper-
sin mxima, conduce a valores de n que siempre proporcionan una precisin superior
a la inicialmente jada.
Puede comprobarse fcilmente que la expresin de la dispersin p(1 p) alcanza su valor mximo
para p = 0, 5. Dado que sta es la situacin ms desfavorable, en ocasiones podramos disponer de
informacin para acotar p y en consecuencia la dispersin.
255
8. Contraste de hiptesis
Nuestra vida cotidiana est repleta de decisiones y actuaciones basadas en hiptesis.
Si estos supuestos de partida son adecuados aumentarn nuestras posibilidades de xi-
to mientras que, si partimos de hiptesis o supuestos inadecuados, nuestras decisiones
pueden llegar a tener consecuencias contrarias a las deseadas. De ah la importan-
cia de aprovechar al mximo la informacin estadstica disponible, llevando a cabo
contrastes en los que nuestras hiptesis de partida se enfrentarn a la realidad, para
analizar si ambas informaciones son coherentes o contradictorias.
Dada la trascendencia del contraste de hiptesis, es importante prestar atencin a
todo el proceso, que incluye el enunciado de los supuestos de partida, el tratamiento
de la informacin muestral, la eleccion del estadstico de contraste y la conclusin
nal, que consistir a decidir si debemos o no rechazar la hiptesis planteada.
8.1. Conceptos bsicos
El primer aspecto que nos planteamos en un problema de contraste es el relativo
a la formulacin de una hiptesis, que debera recoger un postulado o supuesto de
trabajo, elaborado a partir de teoras, experiencias previas, e incluso nuestras propias
convicciones.
Puede verse por tanto que el origen de las hiptesis es diverso, al igual que lo es
su naturaleza. A modo de ejemplo, nuestros supuestos podran ir referidos a caracte-
rsticas de tipo tcnico (existencia de rendimientos a escala constantes), de compor-
tamiento (la propensin marginal al consumo es del 80 %), comerciales (se espera
una demanda de al menos 30.000 unidades de cierto producto), polticos (un 75 %
de ciudadanos est a favor de la ampliacin de la UE), ... pero tambin podran ser
armaciones genricas sobre ciertos colectivos (el peso de cierto producto se distri-
buye segn un modelo normal) o las relaciones entre varias caractersticas (el tipo
impositivo medio es independiente del nivel de inacin, ...).
En un problema de contraste de hiptesis existen distintos tipos de informacin: la
informacin bsica, que consideraremos segura y no est sujeta a contraste (por ejem-
plo, considerar que el modelo de distribucin de renta es conocido), la informacin
adicional, a priori o contrastable que nos permite establecer la hiptesis de traba-
jo (todas las ilustraciones anteriores entraran en esta categora) y nalmente para
contrastar la hiptesis se utiliza la informacin muestral.
En funcin de la informacin bsica disponible cabe hacer una primera distincin
entre los contrastes:
Denicin 8.1. Se dice que un contraste es paramtrico si existe una informacin
256
bsica que nos permite garantizar el modelo de probabilidad de la poblacin que se
va a contrastar.
Un contraste se dice no paramtrico cuando no hay informacin bsica y todos los
supuestos se incluyen en la hiptesis de trabajo
Los tests no paramtricos son enunciados ms globales relativos a una o varias dis-
tribuciones poblacionales.
Esta distincin, que hemos propuesto de forma genrica para todos los procesos inferenciales, se
basa en el grado de desconocimiento sobre la poblacin, que es parcial para la inferencia paramtrica
y total para la no paramtrica.
Conviene tener presente este criterio de clasicacin ya que, como hemos visto, existen algunos
procedimientos inferenciales que, pese a ir referidos a parmetros tienen carcter no paramtrico (por
ejemplo, este es el caso de la estimacin por intervalos con desconocimiento del modelo poblacional
mediante la desigualdad de Chebyshev).
Una vez investigada su naturaleza cmo se decide si una hiptesis debe o no ser
rechazada? Algunas veces tenemos pruebas inequvocas sobre la validez de un supuesto
y entonces ste se incluye entre la informacin bsica o ncleo no contrastable. Sin
embargo, en la mayor parte de los supuestos asumimos cierto riesgo o incertidumbre
probabilstica, dado que en general las observaciones se hallan expuestas a variaciones
y por tanto podran haber sido generadas bajo la hiptesis enunciada pero tambin
bajo su complementaria o alternativa.
La losofa del contraste de hiptesis se basa en recopilar informacin muestral que
nos permita decidir si las desviaciones observadas con respecto a la hiptesis terica
son demasiado elevadas o signicativas como para poder atribuirlas al azar. En
este caso, la informacin muestral contradice claramente nuestro supuesto y debemos
rechazar nuestra hiptesis de partida.
En denitiva, las decisiones relativas a la hiptesis se basan en la informacin mues-
tral disponible. Como consecuencia, se trata de un proceso de inferencia estadstica,
que lleva inherente el correspondiente riesgo inferencial.
8.1.1. Contraste de hiptesis e intervalos de conanza
Con los rasgos descritos hasta ahora qu analogas y diferencias existen entre los
procedimientos de contraste y los mtodos de estimacin? Para responder a este inte-
rrogante, la gura 8.1 recoge un esquema en el que se analizan paralelamente ambas
tcnicas.
En principio, dado que tanto la estimacin como el contraste de hiptesis son proce-
sos inferenciales, existen abundantes rasgos comunes a los dos mtodos. En realidad,
ambos procedimientos son similares en cuanto a la utilizacin de la informacin mues-
tral y a los instrumentos o expresiones estadsticas que comparan dicha informacin
con las caractersticas poblacionales.
257
Tabla 8.1.: Comparacin: estimacin y contraste
Estimacin Contraste
Objetivo
Aproximar caractersticas Contrastar supuestos
poblacionales desconocidas sobre la poblacin
Informacin
Bsica Bsica
Muestral A priori o contrastable
Muestral
Herramienta
Discrepancia Discrepancia
estimador-parmetro muestra-hiptesis
Resultado
Estimacin puntual o Conclusin:
intervalo de conanza Rechazar o no rechazar
Garantas Nivel de conanza
Nivel de signicacin
Nivel crtico
Las expresiones de las discrepancias tipicadas estudiadas en captulos anteriores y sus correspon-
dientes distribuciones probabilsticas siguen siendo vlidas para la realizacin de contrastes estadsti-
cos, con la nica diferencia de que ahora evaluaremos dichas discrepancias bajo ciertas hiptesis que
deseamos contrastar.
Como consecuencia de su carcter inferencial, los resultados a los que lleguemos
tanto en estimacin como en contraste, sern armaciones probabilsticas basadas en
informacin parcial. De ah el inters de conocer sus garantas que vendrn me-
didas en trminos de probabilidad (en el caso de los intervalos conocemos su nivel
de conanza y para los contrastes introduciremos el nivel de signicacin y el nivel
crtico).
A pesar de las coincidencias sealadas, existen tambin diferencias notables entre
los mtodos de estimacin y contraste. Una de ellas es la informacin presente en
cada uno de los procesos ya que, adems de la informacin bsica y la muestral, un
contraste viene caracterizado por la existencia de informacin a priori o contrastable
que da lugar a un supuesto o hiptesis inicial.
Como consecuencia, en los contrastes de hiptesis el investigador se ve ms involucrado en el pro-
blema ya que, adems de conocer el instrumental estadstico, para establecer la informacin bsica
necesita tener un conocimiento terico y emprico del marco de referencia.
Adems, los mtodos de estimacin y de contraste son diferentes en cuanto a su
objetivo: en estimacin se pretende aproximar un parmetro desconocido (mediante
un valor nico o un intervalo) mientras que en el contraste de hiptesis nuestro objeti-
vo nal es llegar a tomar una decisin (rechazar o no rechazar) sobre la hiptesis inicial.
Para ilustrar la conexin entre estimacin y contraste consideremos a modo de ejemplo la pro-
duccin mensual de cierto mineral (X, datos expresados en miles de Tm.), variable aleatoria que
258
se distribuye segn un modelo normal y cuyo valor esperado, segn la hiptesis de trabajo de la
empresa, es de 410 miles de Tm./mes.
Analizando esta informacin se aprecia que la hiptesis de normalidad se asume como informacin
bsica (no entra en este caso en el contraste) mientras el supuesto relativo a la produccin mensual
esperada ( = 410) es una informacin a priori que nos interesa contrastar.
Si disponemos de informacin muestral, podemos comenzar por analizar la validez del supuesto
utilizando el planteamiento ya conocido de la estimacin.
La estimacin puntual no resulta de gran ayuda ya que, aunque la poblacin sea normal con media
= 410, no cabe exigir que la media muestral coincida exactamente con este valor. As pues, sera
ms adecuado construir un intervalo de conanza para el parmetro , utilizando las expresiones
estudiadas en el captulo anterior.
Supongamos por ejemplo que, para un nivel de conanza del 95 %, el intervalo obtenido con nuestra
informacin muestral es [350, 390]. Teniendo en cuenta que el 95 % de los intervalos contendran
al verdadero valor de la esperanza, en principio pensaramos que nuestro intervalo particular se
encuentra en esa proporcin.
Podemos observar sin embargo que el recorrido estimado [350, 390] no incluye el valor hipottico
de la produccin esperada ( = 410), hecho que nos llevara a pensar que el verdadero valor de se
sita por debajo de nuestro supuesto inicial y por tanto a rechazar la hiptesis = 410.
Siguiendo el mismo procedimiento, cul sera la conclusin si hubiramos obtenido el intervalo
[380, 420]? Parece claro que esta estimacin no contradice el supuesto de partida (el recorrido contiene
el valor hipottico 410), por lo cual no conllevara un rechazo de la hiptesis.
Hemos visto que los intervalos de conanza pueden conducirnos a una decisin sobre el rechazo
de una hiptesis. Sin embargo, conviene observar que en el proceso de construccin de intervalos no
hemos tenido en cuenta el supuesto que sometemos a contraste (los IC anteriores no cambiaran si la
hiptesis inicial hubiera sido = 400 o cualquier otra), hecho que permite apreciar hasta qu punto
estamos menospreciando el supuesto de partida.
Como consecuencia, la estimacin no es un mtodo recomendable cuando se pretende contrastar
una hiptesis: aunque desde un punto de vista instrumental pueda conducir a resultados vlidos, no
sucede lo mismo desde una ptica conceptual, dado que ignora por completo el supuesto planteado o
informacin a priori .
8.1.2. Contrastes de signicacin
Una vez justicado que los procedimientos de estimacin no estn diseados para
contrastar una hiptesis, estudiaremos nuevas opciones que, utilizando adecuadamente
la informacin muestral, incorporen adems explcitamente el supuesto formulado.
Una opcin en este sentido consiste en estudiar la discrepancia entre muestra e
hiptesis, aplicando el siguiente razonamiento: debido a las variaciones aleatorias,
asumimos como aceptables ligeras desviaciones entre las observaciones muestrales y las
hiptesis poblacionales. Sin embargo, cuando estas discrepancias sean considerables,
su presencia ya no es atribuible nicamente al azar. As pues, la muestra resulta poco
verosmil bajo la hiptesis inicial y ello nos llevar a pensar que hemos partido de una
hiptesis falsa.
Evidentemente, necesitaremos algn criterio estadstico que nos permita decidir
si las discrepancias observadas son sucientemente elevadas para rechazar nuestra
hiptesis. Este criterio no es nico ya que se han desarrollado varios mtodos para el
contraste de hiptesis.
259
Figura 8.1.: Contraste de signicacin
El procedimiento ms habitual y el primero histricamente es el de los contrastes
de signicacin, ampliamente utilizados y cuya descripcin puede resumirse en las
siguientes etapas:
Establecer la hiptesis
Denir la expresin de la discrepancia tipicada en la que se basa el contraste
Decidir, a partir de informacin muestral, rechazar o no rechazar la hiptesis
Los primeros desarrollos de los contrastes de signicacin fueron llevados a cabo por Karl Pearson,
sobre 1900; sin embargo, la sistematizacin y desarrollo de este mtodo se deben a R.A. Fisher, hacia
el ao 1920.
A lo largo de las etapas sealadas, los contrastes de signicacin estudian las dis-
crepancias entre la informacin muestral y nuestra hiptesis hasta decidir si stas son
signicativas para rechazar. El criterio de decisin ser probabilstico: diremos que
las discrepancias son signicativas cuando stas resultan muy poco probables bajo el
supuesto de partida, y en caso contrario las calicaremos de no signicativas.
En el ejemplo considerado con hiptesis = 410, una media muestral de valor x = 415 puede
resultar coherente con el supuesto de partida, ya que conduce a un error de magnitud 5 que, una
vez tipicado, proporciona una discrepancia de valor moderado. Por tanto, existirn probabilidades
razonablemente elevadas de que, con una produccin esperada de 410 miles de Tm/mes, se obtengan
muestras como la observada.
Ahora bien, si en la muestra se registrase una produccin media x = 200 nuestra conclusin
cambiara ya que bajo el supuesto = 410 resultara muy poco probable extraer muestras con
producciones medias tan bajas. As pues, este resultado nos hace dudar del valor = 410 o, en otras
palabras, es signicativo para rechazar el supuesto planteado.
Como puede apreciarse en la gura 8.1, los valores signicativos se presentan cuando la muestra
adopta valores muy alejados del supuesto inicial, esto es, en las colas sombreadas a derecha e izquier-
260
Figura 8.2.: Esquema del contraste de hiptesis
Informacin bsica
HIPTESIS
Discrepancia hiptesis muestra

M

ETODO
CLSICO
_
_
Fijado
(nivel de
signicacin)
Valor crtico (RC)

Informacin muestral
Informacin muestral
Nivel
crtico
_
_
MTODO
DEL NIVEL
CRTICO
CONCLUSIN
da. Por el contrario, los valores centrales se corresponderan con informaciones muestrales compatibles
con la hiptesis.
Existen dos tcnicas alternativas para resolver los contrastes, esquematizadas en la
gura 8.2, que siguen procedimientos distintos para elaborar una conclusin de rechazo
o no rechazo de las hiptesis.
a) El procedimiento que denominamos tradicional o clsico se basa en determinar
una alta banda de tolerancia y admitir esas discrepancias como atribuibles al azar o
no signicativas (por ejemplo el 95 % de las posibles), considerando las restantes (slo
un 5 % de las mayores) como valores sucientemente atpicos o signicativos para
rechazar la hiptesis.
La proporcin de las observaciones que vamos a considerar signicativas debe ser
jada de antemano en funcin del problema que estemos considerando y se denomina
nivel de signicacin, que denotamos por . Esta probabilidad nos permite determi-
nar un valor de la discrepancia, que denominamos valor crtico y marca el lmite o
separacin entre valores signicativos y no signicativos.
261
El nivel de signicacin representar la probabilidad de que, bajo la hiptesis de
partida, se presenten discrepancias superiores a las que marca el valor crtico. Dicha
probabilidad ser muy baja (usualmente del 1 % o el 5 %) de modo que, si nuestra
hiptesis de trabajo es cierta, al seleccionar muchas muestras, aproximadamente el
(1 ) % de las veces apareceran discrepancias admisibles o no signicativas.
Por tanto, si al seleccionar una muestra concreta la discrepancia supera al valor
crtico entonces sera poco verosmil justicar este resultado como fruto de la mala
suerte y asignarlo a ese % de casos: lo ms razonable en cambio sera pensar que la
discrepancia no se debe al azar y lo que nos ha fallado es la hiptesis de partida.
b) El otro procedimiento para llegar a conclusiones sobre nuestra hiptesis se co-
noce como mtodo del nivel crtico p, y a diferencia del anterior no impone ninguna
restriccin a priori sobre las discrepancias admisibles. En este caso se optimiza la infor-
macin muestral en el sentido de obtener la probabilidad asociada al valor observado
de la discrepancia.
De este modo, deniremos el nivel crtico como la probabilidad de obtener, bajo
la hiptesis establecida, discrepancias iguales o mayores a la observada. Cuando este
nivel crtico p adopta valores muy bajos indica que nuestros resultados muestrales
resultan poco verosmiles bajo la hiptesis de partida, luego lo ms razonable sera
dudar sobre la validez de dicha hiptesis.
Si por el contrario el valor p es alto, indica que la muestra est muy identicada
con la hiptesis. Por tanto no sera lgico rechazar, ya que estaramos aplicando un
criterio muy rgido que no superaran la mayora de las muestras (o, dicho en otras
palabras, rechazaramos con pocos argumentos).
As, en el ejemplo anterior de la hiptesis = 410 para la produccin esperada, siguiendo el
procedimiento tradicional debemos jar un cierto nivel de signicacin que nos permitir delimitar
regiones de rechazo y de aceptacin (ms o menos amplias segn el valor de ) y conducir a reglas
de decisin del tipo:
Rechazar siempre que

X < 390 o

X > 430
No rechazar si 390

X 430
Se dispone as de un esquema general que delimita dos regiones complementarias en las que clasica-
mos la informacin muestral y segn en cul de ellas nos situemos decidiremos rechazar o no rechazar
la hiptesis inicial. Si ahora introducimos la informacin muestral en el problema, calculamos x = 415
y por lo tanto decidimos no rechazar la hiptesis.
En cambio, siguiendo el segundo procedimiento, la informacin muestral se considera en una etapa
previa a la regla de decisin. As si la hiptesis es = 410 y en la muestra obtenemos x = 415, debemos
calcular la probabilidad de que se presenten errores de al menos 5 miles de Tm/mes:P
_

X
5
_
.
Este valor de p sera en nuestro caso elevado (por ejemplo p = 0, 6) y a partir de l llegaramos a la
decisin de no rechazar el supuesto de partida.
[Cul sera el razonamiento si la informacin muestral proporcionase un resultado =200?]
Cabe preguntarse hasta dnde los resultados de p pueden ser calicados de "mo-
derados" y a partir de qu valor pasan a ser sucientemente bajos para rechazar.
Evidentemente no existen respuestas exactas a estos interrogantes y en esta caracte-
rstica reside precisamente una de las ventajas de este mtodo: el investigador, a la
262
vista del nivel crtico obtenido decidir si rechaza o no la hiptesis pero adems, al
proporcionar el valor de p, da una idea del nivel de "fuerza" de su conclusin (as, una
hiptesis puede ser rechazada con p = 0, 05, esto es, con un resultado signicativo al
5 %, pero evidentemente la conclusin de rechazar parece mucho ms slida si obte-
nemos un nivel crtico p = 0, 0001).
Hemos llamado al primer mtodo tradicional o clsico porque ha sido el usual durante muchas
dcadas y permiti resolver el problema del contraste mediante el uso de las tablas estadsticas dispo-
nibles. Estas tablas estn calculadas para determinados niveles de signicacin y resulta sumamente
complicado realizar interpolaciones o extrapolaciones (no lineales) de sus correspondientes funciones
de distribucin para obtener el nivel crtico asociado al resumen muestral observado.
Sin embargo, en pocas recientes este problema fue superado gracias al uso masivo del ordenador,
que realiza los clculos anteriores en un tiempo casi despreciable. As, hoy en da prcticamente todos
los programas informticos de estadstica proporcionan tanto el valor muestral de la discrepancia
asociada al contraste como su nivel crtico (p).
Si podemos disponer de las dos alternativas parece claro que el mtodo basado en el nivel crtico se-
ra preferible al clsico, ya que en ste ltimo la informacin muestral no se aprovecha completamente,
sino que se utiliza ms bien en un sentido cualitativo de rechazar o no rechazar la hiptesis.
De este modo, si para un contraste determinado dos investigadores seleccionan muestras, resul-
tando una de ellas muy coherente con la hiptesis y la otra con una discrepancia en el lmite de
las signicativas, ambos estudios conduciran a la misma conclusin (no rechazar). Sin embargo, el
mtodo del nivel crtico pondra de maniesto que en el primer caso existe ms evidencia para la
conclusin que en el segundo (valor ms alto de p), y sin embargo esta diferencia entre las dos situa-
ciones no se detecta en el mtodo tradicional.
Existen otros enfoques sobre los procedimientos de contraste de hiptesis estads-
ticas, cuya metodologa resulta ms compleja y que estudiaremos en el anexo a este
captulo. Se trata del enfoque introducido por Neyman y Pearson y el mtodo de la
razn de verosimilitudes.
J. Neyman y E. S. Pearson (1928, 1933) propusieron una metodologa para seleccionar contrastes
ptimos. Esta propuesta introduce un cambio en el planteamiento del contraste, ya que la hiptesis
de trabajo (que en este enfoque se denomina hiptesis nula) se enfrenta a una alternativa (o hiptesis
alternativa), de modo que la eleccin del mejor test no depende slo de la hiptesis sino tambin de
la alternativa.
As, cuando comparamos varios tests para contrastar hiptesis no debemos tener en cuenta slo
el nivel de signicacin (que mide probabilidad de equivocarnos al rechazar la hiptesis cuando
sea cierta) sino tambin la probabilidad del error contrario (equivocarnos al aceptar la hiptesis nula
cuando la correcta sea la alternativa). Al complementario de esta segunda probabilidad se la deno-
mina potencia del test, y el criterio de optimizacin de Neyman y Pearson consiste en elegir, entre
todos los tests que tienen un mismo nivel de signicacin, aqul que tenga una menor probabilidad
del segundo tipo de error (o bien que presente una potencia mayor).
263
Figura 8.3.: Contraste de hiptesis
Etapas del contraste de hiptesis
Enunciado: Hiptesis (H
0
) y alternativa (H
1
)
Desarrollo:
Mtodo tradicional
Mtodo del nivel crtico
Conclusin: Rechazar o no rechazar
8.2. Metodologa del contraste de hiptesis
La secuencia seguida para el contraste de una hiptesis puede estructurarse en varias
etapas que, de forma simplicada (gura 8.3), denominamos enunciado o formulacin,
desarrollo y conclusin.
8.2.1. Enunciado
El enunciado de la hiptesis es, sin duda, un punto clave ya que traduce el su-
puesto que deseamos someter a vericacin o contraste. Es importante insistir en que
las hiptesis se corresponden con nuestros postulados de trabajo, considerados vlidos
a priori, que sometemos al control de un test estadstico del que pueden salir refutados.
Como justicaremos ms adelante, los contrastes pueden llevarnos a rechazar un supuesto o hip-
tesis pero nunca a aceptarlo. Ello se debe a que estamos utilizando tcnicas estadsticas, que pueden
conducirnos a la conclusin de que cierto supuesto es inadecuado (en este sentido rechazar sera equi-
valente a detectar contraejemplos) pero en cambio nunca servirn para demostrar la validez general
de un supuesto. De ah que evitemos el uso del trmino aceptar, utilizando en su lugar no rechazar.
El enunciado de una hiptesis debe reejar elmente un supuesto del investigador.
En la investigacin econmica, a menudo se enuncian como hiptesis ciertos postula-
dos tericos relativos al comportamiento de los agentes econmicos (por ejemplo, el
principio de la utilidad marginal decreciente, la ley de consumo keynesiana, ...).
Lgicamente nos interesan tan slo las hiptesis que puedan ser contrastadas em-
pricamente mediante la aplicacin de tcnicas estadsticas a la informacin muestral,
que se denominan hiptesis estadsticas. En los problemas paramtricos, esto es, para
poblaciones conocidas, dichas hiptesis van habitualmente referidas a algn parmetro
o caracterstica poblacional (la esperanza , la varianza
2
, la razn de dos varianzas
264
2
X
2
Y
, la proporcin p, ...) mientras que en los problemas no paramtricos las hiptesis
suelen ser ms amplias (supuestos referidos al modelo de probabilidad de la poblacin,
la independencia entre v.a., la homogeneidad, ...) y, en general, los procedimientos son
menos ecientes.
El supuesto o hiptesis que queremos contrastar se denomina habitualmente hi-
ptesis nula, H
0
y enfrentamos a l las restantes posibilidades, que aglutinamos en
la hiptesis alternativa, H
1
. A modo de ejemplo, consideremos el siguiente contraste
paramtrico: dada X A(, 10) queremos contrastar cierto valor esperado concre-
to ( = 410), por lo cual incluimos en la alternativa todas las posibles esperanzas
diferentes a ese valor:
H
0
: = 410
H
1
: ,= 410
Por su parte, en situaciones de inferencia no paramtrica, podramos someter a con-
traste un modelo determinado, por ejemplo A( = 410, = 10), frente a la alternativa
de otra distribucin cualquiera. En este caso la formulacin sera:
H
0
: F(x, , ) = F
0
(x)
H
1
: F(x, , ) ,= F
0
(x)
donde F
0
(x) A( = 410, = 10).
Es importante tener presente que la hiptesis nula ser siempre un supuesto avalado
por la informacin a priori que en principio suponemos verdadero, designando como
alternativa a su complementario. Esta distincin resulta de gran trascendencia, ya
que el papel de ambas hiptesis en el desarrollo de los contrastes no es en absoluto
simtrico.
A menudo se ilustra el papel de las hiptesis nula y alternativa acudiendo a una comparacin con
los procesos judiciales: una vez enunciada nuestra hiptesis de trabajo, adoptaramos como principio
su inocencia o validez, de modo que una hiptesis ser inocente o vlida mientras la muestra no
demuestre lo contrario.
Siguiendo con este paralelismo, la metodologa del contraste de signicacin consiste en evaluar
en qu medida la muestra pone en evidencia la culpabilidad o falsedad de H
0
.
A modo de ilustracin, si deseamos llevar a cabo un anlisis inferencial sobre cierta funcin de
demanda D =
1
+
2
P, la teora econmica nos llevara a enunciar como hiptesis nula H
0
:
2
0
frente a la alternativa H
1
:
2
> 0 y no viceversa. De igual modo, si la informacin a priori nos lleva
a defender el supuesto de un aumento en el ahorro medio de un perodo A respecto a otro B, el
contraste deber ser formulado como H
0
:
A

B
frente a H
1
:
A
<
B
.
Tanto la hiptesis nula como la alternativa pueden ser clasicadas en simples o com-
puestas. Una hiptesis (o su alternativa) se dice simple cuando de ser cierta especica
plenamente la poblacin; por el contrario las hiptesis son compuestas cuando, incluso
siendo ciertas, no determinan a la poblacin investigada.
265
En realidad, en el caso de contrastes genricos las deniciones anteriores deben ser consideradas
de una forma ms amplia, no limitndonos a una determinacin del modelo sino a la nitidez de la
hiptesis. El ejemplo propuesto sobre la normalidad encaja perfectamente en la denicin establecida,
pero si consideramos el contraste: H
0
: X e Y son poblaciones independientes frente a la alternativa
H
1
: existe relacin entre X e Y , la hiptesis nula de ser cierta es ntida y por tanto sera simple,
aunque no especique el modelo probabilstico de ninguna de las dos poblaciones.
Consideremos nuevamente el ejemplo de la produccin mensual de mineral X, que se distribuye
segn un modelo normal con varianza determinada.
Supongamos que la informacin bsica establece nicamente dos posibilidades para la produc-
cin media: = 410 o = 350 y la empresa, con informacin adicional, deende el supuesto
= 410. Entonces el enunciado del contraste sera:
H
0
: = 410
H
1
: = 350
tratndose en ambos casos de hiptesis simples.
Si no existe informacin bsica sobre la produccin media y la informacin adicional nos lleva
a defender que sta ser de al menos 410 miles de Tm/mes, el enunciado sera:
H
0
: 410
H
1
: < 410
siendo ambas hiptesis compuestas.
[Clasicar las siguientes hiptesis y enunciar las correspondientes alternativas:
2
X

2
Y
;
X
=
Y
;
p 0, 2 ; p
X
= p
Y
]
Podemos llevar a cabo la siguiente formalizacin del problema de contraste de hiptesis:
Hiptesis referidas a parmetros Supongamos una poblacin X cuya funcin de distribucin
F
X
(x, ), depende de uno o ms parmetros. En lo que sigue nos referiremos a un parmetro aunque
el razonamiento sera vlido para un vector paramtrico .
La informacin bsica de nuestra investigacin debe proporcionarnos los posibles valores del pa-
rmetro o su recorrido. Este conjunto de posibles valores de se denomina espacio paramtrico y se
denota por .
En la segunda etapa de la formulacin, la informacin contrastable nos permite establecer el valor
o los valores tericos que debemos asumir para el parmetro. Estos valores que constituyen nuestra
hiptesis nula forman un subconjunto
0
del espacio paramtrico y por tanto la hiptesis alternativa
estar formada por el subconjunto complementario
1
=
0
.
As pues las hiptesis nos conducen a una particin del espacio paramtrico y el contraste puede
enunciarse en los siguientes trminos
H
0
:
o
frente a H
1
:
1
( =
0

1
)
Si
0
consta de un solo elemento entonces la hiptesis es simple (de ser cierta queda determinado
el valor del parmetro y en consecuencia tambin la distribucin de la poblacin), y si por el contrario
0
consta de dos o ms elementos entonces se dice que la hiptesis es compuesta. La clasicacin de
la hiptesis alternativa se hace en los mismos trminos.
A partir de la informacin muestral pretendemos contrastar si rechazamos que el parmetro se
site en el subespacio
0
o por el contrario no tenemos razones para este rechazo.
266
Hiptesis genricas Cuando las hiptesis tienen carcter genrico admiten una mayor diversidad
de posibilidades, por lo que no pueden ser formalizadas con tanta concrecin como en el caso anterior.
Sin embargo, sustituyendo el espacio paramtrico por otro tipo de espacios la idea de establecer una
particin del mismo y su formulacin se mantiene.
En esta situacin, recoger todas las especicaciones asociadas al contraste que se plantea, inclu-
yndose en
0
las favorables a la hiptesis de partida. As, si queremos contrastar que una poblacin
se distribuye segn un modelo de Poisson de parmetro frente a la alternativa de que se trata
de cualquier otro modelo, entonces el espacio paramtrico es sustituido por el de todos los posibles
modelos de probabilidad (con los innitos parmetros admisibles) y el subconjunto correspondiente
a la hiptesis nula est constituido por un nico punto.
Si por ejemplo estamos realizando un contraste de independencia entre dos poblaciones, el espacio
paramtrico ser sustituido por el conjunto de todas las posibles relaciones entre esas variables (rela-
cin lineal, hiperblica, independencia, etc.) y el subconjunto correspondiente a la hiptesis constar
de un nico elemento {independencia}, mientras las restantes posibilidades se incluyen en la alterna-
tiva.
La hiptesis nula de un contraste se corresponde habitualmente con un supuesto
ms concreto que su alternativa. La concrecin mxima tiene lugar en el caso de
hiptesis nulas simples, como por ejemplo H
0
: =
0
que sern rechazadas cuando
la informacin muestral se desva mucho del supuesto.
A menudo esta desviacin puede presentarse en cualquiera de las dos direcciones, con
lo cual se rechaza en las colas derecha e izquierda. En tales situaciones los contrastes
se denominan bilaterales o de dos colas (por ejemplo, frente a la hiptesis anterior
podramos plantear la alternativa bilateral H
1
: ,=
0
).
Por lo que se reere a las hiptesis compuestas, stas podran estar formadas por un
nmero nito de elementos, aunque en la prctica resulta usual que dichas hiptesis
hagan referencia a subintervalos del tipo H
0
:
0
o H
0
:
0
.
En tales casos, la formulacin de la hiptesis nula suele incluir en su enunciado el
signo igual, mientras que la alternativa aparece con desigualdad estricta. El rechazo
de la hiptesis tiene lugar cuando nos desviamos considerablemente en la direccin de
la alternativa, por lo cual los contrastes se denominan unilaterales o de una cola.
8.2.2. Desarrollo
Como hemos justicado en el epgrafe anterior, los contrastes de signicacin se
basan exclusivamente en la hiptesis nula, ya que la alternativa se introduce como
contrapunto para efectuar un contraste estadstico pero no inuye en nuestras conclu-
siones.
Una vez formulada la hiptesis nula, su contraste se basa en la informacin mues-
tral suministrada por una o varias muestras. Generalmente los contrastes se centran
en una poblacin X y para ello seleccionamos una muestra aleatoria de tamao n
(X
1
, . . . , X
n
) de esa poblacin, pero si queremos llevar a cabo contrastes referidos a
dos poblaciones X e Y (igualdad de medias, independencia, homogeneidad, ...) enton-
ces seleccionaremos muestras aleatorias de tamaos n y m, (X
1
, . . . , X
n
), (Y
1
, . . . , Y
m
)
de las respectivas poblaciones.
267
Para contrastar la hiptesis poblacional con la informacin muestral utilizaremos las
expresiones de las discrepancias tipicadas (que en general denotamos por d) deducidas
en el captulo 6 tanto para el caso de inferencias paramtricas como no paramtricas.
Las discrepancias tipicadas sern expresiones aleatorias que, bajo la hiptesis H
0
,
suelen seguir modelos probabilsticos conocidos.
A modo de ejemplo, recogemos dos contrastes habituales y sus correspondientes discrepancias
tipicadas:
H
0
: =
0
d
X/H
0
=
X
0
n
N(0, 1)
H
0
: Independencia de X e Y
d
IND/H
0
=
r
i=1
s
j=1
_
n
ij

n
i
n
j
n
_
2
n
i
n
j
n

2
(r1)(s1)
Como vemos, la aleatoriedad de estas discrepancias depende exclusivamente de la intervencin del
azar en la seleccin de la muestra. Dicha aleatoriedad debe ser repartida entre la tolerancia para
aceptar la hiptesis nula y la que asignamos a su rechazo y dado que la hiptesis nula es asumida
inicialmente como vlida este reparto ser asimtrico a favor de la hiptesis contrastada.
Llegados a este punto tendremos que diferenciar las metodologas segn que el pro-
cedimiento utilizado sea el clsico o el basado en el nivel crtico. En el mtodo del nivel
crtico la fase de desarrollo concluye con la construccin de la discrepancia, mientras
que en el mtodo tradicional el paso siguiente ser jar el nivel de signicacin , en
funcin de la seguridad que nos merece nuestra hiptesis.
Supongamos que somos totalmente rgidos y para aceptar la hiptesis exigimos discrepancia nula.
Como esta variable es continua la probabilidad de un punto es nula y por tanto en trminos de
probabilidad nunca aceptaramos la hiptesis. Parece claro que esta forma de proceder no sera en
absoluto recomendable.
Imaginemos ahora que queremos ser imparciales y asignamos el 50 % de esa componente de azar
para rechazar y el mismo porcentaje para no rechazar. En este caso si la hiptesis nula es cierta
tendremos una probabilidad del 50 % de confundirnos y rechazarla, es decir, la misma que de actuar
correctamente (no rechazar una hiptesis que es cierta). Este razonamiento equivale a ignorar la
informacin adicional que nos llev a enunciar la hiptesis, cosa que no parece lgica si tenemos
cierta conviccin en nuestra informacin a priori (basada en teora, experiencia, etc.).
La pregunta clave sera entonces en cunto estaramos dispuestos a valorar la abilidad de nuestra
hiptesis? Con un planteamiento neutral (valoracin nula) llegaramos al 50 % anterior, pero si tene-
mos una alta seguridad en nuestro postulado inicial, el margen a favor de mantener nuestra hiptesis
podra situarse en el 95 % o el 99 %, niveles de conanza habituales.
En estos casos estamos manteniendo un nivel de signicacin del 5 % o el 1 %, lo cual signica
que estamos muy seguros de nuestra hiptesis y que, aunque el azar intervenga en la seleccin de la
muestra, vamos a ser muy tolerantes con l ya que, de ser cierto el supuesto inicial, slo asumimos
un riesgo del 1 % de equivocarnos y rechazarlo.
268
Obsrvese sin embargo que un nivel tan bajo tiene tambin sus implicaciones negativas, ya que
podemos estar considerando como azar desviaciones que pudieran ser atribuibles a otras circunstan-
cias. Dicho de otro modo, nuestra elevada tolerancia podra llevarnos a no rechazar hiptesis incluso
cuando stas son falsas.
A la vista de estos comentarios, parece claro que el nivel de signicacin debera depender de
nuestra seguridad en el supuesto planteado y por lo tanto asumimos un tratamiento asimtrico para
las decisiones de rechazar y no rechazar. Cuando realizamos un experimento no debemos esperar que
pueda conducirnos a cualquier decisin, sino que el resultado natural sera no rechazar, y solamente
si aparecen discrepancias demasiado elevadas para ser asumidas decidiremos rechazar.
En denitiva, la metodologa del contraste de hiptesis estadsticas est diseada de modo que
cuando tomemos la decisin de rechazar, sta se encuentre estadsticamente avalada. Sin embargo,
cuando no rechazamos ello no signica que la estadstica est avalando la decisin de aceptar, sino
nicamente que la estadstica se abstiene y es la seguridad con la que hemos planteado nuestra
hiptesis (esto es, la informacin adicional o complementaria) la que garantizar nuestra decisin.
En denitiva, aceptamos por un conocimiento profundo del problema econmico y no porque la
distribucin de las discrepancias as nos lo aconseje.
Siguiendo con el mismo razonamiento, parece claro que si queremos equilibrar ms las responsa-
bilidades deberemos elevar el nivel crtico.
Una vez jado el nivel de signicacin (en general 5 % o 1 %) es posible determinar
reglas de decisin del test, con las que concluye el desarrollo del mtodo tradicional o
clsico.
A partir de la distribucin de la discrepancia tipicada d y jado un nivel de sig-
nicacin , podemos determinar las constantes k que recogen los valores crticos a
partir de los cuales rechazaremos la hiptesis:
Contraste Bilateral: P(d > k
2
/H
0
) = P(d < k
1
/H
0
) =

2
P([d[ > k/H
0
) = si la distribucin es simtrica
Contraste Unilateral: P(d > k/H
0
) = si rechazamos en la cola derecha y
P(d < k/H
0
) = si rechazamos en la cola izquierda
La expresin P(d > k/H
0
) representa la probabilidad de que la discrepancia supere determinado valor
cuando la hiptesis nula es cierta. Obsrvese sin embargo que esta notacin, habitual en el contraste
de hiptesis estadsticas, no es completamente correcta, ya que las probabilidades anteriores no son
realmente probabilidades condicionadas, al no tener la hiptesis carcter aleatorio.
A travs de este proceso hemos pasado de una particin del espacio paramtrico a otra particin
sobre la recta real. En los problemas de contraste paramtrico ser muy til esta transformacin, que
permite expresar las reglas de decisin en trminos de la muestra.
En principio, la regin crtica o de rechazo sera un subconjunto del espacio muestral, integrado
por todas las muestras (x
1
, . . . , x
n
) de
n
que conducen al rechazo de H
0
. Sin embargo, teniendo
en cuenta que la informacin muestral aparece resumida mediante las discrepancias, resultar ms
operativo denir la regin crtica como un cierto recorrido de la recta real asociado a las discrepancias
o bien, si el contraste va referido a parmetros, a los correspondientes estimadores.
Los valores crticos delimitan la regin crtica (RC) en la que se producir el rechazo
de nuestra hiptesis y su complementaria, la regin de aceptacin (RA). Adems, en
269
el caso de que las hiptesis vayan referidas a parmetros es posible obtener a partir
de estos valores crticos (k) unas nuevas constantes C que denen las regiones crtica
y de aceptacin en relacin al estimador T.
8.2.3. Conclusin
La conclusin es la ltima etapa del procedimiento y abarca los pasos que se realizan
desde la seleccin de una muestra particular hasta la decisin de rechazar o no la
hiptesis.
Una vez que se selecciona una muestra concreta (x
1
, . . . , x
n
), sobre ella la discre-
pancia tipicada adoptar un valor determinado d
, cuyo papel es distinto segn que

sigamos el mtodo clsico o el del nivel crtico.
En el mtodo clsico la conclusin se reduce a comprobar si este valor d
de la dis-
crepancia se sita dentro de la regin crtica. En caso armativo, la decisin nal ser
rechazar la hiptesis al nivel de signicacin establecido (el resultado es signicativo
a ese nivel) mientras que en el supuesto contrario no existe evidencia para rechazar la
hiptesis.
En el mtodo del nivel crtico no hemos introducido ningn valor de y por tanto
no es posible determinar una regin de rechazo. El procedimiento consiste entonces en
utilizar el valor muestral de la discrepancia d
, con el cual podemos calcular el nivel

crtico p:
Contraste Bilateral: p = P([d[ > [d
[ /H
0
) si la distribucin es simtrica y
p = 2P(d > d
/H
0
) o p = 2P(d < d
/H
0
) en otro caso
Contraste Unilateral: p = P(d > d
/H
0
) o p = P(d < d
/H
0
), segn el
enunciado de la hiptesis
La regla de decisin se establecer a partir de los datos observados, de modo que un
mayor nivel crtico indicar una mayor conformidad de la evidencia emprica (muestra)
con la hiptesis de trabajo, y en cambio los niveles crticos bajos van asociados a
grandes discrepancias. Esto es:
Si la informacin muestral no discrepa signicativamente del supuesto de partida
no existen razones para rechazar la hiptesis (valor de p alto).
Si la informacin muestral no es compatible con el supuesto de partida, los
resultados pueden ser calicados de "signicativos" para rechazar la hiptesis
(valor de p bajo).
Los comentarios anteriores ponen de maniesto el distinto papel de la informacin muestral en los
dos procedimientos de contraste. En el mtodo clsico esta informacin se utiliza tan slo de forma
cualitativa: una vez determinadas dos categoras correspondientes a la regin crtica (RC) y la regin
de aceptacin (RA), nuestra conclusin se limitar a observar a cul de ellas nos conduce la muestra
observada.
Por el contrario, en el mtodo del nivel crtico la informacin muestral es el punto de partida para
llegar a una decisin, es decir, para evaluar si el resultado debe ser considerado signicativo.
270
Figura 8.4.: Regiones crticas
Es posible establecer una conexin entre el mtodo del nivel crtico y el mtodo clsico en los
siguientes trminos: dado un nivel crtico p, la conclusin sera rechazar para valores de signicacin
superiores a l. En cambio, para niveles de signicacin inferiores a p, la hiptesis no se rechazara.
As, si nuestra muestra conduce a un nivel crtico p = 0, 07 la conclusin debera ser rechazar la
hiptesis para cualquier nivel de signicacin superior (10 %, por ejemplo). Ello se debe a que el valor
muestral que lleva asociado el nivel crtico obtenido se encuentra necesariamente dentro de la regin
crtica jada al 10 %.
Sin embargo no rechazaramos para niveles inferiores (5 %, 1 %) ya que stos llevan asociadas
regiones crticas ms pequeas, en las que no se encontrara situada nuestra informacin muestral.
(gura 8.4)
Obsrvese que hemos utilizado tres trminos: valor crtico, nivel crtico y nivel de signicacin,
que -aunque puedan resultar similares- tienen signicados distintos. As, cuando hablamos de niveles
criticos o niveles de signicacin nos estamos reriendo a probabilidades, mientras que los valores
crticos son valores de la discrepancia que delimitan la regin crtica de un contraste.
El nivel de signicacin es una probabilidad asociada a la regin crtica del contraste, esto es,
delimita la regin de los valores signicativos para rechazar. Por el contrario el nivel crtico es una
probabilidad asociada a la muestra, a partir de la cual el investigador deber llevar a cabo su decisin.
Los procedimientos descritos sern aplicados a los contrastes habituales en los apar-
tados que siguen. No obstante, conviene llevar a cabo una reexin general sobre la
importancia del supuesto o hiptesis como punto de partida del proceso.
En efecto, hemos visto que los contrastes comienzan con un enunciado terico que
sometemos a un test y nalizan con una conclusin basada en la informacin mues-
271
tral. Desde un punto de vista prctico, el investigador podra plantearse espiar los
datos, es decir, examinar la informacin muestral antes de establecer su supuesto,
pero esta posibilidad invalidara el planteamiento ya que la hiptesis o informacin a
priori quedara desvirtuada.
En pocas recientes algunos paquetes estadsticos han puesto de moda una tcnica llamada anlisis
exploratorio de datos que podramos resumir de modo simple mediante el interrogante dado este
conjunto de datos qu podemos armar?. Este tipo de anlisis puede ser til para llevar a cabo
una sntesis de la informacin muestral, pero desde el punto de vista del mtodo cientco resulta
peligroso, ya que puede inducir a confusin entre las informaciones a priori y a posteriori, con lo cual
el investigador planteara directamente hiptesis para rechazar o hiptesis para validar.
8.3. Contrastes de hiptesis bsicas
En todos los desarrollos inferenciales que hemos estudiado nos basamos en una serie
de hiptesis acerca de la muestra y de la poblacin: hemos supuesto la utilizacin de
muestras aleatorias simples (m.a.s.) que llevan implcitas las hiptesis de aleatoriedad,
independencia entre componentes e idntica distribucin y en muchos casos tambin
partamos de que la poblacin se distribua segn un modelo normal.
Estos supuestos o hiptesis estructurales de trabajo suelen incluirse entre la informa-
cin bsica en los estudios inferenciales. En este apartado estudiamos estas hiptesis
desde una doble vertiente: en primer lugar cmo podemos contrastar empricamente
estos supuestos, y en segundo lugar analizar las consecuencias que se derivan de la no
vericacin de las hiptesis bsicas.
8.3.1. Hiptesis de m.a.s.
Hasta ahora hemos basado los desarrollos inferenciales en m.a.s., esto es, un pro-
ceso de seleccin aleatorio con variables muestrales independientes e idnticamente
distribuidas.
Estos tres supuestos aparecen estrechamente relacionados, de forma que cuando la
poblacin es innita o el muestreo es con reposicin, la no vericacin de cualquiera
de ellos nos lleva a la invalidacin de los otros.
Naturalmente cuando trabajamos con poblaciones nitas y mtodos de muestreo sin reposicin,
el proceso de seleccin de la muestra puede ser aleatorio, pero en cambio las variables muestrales no
son independientes (los valores que pueden tomar dependen de las observaciones anteriores) ni estn
idnticamente distribuidas (el sistema de probabilidades ir cambiando en cada seleccin).
Hemos aclarado algunas veces el concepto aleatorio identicndolo con estocs-
tico y nos hemos planteado cmo seleccionar una muestra aleatoria. La respuesta
consiste en utilizar tablas de nmeros aleatorios, una vez indexadas las unidades (va-
lores) poblacionales, ya que la aleatoriedad de la tabla garantiza la de la muestra.
272
Sin embargo, hasta ahora no nos hemos ocupado de medir el nivel de aleatoriedad
de la muestra o contrastar si es asumible o no que los datos muestrales son aleatorios
o, equivalentemente, que se trata de una m.a.s.
Para llevar a cabo este contraste enunciamos la hiptesis nula H
0
: los datos cons-
tituyen una m.a.s. frente a la que podran formularse diferentes alternativas. As, la
hiptesis H
1
podr venir dada por violaciones de hiptesis concretas (no aleatorie-
dad, no independencia, distribuciones no idnticas) o bien ser explicitada en trminos
amplios (los datos no constituyen una m.a.s.).
8.3.1.1. Test de rachas
El test de rachas se construye asociando a una poblacin dos categoras alternativas
y clasicando segn este criterio los elementos que forman parte de la muestra selec-
cionada. De este modo se obtendr una secuencia de categoras ordenadas segn las
observaciones muestrales.
Cada vez que se produce un cambio de categora decimos que hay una nueva racha;
posteriormente observamos las rachas que se presentan, esperando que si la muestra
es aleatoria stas sean un nmero moderado. Si por el contrario el nmero de rachas
es excesivamente elevado o muy pequeo rechazamos la hiptesis de que las muestras
hayan sido seleccionadas al azar.
A modo de ilustracin supongamos que se lanza diez veces una moneda. Si todos los resultados
fueran caras o todos cruces parece poco creible que el comportamiento de la moneda fuese aleatorio, y
se dira lo mismo si se observan dos rachas (k caras y nk cruces consecutivas). Adems, aunque nos
resulte llamativo, tampoco parece justicado por el azar un nmero excesivo de rachas (por ejemplo,
si se presentasen diez rachas esto signicara que se iran alternando sistemticamente caras y cruces,
que sera un efecto contrario al comportamiento azaroso).
Por el contrario, si obtuvisemos un nmero intermedio de rachas (cinco o seis rachas de diferente
longitud) entonces s podramos asumir la hiptesis de aleatoriedad.
Cmo se puede trasladar este proceso a una variable aleatoria cualquiera? Se trata de denir
sobre dicha variable dos categoras y observar las rachas que se producen con las mismas.
En el caso de que trabajsemos con variables dicotmicas la asignacin de estas ca-
tegoras sera automtica, al presentarse slo dos posibilidades. Si en cambio partimos
de una variable aleatoria arbitraria, dado un conjunto de observaciones de la misma
podemos calcular la mediana de esos datos y establecer las categoras menor que la
mediana y mayor que la mediana.
Teniendo en cuenta que la mediana es el punto central de la distribucin tendramos
tantos elementos inferiores como superiores con lo cual se presentaran secuencias del
tipo ABAABABBBA. . ., 01101001110 . . ., ++ +++. . ., etc. La
forma de denotar las categoras sera secundaria y por comodidad vamos a considerar
el valor 0 si x
i
< Me y 1 si x
i
> Me (no incluimos los valores que tengan una
coincidencia exacta con la mediana).
Denotemos por n
0
el nmero de ceros observado en la secuencia, por n
1
los co-
rrespondientes unos, y n = n
0
+ n
1
. A partir de nuestra secuencia de unos y ceros
273
observaremos las rachas, denidas como secuencias de observaciones consecutivas de
la misma categora hasta la aparicin de una categora distinta.
Cabe preguntarse qu sucedera si las muestras con las que trabajamos no fuesen
m.a.s.? Podran presentarse muestras con cierta tendencia, esto es, muchos ceros al
principio y unos al nal o viceversa), en cuyo caso apareceran pocas rachas. Tambin
podran obtenerse muestras en las que se presentasen alternativamente ceros y unos,
con lo cual el nmero de rachas sera elevado.
Si en vez de plantear este esquema sobre una muestra concreta lo hacemos sobre una
muestra genrica, el nmero de rachas ser una v.a. R. Este razonamiento conduce a
una regla de decisin basada en el nmero de rachas observado r
, y nos llevar a
rechazar la hiptesis nula si r
sobrepasa cierto valor r

2
o bien es inferior a r
1
, siendo
estos valores tales que P(R / [r
1
, r
2
]/H
0
) . Se trata de un contraste bilateral,
puesto que podemos rechazar la hiptesis tanto por un nmero excesivamente bajo
como alto de rachas.
La funcin de probabilidad de R (y por tanto la determinacin de los lmites de la regin crtica
r
1
y r
2
) depende del tamao muestral y viene dada por la siguiente expresin:
P(R = r) =
_
_
2
_
n
1
1
m1
__
n
0
1
m1
_
_
n
n
1
_ si r es par (r = 2m)
_
n
1
1
m
__
n
0
1
m1
_
+
_
n
1
1
m1
__
n
0
1
m
_
_
n
n
1
_ si r es impar (r = 2m+ 1)
con E(R) =
2n
0
n
1
n
0
+n
1
+ 1 y V ar(R) =
2n
0
n
1
(2n
0
n
1
n
0
n
1
)
(n
0
+n
1
)
2
(n
0
+n
1
1)
Los lmites r
1
y r
2
pueden ser obtenidos como: P(R < r
1
/H
0
) = P(R > r
2
/H
0
) =

2
.
Si resolvemos el problema por el mtodo del nivel crtico, calcularamos p = P(R r/H
0
), y si
esta probabilidad (o su complementaria) fuesen muy bajas estarian indicando que, bajo el supuesto
de aleatoriedad de la muestra, la presencia de un nmero tan reducido (o tan elevado interpretando
el complementario) de rachas no es atribuible al azar, y en consecuencia rechazamos la hiptesis. As
pues, el nivel crtico viene dado en este caso por el doble de la probabilidad correspondiente a la cola
ms pequea, es decir: p = 2P(R r
/H
0
) o p = 2P(R r
/H
0
) segn los casos.
En ciertas situaciones el test de rachas puede plantearse como un contraste unilateral. Este es el
caso cuando la hiptesis alternativa indica la existencia de una tendencia en algn sentido, que ira
asociada a una sola cola.
En el caso de que el tamao muestral n sea elevado, la proporcin de unos (p) y de ceros (1 p)
puede considerarse como un valor jo. Wald y Woldfowitz demostraron que la distribucin de R es
asintticamente normal con caractersticas E(R) = 2np(1 p) y V ar(R) = 4np
2
(1 p)
2
, con lo cual
se obtiene la discrepancia tipicada asociada al estimador de rachas:
d
R
=
R 2np(1 p)
2
np1 p)
N(0, 1)
274
La regla de decisin del test es anloga al caso de la distribucin exacta.
8.3.1.2. Test de rangos
Un planteamiento alternativo para contrastar la hiptesis nula H
0
: los datos consti-
tuyen una m.a.s. es el test de rangos, que consiste en comparar la muestra observada
(x
1
, . . . , x
n
) con la misma muestra ordenada. En concreto, para cada observacin x
i
de la muestra compararemos la posicin que ocupa en el proceso de seleccin, i, con
la posicin que ocupa en la ordenacin, que denominamos rango r
i
1
.
Qu comportamiento cabra esperar bajo la hiptesis nula de aleatoriedad? Parece
claro que en ese supuesto la posicin y el rango seran independientes, mientras que
la existencia de relaciones entre i y r
i
ira en contra de la hiptesis nula.
Para estudiar la situacin trabajamos con las diferencias cuadrticas (i r
i
)
2
, que
se resumen bajo la expresin r = 1
6
n(n
2
1)
n
i=1
(i r
i
)
2
, denominada coeciente
de correlacin de Spearman.
Es interesante destacar dos caractersticas de esta expresin:
r =
n
i=1
(i
i) (r
i
r)
_
n
i=1
(i
i)
_
n
i=1
(r
i
r)
; 1 r 1
en primer lugar, su coincidencia con el coeciente de correlacin muestral: y en segundo lugar que,
para tamaos muestrales elevados, dicha expresin converge bajo la hiptesis nula a un modelo normal
N
_
0,
1
n 1
_
Denimos en este caso la discrepancia tipicada asociada al test de los rangos como
d
r
= r
n 1 A(0, 1). As, se observar el valor muestral d
r
que, si H
0
es cierta,
debera adoptar valores cercanos a 0.
El nivel crtico vendr dado para cada valor d
r
por la probabilidad P([d
r
[ > [d
r
[/H
0
)
que, si es sucientemente baja, permitir calicar nuestro resultado de signicativo
para rechazar la hiptesis de m.a.s.
Si el tamao muestral es inferior a 30 la aproximacin normal no resulta adecuada pero es posible
recurrir a la transformacin

n 2
r
1 r
2
t
n2
.
Este contraste resulta de gran inters en el mbito de las series temporales, cuando deseamos
estudiar si una serie presenta o no tendencia. En tal situacin, la hiptesis nula sera H
0
: la serie no
tiene tendencia, equivalente al supuesto de m.a.s.
1
En el caso de que varias observaciones sean coincidentes y por tanto ocupen el mismo lugar en
la ordenacin, la solucin ms frecuente consiste en asignar a todas estas observaciones el rango
promedio.
275
Los tests considerados no agotan todas las posibilidades para contrastar la aleato-
riedad de una muestra. Un mtodo que se utiliza habitualmente cuando los datos se
generan en un soporte temporal consiste en estudiar la correlacin entre las obser-
vaciones. Si las observaciones fuesen independientes y consideramos los conjuntos de
datos (x
1
, . . . , x
n1
) y (x
2
, . . . , x
n
) stos presentaran una correlacin nula. Podramos
considerar cualesquiera otros subconjuntos de esas observaciones (por ejemplo los
n
2
primeros datos y los
n
2
ltimos) de modo que, si entre alguno de estos subconjuntos en-
contramos correlacin (en este caso se denomina autocorrelacin) entonces el proceso
generador de la muestra no sera aleatorio sino que presentara un patrn determinista
o sistemtico.
La distribucin de la discrepancia tipicada asociada al coeciente de autocorrelacin sera anloga
a la desarrollada en los prrafos anteriores para el coeciente de Spearman: para valores pequeos de
n se realiza el ajuste a la distribucin t
n2
y para tamaos grandes de n se utiliza la aproximacin
normal.
8.3.1.3. Consecuencias del incumplimiento del supuesto de m.a.s.
Si rechazamos la hiptesis de muestreo aleatorio simple (m.a.s.) gran parte de los
procesos inferenciales descritos tendrn que ser revisados.
En primer lugar no podramos obtener la funcin de verosimilitud como producto de
las funciones de densidad marginales, por lo que deberemos revisar la expresin de esta
funcin. En consecuencia, si estamos utilizando un EMV ste debe ser recalculado.
La no vericacin de la independencia entre los componentes muestrales afectar a
la varianza del estimador y en consecuencia a las propiedades de mnima varianza y
eciencia.
Para obtener las distribuciones de las discrepancias no podremos basarnos en la
propiedad de reproductividad. Las aproximaciones de Chebyshev y TCL deben ser
revisadas, pues debemos tener en cuenta la covarianza entre las variables muestrales.
Adems, para garantizar que la discrepancia tipicada asociada a la varianza mues-
tral sigue un modelo
2
n1
necesitamos que las v.a. muestrales sean independientes.
Hemos enumerado slo algunas de las consecuencias directas de la no vericacin
del supuesto de m.a.s.; no pretendemos ser exhaustivos sino solamente sealar cmo
el rechazo de esta hiptesis nos conducira a una revisin profunda de las tcnicas
inferenciales.
8.3.2. Contrastes de bondad de ajuste. Test de normalidad
Existen varios contrastes de carcter general relativos al modelo probabilstico de
la poblacin, que se conocen como contrastes de bondad de ajuste , y se reeren a
la aproximacin de los datos a un modelo probabilstico terico. Adems, dada la
276
importancia de la distribucin normal en los procesos inferenciales, consideraremos en
este apartado varios contrastes especcos para este modelo.
En los contrastes de bondad de ajuste no existe informacin bsica por lo que se
trata de contrastes en un contexto no paramtrico. La informacin complementaria
nos llevar a establecer la hiptesis nula de que el modelo de probabilidad de la
poblacin X es uno determinado F
0
(x), es decir H
0
: F(x) = F
0
(x), y la hiptesis
complementaria o alternativa ser que el modelo es otro diferente H
1
: F(x) ,= F
0
(x).
Supongamos que la informacin muestral consta de un conjunto de datos (x
1
, . . . , x
n
)
que proceden de la observacin de una m.a.s. de tamao n de la poblacin X, con los
que se pretende contrastar la hiptesis.
Existen diversos tipos de contrastes que en sntesis persiguen evaluar la discrepancia
entre la distribucin de frecuencias observadas y la distribucin terica. Cuando esta
discrepancia es muy elevada entonces rechazaremos la hiptesis de que el modelo es el
especicado y de lo contrario diremos que los datos no son signicativos para rechazar
la funcin de distribucin especicada.
Este tipo de tests suelen basarse en el hecho de que la funcin de distribucin muestral converge en
probabilidad a la poblacional (distribucin origen que da lugar a la muestra). Este resultado, aunque
admite diversos enunciados, suele conocerse como lema de Glivenko-Cantelli.
8.3.2.1. Test de Bondad de Ajuste
El test de la
2
se construye a partir de las discrepancias entre el histograma de la
distribucin de frecuencias de la muestra y el que se obtendra calculando la frecuencia
terica que correspondera a esos mismos valores bajo el supuesto de que la hiptesis
nula es correcta.
Karl Pearson (1857-1936) se plante la necesidad de un criterio para evaluar hasta qu punto una
curva ajustada a un conjunto de observaciones era vlida. As ide la medida chi-cuadrado (1900),
estudiando adems su distribucin que posteriormente se revel como un instrumento de gran utili-
dad en diversas aplicaciones estadsticas.
Supongamos que se toma una m.a.s. (X
1
, . . . , X
n
) cuyos valores agrupamos en r
clases o intervalos I
1
, . . . , I
r
y representemos las frecuencias absolutas de esos interva-
los por n
1
, . . . , n
r
(
r
i=1
n
i
= n ).
En este contraste es necesario tener presente que, cuando la distribucin es continua, los intervalos
deben abarcar todo el recorrido de la variable.
Cada uno de esos intervalos ser del tipo I
i
= (a
i
, b
i
] por lo que, de ser cierta la
hiptesis nula, la probabilidad de que una observacin pertenezca a ese intervalo ser:
p
i
= P(X I
i
) = P(a
i
< X b
i
) = F
0
(b
i
) F
0
(a
i
)
277
Como la muestra consta de n observaciones, el nmero de xitos en el intervalo
I
i
seguira un modelo multinomial /(n, p
i
), y en consecuencia su esperanza ser
np
i
. Para cada intervalo, podemos evaluar el error aleatorio asociado al mismo como
diferencia entre la frecuencia observada y la terica que postula nuestra hiptesis:
e
i
= n
i
np
i
.
Tal y como ya hemos descrito en el captulo 6, la discrepancia tipicada asociada
a las frecuencias n
i
sigue una distribucin que, para valores elevados de n, es aproxi-
madamente
2
con r-1 g.l.
d
n
=
r
i=1
(n
i
np
i
)
2
np
i
2
r1
Hasta aqu estamos suponiendo una m.a.s. por lo que las frecuencias de cada intervalo son aleato-
rias y en consecuencia tambin lo ser la discrepancia tipicada asociada a este estadstico.
Si la especicacin de la distribucin incluye parmetros desconocidos, entonces
p
i
= p
i
(). La discrepancia anterior sigue siendo vlida siempre que los parmetros
se estimen a partir de la muestra por el mtodo de mxima verosimilitud; los EMV
sern
p
i
=
n
i
n
y cada parmetro acta como una restriccin que limita el nmero de g.l., por lo
que si estimamos h parmetros la discrepancia anterior seguir aproximadamente una
distribucin
2
r1h
.
Si partimos ahora de una muestra concreta (x
1
, . . . , x
n
) debemos calcular sobre esos
datos el valor de la discrepancia:
d
n
=
r
i=1
(n
i
np
i
)
2
np
i
si la discrepancia entre las frecuencias observadas y las tericas es tolerable no recha-
zaremos la hiptesis, pero si por el contrario es elevada la rechazaremos. El lmite de
tolerancia d
0
puede ser obtenido a partir de las tablas de la
2
para un cierto nivel de
signicacin (P(d
n
> d
0
/H
0
) = ).
Sin embargo, la prctica ms habitual para construir la regla de decisin del test
consiste en calcular el nivel crtico asociado al contraste, es decir, obtener la probabili-
dad asociada al valor muestral d
: p = P (d
n
> d
/H
0
); cuando esta probabilidad sea
baja signicar que la discrepancia observada es muy alta y por tanto las frecuencias
observadas discrepan mucho de las correspondientes al modelo terico postulado, por
lo que tendramos evidencia signicativa para rechazar la hiptesis.
Cuanto mayor sea el nmero de intervalos en los que agrupemos los valores muestrales, tanto ms
no ser el contraste. Sin embargo, el proceso de convergencia a la
2
exige que la frecuencia esperada
de cada intervalo sea mayor o igual que 5, con lo cual si para algn i el producto np
i
< 5 debemos
278
proceder a reagrupar los intervalos.
A modo de ilustracin, supongamos que deseamos contrastar sobre la v.a. X la hiptesis H
0
: X
U(0, 100), a partir de la siguiente informacin muestral agrupada en intervalos:
Intervalo Frecuencia observada n
i
(0, 10] 9
(10, 20] 11
(20, 50] 12
(50, 100] 20
Para contrastar el supuesto de uniformidad de X deberamos comparar las frecuencias observadas
(n
i
) con las tericas (np
i
) teniendo en cuenta que bajo la hiptesis nula la probabilidad de cada
intervalo se obtiene como
p
i
= P(a
i
< X b
i
) =
b
i
a
i
100
Intervalo n
i
np
i
(0, 10] 9 5,2
(10, 20] 11 5,2
(20, 50] 12 15,6
(50, 100] 20 26
Total 52 52
A partir de la informacin anterior se obtiene la discrepancia
d
n
=
r
i=1
(n
i
np
i
)
2
np
i
= 11, 4615
que lleva asociado un nivel crtico
p = P(
2
41
> 11, 4615) = 0, 00947
que es sucientemente bajo para calicar el resultado de signicativo y rechazar la hiptesis de uni-
formidad propuesta para X.
El contraste de normalidad de una poblacin podra tratarse como un caso parti-
cular del test anterior, donde la hiptesis nula sera H
0
: F(x) A(, ). Cuando
los parmetros y se estiman a partir de la muestra la distribucin chi-cuadrado
presenta n 3 g.l.
Una de las ventajas del contraste de bondad de ajuste mediante la chi-cuadrado es que, en el
caso de que la conclusin sea el rechazo de la hiptesis, este test permite detectar las observaciones
causantes de dicho rechazo. Para ello bastara examinar las discrepancias individuales que aparecen
agregadas en la expresin nal chi-cuadrado y de este modo podremos saber si dichas discrepancias
son homogneas o bien existe un nico valor extremo, que incluso podra deberse a errores en la
muestra.
279
As, en el ejemplo anterior se observa que la mayor discrepancia corresponde al intervalo (10,20]
en el que se han registrado 11 observaciones muestrales cuando la frecuencia terica sera aproxima-
damente la mitad [Comprubese que para este intervalo se obtiene np
i
= (52)(0, 1) = 5, 2].
8.3.2.2. Test de Kolmogorov-Smirnov
El test de Kolmogorov-Smirnov (K-S) basa la discrepancia entre la muestra y la
poblacin en la funcin de distribucin en vez de la funcin de probabilidad del test
chi-cuadrado.
Consideremos una poblacin X para la cual establecemos la hiptesis de que su
distribucin es una determinada: H
0
: F(x) = F
0
(x).
Para contrastar este supuesto disponemos de una muestra particular de esa pobla-
cin (x
1
, . . . , x
n
) para la cual construimos la f.d. de la muestra que comparamos con
nuestra hiptesis nula.
Vamos a establecer la hiptesis adicional de continuidad para la variable, de forma
que la probabilidad de cualquier punto es nula y por tanto la probabilidad de que dos
valores muestrales coincidan tambin ser cero.
Podemos suponer que cada valor muestral se repite una nica vez, y disponemos
estos valores ordenados de forma creciente: x
1
< < x
n
.
Denotemos por S
n
(x) la f.d. muestral que vendr dada por:
S
n
(x) =
_
_
0 si x < x
1
i
n
si x
i
x < x
i+1
1 si x
n
x
Denimos el error de estimacin de la distribucin poblacional a partir de la muestral
como el supremo de las diferencias en todo el recorrido:
D
n
= sup
<x<+
[S
n
(x) F
0
(x)[
Cuando esta diferencia mxima es pequea quiere decir que ambas f.d. se aproximan,
por lo cual no podramos rechazar la hiptesis nula. Si por el contrario la diferencia
no fuese admisible rechazaramos la hiptesis.
En el caso de una muestra genrica, el supremo anterior ser una v.a. cuya distri-
bucin de probabilidad exacta para tamaos pequeos de n, bajo el supuesto de que
la hiptesis nula es cierta, fue obtenida por Massey (1952). Para tamaos elevados
de muestra la probabilidad de que D
n
sea mayor que el valor observado se aproxima
mediante la expresin:
lm
n
P (D
n
> D
n
/H
0
) = 2
i=1
(1)
i1
e
2i
2
D
2
n
n
En cualquiera de los dos casos podemos obtener el nivel crtico que nos indica si
debemos o no rechazar la hiptesis de que la poblacin sigue un modelo determinado.
280
Figura 8.5.: Test de Kolmogorov-Smirnov
Podemos observar que esta expresin depende (adems del valor) nicamente de n
(nmero de observaciones) y no de la distribucin terica supuesta. Esto signica que
el lmite de tolerancia admisible para rechazar una hiptesis de poblacin exponencial,
gamma o normal es la misma.
Para determinar D
n
debemos calcular todas las diferencias entre la distribucin
muestral y la terica. Las mayores de estas diferencias se encontrarn en los puntos de
salto de la distribucin muestral por lo que nos bastar con observar las desviaciones en
los puntos (x
1
, . . . , x
n
). Sin embargo, debemos tener en cuenta que S
n
(x
i
) ,= S
n
(x
+
i
)
(dado que la f.d. muestral es escalonada) por lo que para calcular la desviacin suprema
es necesario contemplar las 2n diferencias:
S
n
_
x
i
_
F
0
(x
i
)
S
n
_
x
+
i
_
F
0
(x
i
)
, i = 1, . . . , n
A.N. Kolmogorov introdujo en 1933 el estadstico D
n
para el que elabor las primeras tablas de
probabilidad. Por su parte, N.V Smirnov (1939) public tablas ms precisas y posteriormente (1944)
lleg a acotar las probabilidades del estadstico de Kolmogorov.
El test K-S establece ciertas restricciones al modelo supuesto para la poblacin.
En concreto, hemos hecho explcito que debe tratarse de un modelo continuo, pero
adems los parmetros de la distribucin supuesta deben ser conocidos para poder
calcular la distribucin anterior.
Sin embargo, dada la importancia de la distribucin normal existe una correccin
de la distribucin de K-S, debida a Lilliefors (1967), que nos permite aplicar este test
cuando se estiman los parmetros a partir de la muestra.
Como puede apreciarse en la tabla que sigue, dados un tamao muestral n y un nivel de signicacin
, las tablas de Lilliefors proporcionan valores crticos inferiores a los de Kolmogorov-Smirnov. Este
hecho se debe a que el desconocimiento de los parmetros poblacionales debe ser compensado siendo
ms estrictos en el contraste, es decir, admitiendo menores desviaciones.
281
Tamao K-S Lilliefors K-S Lilliefors
muestral ( = 0, 05) ( = 0, 05) ( = 0, 01) ( = 0, 01)
5 0,565 0,337 0,669 0,405
10 0,41 0,258 0,49 0,294
15 0,338 0,22 0,404 0,257
8.3.2.3. Test de normalidad de Jarque-Bera
El contraste de normalidad desarrollado por C.M. Jarque y A.K. Bera (1980) se basa
en el estudio de la forma de la distribucin, examinando sus discrepancias respecto a
la curva campaniforme caracterstica del modelo normal.
Estas discrepancias respecto a la normalidad deben ser evaluadas mediante dos
caractersticas de forma: la simetra y la kurtosis o apuntamiento. Para ello suelen
emplearse los coecientes g
1
y g
2
que se denen e interpretan como sigue
2
:
Caracterstica Simetra Kurtosis
g
1
=
1
n
n
i=1
_
X
i

X
_
3
S
3
g
2
=
1
n
n
i=1
_
X
i

X
_
4
S
4
3
g=0 Distribuciones simtricas Distribuciones mesocrticas
g>0 Distr. con asimetra positiva Distribuciones leptocrticas
g<0 Distr. con asimetra negativa Distribuciones platicrticas
El contraste de normalidad de Jarque-Bera se basa en una discrepancia denida por
la expresin:
d
JB
=
n
6
_
g
2
1
+
1
4
g
2
2
_
en la que aparece el tamao muestral n y los coecientes muestrales g
1
y g
2
de Fisher
elevados al cuadrado. Bajo la hiptesis nula de normalidad esta expresin se distribuye
segn un modelo chi-cuadrado con 2 grados de libertad.
Para tamaos elevados de muestra la distribucin de g
1
es aproximadamente normal con
E(g
1
) = 0 y V ar(g
1
) =
6
n
Por su parte, la medida de apuntamiento g
2
es asintticamente normal con esperanza nula y
2
En el captulo 2 hemos denido los coecientes de asimetra y apuntamiento
1
y
2
de Fisher, que
para una variable aleatoria X vienen dados por las expresiones
1
=

3
3
y
2
=

4
4
3
Para el contraste de normalidad examinamos las correspondientes caractersticas muestrales:
g
1
=
m
3
S
3
y g
2
=
m
4
S
4
3
282
V ar(g
2
) =
24
n
y de ah que se combinen ambas medidas en un contraste conjunto:
n
6
g
2
1
+
n
24
g
2
2

2
2
La discrepancia d
JB
resume las caractersticas de forma de la muestra, y adoptar
valores bajos si la distribucin observada es aproximadamente simtrica y mesocr-
tica. En otro caso, a medida que se detectan asimetras (positivas y negativas) o
desviaciones en la kurtosis (distribuciones platicrticas o leptocrticas) la discrepan-
cia aumenta de valor. Para llegar a una conclusin del contraste, bastara con calcular
el nivel crtico asociado al resultado muestral: p = P (d
JB
> d
JB
/H
0
), que si es su-
cientemente bajo conduce al rechazo de la hiptesis de normalidad.
Los mtodos anteriores no agotan las posibilidades para contrastar un modelo probabilstico. As,
la normalidad puede ser contrastada mediante el mtodo de Shapiro y Wilks, que estudia si una
muestra representada en papel probabilstico normal puede ser ajustada adecuadamente a una recta.
8.4. Algunos contrastes paramtricos
Cuando la poblacin investigada sigue un modelo probabilstico conocido las in-
ferencias sobre dicha poblacin son de tipo paramtrico. Dichos contrastes suelen ir
referidos a los parmetros poblacionales y podrn ser resueltos mediante cualquiera
de los dos procedimientos descritos anteriormente: el tradicional o clsico y el del nivel
crtico. Ambos mtodos dieren como hemos visto en su desarrollo, pero coinciden sin
embargo en la herramienta utilizada para analizar las discrepancias entre hiptesis y
muestra.
Siguiendo el esquema general, deberemos comenzar por enunciar la hiptesis que
deseamos contrastar sobre el parmetro de inters, con su correspondiente alternativa.
Como ya hemos visto, en el desarrollo de un contraste de hiptesis nos interesa
distinguir entre contrastes unilaterales y bilaterales. As pues, para un parmetro
genrico , podramos plantear las siguientes situaciones:
H
0
: =
0
H
0
:
0
H
0
:
0
H
1
: ,=
0
H
1
: <
0
H
1
: >
0
La primera posibilidad se corresponde con un contraste bilateral o de dos colas, en
el que la hiptesis alternativa se sita tanto a izquierda como a derecha de la hiptesis
planteada H
0
. Por el contrario, los otros contrastes son unilaterales ya que ahora la
alternativa se correspondera con una sola cola (la izquierda en el primer caso y la
derecha en el segundo).
283
Figura 8.6.: Mtodos de contraste de hiptesis
Es evidente que las tres situaciones comentadas no agotan la casustica de los contrastes. Sin
embargo, son sucientes para describir la metodologa de los contrastes de signicacin, ya que otros
posibles enunciados se resolveran de modo similar.
As, si planteamos un contraste de hiptesis nula simple frente a alternativa simple:
H
0
: =
0
H
1
: =
1
el espacio paramtrico tendra dos regiones (cada una de ellas con un valor nico) por lo cual el
planteamiento sera de una sola cola (a la derecha si
1
<
0
y a la izquierda en caso contrario).
Obsrvese que en todos los casos se incluye en la hiptesis nula el valor concreto del parmetro
0
que marca su lmite con la alternativa.
En los apartados que siguen desarrollamos los contrastes referidos a los parmetros
ms habituales, tanto por el mtodo clsico como por el del nivel crtico. En sntesis,
para un contraste bilateral el esquema de trabajo es el ilustrado en la gura 8.6.
Por su parte, los contrastes de hiptesis unilaterales se resolveran segn el mismo
esquema de trabajo, con la salvedad de que consideraramos una sola cola, tanto en
la regin crtica como en la probabilidad calculada como nivel crtico.
Como podemos apreciar en los esquemas anteriores, el mtodo del nivel crtico empezara respon-
diendo a la pregunta qu dice la muestra? Para evaluar si la muestra dista mucho del valor hipottico
se calcula la discrepancia tipicada d
y su correspondiente nivel crtico p.

Por el contrario, el mtodo clsico proporciona reglas de decisin, estableciendo regiones crticas
o de rechazo de una hiptesis. Slo al nal del proceso se aplica dicha regla genrica a la muestra
concreta para obtener una conclusin relativa a la hiptesis planteada.
284
8.4.1. Contrastes sobre la media
Consideremos una poblacin normal X A(, ) en la que deseamos contrastar
algn supuesto inicial sobre el valor esperado . Bastara con aplicar el planteamiento
general recogido en los esquemas anteriores, distinguiendo en cada caso si se trata de
contrastes bilaterales o unilaterales.
Las situaciones ms habituales son las descritas a continuacin:
Enunciado I:
H
0
: =
0
H
1
: ,=
0
Al contrastar la hiptesis H
0
: =
0
1
: ,=
0
, si jamos
un nivel de signicacin , es posible obtener un valor k de la discrepancia tal que se
cumpla:
P ([d
X
[ > k/H
0
) =
Como ya hemos justicado en temas anteriores, el clculo de k se efectuara en las tablas de la
distribucin N(0, 1) siempre que fuese conocido. En otro caso, para pequeos tamaos de muestra
deberamos acudir a las tablas t de Student con n 1 g.l. Obsrvese que, en cualquiera de los dos
casos, el valor k es ms elevado cuanto menor sea nuestro nivel de signicacin .
A partir de este valor k se obtiene la regin crtica para la discrepancia d
X
:
(, k) (k, +)
y equivalentemente la regin crtica para el estimador sera:
_
,
0
k

n
_
_
_
0
+k

n
, +
_
si es conocido
_
,
0
k
S
n
_
_
_
0
+k
S
n
, +
_
si es desconocido
Como consecuencia, si con nuestra informacin disponible se obtienen una discre-
pancia d
X
y una media muestral

X
incluidas en la correspondiente regin crtica, la

conclusin sera el rechazo de la hiptesis, y viceversa en el caso contrario.
Cuando el contraste se resuelve por el procedimiento del nivel crtico bastar con
evaluar el nivel p, esto es, la probabilidad de que, siendo la hiptesis cierta, se presenten
discrepancias respecto a ella tanto o ms elevadas que las observadas en la muestra:
p = P
_
[d
X
[ >
/H
0
_
Cuando el valor d
de la discrepancia sea elevado, la probabilidad p resultar baja y en consecuencia

rechazaremos la hiptesis =
0
. Tales situaciones se presentan cuando la media muestral observada
285
Figura 8.7.: Regin crtica para contrastes sobre la media
es muy distinta de la hipottica
0
, y de ah que el resultado sea calicado de signicativo para
rechazar.
Si por el contrario el valor de la media muestral fuese muy similar al hipottico, se obtendra una
discrepancia cercana a 0, a la que se asocia un nivel crtico elevado. En este caso es perfectamente
admisible que las desviaciones observadas se deban al azar, y no existen razones fundadas para re-
chazar la hiptesis.
Consideremos de nuevo el ejemplo inicial donde la hiptesis de produccin esperada era H
0
: =
410 frente a H
1
: = 410. Si asumimos que la poblacin es normal con = 20, cul sera la
conclusin adoptada si en una muestra de 16 observaciones se obtiene x = 430?
Plantearemos en primer lugar la obtencin de la regin crtica al nivel de signicacin = 0, 05:
puede comprobarse fcilmente que el valor crtico de la discrepancia es k = 1, 96, ya que se cumple
P (|d
X
| > 1, 96/H
0
) = 0, 05.
Como consecuencia la regin crtica puede ser denida sobre la media muestral:
_
, 410 1, 96
20
16
_
_
_
410 + 1, 96
20
16
, +
_
es decir
(, 400, 2) (419, 8, +)
con lo cual el valor observado x = 430 pertenece a la regin crtica y conduce al rechazo de la hiptesis.
Mediante el enfoque del nivel crtico llegaramos a la misma conclusin ya que, asumiendo como
cierta la hiptesis nula, se obtendra:
P (|d
X
| > |d
X
| /H
0
) = P
_
>
430 410
20
16
_
= P
_
> 4
_
= 0, 0000
y dicho resultado nos informa de que, asumiendo una produccin esperada de 410 miles de Tm/mes,
sera inverosmil una muestra como la observada (la probabilidad p es muy baja); por tanto el resul-
tado es claramente signicativo para rechazar.
[Estudiar cul sera la conclusin en el caso de que en la muestra se hubiera observado x = 415]
286
Enunciado II:
H
0
:
0
H
1
: <
0
Si planteamos ahora un contraste unilateral del tipo H
0
:
0
frente a H
1
: <
0
el mtodo clsico nos llevara, una vez jado el nivel de signicacin , a buscar un
valor de k de tal que:
P (d
X
< k/H
0
) = d
X
(, k)
Como muestra la condicin anterior, en este caso nos preocuparn nicamente las
discrepancias que apoyen la hiptesis alternativa, esto es, los valores del estimador
muy inferiores a los hipotticos que pertenecen a la regin crtica (, k). En efecto,
adoptando como representante de H
0
su valor menos favorable (
0
, que es el lmite
inferior supuesto para la esperanza), se obtendra la correspondiente regin crtica
para la media muestral

X representada por la cola de la izquierda:
_
0
+k

n
, +
_
si es conocido
_
0
+k
S
n
, +
_
si es desconocido
Obsrvese que para los niveles de signicacin habituales (1 %, 5 % o 10 %) el valor k (obtenido en
las tablas de la Normal o la t, segn los casos) es negativo.
Las consideraciones anteriores son tambin vlidas en el caso de que el contraste se
lleve a cabo por el mtodo del nivel crtico. Este evaluar la probabilidad de que, siendo
cierta la hiptesis (esto es, siendo la esperanza al menos
0
), las desviaciones por defec-
to respecto a ella sean tan notables como las observadas, esto es: p = P
_
d
X
< d
X
/H
0
_
.
Como puede verse, la expresin de clculo del nivel crtico depende de la formulacin de las hi-
ptesis, pues pretende evaluar la probabilidad de distanciarnos tanto o ms que la muestra de la
hiptesis nula y, segn cules sean los enunciados, se traducir en la probabilidad de dos colas, de la
cola a la derecha o de la cola a la izquierda.
Enunciado III:
H
0
:
0
H
1
: >
0
Este contraste es tambin unilateral y se plantea en trminos simtricos al enunciado
anteriormente visto, por lo cual conduce a una regin crtica y un nivel crtico asociados
a la cola de la derecha [Indicar cmo se resolvera este contraste por los mtodos clsico
y del nivel crtico]
287
Enunciado IV:
H
0
: =
0
H
1
: =
1
Para el contraste de una hiptesis simple frente a una alternativa tambin simple,
nos remitimos a la descripciones anteriores, ya que cuando
1
<
0
el planteamiento
coincidira con el visto para el enunciado II y en caso contrario (
1
>
0
) con el III.
8.4.1.1. Extensin a poblaciones desconocidas
Los contrastes anteriores sobre un valor esperado asuman la normalidad para la
poblacin de partida. Adems, en el caso de que el tamao muestral sea sucientemente
elevado, el teorema central del lmite garantiza un comportamiento aproximadamente
normal para la media muestral y para la discrepancia d
X
aun partiendo de poblaciones
desconocidas.
Por otra parte, en temas anteriores hemos contemplado la posibilidad de llevar a
cabo inferencias sobre a partir de poblaciones desconocidas mediante la desigualdad
de Chebyshev, planteamiento que resulta tambin aplicable al contraste de hiptesis,
que sera en este caso de tipo no paramtrico.
Consideremos por ejemplo el primero de los enunciados anteriores donde la hiptesis
nula es H
0
: =
0
1
: ,=
0
. Una vez jado el nivel de
signicacin , se trata de buscar un valor k tal que:
P ([d
X
[ > k/H
0
) =
y la desigualdad de Chebyshev aplicada a las discrepancias d
X
garantiza que para
cualquier k > 0:
P ([d
X
[ k/H
0
)
1
k
2
con lo cual, para garantizar que nuestro nivel de signicacin no exceder el jado
debemos considerar un valor k =
1
a partir del cual se obtiene la regin crtica para
X:
_
,
0
k

n
_
_
_
0
+k

n
, +
_
que, en caso de que
2
fuese desconocido, podra ser aproximada mediante la corres-
pondiente estimacin muestral con S
2
.
De modo similar, la desigualdad de Chebyshev permitira llegar a obtener cotas
superiores para el nivel crtico:
p = P
_
[d
X
[ >
/H
0
_
1
_
d
X
_
2
Puede observarse que en ambos mtodos estamos costeando la ausencia de infor-
288
macin poblacional ya que, para rechazar una hiptesis al mismo nivel de signicacin,
la evidencia muestral debe ser ahora ms fuerte. Este hecho se debe a que con distri-
bucin desconocida sern mayores los errores debidos al azar, con lo cual admitiremos
mayores discrepancias, llegando por tanto a regiones crticas menores. Alternativa-
mente, si optamos por el mtodo del nivel crtico solamente podramos llegar a una
cota superior para la probabilidad p.
A modo de ilustracin, analicemos cmo afectara la no normalidad al contraste anteriormente
desarrollado H
0
: = 410 frente a la alternativa H
1
: = 410, donde seguimos asumiendo = 20 y
una observacin muestral x = 430 obtenida a partir de 16 observaciones.
Tal y como hemos visto, la regin crtica a un nivel de signicacin no superior a = 0, 05 vendra
dada ahora para

X por:
_
, 410 4, 4721
20
16
_
_
_
410 + 4, 4721
20
16
, +
_
es decir , (, 387, 64) (432, 36, +) donde k = 4, 4721 ha sido obtenida como
1
0,05
y, conscientes
de no poder garantizar ninguna distribucin para d
X
, hemos asumido como vlida una mayor discre-
pancia debida al azar de modo que el valor muestral x = 430 no pertenece a la regin crtica y por
tanto no conduce al rechazo de la hiptesis.
Siguiendo el enfoque del nivel crtico llegaramos a la misma conclusin ya que, asumiendo como
cierta la hiptesis nula, se obtendra:
P (|d
X
| > |d
X
| /H
0
) = P
_
> 4
_
1
4
2
= 0, 0625
es decir, podemos garantizar que el nivel crtico no supera el 6,25 % sin que este resultado pueda ser
calicado de signicativo para rechazar a los niveles habituales (5 % y 1 %).
A la vista de los resultados anteriores podemos concluir que un valor medio de 430 en la muestra
es sucientemente signicativo para rechazar la hiptesis = 410 cuando la poblacin es normal
pero no as en el caso de que estemos trabajando con una poblacin desconocida.
8.4.2. Contrastes sobre la varianza
Asumiendo el supuesto de normalidad para la poblacin X y siguiendo la misma
metodologa vista para , planteemos algunos contrastes habituales para la varianza:
Enunciados unilaterales: Supongamos que deseamos llevar a cabo un contraste
unilateral sobre la varianza en los siguientes trminos:
H
0
:
2

2
0
H
1
:
2
>
2
0
Si seguimos el mtodo clsico, una vez jado el nivel de signicacin deberamos
buscar el valor k que garantice: P (d
S
2 > k/H
0
) = . Teniendo en cuenta que bajo
H
0
la discrepancia es en este caso
d
S
2
/H
0
=
(n 1)S
2
2
0

2
n1
289
Figura 8.8.: Regin crtica para contrastes sobre la varianza
dicho valor se determinar en las tablas chi-cuadrado con n-1 g.l.
Se llega as a las siguientes regiones crticas para la discrepancia y para la varianza
muestral:
RC para d
S
2: (k, +)
RC para S
2
:
_
k
2
0
n 1
, +
_
que, como consecuencia del enunciado de la hiptesis, se corresponden con las colas
de la derecha (gura 8.8)
De modo similar, si llevamos a cabo el contraste por el mtodo del nivel crtico,
bastara con calcular la probabilidad asociada a la cola derecha del valor observado d
:
p = P
_
d
S
2 > d
S
2
/H
0
_
ya que en este caso nos preocupan nicamente las discrepancias
por exceso, que son las que apoyan la alternativa.
Este razonamiento resulta aplicable a otros contrastes unilaterales, tanto de hip-
tesis simples como compuestas.
[Cmo se resolvera el contraste de la hiptesis
2
= 36 frente a la alternativa
2
= 60?]
Enunciado bilateral:
H
0
:
2
=
2
0
H
1
:
2
,=
2
0
La resolucin por el mtodo clsico se lleva a cabo buscando en las tablas de la
distribucin chi-cuadrado con n1 g.l dos valores k
1
y k
2
de la discrepancia tales que:
P (d
S
2 < k
1
/H
0
) = P (d
S
2 > k
2
/H
0
) =

2
La regin crtica ser en este caso bilateral:
RC para d
S
2: (0, k
1
) (k
2
, +)
290
RC para S
2
:
_
0,
k
1
2
0
n 1
_
_
k
2
2
0
n 1
, +
_
En el tema de estimacin hemos visto que la construccin de intervalos de conanza para
2
se
llevaba a cabo multiplicando su estimador S
2
por los ndices
n 1
k
1
> 1 y
n 1
k
2
< 1
Ahora la determinacin de la regin crtica para S
2
se realiza incorporando al valor hipottico
2
0
los inversos de ambas expresiones
k
1
n 1
< 1 y
k
2
n 1
> 1
Cmo se resolvera este contraste por el mtodo del nivel crtico? Por tratarse de
un contraste bilateral debemos tener presentes las discrepancias en los dos sentidos,
con lo cual se obtienen niveles crticos dados por:
P
_
d
S
2 < d
S
2
/H
0
_
si la menor probabilidad se encuentra en la cola de la izquierda
P
_
d
S
2 > d
S
2
/H
0
_
si la menor probabilidad se encuentra en la cola derecha
Obsrvese que en realidad este planteamiento coincide con el de los contrastes bilaterales para ,
si bien en aquel caso el clculo resultaba ms sencillo al tratarse de una distribucin simtrica, que
permita la utilizacin de discrepancias en valor absoluto.
8.4.3. Contrastes sobre la proporcin
En el mbito econmico son habituales los supuestos sobre proporciones poblacio-
nales (tasas de actividad, participaciones sectoriales,...) en los que interesar conocer
si son bilaterales o unilaterales. A modo de ilustracin nos centraremos en un contras-
te bilateral, pero la descripcin resulta fcilmente trasladable a los contrastes de una
sola cola.
Enunciado bilateral:
H
0
: p = p
0
H
1
: p ,= p
0
El desarrollo de este contraste ser distinto segn el tamao de la muestra en la
que nos basemos. Comenzando por las muestras de tamao elevado, el planteamiento
sera muy similar al visto para la esperanza poblacional , ya que en este caso la
discrepancia es
d
p/H
0
=
p p
0
_
p
0
(1p
0
)
n
A(0, 1)
y en consecuencia bastara con buscar un valor k tal que P ([d
p
[ > k/H
0
) = donde
es el nivel de signicacin.
291
Una vez determinada la constante k, las regiones crticas para la discrepancia y para
el estimador se obtienen como sigue:
RC para d
p
: (, k) (k, +)
RC para p:
_
, p
0
k
_
p
0
(1 p
0
)
n
_
_
p
0
+k
_
p
0
(1 p
0
)
n
, +
_
Obsrvese que en este caso no es necesario estimar la varianza de la proporcin muestral, dado que
sta quedar completamente determinada bajo la hiptesis nula p = p
0
.
Del mismo modo, si optsemos por el mtodo del nivel crtico, ste se calculara
mediante la expresin:
p = P
_
[d
p
[ >
/H
0
_
cuyo resultado permite decidir si se debe o no rechazar H
0
.
Qu sucedera si el tamao de muestra n resultase insuciente para aplicar los teo-
remas lmites? En estas situaciones, los contrastes deben ser planteados aprovechando
nicamente el hecho de que, bajo la hiptesis nula, el numerador de la proporcin
muestral es X B(n, p
0
).
As, se buscan dos valores x
1
y x
2
tales que:
P (X < x
1
/H
0
) = P (X > x
2
/H
0
) =

2
Dichos valores determinan directamente la regin crtica para p:
_
0,
x
1
n
_
_
_
x
2
n
, 1
_
8.4.4. Contrastes sobre medias de dos poblaciones
Cuando investigamos conjuntamente dos poblaciones, a menudo resultar intere-
sante comparar sus valores esperados. Se trata en estos casos de contrastar hiptesis
relativas a la diferencia de medias, para lo cual -como hemos analizado en el captulo
6- deben contemplarse diferentes supuestos.
As, una primera posibilidad sera aquella en la que las muestras (X
1
, . . . , X
n
) y
(Y
1
, . . . , Y
n
) aparecen pareadas, con lo cual podemos denir una nueva variable D =
X Y con esperanza
D
=
X

Y
y trabajar sobre la muestra (D
1
, . . . , D
n
).
A partir de aqu, el objetivo consistira en contrastar hiptesis para la esperanza de
una poblacin (
D
), por lo cual resultan aplicables todas las consideraciones vistas
para dicho parmetro.
Sin embargo, en la prctica ms habitual, los contrastes sobre diferencia de medias
asumen como vlidos dos supuestos bsicos: la normalidad de las poblaciones X e Y y
la independencia entre las muestras aleatorias (X
1
, . . . , X
n
) y (Y
1
, . . . , Y
m
) extradas
de las mismas.
292
Tabla 8.2.: Cuadro resumen de los contrastes de la diferencia de medias
HIPOTESIS REGION CRITICA PARA

X

Y NIVEL CRITICO
H
0
:
X

Y
= 0
_
, k
_
2
X
n
+

2
Y
m
_
_
k
_
2
X
n
+

2
Y
m
, +
_
p = P
_
|d
X
Y
| >
/H
0
_
H
1
:
X

Y
= 0
con P (|d
X
Y
| > k/H
0
) =
H
0
:
X

Y
0
_
, k
_
2
X
n
+

2
Y
m
_
p = P
_
d
X
Y
< d
Y
/H
0
_
H
1
:
X

Y
< 0
con P (d
X
Y
< k/H
0
) =
H
0
:
X

Y
0
_
k
_
2
X
n
+

2
Y
m
, +
_
p = P
_
d
X
Y
> d
Y
/H
0
_
H
1
:
X

Y
> 0
con P (d
X
Y
> k/H
0
) =
La resolucin de estos contrastes seguir procedimientos similares a los vistos para
una sola media, con slo tener presente si el enunciado es de una o dos colas. A modo
de resumen, la tabla 8.2 recoge el esquema de estos contrastes por los mtodos clsico
y del nivel crtico para la situacin ms sencilla, esto es, con varianzas poblacionales
conocidas:
En la construccin de la regin crtica hemos sustituido la diferencia de medias por
el valor 0 correspondiente a la hiptesis nula. Por lo que se reere a la determinacin
de la constante k, sta se obtendra con las tablas del modelo A(0, 1) dado que hemos
asumido que las varianzas son conocidas.
En otro caso, ya hemos visto que sera posible -bajo condiciones de proporcionalidad
entre las varianzas poblacionales- utilizar las varianzas muestrales para la obtencin
de discrepancias que conduzcan a las correspondientes regiones crticas.
As, en el caso de varianzas desconocidas pero coincidentes, la regin crtica asociada al contraste
bilateral sera del tipo:
_
, k
_
(n 1)S
2
X
+ (m1)S
2
Y
n +m2
_
1
n
+
1
m
_
_
_
_
k
_
(n 1)S
2
X
+ (m1)S
2
Y
n +m2
_
1
n
+
1
m
_
, +
_
donde k se obtendra en tablas de la t de Student con n +m2 g.l.
El planteamiento anterior podra ser generalizado a los contrastes relativos a la suma
o la combinacin lineal de esperanzas. En trminos generales, podramos plantear
contrastes del tipo:
H
0
:
X
+
Y
= c
H
1
:
X
+
Y
,= c
con , y c constantes, cuya resolucin se llevara a cabo de modo similar a los
contrastes de diferencias de medias.
293
8.4.5. Contrastes sobre varianzas de dos poblaciones
A menudo estamos interesados en contrastar algn supuesto relativo a la dispersin
de dos poblaciones. De hecho, en el apartado anterior hemos visto que la relacin entre
las varianzas poblacionales resulta relevante a la hora de conocer la distribucin de la
diferencia de medias.
En este tipo de situaciones, podemos plantear el contraste:
H
0
:
2
X
=
2
Y
H
1
:
2
X
,=
2
Y
Consideremos dos poblaciones normales X A(
X
,
X
) e Y A(
Y
,
Y
) de
las que se han extrado independientemente las muestras aleatorias (X
1
, . . . , X
n
),
(Y
1
, . . . , Y
m
). En esta situacin el contraste del supuesto de igualdad de varianzas
puede llevarse a cabo a partir de la discrepancia tipicada que, bajo la hiptesis nula,
adopta la expresin
d
S
2
X
S
2
Y
/H
0
=
S
2
X
S
2
Y
F
n1
m1
[Por qu?]
Dado que el contraste planteado es bilateral, la regin crtica vendra determinada
por los valores inferiores a k
1
o superiores a k
2
. De modo anlogo, si se sigue el mtodo
del nivel crtico la probabilidad correspondiente al nivel crtico sera el rea encerrada
en las dos colas de la distribucin F de Snedecor.
Obsrvese que en este contraste la discrepancia coincide con la razn de varianzas muestrales, por
lo cual la regin crtica es en ambos casos (0, k
1
) (k
2
, +).
El planteamiento expuesto resulta tambin aplicable cuando nuestra informacin a
priori nos lleva a establecer que una poblacin es ms homognea que otra (
2
X

2
Y
o bien
2
X

2
Y
). A modo de resumen, recogemos las diferentes situaciones en la tabla
siguiente:
HIPTESIS REGIN CRTICA PARA
S
2
X
S
2
Y
NIVEL CRTICO
H
0
:
2
X
=
2
Y
(0, k
1
) (k
2
, +) p = 2P (d > d
/H
0
)
H
0
:
2
X
,=
2
Y
con P
_
S
2
X
S
2
Y
> k
2
/H
0
_
= P
_
S
2
X
S
2
Y
< k
1
/H
0
_
=

2
o
p = 2P (d < d
/H
0
)
H
0
:
2
X

2
Y
(0, k)
H
0
:
2
X
<
2
Y
con P
_
S
2
X
S
2
Y
< k/H
0
_
=
p = P (d < d
/H
0
)
H
0
:
2
X

2
Y
(k, +)
H
0
:
2
X
>
2
Y
con P
_
S
2
X
S
2
Y
> k/H
0
_
=
p = P (d > d
/H
0
)
294
Cabe por ltimo sealar que este planteamiento puede ampliarse a cualquier contraste de propor-
cionalidad de varianzas, en los que la hiptesis nula sera:
H
0
:
2
X
= c
2
Y
, H
0
:
2
X
c
2
Y
o H
0
:
2
X
c
2
Y
8.5. Algunos contrastes no paramtricos
En un apartado previo hemos planteado el contraste de los supuestos bsicos, que se
incluyen en el mbito de los tests no paramtricos. Tambin en el apartado anterior,
al estudiar los contrastes sobre ciertos parmetros, hemos considerado algunas situa-
ciones particulares con modelo probabilstico desconocido, que en general se resuelven
mediante la desigualdad de Chebyshev.
En la prctica pueden interesarnos muy diversos tests de tipo no paramtrico refe-
rentes a poblaciones independientes, datos homogneos, medidas de posicin, etc.
Los contrastes no paramtricos constituyen un conjunto muy extenso y til de
herramientas estadsticas que, sin suponer informacin bsica sobre la distribucin de
partida, permiten obtener pruebas con cierta eciencia para contrastes muy variados.
Uno de los primeros problemas que nos encontramos es el de clasicar los diferentes
tests no paramtricos para sistematizar su estudio y aplicacin. Podemos clasicar es-
tas pruebas en funcin de la informacin emprica, segn que se reera a una muestra,
a dos muestras (relacionadas en distintos perodos de tiempo o independientes), o a k
muestras.
Tambin podemos agrupar los contrastes no paramtricos atendiendo al tipo de
test utilizado; as tendramos pruebas basadas en rachas, en rangos, en estadsticos de
orden, en distancias chi-cuadrado, ... .
Otra forma de clasicar estos contrastes sera en funcin de las hiptesis: tests de
localizacin, de independencia de poblaciones, de homogeneidad, ... . Este es el esque-
ma que vamos a seguir en este epgrafe en el que no pretendemos realizar un desarrollo
exhaustivo sino que describimos algunas de las principales tcnicas no paramtricas.
Dos aspectos que debemos tener en cuenta para una mejor comprensin de todo lo
que sigue son los siguientes:
Ligeras modicaciones en el enfoque de un mismo test permiten que ste pueda
ser aplicado a contrastes, en principio, diferentes. Por este motivo no debe ex-
traarnos que para diferentes hiptesis poblacionales aparezca la misma prueba.
Prcticamente en todos los casos tendremos que ir distinguiendo si se trata de
muestras pequeas o si pueden aplicarse condiciones de convergencia.
8.5.1. Contrastes del modelo poblacional
Este tipo de contrastes se conocen como de bondad de ajuste y fueron descritos en
un apartado anterior. A modo de sntesis, recogemos en la tabla 8.3 sus rasgos ms
295
Tabla 8.3.: Test de bondad de ajuste
Test Criterio Discrepancia
Distribucin
Nivel crtico
y condiciones
Chi- Compara frecuencias
d
n
=
k
i=1
(n
i
np
i
)
2
np
i
2
n
(Aprox.) P (d
n
> d
n
/H
0
) cuadrado tericas y observadas
en los k intervalos
Kolmogorov- Compara frecuencias
D
n
= sup
x
|S
n
(x) F
0
(x)|
Tabulada
P(D
n
> D
n
/H
0
) Smirnov acumuladas muestrales (v.a. continuas,
y tericas parmetros dados)
Jarque-Bera
Compara caractersticas d
JB
=
n
6
_
g
2
1
+
1
4
g
2
2
_

2
2
(Aprox.) P(d
JB
> d
JB
/H
0
) de forma con las del g
1
, g
2
: Medidas de
modelo normal asimetra y kurtosis
destacables:
Como vemos, estos contrastes presentan diferencias en cuanto a la discrepancia
considerada y a las condiciones de aplicacin.
El test chi-cuadrado introduce una arbitrariedad inicial al tener que agrupar los
datos muestrales en intervalos. La clasicacin que se haga depende del criterio de
la persona que realice el contraste y el valor de la discrepancia es distinto segn la
agrupacin realizada.
Por otra parte, tanto el test chi-cuadrado como el de Jarque-Bera conducen slo a
una distribucin aproximada de la discrepancia, mientras el test de K-S proporciona
una distribucin exacta.
Tanto el test chi-cuadrado como el propuesto por Jarque y Bera para la normalidad
admiten una mayor holgura que el de K-S. En este sentido siempre que sea posible
aplicar el test de K-S (distribuciones continuas y con parmetros conocidos), este
contraste resultar preferible.
8.5.2. Contrastes de independencia de dos poblaciones
Consideremos ahora un colectivo sobre el cual se observa una v.a. bidimensional
(X, Y ); supongamos que las variables unidimensionales son susceptibles de clasica-
cin en r y s categoras A
1
, . . . , A
r
para X y B
1
, . . . , B
s
para Y , respectivamente.
Se desea contrastar si las dos poblaciones X e Y son independientes para lo cual
debemos seleccionar una muestra aleatoria de tamao n de esa v.a. bidimensional:
(X
1
, Y
1
), . . .,(X
n
, Y
n
).
En ocasiones, las categoras de clasicacin se corresponden con intervalos: L
0
L
1
, L
1
L
2
, ..., L
r1
L
r
y M
0
M
1
, M
1
M
2
, ..., M
s1
M
s
que cubren el recorrido de las variables X e Y respectivamente.
Podemos resumir la informacin de los valores muestrales en la siguiente tabla de
doble entrada:
296
Y/X A
1
A
r
n
j
B
1
n
11
n
r1
n
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
B
s
n
1s
n
rs
n
s
n
i
n
1
n
r
n
Dado que estamos trabajando con una muestra genrica, las frecuencias absolutas
n
ij
sern v.a. La notacin es la usual en Estadstica Descriptiva donde
n
i
=
s
j=1
n
ij
, n
j
=
r
i=1
n
ij
, n
=
r
i=1
n
i
=
s
j=1
n
j
Las frecuencias marginales n
i
y n
j
son tambin magnitudes aleatorias y se cumple
n = n
.
La hiptesis de independencia entre las variables X e Y puede ser expresada como
H
0
: p
ij
= p
i
p
j
, i = 1, . . . , r , j = 1, . . . , s
la hiptesis alternativa ser que para algn par (i, j) no se verique la igualdad ante-
rior. El contraste planteado puede ser equivalente a uno de bondad en el que ajustamos
cada elemento de la tabla bidimensional al comportamiento terico de independencia.
La probabilidad conjunta o frecuencia observada puede calcularse como p
ij
=
n
ij
n
y las probabilidades marginales p
i
y p
j
(correspondientes a los valores poblacionales
p
i
= P(X A
i
), p
j
= P(Y B
j
)) sern desconocidas por lo que debemos proce-
der a su estimacin a partir de los datos muestrales. Los estimadores MV de estas
probabilidades son:
p
i
=
n
i
n
y p
j
=
n
j
n
, i = 1, . . . , r j = 1, . . . s
As pues, sustituyendo podemos expresar la hiptesis nula como:
H
0
: n
ij
=
n
i
n
j
n
, i = 1, . . . , r j = 1, . . . s
La discrepancia tipicada de este contraste (que ya ha sido introducida en el captulo
6), ser:
d
IND
=
r
i=1
s
j=1
_
n
ij
n
i
n
j
n
_
2
n
i
n
j
n
que, en el supuesto de independencia, converge a una
2
con (r 1)(s 1) g.l.
Para determinar los g.l. debemos tener en cuenta que en principio tenemos rs frecuencias obser-
vadas y partimos de una restriccin inicial:
297
n =
r
i=1
s
j=1
n
ij
con lo cual el nmero de g.l. seran rs 1(n de parmetros que estimamos).
El nmero de parmetros estimados para X sera r 1 ( p
1
, . . . , p
r1
, ya que p
r
se obtiene como
p
r
= 1
r1
i=1
p
i
). De la misma forma para Y el nmero de parmetros estimados sern s 1. Por
tanto los grados de libertad sern:
rs 1 (r 1) (s 1) = rs r s + 1 = (r 1)(s 1)
A partir de la informacin proporcionada por una muestra concreta, la decisin
sobre la hiptesis de independencia se tomar a partir del valor de la discrepancia
observada:
d
IND
=
r
i=1
s
j=1
_
n
ij
n
i
n
j
n
_
2
n
i
n
j
n
Esta discrepancia nos conduce a un nivel crtico p = P (d
IND
> d
IND
/H
0
), en fun-
cin del cual rechazaremos o no la hiptesis formulada.
Para que podamos obtener una buena aproximacin de esta discrepancia al modelo
2
se exige
que la frecuencia esperada en cada casilla sea no inferior a 5. Por tanto, si para una clasicacin de-
terminada no se vericase este supuesto, deberamos proceder a una reclasicacin de las categoras
hasta conseguir el objetivo anterior.
8.5.3. Contrastes de homogeneidad de poblaciones clasicadas segn
varias categoras
Presentamos aqu un caso particular de los contrastes de homogeneidad entre pobla-
ciones, cuando se tienen variables que se pueden clasicar en categoras. Analizamos
en primer lugar la prueba exacta de Fisher para el caso en que se consideren slo
dos categoras y dos muestras; posteriormente extenderemos este contraste a un caso
arbitrario con r muestras y s clasicaciones.
8.5.3.1. Prueba exacta de Fisher
Este test es aplicable cuando disponemos de dos poblaciones que pueden ser clasi-
cadas con arreglo a dos categoras excluyentes. Esto es, puede referirse a atributos que
presentan slo dos modalidades, o bien a variables cuantitativas en las que denimos
las categoras menor que b y mayor o igual a b.
Contrastar la identidad de las poblaciones respecto a esta clasicacin dicotmica
ser equivalente a contrastar la identidad entre las proporciones que cada muestra
presenta en las dos categoras.
298
Para realizar el contraste tomamos una m.a.s. de cada poblacin y clasicamos
ambas muestras con arreglo a las categoras (A, B). De esta forma elaboramos una
tabla 2 2:
Categora A Categora B Sumas
Muestra 1 n
1A
n
1B
n
1
= n
1A
+n
1B
Muestra 2 n
2A
n
2B
n
2
= n
2A
+n
2B
Sumas n
A
= n
1A
+n
2A
n
B
= n
1B
+n
2B
n
m
= n
1
+n
2
= n
A
+n
B
Si encontramos diferencias signicativas entre
n
1A
n
1
y
n
2A
n
2
entonces podramos garan-
tizar que las poblaciones de partida no coinciden.
La probabilidad exacta de obtener esta distribucin de frecuencias al clasicar un
total de n unidades se obtiene a partir del modelo hipergeomtrico. Para obtener este
resultado limitemos el total de unidades al conjunto de las dos muestras, identique-
mos la muestra o unidades observadas con la muestra 1 y el nmero de unidades
poblacionales favorables (por ejemplo a la categora A) n
A
. En este caso tendramos
una distribucin hipergeomtrica 1(N = n
m
, M = n
A
, n = n
1
).
El nmero de unidades favorables sobre la muestra sera x = n
1A
; por tanto la
probabilidad exacta vendra dada por:
p =
_
M
x
__
NM
nx
_
_
N
n
_ =
_
n
A
n
1A
__
n
B
n
1B
_
_
n
m
n
1
_
Ahora bien, para obtener el nivel crtico asociado a este test tendremos que calcular
la probabilidad de obtener esta distribucin de frecuencias o cualquier otra ms ex-
trema que ella, esto es, cualquier otra distribucin obtenida a partir de la actual que
presente mayor disparidad entre las proporciones de las categoras.
Obsrvese que esta expresin podra ser tambin obtenida razonando de forma simtrica, esto es,
considerando como casos posibles todas las combinaciones de n
A
elementos a partir del total n
m
y
como casos favorables las combinaciones de tamao n
1A
a partir de la muestra n
1
y de tamao n
2A
a partir de la muestra n
2
.
Se tendra entonces la expresin:
p =
_
n
1
n
1A
__
n
2
n
2A
_
_
n
m
n
A
_
que resulta coincidente con la anteriormente vista
p =
_
n
A
n
1A
__
n
B
n
1B
_
_
n
m
n
1
_
[Comprubese]
Consideremos por ejemplo la siguiente tabla de frecuencias:
A B Sumas
Muestra 1 6 2 8
Muestra 2 1 2 3
Sumas 7 4 11
299
La hiptesis nula es que las poblaciones no dieren en cuanto a la clasicacin en las categoras
anteriores o en otras palabras, que la proporcin de unidades clasicadas en la categora A es la
misma en las dos poblaciones.
La probabilidad asociada a esta tabla ser:
p =
_
7
6
__
4
2
_
_
11
8
_ = 0, 25454
Para obtener tablas ms extremas que la actual, debemos tener en cuenta que el total de unidades
(N = 11) debe mantenerse, al igual que el total de unidades a favor (M = 7) y el de unidades
observadas (n = 8); es decir, debemos considerar las combinaciones que se pueden hacer con esta
tabla que conduzcan a una distribucin con ms desequilibrio, pero manteniendo los totales marginales
de la tabla anterior. En esta situacin, una tabla ms extrema que la inicial sera:
A B Sumas
Muestra 1 7 1 8
Muestra 2 0 3 3
Sumas 7 4 11
Y su probabilidad correspondiente viene dada por:
p =
_
7
4
__
4
1
_
_
11
8
_ = 0, 1212
Al obtener un 0 en una de las frecuencias de la tabla, ya hemos llegado a la situacin extrema.
No podemos obtener tablas con mayores desequilibrios que sta, ya que cualquier transformacin que
hagamos manteniendo los totales marginales sera una vuelta a la situacin anterior.
Por tanto el nivel crtico asociado a esta distribucin de frecuencias sera:
p = 0, 25454 + 0, 1212 = 0, 37574
si el contraste se considera de una sola cola o bien el doble de esta probabilidad si se plantease como
bilateral.
Parece claro que cuando la frecuencia ms pequea de la tabla es elevada, el nmero de tablas
transformadas ser alto y por tanto el proceso se complica. Sin embargo, algunos programas infor-
mticos nos resuelven este problema mediante sencillos algoritmos.
La regla de decisin del contraste de Fisher se establece en funcin del nivel crtico
(probabilidad exacta).
Cuando las frecuencias son elevadas debemos tener en cuenta que la distribucin
hipergeomtrica se aproxima por otros tipos de modelos, por lo cual sera preferible
utilizar tests alternativos.
Una variante de este test es la prueba de la mediana. En este caso las categoras
A y B representan los sucesos (, Me) y [Me, +) respectivamente, y la prueba
contrasta si las poblaciones son homogneas o no en cuanto a su tendencia central.
8.5.3.2. Contraste
2
de homogeneidad entre poblaciones
Este test permite una generalizacin, en cuanto a objetivos, de la prueba de Fisher.
Podemos contrastar la homogeneidad de dos poblaciones clasicadas en dos catego-
300
ras o, de forma ms general, r poblaciones, (X
1
, . . . , X
r
), clasicadas en s categoras
A
1
, . . . , A
s
mutuamente excluyentes. En denitiva, se trata de contrastar si el com-
portamiento de las componentes X
i
es homogneo sobre esas categoras.
Estas categoras suelen corresponderse con intervalos disjuntos L
0
L
1
, L
1
L
2
, ..., L
s1
L
s
que cubren el recorrido de las variables estudiadas.
Si denotamos por p
ij
la probabilidad de que la v.a. X
i
tome valores en la categora
A
j
(p
ij
= P(X
i
A
j
)), la hiptesis de homogeneidad se expresara:
H
0
: p
i1
= p
h1
, . . . , p
is
= p
hs
, i, h = 1, . . . , r
es decir, la probabilidad de cada categora es la misma en todas las variables y por
tanto tiene que coincidir con la marginal (p
j
= P(A
j
) = p
ij
, i = 1, . . . . , r); as pues,
para toda categora j, debe vericarse: H
0
: p
ij
= p
j
, i = 1, . . . . , r.
Para contrastar esta hiptesis se toma una m.a.s. de cada una de las variables
X
1
, . . . , X
r
con tamaos respectivos n
1
, . . . .n
r
. A partir de estas muestras se pretende
contrastar la hiptesis anterior. Una vez clasicadas las muestras con arreglo a las s
categoras anteriores, podemos resumir su informacin, en trminos de frecuencias, en
la siguiente tabla:
A
j
/X
i
Muestra X
1
. . . Muestra X
r
n
j
A
1
n
11
n
r1
n
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
A
S
n
1s
n
rs
n
s
Tam.muestra n
i
n
1
n
r
n
con las notaciones usuales empleadas en el test
2
de independencia.
El supuesto de homogeneidad H
0
: p
ij
= p
j
puede ser tambin enunciado como:
H
0
: n
ij
= n
i
p
j
, para cada categora j = 1, . . . . , s y cada muestra i = 1, . . . . , r.
Se trata de nuevo de un test de bondad de ajuste donde en cada una de las r s
casillas dispondremos de una frecuencia que puede ser observada n
ij
y una frecuencia
esperada n
i
p
j
,
La medida de discrepancia
2
viene denida por:
d
HOMOG
=
r
i=1
s
j=1
(n
ij
n
i
p
j
)
2
n
i
p
j
Si la probabilidad de cada categora es conocida, bajo la hiptesis nula, esta discre-
pancia puede aproximarse por una distribucin
2
con (r 1)s g.l.
Observemos que aqu el nmero de g.l. no es rs1, puesto que esta cantidad tiene algunas restric-
ciones ms. Ello se debe a que los tamaos de las r muestras, n
i
, vienen dados y tambin su suma,
301
n.
Como en general esas probabilidades resultarn desconocidas y ser necesario esti-
marlas a partir de la informacin muestral, debemos recurrir a los EMV: p
j
=
n
j
n
y
entonces la discrepancia tipicada asociada al test sera:
d
HOMOG
=
r
i=1
s
j=1
_
n
ij
n
i
n
j
n
_
2
n
i
n
j
n
que se distribuir asintticamente segn un modelo
2
con g.l. (r 1)(s 1). [Justi-
fquese el nmero de estos g.l.].
A partir de la informacin proporcionada por muestras concretas, podemos calcular
la discrepancia observada:
d
HOMOG
=
r
i=1
s
j=1
_
n
ij
n
i
n
j
n
_
2
n
i
n
j
n
que nos conduce a un nivel crtico p = P(d > d
/H
0
), en funcin del cual rechazare-
mos o no la hiptesis formulada.
Como se seal en el contraste de independencia, si para alguna casilla la frecuencia esperada
fuese inferior a 5 debemos reagrupar categoras hasta conseguir que todas las frecuencias esperadas
rebasen este lmite.
8.5.4. Contrastes de identidad de la poblacin a partir de muestras
independientes
En este epgrafe presentamos en primer lugar pruebas para contrastar la identidad
de la poblacin de la cual proceden dos m.a.s. independientes (Mann-Whitney, Wald-
Wolfowitz y Kolmogorov-Smirnov) y posteriormente describimos tests para r muestras
(Kruskal-Wallis).
Supongamos que disponemos de dos muestras particulares (x
1
, . . . , x
n
) e (y
1
, . . . , y
m
),
y estamos interesados en contrastar, a partir de esos datos, que las muestras provienen
de la misma poblacin, o lo que es equivalente, si denotamos por X e Y las poblaciones
originales y por F(x) y G(y) sus respectivas f.d., se tiene: H
0
: F(x) = G(y).
Los supuestos bsicos de estos contrastes son que las poblaciones de partida X e Y
son continuas y que las muestras son independientes.
8.5.4.1. Test de Mann-Whitney (M-W)
El test de Mann-Whitney permite contrastar si dos muestras independientes proce-
den de la misma poblacin. El procedimiento consiste en agrupar las dos muestras y
estudiar el rango de cada observacin en el total. Si las poblaciones de origen fuesen
distintas entonces se esperaran diferencias en la ordenacin, de forma que los valores
302
de una de las muestras seran sistemticamente ms elevados que los de la otra, y por
tanto se situaran en las colas de la serie ordenada por rangos.
El estadstico de contraste utilizado es:
U
X
= nm+
n(n + 1)
2
R
X
donde R
X
denota la suma de rangos de la muestra (x
1
, . . . , x
n
). Simtricamente, el
test podra plantearse en trminos de la muestra (y
1
, . . . , y
m
).
Si la hiptesis nula fuera cierta, las muestras estaran mezcladas en rango y por
tanto R
X
, nica v.a. en la expresin anterior, sera la suma de n nmeros naturales
en el conjunto 1, 2, . . . , n + m, con lo cual podramos calcular su valor esperado y
su varianza y en consecuencia los correspondientes al estadstico U
X
.
E (U
X
/H
0
) =
nm
2
; V ar (U
X
/H
0
) =
nm(n +m+ 1)
12
Bajo la hiptesis de coincidencia de poblaciones, los resultados del estadstico U
X
sern en general cercanos a su esperanza; por tanto, rechazaramos la hiptesis nula
cuando el valor U
X
fuese excesivamente alto o bajo.
Esta distribucin se encuentra tabulada para ciertos niveles de signicacin en fun-
cin de los cuales establecemos la regla de decisin del test.
Cuando los tamaos muestrales son elevados (al menos 10) y la hiptesis nula es cierta, pode-
mos utilizar una aproximacin normal con los parmetros sealados. Si por el contrario los tamaos
muestrales son bajos, entonces la distribucin exacta de U se encuentra tabulada, y a partir de ella po-
demos obtener para determinados niveles de signicacin los valores crticos para realizar el contraste.
A modo de ilustracin, supongamos que disponemos de dos muestras relativas a niveles de conta-
minacin diarios (partculas en suspensin, ug/m
3
N.) y deseamos contrastar si proceden de la misma
poblacin.
X 12 25 17 32 19
Y 18 13 16 15 24
Siguiendo el procedimiento de Mann-Whitney debemos estudiar conjuntamente ambas muestras,
examinando los rangos de cada observacin en el total:
Rangos X 1 9 5 10 7
Rangos Y 6 2 4 3 8
A partir de estos resultados se obtiene la suma de rangos R
X
= 32 que conduce al valor
U
X
= 5 5 +
5 6
2
32 = 8
Este resultado no diere mucho del valor esperado, E (U
X
/H
0
) = 12, 5 y por tanto no conduce al
rechazo de la hiptesis nula (en concreto, dado el pequeo tamao muestral, para obtener el nivel
crtico asociado a este valor deberamos acudir a la distribucin tabulada de la U, donde aparece
P(U
X
8) = 0, 21 y por tratarse de un contraste bilateral se obtendra p = 0, 42).
303
8.5.4.2. Test de Wald-Wolfowitz
El proceso seguido en el test de Wald-Wolfowitz es una mezcla de los utilizados en
el de Mann-Whitney (M-W) y el de rachas.
Dadas dos muestras aleatorias independientes de las poblaciones X e Y , sus obser-
vaciones se agrupan y se clasican por rangos, deniendo las categoras pertenecer a la
muestra (x
1
, . . . , x
n
) que representamos por 0 y pertenecer a la muestra (y
1
, . . . , y
m
)
que denotamos por 1. A continuacin observamos las rachas (R) de 0 y 1, cuyo nmero
oscilar entre 2 y n +m.
Si la poblacin de partida fuera la misma, los valores muestrales se encontraran
mezclados y las rachas seran mayores que un cierto lmite r
1
. En caso contrario, si
las muestras procedieran de poblaciones diferentes sera de esperar que el nmero
de rachas fuera reducido, observndose bloques de valores consecutivos de la misma
muestra.
Para determinar la regla de decisin del contraste y la distribucin de probabilidad
de las rachas remitimos al lector al contraste de rachas desarrollado en el epgrafe 8.3.
8.5.4.3. Test de Kolmogorov-Smirnov para dos muestras
Otra posibilidad para realizar el contraste de identidad de poblaciones es adaptar a
este caso el test de Kolmogorov-Smirnov (K-S) . La hiptesis nula sera la enunciada y
ahora calcularamos las funciones de distribucin muestrales para ambas muestras, de
modo que si la diferencia mxima entre ambas distribuciones es excesiva rechazaramos
la hiptesis de que las muestras procedan de la misma poblacin, y si por el contrario
las desviaciones son tolerables entonces podemos asumir la hiptesis de que no hay
discrepancias entre las poblaciones de partida.
De una forma ms operativa, ordenamos la primera muestra: x
1
< < x
n
y
obtenemos su distribucin muestral S
n,X
(x); a continuacin ordenamos la segunda
muestra y de nuevo calculamos su f.d. muestral S
m,Y
(x) (denotamos por x el recorrido
de ambas variables). Denimos entonces el estadstico de K-S:
D
n,m
= sup
<x<+
[S
n,X
(x) S
m,Y
(x)[
D
n,m
sera la mayor de las 2(n + m) discrepancias que obtendramos calculando
las desviaciones por la izquierda y por la derecha en cada uno de los n puntos de
discontinuidad de S
n,X
y los m de S
m,Y
. La distribucin del estadstico y la regla de
decisin del contraste coinciden con las desarrolladas para el test de K-S para una
muestra, que ha sido recogido en el apartado 8.3.
8.5.4.4. Prueba de Kruskal-Wallis para r muestras
La prueba de Kruskal-Wallis es una extensin del test de rangos y se utiliza para
contrastar la hiptesis nula de que las poblaciones de las que proceden r muestras
seleccionadas son idnticas.
304
Supongamos que se tienen r muestras
_
X
i
1
, . . . , X
i
n
i
_
, i = 1, . . . r, con tamaos
respectivos n
i
siendo
r
i=1
n
i
= n. Si reunimos todos los elementos muestrales en un
solo conjunto y ordenamos sus valores en forma creciente, podemos asignar a cada
uno de los elementos la posicin o rango que ocupa en el conjunto total.
Denotemos por R
j
la suma de los rangos correspondientes a la muestra j-sima. Si las
muestras procediesen de poblaciones idnticas (o si se quiere de la misma poblacin)
sera de esperar que todos los rangos tuviesen valores similares y en caso contrario el
resultado sera signicativo para rechazar la hiptesis de partida.
La discrepancia asociada a este test viene denida como:
d
KW
=
12
n(n + 1)
r
i=1
R
2
j
n
j
3(n + 1)
expresin que bajo la hiptesis nula sigue aproximadamente una distribucin
2
con
r-1 g.l.
Sobre muestras concretas calculamos el valor de la discrepancia observada, d
, que
permite determinar el nivel crtico p = P (d
KW
> d
KW
/H
0
) en funcin del cual se
establece la decisin del contraste.
En este contraste tenemos las mismas restricciones que en otras aplicaciones de la
2
: se exige que
el tamao de cada muestra n
j
sea mayor o igual que 5 ya que en otro caso habra que desarrollar un
modelo de probabilidad especco.
Entre las aplicaciones del contraste de Kruskal-Wallis resulta especialmente interesante, en el caso
de series temporales, el contraste de estacionalidad. En esta situacin la hiptesis nula es la no
existencia de estacionalidad, o equivalentemente, la identidad de las poblaciones correspondientes a
los diferentes subperodos considerados (meses, trimestres, etc.).
8.5.5. Contrastes de cambios sucesivos sobre una poblacin
El contraste que ahora planteamos resulta muy til en problemas socioeconmicos
donde se trata de estudiar si se han producido cambios en la distribucin de una
poblacin a lo largo del tiempo (por ejemplo, despus de que se hayan adoptado
algunas medidas de poltica econmica, o bien cuando trabajamos con datos de panel
para estudiar cambios en la intencin de voto del electorado o reacciones ante ciertos
acontecimientos).
8.5.5.1. Test de McNemar
Supongamos una poblacin que se puede clasicar en dos categoras A y B e ima-
ginemos que llevamos a cabo un seguimiento de una misma muestra en dos perodos
de tiempo t
1
y t
2
. Podemos clasicar la informacin muestral en una tabla del tipo:
Periodo t
1
/t
2
Categora A Categora B
Categora A n
A
n
AB
Categora B n
BA
n
B
305
donde n
A
representa las unidades que en el perodo t
1
se encontraban en la categora
A y en el perodo posterior t
2
mantienen la misma categora (no cambiaron de opinin);
n
B
indica la misma estabilidad respecto a la categora B, y en cambio n
AB
y n
BA
representan el nmero de unidades que han cambiado de situacin entre estos perodos.
Si la hiptesis que deseamos contrastar es la de estabilidad en la poblacin entre
estos perodos respecto a las categoras A y B, entonces n
AB
+ n
BA
debera ser una
cifra relativamente pequea; si por el contrario la hiptesis que estamos contrastando
no es la estabilidad, sino la aleatoriedad en los cambios (es decir, que estos no respon-
den a ninguna tendencia especial), entonces las frecuencias n
AB
y n
BA
deberan ser
magnitudes muy prximas.
El test de McNemar da respuesta a este segundo planteamiento. En este caso dis-
ponemos de unas frecuencias observadas de los cambios, y otras frecuencias tericas
que, por asumir que los cambios no tienen inuencia, vienen dadas por
n
AB
+n
BA
2
.
Comparando ambos tipos de frecuencias podemos proponer una discrepancia
2
:
d
M
=
_
n
AB
n
AB
+n
BA
2
_
2
n
AB
+n
BA
2
+
_
n
BA
n
AB
+n
BA
2
_
2
n
AB
+n
BA
2
=
(n
AB
n
BA
)
2
n
AB
+n
BA
que, bajo la hiptesis nula, se distribuye aproximadamente como una
2
con 1 g.l.
Para una buena aproximacin la frecuencia esperada debera ser mayor o igual que 5 y adems se
recomienda introducir la correccin de continuidad:
d
M
=
(|n
AB
n
BA
| 1)
2
n
AB
+n
BA
El resto del contraste consiste en construir la discrepancia observada d
y rechazar
o no la hiptesis nula en funcin el nivel crtico p = P(d
M
> d
M
/H
0
).
8.5.5.2. Prueba Q de Cochran
El test Q de Cochran es una extensin de la prueba anterior para el caso en que
consideremos r muestras. En esta situacin observamos N elementos o grupos du-
rante r perodos de tiempo t
1
, . . . , t
r
, y queremos comprobar si los cambios se han
debido nicamente al azar o por el contrario dichos cambios pueden atribuirse a otras
circunstancias.
La informacin muestral recoge el nmero de xitos, esto es, las veces que se ha
presentado cierta caracterstica sobre los elementos investigados. La hiptesis nula
establecera que las proporciones de xitos son idnticas en la distintas muestras,
presentndose nicamente variaciones aleatorias.
Si designamos por n
j
el nmero de xitos en la muestra j, por n
j
su promedio
306
n
j
=
r
j=1
n
j
r
y por n
i
el nmero total de xitos correspondientes al elemento o grupo i-simo, la
discrepancia viene dada por la expresin:
d
Q
=
r(r 1)
r
j=1
(n
j
n
j
)
2
r
N
i=1
n
i
i=1
n
2
i
que bajo la hiptesis nula sigue aproximadamente una distribucin
2
con r 1 g.l.
Consideremos a modo de ilustracin que observamos una muestra de 10 jvenes
activos en tres perodos de tiempo distintos, con la intencin de analizar si se han pro-
ducido cambios signicativos en su situacin laboral, que clasicamos en las categoras
ocupado y parado.
La informacin muestral aparece representada en la tabla siguiente, donde denota-
mos por 1 el xito (joven ocupado) y por 0 su complementario:
Elementos
1 2 3 4 5 6 7 8 9 10 n
j
Muestras
Muestra 1 1 1 1 0 1 1 1 1 1 1 0
Muestra 2 1 0 0 1 1 1 1 0 1 0 6
Muestra 3 1 1 1 0 0 1 1 1 1 0 7
n
i
3 2 2 1 2 3 3 2 3 1 22
n
2
i
9 4 4 1 4 9 9 4 9 1 54
La hiptesis nula sera que la proporcin de jvenes ocupados no ha cambiado en
los tres perodos de tiempo considerados y para su contraste utilizamos la expresin
de la discrepancia de Cochran, cuyo resultado es en este caso:
d
Q
=
3(3 1)
_
(9 7,
3)
2
+ (6 7,
3)
2
+ (7 7,
3)
2
(3) (22) 54
= 2,
3
valor que lleva asociado un nivel crtico p = P
_
2
2
> 2,
3/H
0
_
= 0, 3114 y por tanto
no resulta signicativo para rechazar la hiptesis planteada.
8.6. Anexo: Diseo de contrastes ptimos
A lo largo de este captulo nos hemos ocupado de los contrastes de hiptesis estads-
ticas desde una ptica eminentemente prctica. Sin embargo podemos estar seguros
de que los contrastes aplicados son adecuados? o, en otros trminos, es posible llegar
a disear tests ptimos para contrastar un supuesto determinado?
307
Este interrogante no tiene una respuesta nica, ya que sta depender de nuestras
condiciones de trabajo (hiptesis simples o compuestas, informacin poblacional dis-
ponible, ...). En cualquier caso, el diseo de contrastes adecuados debe tener en cuenta
no slo la hiptesis nula sino tambin su alternativa.
Para ilustrar hasta qu punto la consideracin de la alternativa afecta a nuestras conclusiones, ima-
ginemos que un investigador enuncia una hiptesis relativa a la proporcin de familias que atraviesan
dicultades econmicas: H
0
: p = 0, 2.
Si al seleccionar una muestra aleatoria simple de 100 familias se observa que 31 declaran tener
dicultades econmicas para llegar a n de mes, la proporcin muestral sera p = 0, 31 y el contraste
de la hiptesis nula se llevara a cabo calculando la discrepancia tipicada y el correspondiente nivel
crtico:
d
p
/H
0
=
0, 31 0, 2
_
(0,2)(0,8)
100
; p = P
_
_
p p
_
p(1p)
n
> 2, 75/H
0
_
_
= 0, 0059
Segn el planteamiento visto en el tema, esta probabilidad adopta un valor sucientemente bajo,
que permite calicar el resultado de "signicativo para rechazar". Sin embargo, hasta ahora la hi-
ptesis ha sido contrastada por s misma, sin tener en cuenta cul sera la alternativa al supuesto
planteado.
Supongamos ahora que el investigador considera como hiptesis alternativa, H
1
: p = 0, 15 nos
llevara el rechazo de la hiptesis nula p = 0, 2 a admitir como vlida la alternativa p = 0, 15? Parece
claro que la respuesta es negativa, ya que la discrepancia de la muestra respecto a la alternativa es
an mayor que la correspondiente a la hiptesis nula (se obtiene d
p
/H
1
= 4, 481, que lleva asociada
una probabilidad prcticamente nula: p = 0, 0000074; es decir, una muestra con un 31 % de familias
atravesando dicultades econmicas es poco verosmil si la proporcin poblacional es del 20 %, pero
an lo es menos bajo la alternativa p = 15 %).
As pues, en situaciones como la descrita es importante tener presente que la hiptesis nula no
se contrasta por s misma sino enfrentada a una alternativa. Por tanto, slo en la medida en que la
hiptesis alternativa explique la realidad observada con un mayor grado de probabilidad tendramos
motivos para rechazar la hiptesis nula.
Aplicando este razonamiento, se obtendra ahora el nivel crtico correspondiente a la cola de la
izquierda (en la direccin de la alternativa): p = P
_
d
p
< d
p
/H
0
_
= P (d
p
< 2, 75/H
0
) = 0, 9 que
llevara a no rechazar la hiptesis nula H
0
.
[Estdiese cul sera la conclusin en caso de considerar como alternativa H
1
: p = 0, 28]
Obsrvese que, si bien podra llevarse a cabo un planteamiento ms general del problema, para
una mayor claridad expositiva esta ilustracin considera dos nicos valores posibles en el espacio
paramtrico = {p = 0, 2 , p = 0, 15}.
J. Neyman y E.S. Pearson (1928, 1933) fueron los primeros en reconocer explcita-
mente la importancia de la hiptesis alternativa en el diseo de contrastes adecuados.
Ambos autores establecieron bases tericas slidas para la consideracin de la hipte-
sis alternativa, a partir de las cuales desarrollaron un nuevo enfoque en la teora del
contraste, con importantes rasgos diferenciales respecto a los contrastes de signica-
cin.
El contraste de hiptesis es una tcnica inferencial, que por tanto lleva inherente un
riesgo. Para cuanticar dicho riesgo, podemos examinar los posibles errores cometidos
al adoptar una conclusin sobre determinada hiptesis, tal y como describe la siguiente
308
tabla:
Es la hiptesis H
0
cierta?
SI NO
Rechazamos H
0
?
SI ERROR I
NO ERROR II
La tabla anterior recoge tanto las distintas situaciones poblacionales (la hiptesis
planteada puede ser cierta o falsa, pero nosotros siempre lo ignoraremos) como las
diferentes conclusiones de nuestro contraste (segn la evidencia muestral podramos
optar por rechazar la hiptesis o por no rechazarla). De las cuatro casillas posibles,
puede observarse que en dos de ellas (marcadas con guiones) la decisin ser acertada;
sin embargo existen dos posibilidades de error: el denominado error tipo I o error I
aparece cuando se rechaza una hiptesis que es cierta y el error tipo II o error II
consiste en no rechazar una hiptesis cuando sta es falsa.
La comparacin de los contrastes de hiptesis con los procesos judiciales nos llevara a denir el
error I como condenar a un inocente mientras que el error II sera equivalente a absolver a un
culpable.
Dado que en la prctica no podemos aspirar a conocer si la hiptesis planteada
era o no cierta tampoco podremos saber si hemos cometido alguno de los errores.
En cambio, s podemos estudiar sus correspondientes probabilidades, que aparecen
recogidas a continuacin:
Es la hiptesis H
0
cierta?
SI NO
Rechazamos H
0
?
SI P(error I) = 1
NO 1- P(error II) =
Las probabilidades recogidas en esta tabla corresponden a las decisiones correcta e
incorrecta bajo las distintas situaciones poblacionales. As, si la hiptesis planteada
resulta ser cierta, la probabilidad aparece asociada al error I, ya que sera la proba-
bilidad de que, siendo H
0
cierta, nuestra informacin muestral nos situase en la regin
crtica, llevndonos al rechazo de la hiptesis:
= P(error I) = P(Rechazar H
0
/H
0
) = P(T RC/H
0
)
Por su parte, la probabilidad del error II puede ser expresada como:
= P(error II) = P(No Rechazar H
0
/H
1
) = P(T / RC/H
1
)
Para ilustrar esta situacin supongamos que tenemos dos hiptesis simples: H
0
:
=
0
y H
1
: =
1
, siendo
1
>
0
, y que la regin de rechazo viene delimitada por
309
Figura 8.9.: Probabilidad de errores I y II
Figura 8.10.: Probabilidades de errores y Regiones Crticas
el valor crtico C. En esta situacin ambos tipos de error pueden ser representados
grcamente tal y como recoge la gura 8.9
Si las curvas representadas recogen las distribuciones de probabilidad T/H
0
y T/H
1
,
el rea sombreada representa la probabilidad de error tipo I, esto es, la probabilidad
de que T se site en la regin crtica (a la derecha de C) siendo H
0
cierta; por su
parte, el rea rayada representa la probabilidad de error tipo II, es decir, de que T se
site en la regin de aceptacin siendo H
1
cierta.
En la gura 8.10 puede observarse que si disminuimos la probabilidad de error
tipo I entonces estamos desplazando C hacia la derecha y por tanto aumentamos la
probabilidad tipo II y recprocamente.
Las grcas anteriores ponen de maniesto la relacin de sustitucin existente en-
tre las probabilidades de los dos tipos de error considerados, que impide disear un
procedimiento en el que podamos minimizar simultneamente ambas probabilidades
y por tanto una regin crtica ptima en sentido global.
Una solucin posible sera construir un ptimo condicionado; esto es, acotar una de
las probabilidades de error y elegir, entre todas las regiones crticas que veriquen la
restriccin anterior, aqulla que haga mnima la probabilidad del otro error.
310
Este tratamiento asimtrico de los errores exige establecer un criterio de prioridad
entre ellos. Si jamos una cota baja de probabilidad al error que sirve de restriccin,
al menos estaremos garantizando que la probabilidad de equivocarnos en ese sentido
nunca ser alta.
La probabilidad del otro error ser la menor posible, pero a priori no podemos saber
si ser alta o baja; as pues, parece que debemos orientar nuestro mayor nfasis hacia
el error de restriccin que sea nuestro error principal, actuando el otro como un error
secundario.
Aunque puede haber dudas conceptuales sobre la gravedad de ambos tipos de error, partiendo
del supuesto de inocencia de la hiptesis nula parece deseable buscar contrastes que minimicen la
probabilidad de condenar a un inocente, ya que este error I parece ser ms grave que el de absolver
a un culpable.
Otra ilustracin que clarica estos conceptos consiste en identicar la hiptesis nula con un alumno
que domina cierta asignatura (merece aprobar) siendo la informacin muestral el examen. En este
caso el error I equivale a suspender cuando merece aprobar mientras el error II aprobar cuando
merece suspender suele ser considerado menos grave.
No obstante, conviene aclarar que tambin existen casos en los que el error II resulta especialmente
preocupante, por lo cual debemos prestar atencin a su probabilidad . Este tipo de situaciones se
presentan en algunas pruebas de control estadstico de calidad y as parece claro que asumir como
vlidos un material de construccin o un medicamento que en realidad no cumplen los requisitos
necesarios (error tipo II) seria ms grave, por sus potenciales consecuencias, que rechazarlos cuando
s cumplen los requisitos de calidad (error tipo I).
Partiendo de la consideracin del error tipo I como riesgo prioritario del contraste, la
forma habitual de proceder para disear un buen test consiste en acotar la probabilidad
de este error () minimizando a continuacin la probabilidad de error tipo II (). Este
criterio de optimizacin fue desarrollado por Neyman y Pearson.
La probabilidad de error I se denomina nivel de signicacin o tamao del test, y
suele jarse en valores del 5 % o el 1 %. Por otra parte, minimizar la probabilidad del
error tipo II es equivalente a maximizar la de su complementario, que se denomina
potencia del test, y es la probabilidad de rechazar una hiptesis falsa, esto es:
P = 1 = P(Rechazar H
0
/H
1
) = P(T / RC/H
1
)
La potencia del test puede ser considerada como un indicador de eciencia del con-
traste.
Aunque hemos denotado por la probabilidad de error tipo II, esto es vlido para las situaciones
en las que la alternativa es simple. Sin embargo, cuando sta es compuesta, la probabilidad depende
del valor particular de la alternativa.
A modo de ilustracin consideremos la hiptesis nula H
0
: =
0
frente a la alternativa compuesta
H
1
: {
1
,
2
}, que podemos representar en la gura 8.11 para un nivel de signicacin .
Al igual que en guras anteriores, hemos sombreado en gris la probabilidad de error tipo I y en
rayado y con cuadrculas las probabilidades de error tipo II correspondientes a los dos valores de la
311
Figura 8.11.: Probabilidades de errores y Regiones Crticas
alternativa, que como vemos dependen de los valores adoptados por el parmetro bajo H
1
. Por este
motivo, la probabilidad de error tipo II ser una funcin que a cada valor de la alternativa le asigna
un valor().
Enlazando con el prrafo anterior, cuando la hiptesis alternativa es simple la potencia adoptar
un valor constante 1 ; sin embargo, para hiptesis H
1
compuestas la potencia ser una funcin
del parmetro que se denomina funcin de potencia P() = 1 ().
Si la hiptesis nula tambin fuera compuesta (H
0
:
0
), entonces para cada valor del parmetro
en esta hiptesis obtendramos una probabilidad de error tipo I, por lo cual denimos el nivel de
signicacin o tamao del test, , como la mayor de esta probabilidades (o en su defecto si sta no
existe, como el supremo de las mismas):
= sup
0
()
Una vez jado cierto nivel de signicacin para los contrastes, estamos interesados
en comparar los distintos tests que garanticen ese tamao o nivel de signicacin,
seleccionando los ms adecuados.
Denicin 8.2. Sean R y R
dos regiones crticas denidas para un contraste al

mismo nivel de signicacin o tamao .
Se dice que R es ms potente que R
para un valor de la alternativa si la potencia

de R supera a la de R
para ese valor.

Cuando la potencia de R supera a la de R
para todos los valores de la alternativa,

diremos que R es uniformemente ms potente que R
.
En el caso de que un test sea uniformemente ms potente que cualquier test de
su mismo tamao diremos que es uniformemente de mxima potencia (UMP)
para el nivel .
En los apartados que siguen estudiaremos las posibilidades de disear contrastes p-
timos o al menos adecuados para distintos tipos de hiptesis.
312
Hiptesis nula simple frente a alternativa simple. Lema de
Neyman-Pearson
Consideremos en primer lugar, el caso ms sencillo con hiptesis nula y alternativa
simples:
H
0
: =
0
H
1
: =
1
Sea X una poblacin con funcin de densidad f(x, ). Dada una m.a.s. (X
1
, . . . , X
n
)
sobre esta poblacin, denotaremos por L
0
= L(x
1
, . . . , x
n
,
0
) y L
1
= L(x
1
, . . . , x
n
,
1
)
las funciones de verosimilitud para los parmetros
0
y
1
respectivamente. En esta
situacin, la determinacin de regiones crticas ptimas queda resuelta mediante el
Lema de Neyman-Pearson cuyo enunciado es el siguiente:
Lema 8.1. (Neyman-Pearson) Si R es una regin crtica al nivel y existe una
constante k para la que se cumple:
L(x
1
, . . . , x
n
,
1
)
L(x
1
, . . . , x
n
,
0
)
k , si (x
1
, . . . , x
n
) R
L(x
1
, . . . , x
n
,
1
)
L(x
1
, . . . , x
n
,
0
)
< k , si (x
1
, . . . , x
n
) / R
entonces R es una regin crtica ptima al nivel para el contraste de las hiptesis
H
0
: =
0
y H
1
: =
1
.
El lema de Neyman-Pearson no proporciona un mtodo directo para la construccin
de test ptimos, pero a partir de los cocientes anteriores podemos buscar un valor de
k de manera que mediante algunas transformaciones lleguemos a encontrar la regin
crtica ptima.
Supongamos que X es una poblacin normal con media desconocida y varianza 1. Deseamos
encontrar un test ptimo para contrastar: H
0
: =
0
1
: =
1
. Supongamos
1
>
0
.
La funcin de verosimilitud bajo estas hiptesis vendr dada por:
L(x
1
, . . . , x
n
,
0
) =
_
1
2
_
n
e
1
2
n
i=1
(x
i
0
)
2
; L(x
1
, . . . , x
n
,
1
) =
_
1
2
_
n
e
1
2
n
i=1
(x
i
1
)
2
Partiendo del lema anterior, tenemos:
L(x
1
, . . . , x
n
,
1
)
L(x
1
, . . . , x
n
,
0
)
=
e
1
2
n
i=1
(x
i
1
)
2
e
1
2
n
i=1
(x
i
0
)
2
= e
1
2
n
i=1
(x
i
1
)
2
+
1
2
n
i=1
(x
i
0
)
2
k , si (x
1
, . . . , x
n
) R
Tomando logaritmos, podemos expresar la relacin anterior como:
313
1
2
n
i=1
(x
i
0
)
2
1
2
n
i=1
(x
i
1
)
2
ln k
desarrollando los cuadrados del primer miembro, resulta:
n
_
2
0
2
1
_
+ 2 (
1
0
)
n
i=1
x
i
2 ln k
con lo cual:
x =
n
i=1
x
i
n

2 ln k n
_
2
0
2
1
_
2n(
1
0
)
o equivalentemente:
d
x
=
x
0
1
n
_
2 ln k +n
_
2
1
2
0
_
2n(
1
0
)

0
_
=
n
_
2 ln k +n(
1
0
)
2
2n(
1
0
)
_
= C
En este caso, el lema de Neyman-Pearson nos dene la forma de la regin crtica ptima: recha-
zaremos la hiptesis nula cuando la discrepancia asociada al test sea mayor o igual que C; esto es,
R = {d
x
/d
x
C}.
Por otra parte, podemos calcular el valor de C a partir de la probabilidad de error tipo I. Fijado
un nivel de signicacin , se tiene: = P (d
x
C/ =
0
), la existencia de C garantiza la de k y
por tanto la regin crtica obtenida es ptima.
Observemos que la forma de la regin crtica (C, +) coincide con las que habamos construido
en los contrastes de signicacin anteriores.
En el ejemplo anterior, para obtener la mejor regin crtica no hemos tenido en cuenta el valor de
la alternativa. Esto se debe al tipo de hiptesis planteada.
Este enunciado es equivalente a considerar, en las condiciones anteriores, la discrepancia de mayor
potencia que viene dada para cada muestra posible por la expresin:
d
=
L(x
1
, . . . , x
n
,
1
)
L(x
1
, . . . , x
n
,
0
)
Cuando esta discrepancia adopte valores elevados, llegaremos a la conclusin de que el valor pro-
puesto no es sucientemente verosmil y en consecuencia rechazaremos la hiptesis nula.
Determinacin de tests uniformemente ms potentes
El lema de Neyman-Pearson no puede ser aplicado cuando las hiptesis son compuestas, supuesto
que resulta muy frecuente en la prctica.
En el caso de hiptesis compuestas no siempre existen test ptimos (por ejemplo, cuando la alter-
nativa es bilateral compuesta, en general no es posible determinar un test UMP). Sin embargo, para
el caso de hiptesis nula unilateral (del tipo H
0
:
0
o bien H
0
:
0
) es posible obtener test
ptimos; el mtodo para resolver estos contrastes de forma ptima consiste en imponer restricciones
al modelo probabilstico de la poblacin o bien sobre el estadstico o discrepancia asociada al test
(supuesto de suciencia, en algunos casos).
Determinadas distribuciones de probabilidad dan lugar a cocientes de verosimilitud montonos.
Denicin 8.3. Dada una funcin de verosimilitud L(x
1
, . . . , x
n
,
1
) se dice que tiene un cociente
de verosimilitudes montono en una funcin muestral T(X
1
, . . . , X
n
), si para para todo par de valores
del parmetro
1
<
2
, en los que la funcin de verosimilitud es distinta, se verica que el cociente
de verosimilitudes
L
2
L
1
es una funcin montona en T.
314
La monotona puede ser estricta o no, creciente o decreciente segn el comportamiento de la funcin
muestral.
Los modelos binomial, Poisson, normal, exponencial, Gamma, etc. verican la propiedad de que
su razn de verosimilitudes es montona (RVM).
Para los modelos que veriquen esta propiedad es vlido el siguiente resultado:
Corolario 8.1. Sea X una poblacin cuyo modelo de probabilidad verica la propiedad de RVM
(no decreciente), entonces la regin crtica: R = {t/t = T(x
1
, . . . , x
n
) C} es ptima (UMP) al
tamao para contrastar las hiptesis: H
0
:
0
1
: >
0
.
En el caso de que la monotona fuera no creciente la regin crtica vendra dada por: R = {t/t =
T(x
1
, . . . , x
n
) C}. De forma complementaria se construyen las regiones para las hiptesis: H
0
:
0
1
: <
0
.
El valor de C que determina la regin crtica puede obtenerse a partir de la probabilidad de error
tipo I.
Test de la razn de verosimilitudes
Otro mtodo importante para contrastar hiptesis estadsticas es el de la razn de
verosimilitudes, cuyo punto central es la funcin de verosimilitud del parmetro. Este
procedimiento consiste en calcular la funcin de verosimilitud cuando la hiptesis nula
es cierta (
0
) y tambin para todo el espacio paramtrico ( ), deniendo una
medida de discrepancia como el cociente entre ambas verosimilitudes.
El contraste de dos hiptesis H
0
y H
1
puede ser planteado mediante el principio
de la razn de verosimilitudes, consistente en comparar la mejor explicacin de la
informacin muestral dentro de la hiptesis H
0
con la mejor explicacin posible.
Consideremos un contraste del tipo:
H
0
:
0
H
1
:
1
Denicin 8.4. La razn de verosimilitudes viene dada por la expresin:
(x
1
, . . . , x
n
) =
sup
0
L(x
1
, . . . x
n
, )
sup
L(x
1
, . . . x
n
, )
cuyo numerador recoge la mejor explicacin de la realizacin muestral bajo la hiptesis
nula, mientras que el denominador es la mejor explicacin de la muestra.
La funcin anterior es una v.a. por serlo la muestra (y por tanto las verosimi-
litudes) que puede tomar valores entre 0 y 1 (es un cociente de dos magnitudes no
negativas donde el denominador es mayor o igual que el numerador).
En la medida que esta v.a. se aproxime a 0 querr indicar que la muestra es sucien-
temente inconsistente con la hiptesis nula para rechazar la hiptesis. El razonamiento
contrario se adoptara si su valor se aproximase a 1.
315
Para muestras grandes la distribucin de la variable 2 log sigue aproximadamen-
te un modelo
2
con r k g.l., donde r representa la dimensin de y k la de
0
. As
pues, jado un nivel de signicacin , podemos elegir
0
de forma que P( >
0
) = .
Este procedimiento nos permite abordar alguno de los tests anteriores de forma
sistemtica. As, el test de la razn de verosimilitudes para contrastar H
0
:
0
frente a H
1
:
1
consiste en calcular , que en ciertos casos contendr en su expre-
sin las discrepancias tipicadas asociadas a los contrastes particulares que estemos
realizando. En otros casos tendremos que aplicar la convergencia asinttica de para
obtener la regin crtica, consistente en rechazar H
0
si se cumple (x
1
, . . . , x
n
) < c
para una constante c; 0 < c < 1.
La constante c se determina, una vez jado el tamao del contraste , mediante la
expresin:
sup
0
P ((X
1
, . . . , X
n
) < c) =
y si ese valor c no existe entonces se elige el mayor valor de c tal que
P ((X
1
, . . . , X
n
) < c) = ;
0
316
Parte III.
Introduccin a la Econometra
317
9. Modelos economtricos. El modelo
lineal simple
La descripcin de la realidad econmica no es una tarea sencilla. Con el objetivo de
representar esa realidad de forma simplicada pero adecuada, los modelos econom-
tricos se han convertido en una herramienta habitual en el anlisis econmico.
Los modelos economtricos se basan en los modelos econmicos, a los que incorporan
un componente de incertidumbre o aleatoriedad que, como hemos visto en captulos
anteriores, es inherente al mbito socioeconmico y que habitualmente denotaremos
por u.
Consideremos a modo de ilustracin uno de los modelos econmicos ms emblemticos: la funcin
de Consumo de Keynes, que describe el comportamiento de los consumidores en funcin de la renta.
En su Teora General (1936), J. M. Keynes enuncia la ley psicolgica fundamental segn la cual
el consumo es funcin creciente de la renta C = f(R) y adems, un incremento de renta provocar
siempre un incremento de menor magnitud en el consumo: 0 <
dC
dR
< 1 donde
dC
dR
es la Propensin
Marginal al Consumo.
Adems, Keynes considera que una vez cubiertas las necesidades primarias se tender a acumular,
hecho que provoca que la proporcin de renta que se ahorra sea mayor a medida que la renta real
aumenta:
dC
dR
<
C
R
, es decir, la propensin marginal al consumo es menor que la propensin media.
A partir del modelo econmico anteriormente descrito podemos especicar el siguiente modelo
economtrico:
C =
1
+
2
R +u , 0 <
2
< 1 ,
1
> 0
Existe una amplia variedad de modelos economtricos, que llegan a alcanzar niveles
de complejidad y sosticacin muy elevados. Lgicamente, en este tema nos limitare-
mos a presentar un tratamiento introductorio, estudiando nicamente modelos lineales
uniecuacionales.
9.1. Los modelos economtricos
Los modelos economtricos recogen en una o varias ecuaciones las relaciones existen-
tes entre las magnitudes econmicas. Siguiendo un criterio de causalidad, las variables
que intervienen en los modelos se clasican en endgenas (aqullas que son explicadas
por el modelo) y predeterminadas que abarcan tanto las variables exgenas (deter-
minadas externamente al fenmeno que se modeliza) como las endgenas retardadas
(determinadas dentro del proceso pero en momentos anteriores al considerado).
Denicin 9.1. Denominamos modelo economtrico a una descripcin no determinis-
ta de la relacin entre varias magnitudes econmicas, mediante una expresin funcional
318
9. Modelos economtricos. El modelo lineal simple
concreta y variables especicadas en trminos estadsticos.
La parte funcional o sistemtica de los modelos economtricos trata de recoger las re-
laciones entre los agentes econmicos, bien sea mediante modelos de comportamiento
(funciones de consumo o ahorro), relaciones tecnolgicas (funciones de produccin),
relaciones institucionales (funciones de impuestos o gastos pblicos) ... En cualquie-
ra de los casos, estas relaciones se vern tambin afectadas por el factor humano y
por tanto existir un componente no determinista o aleatorio, que en ocasiones se
denomina tambin variable latente.
Como consecuencia, los modelos economtricos conllevan una extensin o amplia-
cin de los modelos econmicos, ya que incorporan junto a la componente terica o
sistemtica la presencia de incertidumbre o aleatoriedad.
Aunque no existe una divisin radical entre modelos econmicos y economtricos, parece claro que
estos ltimos exigen una especicacin funcional concreta que no siempre aparece en los modelos
econmicos, e incorporan adems un componente aleatorio. As pues, los modelos economtricos son
modelos econmicos que incluyen las especicaciones necesarias para su aplicacin emprica.
Un modelo economtrico para la magnitud Y viene dado por la expresin genrica
Y = f(X) +u, en la que se incluyen un componente sistemtico f(X), que recoge la
relacin causal entre las variables postulada por la teora econmica y una perturbacin
aleatoria u, sobre cuyo comportamiento solamente es posible establecer hiptesis.
La presencia de la perturbacin aleatoria u viene justicada por diversas vas: en pri-
mer lugar, recoge la aleatoriedad del comportamiento humano, por otra parte resume
la inuencia conjunta de distintos factores que no pueden ser incluidos explcitamente
en el modelo y adems recoge los errores de medida en la observacin de la variable Y .
En el modelo de Consumo Keynesiano introducido como ilustracin C =
1
+
2
R +u hemos in-
corporado explcitamente la perturbacin aleatoria u, ya que la relacin entre consumo y renta no es
exacta (Keynes enunci una relacin entre renta y consumo creciente por trmino medio). Adems, el
modelo aparece especicado en trminos lineales y los enunciados keynesianos sobre el consumo aut-
nomo y la propensin marginal al consumo se traducen en restricciones sobre los parmetros
1
y
2
.
Habitualmente se distinguen dentro de la modelizacin economtrica tres fases di-
ferenciadas. La primera de ellas es la especicacin y consiste en traducir el modelo
econmico terico, proponiendo una forma matemtica que establezca cierta relacin
causal, haciendo explcita la perturbacin aleatoria.
El punto de partida para la especicacin de un modelo es la teora econmica,
que facilita orientaciones sobre los tipos de relaciones existentes y la inuencia que
cada variable explicativa debe tener en la endgena. Sin embargo, raramente la teora
econmica informa sobre la forma funcional del modelo.
Habitualmente las relaciones se formulan, al menos en una primera versin, en trminos lineales o
bien linealizables que proporcionan una descripcin sencilla de la realidad. Ello no impide que puedan
elaborarse modelos ms complejos en cuanto a su formulacin o, si ello resulta necesario, sistemas de
varias ecuaciones que puedan describir ms adecuadamente las interrelaciones entre magnitudes.
319
Sin embargo, en este captulo nos limitaremos a analizar modelos economtricos lineales uniecua-
cionales.
Una vez que el modelo economtrico ha sido especicado se dispone de una expresin
genrica para las relaciones estudiadas. Sin embargo, en la prctica los modelos deben
ser aproximados a partir de la informacin estadstica relativa a las variables que
intervienen en los mismos, etapa que se denomina estimacin.
La estimacin de un modelo economtrico consiste en la obtencin de valores nu-
mricos para sus parmetros a partir de la informacin estadstica disponible. En esta
etapa resulta imprescindible la informacin sobre todas las variables que aparecen en
el modelo economtrico y la aplicacin de un mtodo de estimacin adecuado.
Los datos tienen una importancia primordial ya que condicionan las inferencias que realicemos
sobre los modelos economtricos. Sin embargo, contra lo que en un principio pudiera suponerse
no es imprescindible que nuestra informacin muestral constituya una verdadera muestra aleatoria
representativa de la poblacin estudiada. El criterio esencial para la seleccin de los datos es que
todas las observaciones procedan del mismo proceso econmico, es decir, que sigan idnticos patrones
de comportamiento.
Por lo que respecta al mtodo de estimacin, seguiremos los procedimientos estudiados en captu-
los anteriores (mnimos cuadrados y mxima verosimilitud), que garantizan buenas propiedades para
los estimadores de los parmetros.
La etapa de validacin -que tambin se denomina contraste o vericacin- tiene
por objetivo comprobar el grado de coherencia que el modelo presenta con la realidad
econmica de partida. Por ello, es imprescindible en esta fase establecer los criterios
para rechazar o aceptar un modelo.
La presencia de incoherencias o contradicciones se podra detectar tanto en los par-
metros estimados (que podran presentar signos distintos a los esperados o bien valores
no adaptados a la teora econmica), como en los supuestos o hiptesis asumidos. En
el caso de que aparezcan contradicciones entre nuestros resultados y las hiptesis ini-
ciales es necesario investigar cul es el fallo: podra tratarse de los datos utilizados
en la estimacin, la especicacin de partida, los mtodos de estimacin empleados e
incluso la teora econmica de la que partimos.
Aunque en principio las fases de especicacin, estimacin y contraste son secuenciales, es posible
retroceder o avanzar segn el resultado obtenido en cada etapa. De ah que no haya normas generales
sino que, como indica el esquema, sern en cada caso la propia dicultad del modelo y la informacin
disponible los factores que determinen la secuencia y el ritmo de nuestro trabajo.
Una vez que el modelo ha superado la etapa de validacin, estamos en condiciones
de llevar a cabo su implementacin prctica, que abarca tanto la realizacin de anlisis
estructurales como la elaboracin de predicciones.
320
9.2. El modelo de regresin lineal simple
Los modelos lineales ocupan un lugar central en los anlisis economtricos, tanto
por su inters metodolgico como por su aplicacin practica. En el supuesto ms sen-
cillo, estos modelos describen el comportamiento de cierta magnitud que denotamos
por Y (respuesta o variable dependiente) a partir de una nica causa X (variable
independiente). Para cada valor concreto de la causa, la expresin del modelo lineal
sera Y =
1
+
2
X, cuyos parmetros
1
y
2
tienen a menudo interesantes interpre-
taciones econmicas.
A modo de ejemplo, en el modelo de consumo keynesiano tendramos
1
= Consumo jo o autno-
mo y
2
= Propensin Marginal al Consumo (PMgC), parmetros ambos de gran inters conceptual.
Es importante sealar que la variable independiente X no tiene carcter aleatorio
sino que sus valores son conocidos. De este modo, para valores prejados de la variable
X (X
i
) estudiamos el comportamiento de Y , que s es una variable aleatoria sobre la
cual es posible denir la distribucin de probabilidad condicionada Y/X
i
.
En efecto, la incertidumbre presente en todo modelo economtrico hace que el valor Y/X
i
sea
aleatorio ya que para cada X
i
se obtiene Y =
1
+
2
X
i
+u
i
. As pues, los desarrollos del modelo
lineal se realizan asumiendo determinadas condiciones sobre el comportamiento probabilstico de la
perturbacin aleatoria u, hiptesis que pueden ser trasladadas a la variable dependiente Y.
Los supuestos bsicos del modelo lineal son los siguientes:
La perturbacin tiene esperanza nula: E(u
i
) = 0, i = 1, ..., n
Este primer supuesto resulta coherente con la propia naturaleza de la perturbacin aleatoria, ya que
si sta no tiene ningn componente sistemtico se espera que se compensen las perturbaciones posi-
tivas y negativas conduciendo a un valor esperado nulo.
Dicha hiptesis se traduce en la siguiente esperanza para la variable dependiente:
E(Y/X
i
) =
1
+
2
X
i
, i = 1,...,n
que garantiza que los valores esperados de Y se encuentran en la denominada lnea de
regresin poblacional E(Y/X
i
) =
1
+
2
X
i
La perturbacin tiene varianza constante: V ar(u
i
) = E
_
u
2
i
_
=
2
, i = 1, ..., n
Este supuesto, conocido como homoscedasticidad puede tambin ser expresado sobre
la variable dependiente:
V ar(Y/X
i
) = V ar(u
i
) =
2
, i = 1, ..., n
Las perturbaciones correspondientes a distintas observaciones no se encuentran
correlacionadas: Cov(u
i
, u
j
) = E(u
i
u
j
) = 0 , i ,= j
321
Teniendo en cuenta la relacin entre la perturbacin y la variable dependiente, esta hi-
ptesis de ausencia de correlacin puede tambin ser expresada sobre Y : Cov(Y/X
i
, Y/X
j
) =
0 , i ,= j
Junto a estos supuestos bsicos, se asume a menudo la hiptesis adicional de nor-
malidad:
Las perturbaciones aleatorias -y, como consecuencia, tambin la variable dependiente-
se distribuyen normalmente.
Este supuesto queda justicado teniendo en cuenta que las perturbaciones pueden ser generadas por
un conjunto numeroso de factores independientes entre s, cuya actuacin conjunta -segn los teore-
mas lmites- conduce a un modelo normal.
En una visin sinttica, los supuestos anteriormente recogidos permitirn armar
que las perturbaciones u son variables aleatorias incorreladas u
i
A(0, ) y, como
consecuencia, para cada valor jado de X se tiene Y/X
i
A(
1
+
2
X
i
, ).
Obsrvese que Y/X
i
se obtiene a partir de u
i
mediante un cambio de origen, ya que Y/X
i
=
1
+
2
X
i
+u
i
siendo
1
+
2
X
i
constante para cada observacin.
As pues, el modelo de Y ser normal siempre que lo sea u, y basta aplicar las propiedades de
esperanza y varianza ante cambios de origen para obtener:
E(Y/X
i
) =
1
+
2
X
i
+E(u
i
) =
1
+
2
X
i
V ar(Y/X
i
) = V ar(u
i
) =
2
Como veremos en los epgrafes que siguen, los supuestos anteriormente enuncia-
dos resultan fundamentales en los procesos de estimacin y contraste de los modelos
economtricos.
Supuestos bsicos
Sobre u Sobre Y
Esperanza E(u
i
) = 0, i = 1, . . . n E(Y/X
i
) =
1
+
2
X
i
, i
Varianza V ar(u
i
) =
2
, i = 1, . . . n V ar(Y/X
i
) =
2
, i
Correlacin Cov(u
i
, u
j
) = 0, i ,= j = 1, . . . n Cov(Y/X
i
, Y/X
j
) = 0, i ,= j
Modelo prob. u
i
A(0, ) Y/X
i
A (
1
+
2
X
i
, )
9.3. Estimacin de los parmetros de regresin
En el modelo lineal simple, la lnea de regresin poblacional viene dada por la recta
1
+
2
X
i
que recoge la componente sistemtica del modelo y asigna a cada valor con-
creto de la variable explicativa (X
i
) el correspondiente valor esperado de la variable
dependiente: E(Y/X
i
) =
1
+
2
X
i
.
322
Figura 9.1.: Modelo de regresin lineal
Esta lnea se corresponde con el lugar geomtrico de las esperanzas condicionadas de la variable
dependiente para cada una de las observaciones de la variable explicativa.
La diferencia entre los valores esperados recogidos por la lnea de regresin po-
blacional y los verdaderos valores de Y que en la realidad aparecen asociados a la
variable X es un error o perturbacin que, como ya hemos comentado, tiene carcter
aleatorio. As, tal y como recoge la gura 9.1 es posible representar grcamente los
componentes sistemtico
1
+
2
X
i
y aleatorio u
i
asociados a cada X
i
.
Dado que la lnea de regresin poblacional es la traduccin de un supuesto terico,
se trata de un valor poblacional desconocido que deber ser estimado con base en la
informacin muestral disponible. As, a partir de un conjunto de observaciones de las
variables estudiadas, se llegar a obtener la lnea de regresin muestral

Y
i
=

1
+

2
X
i
.
Esta lnea de regresin estimada depende directamente de la informacin disponi-
ble, y por tanto adoptar valores diferentes para cada muestra. Como consecuencia,
no disponemos de garantas referidas a cada recta concreta sino nicamente al proce-
dimiento de estimacin.
Los mtodos ms habituales para estimar las rectas de regresin son el mnimo
cuadrtico y el de mxima verosimilitud, que parten de losofas distintas: en el pri-
mer caso, minimizar la suma de errores cuadrticos y en el segundo, maximizar la
verosimilitud asociada a la muestra observada.
9.3.1. Estimacin mnimo cuadrtica
La lnea de regresin muestral

Y
i
=

1
+

2
X
i
proporciona un valor de la variable
dependiente que en general no coincide con el verdadero, surgiendo as un error de
estimacin que denotamos por u
i
. De este modo, al igual que hemos visto para la
poblacin, es posible separar cada valor Y
i
en sus componentes estimado y residual:
Y
i
=

1
+

2
X
i
+ u
i
La estimacin por mnimos cuadrados se propone obtener rectas de regresin pr-
323
ximas a la informacin real, esto es, que minimicen los errores de estimacin
u
i
= Y
i

Y
i
= Y
i
1
+

2
X
i
_
Aunque una primera opcin sera minimizar directamente la suma de los errores, debemos evitar
que stos se compensen, por lo cual acudimos a la agregacin de errores cuadrticos. Esta decisin
se debe a que la alternativa de agregar errores en valor absoluto presenta dicultades desde el punto
de vista matemtico (exigira resolver un problema de programacin lineal o bien un procedimiento
de clculo iterativo) y adems no garantiza la existencia de una solucin nica.
Denicin 9.2. Dado un modelo de regresin lineal simple Y =
1
+
2
X + u, los
estimadores mnimo cuadrticos (EMC) de los parmetros de regresin vienen dados
por las expresiones:
1
=

Y

2

X ,

2
=
S
XY
S
2
X
La deduccin de estas expresiones se lleva a cabo minimizando la suma de los cuadra-
dos de los residuos (SCR):
SCR =
n
i=1
u
2
i
=
n
i=1
_
Y
i

Y
i
_
2
=
n
i=1
_
Y
i
2
X
i
_
2
Aplicando la condicin necesaria de extremo se igualan a cero las derivadas prime-
ras de esta expresin respecto a los parmetros. Para llegar a las expresiones de los
estimadores, basta desarrollar el sistema de ecuaciones normales mnimo cuadrticas
SCR
1
= 0 2
n
i=1
_
Y
i
2
X
i
_
= 0
n
i=1
Y
i
=

1
n+
2
n
i=1
X
i

Y =

1
+
2

X
SCR
2
= 0 2
n
i=1
_
Y
i
2
X
i
_
X
i
= 0
n
i=1
Y
i
X
i
=

1
n
i=1
X
i
+

2
n
i=1
X
2
i
obtenindose de la primera ecuacin

1
=

Y

2

X y, mediante sustitucin de esta
expresin en la segunda ecuacin:

2
=
S
XY
S
2
X
. [Comprubese]
Los estimadores

1
y

2
representan respectivamente el trmino independiente (or-
denada en el origen) y la pendiente de la recta de regresin muestral. As,

1
estima
el valor esperado de Y para valores nulos de X mientras que

2
cuantica la variacin
esperada en Y ante aumentos unitarios de X .
Obsrvese que los estimadores mnimo cuadrticos no podran ser determinados en el caso de que
la dispersin de X fuese nula (es decir, si la muestra slo presenta un valor de X no tendra sentido
buscar una explicacin al comportamiento de Y en funcin de X).
324
Puede verse adems que la pendiente estimada presenta igual signo que la covarianza entre las va-
riables. Por lo que respecta al trmino independiente, en su estimacin intervienen tanto la pendiente
como los valores medios de las variables X e Y .
Proposicin 9.1. La estimacin mnimo-cuadrtica de un modelo lineal simple garantiza las
siguientes propiedades:
1.

n
i=1
u
i
= 0
2.

Y =

1
+

2

X
3.

n
i=1
X
i
u
i
= 0
4.

n
i=1
Y
i
u
i
= 0
La demostracin de estas propiedades es sencilla. As, para comprobar la nulidad de la suma de
los residuos de la regresin basta tener en cuenta la primera de las ecuaciones de mnimos cuadrados,
ya que se tiene:
n
i=1
u
i
=
n
i=1
_
Y
i
2
X
i
_
= 0
Partiendo de esta expresin se llega fcilmente a la segunda propiedad

Y =

1
+

2

X
De modo similar, se comprueba la tercera propiedad, ya que:
n
i=1
X
i
u
i
=
n
i=1
X
i
_
Y
i
2
X
i
_
= 0
donde hemos aplicado la segunda condicin mnimo-cuadrtica [Comprubese que se cumple
n
i=1
Y
i
u
i
=
0]
9.3.2. Estimacin mximo verosmil
El mtodo de mxima verosimilitud consiste en adoptar como estimadores aquellos
valores de los parmetros que maximizan la probabilidad o verosimilitud de la muestra
observada.
Denicin 9.3. Dado un modelo de regresin lineal simple Y =
1
+
2
X + u,
uN(0,), los estimadores mximo verosmiles (EMV) de los parmetros
1
,
2
y
vienen dados por las expresiones:
1
=

Y

2

X ,

2
=
S
XY
S
2
X
,
2
=
n
i=1
u
2
i
n
La obtencin de los estimadores mximo verosmiles (abreviadamente EMV) se lleva
a cabo a partir de la funcin de verosimilitud de la muestra que, asumiendo el supuesto
de normalidad, viene dada por la expresin:
L(y
1
, .y
n
,
1
,
2
,
2
) =
_
1
2
2
_
n
e
1
2
n
i=1
(y
i
2
x
i
)
2
2
325
Bajo el supuesto de normalidad para las perturbaciones se tiene u N(0, ) e Y N(
1
+
2
X, )
con lo cual la funcin de verosimilitud depende de tres parmetros:
1
,
2
y
2
y se obtiene mediante
producto de funciones de densidad:
L(y
1
, , y
n
,
1
,
2
,
2
) =
n
i=1
f(y
i,
,
1
,
2
,
2
) =
n
i=1
_
1
2
2
_
e
1
2
(y
i
2
x
i
)
2
2
=
=
_
1
2
2
_
n
e
1
2
n
i=1
(y
i
2
x
i
)
2
2
Para obtener los EMV de los parmetros esta funcin se transforma mediante logaritmos, y pos-
teriormente se aplican las correspondientes condiciones de extremo.
ln L(y
1
, , y
n
,
1
,
2
,
2
) =
n
2
ln(2)
n
2
ln(
2
)
1
2
n
i=1
(y
i
2
x
i
)
2
2
ln L(y
1
, , y
n
,
1
,
2
,
2
)
1
= 0
2
2
2
n
i=1
(y
i
2
x
i
) = 0
ln L(y
1
, , y
n
,
1
,
2
,
2
)
2
= 0
2
2
2
n
i=1
(y
i
2
x
i
) x
i
= 0
ln L(y
1
, , y
n
,
1
,
2
,
2
)
2
= 0
n
2
2
+
n
i=1
(y
i
2
x
i
)
2
2
4
= 0
Las dos primeras ecuaciones coinciden con las obtenidas anteriormente por el procedimiento
mnimo-cuadrtico. Como consecuencia, los EMV para los parmetros
1
y
2
son coincidentes con
los EMC anteriormente estudiados.
Por lo que se reere al estimador mximo verosmil de la varianza poblacional
2
, de la tercera
ecuacin se obtiene -una vez conocidos

1
y

2
- la expresin

2
=
n
i=1
u
2
i
n
que resulta sesgada, pero sin embargo es consistente.
9.3.3. Caractersticas y propiedades de los estimadores
Adems de ser adecuado desde los puntos de vista metodolgico y descriptivo, el
mtodo mnimo-cuadrtico garantiza tambin un buen comportamiento inferencial
para los estimadores.
As, puede demostrarse fcilmente que los estimadores mnimo cuadrticos son in-
sesgados, consistentes y ptimos, resultado este ltimo que viene recogido en el deno-
minado Teorema de Gauss-Markov.
Teorema 9.1. Dentro de la familia de estimadores lineales e insesgados, los Esti-
madores Mnimo Cuadrticos son ptimos en el sentido de que presentan mnima
varianza.
326
Este resultado, que tiene gran trascendencia en la modelizacin economtrica, per-
mite la designacin de los estimadores mnimo cuadrticos como ELIO (Estimadores
Lineales Insesgados Optimos) o, utilizando la terminologa inglesa, BLUE (Best Linear
Unbiased Estimators).
La demostracin de la ausencia de sesgo y del teorema de Gauss-Markov se recogen
en el epgrafe 10.1.2 para el modelo lineal mltiple.
En el teorema de Gauss-Markov se incluyen en realidad dos resultados distintos: el primero es el
enfoque de mnimos cuadrados debido a Gauss (1821) mientras que posteriormente Markov (1900)
plante el enfoque de mnima varianza.
Debemos sealar adems que la formulacin del teorema de Gauss-Markov se basa nicamente
en la dispersin de los estimadores pero no exige el supuesto de normalidad para las perturbaciones
aleatorias. No obstante, bajo el supuesto adicional de normalidad, es posible garantizar que los EMC
tienen varianza mnima para todas las clases de estimadores insesgados, sean stos lineales o no.
Este resultado, que se debe a Rao, es un postulado ms fuerte que el de Gauss-Markov porque, asu-
miendo condiciones ms restrictivas (normalidad), no se restringe a la clase de los estimadores lineales.
Las varianzas de los estimadores mnimo cuadrticos viene dadas por las siguientes
expresiones:
V ar
_
2
_
=
2
2
=

2
n
i=1
_
X
i

X
_
2
, V ar
_
1
_
=
2
1
=
2
n
i=1
X
2
i
n
n
i=1
_
X
i

X
_
2
donde la dispersin poblacional
2
es habitualmente desconocida y suele ser estimada
por la varianza muestral S
2
, dando lugar a las expresiones:
V ar
_
2
_
=
S
2
n
i=1
_
X
i

X
_
2
,

V ar
2
_
1
_
=
S
2
n
i=1
X
2
i
n
n
i=1
_
X
i

X
_
2
Denominaremos varianza muestral S
2
al estimador insesgado de la varianza poblacional que se
dene como cociente entre la suma de errores cuadrticos y los grados de libertad (n 2), es decir:
S
2
=
n
i=1
u
2
i
n 2
Como ya hemos visto, los grados de libertad se obtienen como diferencia entre el total de obser-
vaciones muestrales y las restricciones lineales impuestas (en este caso, antes de calcular la varianza
debemos conocer las estimaciones de los parmetros, que son dos restricciones).
En los anlisis de regresin en principio podramos considerar como medida adecuada la varianza
del error o bien su desviacin tpica. Sin embargo, resulta ms adecuado el error estndar de la regre-
sin, dado por una expresin similar, en la que aparece como denominador (n-2), que es el nmero
327
de grados de libertad.
En las propiedades comentadas hasta ahora no hemos utilizado el supuesto de nor-
malidad de las perturbaciones aleatorias. Sin embargo, esta hiptesis resulta necesaria
para obtener los estimadores mximo verosmiles y tambin para garantizar mode-
los probabilsticos asociados a los estimadores mnimo cuadrticos y a la dispersin
muestral.
Bajo la hiptesis de normalidad de la perturbacin la variable dependiente sigue
tambin una distribucin normal y ya hemos visto que los estimadores mximo veros-
miles de
1
y
2
coinciden con sus EMC. Adems, estos EMV son de mnima varianza
en la clase de los estimadores insesgados (sean stos lineales o no), resultado conocido
como Teorema de Rao que extiende las conclusiones de Gauss-Markov.
Por lo que se reere a la distribucin probabilstica de los estimadores, bajo la
hiptesis u A(0, ) es posible garantizar:
1
N(
1
,
1
)
2
N(
2
,
2
)
(n 2)S
2
2

2
n2
distribuciones en las que se basan las inferencias sobre el modelo lineal simple.
9.3.4. Construccin de las discrepancias tipicadas
A partir de los estimadores derivados anteriormente nos interesa llegar a obtener
discrepancias tipicadas con modelo probabilstico conocido, que permitan realizar
procesos inferenciales de estimacin y contraste.
Adoptamos como punto de partida los errores aleatorios cometidos en la estimacin
de un parmetro e
=

, cuyas caractersticas son:
E(e
) = 0 , V ar(e
) = V ar(
)
y podemos llevar a cabo una tipicacin:
d
=
e
E(e
obteniendo as una discrepancia tipicada con esperanza nula y dispersin unitaria.

Si adems asumimos el supuesto de normalidad para la perturbacin, los estimadores
son normales y la discrepancia sigue tambin un modelo normal d
A(0, 1).
No obstante, dado que en general se desconoce la varianza poblacional
2
debemos
trabajar con sus correspondientes estimaciones S
2
. En este caso, se llega a la expresin
de la discrepancia:
328
d
distribuida segn un modelo t de Student con n 2 grados de libertad.

Para comprobar que la expresin anterior sigue un modelo t de Student, basta tener presente el
resultado anterior:
N(0, 1)
y aplicar el teorema de Fisher que, gracias a la normalidad de la poblacin, garantiza
(n 2)S
2
2

2
n2
Como consecuencia, es posible construir una nueva discrepancia normalizada en los siguientes
trminos:
d
=
_
_
_
(n2)S
2
2
(n2)
=
Teniendo en cuenta que el numerador de esta expresin sigue una distribucin N(0, 1) y su deno-
minador -que es independiente de la variable anteriores el cociente de una chi-cuadrado entre sus
grados de libertad, queda justicado que la expresin de la discrepancia se distribuye en este caso
segn un modelo t de Student con n 2 g.l.
Las expresiones deducidas son aplicables tanto al estimador

2
del coeciente de regresin como
a

1
, estimador del trmino independiente
1
. De ah que en el apartado que sigue abordemos la
construccin de intervalos para un parmetro genrico .
Si nuestro objetivo es la dispersin poblacional
2
, la correspondiente discrepancia
debe ser construida a partir del error relativo
e
R
S
2
=
S
2
2
que, con slo multiplicar por los g.l. da lugar a la expresin
d
S
2 =
(n 2)S
2
2

2
n2
9.3.5. Obtencin de intervalos de conanza
Una vez conocidas las expresiones de las discrepancias es posible llevar a cabo
estimaciones de los parmetros que complementen las estimaciones puntuales con sus
correspondientes mrgenes de error.
Siguiendo la metodologa general para la construccin de intervalos de conanza
de comenzaremos por jar el nivel de conanza deseado 1 determinando a
329
continuacin constantes k tales que se cumpla:
P
_
k
_
= 1
A partir de dicha igualdad se determinan las siguientes expresiones aleatorias en las
que, con una probabilidad 1 , se encuentra el parmetro desconocido:
_
,

+k
_
con conocido y k calculado en las tablas A(0, 1)
_
kS
,

+kS
_
con desconocido y k calculado en las tablas t
n2
De modo similar, es posible construir intervalos de conanza para la varianza po-
blacional
2
con slo tener presente que la discrepancia vendr denida como:
d
S
2 =
(n 2)S
2
2

2
n2
.
Siguiendo el procedimiento general de construccin de intervalos, para un nivel de conanza dado
1 se buscan en tablas dos valores k
1
y k
2
tales que:
P
_
(n 2)S
2
2
< k
1
_
= P
_
(n 2)S
2
2
> k
2
_
=

2
Se llega as al siguiente intervalo de conanza para
2
:
_
(n 1)S
2
k
2
,
(n 1)S
2
k
1
_
9.4. Contrastes asociados a un modelo. Evaluacin de la
bondad
En numerosas ocasiones resulta interesante contrastar algn supuesto relativo a
los parmetros de un modelo, problema que abordaremos aplicando la metodologa
general del contraste de hiptesis, y utilizando como punto de partida las expresiones
deducidas para las discrepancias d
.
Cuando nuestro modelo se somete a un contraste estadstico resultan relevantes tan-
to los supuestos iniciales como las hiptesis que pretendemos contrastar, y a menudo
estn basadas en la teora econmica.
Entre los primeros es importante el supuesto de normalidad, que como hemos visto
condiciona la distribucin probabilstica de los estimadores y cuyo contraste aborda-
remos en un apartado posterior. Nos ocuparemos aqu de los contrastes referidos a
uno o varios parmetros del modelo, que admiten enunciados tanto unilaterales como
bilaterales.
De entre estos contrastes nos interesan especialmente los denominados tests bsicos
de signicacin, que se disean para validar el modelo planteado.
El contraste bsico aparece asociado a la pregunta afecta verdaderamente X a Y ?
330
y se plantea en los trminos siguientes:
H
0
:
2
= 0
H
1
:
2
,= 0
de modo que, si la hiptesis nula es cierta, el modelo propuesto no tiene sentido al ser
E(Y/X
i
) =
1
para cualquier posible valor de X.
Como consecuencia de este planteamiento, si la informacin muestral disponible
conduce al rechazo de la hiptesis nula, concluiremos que
2
es signicativamente
distinto de 0, con lo cual existe evidencia estadstica de que X afecta a Y , y en
consecuencia tiene sentido plantear un modelo Y =
1
+
2
X +u.
Si por el contrario se obtiene una informacin muestral que no resulta signicativa
para rechazar la hiptesis nula, entonces nuestro modelo no queda validado por la
informacin estadstica.
Obsrvese que el contraste bsico de signicacin va referido tan slo al coeciente
2
. Resulta
sencillo comprobar que la nulidad del parmetro
1
no invalidara el modelo sino que nicamente
supondra que la recta pasa por el origen.
Al igual que en cualquier contraste de signicacin, es posible optar por el proce-
dimiento clsico, determinando regiones crticas para el estimador

2
. No obstante,
resulta ms habitual el mtodo del nivel crtico, que parte de la observacin de la dis-
crepancia muestral d
para la que se calcula el nivel crtico p = P

_
>
/H
0
_
.
Si esta probabilidad es sucientemente baja, el resultado podr ser calicado de sig-
nicativo para rechazar.
Aunque parezca contradictorio, un resultado signicativo conlleva el rechazo de la hiptesis pero
en cambio valida el modelo propuesto. En este sentido, los contrastes bsicos de los modelos econo-
mtricos presentan rasgos diferenciales con respecto a los vistos hasta ahora, ya que plantean como
hiptesis la nulidad del coeciente
2
que acompaa a la variable explicativa, con la esperanza de
rechazar este supuesto.
Habitualmente este contraste se lleva a cabo mediante el estadstico t de Student, ya que la
dispersin poblacional es desconocida. Este es uno de los resultados bsicos proporcionados por
cualquier paquete economtrico y nos informa sobre si la muestra apoya la introduccin de la variable
X como explicativa.
Sin embargo, como ms adelante justicaremos, cuando el modelo incluye varias variables explica-
tivas debemos ser prudentes con la interpretacin de los resultados de los contrastes t, ya que stos
se ven inuidos por la existencia de correlacin lineal entre las variables explicativas. Este fenmeno
es lo que habitualmente se denomina problema de la multicolinealidad.
Un contraste de validez equivalente al anterior puede ser planteado a partir del
anlisis de la capacidad explicativa del modelo. En este caso, si para una misma
observacin consideramos su valor observado o verdadero (Y
i
), su valor promedio en
la muestra

Y y su valor estimado por la lnea de regresin (
Y
i
=

1
+

2
X
i
) se cumple:
_
Y
i

Y
_
=
_
Y
i

Y
_
+
_
Y
i

Y
i
_
331
Figura 9.2.: Anlisis de varianza
expresiones que, en trminos cuadrticos y agregadas, conducen al procedimiento de
anlisis de la varianza (ANOVA), basado en la igualdad:
n
i=1
_
Y
i

Y
_
2
=
n
i=1
_
Y
i

Y
_
2
+
n
i=1
_
Y
i

Y
i
_
2
donde el primer trmino recoge la dispersin respecto a la media de la variable obser-
vada (denominado variabilidad total, VT, o suma total de cuadrados), el sumando
n
i=1
_
Y
i

Y
_
2
=

2
2
n
i=1
_
X
i

X
_
2
es la dispersin respecto a la media de la variable estimada, (variabilidad explicada,
VE, o suma de cuadrados explicados) y por ltimo
n
i=1
_
Y
i

Y
i
_
2
=
n
i=1
u
2
i
es la variabilidad no explicada, VNE, o suma de cuadrados de los residuos.
La variabilidad explicada viene dada por la expresin
n
i=1
_
Y
i

Y
_
2
que recoge las desviaciones
cuadrticas de los valores estimados respecto a su media [Comprubese que se cumple

Y =

Y ].
Teniendo en cuenta adems la denicin

Y
i
=

1
+

2
X
i
se obtiene la expresin alternativa

2
2
n
i=1
(X
i

X)
2
que a menudo resulta ms cmoda.
La descomposicin anterior es utilizada habitualmente para construir el coeciente
de determinacin R
2
que se dene como la proporcin de la variacin total de Y que
332
viene explicada por el modelo:
R
2
=
n
i=1
_
Y
i

Y
_
2
n
i=1
_
Y
i

Y
_
2
= 1
n
i=1
u
2
i
n
i=1
_
Y
i

Y
_
2
Este indicador adopta valores comprendidos entre 0 y 1, y su resultado aumenta
con la bondad o capacidad explicativa del modelo.
Para los modelos lineales simples, el coeciente de determinacin coincide con el cuadrado del
coeciente de correlacin lineal, ya que se cumple:
R
2
=
n
i=1
_
Y
i

Y
_
2
n
i=1
_
Y
i

Y
_
2
=

2
2
n
i=1
_
X
i

X
_
2
n
i=1
_
Y
i

Y
_
2
=
_
S
XY
S
2
X
_
2
S
2
X
S
2
Y
=
_
S
XY
S
X
S
Y
_
2
= r
2
XY
Adems de su interpretacin como proporcin de la variacin de Y que es explicada
por el modelo es necesario tener presente que el coeciente de determinacin R
2
viene
afectado por la naturaleza del modelo estudiado. As, es habitual obtener valores
elevados del coeciente en modelos estimados a partir de datos de serie temporal, ya
que la existencia de tendencia puede hacer que las variables investigadas evolucionen
en paralelo. Por el contrario, cuando los modelos se estiman a partir de datos de corte
transversal los coecientes de determinacin adoptan valores considerablemente ms
bajos.
Podemos ahora plantearnos cmo sera posible utilizar la expresin anterior del
anlisis de la varianza para contrastar la hiptesis nula H
0
:
2
= 0. En principio,
bajo dicho supuesto parece lgico esperar que el estimador

2
, y como consecuencia
tambin la variabilidad explicada, adopten valores bajos.
La expresin utilizada para llevar a cabo el contraste de validez del modelo a partir
de informacin muestral se basa en la comparacin por cociente entre las sumas de
cuadrados explicados y residuales, es decir:
2
2
n
i=1
_
X
i

X
_
2
n
i=1
u
2
i
expresin que, debidamente tipicada (dividiendo el denominador entre sus grados de
libertad n2) conduce, bajo la hiptesis nula, a una discrepancia con distribucin F
de Snedecor:
2
2
n
i=1
_
X
i

X
_
2
S
2
F
1
n2
El contraste se llevar a cabo calculando el valor muestral de esta discrepancia y su
correspondiente nivel crtico p. En el caso de que ste adopte un valor sucientemente
333
bajo rechazaremos la hiptesis de nulidad de
2
y por tanto validaremos nuestro mo-
delo.
Para la deduccin de esta distribucin debemos tener en cuenta que bajo H
0
el estimador presenta
una distribucin

2
N
_
2
,
2
_
y como consecuencia:
2
=
n
i=1
(X
i
X)
2
N(0, 1)
expresin que elevada al cuadrado seguir un modelo chi-cuadrado:
2
2
n
i=1
(X
i

X)
2
2

2
1
Utilizando adems el resultado
(n 2)S
2
2

2
n2
y teniendo en cuenta la independencia entre ambas expresiones, es posible denir una F de Snedecor
con grados de libertad 1 en el numerador y n 2 en el denominador:
2
2
n
i=1
(X
i
X)
2
2
(n2)S
2
(n2)
2
=
2
2
n
i=1
(X
i

X)
2
S
2
F
1
n2
Como hemos visto en el captulo 6, cualquier modelo F de Snedecor con un solo grado de libertad
en el denominador puede ser expresado como el cuadrado de una t de Student con grados de libertad
los del denominador. Como consecuencia de esta propiedad, el estadstico F denido coincidir con
el cuadrado de la t de Student utilizado en los contrastes individuales, relacin que garantiza la
coherencia de resultados entre ambos tipos de contrastes.
Adems de los tests bsicos, puede resultar interesante llevar a cabo otros contrastes
para los parmetros, que en general traducirn restricciones impuestas por la teora
econmica o bien resultados obtenidos en investigaciones previas.
As, por ejemplo, segn la ley psicolgica fundamental de la teora keynesiana, la propensin
marginal al Consumo debe ser no superior a la unidad, de modo que sobre el modelo C =
1
+
2
R
sera interesante contrastar H
0
:
2
1 frente a H
1
:
2
> 1.
De modo similar, la teora econmica dene funciones de demanda con pendiente negativa, de modo
que sobre un modelo de demanda C =
1
+
2
P deberamos contrastar la hiptesis H
0
:
2
0 frente
a H
1
:
2
> 0.
Por otra parte, si en estudios previos sobre la poblacin que analizamos se ha estimado un gasto jo
en alimentacin de 80 unidades monetarias, podramos someter a contraste este valor del parmetro,
planteando H
0
:
1
= 80 frente a H
1
:
1
= 80.
9.5. Prediccin
Gran parte de los modelos economtricos tienen por objetivo la realizacin de pre-
dicciones. Una vez que el modelo ya ha sido validado, para realizar predicciones basta
334
Figura 9.3.: Prediccin
con sustituir el valor de la variable explicativa X
0
en el modelo estimado:
Y
0
=

1
+

2
X
0
Esta prediccin es una variable aleatoria con las siguientes caractersticas:
E
_
Y
0
_
= E
_
1
+

2
X
0
_
=
1
+
2
X
0
= E (Y/X
0
)
V ar
_
Y
0
_
= V ar
_
1
+

2
X
0
_
=
2
_
_
_
_
1
n
+
(X
0

X)
2
n
i=1
(X
i

X)
2
_
_
_
_
Dado que la prediccin

Y
0
es una aproximacin del verdadero valor Y
0
, debemos
considerar el error de prediccin e
Y
0
= Y
0

Y
0
que puede ser expresado como:
e
Y
0
= Y
0

Y
0
= (Y
0
E(Y/X
0
)) +
_
E(Y/X
0
)

Y
0
_
Esta descomposicin, que aparece recogida grcamente en la gura siguiente, iden-
tica dos componentes en el error de prediccin: uno de ellos se debe a la propia
dispersin poblacional (u
0
= Y
0
(Y/X
0
)), y viene representado grcamente por la
distancia del punto a la recta de regresin poblacional, mientras el otro componente
es de carcter muestral (E(Y/X
0
)

Y
0
), y se corresponde con la distancia entre la
recta de regresin poblacional y la estimada en el punto considerado.
Segn jemos nuestra atencin en el error total de prediccin o slo en el componente
muestral, podemos construir diferentes bandas de conanza para la prediccin, cuyos
rasgos se recogen en la siguiente tabla:
335
Prediccin Error de prediccin Discrepancia tipicada IC
Para Y
0
Total
d
Y
0
Y
0
=
Y
0
Y
0
S
Y
0
Y
0
t
n2

Y
0
kS
Y
0
Y
0
e
Y
0
= Y
0

Y
0
Para Muestral
d
Y
0
=
E(Y/X
0
)
Y
0
S
Y
0
t
n2

Y
0
kS
Y
0
E(Y/X
0
)
_
E(Y/X
i
)

Y
0
_
En la primera de las situaciones el objetivo de la prediccin es el valor verdadero Y
0
(que aparece
en la nube de puntos) con lo cual el error de prediccin presenta las dos componentes muestral y
poblacional. Como consecuencia se tiene:
E
_
e
Y
0
_
= E(Y
0
) E
_
Y
0
_
= 0
V ar(e
Y
0
) = V ar
_
Y
0

Y
0
_
= V ar(Y
0
) +V ar
_
Y
0
_
=
2
_
1 +
1
n
+
(X
0

X)
2
n
i=1
(X
i

X)
2
_
si bien, al ser en general
2
desconocida, esta ltima expresin debe ser estimada mediante:
S
Y
0
Y
0
= S
2
_
1 +
1
n
+
(X
0

X)
2
n
i=1
(X
i

X)
2
_
As pues, se obtiene el siguiente intervalo de conanza para Y
0
:
_
Y
0
kS
Y
0
Y
0
,

Y
0
+kS
Y
0
Y
0
_
donde k se obtiene en tablas de la distribucin t de Student con n 2 g.l. para el nivel de conanza
jado.
Si en cambio deseamos construir bandas de conanza para el valor esperado E(Y/X
0
) estamos
considerando tan slo el error muestral, para el cual se tiene:
E
_
E(Y/X
0
)

Y
0
_
= 0
V ar
_
E(Y/X
0
)

Y
0
_
= V ar
_
Y
0
_
=
2
_
_
_
_
1
n
+
(X
0

X)
2
n
i=1
(X
i

X)
2
_
_
_
_
Para la construccin de intervalos esta varianza se aproxima utilizando la informacin muestral y
la expresin del IC para E(Y/X
0
) ser entonces:
_
Y
0
kS
Y
0
,

Y
0
+kS
Y
0
_
En la prctica resulta habitual obtener predicciones y bandas de conanza para
el valor esperado. As, en el ejemplo de la funcin de consumo keynesiana nuestro
objetivo no sera predecir el consumo de una familia concreta, sino predecir el consumo
esperado para las familias que perciben una renta determinada X
0
.
336
10. El modelo lineal mltiple
Con frecuencia la especicacin de un modelo resulta ms realista si consideramos
numerosas variables explicativas (de hecho, ya hemos comentado que raramente se
podr aglutinar en una variable explicativa nica todas las posibles causas de cierto
efecto). Por ello, la extensin natural del modelo de regresin lineal simple analizado
en el epgrafe anterior ser el modelo de regresin lineal mltiple.
Consideraremos una especicacin lineal del tipo:
Y =
1
+
2
X
2
+ +
k
X
k
+u
en la que aparecen k parmetros (
1
,
2
, . . . ,
k
) y k 1 variables explicativas, que
designamos por X
2
, . . . , X
k
.
Por lo que se reere a u, como ya hemos visto anteriormente es una perturbacin
aleatoria originada por mltiples causas irrelevantes que, al actuar conjuntamente,
tienen un efecto no despreciable. Por tanto, u es una v.a. no observable, y como con-
secuencia tambin el regresando Y es una variable aleatoria.
Una expresin ms genrica sera Y =
1
X
1
+
2
X
2
+ +
k
X
k
+ u, que conduce a la anterior
si asumimos la existencia de un trmino independiente, esto es, X
1
= 1.
Nuestro objetivo es aproximar los k parmetros que representan la relacin existente
entre las variables a partir de informacin muestral sobre las mismas. En concreto,
asumimos que disponemos de una muestra de tamao n, que nos conduce al sistema
de ecuaciones:
Y
1
=
1
+
2
X
21
+ +
k
X
k1
+u
1
Y
2
=
1
+
2
X
22
+ +
k
X
k2
+u
2
.
.
.
.
.
.

.
.
.
Y
n
=
1
+
2
X
2n
+ +
k
X
kn
+u
n
cuya expresin matricial es:
y = X +u (10.1)
donde:
y =
_
_
_
_
_
Y
1
Y
2
.
.
.
Y
n
_
_
_
_
_
; X =
_
_
_
_
_
1 X
21
X
k1
1 X
22
X
k2
.
.
.
.
.
.
.
.
.
.
.
.
1 X
2n
X
kn
_
_
_
_
_
; =
_
_
_
_
_
2
.
.
.
k
_
_
_
_
_
; u =
_
_
_
_
_
u
1
u
2
.
.
.
u
n
_
_
_
_
_
Esta notacin condensada resulta ms operativa cuando se trabaja con un modelo
337
general, por lo cual ser la que adoptemos a partir de ahora.
10.1. Estimacin
El modelo genrico anteriormente introducido se denomina modelo lineal mltiple,
y su estudio se lleva a cabo asumiendo ciertas hiptesis de trabajo que explicitaremos
a continuacin. No todas las hiptesis tienen el mismo carcter ni resultan igualmente
restrictivas en la prctica. La ms genrica de todas es la referida a la forma funcional
del modelo, respecto a la que se asume la linealidad.
La expresin Y = X +u conecta la variable dependiente (regresando) con las variables expli-
cativas (regresores) y la perturbacin mediante una relacin lineal, y es equivalente al supuesto de
linealidad en los parmetros.
Por lo que se reere a la perturbacin aleatoria, se asumen los siguientes supuestos,
anlogos a los vistos para el modelo simple:
La perturbacin u es una v.a. no observable de esperanza nula: E(u) = 0
Esta hiptesis, que no es contrastable, equivale a admitir que los efectos de las variables
incluidas en el trmino de perturbacin tienden a compensarse por trmino medio. Incluso en
el caso de que los efectos no se compensasen exactamente y se obtuviesen valores esperados
no nulos, stos podran ser acumulados en el trmino constante del modelo de regresin, con
lo cual la hiptesis no plantea problemas.
La matriz de varianzas-covarianzas de la perturbacin viene dada por la expre-
sin:
Cov(u) = E(uu
) =
2
I
n
Esta hiptesis recoge dos supuestos ya vistos en el caso simple: la homoscedasticidad y la au-
sencia de correlacin entre las perturbaciones. El primero de ellos exige que las perturbaciones
aleatorias presenten varianza constante:
V ar(u
i
) = E(u
2
i
) =
2
. , i = 1, ..., n
mientras que la ausencia de correlacin entre las perturbaciones exige:
Cov(u
i
, u
j
) = E(u
i
u
j
) = 0 , i = j
As pues, la matriz de varianzas-covarianzas de las perturbaciones puede ser expresada como:
Cov(u) = E(uu
) =
_
_
_
_
_
E(u
2
1
) E(u
1
u
2
) E(u
1
u
n
)
E(u
2
u
1
) E(u
2
2
) E(u
2
u
n
)
.
.
.
.
.
.
.
.
.
.
.
.
E(u
n
u
1
) E(u
n
u
2
) E(u
2
n
)
_
_
_
_
_
=
_
_
_
_
_
2
0 0
0
2
0
.
.
.
.
.
.
.
.
.
.
.
.
0 0
2
_
_
_
_
_
=
2
I
n
338
Las hiptesis de homoscedasticidad y de ausencia de correlacin pueden ser contrastadas
a partir de los residuos mnimo cuadrticos y, como veremos en un apartado posterior, su
incumplimiento origina algunos problemas en el modelo de regresin.
La hiptesis de homoscedasticidad puede no cumplirse cuando se trabaja con datos de corte
transversal, en cuyo caso las perturbaciones se denominan heteroscedsticas. Por su parte, el
supuesto de ausencia de correlacin entre las perturbaciones resulta especialmente restrictivo
cuando trabajamos con datos en serie temporal, ya que a menudo la perturbacin aleatoria
asociada a un perodo t puede estar correlacionada con la correspondiente al perodo anterior
t 1.
En ocasiones se admite un supuesto adicional para el vector de perturbaciones
aleatorias: la distribucin normal multivariante. Esta hiptesis parece justicada
si tenemos en cuenta la heterogeneidad de factores que contribuyen a generar el
error aleatorio y que se pueden suponer independientes entre s, haciendo posible
la aplicacin del TCL.
Podemos tambin realizar supuestos sobre los regresores, para los cuales se asume:
La matriz de regresores X es ja, es decir, adopta los mismos valores para dis-
tintas muestras. Esta hiptesis de regresores no estocsticos, que es admisible
para las ciencias experimentales, puede sin embargo resultar restrictiva en cien-
cias sociales, ya que los datos se obtienen habitualmente mediante encuestas y
vienen afectados por numerosas fuentes de error.
En el caso de que los regresores tuvieran carcter estocstico, el efecto sobre el modelo no
sera grave siempre que los regresores no se encontrasen correlacionados con la perturbacin
aleatoria, supuesto que puede ser contrastado mediante el test de Hausman.
La matriz de regresores tiene rango k, esto es, (X) = k. Dado que la matriz X
tiene k columnas (tantas como parmetros) y n las (observaciones muestrales),
esta hiptesis resume dos supuestos: por una parte, la informacin estadstica
disponible sobre el conjunto de variables observables debe ser sucientemente
amplia para llevar a cabo la solucin del modelo. As pues, el nmero de datos
(n) debe ser superior al de parmetros del modelo (k). Por otra parte, las co-
lumnas de la matriz X deben ser linealmente independientes, es decir, no debe
existir relacin lineal exacta entre los regresores del modelo.
En el caso de que existiera relacin lineal entre algn subconjunto de regresores, el rango de
X sera inferior a k y por tanto, como veremos ms adelante, no sera posible determinar los
estimadores del modelo. En la prctica no suelen presentarse relaciones lineales exactas entre
las variables explicativas, pero en cambio s resulta frecuente un cierto grado de relacin lineal
entre los regresores.
Por ltimo, podemos especicar una hiptesis referida a los parmetros:
es un vector jo.
339
Este supuesto, que puede ser contrastado, equivale a asumir la existencia de una es-
tructura nica vlida para todo el perodo de observacin y el horizonte de prediccin
del fenmeno estudiado, y resulta de gran utilidad.
En sntesis, el modelo bsico de regresin lineal puede ser descrito mediante las
siguientes expresiones:
y = X +u
E(u) = 0
E(uu
) =
2
I
n
(X) = k < n
10.1.1. Estimadores mnimo cuadrticos y mximo verosmiles
Denicin 10.1. Dado un modelo lineal y = X +u, u N
_
0,
2
I
n
_
, la estima-
cin mnimo cuadrtica (MC) del vector de parmetros coincide con su estimacin
mximo verosmil (MV) y ambas vienen dadas por la expresin:
= (X
X)
1
X
y
La obtencin de los estimadores mnimo cuadrticos ordinarios (MCO) en el modelo
bsico es anloga a la ya vista para los modelos simples, esto es, parte de la minimi-
zacin de la expresin
n
i=1
u
2
i
que en notacin matricial viene dada por:
u
u =
_
y X
_
y X
_
= y
y y
= y
y 2
y +

expresin en la que hemos tenido en cuenta que

y = y
. Exigiendo a esta
expresin la condicin necesaria de mnimo, se obtiene el vector de estimadores mnimo
cuadrticos como:
= (X
X)
1
X
y
Para la determinacin de este vector se iguala a cero la primera derivada:
u
_
y
y 2
y +

= 0 2X
y + 2X
= 0

= (X
X)
1
X
y
donde hemos tenido en cuenta la expresin de las derivadas de formas lineales y cuadrticas
340
respecto a un vector:
= X
y ,

= 2X
La obtencin de los estimadores mximo verosmiles (MV) se lleva a cabo partiendo

de la funcin de verosimilitud que, bajo el supuesto de normalidad (u A(0,
2
I) , y A(X,
2
I)),
puede expresarse matricialmente como sigue:
L(y,
2
, ) =
1
(2
2
)
n
2
e
1
2
2
[(yX)
(yX)]
y conduce a las expresiones:
= (X
X)
1
X
y ,
2
=
u
u
n
En primer lugar, expresamos la funcin de verosimilitud como:
L(y,
2
, ) = (2)
n
2
_
2
_
n
2
e
1
2
2
[(yX)
(yX)]
Para llegar a estos estimadores efectuamos una transformacin logartmica:
ln L(y, ,
2
) =
n
2
ln(2)
n
2
ln(
2
)
1
2
2
(y X)
(y X)
aplicando a continuacin las condiciones de extremo:
ln L
=
1
2
2
(2X
y + 2X
X) = 0 X
X = X
y

= (X
X)X
y
Sustituyendo ahora el EMC de se tiene para la varianza:
ln L
2
=
n
2
2
+
(y X
(y X
)
2
4
= 0
u
u
2
4
=
n
2
2

2
=
u
u
n
Proposicin 10.1. Dado un modelo y = X +u los estimadores

= (X
X)
1
X
y cumplen un
serie de propiedades (similares a las vistas en el modelo lineal simple):
La suma de los residuos es nula

n
i=1
u
i
= 0 . Como consecuencia puede armarse que la
media de las observaciones coincide con la media de las estimaciones:

Y =

Y
El hiperplano de regresin pasa por el punto
_
X
2
, ,

X
k
_
denominado "centro de gravedad".
Estas dos primeras propiedades exigen que la especicacin de la regresin contenga un trmino
independiente.
Los momentos de segundo orden entre los regresores y los residuos son nulos: X
u = 0.
Los momentos de segundo orden entre y y los residuos son nulos, esto es: y
u = 0.
10.1.2. Propiedades y caractersticas de los estimadores
Los estimadores mnimo cuadrticos y mximo verosmiles de los parmetros del
modelo de regresin lineal resultan adecuados ya que son insesgados, consistentes y
341
de mnima varianza dentro de la clase de los estimadores lineales insesgados.
Los estimadores MCO pueden ser expresados como combinacin lineal de y:

= Ay , siendo
A = (X
X)X
una matriz ja (no aleatoria) de dimensin k n. Sustituyendo y por su expresin se

tiene:
= (X
X)
1
X
(X +u) = + (X
X)
1
X
u
comprobndose fcilmente que el valor esperado de

coincide con , y por tanto los estimadores
MCO son insesgados:
E
_
_
= + (X
X)
1
X
E(u) =
La matriz de dispersin o de varianzas-covarianzas de los estimadores viene dada
por: Cov
_
_
=
2
(X
X)
1
cuya expresin matricial es:
Cov
_
_
=
_
_
_
_
_
_
k
.
.
.
.
.
.
.
.
.
.
.
.
2

2
k
_
_
_
_
_
_
La deduccin de esta matriz se lleva a cabo partiendo de la denicin de covarianza:
Cov
_
_
= E
__

__
_
= E
_
(X
X)X
u
_
(X
X)
1
X
u
_
_
= (X
X)
1
X
E[uu
]X(X
X) =
2
(X
X)
La propiedad de consistencia garantiza que el estimador converge al parmetro cuando la muestra
aumenta indenidamente su tamao. Por tanto este requisito es equivalente a la anulacin asinttica
de la matriz de dispersin:
lm
n
Cov
_
_
= 0
Teorema 10.1. ( Gauss-Markov)

es un estimador lineal insesgado ptimo (ELIO),
es decir, dentro de la clase de estimadores lineales e insesgados,

presenta mnima
varianza.
Bajo la hiptesis de normalidad, este resultado puede ser extendido mediante la
cota de Frechet-Cramer-Rao a toda la clase de estimadores insesgados.
Bajo las condiciones de regularidad es posible aplicar a cualquier estimador

del parmetro la
acotacin de Frechet-Cramer-Rao. Segn dicha acotacin, se cumple para todo

insesgado:
V ar
_
1
E
_
2
ln L(y,)
2
_
Para esta cota inferior se obtiene:
ln L(y,)
=
1
2
2
(2X
y + 2X
X)

2
ln L(y,)
2
=
1
2
(X
X)
1
E
2
ln L(y,)
=
2
(X
X)
342
observndose que dicha expresin coincide con la matriz de dispersin de

y por tanto los EMC
resultan ser ptimos entre todos los estimadores insesgados.
Por lo que se reere a la distribucin probabilstica, el supuesto de normalidad
para la perturbacin aleatoria garantiza la normalidad para los estimadores:

A
_
,
2
(X
X)
1
_
o, equivalentemente, para cada estimador individual

j
A(
j
,
j
)
.
En realidad, los estimadores MCO sern aproximadamente normales incluso si no se cumple la
hiptesis de normalidad para la perturbacin aleatoria, siempre que el tamao de muestra n sea
sucientemente elevado para aplicar el teorema central del lmite.
Como hemos visto, la expresin de la matriz de varianzas-covarianzas de los es-
timadores depende de la varianza poblacional
2
, parmetro que en general resulta
desconocido y deber ser por tanto estimado. Dicha estimacin de la varianza se lleva
a cabo a partir del vector de residuos mnimo cuadrticos, que tiene carcter aleatorio
y aproxima el vector de perturbaciones u.
Concretamente, el estimador insesgado de
2
viene dado por:
S
2
=
u
u
n k
Desarrollando la expresin del vector de residuos se obtiene:
u = y X
= y X(X
X)
1
X
y =
_
I X(X
X)
1
X
_
y = My
donde M es una matriz denida como [I X(X
X)
1
X
] que cumple las propiedades de ser idem-

potente (el producto de M por s misma da como resultado la misma matriz, esto es, MM = M,
semidenida positiva (a
Ma 0 , a) y simtrica (M
= M). Una expresin alternativa a la anterior

para el vector de residuos es:
u = My =
_
I X(X
X)
1
X
_
X +u = X X(X
X)
1
X
X +Mu = Mu
a partir de la cual se obtienen fcilmente las caractersticas del vector:
E( u) = E(Mu) = ME(u) = 0
Cov( u) = E
_
u u
_
= E(Muu
M) = ME(uu
)M = M
2
IM =
2
M
expresiones que permiten construir un estimador insesgado para el parmetro
2
. Partiendo de la
expresin u
u = (Mu)
Mu = u
Mu se obtiene el valor esperado E( u
u) =
2
(n k). Como conse-
cuencia, el estimador insesgado de la varianza
2
ser: S
2
=
u
u
nk
.
La deduccin del valor esperado E( u
u) se lleva a cabo teniendo en cuenta dos propiedades de la

traza: la traza de un escalar es el mismo escalar y se cumple tr(AB) = tr(BA):
E[ u
u] = E[u
Mu] = tr [E(u
Mu)] = E[tr(u
Mu)] = E[tr(Muu
)]
= trME[uu
] = trM
2
I =
2
trM =
2
(n k)
343
El estimador S
2
permite tambin obtener estimaciones de la matriz de varianzas-
covarianzas mediante la expresin: S
2
(X
X)
1
. Por lo que se reere al modelo probabi-
lstico asociado a la varianza muestral, asumiendo la normalidad de las perturbaciones
u A(0,
2
I
n
) se cumple:
u
2
=
(n k)S
2
2

2
nk
10.2. Contrastes y anlisis de la bondad del modelo
En el modelo lineal bsico la presencia de mltiples regresores ampla considerable-
mente las posibilidades inferenciales.
Al igual que en el modelo simple, los contrastes ms interesantes son los de signi-
cacin que estudian la validez del modelo propuesto, bien sea a nivel global o para
ciertos parmetros.
Un elemento clave en estos contrastes es el vector aleatorio de perturbaciones u. A
partir de dicho vector y de la matriz idempotente M es posible obtener una forma
cuadrtica
u
Mu
2
, expresin que, como ya hemos visto, sigue un modelo chi-cuadrado
con (n k) grados de libertad.
Partiendo de los errores estimados se obtiene por tanto la expresin aleatoria:
u
2

2
nk
que resulta de notable utilidad en los procesos inferenciales sobre los parmetros que
analizaremos a continuacin.
10.2.1. Contrastes individuales
El planteamiento de los contrastes individuales de signicacin es anlogo al visto
para la regresin simple y se basa en una discrepancia con distribucin t de Student:
d
t
nk
El supuesto de normalidad de las perturbaciones aleatorias u garantiza que los estimadores mnimo
cuadrticos se distribuyen normalmente:
u N(0,
2
I)

N(,
2
(X
X)
1
)
donde recoge el vector de esperanzas y
2
(X
X)
1
es la matriz de varianzas y covarianzas de

.
Como en la prctica el parmetro
2
resulta desconocido debemos trabajar con su estimacin
muestral S
2
, pasando a considerar para cada parmetro
j
estadsticos del tipo:
d
j
=
j

j
S
j
t
nk
344
A partir de las discrepancias entre el estimador

j
y el parmetro
j
es posible
llevar a cabo contrastes individuales del tipo:
H
0
:
j
= 0 , H
1
:
j
,= 0 (10.2)
que se resuelven calculando el valor muestral
= d
y obteniendo posteriormente
el correspondiente nivel crtico:
p = P
_
[t
nk
[ >
/H
0
_
Si esta probabilidad adopta valores pequeos conduce al rechazo de la hiptesis nu-
la, respaldando por tanto la introduccin de la variable X
j
como explicativa en nuestro
modelo. En otras situaciones puede resultar interesante contrastar valores concretos
del parmetro, para lo cual se sigue un procedimiento anlogo al anterior sustituyendo
el valor hipottico de en la expresin de la discrepancia.
Debemos tener presente que el hecho de que aparezcan valores elevados de

j
no signica que
la variable X
j
tenga gran inuencia sobre Y (de hecho, con slo efectuar un cambio de escala se
modicara la estimacin del parmetro
j
). Lo importante ser por tanto el producto

j
X
j
o bien
la variable normalizada, que da lugar a la discrepancia.
10.2.2. Contrastes globales de signicacin
El contraste de signicacin global del modelo puede ser planteado en los siguientes
trminos:
H
0
:
2
=
3
= ... =
k
= 0
H
1
:
j
,= 0 , para algn j = 2, , k
donde la hiptesis nula equivale a armar que ninguno de los regresores tiene capacidad
explicativa sobre Y , mientras el complementario se recoge en la hiptesis alternativa.
En principio este contraste podra plantearse globalmente sobre el vector de coecientes :
H
0
: = 0 H
0
:
1
=
2
= ... =
k
= 0
H
0
: = 0 H
1
:
j
= 0 , para algn j = 1, ..., k
sin embargo, en general se excluye el trmino independiente al que no es posible asignar capacidad
explicativa sino nicamente impactos jos.
Por lo que se reere a la relacin de este test con los contrastes individuales anteriormente vistos,
se observa que el cumplimiento de la hiptesis mltiple H
0
:
2
=
3
= ... =
k
= 0 equivale al
cumplimiento simultneo de todas las hiptesis
2
= 0,
3
= 0, ...,
k
= 0 mientras que la acepta-
cin de todas las hiptesis simples no garantiza el cumplimiento de la conjunta al mismo nivel de
signicacin.
En sentido contrario, el rechazo de cualquiera de las hiptesis simples se traduce en el rechazo de la
conjunta. As pues, el test global de signicacin slo permite armar que el modelo "tiene sentido"
pero no que dicho modelo sea "totalmente correcto".
Al igual que hemos visto en el captulo anterior para el modelo simple, los contrastes
345
globales de signicacin se basan en el anlisis de la varianza, tal y como describe la
tabla 10.1:
Tabla 10.1.: Anlisis de varianza
VARIACIN EXPRESIN G.L. RATIO
EXPLICADA

y n
Y
2
k-1

yn
Y
2
k1
NO EXPLICADA u
u n-k
u
u
nk
TOTAL y
y n
Y
2
n-1
y
yn
Y
2
n1
A partir de esta descomposicin de variaciones es posible denir una discrepancia
dada por el ratio:
_
yn
Y
2
_
k1
u
u
nk
F
k1
nk
que bajo la hiptesis nula sigue un modelo F de Snedecor con k1 g.l. en el numerador
y nk g.l. en el denominador. Por lo que respecta a la interpretacin de esta expresin,
es fcil comprobar que cuantica la relacin entre la parte de variacin explicada y
no explicada del modelo, ajustadas ambas por sus grados de libertad. A medida que
los valores de la discrepancia F aumentan se reduce el nivel crtico asociado a las
observaciones muestrales y en consecuencia aumentan los argumentos para rechazar
la hiptesis conjunta planteada.
10.2.3. Bondad del modelo. Coecientes de determinacin
La bondad de los modelos economtricos puede ser analizada mediante el coeciente
de determinacin, que para un modelo lineal genrico viene dado por la expresin:
R
2
= 1
u
u
y
y n
Y
2
=
y
y n
Y
2
y
y n
Y
2
Es decir, en el anlisis de varianza anterior, R
2
se obtiene como 1 menos la proporcin
de variacin no explicada, o lo que es lo mismo la proporcin de variacin explicada.
Este coeciente de determinacin aparece conectado con la expresin del ratio F asociado al con-
traste de signicacin global del modelo, ya que se cumple:
F
k1
nk
=
R
2
k 1
1 R
2
n k
[Comprubese].
Por consiguiente, los modelos con gran capacidad explicativa llevarn asociado un coeciente de
determinacin cercano a la unidad y en consecuencia valores elevados de F, con lo cual se rechaza la
hiptesis de nulidad de los parmetros.
346
El coeciente de determinacin es una funcin no decreciente del nmero de varia-
bles explicativas del modelo. Como consecuencia, la abilidad aparente de un modelo
aumenta a medida que introducimos nuevas variables y de hecho, en el caso extremo
n =k el coeciente de determinacin alcanza un valor unitario siempre que no exista
relacin lineal entre los regresores.
En efecto, partiendo de la expresin del vector de residuos:
u = y X
= y X(X
X)
1
X
y
si asumimos n=k sin que exista relacin lineal entre los regresores se obtiene el rango de X, (X) = n
con lo cual la matriz X es invertible y por tanto:
u = y X(X
X)
1
X
y = y X
_
X
1
(X
)
1
_
X
y = y y = 0 R
2
= 1
Para evitar que el coeciente de determinacin se eleve articialmente, resulta con-
veniente introducir el coeciente de determinacin corregido o ajustado, que penaliza
la inclusin de nuevas variables explicativas en el modelo. El coeciente de determi-
nacin ajustado se dene como:
R
2
= 1
u
u
nk
y
yn
Y
2
n1
= 1
n 1
n k
u
u
y
y n
Y
2
expresin que resulta de ajustar por sus grados de libertad las variaciones total y
residual del modelo, y que puede tambin ser formulada como

R
2
= 1 (1 R
2
)
n1
nk
[Comprubese].
A partir de la expresin anterior se comprueba fcilmente la desigualdad

R
2
< R
2
para todo k > 1:
R
2
< R
2
1 (1 R
2
)
n1
nk
< R
2
(1 R
2
) < (1 R
2
)
n1
nk
n k < n 1 k > 1
A medida que aumenta el nmero de variables explicativas de un modelo, su coeciente ajustado se
aleja del inicial, pudiendo incluso llegar a adoptar valores negativos.
Conviene tener presente que al comparar dos modelos mediante sus coecientes
de determinacin ajustados resulta imprescindible que la variable dependiente sea la
misma y que los modelos tengan carcter causal.
Otros indicadores utilizados para comparar la bondad de modelos alternativos son
los basados en criterios de informacin. Estas medidas resumen los errores de estima-
cin asociados a cada modelo y penalizan adems la inclusin de parmetros.
Logaritmo de verosimilitud: Dada una muestra de tamao n el logaritmo de
la funcin de verosimilitud viene dado por la expresin
ln L =
n
2
_
1 + ln
_
2
u
u
n
__
Dado que el resultado de esta medida guarda una relacin inversa con la suma
347
de los residuos cuadrticos, la comparacin de varios modelos alternativos nos
llevar a elegir aqul que presenta un mayor resultado de ln L .
Criterios de informacin: La evaluacin de bondad de los modelos puede
realizarse tambin a partir de los criterios de informacin, cuyas expresiones
penalizan tanto los errores de estimacin (cuanticados a travs de u
u) como
la inclusin de parmetros (k). Por lo tanto, al comparar entre varios modelos
alternativos optaremos por aqul que presente valores ms reducidos de las me-
didas de informacin. Las expresiones ms habituales para estas medidas son
las propuestas por H. Akaike (1974), E.S. Schwarz (1997) y E.J. Hannan y G.G.
Quinn (1979):
Criterio de Akaike:
AIC = nln
_
u
u
n
_
+ 2k +n[1 + ln(2)]
Criterio de Schwarz:
SIC = 2 ln L +k ln(n)
Criterio de Hannan-Quinn:
HQC = 2 ln L + 2k ln(ln(n))
Aunque el coeciente de determinacin ajustado se utiliza con gran generalidad, en ciertas ocasiones
resultan necesarios otros ajustes en los coecientes de bondad de los modelos. Este ser el caso de
los modelos temporales, donde la existencia de una tendencia comn en las variables analizadas pue-
de dar lugar a valores elevados del coeciente de determinacin, incluso del ajustado. En este caso
puede resultarnos ms tiles los anteriores criterios de informacin o incluso otras adaptaciones del
coeciente de determinacin.
Como consecuencia de la presencia de varios regresores, en los modelos de regre-
sin mltiple podemos distinguir distintos tipos de coecientes de determinacin. En-
tre ellos el de carcter ms global es el coeciente de determinacin mltiple (R
2
o
R
2
Y,X
2
,...,X
k
) que recoge la parte de variacin de Y explicada conjuntamente por todas
las variables incluidas en el modelo X
2
, ..., X
k
. Tal y como hemos visto anteriormente,
este coeciente viene dado por la expresin:
R
2
=
y
y n
Y
2
y
y n
Y
2
=
y n
Y
2
y
y n
Y
2
El coeciente de determinacin parcial R
2
Y,X
k
/X
2
, ,X
k1
tiene en cuenta la relacin
entre Y y X
k
, una vez descontado el efecto de las otras variables explicativas del
348
modelo. Se trata de un coeciente acotado entre 0 y 1 cuya expresin es la siguiente:
R
2
Y,X
k
/X
2
,...,X
k1
=
R
2
Y,X
2
,...,X
k
R
2
Y,X
2
,...,X
k1
1 R
2
Y,X
2
,...,X
k1
Como consecuencia de su denicin, el coeciente de determinacin parcial permite conocer qu
proporcin de la variacin residual de un modelo conseguimos explicar con la introduccin de una
variable adicional. As pues, es un instrumento til para construir un modelo economtrico en etapas,
valorando la ganancia explicativa de cada nueva variable.
Por ltimo, es posible denir los coecientes de determinacin simples que slo
tienen en cuenta una de las variables explicativas ignorando por completo la existen-
cia de las restantes. Estos coecientes van asociados a los modelos lineales simples
y su carcter es bidireccional por coincidir con los cuadrados de los coecientes de
correlacin lineal.
10.2.4. Contrastes relativos a subconjuntos de parmetros
En ocasiones nos interesa contrastar hiptesis relativas a ciertos subconjuntos de
parmetros del modelo, bien sea especicando valores concretos para algunos de ellos
o bien relaciones entre parmetros que a menudo son postuladas por la propia teora
econmica.
A modo de ejemplo, si especicamos el siguiente modelo economtrico para la inversin: I
t
=
1
+
2
PIB
t
+
3
Int
t
+
4
IPC
t
+u
t
podramos proponer sobre el mismo hiptesis como las siguientes:
a) H
0
:
2
= 1, la propensin marginal a invertir es unitaria
b) H
1
:
3
+
4
= 0, la inversin tiene en cuenta el tipo de inters real (es decir, la inversin no
variar si un aumento en el tipo de inters nominal viene acompaado de un aumento en los precios,
ceteris paribus las restantes variables).
En este tipo de contrastes la hiptesis puede ser expresada en forma genrica como
H
0
: R =
, donde R es una matriz de r las (tantas como restricciones impuestas

en la hiptesis) y k columnas (tantas como parmetros para que sea multiplicable por
).
Segn cul sea el tipo de contraste planteado sobre los coecientes cambiar la expresin de la
matriz R. As, cuando deseamos contrastar valores concretos para los parmetros del modelo, la
matriz R contiene nicamente valores 0 y 1, mientras que si el contraste es de restricciones lineales,
los componentes de R son los coecientes que recogen las relaciones entre los distintos parmetros
del modelo.
En los ejemplos anteriores, la formulacin matricial vendra dada en los siguientes trminos:
a) H
0
: (0 1 0 0)
_
_
_
_
4
_
_
_
_
= 1
349
b)H
0
: (0 0 1 1)
_
_
_
_
4
_
_
_
_
= 0
Si estudiamos la distribucin del vector R
se obtiene, bajo la hiptesis de normalidad de las

perturbaciones, un modelo normal r-dimensional con:
E(R
) = R
Cov(R
) = RCov(
)R
=
2
R(X
X)
1
R
y de modo similar al contraste de signicacin global del modelo se construye una discrepancia
normalizada con distribucin F de r g.l. en el numerador y (n-k) g.l. en el denominador cuya expresin,
bajo la hiptesis nula, es la siguiente:
_
(R
(R(X
X)
1
R
)
1
(R
)
u u
_
n k
r
F
r
nk
La discrepancia asociada a este contraste, tambin, puede ser expresada como:
_
u
R
u
R
u
u
u
u
__
n k
r
_
F
r
nk
donde u
R
u
R
es la suma de residuos cuadrticos asociados al modelo sometido a las
restricciones de la hiptesis propuesta y u
u recoge la suma de cuadrados de los resi-

duos para el modelo estimado sin restricciones.
Este contraste de restricciones puede ser tambin resuelto mediante contrastes chi-cuadrado con
r grados de libertad, basados en la maximizacin de la funcin de verosimilitud bajo la restriccin
recogida en la hiptesis. Ms concretamente, las expresiones seran en este caso:
LM =
u
R
u
R
u
u
u
R
u
R
n
LR = nln
_
u
R
u
R
u
u
_
W =
u
R
u
R
u
u
u
u
n
entre las que se verica la desigualdad W > LR > LM y para la expresin W (asociada al test de
Wald) se garantiza para tamaos elevados de muestra la proporcionalidad con el estadstico F:
W rF
r
nk
10.2.5. Prediccin
Una vez que disponemos de uno o varios modelos que superaron la etapa de valida-
cin y que por lo tanto parecen ser adecuados debemos pasar a la etapa de prediccin
de las variables dependientes; esta etapa resulta especialmente til en los modelos
350
temporales.
Si bien existen muchos mtodos distintos para realizar predicciones, nosotros nos
referiremos en todo momento a predicciones cientcas; es decir, aqullas basadas en
modelos y que tienen una metodologa transparente, de modo que cualquier persona
en las condiciones iniciales puede replicar la prediccin y debera obtener el mismo
valor.
Existen diversas formas de clasicar las predicciones, segn el uso que se haga
de la informacin disponible (condicionada o no condicionada), segn el perodo al
que vayan referidas (ex-post y ex-ante) o bien segn los valores que se encuentran
registrados en cada etapa (esttica y dinmica).
Prediccin condicionada y no condicionada
Cuando realizamos una prediccin cientca, disponemos de un modelo y unos datos
iniciales o inputs; al aplicar el modelo estimado a los datos disponibles se generan unos
valores de Y que sern nuestras estimaciones o predicciones.
Partiendo de un modelo, generalmente realizaremos una prediccin condicionada,
entendida como aqulla que incorpora la informacin disponible en el momento actual.
As, si disponemos de informacin sobre el vector de datos x
0
= (1, X
20
, , X
k0
) ,
entonces la prediccin condicionada sera E(
Y /x
0
).
Cuando se ignora el valor informativo de los inputs, la prediccin se dice no condi-
cionada, y en esta situacin actuaramos como si no existiesen esos datos, asumiendo
hiptesis ingenuas sobre el comportamiento de las variables explicativas.
Prediccin ex-post y ex-ante
La prediccin ex-post es aqulla que va referida a valores de Y para los cuales dis-
ponemos de datos registrados. La principal ventaja de esta tcnica es que, al disponer
de la informacin real de la variable en el horizonte de prediccin, permite evaluar la
capacidad predictiva de un modelo.
En cambio, la prediccin ex-ante se realiza de cara a futuro, y por tanto va referida a
perodos para los cuales no hay datos registrados. Si bien esto se corresponde con lo que
en el lenguaje comn se entiende por prediccin, y tiene como nalidad reducir nuestra
incertidumbre futura, debemos tener en cuenta que en este caso no es posible evaluar
la calidad de los resultados obtenidos. De ah que en la prctica resulte recomendable
combinar ambos tipos de predicciones, contrastando la capacidad predictiva de los
modelos como paso previo a la obtencin de predicciones ex-ante.
Prediccin esttica y dinmica
Denominamos prediccin esttica a aqulla en la que los inputs son siempre datos
registrados, mientras que la prediccin dinmica utiliza las predicciones como inputs
del modelo.
Como consecuencia, la prediccin dinmica entraa un mayor riesgo que la esttica,
puesto que combina dos fuentes de error: la referida a los inputs (que no son datos
registrados, sino predicciones, con lo cual tienen un margen de error), y la inherente
a toda prediccin.
Las consideraciones efectuadas para la prediccin con modelos simples son aplicables
en gran medida al modelo lineal general. As, dado un modelo y = X +u podemos
estar interesados en efectuar predicciones para la variable dependiente una vez cono-
351
cidos los valores adoptados por las variables explicativas, recogidos en el vector x
0
que viene dado por la expresin x
0
= (1, X
20
, , X
k0
).
En primera instancia puede obtenerse la prediccin puntual:

Y
0
= x
que proporcio-
na un valor individual de la variable dependiente afectado por un error de prediccin
e
Y
0
= Y
0

Y
0
.
Como ya hemos visto en el caso simple, esta prediccin

Y
0
es una variable aleatoria para la que
se cumple:
Y
0
= x
= x
0
(X
X)
1
X
y = Zy es decir, presenta carcter lineal.

E
_
Y
0
_
= E
_
x
_
= x
0
= E(Y/x
0
) es un predictor insesgado del valor esperado.
V ar
_
Y
0
_
= E
__
Y
0
E(Y/x
0
)
_
Y
0
E(Y/x
0
)
__
= E
__
x
_
x
__
=
= x
2
(X
X)
1
x
0
Puede adems demostrarse que esta varianza es mnima en la clase de predictores lineales insesgados,
por lo cual se trata de un predictor ptimo.
Utilizando los resultados anteriores pueden construirse intervalos de conanza para
el verdadero valor Y
0
y para el valor esperado E(Y/x
0
) que se basan en las discrepan-
cias recogidas en el tabla 10.2:
Tabla 10.2.: Intervalos de conanza para la prediccin
Prediccin Discrepancia tipicada Intervalo de conanza
Para Y
0
Error Total d
Y
0
Y
0
=
Y
0
Y
0
S
Y
0
Y
0
t
nk
_
Y
0
k
_
S
2
(1 +x
0
(X
X)
1
x
0
)
_
e
Y
0
= Y
0

Y
0
Para E(Y/x
0
)
Error Muestral d
Y
0
=
E(Y/x
0
)
Y
0
S
Y
0
t
nk
_
Y
0
k
_
S
2
(x
0
(X
X)
1
x
0
)
_
e
Y
0
=
_
E(Y/x
0
)

Y
0
_
En el primer caso se elaboran bandas de prediccin para un valor individual Y
0
, obtenindose las
caractersticas:
E
_
e
Y
0
_
= E(Y
0
) E(
Y
0
) = 0
V ar
_
e
Y
0
_
= V ar
_
Y
0

Y
0
_
= V ar(Y
0
) +V ar(
Y
0
) =
2
_
1 +x
0
(X
X)
1
x
0
_
teniendo en cuenta que esta varianza
2
puede ser estimada como S
2
=
u
u
nk
Asumiendo la normalidad para las perturbaciones se tiene:
e
Y
0
= Y
0

Y
0
N
_
0,
2
_
1 +x
0
(X
X)
1
x
0
__
Y
0

Y
0
_
S
2
(1 +x
0
(X
X)
1
x
0
)
t
nk
obtenindose el siguiente intervalo de conanza para Y
0
:
_
Y
0
k
_
S
2
(1 +x
0
(X
X)
1
x
0
) ,

Y
0
+k
_
S
2
(1 +x
0
(X
X)
1
x
0
)
_
donde k se calcula en tablas de la distribucin t de Student con n k g.l. para el nivel de conanza
jado.
352
Siguiendo un procedimiento anlogo se obtienen las bandas de conanza para el valor esperado
E(Y/x
0
), para las cuales se obtiene la expresin:
_
Y
0
k
_
S
2
(x
0
(X
X)
1
x
0
) ,

Y
0
+k
_
S
2
(x
0
(X
X)
1
x
0
)
_
[Efectuar la deduccin correspondiente]
Como hemos visto anteriormente, para evaluar un modelo economtrico podemos
consultar medidas de bondad asociadas al mismo (coecientes de determinacin, me-
didas de informacin, error estndar, ...). Sin embargo, en ocasiones puede ser con-
veniente valorar la capacidad predictiva a posteriori, comparando las predicciones
proporcionadas por el modelo con los valores adoptados por la variable dependiente Y
una vez que stos sean conocidos. Este planteamiento es adecuado para las observa-
ciones temporales cuando realizamos predicciones ex-post. As, si designamos por T el
horizonte de prediccin, por

Y
t
la prediccin de la variable para el perodo t y por Y
t
el valor efectivamente observado, es posible denir varias medidas del tipo siguiente:
Error estndar de las predicciones o raz del error cuadrtico medio:
RECM =
T
t=1
_
Y
t
Y
t
_
2
T
Error absoluto medio:
EAM =
T
t=1
Y
t
Y
t
T
Error absoluto porcentual medio:
EAPM =
T
t=1
Y
t
Y
t
TY
t
100
Coeciente de desigualdad de Theil:
U =
_
T
t=1
(P
t
R
t
)
2
T
_
T
t=1
R
2
t
T
donde P
t
es el porcentaje de cambio previsto para la variable, P
t
=

Y
t
Y
t1
Y
t1
, y
R
t
el porcentaje de cambio real, R
t
=
Y
t
Y
t1
Y
t1
.
Es fcil comprobar que el ndice de Theil adopta valor nulo cuando las predic-
ciones son perfectas (P
t
= R
t
) y valor unitario en el caso de que optemos por un
modelo simplista o naive, que asignara como prediccin el valor presente (status
quo). Como consecuencia, valores del ndice superiores a la unidad indican que
el modelo no es til para nes predictivos.
353
Figura 10.1.: Diagrama prediccin-realidad
Para ampliar las conclusiones del coeciente de Theil es posible representar en un sistema de coorde-
nadas los incrementos previstos y verdaderos. En el caso de que las observaciones estuvieran situadas
sobre la diagonal, el modelo sera adecuado para predecir mientras que en otras situaciones permitira
detectar el signo de las desviaciones en la prediccin, tal y como indica la gura 10.1.
El principal atractivo del coeciente de Theil es que permite conocer las causas de la inexactitud
de las predicciones, gracias a la igualdad:
U
2
= U
2
S
+U
2
V
+U
2
C
donde:
U
2
S
=
(
R)
2
T
t=1
(P
t
R
t
)
2
, recoge el componente de sesgo
U
2
V
=
(S
P
S
R
)
2
T
t=1
(P
t
R
t
)
2
, es el componente de varianza
U
2
C
=
2(1r
PR
)S
P
S
R
T
t=1
(P
t
R
t
)
2
, es el componente de covarianza
Este ltimo sumando suele ser considerado especialmente preocupante, ya que reeja discrepancias
entre predicciones y realizaciones que no es posible corregir al no presentar origen sistemtico.
10.3. Modelos con variables cualitativas
En los apartados anteriores hemos asumido el carcter cuantitativo de las variables
que intervienen en los modelos economtricos. Sin embargo, somos conscientes de que
las relaciones socioeconmicas dependen a menudo de factores cualitativos, y de ah
el inters de introducirlos en nuestros modelos.
10.3.1. Variables explicativas cualitativas.
Las magnitudes de inters en el mbito econmico (consumo, inversin, ..) vienen
frecuentemente inuidas por factores causales de carcter cualitativo, que debern ser
introducidos entre las variables explicativas de un modelo.
354
Este sera el caso de caractersticas como el sexo, la ideologa, la cualicacin profesional, el sector
econmico... no cuanticables de modo inmediato pero que pueden desempear un papel relevante
en la descripcin de una realidad econmica.
Adems, incluso en algunas ocasiones en las que los modelos incluyen variables numricas, lo que nos
interesa no es tanto su valor concreto como la clase a la que pertenecen: por ejemplo, frecuentemente
la poblacin aparece clasicada en grupos de edad, las empresas se agrupan en pequeas, medianas
y grandes, ...
Una vez efectuadas estas agrupaciones ignoramos el valor numrico exacto para interesarnos ni-
camente por la categora a la que las variables pertenecen. Por tanto, las variables que inicialmente
eran cuantitativas adquieren as un carcter claramente cualitativo.
La situacin ms sencilla consiste en considerar una caracterstica con dos modali-
dades, a la que asociamos una variable dicotmica que denotamos por D. As, para
la variable Y , podramos plantear un modelo Y =
1
+
2
X +
3
D + u, donde el
parmetro
3
recoge el efecto que tiene sobre la variable dependiente la pertenencia a
una u otra modalidad.
Supongamos a modo de ejemplo que deseamos explicar el salario percibido por un colectivo de
trabajadores para lo cual hemos especicado un modelo lineal Y =
1
+
2
X+u donde Y es el salario
mensual, en euros y X la experiencia laboral, en aos.
Si ahora deseamos introducir como explicativa el sexo de cada trabajador podemos denir la variable
cualitativa:
D =
_
0, si la observacin corresponde a una mujer
1, si la observacin corresponde a un hombre
con lo cual el modelo se completara como: Y =
1
+
2
X +
3
D+u, y
3
representa el aumento de
salario que se produce como consecuencia de que el trabajador tenga sexo masculino.
La inclusin de una variable cualitativa (tambin llamada cticia o dummy) no
altera los mtodos de estimacin y contraste ni las medidas de bondad de un mode-
lo economtrico, sino que equivale a una extensin del mismo a las dos categoras o
modalidades consideradas, ya que se obtienen ahora dos lneas poblacionales diferen-
ciadas:
_
E(Y/D = 0) =
1
+
2
X
E(Y/D = 1) =
1
+
2
X +
3
con lo cual el coeciente de la variable D,
3
, se interpreta como el efecto sobre el
valor esperado del cambio de categora:
3
= E(Y/D = 1) E(Y/D = 0):
355
Figura 10.2.: Modelo con variable dummy
La interpretacin del parmetro
3
depender de la denicin dada a D. As, en el ejemplo con-
siderado este coeciente recoge el aumento salarial esperado para los hombres respecto al de las
mujeres. Dado que habitualmente la discriminacin laboral favorece a los hombres, se espera que
este parmetro presente signo positivo pero es fcil observar que la interpretacin sera la opuesta si
cambisemos la denicin de la variable D (D=1 para las mujeres y D=0 para los hombres).
El modelo anterior podra ser completado si consideramos que la pertenencia a una
modalidad condiciona no slo la ordenada en el origen sino tambin el impacto que X
tiene sobre Y (esto es, la pendiente de la recta). En tales situaciones cabe considerar
un nuevo trmino, que recoge la interaccin entre la variable cticia D y X, variable
explicativa de carcter cuantitativo: Y =
1
+
2
X +
3
D +
4
(DX) +u, con lo cual
se obtiene:
_
E(Y/D = 0) =
1
+
2
X
E(Y/D = 1) =
1
+
2
X +
3
+
4
X = (
1
+
3
) + (
2
+
4
)X
y las rectas asociadas a las dos categoras dieren en cuanto a su ordenada en el origen
(en
2
) y a su pendiente (en
4
).
356
Figura 10.3.: Modelo con variable dummy y trmino de interaccin
En nuestro ejemplo podramos introducir un trmino de interaccin entre la variable D y la expe-
riencia laboral X con lo cual se obtiene
Y =
1
+
2
X +
3
D +
4
(DX) +u
recogiendo el parmetro
4
la diferencia en el efecto marginal que cada ao de experiencia tiene sobre
el salario para hombres y mujeres.
El planteamiento anterior puede ser extendido al caso de una variable cualitativa
con ms de dos categoras. Esta situacin se presenta cuando consideramos mltiples
modalidades: variables del tipo "categoras socioeconmicas", "ramas de actividad",
"tamao de las empresas", "estaciones del ao", ... La prctica para incluir una varia-
ble cualitativa en el modelo consiste entonces en adoptar una de las modalidades como
referencia, deniendo variables dummy (0, 1) para todas las categoras restantes.
En general, si deseamos considerar el efecto sobre Y de una caracterstica cualitativa
con m modalidades o categoras, el modelo planteado sera:
Y =
1
+
2
X +
3
D
1
+ +
m+1
D
m1
+u
donde han sido introducidas m-1 variables cualitativas (una menos que las modalidades
consideradas).
La especicacin de un modelo de m-1 variables cticias (en lugar de m, como en
principio podra parecer lgico) evita la denominada trampa de las variables cticias.
Puede comprobarse que la inclusin de m variables cticias llevara llevara a una ma-
triz X de rango no pleno (por ser sus columnas linealmente dependientes) impidiendo
as la estimacin del modelo propuesto.
Imaginemos que proponemos ahora para el salario una explicacin en funcin de la antigedad
laboral y del sector de actividad econmica, caracterstica para la que consideramos las modalidades
357
agricultura, industria, construccin y servicios. Si deniramos cuatro variables cticias se tendra:
D
A
=
_
1, si el trabajador pertenece al sector agricultura
0, en otro caso
D
I
=
_
1, si el trabajador pertenece al sector industria
0, en otro caso
D
C
=
_
1, si el trabajador pertenece al sector construccin
0, en otro caso
D
S
=
_
1, si el trabajador pertenece al sector servicios
0, en otro caso
El modelo planteado sera entonces Y =
1
+
2
X +
3
D
A
+
4
D
I
+
5
D
C
+
6
D
S
+u y la matriz
X de datos vendra dada por la expresin:
X =
_
_
_
_
_
1 X
1
D
A1
D
I1
D
C1
D
S1
1 X
2
D
A2
D
I2
D
C2
D
S2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1 X
n
D
An
D
In
D
Cn
D
Sn
_
_
_
_
_
observndose fcilmente que se cumple para cada observacin: D
Ai
+D
Ii
+D
Ci
+D
Si
= 1 , i = 1, ..., n
(ya que la actividad de cada individuo se incluye en uno y slo un sector de actividad) y como
consecuencia la suma de las cuatro ltimas columnas es unitaria, coincidiendo con la primera columna.
Como consecuencia de esta situacin de relacin lineal entre las columnas o multicolinealidad la
matriz X no es de rango pleno incumplindose uno de los supuestos del modelo lineal bsico (se
tiene (X) < k ) y no es posible llevar a cabo la estimacin por mnimos cuadrados al ser X
X no
invertible (|X
X| = 0).
Para evitar este tipo de situaciones se adopta una de las modalidades como referencia introduciendo
variables cualitativas para las restantes. En este caso, si adoptsemos como referencia la agricultura
consideraramos el modelo Y =
1
+
2
X +
3
D
I
+
4
D
C
+
5
D
S
+ u en el que ya no aparece
problema de relacin lineal entre las variables. De este modo, los trminos independientes de la recta
adoptaran los valores:
CATEGORA TRMINO INDEPENDIENTE
AGRICULTURA
1
INDUSTRIA
1
+
3
CONSTRUCCIN
1
+
4
SERVICIOS
1
+
5
que permiten interpretar cada coeciente de las variables cualitativas como el efecto que origina
sobre la variable dependiente Y (salario) la pertenencia al sector econmico correspondiente.
Los modelos de variables cticias con m modalidades pueden ser completados si se desea incorporar
las posibles interacciones de cada una de estas categoras cualitativas con las variables cuantitativas
X
i
. La signicacin de cada uno de estos trminos puede ser contrastada mediante las correspondien-
tes discrepancias, que seguirn una distribucin t de Student.
Como hemos visto, segn cul sea el modo en el que las variables cticias afectan a la
variable dependiente aparecern distintas especicaciones alternativas para un modelo.
358
Dado que las expresiones e interpretacin de los contrastes de signicacin coinciden
con los estudiados en apartados anteriores, resulta aconsejable plantear inicialmente
modelos con especicaciones completas, seleccionando el modelo denitivo segn los
resultados de los contrastes a partir de nuestra informacin muestral.
La introduccin de variables cualitativas puede resultar de gran ayuda para mo-
delizar factores de dos o ms categoras: factores estacionales, cambios estructurales,
cambios metodolgicos, valores atpicos,...
10.3.2. Variables cualitativas dependientes. Introduccin a los
modelos logit y probit
Hasta ahora las variables cualitativas han sido consideradas como explicativas pero
es evidente que pueden tambin constituir el objeto de un estudio. Por ejemplo, es
indudable el inters de explicar la situacin laboral (si un individuo est o no en paro),
el resultado de determinada poltica (si se alcanza o no cierto nivel de crecimiento),
la decisin de un consumidor (comprar o no un artculo) etc.
Dentro de los modelos de variable dependiente cualitativa existen varias alternativas
que no vamos a estudiar en detalle:
Si queremos explicar una variable con dos modalidades (como las de los ejemplos
anteriores) los modelos resultantes son de tipo binomial.
Si la variable puede adoptar ms de dos modalidades, tendramos un modelo
multinomial.
Cuando la caracterstica presenta varias modalidades que siguen un orden na-
tural, se trata de modelos ordenados.
En el caso de que la caracterstica que explicamos corresponda a una decisin
que condiciona las siguientes se tratara de modelos secuenciales.
En principio podramos considerar que los modelos de variable cualitativa dependiente
forman parte de la teora general de la regresin, con la nica salvedad de que la
variable a explicar no es continua.
Consideremos a modo de ejemplo una variable Y que recoge si determinado indivi-
duo se encuentra o no en paro. Esta variable que tratamos de explicar es dicotmica
adoptando valor 1 si el individuo est en paro y 0 si no lo est (o viceversa si se denen
de modo simtrico).
Una vez seleccionadas las variables (cuantitativas o cualitativas) que se consideran
adecuadas como explicativas, el modelo adopta la expresin:
Y =
1
+
2
X
2
+ +
k
X
k
+u o de forma compacta: Y = X +u
Se trata de un modelo para una variable que adopta dos nicos valores, 0 y 1, con
probabilidades desconocidas condicionadas a los valores de X. Aplicando la esperanza
359
matemtica, se obtiene:
E(Y/X) = p =
1
+
2
X
2
+ +
k
X
k
= X
Aunque este modelo resulta sencillo de interpretar (cada coeciente recoger el efecto
sobre la probabilidad de cada variable considerada), se aprecian en l dos inconvenien-
tes:
El error, al igual que la variable Y , es dicotmico:
_
Y = 0, u = X
Y = 1, u = 1 X
As pues, el modelo no se adapta a las hiptesis planteadas en regresin lineal
(supuestos de homoscedasticidad y de normalidad para las perturbaciones), y
por lo tanto la eciencia de los estimadores no viene garantizada por el mtodo
de los mnimos cuadrados.
Adems, los valores esperados de Y se interpretan como probabilidades, por lo
cual las estimaciones deberan estar comprendidas entre 0 y 1, requisito que no
viene garantizado por mnimos cuadrados. De ah que se incluyan modicaciones
que dan lugar a los modelos denominados logit, probit y modelo lineal restringido.
Otra posibilidad es pasar del modelo lineal a la funcin lineal discriminante,
que permite clasicar cualquier nueva observacin en una de las dos categoras
o grupos considerados.
Supongamos que deseamos modelizar una variable dicotmica Y asociada a sucesos
del tipo estar en paro, comprar un producto, votar un candidato,... Vistos los
inconvenientes anteriormente sealados la propuesta habitual consiste en especicar
un modelo para cierta variable latente que denotamos por Z:
Z
i
=
1
+
2
X
2i
+ +
k
X
ki
+u
i
= x
i
+u
i
donde x
es el vector la de datos de variables explicativas y el vector columna

de k coecientes a estimar. Por su parte la variable Z, que no es observable, aparece
conectada con la dicotmica y representa una especie de "propensin al suceso con-
siderado" (en nuestros ejemplos sera la propensin a estar en paro, la inclinacin a
comprar un artculo, la intencin de votar a cierto candidato...).
En denitiva, Z incluye siempre una idea de potencialidad de modo que ser un
indicador que en principio se encuentra entre menos innito y ms innito siendo
posible establecer un umbral o ndice de propensin Z
tal que se cumpla:

Y =
_
1, si Z > Z
0, si Z Z
A diferencia de Z, la variable Y s resulta observable puesto que en la prctica nosotros

360
no conoceremos las propensiones de los individuos al suceso considerado, tan slo
sabremos si una persona est en paro, si ha consumido un producto, si ha votado a
un candidato, ...
Este valor lmite se ja habitualmente en Z
= 0 y para calcular las probabilidades

se tiene por tanto:
p
i
= P(Y = 1) = P(Z > Z
) = 1 F(x
)
1 p
i
= P(Y = 0) = P(Z Z
) = F(x
)
Ambas expresiones muestran probabilidades en funcin de los coecientes y las
variables explicativas X. Teniendo en cuenta que nuestra informacin muestral seran
realizaciones de una variable dicotmica, obtendramos la funcin de verosimilitud
muestral:
L =
n
Y
i
=1
p
i
(1 p
i
)
Esta expresin depende de p
i
, valores que a su vez se obtendrn segn la distribucin
probabilstica especicada para los errores u (F). As surgen los modelos logit, probit
y de probabilidad lineal.
El modelo logit surge cuando la distribucin considerada es de tipo logstico, el
probit cuando es de tipo normal y el de probabilidad lineal cuando se trata de un
modelo uniforme.
Comenzando por el modelo logit, debemos tener en cuenta que la funcin logstica
viene dada por una probabilidad acumulada F(x) =
1
1+e
x
. Por tanto, si asumimos
que los errores u se distribuyen segn un modelo logstico se tiene:
p
i
= P(Y
i
= 1) = 1 F(x
i
) = 1
1
1 +e
x
=
e
x
1 +e
x
Esta expresin puede ser linealizada mediante logaritmos:

p
i
_
1 +e
x
_
= e
x
_
p
i
+p
i
e
x
_
= e
x
p
i
= e
x
(1 p
i
)
con lo cual se tiene:
e
x
=
p
i
1 p
i
Luego:
log
_
p
i
1 p
i
_
= x
i
=
1
+
2
X
2i
+ +
k
X
ki
Una vez efectuada la transformacin anterior, el problema se reduce a estimar los coe-
cientes con la informacin muestral. Teniendo en cuenta que el modelo es no lineal
el mtodo habitualmente empleado consiste en maximizar la funcin de verosimilitud
L que es cncava por lo cual tiene un nico ptimo; el clculo se realiza utilizando
algoritmos numricos como Newton-Rapson o scoring.
Cuando los errores u siguen una distribucin normal se tiene el modelo probit, cuyas
361
caractersticas y mtodo de estimacin resultan similares a los del logit. Teniendo en
cuenta que el modelo logstico y el normal son cercanos excepto en las colas, ser
habitual obtener resultados similares salvo para muestras grandes.
Interpretacin de parmetros Los parmetros estimados permiten interpretar los
efectos ocasionados por cambios en las variables explicativas sobre las probabilidades.
Asi, si expresamos la variable latente como:
Z
i
=
1
+
2
X
2i
+ +
k
X
ki
+u
i
=
1
+
k
j=2
j
X
ji
+u
i
entonces dichos efectos vienen dados por las expresiones:
p
i
X
ij
=
_
j
modelo lineal
j
p
i
(1 p
i
) modelo logit
j
f(Z
i
) modelo probit
donde f recoge la funcin de densidad normal estndar. Puede observarse fcilmente
que en el modelo lineal las derivadas son constantes. En cambio, en el modelo logit
seran constantes los efectos de los cambios en el ratio log
_
p
i
1p
i
_
ya que:
_
log
p
i
1p
i
_
X
ij
=
i
Los coecientes de los modelos logit y probit no admiten una interpretacin in-
mediata como en el caso del modelo lineal bsico. La interpretacin debe hacerse en
trminos relativos entre pares de variables de forma que los cocientes

j
indican la
importancia relativa que los efectos de las variables X
i
y X
j
tienen sobre la proba-
bilidad de escoger la alternativa Y
i
= 1. Por este motivo perdemos la interpretacin
habitual de las variables econmicas.
Signicacin y evaluacin de la bondad Una vez especicado uno o varios modelos
de variable cualitativa, la signicacin de sus coecientes puede ser contrastada cal-
culando el cociente entre el valor del coeciente y su desviacin estndar estimada. El
resultado puede ser comparado con el valor crtico de una distribucin t de student con
los grados de libertad correspondientes (nmero de observaciones menos coecientes
estimados), aunque en este caso la validez es nicamente asinttica.
Por lo que se reere a la evaluacin del modelo, existen varios planteamientos para
comparar las alternativas de modelizacin de caractersticas cualitativas:
Calcular la suma de cuadrados de las desviaciones para las probabilidades pre-
vistas
362
Comparar los porcentajes correctamente predichos en distintos modelos
Observar las derivadas de las probabilidades con respecto a alguna variable in-
dependiente
Conviene tener presente que el comportamiento del coeciente de determinacin para
variables dicotmicas no es adecuado, por lo cual distintos autores han propuesto
modicaciones de esta medida. En el caso del modelo de regresin lineal todas estas
expresiones seran equivalentes pero no sucede lo mismo en los modelos de variables
cualitativas.
Denotando por Y los valores observados (que sern necesariamente 1 o 0) y por

Y
los valores estimados por el modelo, que representan probabilidades, las medidas ms
extendidas son las siguientes:
Tabla 10.3.: Medidas de bondad de modelos logit
MEDIDA DEFINICIN
Medida de Eron (1978) R
2
= 1
n
n
1
n
2
n
i=1
_
Y
i

Y
i
_
2
R
2
Cuadrado del coeciente de correlacin entre Y e

Y
Medida de Amemiya R
2
= 1
n
i=1
(Y
i
Y
i
)
2
Y
i
(1
Y
i
)
n
i=1
(Y
i
Y
i)
2
Medida basada en verosimilitudes
R
2
= 2 ln
L
NR
L
R
L
NR
: Mx. de L respecto a todos los parmetros
L
R
: Mximo de L con
i
= 0 , i
0 R
2
1 L
2
n
R
Medida de Cragg y Uhler (1970)
R
2
=
L
2
n
NR
L
2
n
R
_
1L
2
n
R
_
L
2
n
NR
L
NR
L
R
: Mximo de L con
i
= 0 , i
0 R
2
1
Medida de Mc Fadden (1974)
1
R
2
= 1
log L
NR
log L
R
L
NR
L
R
: Mximo de L con
i
= 0 , i
0 R
2
1
Proporcin de aciertos R
2
=
nm. predicciones correctas
nm. observaciones
10.4. Alteracin de supuestos del modelo lineal
Una vez que hemos desarrollado el modelo de regresin lineal mltiple bajo las
hiptesis habituales de trabajo (es decir, el modelo lineal bsico), vamos a examinar
363
las posibles alteraciones de los supuestos, analizando sus causas, las consecuencias
sobre el modelo, los mtodos para su deteccin y las posibles soluciones.
10.4.1. Errores de especicacin
La especicacin es la primera etapa de la modelizacin economtrica y condiciona
por tanto en gran medida el xito de una investigacin. Esta etapa incluye la denicin
de los elementos que intervienen en el modelo y las relaciones existentes entre los
mismos, que traducen las hiptesis de comportamiento sobre la poblacin. As pues,
en principio el error de especicacin es un trmino amplio que hace referencia a la
discrepancia entre el modelo propuesto y la realidad.
En general, al hablar de errores de especicacin hacemos referencia a equivoca-
ciones cometidas en la eleccin de la forma funcional del modelo o de las variables
explicativas.
10.4.1.1. Forma funcional del modelo
Las consecuencias de una confusin en la forma funcional del modelo son difciles de
evaluar. Para intentar evitarlas resulta conveniente tener presente la teora econmica
referida al fenmeno analizado y examinar la nube de puntos que representa nuestra
informacin.
La admisin de la relacin lineal entre las variables no resulta muy restrictiva en la prctica ya
que la experiencia economtrica ha demostrado que mediante relaciones lineales entre variables se
consiguen a menudo aproximaciones vlidas de la realidad.
Adems, ciertas relaciones no lineales de gran inters en economa (funciones de produccin Cobb-
Douglas, curvas de indiferencia, modelos exponenciales...) pueden transformarse fcilmente en lineales
mediante cambios de variable.
As, para un modelo Y
i
=
1
X
2
2i
X
3
3i
e
u
i
podramos efectuar una transformacin logartmica del
tipo ln Y
i
= ln
1
+
2
ln X
2i
+
3
ln X
3i
+u
i
llegando al modelo logartmico (o doble logartmico).
Si por el contrario la especicacin de partida fuese del tipo Y
i
= e
1
+
2
X
2i
++
k
X
ki
+u
i
, enton-
ces llegaramos mediante transformacin logartmica al modelo log-lineal (o semi-log), dado por la
expresin: ln Y
i
=
1
+
2
X
2i
+ +
k
X
ki
+u
i
La transformacin sera aun ms sencilla para funciones de tipo hiperblico Y
i
=
1
+

2
X
i
+u
i
, en
las que bastara con plantear el cambio Z
i
=
1
X
i
para llegar a un modelo lineal.
Las transformaciones anteriores permiten aplicar los desarrollos de MCO a los modelos linealiza-
dos, consiguiendo as una estimacin de los parmetros por el procedimiento habitual
2
. Es importante
tener presente que estas transformaciones son auxiliares para llevar a cabo la estimacin, pero el mo-
delo objetivo es el inicialmente propuesto en cada caso. Por ello, los errores deben ser cuanticados
sobre dicho modelo (potencial, exponencial,...) y no sobre el linealizado (estos ltimos son los que
habitualmente proporcionan los paquetes economtricos al efectuar una regresin lineal sobre loga-
ritmos).
2
En el caso de que los modelos no fuesen linealizados sera necesario plantear una estimacin por
mnimos cuadrados no lineales (nonlinear least squares o NLS) que exigen procedimientos itera-
tivos.
364
10.4.1.2. Omisin de variables explicativas relevantes e inclusin de variables
irrelevantes
Por lo que se reere a las variables incluidas en la especicacin, pueden producirse
errores tanto por exceso como por omisin, siendo estos ltimos los ms preocupantes.
Supongamos que el modelo correcto para el vector y viene dado por la expresin
y = X +u, distinguiendo para las variables explicativas las matrices X
1
y X
2
:
y = X
1
1
+X
2
2
+u
Si nuestra especicacin propuesta es y = X
1
1
+ v, existe un error de omisin de
variables con lo cual los estimadores mnimo cuadrticos son sesgados e inconsistentes.
Para la especicacin propuesta los estimadores MCO son del tipo

1
= (X
1
X
1
)
1
X
1
y que,
sustituyendo y por su valor verdadero, conducen a la expresin:
1
= (X
1
X
1
)
1
X
1
y = (X
1
X
1
)
1
X
1
(X
1
1
+X
2
2
+u) =
=
1
+ (X
1
X
1
)
1
X
1
X
2
2
+ (X
1
X
1
)
1
X
1
u
Como consecuencia de esta especicacin equivocada, los estimadores MCO pasan a ser sesgados ya
que se obtiene un valor esperado:
E
_
1
_
=
1
+P
2
donde P = (X
1
X
1
)
1
X
1
X
2
es la expresin del estimador mnimo cuadrtico correspondiente a la
regresin de X
2
sobre X
1
.
A partir de esta expresin se observa que los estimadores resultaran insesgados si no existiera
correlacin entre las variables excluidas y las incluidas en el modelo (esto es si P = 0). Sin embargo
an en ese caso se presentaran problemas, ya que la omisin de X
2
dara lugar a residuos superiores
a los correspondientes al modelo verdadero y en consecuencia conducira a contrastes de signicacin
excesivamente exigentes.
En efecto, si plantesemos como modelo verdadero:
Y
i
=
1
+
2
X
2i
+ +
k
X
ki
+u
i
(10.3)
la omisin de la variable X
k
nos llevara a plantear la relacin:
Y
i
=
1
+
2
X
2i
+ +
k1
X
k1,i
+u
i
(10.4)
Si asumimos que la variable excluida aparece relacionada con las restantes por la expresin: X
ki
=
1
+
2
X
2i
+ +
k1
X
k1,i
+ v
i
, entonces es posible comprobar sobre el modelo propuesto la
relacin:
j
=
j
+
k
j
, j = 2, , k 1 , y u
i
= u
i
+
ki
(10.5)
y, si v es una v.a. no correlacionada con u y cuyo comportamiento se adapta a los supuestos habituales,
se tiene:
E(u
) = E(u +v)
E(u
2
) =
2
u
+
2
k
2
v
E(u
r
u
s
) = 0 , r = s
por lo cual el modelo propuesto 10.4 puede estimarse por MCO bajo las hiptesis habituales, y cada
parmetro
j
diferir del correspondiente en el modelo verdadero 10.3,
j
segn la relacin 10.5,
365
siempre que la variable est relacionada con la excluida. Como consecuencia, el coeciente de X
j
ya
no representa el efecto de un incremento de esta variable sobre Y , sino el efecto de un incremento de
esta variable sobre Y bajo la condicin de que X
k
se incremente en un valor igual a
j
y de que ello
provoque un incremento adicional en la variable Y de magnitud
k
j
.
Por lo que respecta a la bondad del modelo, como ya hemos comentado los residuos aumentan
respecto a los del modelo verdadero 10.3 y con ellos las varianzas del error y de los estimadores,
dependiendo la cuanta de este aumento del grado de relacin lineal que guarde la variable excluda
con las restantes. Lgicamente, si esta relacin es muy alta entonces la exclusin de la variable apenas
afectara a la bondad del modelo.
Puede comprobarse que el sesgo asociado a los estimadores MCO no desaparece al aumentar el
tamao muestral n por lo cual los estimadores tambin son inconsistentes.
Por lo que se reere a la estimacin de la varianza, los residuos asociados al modelo propuesto 10.4
seran superiores a los del modelo verdadero 10.3 y como consecuencia se sobreestimarn la varianza
residual y las varianzas estimadas para los estimadores de los parmetros. En estas situaciones los
contrastes resultan ms exigentes para rechazar la nulidad de los parmetros y por tanto, el proceso
de contraste de signicacin queda invalidado.
Si por el contrario se plantease el problema en los trminos opuestos, la inclusin de
variables irrelevantes en el modelo propuesto da lugar a estimadores mnimo cuadr-
ticos insesgados y consistentes, pero que sin embargo presentan varianzas estimadas
superiores a las que les corresponderan. As pues, en este caso los contrastes de signi-
cacin sern tambin excesivamente exigentes, y adems podran aparecer problemas
asociados a la prdida de grados de libertad y la presencia de multicolinealidad entre
las variables.
En efecto, si sobre el modelo anteriormente planteado como verdadero 10.3, proponemos ahora
la inclusin de una variable X
k+1
que resulta irrelevante para explicar Y , entonces el coeciente de
dicha variable sera nulo y el modelo a estimar sera:
Y
i
=
1
+
2
X
2i
+ +
k1
X
k+1,i
+u
i
con u
i
= u
i
k+1
X
k+1,i
= u
i
. Por tanto, en este caso no existirn diferencias en las perturbaciones
de ambos modelos.
Las consecuencias sobre la estimacin del modelo dependern del grado de relacin lineal de la
variable irrelevante incluida con las excluidas. En general la varianza estimada se ver poco afectada
mientras que la matriz inversa de XX tendr en general diagonales mayores con el consiguiente
aumento de las varianzas asociadas a los estimadores y a los errores de prediccin.
El problema de especicacin inadecuada puede ser contrastado partiendo de un
modelo ampliado, en el que se incluyen como explicativas las variables que dudamos
incluir en el modelo, contrastando sobre dicho modelo la nulidad de los coecientes
asociados a dichas variables (que sera un caso particular de restriccin referida a un
subconjunto de parmetros). As pues, bajo la hiptesis nula seran nulos los coe-
cientes de las variables sobre las que dudamos y por tanto, nicamente si rechazamos
la hiptesis deberamos incluir dichas variables en el modelo.
Este contraste, es un caso particular del test de restricciones sobre coecientes y por tanto puede
ser resuelto mediante la expresin
366
_
u
R
u
R
u
u
u
u
_
n k
r
F
r
nk
o bien mediante una razn de verosimilitudes (LR)
LR = 2 (ln L
R
ln L) = nln
_
u
R
u
R
u
u
_
2
r
donde u
R
u
R
son los residuos cuadrticos del modelo restringido (es decir, sin las variables explicativas
sobre las que dudamos).
Las expresiones anteriores pueden aplicarse en dos modalidades: partiendo de un modelo restringido
nos plantearamos si es conveniente aadir nuevas variables explicativas o bien partiendo de un modelo
ampliado contrastaramos si es aconsejable eliminar del mismo algunas variables explicativas por
ser irrelevantes (como hemos sealado, en ambos casos la hiptesis nula equivale a armar que las
variables sobre las que dudamos no son relevantes para explicar Y , y lgicamente la conclusin a la
que llegaremos ser la misma con independencia del planteamiento de partida).
10.4.1.3. Test de especicacin RESET de Ramsey
El test RESET (Regression Error Specication Test) detecta errores de especi-
cacin en sentido amplio (es decir, forma funcional incorrecta, variables relevantes
omitidas, variables irrelevantes incluidas. . . ). Para plantear este contraste se parte de
un modelo inicial
Y =

1
+

2
X
2
+ +

k
X
k
(10.6)
Si sospechamos que este modelo no est bien especicado pero desconocemos qu
nuevas variables se podran incorporar, consideraremos como proxies los exponentes
de la variable estimada:

Y
2
o

Y
3
y propondremos un modelo ampliado:
Y =
1
+
2
X
2
+ +
k
X
k
+
1
Y
2
+
2
Y
3
+v (10.7)
sobre el que planteamos como hiptesis nula que todos los coecientes de la parte no
lineal del modelo son nulos, esto es, que el modelo inicial est correctamente especi-
cado.
H
0
:
1
=
2
= 0
H
1
:
1
,= 0 y/o
2
,= 0
Para realizar este contraste se utiliza la prueba F comparando los residuos del
modelo base (restringido) y del modelo ampliado (se tratara por tanto de un caso
particular del test de restricciones lineales)
_
u
R
u
R
u
u
u
u
_
n k
r
F
r
nk
367
10.4.2. Alteracin de las hiptesis sobre la perturbacin
Hemos enunciado diferentes supuestos sobre la perturbacin aleatoria u: esperanza
nula, varianza constante, ausencia de autocorrelacin y distribucin normal. Dado que
la perturbacin u es un vector aleatorio de carcter no observable, la nica posibilidad
de analizar el cumplimiento de los supuestos ser adoptar como referencia el vector
de residuos u asociados al modelo.
10.4.2.1. Perturbaciones de media no nula
El supuesto de esperanza nula para los residuos resulta fcilmente admisible, ya
que parece lgica la compensacin de desviaciones por exceso con otras por defecto.
Sin embargo, podra ocurrir que, debido por ejemplo a especicaciones incorrectas del
modelo, las perturbaciones presentasen una componente sistemtica con lo cual su
valor esperado ya no sera nulo.
Las consecuencias de este hecho son distintas segn que E(u) sea constante o varia-
ble: en el primer caso, el efecto se produce solamente sobre el trmino independiente
por lo que no suele resultar grave pero en cambio si la esperanza de las perturbaciones
es variable, los estimadores pasarn a ser sesgados e inconsistentes.
E(u) constante
Si E(u) es constante, esta componente afecta tan slo a las conclusiones sobre el trmino indepen-
diente ya que se obtendra:
Y =
1
+
2
X
2
+ +
k
X
k
+u E(Y ) = (
1
+E(u)) +
2
X
2
+ +
k
X
k
E(u)variable
En cambio, cuando las perturbaciones presentan esperanza variable la situacin resulta ms grave,
ya que en este supuesto se comprueba que los estimadores mnimo cuadrticos resultan sesgados e
inconsistentes. De hecho, las perturbaciones de media variable son una consecuencia de la omisin de
variables relevantes analizada anteriormente.
Como hemos visto, en este caso se propondran expresiones del tipo y = X
1
1
+v, en lugar de la
especicacin correcta y = X
1
1
+X
2
2
+u. Tomando esperanzas se obtiene:
E(y) = X
1
1
+E(v)
E(y) = X
1
1
+X
2
2
+u
y como consecuencia E(v) = X
2
2
= 0.
La hiptesis de esperanza nula de la perturbacin no puede ser contrastada mediante
la informacin muestral, ya que el procedimiento mnimo cuadrtico garantiza un
valor nulo para la suma (y en consecuencia tambin para la media) de los errores de
estimacin.
10.4.2.2. Matriz de varianzas-covarianzas no escalar
En el modelo lineal bsico se asume el supuesto de una matriz de covarianzas escalar:
Cov(u) = E(uu
) =
2
I
n
, expresin que resume las hiptesis de homoscedasticidad y
368
no autocorrelacin. Como consecuencia de la primera, la diagonal de la matriz est
formada por varianzas constantes E(u
2
i
) =
2
, i = 1, . . . , n, mientras que el segundo
supuesto garantiza la nulidad de los restantes elementos de la matriz: E(u
i
u
j
) =
0 , i ,= j.
Resulta interesante estudiar las consecuencias del incumplimiento del supuesto E(uu
) =
2
I
n
, para lo cual asumiremos que se cumple E(uu
) = V o bien E(uu
) =
2
donde
es una matriz denida positiva no escalar. En este caso los elementos de la diagonal
principal de la matriz de varianzas-covarianzas no son coincidentes y sus restantes
elementos pueden ser no nulos (en estas condiciones las perturbaciones se denominan
no esfricas).
Si en esta situacin se lleva a cabo la estimacin por MCO se obtiene:

MCO
=
(X
X)
1
X
y, expresin que resulta insesgada y consistente pero no ptima para esti-

mar .
Los estimadores

MCO
son insesgados: E
_
MCO
_
=
Los estimadores son consistentes
Los estimadores no son ptimos ya que su matriz de varianzas-covarianzas es
ahora:
E
_
_
MCO
-
__
MCO
-
_
_
= E
_
(X
X)
1
X
uu
X(X
X)
1
=
2
_
(X
X)
1
X
X(X
X)
1
expresin que no coincide con

2
(X
X)
1
que, como ya hemos visto es el valor mnimo
(obsrvese que la coincidencia se producira si = I, en cuyo caso la matriz sera
escalar).
Para llevar a cabo la estimacin de la matriz anterior, es necesario sustituir
2
por
su estimador insesgado, que viene ahora dado por la expresin: S
2
=
u
u
tr(M)
Este estimador supone un cambio respecto a la expresin utilizada en el modelo bsico S
2
=
u
u
nk
.
La justicacin es que, sustituyendo los residuos por su expresin u = Mu, se obtiene ahora:
E
_
u
u
_
= trME
_
u
u
_
=
2
trM
As pues, si sobre un modelo con perturbaciones no esfricas aplicamos los desa-
rrollos de MCO ignorando esta violacin de supuestos, introduciramos un doble ses-
go al estimar la matriz de varianzas-covarianzas, ya que asumiramos que sta vie-
ne dada por la expresin S
2
MCO
=
u
u
nk
(X
X)
1
cuando la expresin correcta es:
S
2
MCO
=
u
u
trM
_
(X
X)
1
X
X(X
X)
1
. Se aprecia fcilmente que estaramos cuan-

ticando los dos componentes de esta expresin incorrectamente, sin que sea posible
a priori avanzar el signo del sesgo cometido.
Con el objetivo de evitar los problemas sealados y conseguir estimadores que mejo-
ren los MCO se propone una transformacin del modelo hasta obtener una matriz de
369
varianzas-covarianzas que sea escalar. El mtodo seguido para ello es buscar una ma-
triz P cuadrada no singular de orden n, tal que PP =
1
, donde
1
es simtrica
y denida positiva por ser la inversa de .
Si premultiplicamos el modelo de regresin por esta matriz P se obtiene:
Py = PX +Pu (10.8)
modelo transformado para el que se cumplen los supuestos bsicos sobre las pertur-
baciones (esperanza nula y matriz de varianzas-covarianzas escalar).
En efecto, se tiene:
E(Pu) = 0
V ar(Pu) = E
_
Pu(Pu)
_
= E(Puu
) =
2
PP
=
2
P(P
P)
1
P
=
2
PP
1
(P
)
1
P
=
2
I
La aplicacin a este modelo transformado 10.8 de los estimadores mnimos cuadra-
dos proporciona los estimadores de mnimos cuadrados generalizados (MCG) deno-
minados tambin estimadores de Aitken en honor del autor que en 1935 plante por
primera vez esta estimacin.
La expresin de los estimadores MCG se obtiene aplicando la expresin mnimo
cuadrtica al modelo 10.8, es decir:
MCG
=
_
(PX)
(PX)
1
(PX)
Py =
_
X
1
X
_
1
X
1
y
y teniendo en cuenta que el modelo transformado cumple todas las hiptesis relativas
a las perturbaciones u, podemos garantizar que estos estimadores sern lineales inses-
gados y ptimos (ELIO).
Si expresamos el modelo transformado 10.8 como y
= X
+u
sera posible aplicar las ex-

presiones deducidas en el modelo bsico para la estimacin mnimo-cuadrtica, equivalentes a las
anteriores:
Modelo Transformado Modelo Inicial
y
= X
+u
Y = X +u
Estimadores

MCG
=
_
X
_
1
X
MCG
=
_
X
1
X
_
1
X
1
y
Matriz Var-Cov Cov
_
MCG
_
=
2
_
X
_
1
Cov
_
MCG
_
=
2
_
X
1
X
_
1
La matriz de varianzas-covarianzas viene dada en este caso por la expresin:
V ar
_
MCG
_
= E
_
_
MCG
__
MCG
_
_
=
2
_
X
X
_
1
siendo S
2
=
u
1
u
nk
el estimador insesgado de
2
, con los residuos obtenidos me-
diante el modelo de MCG: u = y X
MCG
370
Se comprueba fcilmente que los estimadores

MCG
son insesgados: E
_
MCG
_
= y consis-
tentes.
Por su parte, la matriz de varianzas covarianzas se obtiene como:
Cov
_
MCG
_
= E
__
MCG
__
MCG
_
= E
__
_
X
1
X
_
1
X
1
y
__
_
X
1
X
_
1
X
1
y
_
_
= E
__
_
X
1
X
_
1
X
1
(X +u)
__
_
X
1
X
_
1
X
1
y(X +u)
_
_
= E
_
_
_
_
X
1
X
_
1
_
X
1
X
_
+
_
X
1
X
_
1
X
1
u
_
_
_
X
1
X
_
1
_
X
1
X
_
+
_
X
1
X
_
1
X
1
u
_
_
_
= E
_
_
X
1
X
_
1
X
1
u
_
_
X
1
X
_
1
X
1
u
_
_
= E
_
_
X
1
X
_
1
uu
1
X
_
X
1
X
_
1
_
=
_
X
1
X
_
1
E(uu
)
1
X
_
X
1
X
_
1
=
_
X
1
X
_
1
X
_
X
1
X
_
1
=
2
_
_
X
1
X
_
1
X
1
X
_
X
1
X
_
1
_
=
2
_
X
1
X
_
1
expresin que resulta mnima en la clase de estimadores lineales insesgados para el modelo transfor-
mado.
De forma ms sencilla, se puede llegar a esta expresin partiendo del modelo transformado y
= X
+u
Cov
_
MCG
_
=
2
_
X
_
1
=
2
_
X
PX
_
1
=
2
_
X
1
X
_
1
Del mismo modo, para la estimacin de la varianza se tiene:
S
2
=
u
MCG
u
MCG
n k
=
1
n k
__
y
_
y
__
=
1
n k
__
y X
P
_
y X
__
=
1
n k
_
u
1
u
_
La presencia de la matriz en las expresiones de los estimadores de MCG resulta
problemtica, ya que difcilmente se concibe que, desconociendo los parmetros, co-
nozcamos los valores de las varianzas-covarianzas de las perturbaciones aleatorias.
Bajo la hiptesis de normalidad para las perturbaciones, es posible comprobar que, en el caso de
una matriz de varianzas-covarianzas no escalar, los estimadores mximo verosmiles de coinciden
con las expresiones de MCG anteriormente deducidas.
A la vista de los anlisis anteriores, podemos concluir que, si las perturbaciones
aleatorias presentan matriz de varianzas-covarianzas no escalar, la utilizacin de MCO
conducir a estimadores no ptimos y a varianzas muestrales incorrectas, con lo cual los
371
contrastes de signicacin sobre el modelo carecern de validez. Estos inconvenientes
son solucionados por los estimadores de MCG tal y como resume en la tabla siguiente:
MCO MCG
E
_
MCO
_
= E
_
MCG
_
=
Cov
_
MCO
_
=
2
_
(X
X)
1
X
X(X
X)
1
Cov
_
MCG
_
=
2
_
X
1
X
1
S
2
=
u
u
tr(M)
S
2
=
u
1
u
nk
10.4.2.3. Heteroscedasticidad. Deteccin y soluciones
Segn el supuesto de homoscedasticidad, todas las perturbaciones u
i
presentan idn-
tica varianza. Sin embargo, en la prctica -especialmente en los modelos de corte
transversal- sucede con frecuencia que estas varianzas se ven afectadas por los valores
de la variable, cumplindose entonces que i ,= j
i
,=
j
, fenmeno denominado
heteroscedasticidad.
Causas Las causas de la heteroscedasticidad son de diversa ndole: una de ellas pue-
de ser la omisin de alguna variable relevante en la especicacin del modelo, que
introduce un efecto que se acumula en el residuo. Como consecuencia, si la variable
presenta tendencia, sta origina mayores residuos al aumentar su valor con el consi-
guiente incumplimiento del supuesto de homoscedasticidad.
En otros casos puede producirse un cambio estructural, que da lugar a una alteracin
en la dimensin de las perturbaciones y en su varianza antes y despus de determinado
acontecimiento.
Bajo el supuesto de homoscedasticidad se cumpla E(uu
) =
2
I
n
, pero si se viola
esta hiptesis la diagonal de la matriz estar formada por elementos
2
i
no coincidentes.
Dado que se trata de un caso particular del supuesto de matriz E(uu
) no escalar, las
consecuencias de la heteroscedasticidad sern la obtencin de estimadores que -aunque
insesgados y consistentes- no son ptimos, la presencia de un sesgo en el clculo de
las varianzas muestrales y la aplicacin incorrecta de los contrastes de signicacin.
Con la presencia de heteroscedasticidad, los estimadores MCO seguirn siendo in-
sesgados y consistentes, pero dado que la matriz de Covarianzas es no escalar, sera
vlido lo desarrollado en el epgrafe anterior.
Por lo que se reere a la deteccin de la heteroscedasticidad, una primera aproxi-
macin consiste en observar la nube de puntos, para saber si la dispersin vara con
las observaciones de alguna variable explicativa. Adems, existen diversos contrastes
para identicar el problema a partir de procedimientos tanto paramtricos como no
paramtricos.
Entre los segundos se encuentran el contraste de picos, basado en la representacin
grca de los residuos del modelo y el contraste de rangos. Por su parte, los contrastes
paramtricos incluyen el test de Goldfeld y Quandt, el de White o el de Breusch-Pagan.
372
Figura 10.4.: Grcos de heterocedasticidad
0
5
10
15
20
25
30
50 100 150 200 250 300 350
Y
A
X
0
1000
2000
3000
4000
5000
6000
7000
8000
50 100 150 200 250 300 350
Y
B
X
Anlisis grco Una de las herramientas ms claras para observar el cumplimiento
de la hiptesis de homoscedasticidad es la representacin grca de los residuos del
modelo.
Bajo la hiptesis nula de homoscedasticidad esperamos un comportamiento de los
residuos en el que la variabilidad no aumente ni disminuya con los valores de X, o no
detectemos la existencia de varias subpoblaciones en la muestra.
Contraste de Goldfeld y Quandt El contraste de Goldfeld y Quandt (1965) plantea
como hiptesis nula el supuesto de homoscedasticidad:
H
0
:
2
i
=
2
j
i = 1, , n
H
1
:
2
i
= g(X
i
) siendo g una funcin montona
Para llevar a cabo este test resulta necesario ordenar los datos de la muestra segn
los valores de la variable explicativa ligada a la heteroscedasticidad (es decir, la que
presumiblemente est relacionada con las varianzas de los perturbaciones).
A continuacin, se eliminan p valores centrales, al objeto de tener dos submuestras
claramente diferenciadas: la primera integrada por los
np
2
primeros datos y la segun-
da por otros tantos correspondientes a las observaciones nales. Sobre cada una de
estas submuestras se llevan a cabo estimaciones del modelo, obteniendo las correspon-
dientes distribuciones de residuos, que denotamos respectivamente por u
1
y u
2
.
El hecho de realizar dos regresiones diferenciadas permite separar en la medida de lo posible
los valores extremos de la variable a la que se asocia la heteroscedasticidad y adems garantiza la
independencia necesaria entre las formas cuadrticas para denir a partir de ellas una F de Snedecor.
La comparacin de estas distribuciones de errores se lleva a cabo por cociente,
obteniendo una distribucin F de Snedecor con
np
2
k grados de libertad tanto en
el numerador como en el denominador:
373
u
2
u
2
u
1
u
1
F
np
2
k
np
2
k
Si el valor del estadstico es elevado (y por tanto el nivel crtico es reducido) el
resultado indicar que la dispersin de la segunda submuestra es muy superior a la de
la primera, por lo cual conducir al rechazo de la hiptesis nula de homoscedasticidad.
Contraste de White El test de White (1980) establece como el anterior la hiptesis
nula de homocedasticidad si bien en este caso la alternativa es la heteroscedasticidad
en un sentido ms amplio
H
0
:
2
i
=
2
j
i = 1, , n
H
1
:
2
i
,=
2
j
para algn i,=j
La resolucin del contraste se basa en la regresin de los cuadrados de los residuos
del modelo estimado sobre las variables explicativas del modelo, sus cuadrados y todos
los productos cruzados, es decir:
u
2
=
0
+
k
i,j=1
ij
X
i
X
j
+
Bajo la hiptesis nula de homoscedasticidad se cumple nR
2

2
m
, donde n es el
tamao muestral, R
2
el coeciente de determinacin en la regresin auxiliar y m el
nmero de regresores de este modelo auxiliar sobre los residuos cuadrticos (es decir,
nmero de parmetos menos 1, ya que se excluye el trmino independiente),
En caso de que el nmero de grados de libertad fuera reducido se podra proponer un modelo
similar al anterior pero excluyendo los productos cruzados de variables.
Si la hiptesis nula de homoscedasticidad es cierta se esperan valores bajos del coeciente de de-
terminacin del modelo auxiliar, y en consecuencia tambin del estadstico chi-cuadrado. As pues, a
medida que esta expresin aumenta su valor nos proporciona argumentos para el rechazo del supuesto
de homoscedasticidad.
El test de White se dice que es el ms general por cuanto no exige supuestos pre-
vios al comportamiento de los residuos (no exige normalidad) ni tampoco hay que
pronunciarse con antelacin sobre las variables X que pueden estar causando esta
heteroscedasticidad.
Una vez identicado el problema y su deteccin resulta interesante apuntar solu-
ciones para la heteroscedasticidad. En este sentido, sera aplicable la posibilidad ya
estudiada de sustituir el mtodo de mnimos cuadrados por una generalizacin que pro-
porcione matrices de varianzas-covarianzas escalares. En concreto, resulta conveniente
investigar la relacin entre las varianzas y las variables explicativas para plantear un
374
modelo transformado o ponderado al que se aplican mnimos cuadrados.
A modo de ilustracin, si asumimos el supuesto terico
2
i
=
2
X
i
se buscara una matriz de
ponderaciones P tal que el modelo transformado Py = PX +Pu sea homoscedstico, esto es,
E[(Pu)
(Pu)] =
2
I.
En consecuencia, podramos buscar las ponderaciones P
i
necesarias para cada valor:
E (P
i
u
i
)
2
=
2
P
2
i
E (u
i
)
2
=
2
P
2
i

2
X
i
=
2
P
i
=
1
X
i
[Cul sera el razonamiento si
2
i
=
2
X
2
i
? Y si
2
i
=

2
X
2
i
?]
En la prctica la determinacin de ponderaciones no resulta sencilla al ser desconocidas las varian-
zas poblacionales. Por ello suele seguirse el procedimiento propuesto por Glejser (1969), que consiste
en plantear diferentes regresiones de los residuos (en trminos absolutos o cuadrticos) respecto a la
variable explicativa asociada a la heteroscedasticidad, seleccionando entre todas ellas la ms signi-
cativa.
10.4.2.4. Autocorrelacin. Contraste de Durbin-Watson
La alteracin de la hiptesis de no autocorrelacin entre las perturbaciones puede
producirse por diferentes causas, como la presencia de "inercia" en los acontecimientos
econmicos y sociales (que extiende las consecuencias de cierta accin a varios pero-
dos de tiempo), la especicacin errnea del modelo, o ciertos cambios estructurales
que pueden producir errores sistemticos y autocorrelados.
La presencia de autocorrelacin se estudia en general en datos de serie temporal. Sin embargo,
tambin para estudios de corte transversal la proximidad entre observaciones puede introducir corre-
laciones entre las correspondientes perturbaciones.
Por lo que respecta a los efectos introducidos por la autocorrelacin, las consecuen-
cias son las propias de una matriz no escalar, que como ya hemos comentado son la
ineciencia de los estimadores y la presencia de un sesgo en la varianza muestral, que
desaconseja realizar contrastes de signicacin.
Para detectar la presencia de autocorrelacin, resulta muy aconsejable como prime-
ra aproximacin un examen grco de los residuos, cuyo patrn de comportamiento
temporal puede delatar la presencia de correlaciones lineales tal y como recoge la
gura 10.5
Aunque en principio la presencia de autocorrelacin vendra descrita de forma gen-
rica como E(u
i
u
j
) ,= 0, resulta conveniente especicar ciertos esquemas concretos de
correlacin entre los residuos. As, el contraste de autocorrelacin de Durbin y Watson
de utilizacin generalizada, considera las perturbaciones relacionadas segn el esque-
ma: u
t
= u
t1
+
t
, donde u
t
recoge la perturbacin asociada al instante t, y se
cumple:
375
Figura 10.5.: Autocorrelacin
[[ < 1 ,
t
A(0,
2
I)
Esta especicacin se conoce como modelo autorregresivo de orden 1 o AR(1) de-
bido a que cada perturbacin se relaciona consigo misma desfasada un perodo. Por
tanto, se adopta un esquema de comportamiento de los errores en el que aparece una
componente sistemtica -la incidencia del instante anterior- y otra aleatoria (), para
la que se asumen los supuestos de normalidad, esperanza nula, homoscedasticidad e
incorrelacin.
A las variables que cumplen estos requisitos se las denomina ruidos blancos, siendo
su utilizacin frecuente en la modelizacin estocstica de series temporales. Sustitu-
yendo en la expresin de u
t
se obtiene:
u
t
= u
t1
+
t
= (u
t2
+
t1
) +
t
=
t
+
t1
+
2
2
+ =
i=0
ti
con las caractersticas siguientes:
E (u
t
) = E
_

i=0
ti
_
= 0
V ar(u
t
) = E
_
i=0
ti
_
= E
_
_
_
i=0
2i
2
ti
+
i=j
ti
tj
. .
E(
ti
tj
)=0
_
_
_
=
i=0
2i
E
_
2
ti
_
=

2
1
2
Esta varianza
376
2
u
=

2
1
2
depende de la varianza de (que se asume constante) y de la autocorrelacin .
El contraste de ausencia de autocorrelacin se expresa:
H
0
: = 0
H
1
: ,= 0
y dado que las perturbaciones u no son observables el contraste debe llevarse a cabo
con sus errores de estimacin u. Partiendo de estos residuos, Durbin y Watson (1950)
denieron la expresin:
d
DW
=
n
t=2
( u
t
u
t1
)
2
n
t=1
u
2
t
que, para tamaos elevados de muestra podr escribirse aproximadamente como: d
(1 ) siendo el coeciente de autocorrelacin estimado.
Los valores de este coeciente estimado permiten extraer distintas conclusiones sobre
la autocorrelacin:
Si 1 entonces d 0 y estaremos en situacin de autocorrelacin positiva,
esto es, la perturbacin en cada instante est muy inuida por la del instante
anterior.
Si 1 entonces se obtiene d prximo al valor 4, asociado a la autocorrelacin
negativa (en este caso a un valor alto de la perturbacin le seguir uno bajo y
viceversa).
Si 0 el estadstico d toma valores cercanos a 2, indicativos de la ausencia de
correlacin serial.
Es posible comprobar que 0 d 4 y que el caso particular d = 2 indica ausencia de
autocorrelacin. Adems, el estadstico d es funcin del tamao muestral, de la matriz
X de datos y del nmero de regresores k
= k 1.
Para tratar de solucionar este inconveniente, Durbin y Watson demostraron que
la distribucin de d est comprendida entre otras dos distribuciones auxiliares que
denominan d
L
y d
U
y que no dependen de X sino slo del tamao muestral (n)
y del nmero de parmetros (k) o de variables (k = k 1). La comparacin del
estadstico d con estas distribuciones auxiliares conduce a las siguientes conclusiones
para el contraste de la hiptesis de ausencia de autocorrelacin:
377
Tabla 10.4.: Contraste de Durbin-Watson. Valores signicativos al 5 %
k = 2 3 4 5 6 10
n d
L
d
U
d
L
d
U
d
L
d
U
d
L
d
U
d
L
d
U
d
L
d
U
10 0, 879 1, 320 0, 697 1, 641 0, 525 2, 016 0, 376 2, 414 0, 243 2, 822
11 0, 927 1, 324 0, 758 1, 604 0, 595 1, 928 0, 444 2, 283 0, 316 2, 645
12 0, 971 1, 331 0, 812 1, 579 0, 658 1, 864 0, 512 2, 177 0, 379 2, 506
13 1, 010 1, 340 0, 861 1, 562 0, 715 1, 816 0, 574 2, 094 0, 445 2, 390
14 1, 045 1, 350 0, 905 1, 551 0, 767 1, 779 0, 632 2, 030 0, 505 2, 296 0, 127 3, 360
15 1, 077 1, 361 0, 946 1, 543 0, 814 1, 750 0, 685 1, 977 0, 562 2, 220 0, 175 3, 216
20 1, 201 1, 411 1, 100 1, 537 0, 998 1, 676 0, 894 1, 828 0, 792 1, 991 0, 416 2, 704
25 1, 288 1, 454 1, 206 1, 550 1, 123 1, 654 1, 038 1, 767 0, 953 1, 886 0, 621 2, 419
30 1, 352 1, 489 1, 284 1, 567 1, 214 1, 650 1, 143 1, 739 1, 071 1, 833 0, 782 2, 251
35 1, 402 1, 519 1, 343 1, 584 1, 283 1, 653 1, 222 1, 726 1, 160 1, 803 0, 908 2, 144
40 1, 442 1, 544 1, 391 1, 600 1, 338 1, 659 1, 285 1, 721 1, 230 1, 786 1, 008 2, 072
45 1, 475 1, 566 1, 430 1, 615 1, 383 1, 666 1, 336 1, 720 1, 287 1, 776 1, 089 2, 022
50 1, 503 1, 585 1, 462 1, 628 1, 421 1, 674 1, 378 1, 721 1, 335 1, 771 1, 156 1, 986
100 1, 654 1, 694 1, 634 1, 715 1, 613 1, 736 1, 592 1, 758 1, 571 1, 780 1, 484 1, 874
d < d
L
Rechazo de la hiptesis nula
(Zona de autocorrelacin positiva)
d
U
< d < 4 d
U
No rechazo de la hiptesis nula
(Zona de no autocorrelacin)
d > 4 d
L
Rechazo de la hiptesis nula
(Zona de autocorrelacin negativa)
Las distribuciones de d
L
y d
U
aparecen tabuladas para distintos tamaos muestrales y nmero de
variables explicativas. En dichas tablas puede observarse que existen zonas de duda en las que no
es posible llegar a conclusiones denitivas (seran de aceptacin para una distribucin auxiliar y de
rechazo para otra).
Dichas zonas no concluyentes son: d
L
d d
U
y 4 d
U
d 4 d
L
.
A modo de ilustracin, recogemos algunos de los valores de estas variables auxiliares en la tabla 10.4
Por lo que se reere a las soluciones a la autocorrelacin, consisten en especicar
un modelo autorregresivo -en el caso ms sencillo un AR(1)- con lo cual el modelo
podra ser expresado:
Y
t
=
1
+
2
X
t
+u
t
=
1
+
2
X
t
+ (u
t1
+
t
)
Dado que para el perodo anterior se tendra: Y
t1
=
1
+
2
X
t1
+u
t1
, es posible
multiplicar esta segunda igualdad por , obteniendo mediante diferencia el modelo
transformado:
Y
t
Y
t1
= (1 )
1
+ (X
t
X
t1
)
2
+
t
378
es decir
Y
t
=
1
+
2
X
t
+
t
que si
t
se adapta a los supuestos necesarios ya no presentar problemas de autoco-
rrelacin.
En la prctica, para el tratamiento de la autocorrelacin se suele aplicar el procedimiento de
Cochrane-Orcutt (1949), que abarca las etapas siguientes:
Estimacin por MCO y clculo de los residuos, para estimar el valor
Transformacin del modelo Y
t
=
1
+
2
X
t
+
t
que se estima nuevamente por MCO
Repeticin de este procedimiento hasta que la diferencia entre dos estimaciones consecutivas
de sea muy pequea (menos de 0,005)
No obstante, existe polmica respecto a la adecuacin de este procedimiento porque no necesaria-
mente conduce a un ptimo global.
10.4.2.5. No normalidad
La hiptesis de normalidad de la perturbacin aleatoria es la base de todo el proceso
inferencial sobre el modelo lineal bsico. Por tanto, el incumplimiento de este supuesto
podra afectar seriamente a los contrastes de signicacin desarrollados.
En apartados anteriores hemos comprobado que los estimadores mnimo cuadrticos
son ELIO, es decir, lineales insesgados y ptimos. Estas propiedades se cumplen con
independencia de la distribucin probabilstica de u y por tanto no se ven afectadas
por el incumplimiento de la hiptesis de normalidad.
Sin embargo, el supuesto de normalidad aade armaciones ms fuertes que el
teorema de Gauss-Markov: si el vector de perturbaciones u es normal el vector de
estimaciones mximo verosmiles (EMV) coincide con el vector de estimadores mnimo
cuadrticos y adems no existe ningn otro vector insesgado (lineal o no lineal) cuya
varianza sea menor (teorema de Rao que extiende los resultados de Gauss-Markov).
Adems, el incumplimiento de la hiptesis de normalidad impide conocer el modelo
probabilstico seguido por el vector mnimo cuadrtico y el de residuos. Como conse-
cuencia, los estadsticos empleados en los procesos inferenciales, que seguan modelos
chi cuadrado, t de Student o F de Snedecor, todos ellos derivados del normal, tampoco
se adaptarn ahora a dichas distribuciones, con lo cual los contrastes habituales de
hiptesis dejan de ser vlidos (nicamente con tamaos muestrales elevados y bajo
ciertas condiciones podran obtenerse distribuciones asintticas).
Parece por tanto aconsejable contrastar si el supuesto de normalidad de u es o no
admisible y, dado que las verdaderas perturbaciones son desconocidas, el contraste de
normalidad se lleva a cabo sobre los residuos del modelo u siguiendo los procedimientos
379
Figura 10.6.: Contraste de normalidad (bondad de ajuste)
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
-1.5 -1 -0.5 0 0.5 1
D
e
n
s
i
d
a
d
uhat1
uhat1
N(3.4316e-16,0.39612)
Estadstico para el contraste de normalidad:
Chi-cuadrado(2) = 9.376 [0.0092]
habitualmente empleados (contrastes de Jarque-Bera, Kolmogorov-Smirnov o Chi-
cuadrado).
La hiptesis nula es la normalidad de las perturbaciones y ser contrastada a partir de los residuos.
Por tanto nos estamos basando en la informacin muestral para estimar los parmetros, hecho que
debe ser tenido en cuenta en el clculo de los niveles crticos.
As, si optsemos por el procedimiento de Kolmogorov-Smirnov para contrastar la normalidad de
u, resultara necesario llevar a cabo la estimacin de los parmetros esperanza y varianza a partir de
la muestra y las correspondientes probabilidades deberan ser consultadas en las tablas modicadas
de Lilliefors.
10.4.3. Alteracin de las hiptesis estructurales
Adems de las hiptesis referidas a las perturbaciones es necesario examinar si
el modelo se adapta a los supuestos de tipo estructural con los que habitualmente
trabajamos.
10.4.3.1. Regresores estocsticos
En el desarrollo del modelo bsico de regresin se asume que la matriz X de regreso-
res es ja, es decir, adopta los mismos valores para distintas muestras. Esta hiptesis
de regresores no estocsticos, que es admisible para las ciencias experimentales, pue-
de sin embargo resultar restrictiva en ciencias sociales, ya que los datos se obtienen
habitualmente por observacin.
Teniendo en cuenta que en las investigaciones econmicas dispondremos en general
de muestras con informacin histrica sobre todas las magnitudes investigadas (re-
gresando y regresores) resulta aconsejable estudiar qu efectos tendra sobre nuestros
380
resultados la consideracin de regresores estocsticos.
Entre las razones que justican la consideracin de X como estocstica se encuentran la espe-
cicacin de modelos que consideran como explicativas las variables endgenas retardadas. As, si
Y
i
=
1
+
2
X
i
+
3
Y
i1
+u
i
la variable Y
i1
es aleatoria por depender de la perturbacin u
i1
.
Del mismo modo, cualquier modelo de ecuaciones simultneas en el que aparezca como explicativa
alguna variable endgena deber considerarse por denicin de regresores estocsticos. Otra posible
razn del carcter estocstico de X es la presencia de errores en las variables del modelo, como con-
secuencia de una medicin inadecuada de las mismas.
El carcter estocstico de la matriz X no afectar a nuestros resultados siempre que
se cumplan dos condiciones:
Las variables explicativas tienen distribucin independiente de los parmetros
de la regresin.
Las variables explicativas tienen distribucin independiente de la perturbacin
aleatoria.
Esta segunda condicin no suele cumplirse en la prctica, hecho que afecta a los esti-
madores que pasan a ser sesgados y llevan asociadas matrices de varianzas-covarianzas
inferiores a las reales.
Examinando las situaciones anteriormente planteadas se observa que en los modelos que incluyen
como explicativas variables endgenas retardadas Y
i
=
1
+
2
X
i
+
3
Y
i1
+u
i
tan slo puede garan-
tizarse la independencia entre valores contemporneos de las variables explicativas y la perturbacin
aleatoria (X
i
y u
i
) en el caso de que no exista un proceso autorregresivo en las perturbaciones.
Por su parte, los modelos de ecuaciones simultneas y los que contienen errores de medida en las
variables incumplen sistemticamente la condicin de independencia entre las variables explicativas
y la perturbacin aleatoria.
10.4.3.2. Matrices X de rango no pleno
Hasta ahora hemos asumido que la matriz de regresores tiene rango k, esto es,
(X) = k. Dado que la matriz X tiene k columnas (tantas como parmetros) y n
las (observaciones muestrales), esta hiptesis resume dos supuestos: por una parte,
la informacin estadstica disponible sobre el conjunto de variables observables debe
ser sucientemente amplia para llevar a cabo la solucin del modelo (n > k) y por
otra, las columnas de la matriz X deben ser linealmente independientes, es decir, no
debe existir relacin lineal exacta entre los regresores del modelo.
El primer requisito va relacionado con el tamao muestral que debe superar al n-
mero de parmetros k. A efectos operativos suele exigirse que el nmero de grados de
libertad del modelo (nk) sea sucientemente elevado para garantizar un proceso de
estimacin adecuado.
381
Debemos tener en cuenta que las expresiones utilizadas en los procesos inferenciales contienen
explcitamente el nmero de los grados de libertad n k. Por tanto, aunque un tamao de muestra
pequeo no viola ninguna de las hiptesis bsicas del modelo, s tiene consecuencias negativas al
conducir a estimaciones que, aunque insesgadas y ecientes, presentan varianzas comparativamente
ms altas que las obtenidas con tamaos muestrales superiores.
Para evitar este tipo de problemas, es recomendable eliminar de un modelo las variables menos
signicativas, con lo cual se dispone de ms grados de libertad. El principio de parquedad o par-
simonia consiste en buscar el modelo que, con el mnimo nmero de variables explicativas, consiga
un grado de ecacia explicativa comparable con otros ms complejos.
Por otra parte, en el caso de que existiera relacin lineal entre algn subconjunto
de regresores, el rango de la matriz X sera inferior a k y por tanto no sera posible
determinar los estimadores del modelo. Aparecera as una multicolinealidad perfecta,
situacin en la que se tiene:
(X) < k (X
X) < k [X
X[ = 0
con lo cual no resulta posible la determinacin de los EMC.
10.4.3.3. Multicolinealidad
La presencia de relaciones lineales exactas entre los regresores no resulta frecuente
en la prctica, por lo que la multicolinealidad perfecta se estudia tan slo como un
supuesto terico extremo.
Como hemos visto, se presentara un caso de multicolinealidad perfecta cuando en un modelo
con variables explicativas de carcter cualitativo introdujramos tantos regresores como modalidades
tenga la caracterstica investigada. Esta situacin, denominada trampa de la multicolinealidad de las
variables cticias se soluciona reduciendo en uno el nmero de variables cualitativas introducidas en
el modelo.
Otras situaciones en las que podra presentarse la multicolinealidad perfecta seran la presencia en
el modelo de una variable explicativa con valor constante (perfectamente correlacionada por tanto
con el trmino independiente) o de varias variables conectadas mediante una identidad.
En las investigaciones economtricas son frecuentes los modelos en los que aparece
cierto grado de correlacin (o multicolinealidad aproximada) entre las variables expli-
cativas. Las razones de este hecho son la presencia de tendencias comunes a varios
regresores o incluso la conexin terica entre ellos y su principal consecuencia es el
aumento en la matriz de varianzas-covarianzas de los estimadores.
Es importante destacar que las propiedades de los EMC no se ven afectadas por la
presencia de una cierta multicolinealidad (siguen siendo insesgados, ptimos y consis-
tentes) pero en cambio la matriz de varianzas-covarianzas, que depende de las relacio-
nes existentes entre las variables explicativas, aumenta su valor. Como consecuencia,
las expresiones de la t de Student aumentan su denominador, con lo cual resulta ms
difcil rechazar la hiptesis de no signicacin de los parmetros individuales. Adems,
la elevada varianza de los estimadores hace que stos sean muy voltiles, por lo cual
382
podramos cometer errores de interpretacin estructural del modelo.
Las estimaciones obtenidas para modelos con un grado importante de multicolinealidad son muy
poco estables, ya que al aadir nueva informacin muestral el modelo estimado podra cambiar
radicalmente.
En cambio, esta multicolinealidad no afectar a las predicciones siempre que admitamos que las
pautas de correlacin se mantienen constantes en el perodo de prediccin.
Las consecuencias comentadas proporcionan la base para la deteccin de la multi-
colinealidad en un modelo. En efecto, al tratarse de un problema muestral, la multi-
colinealidad no puede ser contrastada, pero sin embargo la observacin conjunta de
los resultados asociados a los contrastes individuales (t de Student) y global (F de
Snedecor) permite comprobar si existen incoherencias entre ambos (podra ocurrir que
el resultado del contraste global fuese signicativo y en cambio ninguno de los indivi-
duales lo fuese) o bien si las estimaciones son muy voltiles respecto a la informacin
muestral.
Tambin resulta aconsejable llevar a cabo regresiones auxiliares para averiguar si
alguna de las variables explicativas depende de las restantes.
De hecho, es posible comprobar que la varianza de los estimadores aumenta con la correlacin
entre las variables explicativas:
j
=
1
n k
2
Y
2
X
1 R
2
1 R
2
j
donde R
2
j
es el coeciente de determinacin de la regresin de X
j
sobre las restantes variables inde-
pendientes.
Un indicador habitual de la multicolinealidad son los Factores de Inacin de la
Varianza (FIV) propuestos por Marquardt (1970) que vienen dados por la expresin:
FIV
_
j
_
=
1
1 R
2
j
donde R
2
j
es el coeciente de correlacin mltiple entre la variable j y las restantes va-
riables explicativas El FIV muestra en qu medida aumenta la varianza del estimador
como consecuencia de no ortogonalidad de los regresores, y habitualmente se conside-
ra que existe un problema grave de multicolinealidad cuando el factor de inacin de
varianza de algn coeciente es mayor de 10.
Por lo que respecta a las posibles soluciones al problema de la multicolinealidad, po-
dramos plantear un aumento en la informacin muestral (o incluso la extramuestral),
un cambio en el modelo especicado o en el mtodo de estimacin, ... En cualquier
caso, conviene tener presente que se trata de un problema habitual con el que -siempre
que no presente niveles excesivos- debemos convivir.
383
10.4.3.4. Cambio estructural
A partir de la expresin genrica de nuestro modelo de regresin y = X + u, el
supuesto de que es un vector jo permite plantear la estimacin de un modelo nico
con la informacin muestral disponible.
Sin embargo, a veces podemos tener sospechas sobre la existencia de alguna ruptura
o cambio de estructura, que impedira admitir el supuesto de constancia de los par-
metros. Este tipo de situaciones pueden deberse a un cambio en el sistema econmico
que se representa, o bien a una especicacin errnea del modelo (omisin de variables
o forma funcional inadecuada).
Para estudiar si este problema afecta a un modelo concreto, es posible llevar a cabo
el contraste de cambio estructural de Chow (1960). La hiptesis nula de este contraste
es la existencia de una estructura nica vlida para todo el perodo de observacin
y este supuesto se contrasta dividiendo la muestra en dos submuestras en las que el
nmero de datos supere al de parmetros.
As se plantean las tres regresiones siguientes:
_
y = X +u con u A
_
0,
2
I
n
_
_
y
1
= X
1
1
+u
1
con u
1
A
_
0,
2
1
I
n
1
_
y
2
= X
2
2
+u
2
con u
2
A
_
0,
2
2
I
n
2
_
con lo cual la hiptesis nula de ausencia de cambio estructural equivale a armar
que las dos muestras proceden de la misma poblacin y puede ser expresada como
H
0
:
1
=
2
= ;
1
=
2
= .
El mtodo de Chow se basa en la discrepancia entre los residuos correspondientes
a la regresin de la muestra total y la suma de residuos cuadrticos asociados a las
regresiones de las dos submuestras, que convenientemente ajustadas por sus grados
de libertad dan lugar a la expresin:
u
u ( u
1
u
1
+ u
2
u
2
)
k
u
1
u
1
+ u
2
u
2
n
1
+n
2
2k
F
k
n
1
+n
2
2k
Esta discrepancia tipicada sigue un modelo F de Snedecor y su resultado se in-
terpreta como el porcentaje de incremento en la suma de cuadrados de los residuos
asociados a un modelo nico, respecto a la que se obtendra con dos muestras.
[Justicar los grados de libertad de esta expresin]
Si el valor de la F es elevado est indicando un empeoramiento signicativo del
modelo como resultado de no dividir el perodo muestral, que lleva a rechazar la
hiptesis nula.
Cuando el punto sobre el que se quiere contrastar el cambio estructural no permite
disponer de dos muestras con tamao sucientemente elevado (n
2
< k) el estadstico
pasa a ser
384
u
u u
1
u
1
n
2
u
1
u
1
n
1
k
F
n
2
n
1
k
con interpretacin similar al anterior.
Los inconvenientes del contraste de Chow son que necesita conocer el punto de cor-
te, y que pierde potencia a medida que dicho punto se acerca al extremo de la muestra
global. Adems, este contraste es sensible a la presencia de heteroscedasticidad por lo
cual sta debe ser corregida antes de contrastar los cambios estructurales.
En ocasiones se plantea el contraste de Chow para la prediccin. En este caso, la
hiptesis nula es la existencia de una estructura nica vlida para todo el perodo de
observacin y el horizonte de prediccin del fenmeno estudiado.
El contraste se lleva a cabo estimando el modelo con las n
1
primeras observaciones
y utilizndolo para predecir los n
2
ltimos valores. Bajo la hiptesis nula se asume
que las predicciones provienen del mismo modelo que los valores que dieron lugar a la
estimacin, y por tanto el estadstico de Chow viene dado por la expresin:
u
u u
1
u
1
n
2
u
1
u
1
n
1
k
F
n
2
n
1
k
donde u
u recoge la suma los residuos cuadrticos cometidos si la regresin se lleva

a cabo para todos los valores muestrales mientras u
1
u
1
son los residuos cuadrticos
cuando la regresin se extiende slo a los n
1
primeros datos.
385
Bibliografa
[1] J. Aranda and J. Gmez. Fundamentos de Estadstica para Economa y Admi-
nistracin de Empresas. Diego Martn, 2002.
[2] G. Arniz. Introduccin a la estadstica terica. Lex Nova, 1986.
[3] F. Azorn and J.L. Sanchez Crespo. Mtodo y aplicaciones del muestreo. Alianza
Universidad, 1986.
[4] J. Bar Llins. Clculo de probabilidades: aplicaciones econmico-empresariales.
Parramn, 1985.
[5] M. Barrow. Statistics for economics, accounting, and business studies. Pearson
Education, 2006.
[6] W.E. Becker and D.L. Harnett. Business and economics statistics with computer
applications. Addison-Wesley, 1987.
[7] R. Behar and P. Grima. 55 Respuestas a dudas tpicas de Estadstica. Daz de
Santos, 2004.
[8] M.L. Berenson and D.M. Levine. Estadistica para administracion y economia:
conceptos y aplicaciones. Mc.Graw-Hill, 1991.
[9] D.A. Berry and B.W. Lindgren. Statistics: Theory and Methodos. Duxbury Press,
1996.
[10] H.D. Brunk. Introduccin a estadstica matemtica. Trillas, 1987.
[11] G.C. Canavos. Probabilidad y estadstica: aplicaciones y mtodos. Mc.Graw-Hill,
2003.
[12] R. Cao, M.A. Presedo, and M.F. Fernndez. Introduccin a la estadstica y sus
aplicaciones. Pirmide, 2006.
[13] J.M. Casas. Inferencia estadstica para economa y administracin de empresas.
Centro de Estudios Ramn Areces, 1996.
[14] J.M. Casas and J. Santos. Introduccin a la estadstica para economa y admi-
nistracin de empresas. Centro de Estudios Ramn Areces, 1995.
[15] G. Casella and R.L. Berger. Statistical inference. Textbook Reviews, 2006.
386
Bibliografa
[16] Ya-Lun Chou. Statistical analysis for business and economics. Elsevier Science
Publishing, 1989.
[17] H. Cramer. Mtodos matemticos de estadstica. Aguilar, 1970.
[18] M. Cross and M.K. Starr. Statistics for Business and Economics. McGraw-Hill,
1983.
[19] N.M. Downie and R.W. Heath. Mtodos estadsticos aplicados. Harla, 1986.
[20] R. Escuder. Manual de teora de la probabilidad con nociones de muestreo e
inferencia estadstica. Tirant lo Blanch, 1992.
[21] H. Fernndez, M.M. Guijarro, and J.L. Rojo. Clculo de probabilidades y esta-
dstica. Ariel Economa, 1994.
[22] D. Freedman, R. Pisani, R. Purves, and A. Adhikari. Estadstica. Antoni Bosh,
1993.
[23] J.E. Freund and F.J. Williams. Elementos Modernos de Estadstica Empresarial.
Prentice-Hall, 1989.
[24] A. Garca Barbancho. Estadstica terica bsica. Ariel, 1992.
[25] J.D. Gibbons. Nonparametric methods for quantitative analysis. American Scien-
ces Press, 1985.
[26] W.H. Greene. Anlisis economtrico. Prentice-Hall, 1997.
[27] I. Herranz and L. Prieto. Qu signica estadsticamente signicativo?: la fa-
lacia del criterio del 5 % en la investigacin cientca. Daz de Santos, 2005.
[28] P.G. Hoel and R.J. Jessen. Estadstica bsica para negocios y economa. CECSA,
1986.
[29] P. Kauman. Statistique: information, estimation, tests. Dunod, 1994.
[30] M. Kendall and A. Stuart. The advanced theory of statistics (3 Vol.). Charles
Grin, 1977.
[31] E.L. Lehmann. Testing Statistical Hypotheses. John Wiley and Sons, 1986.
[32] R.I. Levin. Estadstica para administradores. Prentice Hall, 1988.
[33] F. Llorente and otros. Inferencia estadstica aplicada a la empresa. Centro de
Estudios Ramn Areces, 2001.
[34] M. Lpez Cachero. Fundamentos y Mtodos de Estadstica. Pirmide, 1996.
[35] G.S. Maddala. Econometra. McGraw-Hill, 1985.
387
Bibliografa
[36] J. Martn Pliego and L. Ruiz-Maya. Estadstica I: Probabilidad. Paraninfo, 2004.
[37] R.D. Masson and D.A. Lind. Estadstica para Administracin y la Economa.
Alfaomega, 1992.
[38] T. Mayer. Truth versus precision in economics. Edward Elgar Publishing Limited,
1983.
[39] W. Mendenhall and J.E. Reinmuth. Estadstica para administracin y economa.
Wadsworth Internacional Iberoamericana, 1978.
[40] P. Meyer. Probabilidad y aplicaciones estadsticas. Fondo Educativo Interameri-
cano, 1986.
[41] R.L. Mills. Estadstica para economa y administracin. McGraw-Hill, 1980.
[42] T.W. Mirer. Economic statistics and econometrics. Prentice-Hall, 1995.
[43] A.M. Mood and F.A. Graybill. Introduccin a la teora de la estadstica. Aguilar,
1978.
[44] S. Murgui and R. Escuder. Estadstica aplicada. Inferencia estadstica. Tirant lo
Blanch, 1994.
[45] P. Newbold and otros. Estadstica para administracin y economa. Prentice-Hall,
2008.
[46] R.L. Ott and W. Mendenhall. Understanding statistics. Duxbury Press, 1994.
[47] E. Parzen. Teora moderna de probabilidades y sus aplicaciones. Limusa, 1987.
[48] J.A. Paulos. El hombre anumerico. Tisqiets, 1990.
[49] R. Prez. Nociones Bsicas de Estadstica. Disponible desde Internet en:
sites.google.com/a/uniovi.es/libros/nociones-basicas-estadistica, 2010.
[50] R. Prez and A.J. Lpez. Anlisis de datos econmicos II. Mtodos inferenciales.
Pirmide, Madrid, 1997.
[51] W.S. Peters. Counting for Something. Springer-Verlag, 1987.
[52] L. Prieto and I. Herranz. Qu signica estadsticamente signicativo? Daz de
Santos, 2005.
[53] A. Pulido and J. Prez. Modelos Economtricos. Pirmide, Madrid, 2001.
[54] R. Ramanathan. Introductory Econometrics with Applications. Harcourt College
Publisher, 2002.
[55] D.G. Rees. Foundations of Statistics. Chapman and Hall, 1987.
388
Bibliografa
[56] V.K. Rohatgi. Statistical Inference. Dover, 2003.
[57] L. Ruiz-Maya and F.J. Martn Pliego. Estadstica II: Inferencia. Paraninfo, 2001.
[58] S. Siegel. Estadstica no paramtrica. Aplicada a las ciencias de la conducta.
Trillas, 1991.
[59] M.G. Sobolo and M.K. Starr. Statistics for business and economics. McGraw-Hill,
1983.
[60] A. Spooner and C. Lewis. An Introduction to Statistics for Managers. Prentice
Hall, 1995.
[61] J. Tanur and otros. La Estadstica. Una gua de lo desconocido. Alianza Editorial,
1992.
[62] A.F. Troconiz. Probabilidades. Estadstica. Muestreo. Tebar Flores, 1987.
[63] E. Uriel and otros. Econometra. El modelo lineal. AC, 1990.
[64] R.E. Walpole and R.H. Myers. Probabilidad y estadstica. McGraw-Hill, 1992.
[65] R.H. Wonnacott and T.H. Wonnacott. Estadstica bsica prctica. Limusa, 1991.
[66] R.H. Wonnacott and T.H. Wonnacott. Fundamentos de estadstica para Admi-
nistracin y Economa. Limusa, 1993.
[67] J.M. Wooldridge. Introduccin a la econometra. Un enfoque moderno. Paraninfo,
2008.
[68] M.V. Esteban y otros. Econometra Bsica Aplicada con Gretl. Sarriko On,
Universidad del Pas Vasco, 2008.
[69] T. Yamane. Estadstica. Harla, 1979.
389
Index
A
acuracidad, 164
agregacin de v.a., 140
aleatoria, variable, 35
anlisis de la varianza (ANOVA), 332
ausencia
de correlacin, 322, 339
de sesgo, 173
autocorrelacin, 276, 369, 375
axiomtica de Kolmogorov, 23
B
bondad de un modelo, 333
C
cantidad de informacin de Fisher, 178
coeciente
de apuntamiento, 62
de asimetra, 62
de correlacin
de Spearman, 275
lineal, 124
de desigualdad de Theil, 353
de determinacin, 332, 346
ajustado, 347
corregido, 347
mltiple, 348
parcial, 348
simple, 349
de variacin de Pearson, 61
combinaciones, 21
combinatoria, 19
condicin de independencia, 29
conanza, 237
consistencia, 184
contraste
bilateral, 267
de autocorrelacin de Durbin y Wat-
son, 375
de bondad de ajuste, 276
de cambio estructural, 384
de homocedasticidad
de Goldfeld y Quandt, 373
de White, 374
de homogeneidad, 301
de Kolmogorov-Smirnov, 280, 304
de Kruskal-Wallis, 304
de Mann-Whitney, 302
de McNemar, 306
de normalidad
Jarque-Bera, 282
de rachas, 273
de rangos, 275
de signicacin, 260
de Wald-Woldfowitz, 304
error tipo I, 309
error tipo II, 309
exacto de Fisher, 300
mtodo
del nivel crtico, 262
tradicional o clsico, 261
no paramtrico, 257
paramtrico, 256
sobre la media, 285
sobre la proporcin, 291
sobre la varianza, 289
sobre medias de dos poblaciones,
292
sobre varianza de dos poblacio-
nes, 294
Q de Cochran, 306
unilateral, 267
390
Index
contraste de independencia de dos po-
blaciones, 296
convergencia
casi-segura, 145
en ley o distribucin, 146
en media r-sima, 146
en probabilidad, 145
correccin de continuidad, 152
cota
de Frechet-Cramer-Rao, 177
covarianza, 122
criterio de informacin
de Akaike, 348
de Hannan-Quinn, 348
de Schwarz, 348
cuasivarianza muestral, 194
D
densidad de probabilidad, 49
desigualdad
colectiva, 63
de Chebyshev, 66
de Frechet-Cramer-Rao, 177
individual, 63
desigualdad de Chebyshev, 60
desviacin tpica, 60
discrepancia tipicada, 217
de la varianza, 221
para la media, 219
para la proporcin, 222
distribucin
binomial, 73
binomial negativa, 85
chi-cuadrado, 199
condicionada, 125, 127
de Bernoulli, 70
de Pareto, 110, 111
de Poisson, 104
de probabilidad muestral, 170
exponencial, 107
F de Snedecor, 209
Gamma, 112
geomtrica, 80
hipergeomtrica, 87
log-normal, 102, 109
marginal, 122
multihipergeomtrica, 129
multinomial o polinomial, 128
normal, 198
estndar, 94
general, 100
multivariante, 130
singular, 69
t de Student, 207
uniforme, 93
z de Fisher, 212
E
eciencia, 177
ELIO (Estimadores Lineales Insesgados
Optimos), 327
error
absoluto
medio, 353
porcentual medio, 353
ajeno al muestreo, 163
aleatorio, 172
cuadrtico medio, 58
respecto a M, 61
de encuesta, 163
de especicacin, 364
de muestreo, 163
de omisin de variables, 365
estndar
de prediccin, 353
estndar de la media muestral, 192
tipo I, 309
tipo II, 309
error cuadrtico medio, 176
espacio de probabilidad, 24
espacio muestral, 22
especicacin, 319
esperanza matemtica, 55
estadstico, 168
estimacin, 169, 320
mximo verosmil, 186
mtodo de los momentos, 189
mnimo cuadrtica, 190
391
Index
por intervalos, 236
puntual, 236
estimador, 169
analgico, 185
consistente, 185
eciente, 177
insesgado, 172
mximo verosmil, 187
mnimo cuadrticos, 190
suciente, 182
exactitud, 177
F
factor de correccin, 193
factores de inacin de la varianza (FIV),
383
fenmeno aleatorio, 22
funcin
de cuanta, 46
de densidad, 50
condicionada, 126
conjunta, 117
marginal, 120
de distribucin, 41
condicionada, 127
conjunta, 116
marginal, 122
muestral, 160
de probabilidad, 46
condicionada, 126
conjunta, 116
marginal, 120
de verosimilitud, 161, 170
generatriz de momentos, 63
G
grados de libertad, 199
H
heteroscedasticidad, 372
hiptesis
alternativa, 265
bsicas, 272
compuesta, 265
estadsticas, 264
estructurales, 272
nula, 265
simple, 265
homoscedasticidad, 321, 339
I
independencia
en informacin, 31
en probabilidad, 29
independiencia
de v.a., 133
informacin
a priori o contrastable, 256
bsica, 256
muestral, 256, 267
intervalo de conanza, 239
para la esperanza, 246
para la mediana, 253
para la razn de varianzas, 252
para la varianza, 249
L
lema de Neyman-Pearson, 313
ley dbil de los grandes nmeros, 148
ley fuerte de los grandes nmeros, 149
lnea de regresin
muestral, 323
poblacional, 321
M
matriz de varianzas-covarianzas, 124, 130,
338
escalar, 368
Mediana, 60
medidas de concentracin, 62
mtodo
de la mxima verosimilitud, 185
de los mnimos cuadrados, 190
de los momentos, 189
mnimos cuadrados generalizados,
370
Moda, 60
modelo
binomial, 73
binomial negativo, 85
392
Index
chi-cuadrado, 199
de Bernoulli, 70
de Pareto, 110
de Poisson, 104
exponencial, 107
F de Snedecor, 209
Gamma, 112
geomtrico, 80
hipergeomtrico, 87
log-normal, 109
multihipergeomtrico, 129
multinomial o polinomial, 128
normal, 198
estndar, 94
general, 100
multivariante, 130
t de Student, 207
uniforme, 93
modelo economtrico, 318
especicacin, 319
estimacin, 320
lineal mltiple, 338
validacin, 320
momento
centrado de orden r, 61
de orden r centrado respecto a M,
61
no centrado de orden r, 61
muestra
aleatoria simple, 161
muestreo
aleatorio, 159
probabilstico, 159
multicolinealidad, 331, 382
N
nivel
crtico, 262
de conanza, 239
de signicacin, 261, 311
nivel de conanza, 242
normalidad, 322
P
particin, 32
permutaciones, 20
permutaciones con repeticin, 20
perturbacin aleatoria, 319, 338
poblacin, 155
potencia
de un contraste, 311
de un test, 263
precisin, 164, 177, 237
prediccin
condicionada, 351
dinmica, 351
esttica, 351
Ex-ante, 351
Ex-post, 351
no condicionada, 351
probabilidad, 23
clsica o de Laplace, 14
condicionada, 28
nal o a posteriori, 34
frecuencial o frecuentista, 15
inducida, 38
inicial o a priori, 34
subjetiva, 16
total, 32
proceso de estimacin, 167
prueba dicotmica, 70
R
razn de verosimilitudes, 315
regin
crtica, 269
ptima al nivel , 313
de aceptacin, 269
de rechazo, 269
regresores estocsticos, 381
reproductividad, 137
S
sesgo, 173
lgebra, 23
-lgebra de Borel, 37
sistema completo de sucesos, 32
393
Index
subpoblacin, 158
suceso
elementale, 22
seguro, 22
suciencia, 181
T
tabla
binomial, 78
de nmeros aleatorios, 166
tamao
de muestra, 245
del test, 311
poblacional, 156
Teorema
central del lmite (TCL), 149
teorema
de Bayes, 33
de factorizacin de Fisher-Neyman,
182
de Fisher, 206
de Gauss-Markov, 326, 342
de la probabilidad total, 32
de Rao, 328
test
2
de autocorrelacin de Durbin y Wat-
son, 375
de Chow decambio estructural, 384
de homocedasticidad
de Goldfeld y Quandt, 373
de White, 374
de homogeneidad, 301
de Kolmogorov-Smirnov, 280
de Kolmogorov-Smirnov (K-S), 304
de Kruskal-Wallis, 304
de Mann-Whitney, 302
de McNemar, 306
de normalidad
de Jarque-Bera, 282
K-S Lilliefors, 281
de rachas, 273
de rangos, 275
de Wald-Wolfowitz, 304
ms potente, 312
Q de Cochran, 306
uniformemente de mxima poten-
cia, 312
uniformemente ms potente, 312
tipicacin, 101
trampa de las variables cticias, 357
V
v.a.
independientes, 133
validacin, 320
valor
crtico, 269
esperado, 55
estimado, 163
observado, 163
verdadero, 162
variabilidad
explicada, 332
no explicada, 332
total, 332
variable
aleatoria, 35, 37
bidimensional, 115
continua, 39, 43
discreta, 39, 43
degenerada, 58
dummy o cticia, 355
endgena, 318
endgena retardada, 318
exgena, 318
latente, 319
mixta, 40
predeterminada, 318
variaciones, 20
con repeticin, 19
varianza, 58
marginal, 122
muestral, 194, 327
verosimilitud, 34
394

Métodos Estadísticos para Economía y Empresa

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Métodos Estadísticos para Economía y Empresa

Uploaded by

Copyright:

Available Formats

Mtodos estadsticos para Economa y

, de B tiene que coincidir con la probabilidad de A, la denicin natural de la probabilidad inducida

, sobre como aquella funcin de conjunto,

dF(t) y que cuando la variable es continua se

(x) = f(x) en todo punto x de continuidad de f.

y X vendran descritas en los trminos

= 0, 15Y , cuya distribucin de probabilidad

), conectando esta expresin con

="Nmero de horas trabajadas". Segn el razonamiento expuesto se obtendra

es biyectiva, la distribucin de probabilidad de ambas variables

Teniendo en cuenta que el operador esperanza es lineal y que y M son constantes,

y representa la proporcin de renta que reciben los rentistas anteriores.

, que permite interpretar como

f(x, y)dxdy = 1].

A modo de ilustracin, para el estimador T

para i = 1, 2, . . . , n, y aplicando los estadsticos anteriores a las nuevas variables, se tiene:

Y , a partir del cual obtenemos el error aleatorio e

y, dado que la discrepancia d

Y que conduce a la discrepancia tipicada:

Discrepancia hiptesis muestra

Valor crtico (RC)

, cuyo papel es distinto segn que

, con el cual podemos calcular el nivel

sobrepasa cierto valor r

n 1 A(0, 1). As, se observar el valor muestral d

y su correspondiente nivel crtico p.

incluidas en la correspondiente regin crtica, la

de la discrepancia sea elevado, la probabilidad p resultar baja y en consecuencia

a partir del cual se obtiene la regin crtica para

dos regiones crticas denidas para un contraste al

para un valor de la alternativa si la potencia

para ese valor.

para todos los valores de la alternativa,

obteniendo as una discrepancia tipicada con esperanza nula y dispersin unitaria.

distribuida segn un modelo t de Student con n 2 grados de libertad.

para la que se calcula el nivel crtico p = P

expresin en la que hemos tenido en cuenta que

La obtencin de los estimadores mximo verosmiles (MV) se lleva a cabo partiendo

una matriz ja (no aleatoria) de dimensin k n. Sustituyendo y por su expresin se

] que cumple las propiedades de ser idem-

= M). Una expresin alternativa a la anterior

Mu se obtiene el valor esperado E( u

u) se lleva a cabo teniendo en cuenta dos propiedades de la

, donde R es una matriz de r las (tantas como restricciones impuestas

se obtiene, bajo la hiptesis de normalidad de las

u recoge la suma de cuadrados de los resi-

y = Zy es decir, presenta carcter lineal.

es el vector la de datos de variables explicativas y el vector columna

tal que se cumpla:

A diferencia de Z, la variable Y s resulta observable puesto que en la prctica nosotros

= 0 y para calcular las probabilidades

Esta expresin puede ser linealizada mediante logaritmos:

y, expresin que resulta insesgada y consistente pero no ptima para esti-

expresin que no coincide con

. Se aprecia fcilmente que estaramos cuan-

sera posible aplicar las ex-

u recoge la suma los residuos cuadrticos cometidos si la regresin se lleva

You might also like