Pruebas de Bondad de Ajuste

Capı́tulo 2
Pruebas de bondad de ajuste.
2.1 Pruebas de ajuste simples.

Dadas las observaciones (X1 , . . . , Xn ) independientes, con distribución F , de-
seamos probar la hipótesis nula H0 : “F = F0 ”. En principio, la hipótesis
alternativa será H: “F = F0 ”, pero es posible que dentro de esta alternativa
múltiple haya algunas distribuciones para las que nos interese especialmente
que la prueba tenga una buena potencia.
A la hipótesis H0 se la llama hipótesis de ajuste de la distribución F0 al
modelo del cual proviene la muestra. Las pruebas de H0 se llaman pruebas de
ajuste.
A lo largo del Siglo XIX, los modelos aleatorios se volvieron cada vez más
frecuentes y cada vez más necesarios para describir la naturaleza. Un modelo
se consideraba adecuado en tanto no presentara incoherencias evidentes con
los resultados de la experiencia.
Recién en 1999 surgió la primera prueba de ajuste, a partir de la cual los
cientı́ficos pudieron poner a prueba sus modelos e incluso seleccionar entre
varios modelos propuestos para un mismo fenómenos, cuáles con adecuados y
cuáles no lo son. Esa primera prueba es la llamada prueba χ2 de Pearson.
2.2 Generalidades sobre las pruebas de ajuste.

Para decidir si se rechaza H0 :“F = F0 ” a partir de la información dada por
la muestra aleatoria simple X1 , . . . , Xn de F , resulta natural estimar F por
medio de la muestra, y comparar la estimación con F0 .
El estimador de máxima verosimilitud de F es la distribución de probabili-
17
Enrique M. Cabaña.
18
Capı́tulo 2: Pruebas de bondad de ajuste.
dades F̂ para la que, si Y1 , . . . , Yn es una muestra de F̂ , entonces la probabilidad
de que resulte {Y1 , . . . , Yn } = {X1 , . . . , Xn } es máxima. Esta probabilidad es
positiva sólo si F̂ tiene probabilidades p1 , . . . , pn concentradas en X1 , . . . , Xn ,

y vale n! ni=1 pi , cuando las Xi (i = 1 . . . , n) son todas diferentes.

El máximo de este producto, con la condición ni=1 pi ≤ 1, se produce
cuando todas las probabilidades son iguales: p1 = . . . = pn = 1/n.
Como consecuencia, F̂ es la distribución empı́rica Fn .
Cuando Fn es cercana a F0 , no hay razones para rechazar H0 . En cambio,
cuando Fn dista mucho de F0 , vamos a rechazar H0 .
No debe extrañarnos entonces que las pruebas más utilizadas tengan como
región crı́tica {(X1 , . . . , Xn ) : d(Fn , F0 ) > constante}, donde d es una distan-
cia entre probabilidades, o una seudo - distancia, como suele llamarse a una
función con las propiedades de una distancia, excepto la que establece que
d(F, G) = 0 implica F = G.
Las pruebas que incluimos en las secciones siguientes resultan de elegir
adecuadamente d. La primera de ellas ha sido analizada en §??. Las otras dos
han sido presentadas en §??, en el marco de aplicaciones del proceso empı́rico,
y ahora las estudiaremos con mayor detenimiento.
2.3 Prueba χ2 de ajuste.

Para probar la hipótesis H0 “F = F0 ” a partir de una muestra aleatoria simple
X1 , . . . , Xn de F , Karl Pearson propuso el siguiente procedimiento, que es en
realidad una prueba de H̃0 “Para cada uno de los intervalos I de una partición
finita P de R, se cumple F (I) = F0 (I)”, y, como consecuencia, una prueba
aproximada de H0 en la medida que la partición P sea suficientemente fina.
Llamemos p0 al vector de las probabilidades F0 (I) correspondientes a los
intervalos de P, y p al de las probabilidades F (I). Entonces, H̃0 equivale a “p =
p0 ”. Esta última es una hipótesis simple sobre el parámetro p de la distribución
multinomial(n, p) del vector M cuyas componentes son las frecuencias M (I) =

nFn (I) = ni=1 1{Xi ∈I} , I ∈ P.
Denotemos ahora P = {I1 , . . . , Ik }, y p0,j = F0 (Ij ), Mj = M (Ij ). El
estadı́stico de Pearson es

k
(nFn (Ij ) − np0,j )2 k
(Mj − EMj )2
Qn = = .
j=1 np0,j j=1 EMj
Su distribución bajo H0 depende de n y p0 , y puede obtenerse en cada caso
mediante el cálculo directo a partir de la distribución multinomial, o por si-
mulación. Su distribución asintótica para n → ∞ es χ2 con k − 1 grados
Licenciatura en Estadı́stica.
19
2.3. Prueba χ2 .
de libertad. En la sección siguiente se aportan argumentos basados en la
utilización de la distribución normal asintótica de la multinomial, o bien en
el comportamiento asintótico del cociente de verosimilitudes, para obtener la
mencionada distribución asintótica.
2.3.1 La distribución aproximada del estadı́stico de Pear-

son para n grande.
La esperanza de 1{Xi ∈I} es P{X1 ∈ I}, de modo que EM = np. Las covarian-
cias Cov(1{Xi ∈I} , 1{Xi ∈J} ) valen
E1{Xi ∈I} 1{Xi ∈J} − E1{Xi ∈I} E1{Xi ∈J}
= P{Xi ∈ I, Xi ∈ J} − P{Xi ∈ I}P{Xi ∈ J}

de manera que
VarM = nΣ, con Σ = diagp − pptr .
El Teorema del Lı́mite Central permite deducir que la distribución asintó-
tica de √1n (M − np) es Normal(0, Σ). La matriz Σ es singular, porque cuando
u = (1, 1, . . . , 1)tr , Σu = diagpu − pptr u = 0. El recorrido de la transformación
lineal x → Σx es ortogonal a u, porque utr Σx = xtr Σu = 0.
Observemos que un vector Z ∼Normal(0, Σ) está contenido con probabili-
dad 1 en el complemento ortogonal u⊥ de u, ya que la variable aleatoria u, Z
= utr Z tiene esperanza Eutr Z = 0 y variancia Varutr Z = utr Σu = 0.
Llamemos Π a la matriz de la proyección ortogonal sobre el complemento de
u, es decir, Π = I − uutr /n. Denotamos por T a la matriz de la transformación
lineal que, como la asociada a Σ, tiene por núcleo al subespacio generado por
u, y recorrido u⊥ , y cuya restricción a u⊥ es la inversa de la restricción de Σ
al mismo subespacio, es decir, T Σ = Π. Un cálculo directo permite verificar
que T = Π(diagp)−1 Π, ya que Π(diagp)−1 ΠΣ = Π(diagp)−1 (diagp − pptr ) =
Π(I − uptr ) = Π.
El cálculo anterior permite confirmar que el recorrido de Σ no sólo es or-
togonal a u sino que es u⊥ . Como Σ es simétrica, T también lo es, y tiene una
raı́z cuadrada simétrica T 1/2 . El vector T 1/2 Z tiene variancia T 1/2 Σ(T 1/2 )tr
= Π, y
T 1/2 Z
2 = Z tr T Z ∼ χ2k−1 .
Por lo tanto la forma cuadrática
1 1 k
(Mi − npi )2
Q = √ (M − np)tr (diagp)−1 √ (M − np) =
n n i=1 npi
20
tiene distribución asintótica χ2 con k − 1 grados de libertad, cuando P consta
de k intervalos.
Por este motivo, la prueba con región crı́tica
Q > χ2k−1,1−α
tiene nivel asintótico α para n grande.
2.3.2 Una deducción alternativa de la distribución asin-

tótica de Q bajo H0 .
El argumento constructivo de la sección anterior puede reemplazarse por el
siguiente, mucho más directo, pero basado en un artificio que resulta explicable
una vez que se conoce el resultado.
Hemos visto que √1n (M −np) es asintóticamente Normal(0, Σ), de modo que
deseamos establecer que, si Y ∼ Normal(0, Σ), entonces Q∞ = Y tr (diagp)−1 Y
=
(diagp)−1/2 Y
2 tiene distribución χ2 con k − 1 grados de libertad.
Consideremos ahora un vector Z = (Z1 , . . . , Zk )tr normal tı́pico en Rk .
√ √
Su proyección sobre el vector de norma uno v = ( p1 , . . . , pk )tr es vv tr Z,
y, como consecuencia, su proyección sobre el complemento ortogonal de v es
Z − vv tr Z. Por tratarse de la proyección de un vector normal tı́pico sobre un
subespacio de dimensión k − 1, se cumple
Z − vv tr Z
2 ∼ χ2k−1 .
La variancia de la proyección es Var(I − vv tr )Z = (I − vv tr )VarZ(I − vv tr )
= (I − vv tr )2 = I − vv tr . Por otra parte, la variancia de (diagp)−1/2 Y es
(diagp)−1/2 Σ(diagp)−1/2 I −(diagp)−1/2 pptr (diagp)−1/2 = I −vv tr . En resumen,
(diagp)−1/2 Y y la proyección (I − vv tr )Z de Z tienen la misma distribución,
y esto nos permite concluir que Q∞ =
(diagp)−1/2 Y
2 tiene la misma dis-
tribución que la norma al cuadrado de la proyección, es decir, χ2k−1 .
2.3.3 Análisis a partir del cociente de verosimilitudes.

Consideremos la prueba del cociente de verosimilitudes de la hipótesis nula H0
“p = p0 ” contra la alternativa H1 “p = p0 ”, a partir de las observaciones M
de la distribución multinomial (n, p).
k Mh
La verosimilitud de la muestra es k n! h=1 ph , y el estadı́stico de
h=1
Mh !
máxima verosimillitud

de p es M/n, de modo que el cociente de verosimilitudes
k M
p0,hh
vale λ = k h=1
.
h=1
(Mh /n)Mh
El parámetro p está en el espacio de parámetros Θ formado por los vectores
de Rk cuya suma de componentes vale 1. La dimensión de este espacio es k −1.
21
2.3. Prueba χ2 .
Como consecuencia, la distribución asintótica de −2 log λ es χ2 con k−1 grados
de libertad.
Vamos a calcular

k
−2 log λ = 2 Mh log(Mh /np0,h ).
h=1
El desarrollo de Taylor log(1 + x) = x − 12 x2 + Ax3 , A acotado, nos conduce a
1
log(Mh /np0,h ) = (Mh /np0,h − 1) − (Mh /np0,h − 1)2 + A(Mh /np0,h − 1)3
2
y entonces

k
1
−2 log λ = 2 Mh [(Mh /np0,h − 1) − (Mh /np0,h − 1)2 + A(Mh /np0,h − 1)3 ].
h=1 2
El sumando que contiene la constante A se acota por

k
Mh Mh − np0,h k
(Mh − np0,h )2
2A Mh (Mh /np0,h − 1)3 ≤ 2A max
h=1
h np0,h np0,h h=1 np0,h
≤ 2A
de modo que −2 log λ es asintóticamente equivalente a

k
1
2 Mh [(Mh /np0,h − 1) − (Mh /np0,h − 1)2 ] =
h=1 2

∼
k
Mh k
Mh2
=2 Mh −1 =2 − 2n
h=1 np0,h h=1 np0,h

k
(Mh − np0,h )2 k k
(Mh − np0,h )2
= + (Mh − np0,h ) = .
h=1 np0,h h=1 h=1 np0,h
k (Mh −np0,h )2
Concluimos como consecuencia que h=1 np0,h
tiene distribución asin-
tótica χ2k−1 para n grande.
22
2.3.4 La selección de los intervalos de partición.
La arbitrariedad con que puede partirse el recorrido de la variable aleatoria es
una caracterı́stica que da a la prueba χ2 una gran versatilidad, y, al mismo
tiempo, constituye una debilidad de la misma. Lo primero llega al extremo
de que, sin ningún cambio, la prueba es aplicable al ajuste de distribuciones
multivariantes, por ejemplo. Lo segundo es causa de que los diferentes criterios
para el diseño de la prueba sean relativamente complicados.
Estos criterios se vuelven relativamente simples cuando la meta es con-
seguir una prueba cuyo estadı́stico tenga una distribución que se aproxime
rápidamente a la asintótica (este no es un argumento de calidad de carácter
estadı́stico, sino simplemente de comodidad para el usuario). En ese caso,
estudios empı́ricos muestran que conviene utilizar (k) clases con iguales pro-
babilidades (1/k), con valor esperado de observaciones por clase (n/k) no de-
masiado pequeño, al menos 1 o 2 (tanto mayor cuanto más pequeño sea el nivel
de la prueba).
Una recomendación tradicional, popularizada hace varias décadas, que es-
tudios posteriores han mostrado que es excesivamente conservativa, es que la
esperanza del número de observaciones en cada clase de la partición sea al
menos 5. Una recomendación de Mann y Wald para k celdas equiprobables, es
elegir k = 4 5 2n2 /(Φ−1 (1 − α))2 cuando la muestra tiene tamaño n (grande)
y el nivel de la prueba es α.
2.3.5 Los valores crı́ticos.

Es recomendable la utilización de particiones con iguales probabilidades, es
decir, p0 = k1 (1, 1, . . . , 1)tr .
En ese caso, los valores crı́ticos cα tales que
P{Qn > cα } = α (2.1)
dependen sólo de n, k.
Se observará que Qn es una variable aleatoria discreta, que sólo puede
asumir un número finito de valores. Por ese motivo, la ecuación (2.1) debe
reemplazarse por
P{Qn > cα } ≤ α, P{Qn ≥ cα } > α.
Esto implica que cα es uno de los valores que alcanza la variable aleatoria Qn .
Si estos valores se ordenan de manera creciente: q1 < q2 < . . . < qm , entonces
m
cα = qj(α) cuando m j=j(α) P{Qn = qj } > α, y j=j(α)+1 P{Qn = qj } ≤ α.
23
2.3. Prueba χ2 .
Tabla 2.1: Valores de k dados por la fórmula de Mann y Wald, y esperanza

del número de observaciones por celda en cada caso.
α = .10 α = .05 α = .01

n k n/k k n/k k n/k
20 14 1.4286 12 1.6667 11 1.8182
25 15 1.6667 14 1.7857 12 2.0833
30 16 1.8750 15 2.0000 13 2.3077
35 17 2.0588 16 2.1875 14 2.5000
40 18 2.2222 16 2.5000 14 2.8571
45 19 2.3684 17 2.6471 15 3.0000
50 20 2.5000 18 2.7778 16 3.1250
55 21 2.6190 19 2.8947 16 3.4375
60 21 2.8571 19 3.1579 17 3.5294
65 22 2.9545 20 3.2500 17 3.8235
70 23 3.0435 21 3.3333 18 3.8889
75 23 3.2609 21 3.5714 18 4.1667
80 24 3.3333 22 3.6364 19 4.2105
85 25 3.4000 22 3.8636 19 4.4737
90 25 3.6000 23 3.9130 20 4.5000
95 26 3.6538 23 4.1304 20 4.7500
100 26 3.8462 24 4.1667 21 4.7619
150 31 4.8387 28 5.3571 24 6.2500
200 35 5.7143 31 6.4516 27 7.4074
250 38 6.5789 34 7.3529 30 8.3333
300 41 7.3171 37 8.1081 32 9.3750
350 43 8.1395 39 8.9744 34 10.2941
400 46 8.6957 41 9.7561 36 11.1111
450 48 9.3750 43 10.4651 38 11.8421
500 50 10.0000 45 11.1111 39 12.8205
24
k 50
45
α = .10
40
α = .05
35
30 α = .01
25
20
15
10
0 50 100 150 200 250 300 350 400 450 500

Figura 2.1: Gráfico de k = 4 5 2n2 /(Φ−1 (1 − α))2 para α = .1, .05 y .01
La Tabla 2.2 indica valores de cα estimados mediante una simulación basada

en 10.000 replicaciones, correspondientes a α = 5% para varios valores de n, k,
e incluye el valor asintótico en la lı́nea n = ∞. Los resultados muestran
que la aproximación resultante de reemplazar cα por el valor lı́mite cuando
n → ∞ es buena. Muestran también que se requiere una simulación más
precisa, basada en un número considerablemente mayor de replicaciones, para
describir adecuadamente la evolución de c en función de n, ya que resulta
más razonable atribuir las fluctuaciones observadas a medida que n crece a
los errores de la simulación que al comportamiento de los verdaderos valores
crı́ticos.
2.4 Prueba de ajuste de Kolmogorov.

En el mismo número de la revista Giornale dell’Istituto Italiano degli Attuari,
que dirigı́a F. P. Cantelli, de enero de 1933, aparecieron un artı́culo de V.
Glivenko 1 en el que muestra la validez del hoy llamado Lema de Glivenko -
Cantelli y el artı́culo en que A. N. Kolmogorov propone la prueba que lleva su
nombre 2
1
Sulla determinazione empirica delle leggi di probabilità, pp. 92-99.
2
Sulla determinazione empirica di una legge di distribuzione, pp. 83 - 91.
25
2.4. Prueba de Kolmogorov.
Tabla 2.2: Valores crı́ticos para la prueba χ2 de Pearson de nivel 5%, corres-
pondientes a k clases equiprobables, y muestras de tamaño n.
n k
3 4 5 6 7 8 9 10 11
5 5.2000
10 6.2000 7.6000 9.0000 10.4000
15 5.2000 7.6667 8.6667 11.0000 12.5333 14.3333 15.6000 16.3333
20 6.1000 7.6000 9.0000 10.6000 12.2000 13.6000 15.1000 17.0000 17.4000
25 5.8400 7.4800 9.2000 10.7600 12.2400 14.3600 14.9600 17.0000 17.6800
30 5.6000 7.8667 9.3333 11.2000 12.4667 13.7333 15.6000 16.6667 18.4000
35 5.7143 7.6286 9.4286 10.7714 12.4000 14.1429 15.1429 16.7143 18.1143
40 6.0500 7.6000 9.2500 11.0000 12.5000 14.0000 15.3500 16.5000 18.3000
45 5.7333 7.5333 9.5556 10.8667 12.7111 13.8444 15.2000 16.5556 18.3111
50 5.9200 7.7600 9.4000 10.9600 12.4400 14.0000 15.5200 16.8000 18.2000
55 6.1455 7.6182 9.6364 10.7818 12.5818 14.0909 15.5273 17.1818 18.4000
60 6.1000 7.6000 9.3333 10.8000 12.8000 13.8667 15.6000 16.6667 18.1000
65 5.9385 7.6769 9.5385 10.7846 12.4308 14.1385 15.4462 16.6923 18.0923
70 5.9429 7.8286 9.4286 10.9143 12.4000 14.1143 15.3714 17.1429 18.3143
75 6.0800 7.5067 9.4667 11.0000 12.6400 14.0667 15.1200 16.8667 18.1333
80 6.0250 7.4000 9.5000 11.0500 12.4000 13.8000 15.4000 17.0000 18.4500
85 6.0941 7.8471 9.2941 10.9294 12.4235 13.9176 15.6941 17.0000 18.1412
90 6.0667 7.6889 9.6667 10.9333 12.3556 14.1778 15.6000 16.6667 18.5333
95 5.9579 7.6947 9.2632 10.9158 12.8000 14.0526 15.3684 16.8947 18.3579
100 6.0200 7.6000 9.6000 10.8800 12.5600 13.9200 15.2000 16.6000 17.9200
∞ 5.9915 7.8147 9.4877 11.0705 12.5916 14.0671 15.5073 16.9190 18.3070
n k
12 13 14 15 16 17 18 19 20
20 19.6000 20.3000
25 19.6400 21.2800 22.6000 23.6000 24.2800
30 19.6000 21.1333 22.2667 24.0000 25.4667 26.6667 27.6000 29.5333 30.0000
35 19.5143 20.3429 22.2000 22.8571 24.8857 26.6857 28.2571 28.5143 29.5714
40 19.4000 21.1000 22.3000 23.7500 24.8000 26.3000 27.5000 29.3500 30.0000
45 19.2667 21.1556 22.5111 24.0000 24.3333 25.6444 27.4000 28.8889 30.1111
50 19.6000 20.7200 22.2400 23.8000 25.5200 26.1600 27.7600 29.0400 30.0000
55 19.8364 21.3455 22.1273 23.8182 24.4182 26.2909 27.1455 28.9455 30.4545
60 19.6000 20.6000 22.1333 23.5000 24.8000 26.1333 27.6000 29.3000 30.0000
65 19.3692 20.8000 22.2308 23.8462 24.8462 25.7538 27.7692 28.8308 30.0769
70 19.4857 20.6286 22.0000 23.8571 25.0857 26.1714 27.7143 29.3429 30.0000
75 19.5600 21.2000 22.2533 23.6000 25.0533 26.3200 27.0000 28.6133 29.8000
80 19.6000 20.7500 22.2000 23.5000 25.2000 26.2500 28.0000 29.2500 30.0000
85 19.6118 20.9882 22.2235 23.5294 25.1176 26.4000 27.4471 28.7765 30.0588
90 19.6000 20.9333 22.3111 23.6667 25.2000 26.3556 27.2000 29.0667 30.0000
95 19.3158 20.9053 22.4526 23.5789 25.0842 26.1474 27.2105 29.2000 30.2632
100 19.7600 20.9000 22.6400 23.6000 24.8000 26.1400 27.4400 28.8200 30.0000
∞ 19.6751 21.0261 22.3620 23.6848 24.9958 26.2962 27.5871 28.8693 30.1435
26
√
Tabla 2.3: Valores crı́ticos del estadı́stico de Kolmogorov nD obtenidos por
medio de una simulación basada en 200.000 replicaciones.
α α α
n 10% 5% n 10% 5% n 10% 5%
5 1.136 1.258 14 1.176 1.307 35 1.197 1.330
6 1.144 1.271 15 1.177 1.307 40 1.201 1.337
7 1.154 1.279 16 1.179 1.310 45 1.202 1.335
8 1.157 1.285 17 1.183 1.314 50 1.206 1.334
9 1.162 1.292 18 1.184 1.316 60 1.203 1.336
10 1.167 1.295 19 1.181 1.312 70 1.205 1.341
11 1.167 1.297 20 1.183 1.314 80 1.205 1.339
12 1.168 1.299 25 1.188 1.320 100 1.209 1.340
13 1.176 1.307 30 1.191 1.326 ∞ 1.224 1.358
√ de Kolmogorov es D = sup |Fn (x) − F (x)|, la prueba tiene

El estadı́stico
región crı́tica nD > cn (α), con cn (α) elegido para que el nivel sea α, y en el
artı́culo mencionado, Kolmogorov muestra
(i) que la distribución de D cuando se cumple H0 “F = F0 ” es la misma
para cualquier distribución F0 continua, y
∞ j−1 −2j 2 c2 (α)
(ii) que limn→∞ cn (α) = c(α), solución de α = 2 j=1 (−1) e .
La Tabla 2.3 describe de manera empı́rica la variación de cn (α) con n.
Un cálculo exacto de la probabilidad gn (a) = P{Dn > a} podrı́a hacerse
integrando la densidad n! de la distribución de probabilidades de la muestra
ordenada U(1) , U(2) , . . . , U(n) de la distribución uniforme en [0, 1], en la región
definida por las desigualdades |Fn (u) − u| < a, 0 < u < 1. Se trata de un
número infinito de desigualdades, una para cada u en [0, 1], pero para que todas
se cumplan basta que los puntos de coordenadas (U(i) , (i − 1)/n), (U(i) , i/n),
i = 1, 2, . . . , n estén en la banda {(u, y) : 0 < u < 1, u − a < y < u + a}.
Para que esto ocurra es necesario y suficiente que los puntos medios de los
segmentos verticales del gráfico de la función de distribución empı́rica - todos
ellos de longitud 1/n - disten menos de a − 1/2n de la diagonal, de manera
que 1 − gn (a) es el producto de n! por la medida (longitud, área, volumen ...)
de la región de Rn formada por los puntos u = (u1 , . . . , un ) que verifican las
ecuaciones
|(i − 1/2)/n − ui | < a − 1/2n, i = 1, 2 . . . , n.
27
2.4. Prueba de Kolmogorov.
Ejemplo 2.4.1 El cálculo directo mediante la integración de la densidad con-
junta es inabordable para valores grandes de n como lo muestra el siguiente
análisis para algunos valores pequeños:
n = 1 Las desigualdades se reducen a |1/2 − u| < a − 1/2, que define para

a > 1/2 un intervalo de longitud min(2a − 1, 1). De allı́ resulta g1 (a) =
1 − min(2a − 1, 1) = 2(1 − a)+ (la notación x+ = max(x, 0) indica la
parte positiva de x).
n = 2 Las desigualdades |1/4 − u1 | < a − 1/4, |3/4 − u2 | < a − 1/4 definen

un cuadrado cuya intersección con [0, 1]2 tiene lado 2(a − 1/4) cuando
1/4 < a ≤ 1/2. Luego, para 1/2 < a ≤ 1, el lado es 1/4 + (a − 1/4) = a,
y para a > 1 la intersección es todo el cuadrado unitario, y el lado es
constante igual a 1.
u2
3/4
1/4 a a u1
Figura 2.2: Regiones de integración para el cálculo de la distribución de D2 .
Estos cuadrados están contenidos en el primer caso en la región de in-

tegración o recorrido de la variable 0 ≤ u1 ≤ u2 ≤ 1, y en el segundo
28
caso tienen fuera de esa región un triángulo de área 2(a − 1/2)2 . Como
consecuencia,

1 − 2(2a − 1/2)2 = 1/2 + 4a − 8a2

 si 1/4 < a ≤ 1/2
g2 (a) = 1 − 2(a2 − 2(a − 1/2)2 ) si 1/2 < a ≤ 1


0 si 1 < a.
La Figura 2.3 muestra los gráficos de las funciones g1 y g2 obtenidas en

el Ejemplo precedente, y también de g3 y g4 calculadas mediante integración
numérica.
g1
g2
g3
g4
Figura 2.3: Representación gráfica de gn (a) = P{Dn > a} para n = 1, 2, 3, 4.
2.5 Pruebas de ajuste de Cramér - von Mises.

Los estadı́sticos de Cramér - von Mises son de la forma
∞ ∞
Qn = n (Fn (x) − F0 (x))2 ψ(F0 (x))dF0 (x) = b2n (F0 (x))ψ(F0 (x))dF0 (x),
−∞ −∞
(2.2)
29
2.5. Pruebas de Cramér - von Mises.
donde Fn es la función de distribución empı́rica de una la muestra aleatoria
simple X1 , . . . , Xn de cierta distribución F que suponemos continua.
El cambio de variables u = F0 (x) permite escribirlos de manera equivalente
como Qn = n 01 (Fn (F0−1 (u)) − u)2 ψ(u)du. Dado que las variables Ui = F0 (Xi )
constituyen una muestra aleatoria simple de la distribución uniforme, y que la
función en escalera Fn (F0−1 (u)) es la función de distribución empı́rica de esa
muestra, esta última escritura muestra que la distribución de Q no depende
de F0 cuando F = F0 .
Muestra

también que la distribución lı́mite para n → ∞ del estadı́stico Qn
es la de 01 b2 (u)ψ(u)du, donde b es un puente browniano tı́pico.
Llamemos X(1) , . . . , X(n) a los estadı́sticoa de orden que se obtienen or-
denando la muestra de menor a mayor. El estadı́stico Qn puede calcularse
teniendo en cuenta que en cada intervalo de la forma (X(i) , X(i+1) ), la función
Fn (x) es constante, igual a i/n. Esta observación vale para i = 0, 1, . . . , n con
la convención X(0) = −∞, X(n+1) = ∞. A partir de esta observación podemos
escribir
n X(i+1)
n F0 (X(i+1) )
i i
Qn = n ( −F0 (x))2 ψ(F0 (x))dF0 (x) = n ( −u)2 ψ(u)du.
i=0 X(i) n i=0 F0 (X(i) ) n
El cálculo explı́cito de estas integrales, cuya eventual dificultad depende de la

selección de la función ψ, permite reducir la expresión que define al estadı́stico
Qn a una suma finita que depende de la muestra a través de las variables
aleatorias uniformes F0 (Xi ). Encontramos de nuevo de esta manera que la
distribución de Qn no depende de cuál sea la distribución F0 . Sólo depende de
n y de cuál sea la función ψ.
2.5.1 El estadı́stico de Cramér - von Mises propiamente

dicho.
La prueba propuesta por Cramér y von Mises se basa en el estadı́stico (2.2)
correspondiente a ψ(u) = u.
El estadı́stico se calcula en la forma
n F0 (X(i+1) )
n F0 (X(i+1) ) 2
i i 2iu
Qn = n ( − u)2 du = n ( 2− + u2 )du
i=0 F0 (X(i) ) n i=0 F0 (X(i) ) n n
1
1 n n
= i2 [F0 (X(i+1) ) − F0 (X(i) )] − i[F02 (X(i+1) ) − F02 (X(i) )] + n u2 du
n i=0 i=0 0
30

1 n+1 1 n
n+1 n
n
= (i−1)2 F0 (X(i) )− i2 F0 (X(i) )− (i−1)F02 (X(i) )+ iF02 (X(i) )+
n i=1 n i=0 i=2 i=1 3
n2 1 n n
n
= + (1 − 2i)F0 (X(i) ) − n + F02 (X(i) ) +
n n i=1 i=1 3
n 2
2i − 1
n
i2 i 1 n
= F0 (X(i) ) − − 2
− 2+ 2 +
i=1 2n i=1 n n 4n 3
n 2
2i − 1 n(n + 1)(2n + 1) n(n + 1) n n
= F0 (X(i) ) − − 2
+ 2
− 2+
i=1 2n 6n 2n 4n 3
n 2
2i − 1 1
= F0 (X(i) ) − + .
i=1 2n 12n
2.5.2 Sobre la distribución asintótica del estadı́stico de

Cramér - von Mises.

Ya hemos observado que Qn converge en ley a Q = 01 b2 (u)du. Para describir
la distribución de Q, tomemos una sucesión de funciones f1 , . . . , fn , . . . que
constituyan un sistema ortonormal completo en el espacio L = {f : [0, 1] → R :
Ef 2 (U ) < ∞, U ∼ Unif[0, 1]}, con el producto interno f, g = 01 f (u)g(u)du.

En ese caso,

del desarrollo de
Fourier b(u) = ∞ 1
i=1 fi (u) 0 fi (v)b(v)dv re-

sulta
b
2 = 01 b2(u)du = ∞ 1 2
i=1 ( 0 fi (v)b(v)dv) .
Las variables 01 fi (v)b(v)dv tienen distribución normal conjunta, con espe-
ranzas cero y covariancias
1 1 1 1
E fi (v)b(v)dv fj (v)b(v)dv = fi (u)[ (Eb(u)b(v))fj (v)dv]du.
0 0 0 0
Esta expresión se simplificarı́a notablemente si se cumpliera

1
(Eb(u)b(v))fj (v)dv = λj fj (u) (2.3)
0
para algún valor de λj , porque en ese caso tendrı́amos

1 1 1
0, si i = j,
Cov( fi (u)b(u)du, fi (v)b(v)dv) = fi (u)λj fj (u)du
0 0 0 λi , si i = j.
Vamos a verificar que las funciones fj pueden elegirse de manera que se
cumpla (2.3), es decir:
1
(u ∧ v − uv)fj (v)dv = λj fj (u).
0
31
Veamos en primer lugar qué funciones f cumplen
1 u 1
λf (u) = (u ∧ v − uv)f (v)dv = (1 − u) vf (v)dv + u f (v)(1 − v)dv.
0 0 u
Al derivar esta ecuación una vez, encontramos
u 1
λf (u) = − vf (v)dv + u(1 − u)f (u) + f (v)(1 − v)dv − u(1 − u)f (u),
0 u
1 1
=− vf (v)dv + f (v)dv.
0 u
Una nueva derivación muestra que f debe cumplir√ λf (u) = −f √(u). Las
soluciones de esta ecuación son de la forma a cos(u/ λ) + b sin(u/ λ).
La ecuación de partida muestra que f (0) = f (1) = 0, y esto implica que,
de las funciones trigonométricas
√ indicadas, sólo podemos conservar las de la
forma fi (u) = bi sin(u/ λi ), con√1/λi = i2 π 2 . Para que las funciones fi tengan
norma 1, se requiere elegir bi = 2.
Es conocido que el sistema de las funciones trigonométricas 1, sin(nt), cos(nt)
(n = 1, 2, . . .) es un sistema completo en el intervalo [−π, π], y, de manera
equivalente, que 1, sin(nπu), cos(nπu) (n = 1, 2, . . .) son un sistema com-
pleto en [−1, 1]. Esto significa que cuando −1 1
f 2 (x)dx < ∞, f coincide en
L2 ([−1, 1]) con su desarrollo

en serie de Fourier.
Por este motivo, si 01 f 2 (u)du < ∞, entonces la función impar f˜ igual a
f en [0, 1] coincide en L2 ([−1, 1]) con su desarrollo en serie de Fourier, que es
un desarrollo de senos, porque los coeficientes de los cosenos son todos nulos,
debido a que f˜ es impar. Esto implica que f coincide en L2 ([0, 1]) en [0, 1] con
su desarrollo en serie de Fourier de senos. √
Un cálculo directo muestra que las funciones fi (u) = 2 sin(nπu) cumplen
las condiciones que muestran que 01 b2 (u)du tiene la distribución de la suma
∞
1 2
Z , con Z1 , Z2 , . . . i.i.d. normales tı́picas. Se trata de una distribución
2 2 i
i=1 i π
con puntos de contacto con las distribuciones χ2 . En vez de una suma finita
de cuadrados de variables normales tı́picas independientes, como es el caso de
las distribuciones χ2 , se trata de una suma infinita de tales cuadrados, pero
multiplicados por coeficientes diferentes, que tienden a cero de modo que la
∞
1
variancia (que en este caso vale 2 2
= 1/6) es finita.
i=1 i π
2.5.3 La prueba de Anderson y Darling.

El estadı́stico de Anderson - Darling integra los cuadrados b2n de los apartamien-
tos del proceso empı́rico respecto de su esperanza (nula bajo H0 ) medidos
32
en relación a Varb2n (x) = F0 (x)(1 − F0 (x)). En otras palabras, se utiliza
1
ψ(F0 (x)) = F0 (x)(1−F 0 (x))
.
Como en el caso de la Prueba de Cramér - von Mises, puede obtenerse una
fórmula para calcular el estadı́stico
1
b2n (F0 (x))
A2n = dF0 (x)
0 F0 (x)(1 − F0 (x))
mediante una suma finita, y puede describirse la ley asintótica, que es la de
1 b2 (u)
0 u(1−u) du como la de una serie del mismo tipo que la encontrada en el caso
de Cranér - von Mises.
2.6 Pruebas de ajuste a la familia

F = {L(µ + σX) : L(X) = F0, µ ∈ R, σ ∈ R+}.

Para probar H0 :“F ∈ F”, pueden estimarse µ y σ 2 mediante µ̂ = n1 ni=1 Xi ,

σ̂ 2 = n1 ni=1 (Xi − µ̂)2 . Luego se tipifica la muestra en la forma Yi = Xσ̂i −µ̂ 2 y
se aplica a Y1 , . . . , Yn una prueba de ajuste a la distribución F0 , adaptada a la
circunstancia de que la muestra tipificada no es i.i.d., ya que las variables no
son independientes, puesto que en todas intervienen µ̂ y σ̂ 2.
El promedio de la muestra µ̂ = X̄ = xdFn (x) = µ + √1n xdb(X) n se expresa
convenientemente a partir de la función de distribución empı́rica o del proceso
empı́rico.

Lo mismo ocurre con el estimador de la variancia, σ̂ 2 = n1 ni=1 (Xi − X̄)2
2
= (x − X̄)2 dFn (x) = σ 2 + √1n (x − µ)2 db(X)
n − 1
n
xdb(X)
n .
Introducimoe el proceso empı́rico estimado
n n
1 1
b̂n (y) = √ 1{Yi ≤y} − F0 (y) = √ 1{Xi ≤X̄+sy} − F0 (y)
n i=1 n i=1

1 n
=√ 1 X̄−µ − F0 (y) .
n i=1 {Zi ≤y+( σ −1)y+ σ }
s
X1 −µ Xn −µ
El proceso empı́rico de las variables tipificadas Z1 = σ
, . . ., Zn = σ
es n
1
b(Z)
n (x) = √ 1{Zi ≤x} − F0 (x) .
n i=1
Con la notación
s X̄ − µ
yn = y + −1 y+ ,
σ σ
33
escribimos
√
b̂n (y) = bn(Z) (yn ) + n (F0 (yn ) − F0 (y)) .

x−µ
Como consecuencia, de b(X) (Z)
n (x) = bn σ
, obtenemos
X̄ − µ 1
=√ zdbn(Z) (z),
σ n
2
s2 1 2 (Z) 1
= 1 + √ z db n (z) − zdbn(Z) ,
σ2 n n
y entonces
1 y 2 (Z) √
yn = y + √ zdbn(Z) (z) + √ z dbn (z) + o(1/ n).
n 2 n
Como consecuencia, si F0 tiene densidad f0 , podemos escribir

y 2 (Z) √
b̂n (y) = bn(Z) (yn ) + zdb(Z)
n (z) + z dbn (z) f0 (y) + o(1/ n).
2
Puesto que bn(Z) tiene la distribución asintótica del puente browniano b(F0 )
asociado a F0 , bajo “F = F0 ”, la distribución lı́mite del proceso empı́rico
estimado b̂n (y) es también gaussiana. El lı́mite de las covariancias muestra
que esta distribución asintótica es la de

(F0 ) (F0 ) y 2 (F0 )
b (y) + zdb (z) + z db (z) f0 (y). (2.4)
2
Se observará que el procedimiento de estimación de los parámetros pro-
porciona estimadores que no son invariantes respecto de la transformación
canónica X → F0 (X). Por ese motivo, la distribución de los estadı́sticos que
describen el tamaño de b̂n no es independiente de la distribución F0 , o más pre-
cisamente, no es independiente de la familia de distribuciones de probabildad
que interviene en la hipótesis nula de ajuste. Por ese motivo, los procedimien-
tos basados en lo que precede requieren la determinación de los valores crı́ticos
para cada F0 en particular.
Una prueba análoga puede realizarse para cualquier otra familia de dis-
tribuciones que sea la mı́nima familia cerrada bajo cambios de posición o de
dispersión que contiene a una distribución F0 dada. Por lo que acabamos de
indicar, el procedimiento es el mismo, pero los valores crı́ticos tienen que ser
calculados nuevamente, para cada familia.
34
2.6.1 Un ejemplo: La prueba de normalidad de Lil-
liefors.
La utilización del estadı́stico de Kolmogorov D̂n = sup |F̂n −Φ|, donde F̂n (y) =
1 n
n i=1 1{Yi ≤y} dentro del contexto precedente, conduce a la llamada Prueba de
Lilliefors de región crı́tica D̂n > ĉn (α).
Intuitivamente, es de esperar que, si la muestra tiene distribución normal,
la muestra tipificada estimada esté más cerca de la distribución normal tı́pica
que la muestra tipificada con los verdaderos parámetros, ya que µ̂ y σ̂ 2 son
los parámetros de la distribución normal que mejor se ajusta a la muestra, en
particular, mejor que la verdadera distribución que dio lugar a la muestra.
Este argumento no es concluyente, ya que los estimadores son los que ma-
ximizan la verosimilitud, en el caso de la distribución normal, y no los que
minimizan la distancia de Kolmogorov. Pero la intuición es correcta: Lilliefors
obtuvo empı́ricamente la distribución de D̂n , y sus tablas lo confirman.
Existe una propuesta análoga de Lilliefors, para la cual también ha cal-
culado tablas de los valores crı́ticos, para probar la hipótesis nula de que la
distribución es exponencial.
El estadı́stico de la prueba de normalidad de Lilliefors suele escribirse en
la forma
Ln = sup |Fn (x) − F̂ (x)|,
donde F̂ es la distribución normal cuyas media y variancia son las estimadas,
es decir, con Z normal tı́pica, F̂ (x) = P{µ̂ + σ̂Z ≤ x} = Φ((x − µ̂)/σ̂), pero el

cambio de variables Yi = (Xi − µ̂)/σ̂ conduce a escribir Fn (x) = n1 ni=1 1{Xi ≤x}

= n1 ni=1 1{Yi ≤(x−µ̂)/σ̂} = F̂n ((x − µ̂)/σ̂) y entonces Ln = sup |F̂n ((x − µ̂)/σ̂) −
Φ((x − µ̂)/σ̂)| = D̂n .
En resumen es equivalente utilizar la muestra tipificada estimada, y com-
pararla con la distribución normal tı́pica, o comparar directamente la dis-
tribución empı́rica con la distribución normal estimada.

Pruebas de Bondad de Ajuste

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Pruebas de Bondad de Ajuste

Uploaded by

Copyright:

Available Formats

Capı́tulo 2

Pruebas de bondad de ajuste.

2.1 Pruebas de ajuste simples.

2.2 Generalidades sobre las pruebas de ajuste.

2.3 Prueba χ2 de ajuste.

2.3.1 La distribución aproximada del estadı́stico de Pear-

E1{Xi ∈I} 1{Xi ∈J} − E1{Xi ∈I} E1{Xi ∈J}

= P{Xi ∈ I, Xi ∈ J} − P{Xi ∈ I}P{Xi ∈ J}

2.3.2 Una deducción alternativa de la distribución asin-

2.3.3 Análisis a partir del cociente de verosimilitudes.

El desarrollo de Taylor log(1 + x) = x − 12 x2 + Ax3 , A acotado, nos conduce a

El sumando que contiene la constante A se acota por

de modo que −2 log λ es asintóticamente equivalente a

2.3.5 Los valores crı́ticos.

P{Qn > cα } = α (2.1)

P{Qn > cα } ≤ α, P{Qn ≥ cα } > α.

Tabla 2.1: Valores de k dados por la fórmula de Mann y Wald, y esperanza

α = .10 α = .05 α = .01

La Tabla 2.2 indica valores de cα estimados mediante una simulación basada

2.4 Prueba de ajuste de Kolmogorov.

√ de Kolmogorov es D = sup |Fn (x) − F (x)|, la prueba tiene

n = 1 Las desigualdades se reducen a |1/2 − u| < a − 1/2, que deﬁne para

n = 2 Las desigualdades |1/4 − u1 | < a − 1/4, |3/4 − u2 | < a − 1/4 deﬁnen

Figura 2.2: Regiones de integración para el cálculo de la distribución de D2 .

Estos cuadrados están contenidos en el primer caso en la región de in-

La Figura 2.3 muestra los gráﬁcos de las funciones g1 y g2 obtenidas en

Figura 2.3: Representación gráﬁca de gn (a) = P{Dn > a} para n = 1, 2, 3, 4.

2.5 Pruebas de ajuste de Cramér - von Mises.

El cálculo explı́cito de estas integrales, cuya eventual diﬁcultad depende de la

2.5.1 El estadı́stico de Cramér - von Mises propiamente

2.5.2 Sobre la distribución asintótica del estadı́stico de

Esta expresión se simpliﬁcarı́a notablemente si se cumpliera

para algún valor de λj , porque en ese caso tendrı́amos

2.5.3 La prueba de Anderson y Darling.

2.6 Pruebas de ajuste a la familia

Como consecuencia, si F0 tiene densidad f0 , podemos escribir

You might also like