Professional Documents
Culture Documents
Introduccin a la metodologa
bootstrap
Jordi Ocaa
Departament destadsticoa
Secci Departamental de Biologia
Universitat de Barcelona
Puntos a tratar
Elementos de un problema de inferencia
estadsticoa
Determinacin de la distribucin muestral (o de
alguna de sus caractersticas)
Principio plug-in y bootstrap
Principio de Montecarlo y bootstrap
Necesaria correspondencia entre mundo real y
mundo bootstrap
Ejemplos
Departament destadstica
Elementos de un problema de
inferencia estadstica
X F F
x Modelo
muestra probabilstico,
los datos Estudio experimental u
observada mecanismo
observacional
generador de los
datos
t ( x ) estadsticos
R (t , F , x ) Medidas de
-4 -2 0 2 4
Departament destadstica
y
Distribucin exacta de la media
muestral
Llamemos G a la distribucin del
estadstico X, G = G(F(;m,s2),...)
Bajo fuerte suposicin sobre la forma de F
(normalidad), forma de G conocida de manera
exacta: N(m,s2/n), para todo n
Dependiente de parmetros desconocidos:
m,s2. En la prctica, aproximacin
s 2 vlida solament e
N m ,
n para est imar
Departament destadstica
var (X )
Distribucin muestral exacta del
estadstico t
Llamemos H a la distribucin del
estadstico t(X), H = H(F(;m,s2),...)
Bajo fuerte suposicin sobre la forma de F
(normalidad), conocida de forma exacta: t
de Student con n - 1 g.d.ll
Gracias al carcter pivotal de t(x), no
depende de parmetros desconocidos
Pero que pasa bajo otras formas de F?
Departament destadstica
Distribucin muestral bajo
condicions ms generales
Segn el Teorema Central del Lmite, si n
grande X N (m, s / n ),en la prct ica
2
X N (m , s 2 / n ) (p.e. N (x , s 2 / n ) )
0.5 0.4
muestral,
G(q,,...)=G(F(;q,),...)
0.3
= 0.5, sd = 0.75)
0.4
dnorm(x)
0.20.3
dnorm(x, mean
0.2
0.1 0.1
Ajuste de los
0.0
0.0
parmetros de la -4
-4 -2
-2 00
xx
2 2 4 4
distribucin muestral,
G( , ,...) q h
Departament destadstica
Principio plug-in y bootstrap
(en sentido amplio)
Fijmonos en el paso G = G(F(;m,s2),...)
Si F es una buena estimacin de F a partir
de los datos, parece razonable aproximar G
mediante G (F , K )
Principio plug-in
Metodologia bootstrap inferencia
basada en el Principio plug-in
Departament destadstica
Ejemplo: aplicacin automtica
del Principio plug-in
A menudo F es la distribucin emprica,
Fn, discreta, que assigna probabilidad 1/n
a cada valor muestral y 0 a cualquier otro
i= 1 n
n
22 1
EEFnFn(XX - x ) = (x i - x )
* 2 2
( ) = s
i= 1 n
Conveniencia de notacin X* en lugar
de X: no es la misma v.a
Departament destadstica
Dificultades en la aplicacin del
Principio plug-in
No tan (o a veces nada) clara su aplicacin
en situaciones ms complejas:
otras caractersticas de la distribucin muestral,
incluso para estadsticos sencillos como la
media muestral (p.e. un cuantil, ...)
otros estadsticos que no sean medias ni
funciones senzilles de medias
determinacin de la distribucin muestral
completa
G (; F )
Departament destadstica
El mtodo de Montecarlo
F Modelo probabilstico,
completamente especificado
p.e. n rplicas N (m, s 2 ) iid
x1 = (x 11, K , x 1n ) a U ( x1 ) = u1 (gran)
muestra de
x 2 = (x 21, K , x 2n ) a U ( x 2 ) = u 2 m valores
M del
estadstico
xm = (x m 1, K , x mn ) a U ( xm ) = um Leyes de
los grandes
Generacin de m muestras m nmeros
1
independientes (o no) m - 1 j=1 (u j - u )2
@ varF (U )
segn F Departament destadstica
G @G (; F ), et c.
Bootstrap y Montecarlo
F estimacin del Modelo probabilstico,
1
si x *
{x 1, K , x n }
* *
p.e. P X *
= x = n
0 en caso cont rario
x* 1
= (x 11* , K , x 1*n )a U ( x *1 ) = u 1* muestra de B
valores del
x* = (x *21 , K , x *2n )a U ( x *2 ) = u *2
2 estadstico
M
= (x *B 1 , K , x *Bn Leyes de
x* B
) a U ( x *B ) = u *B los grandes
Generacin de B nmeros
B
remuestras de tamao n 1
B - 1 b= 1
(muestras aleatorias con
(u b* - u * )2 @ var (U * )
F
reemplazo de los elementos de destadstica
x)
Departament
G * @G (; F ), et c.
Qu estimamos a partir del
Montecarlo bootstrap?
Mont ecarlo "Verdadero"
boot st rap @ P lug-in @ valor del
funcional
G * = G (u1*, K , u B* ) @ G (; F ) @ G (; F )
B
1
u* =
B ub* @ E (U * )
F
@ E F (U )
b= 1
B
1 2
B - 1 b= 1 b
* (U * ) =
var (u *
- u *)
@ var (U * ) @ varF (U )
F
# {u *
U ( x )}
P* U U ( x )
*
= b
@ P U * U ( x ) @ P [U U ( x )]
B F
F
Departament destadstica
Caractersticas generales de los
ejemplos
Modelo probabilstico subyacente conocido
Normal m = 15, s = 3, o bien
Exponencial a = 1/m = 1/15
( distribucin muestral conocida)
Anlisis de nica muestra (pequea, n = 10),
generada segn uno u otro modelo.
caso normal: 15.54, 21.06, 16.52, 13.62, 16.14, 10.98,
13.53, 16.02, 16.79, 15.90
caso exponencial: 8.51, 8.71, 69.19, 10.05, 23.64, 8.67,
1.51, 20.36, 1.23, 5.27
Departament destadstica
Caractersticas generales de los
ejemplos
estadsticos: media muestral y t
aproximaciones: normal, bootstrap no
paramtrico y bootstrap paramtrico
aproximaciones bootstrap: estima kernel
a partir de B = 1000 valores del estadstico
(media o t, segn el caso)
Cada uno de estos valores calculado sobre
una remuestra de tamao n = 10
Departament destadstica
Media muestral, caso normal: n
= 10, m = 15, s = 3
Verdadera dist ribucin: X : N (15, 3/ 10 )
Aproximacin normal:
X N (x = 15.62, s / n = 2.63/ 10 )
Boot st rap: 1000 valores x * = X ( x * )
para remuest ras x * = (x 1*, K , x *n )
no paramt rico: cada x i* escogido con probabilidad
1/ n ent re los de la muest ra origin al
par amt rico: cada x i* generado segn N (15.62, 2.63 )
Departament destadstica
Media muestral, caso normal:
Verdadera densidad, aprox normal, bootstrap no
dens.bootstrap.param$y
dens.bootstrap$y
dens.normAprox
dens.veritat
0.5
0.4
0.3
0.2
0.1
0.0
paramtrico y paramtrico
12 13 14
14 15
15 16
16 17
17 18
dens.bootstrap$x
rang.xBarra
dens.bootstrap.param$x
Departament destadstica
Media muestral, caso
exponencial: a = 1/m = 1/15
Verdadera dist ribucin: X : Gam (10/ 15,10 )
Aproximacin normal:
X N (x = 15.71, s / n = 20.13/ 10 )
Boot st rap: B = 1000 valores xb* = X (xb* )
remuest ras xb* = (x 1*b , K , x *nb ), b = 1, K , B
no paramt rico: cada x ib
*
elegido con probabilidad
1/ n ent re los de la muest ra origin a l
paramt rico: x ib
*
generados como Exp (1/ 15.71 )
Departament destadstica
Media muestral, exponencial:
verdadera densidad, aprox normal, bootstrap no
0.10
0.08 paramtrico y paramtrico
dens.bootstrap.param$y
dens.bootstrap$y
dens.normAprox
0.06
dens.veritat
0.04
0.02
0.0
5 10 15 20 25
25
dens.bootstrap.param$x
dens.bootstrap$x
rang.xBarra
Departament destadstica
Estadstico t, caso normal: n
= 10, m = 15, s = 3
Verdadera distribucin: t : t (n - 1 = 9 )
0.2
0.1
0.0
-4 -2 0 2 4
dens.bootstrap.param$x
dens.bootstrap$x
rang.t
Departament destadstica
Estadstico t, exponencial: n
= 10, a = 1/m = 1/15
Verdadera dist ribucin:
est imada por simulacin
Aproximacin normal: t N (0,1 )
Boot st rap: 1000 valores t * = t ( x * )
para remuest ras x * = (x 1*, K , x *n )
no paramt rico: cada x i* escogido con probabilidad
1/ n ent re los de la muest ra origin al
par amt r ico: cada x i* generado seg n Exp (1/ 15.62 )
Departament destadstica
Estadstico t, exponencial:
verdadera dens, aprox normal, boot no
paramtrico y paramtrico
0.4
0.3
dens.bootstrap.param$y
dens.bootstrap$y
dens.normAprox
dens.veritat$y
0.2
0.1
0.0
-4 -2 0 2 4
dens.bootstrap.param$x
dens.bootstrap$x
dens.veritat$x
rang.t
Departament destadstica
Caso exponencial, t, n = 40
0.4
0.3
dens.bootstrap.param$y
dens.bootstrap$y
dens.normAprox
dens.veritat$y
0.2
0.1
0.0
-4 -2 0 2 4
dens.bootstrap.param$x
dens.bootstrap$x
dens.veritat$x
rang.t
Departament destadstica