You are on page 1of 28

Departament destadsticoa

Grup destadsticoa Computacional

Introduccin a la metodologa
bootstrap

Jordi Ocaa
Departament destadsticoa
Secci Departamental de Biologia
Universitat de Barcelona
Puntos a tratar
Elementos de un problema de inferencia
estadsticoa
Determinacin de la distribucin muestral (o de
alguna de sus caractersticas)
Principio plug-in y bootstrap
Principio de Montecarlo y bootstrap
Necesaria correspondencia entre mundo real y
mundo bootstrap
Ejemplos

Departament destadstica
Elementos de un problema de
inferencia estadstica

X F F
x Modelo
muestra probabilstico,
los datos Estudio experimental u
observada mecanismo
observacional
generador de los
datos
t ( x ) estadsticos
R (t , F , x ) Medidas de

0. 0.5 khi2(5) 0.1 0.15


Procesamiento precisin
Departament destadstica 0 2 4 6
y
8 10
1214
Elementos de un problema de
I.E. Ejemplo introductorio
n (x i - m)2

- 1
(s 2p ) e
-
x = (x 1 , K , x n ) f ( x; m, s 2 ) = 2s 2
Medimosi = 1 la presin
13.1, 12.2,
muestra sanguinea sistlica de una
15.5, ... Normal de media y
aleatoria muestra aleatoria de
varianza
simple de individuos de una
desconocidas
tamao n poblacin
n
1 (x - m) n
x = xi , t (x ) =
n i=1 s
0. 0.1 t(20)0.2 0.3 0.4

-4 -2 0 2 4
Departament destadstica
y
Distribucin exacta de la media
muestral
Llamemos G a la distribucin del
estadstico X, G = G(F(;m,s2),...)
Bajo fuerte suposicin sobre la forma de F
(normalidad), forma de G conocida de manera
exacta: N(m,s2/n), para todo n
Dependiente de parmetros desconocidos:
m,s2. En la prctica, aproximacin
s 2 vlida solament e
N m ,



n para est imar
Departament destadstica
var (X )
Distribucin muestral exacta del
estadstico t
Llamemos H a la distribucin del
estadstico t(X), H = H(F(;m,s2),...)
Bajo fuerte suposicin sobre la forma de F
(normalidad), conocida de forma exacta: t
de Student con n - 1 g.d.ll
Gracias al carcter pivotal de t(x), no
depende de parmetros desconocidos
Pero que pasa bajo otras formas de F?
Departament destadstica
Distribucin muestral bajo
condicions ms generales
Segn el Teorema Central del Lmite, si n
grande X N (m, s / n ),en la prct ica
2

X N (m , s 2 / n ) (p.e. N (x , s 2 / n ) )

Igualmente, segn el T. C. L., es razonable


la aproximacinn t N(0,1)
Casos ms generales ms problemticos:
n (U ( X ) - q )
U ( X ), ,K
s n U
Departament destadstica
Esquema general de estas
aproximaciones
Determinacin previa de
la forma de la distribucin

0.5 0.4
muestral,
G(q,,...)=G(F(;q,),...)

0.3
= 0.5, sd = 0.75)

0.4
dnorm(x)

0.20.3
dnorm(x, mean

0.2
0.1 0.1
Ajuste de los

0.0
0.0
parmetros de la -4
-4 -2
-2 00
xx
2 2 4 4

distribucin muestral,
G( , ,...) q h

Departament destadstica
Principio plug-in y bootstrap
(en sentido amplio)
Fijmonos en el paso G = G(F(;m,s2),...)
Si F es una buena estimacin de F a partir
de los datos, parece razonable aproximar G
mediante G (F , K )

Principio plug-in
Metodologia bootstrap inferencia
basada en el Principio plug-in
Departament destadstica
Ejemplo: aplicacin automtica
del Principio plug-in
A menudo F es la distribucin emprica,
Fn, discreta, que assigna probabilidad 1/n
a cada valor muestral y 0 a cualquier otro

Si interessa caracterstica concreta


como varF (X )
varF (X ) =
n
Segn Principio plug-in:
varFn (X ) s 2
varFn (X ) = =
n n
Departament destadstica
Detalles del clculo anterior
*2 2
*
E Fn (X - - EEFnFn((XX))))
*
varFnFn(( ) =
var XX
nn
n
1
EEFnFn(XX ) = x i = x (= E Fn (X )))
*
( ) *

i= 1 n
n
22 1
EEFnFn(XX - x ) = (x i - x )
* 2 2
( ) = s
i= 1 n
Conveniencia de notacin X* en lugar
de X: no es la misma v.a
Departament destadstica
Dificultades en la aplicacin del
Principio plug-in
No tan (o a veces nada) clara su aplicacin
en situaciones ms complejas:
otras caractersticas de la distribucin muestral,
incluso para estadsticos sencillos como la
media muestral (p.e. un cuantil, ...)
otros estadsticos que no sean medias ni
funciones senzilles de medias
determinacin de la distribucin muestral
completa
G (; F )
Departament destadstica
El mtodo de Montecarlo
F Modelo probabilstico,
completamente especificado
p.e. n rplicas N (m, s 2 ) iid
x1 = (x 11, K , x 1n ) a U ( x1 ) = u1 (gran)
muestra de
x 2 = (x 21, K , x 2n ) a U ( x 2 ) = u 2 m valores
M del
estadstico
xm = (x m 1, K , x mn ) a U ( xm ) = um Leyes de
los grandes
Generacin de m muestras m nmeros
1
independientes (o no) m - 1 j=1 (u j - u )2
@ varF (U )
segn F Departament destadstica
G @G (; F ), et c.
Bootstrap y Montecarlo
F estimacin del Modelo probabilstico,
1

si x *
{x 1, K , x n }
* *
p.e. P X *
= x = n
0 en caso cont rario

x* 1
= (x 11* , K , x 1*n )a U ( x *1 ) = u 1* muestra de B
valores del
x* = (x *21 , K , x *2n )a U ( x *2 ) = u *2
2 estadstico
M
= (x *B 1 , K , x *Bn Leyes de
x* B
) a U ( x *B ) = u *B los grandes
Generacin de B nmeros
B
remuestras de tamao n 1
B - 1 b= 1
(muestras aleatorias con
(u b* - u * )2 @ var (U * )
F
reemplazo de los elementos de destadstica
x)
Departament
G * @G (; F ), et c.
Qu estimamos a partir del
Montecarlo bootstrap?
Mont ecarlo "Verdadero"
boot st rap @ P lug-in @ valor del
funcional
G * = G (u1*, K , u B* ) @ G (; F ) @ G (; F )
B
1
u* =
B ub* @ E (U * )
F
@ E F (U )
b= 1
B
1 2
B - 1 b= 1 b
* (U * ) =
var (u *
- u *)
@ var (U * ) @ varF (U )
F

# {u *
U ( x )}

P* U U ( x )
*
= b
@ P U * U ( x ) @ P [U U ( x )]
B F
F

Error de aproximacin Problema clsico de


Departament destadstica
de Montecarlo precisin estadstica
Validez de la aproximacin
bootstrap
Resultado general (pero no muy til):
Segn Leyes de los grandes nmeros, Fn(x) tiende (en
diversos sentidos) hacia F(x). Extensible a funciones
suficientemente suaves
Validez: resultado sobre funcionales, funciones
globales de Fn (u otras estimaciones) y de F:
teoremas lmite sobre distancias entre distribuciones
Ms inters prctico: comparacin entre
aproximacin bootstrap y otras, para n finito

Departament destadstica
Caractersticas generales de los
ejemplos
Modelo probabilstico subyacente conocido
Normal m = 15, s = 3, o bien
Exponencial a = 1/m = 1/15
( distribucin muestral conocida)
Anlisis de nica muestra (pequea, n = 10),
generada segn uno u otro modelo.
caso normal: 15.54, 21.06, 16.52, 13.62, 16.14, 10.98,
13.53, 16.02, 16.79, 15.90
caso exponencial: 8.51, 8.71, 69.19, 10.05, 23.64, 8.67,
1.51, 20.36, 1.23, 5.27

Departament destadstica
Caractersticas generales de los
ejemplos
estadsticos: media muestral y t
aproximaciones: normal, bootstrap no
paramtrico y bootstrap paramtrico
aproximaciones bootstrap: estima kernel
a partir de B = 1000 valores del estadstico
(media o t, segn el caso)
Cada uno de estos valores calculado sobre
una remuestra de tamao n = 10
Departament destadstica
Media muestral, caso normal: n
= 10, m = 15, s = 3
Verdadera dist ribucin: X : N (15, 3/ 10 )
Aproximacin normal:
X N (x = 15.62, s / n = 2.63/ 10 )
Boot st rap: 1000 valores x * = X ( x * )
para remuest ras x * = (x 1*, K , x *n )
no paramt rico: cada x i* escogido con probabilidad
1/ n ent re los de la muest ra origin al
par amt rico: cada x i* generado segn N (15.62, 2.63 )
Departament destadstica
Media muestral, caso normal:
Verdadera densidad, aprox normal, bootstrap no
dens.bootstrap.param$y
dens.bootstrap$y
dens.normAprox
dens.veritat

0.5
0.4
0.3
0.2
0.1
0.0
paramtrico y paramtrico

12 13 14
14 15
15 16
16 17
17 18
dens.bootstrap$x
rang.xBarra
dens.bootstrap.param$x

Departament destadstica
Media muestral, caso
exponencial: a = 1/m = 1/15
Verdadera dist ribucin: X : Gam (10/ 15,10 )
Aproximacin normal:
X N (x = 15.71, s / n = 20.13/ 10 )
Boot st rap: B = 1000 valores xb* = X (xb* )
remuest ras xb* = (x 1*b , K , x *nb ), b = 1, K , B
no paramt rico: cada x ib
*
elegido con probabilidad
1/ n ent re los de la muest ra origin a l
paramt rico: x ib
*
generados como Exp (1/ 15.71 )
Departament destadstica
Media muestral, exponencial:
verdadera densidad, aprox normal, bootstrap no
0.10
0.08 paramtrico y paramtrico
dens.bootstrap.param$y
dens.bootstrap$y
dens.normAprox

0.06
dens.veritat

0.04
0.02
0.0

5 10 15 20 25
25

dens.bootstrap.param$x
dens.bootstrap$x
rang.xBarra
Departament destadstica
Estadstico t, caso normal: n
= 10, m = 15, s = 3
Verdadera distribucin: t : t (n - 1 = 9 )

Aproximacin normal: t N (0,1 )

Boot st rap: 1000 valores t * = t ( x * )


para remuest ras x * = (x 1*, K , x *n )
no paramt rico: cada x i* escogido con probabilidad
1/ n ent re los de la muest ra origin al
par amt rico: cada x i* generado segn N (15.62, 2.63 )
Departament destadstica
Detalle y justificacin del
proceso de remuestreo
"Mundo boot st rap"
"Mundo real" = E (X *, Fn )
x = m
m = E (X , F )
Fn
F

x * = (x 1*, K , x n* )
x = (x 1, K , x n )


x * = X (x* )
x = X (x )
1 n
n s = S ( x
* *
)= (x i* - x * )2
1
s = S ( x ) = (x i - x )2
n - 1i = 1
n - 1i = 1

n (x * - x )
n (x - m) t* =
t = s *
s
Departament destadstica
Estadstico t, normal: verdadera
densidad, aprox normal, bootstrap no
paramtrico y paramtrico
0.4
0.3
dens.bootstrap.param$y
dens.bootstrap$y
dens.normAprox
dens.veritat

0.2
0.1
0.0

-4 -2 0 2 4

dens.bootstrap.param$x
dens.bootstrap$x
rang.t
Departament destadstica
Estadstico t, exponencial: n
= 10, a = 1/m = 1/15
Verdadera dist ribucin:
est imada por simulacin
Aproximacin normal: t N (0,1 )
Boot st rap: 1000 valores t * = t ( x * )
para remuest ras x * = (x 1*, K , x *n )
no paramt rico: cada x i* escogido con probabilidad
1/ n ent re los de la muest ra origin al
par amt r ico: cada x i* generado seg n Exp (1/ 15.62 )
Departament destadstica
Estadstico t, exponencial:
verdadera dens, aprox normal, boot no
paramtrico y paramtrico
0.4
0.3
dens.bootstrap.param$y
dens.bootstrap$y
dens.normAprox
dens.veritat$y

0.2
0.1
0.0

-4 -2 0 2 4

dens.bootstrap.param$x
dens.bootstrap$x
dens.veritat$x
rang.t
Departament destadstica
Caso exponencial, t, n = 40
0.4
0.3
dens.bootstrap.param$y
dens.bootstrap$y
dens.normAprox
dens.veritat$y

0.2
0.1
0.0

-4 -2 0 2 4

dens.bootstrap.param$x
dens.bootstrap$x
dens.veritat$x
rang.t

Departament destadstica

You might also like