Professional Documents
Culture Documents
Andrs M. Alonso
Departamento de Matemticas. Universidad Autnoma de Madrid. E.Mail: andres.alonso@uam.es
Resumen
En Silva y Soler (1996) se propone un procedimiento para construir intervalos de confianza de indicadores en
regresin logstica basados en la desigualdad de Chebyshev. En general, estos intervalos no son exactos y por tanto
la cobertura real y la longitud real resultan superiores a las nominales. En este trabajo, presentamos un
procedimiento bootstrap para obtener tales intervalos. Presentamos un estudio de Monte Carlo comparando las
propiedades en muestras finitas del mtodo bootstrap con el mtodo alternativo.
Palabras claves: Intervalos de confianza, bootstrap, regresin logstica.
Abstract
Bootstrap confidence intervals of indicators in logistic regression
Silva and Soler (1996) propose a procedure to build confidence intervals of indicators in logistic regression based
on the inequality of Chebyshev. In general, these intervals are not exact and therefore the real coverage and the real
length are superior to the nominal. In this work, we present a bootstrap procedure in order to obtain such intervals.
We present a Monte Carlo study comparing the finite sample properties of the bootstrap method with the alternative
method.
MedULA, Revista de Facultad de Medicina, Universidad de Los Andes. Vol. 10 N 1-4. 2001. (2004). Mrida. Venezuela. 11
El modelo logstico que consideraremos en esta postulado. Un estimador plug-in o anlogo
seccin, establece la siguiente relacin entre la es = ( P ) , donde P es un estimador de P. En lo
probabilidad de que ocurra un suceso (que
que sigue combinamos el modo en que Efron y
denotaremos por Y = 1) en estudio y un conjunto
Tibshirani (1993), y Shao y Tu (1995) presentan el
de p variables independientes (X1, X2, ..., Xp):
1
Pr{Y = 1 | X1 = x1 , X 2 = x2 ,K, X p1 = x p } = (1)
1 + exp(0 1 x1 2 x2 L p x p )
donde = (0, 1,..., p) es un vector de p + 1 mtodo bootstrap en una situacin general:
parmetros reales. Sea I = f() = f(0, 1, ..., p) el
indicador de inters basado en los parmetros del Sea Z = (Z1, Z2, ..., Zn) un conjunto de datos (no
modelo logstico, siendo f(.) una funcin dos veces necesariamente i.i.d.) generados por el modelo
diferenciable. En Silva y Soler (1996) se propone el estadstico P, y sea T(Z) el estadstico cuya
siguiente procedimiento para el clculo de intervalos distribucin L(T ; P) deseamos estimar. El mtodo
de confianza (1 - ) %: bootstrap propone como estimador de L(T ; P) a la
Sea = ( 1 , 2 , K , p ) un estimador del vector de distribucin L*(T*; Pn ) del estadstico T* =T (Z*),
parmetros. Obtener el desarrollo de Taylor de donde Z* es un conjunto de datos generado por el
primer orden (despreciando el trmino de resto) de la modelo estimado Pn .
funcin f(.) alrededor del punto :
p
f Pn
f ( ) = f ( ) +
( i i ) . (2) Notemos que si =P, entonces las
i = 0 i P
distribuciones L(T ; P ) y L*(T*; n ) coinciden. De
De la expresin anterior, se obtiene la siguiente manera que si tenemos un buen estimador de P, es
aproximacin del error cuadrtico de f( ) como P
lgico suponer que L*(T*; n ) se aproximar
estimador de f():
a L(T ; P ). Concentrndonos en el caso i.i.d.
p p
f f donde el modelo P es la funcin de
ECM ( f ( )) =
( i i )( j j ). (3) distribucin F que sigue Xi, la forma en que
i = 0 i = 0 i j
hemos presentado el bootstrap incluye el
Utilizando la desigualdad de Chebyshev, se obtiene: bootstrap clsico que corresponde a estimar F por la
1 funcin de distribucin emprica Fn = Fn, el
Pr{f () q ECM( f ()) < f () < f () + q ECM( f ())} 1 2 , (4)
q bootstrap suavizado para una F continua que
donde q es tal que 1 1/q2 = 1 - . utiliza Fn = Fn,h donde Fn,h es la funcin de
Para la implementacin prctica del procedimiento distribucin asociada a un estimador de la funcin de
anterior bastar con obtener las expresiones de las densidad f, y el bootstrap paramtrico cuando se
f ( ) supone que la funcin de distribucin pertenece a una
derivadas y sustituirlas en (4) por sus
i familia paramtrica F y se utiliza Fn = F ,
f ( ) donde es un estimador de .
estimadores . En Silva y Soler (1996) se
i En las secciones 3.1 y 3.2 desarrollamos dos
obtienen las expresiones para tres ndices procedimientos bootstrap para el caso de un modelo
relacionados con la lactancia materna. logstico que pueden interpretarse como la versin
clsica y la paramtrica, respectivamente.
INTERVALOS DE CONFIANZA BOOTSTRAP
El bootstrap propuesto por Efron (1979) tiene como Intervalos de confianza bootstrap clsico
pieza clave la utilizacin del principio de analoga En esta seccin, consideraremos a Z = (Y, X) = ((Y1,
(plug-in) que constituye uno de los mtodos ms X1), (Y2, X2),..., (Yn, Xn)) como independientes e
simples utilizados para obtener un estimador de un igualmente distribuidos segn la funcin de
parmetro = (P ) donde P es el modelo estadstico distribucin (modelo) F, y como estadstico de inters
MedULA, Revista de Facultad de Medicina, Universidad de Los Andes. Vol. 10 N 1-4. 2001. (2004). Mrida. Venezuela. 12
a I = f() cuyo estimador es I = f ( ) . El estimador Sea X* = (X1*, X2*,..., Xn*) una muestra de la funcin
de distribucin emprica
de F que utilizaremos es la funcin de distribucin
de F X ( x) = n 1
n
emprica Fn , de esta manera una muestra Z* = (Y*, i =1
1{ X i x} .
Para cada Xi* con i = 1, 2,..., n, obtener una
X*) i.i.d. distribuida segn Fn corresponder a un observacin Yi* que sigue una distribucin
muestreo con reemplazamiento de entre los posibles binomial B(1, p X * ).
pares (Xi, Yi) con i =1, 2,..., n (este procedimiento i
MedULA, Revista de Facultad de Medicina, Universidad de Los Andes. Vol. 10 N 1-4. 2001. (2004). Mrida. Venezuela. 13
intervalos bootstrap son similares a los construidos intervalos basados en la desigualdad de Chebyshev
mediante la distribucin (asinttica) normal (en la son mayores que los intervalos gaussianos y bootstrap
Figura 1 ilustramos la similitud entre la distribucin y en ocasiones tienen extremos negativos (una
bootstrap de I*= Pr * {Y = 1 | X = 0} con la caracterstica no deseable dada la naturaleza del
correspondiente distribucin normal) y (b) los indicador considerado).
MedULA, Revista de Facultad de Medicina, Universidad de Los Andes. Vol. 10 N 1-4. 2001. (2004). Mrida. Venezuela. 18
Tabla 3: Intervalos de confianza para Pr{Y = 1 | X = x} .
x Intervalo gaussiano Intervalo Chebyshev Intervalo bootstrap
MedULA, Revista de Facultad de Medicina, Universidad de Los Andes. Vol. 10 N 1-4. 2001. (2004). Mrida. Venezuela. 15
Figura 2: Distribucin bootstrap de M*0.5.
MedULA, Revista de Facultad de Medicina, Universidad de Los Andes. Vol. 10 N 1-4. 2001. (2004). Mrida. Venezuela. 16
Efron B. 1979. Bootstrap methods: Another look at Silva LC. 1994. Excursin a la regresin logstica en
the jackknife. Annals of Statistic. 7: 1 - 26. ciencias de la salud. Editorial Daz de Santos.
Efron B, Tibshirani RJ. 1993. Introduction to the Madrid.
bootstrap. Chapman & Hall. New York. Silva LC, Amador M, Valds F. 1992. Discontinuity
Hosmer DW, Lemeshow. 1989. Applied Logistic indices: A tool for epidemiological studies on breast
Regression. John Wiley & Sons. New York. feeding. International Journal of Epidemiolog., 24:
Pampel FC. 2000. Logistic regression. A primer, 965 - 969.
Series on Quantitative Applications in the Social Silva LC, Soler S. 1996. Intervalos de confianza para
Sciences, Sage Publications. Thousand Oaks. USA. indicadores basados en los parmetros de la regresin
Quenouille M. 1949. Approximation test of logstica, Cuadernos de Bioestadstica y sus
correlation in time series. Journal of the Royal Aplicaciones Informticas. 14: 47 - 61.
Statistical Society. Series B, 11: 18 - 84. Tukey J. 1958. Bias and confidence in not quite large
Shao J, Tu D. 1995. The Jackknife and Bootstrap. samples, Annals of Mathematical Statistics. 29: 614.
Springer-Verlag. New York.
ANEXO 1
function [Ri, Rs, Rp] = bcinterval(Yresponse, Xdesign, Xdata, B, Alpha)
%
% Rutina para obtener los intervalos de confianza bootstrap de la probabilidad
% p = 1/(1 + exp(-Xdata*Bparameters)), ver Frmula (8).
%
% Se implementa el procedimiento bootstrap por pares de la Subseccin 3.1.
%
% Input:
% ------
% Yresponse : valores de la variable dependiente (binario n x 1).
% Xdesign : valores de las variables independientes (real n x p).
% Xdata : valores de las variables independientes a evaluar (real 1 x p).
% B : nmero de muestras bootstrap (entero 1 x 1).
% Alpha : (1 - Alpha) nivel de confianza (real 1 x 1).
%
% Output:
% -------
% [Ri, Rs] : intervalo de confianza (1 - alpha)% (real 1 x 2).
% Rp : Estadsticos bootstrap (real B x 1).
%
[n p] = size(Xdesign);
x = Xdesign(:,2);
y = Yresponse;
isx = 1;
t = ones(n,1);
[dev0,idf0,b0,irank0,se0,cov0,v0,ifail0] = g02gbf(x,isx,y,t);
MedULA, Revista de Facultad de Medicina, Universidad de Los Andes. Vol. 10 N 1-4. 2001. (2004). Mrida. Venezuela. 17
tol = sqrt(eps);
maxit = 100;
for i = 1:B
% Notemos que al coincidir los ndices en x e y, se seleccionan pares de
% observaciones. Paso 1 del algoritmo de la Subsecccin 3.1.
Ystar = y(Irandom(:,i), 1);
Xstar = x(Irandom(:,i), 1);
pstar = sort(pstar);
ANEXO 2
function [Ri, Rs, Rp] = pbcinterval(Yresponse, Xdesign, Xdata, B, Alpha)
%
% Rutina para obtener los intervalos de confianza bootstrap de la probabilidad
% p = 1/(1 + exp(-Xdata*Bparameters)), ver Frmula (8).
%
% Se implementa el procedimiento bootstrap paramtrico de la Subseccin 3.2.
%
% Input:
% ------
% Yresponse : valores de la variable dependiente (binario n x 1).
% Xdesign : valores de las variables independientes (real n x p).
% Xdata : valores de las variables independientes a evaluar (real 1 x p).
% B : nmero de muestras bootstrap (entero 1 x 1).
% Alpha : (1 - Alpha) nivel de confianza (real 1 x 1).
MedULA, Revista de Facultad de Medicina, Universidad de Los Andes. Vol. 10 N 1-4. 2001. (2004). Mrida. Venezuela. 18
%
% Output:
% -------
% [Ri, Rs] : intervalo de confianza (1 - alpha)% (real 1 x 2).
% Rp : Estadsticos bootstrap (real B x 1).
%
% Funcin auxiliar:
% -----------------
% sample.m
%
[n p] = size(Xdesign);
x = Xdesign(:,2);
y = Yresponse;
isx = 1;
t = ones(n,1);
[dev0,idf0,b0,irank0,se0,cov0,v0,ifail0] = g02gbf(x,isx,y,t);
for i = 1:B
% Seleccin de los valores de las variables independientes que forman la
% muestra bootstrap. Paso 1 del algoritmo de la Subseccin 3.2.
MedULA, Revista de Facultad de Medicina, Universidad de Los Andes. Vol. 10 N 1-4. 2001. (2004). Mrida. Venezuela. 19
% Clculo de los estadsticos bootstrap.
pstar = sort(pstar);
%
% Funcin auxiliar a la rutina pbcinterval() que genera una muestra aleatoria
% de una distribucin binomial con probabilidad dada por
% p = 1/(1 + exp(-Xdesign*Bparameters)).
%
% Input:
% ------
% Bparameters : Parmetros de la funcin logstica (real p x 1).
% Xdesign : valores de las variables independientes (real n x p).
%
% Output:
% -------
% R : vector de respuestas (binario n x 1).
%
p = max(size(Bparameters));
[n p1] = size(Xdesign);
p = 1./(1 + exp(-Xdesign*Bparameters));
n = ones(n, 1);
R = binornd(n, p);
Comentario: Notemos que las rutinas bcinterval() y pbcinterval() pueden modificarse fcilmente para construir
intervalos de confianza de otros indicadores basados en los parmetros de la regresin logstica, nicamente ser
necesario modificar la lnea donde se calculan los estadsticos bootstrap, esto es, cambiar la lnea de comandos
pstar(i) = 1/(1 + exp(-Bstar(1)-Xdata(2)*Bstar(2))); por la correspondiente expresin del nuevo indicador de inters.
As, por ejemplo, para los indicadores del ejemplo las expresiones son:
MedULA, Revista de Facultad de Medicina, Universidad de Los Andes. Vol. 10 N 1-4. 2001. (2004). Mrida. Venezuela. 20