Professional Documents
Culture Documents
Antonio Mi
narro
Barcelona, Enero 1998
Indice general
1. Introducci
on
1.1. Introduccion . . . . . . . . . . . . . . . . .
1.2. Propiedades estadsticas de los estimadores
1.2.1. Propiedades de verdadera densidad
1.2.2. Sesgo . . . . . . . . . . . . . . . . .
1.2.3. Consistencia . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2. Estimaci
on directa
4
4
7
7
8
8
9
11
4. Histogramas
4.1. Regla de Sturges . . . . . . . . . . . . . . . . . . . . .
4.2. Propiedades estadsticas . . . . . . . . . . . . . . . . .
4.2.1. Error cuadratico medio y consistencia . . . . . .
4.2.2. Obtencion del MISE exacto . . . . . . . . . . .
4.2.3. Obtencion del MISE asintotico . . . . . . . . . .
4.2.4. Influencia de la anchura de ventana en el MISE
4.3. Eleccion del ancho de ventana . . . . . . . . . . . . . .
4.3.1. Referencia a la distribucion Normal . . . . . . .
4.3.2. Cota superior para el ancho de ventana . . . . .
4.4. Propiedades estadsticas con la norma L1 . . . . . . . .
4.5. Influencia del origen de los intervalos . . . . . . . . . .
4.6. Problemas . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
15
15
16
16
17
18
19
20
20
21
21
22
22
5. Polgonos de Frecuencia
5.1. Definicion . . . . . . . . . . . . . . . . . . . .
5.2. MISE . . . . . . . . . . . . . . . . . . . . . .
5.3. Eleccion del ancho de ventana . . . . . . . . .
5.3.1. Referencia a la distribucion Normal . .
5.3.2. Cota superior para el ancho de ventana
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
24
24
25
26
27
27
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
INDICE GENERAL
5.4. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6. ASH (Averaged Shifted Histogram)
6.1. Definicion basica . . . . . . . . . . . . . . .
6.2. Propiedades asintoticas y definicion general .
6.3. Aproximacion para m . . . . . . . . .
6.4. Problemas . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
28
28
28
30
30
31
8. Estimaci
on tipo N
ucleo.
8.1. Definicion . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.2. Propiedades estadsticas . . . . . . . . . . . . . . . . . . .
8.2.1. Consistencia . . . . . . . . . . . . . . . . . . . . . .
8.2.2. Minimizacion del AMISE . . . . . . . . . . . . . . .
8.2.3. Eleccion del parametro de ventana. . . . . . . . . .
8.2.4. Seleccion de la funcion n
ucleo optima . . . . . . . .
8.2.5. Funciones n
ucleo equivalentes . . . . . . . . . . . .
8.2.6. Reduccion del sesgo. N
ucleos de orden mayor que 2.
8.2.7. Dominios acotados . . . . . . . . . . . . . . . . . .
8.3. Seleccion del ancho de ventana . . . . . . . . . . . . . . . .
8.3.1. Reglas basadas en distribuciones parametricas. . . .
8.3.2. Sobresuavizacion . . . . . . . . . . . . . . . . . . .
8.3.3. Reglas de validacion cruzada. . . . . . . . . . . . .
8.3.4. Metodos Plug-In . . . . . . . . . . . . . . . . . . .
8.3.5. Metodos basados en Bootstrap . . . . . . . . . . . .
9. Estimaci
on de Densidades Multivariantes
9.1. Definicion y propiedades basicas . . . . . .
9.2. Seleccion del parametro de suavizacion . .
9.2.1. Referencia a la distribucion Normal
9.3. Consideraciones sobre el tama
no muestral
27
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
10.Estimaci
on por n
ucleos adaptables
10.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . .
10.2. Estimador por n
ucleos adaptables . . . . . . . . . . . . . .
10.2.1. Definicion . . . . . . . . . . . . . . . . . . . . . . .
10.2.2. Eleccion del parametro de sensibilidad . . . . . . .
10.3. Aplicacion al Analisis Discriminante . . . . . . . . . . . . .
10.3.1. Aplicacion a diversos ejemplos clasicos y pruebas de
10.3.2. Generalizacion para datos discretos y mixtos . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
simulacion
. . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
33
33
35
35
38
39
40
43
44
47
49
49
49
50
54
56
.
.
.
.
58
58
60
60
62
.
.
.
.
.
.
.
64
64
65
65
66
67
67
68
INDICE GENERAL
11.Otros m
etodos de estimaci
on no param
etrica
73
11.1. Estimacion por series ortogonales . . . . . . . . . . . . . . . . . . . . . . . . . 73
11.2. Maxima verosimilitud penalizada. . . . . . . . . . . . . . . . . . . . . . . . . . 75
11.3. Secuencias delta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
Bibliografa
78
Captulo 1
Introducci
on
1.1.
Introducci
on
CAPITULO 1. INTRODUCCION
una alternativa a las tecnicas clasicas de analisis discriminante que permitiera liberarse de
las rgidas restricciones sobre la distribucion de las variables implicadas. En cierta manera
el enfoque no parametrico permite que los datos determinen de forma totalmente libre, sin
restricciones, la forma de la densidad que los ha de representar.
La controversia sobre la utilizacion de una estimacio parametrica o no parametrica no ha
cesado a lo largo de los a
nos, a la eficiencia en la estimacion que proporciona la estimacion
parametrica se contrapone el riesgo que suponen desviaciones de las suposiciones que determinan el modelo y que pueden conducir a errores de interpretacion que supongan mayor perdida
que la ganancia proporcionada por la eficacia estimadora.
Entre las principales situaciones en las cuales la estimacion no parametrica de la densidad
ha resultado ser de especial interes podemos destacar:
lisis exploratorio: Diversas caractersticas descriptivas de la densidad, tales
Ana
como multimodalidad, asimetras, comportamiento en las colas, etc., enfocadas desde
un punto de vista no parametrico, y por tanto mas flexible, pueden ser mas reveladoras
y no quedar enmascaradas por suposiciones mas rgidas. Como ejemplo presentamos los
resultados de un estudio realizado por Park y Marron (1990) donde se han estudiado
los ingresos netos familiares a lo largo de varios a
nos, obteniendose una secuencia de
estimaciones de la densidad; en la Figura 1 (a) se ha supuesto una densidad lognormal
para los ingresos netos, observandose que todas las poblaciones son unimodales y que
esencialmente no hay cambio a lo largo de los a
nos, en la Figura 1 (b) se ha obtenido
una estimacion no parametrica por el metodo de las funciones n
ucleo, observandose un
mnimo de dos modas en todas las poblaciones, as como un gran cambio en la estructura
a lo largo del tiempo.
n de datos: La presentacion grafica de los resultados obtenidos en una
Presentacio
estimacion no parametrica de la densidad es facilmente comprensible e intuitivo para
aquellas personas no especialistas en estadstica que muy a menudo son los clientes de
los servicios de estadstica. Como ejemplo en la Figura 2 presentamos, tomado de Izenman (1991), los resultados de estimacion mediante funciones n
ucleo, de las frecuencias
cardiacas en reposo y la maxima, para un grupo de varones que sufren una enfermedad
coronaria y otro grupo de varones normales.
cnicas multivariantes: Estimaciones no parametricas de la densidad son utiliTe
zadas en problemas de discriminacion, clasificacion, contrastes sobre las modas, etc. Es
ilustrativo el ejemplo presentado en Silverman (1986) sobre discriminacion entre instituciones medicas y no medicas de la Universidad de Londres basado en el tiempo de
utilizacion de dos sistemas operativos.
n: Estimaciones no parametricas de la densidad permiten estimar la Curva
Regresio
de Regresion de la Media, que sabemos que es la que minimiza la esperanza del error
CAPITULO 1. INTRODUCCION
Figura 1.1: Estimaciones de los ingresos netos: (a) Ajuste Lognormal; (b) Estimacion tipo
n
ucleo. De Park y Marron (1990).
CAPITULO 1. INTRODUCCION
Figura 1.2: Estimaciones de las frecuencias cardiacas: (a) en reposo, y (b) maxima, para un
grupo de 117 enfermos de corazon (lnea de puntos) y otro grupo de 117 varones normales
(lnea solida). De Izenman (1991).
cuadratico y se obtendra a partir de
R
r(x) = E(Y |X = x) = R
yf (x, y) dy
f (x, y) dy
1.2.
Es necesario que consideremos que propiedades deben verificar las funciones utilizadas
como estimadores.
1.2.1.
Entendemos por propiedades de verdadera densidad que la estimacion no sea nunca negativa y su integral sea uno
f (x) 0,
f (x)dx = 1
(1.1)
En algunos casos ciertos metodos proporcionan estimaciones que pueden dar valores negativos
debido a la dispersion de los datos (Boneva, Kendall y Stefanov 1971) o a un relajamiento de
CAPITULO 1. INTRODUCCION
las condiciones exigidas con vistas a aumentar la tasa de convergencia de las estimaciones a
la verdadera densidad. Este aumento de la convergencia se puede lograr tambien relajando la
condicion de la integral de la densidad. De cualquier forma estos problemas pueden solventarse por ejemplo: truncando la densidad a su parte positiva y renormalizando, estimando una
version transformada de la densidad, por ejemplo f 1/2 , log f y transformando posteriormente
para obtener densidades no negativas. Gajek(1986) proporciona un esquema por el cual cualquier estimador que no de una autentica densidad puede hacerse converger a una densidad
real.
1.2.2.
Sesgo
1.2.3.
(1.2)
Consistencia
Captulo 2
Estimaci
on directa
El Teorema de Glivenko-Cantelli es uno de los resultados fundamentales de la estadstica,
en dicho teorema se demuestra la convergencia uniforme de la funcion de distribucion emprica
de una muestra a la verdadera funcion de distribucion de la variable aleatoria,
Teorema 1 (Glivenko-Cantelli) Fn (x) converge uniformemente a F (x),
es decir > 0,
lm P { sup |Fn (x) F (x)| > } = 0
n
<x<
donde
]{Xi x}
1X
I(,x] (Xi ) =
Fn (x) =
=
n
n i=1
si x < X(1)
si X(k) x < X(k+1)
1 si x X(n)
k
n
(2.1)
(2.2)
DIRECTA
CAPITULO 2. ESTIMACION
10
n
d
1X
Fn (x) =
(x Xi )
dx
n i=1
(2.3)
(y)dy = 1,
(y) = 0 si y 6= 0
Resulta por tanto una densidad uniforme discreta en los puntos de la muestra con masa de
probabilidad n1 en cada punto, poco u
til tanto desde el punto de vista del analisis grafico
como en aplicaciones derivadas.
Se hace por tanto imprescindible la introduccion de versiones modificadas de la estimacion.
Una de las alternativas es la utilizacion del clasico histograma como estimador de la densidad,
ya desde el punto de vista grafico resulta mas adecuado que la funcion de densidad emprica
y es el estimador por el que de forma tradicional comienzan su estudio los tratados sobre
estimacion no parametrica. Es obligado mencionar tambien modificaciones de (2.3) como la
introducida sin demasiados comentarios por Rosenblatt (1956)
fn (x) =
Fn (x + h) Fn (x h)
2h
(2.4)
Captulo 3
Criterios de error para estimaciones
de la densidad
Es inevitable la seleccion de criterios que nos permitan comparar entre varios estimadores
en la b
usqueda del estimador optimo para un problema determinado. Hasta el presente, y
debido a la subjetividad de la eleccion de los criterios de error, no se ha llegado a un consenso
entre los diversos investigadores del area existiendo dos grandes lneas que optan por criterios
que minimizan el error absoluto o el error cuadratico de la estimacion.
Cuando utilizamos estimadores sesgados en una estimacion parametrica, el criterio de
minimizar la varianza es, a veces, substituido por el criterio de minimizar el error cuadratico
medio (MSE), que es la suma de la varianza y del sesgo al cuadrado. Cuando trabajamos con
estimaciones de la funcion de densidad el criterio es:
M SE{f(x)} = E[f(x) f (x)]2 = Var{f(x)} + Sesgo2 {f(x)}
(3.1)
donde Sesgo2 {f(x)} = E[f(x)] f (x). Esta ecuacion afronta el problema de la estimacion no
parametrica de una forma puntual standard con parametro desconocido = f (x). Sin embargo
el interes de la estimacion no parametrica radica en obtener una estimacion y representacion
de la densidad completa, por tanto se hace necesario recurrir a criterios de error globales como
pueden ser:
Norma L
sup |f(x) f (x)|
x
(3.2)
|f(x) f (x)|dx
11
(3.3)
[f(x) f (x)]2
(3.4)
E[f(x) f (x)]2
(3.5)
De todos modos no existe una diferencia practica importante entre el ISE y el MISE. Los
metodos basados en el MISE se comportan tambien bien desde el punto de vista del ISE
(Grund, Hall y Marron (1994)).
Dado que el integrando es no-negativo, el orden de la integracion y la esperanza pueden
intercambiarse aplicando el teorema de Fubini, para dar lugar a las formas alternativas
M ISE{f(x)} =
E[f(x) f (x)]2 dx =
Var{f(x)}dx +
E[f(x) f (x)]2 dx =
M SE{f(x)}dx =
(3.6)
De esta forma el MISE tiene dos interpretaciones diferentes pero equivalentes: es una medida
del error global promedio y de error puntual acumulado. Este criterio podria se modificado
introduciendo un peso que por ejemplo diera mas enfasis a las colas o a un determinado
intervalo.
M ISEw {f(x)} =
(3.7)
f log(f/f )
(3.8)
La distancia de Hellinger
Z
(3.9)
La variacion total
T V (f, f ) = sup |
A
f|
(3.10)
0<p<
(3.11)
Otras normas Lp
Z
|f f |p
1/p
|f (u) g (u)|du =
|f (v) g(v)|dv
(3.12)
Todo lo anterior hace que L1 sea mas facil de interpretar que L2 , en particular es posible
comparar la dificultad de estimar diferentes densidades.
Cabe destacar tambien que 0 L1 2 mientras que 0 L2 .
Z
|f(x) f (x)|dx
|f(x)|dx +
|f (x)|dx 2
Z
1Z
1
1Z
1 1Z
1Z
f+
g=
g=
(f g).
1 f +
2 Ac
2 A
2
2 A
2 2 A
A
(3.13)
(3.14)
Donde en el u
ltimo paso hemos utilizado el lema de Scheffe
Z
(f (x) g(x))+ dx
(3.15)
(g(x) f (x))+ dx
(3.16)
(f g)+ =
f g =
g = 1
Bc
gf =
Bc
f 1+
Bc
g=
Bc
g f =
(g f )+
2.
Z
|f g| =
f g+
f g+
f g =2
(f g)
De modo que minimizar la distancia entre g = f y f es equivalente a maximizar la probabilidad de error anterior buscando la mayor confusion entre f y f, que es precisamente
lo que deseamos.
Por otro lado, en situaciones practicas los estimadores que optimizan estos criterios son similares. Devroye y Gyorfi (1985) han realizado un abundante tratamiento teorico basado en
L1 , sin embargo por la simplicidad analtica del error cuadratico y su utilidad en situaciones
practicas es el preferido por muchos autores. Algunos resultados asintoticos de Hall y Wand
(1988) y Scott y Wand (1991) refuerzan la idea de que las diferencias practicas entre los dos
criterios son razonablemente peque
nas excepto en situaciones extremas.
Captulo 4
Histogramas
Es el mas sencillo y mejor conocido de los estimadores no parametricos de la densidad.
Muchos autores distinguen la utilizacion del histograma como tecnica de representacion de
datos o como estimador de la densidad, la diferencia basica es que en este u
ltimo caso debe
estar normalizado para integrar 1.
Supongamos que f tiene soporte en [a, b] generalmente deducido de los datos, efectuamos
una particion en k intervalos no solapados Bi = [ti , ti+1 ) i = 1, . . . , k donde a = t1 < t2 <
. . . < tk+1 = b, el histograma viene definido por
f(x) =
k
X
Ni /n
IBi (x)
i=1 ti+1 ti
(4.1)
donde Ni es el n
umero de datos dentro de Bi . Si la longitud de los intervalos es siempre la
misma hn = ti+1 ti , valor que denominaremos anchura del intervalo o ancho de ventana,la
expresion resulta
k
1 X
Ni IBi (x)
f(x) =
nhn i=1
(4.2)
o en forma equivalente
n
Ni
1 X
IBi (xi ) =
f(x) =
nhn i=1
nhn
4.1.
x Bi
(4.3)
Regla de Sturges
Aplicada por defecto en muchos paquetes estadsticos. Tomemos una distribucion binomial
de parametros B(k 1, 1/2)
1=
k1
X
i=0
k1
i
k1
X
1 i 1 k1i
2 2
i=0
15
k1
i
= 2k1 ,
CAPITULO 4. HISTOGRAMAS
16
supongamos que el n
umero de individuos para cada valor es Ni =
que
n=
k1
X
k1
i
i=0
k1
i
, tenemos entonces
= 2k1 k = 1 + log2 n
4.2.
Propiedades estadsticas
4.2.1.
Error cuadr
atico medio y consistencia
De las definiciones
Ni B(n, pi )
pi =
Bi
f (t)dt
pi (1 pi )
Var(Ni )
=
2
2
nh
nh2
Ni
pi
sesgo(f(x)) = E(f(x)) f (x) = E
f (x) = f (x)
nh
h
Ni
nhn
para x Bi .
(4.4)
(4.5)
y por tanto
pi (1 pi )
pi
M SE =
+
f (x)
2
nh
h
2
(4.6)
Bi
f (t)dt = h f (i ) i Bi
deducimos que
pi (1 pi )
pi
f (i )
=
2
2
nh
nh
nh
y si f es Lipschitz en Bi , es decir
|
pi
f (x)| i |i x| i h i > 0
h
se llega a
M SE
y consecuentemente se verifica el siguiente
f (i )
+ i2 h2
nh
(4.7)
CAPITULO 4. HISTOGRAMAS
17
+ 2i h = 0 h =
n2 h 2
2i2 n
y por tanto
!1/3
!2/3
f (i ) 2i2 n
2 f (i )
M SE (h ) =
+ i
n
f (i )
2i2 n
Como vemos la anchura de intervalo optima decrece a un ritmo proporcional a n1/3 y el
M SE es O(n2/3 ), sin alcanzar la tasa de la cota de Cramer-Rao en estimadores parametricos
O(n1 ).
4.2.2.
Obtenci
on del MISE exacto
M ISE =
E[f(x) f (x)]2 =
IV =
Var[f(x)]dx =
Var[f(x)]dx +
XZ
i
Bi
y
X
p2i =
X pi (1 pi )
pi =
X Z
i
Bi
nh
XZ
f (t)dt
Bi
"
pi (1 pi )
dx
nh2
(4.9)
(4.10)
X
1 X
pi
p2i
=
nh i
i
f (t)dt = 1
h2 f 2 (i ) = h
y teniendo en cuenta
i
Var[f(x)]dx =
2
Z
(hf (i ))2
(4.11)
(4.12)
f 2 (x)dx + o(1)
se llega a
IV =
1
1
R(f ) + o(n1 )
nh n
(4.13)
CAPITULO 4. HISTOGRAMAS
18
donde
R(f ) =
f 2 dx
(4.14)
IV =
nh
nh
(4.15)
Sesgo [f(x)]dx =
2
XZ
i
X p2i
i
<
Bi
p2i
pi
2 f (x) + f (x)2 dx
2
h
h
pi f (x)
p2i
+ f (x)2 dx
2
h2
h
Z
2X Z
pi
f (t)dt + f (x)2 dx = R(f )
h
h2
h i
Bi
<
p2i
h
(4.16)
(4.17)
(4.18)
nh
nh i i
P
4.2.3.
(4.19)
(4.20)
Obtenci
on del MISE asint
otico
De (4.13)
IV =
1
1
R(f ) + o(n1 )
nh n
y por tanto
AIV =
1
nh
(4.21)
pi
f (x)
h
(4.22)
tk +h
tk
f (t)dt =
tk +h
tk
1
f (x) + f 0 (x)(t x) + f 00 (x)(t x)2 + dt
2
!
2
h
0
= hf (x) + f (x)
+ (tk x)h + O(h3 )
2
(4.23)
CAPITULO 4. HISTOGRAMAS
19
y por tanto
pk
Sesgo[f(x)] =
f (x) =
h
Z
Bk
h
+ (tk x)
2
!2
02
h
+ (tk x) f 0 (x) + O(h2 )
2
02
f (x)dx = f (k )
Bk
h
+ (tk x)
2
!2
x Bk
dx = f 02 (k )
h3
12
esta u
ltima aproximacion por el teorema del valor medio generalizado. Resulta finalmente
ISB =
h2 X 02
h2 Z 02
f (i )h =
f (x)dx + o(h2 )
12 i
12
(4.24)
h2
R(f 0 )
12
(4.25)
1
h2
+ R(f 0 )
nh 12
(4.26)
h =
6
R(f 0 )
!1/3
n1/3
(4.27)
y el AMISE resultante es
AM ISE = (3/4)2/3 [R(f 0 )]1/3 n2/3
4.2.4.
(4.28)
Consideremos h = ch , tenemos
AM ISE(ch )
n2/3 R(f 0 )1/3 61/3 (1/c + c2 /2)
2 + c3
=
=
AM ISE(h )
(3/4)2/3 R(f 0 )1/3 n2/3
3c
(4.29)
CAPITULO 4. HISTOGRAMAS
20
c
1/2
3/4
1
4/3
2
2+c3
3c
1,42
1,08
1
1,09
1,67
4.3.
Elecci
on del ancho de ventana
h =
6
R(f 0 )
!1/3
n1/3
(4.30)
4.3.1.
Referencia a la distribuci
on Normal
Consideremos f N (, ), entonces
1
R(f 0 ) = 3
4
(4.31)
resultando
h =
!1/3
24 3
' 3, 5n1/3
n
(4.32)
(4.33)
Esta regla es muy estable puesto que s a un ritmo superior a O(n1/3 ). Una regla algo
mas robusta es la propuesta por Freedman y Diaconis (1981)
2 = 2(IQ)n1/3
h
(4.34)
2 es un 77 % de
donde IQ es el rango intercuartlico. Si la distribucion es realmente Normal, h
1 . En la Tabla 4.2 mostramos el n
h
umero de intervalos que determinan la regla de Sturges y
las dos estimaciones anteriores suponiendo datos normales y un histograma construido entre
(-3,3)
CAPITULO 4. HISTOGRAMAS
21
1
2
Sturges h
h
5,6
6,3
8,5
7,6
8
10,8
10
13,6 18,3
11
17,2 23,2
17,6
79,8 107,6
n
50
100
500
1000
100000
Cuadro 4.2: N
umero de intervalos con tres diferentes metodos.
4.3.2.
De (4.27) se observa que cualquier lmite inferior para R(f 0 ) conduce a un lmite superior
para el ancho de ventana, nos planteamos el siguiente problema de optimizacion:
mn
f
<
(4.35)
!2
I[7,7]
R(f20 ) = 15 7/343 3
686 3
5 7n
!1/3
(4.36)
4.4.
(4.37)
|f f | E
|f Ef| +
|Ef f | '
|f 0 |
2 Z q
1 Z 0
f + h |f |
nh
4
(4.38)
y minimizando
h = 2 1/3
Z
f 1/2
2/3
n1/3 = 2, 717n1/3
(4.39)
CAPITULO 4. HISTOGRAMAS
22
Criterio de Error
Ancho optimo Error esperado
L1 lmite superior
2, 72n1/3
1, 6258n1/3
3, 37n1/3
L1 simulacion numerica
1, 1896n1/3
1/3
L2
3, 49n
(0, 655n1/3 )2
Cuadro 4.3: Anchos de ventana optimos para varios criterios de error con datos N(0,1).
para datos normales. Por simulacion numerica se ha encontrado como valor optimo
h = 3, 37n1/3
Presentamos en la tabla 4.3 una comparacion de los anchos de ventana con diferentes criterios
para datos N(0,1).
4.5.
No existen demasiados estudios sobre el efecto del cambio de origen de los intervalos.
El MISE es practicamente insensible a la posicion de origen (anchor position) excepto si una
discontinuidad de la densidad es cruzada por un intervalo en lugar de coincidir con un extremo
del mismo, vease Simonoff (1995) o Scott (1992). El efecto s que se hace notar en el aspecto
del histograma para muestras finitas, por ejemplo en el n
umero de modas. Seg
un datos de
Scott (1992) para una distribucion N(0,1) con ancho de ventana optimo el MISE se minimiza
si x=0 esta en el centro de un intervalo, sin embargo si estuviera en un extremo, la diferencia
en el MISE sera del orden del 1,09 % para un tama
no muestral de 25 y menor de 105 para
un tama
no muestral superior a 100.
Los principales problemas de la estimacion por histogramas: la discontinuidad de la estimacion y la dependencia del origen de los intervalos, han motivado la aparicion de metodos
alternativos como los que estudiamos en la siguiente seccion: los Polgonos de frecuencias y
los ASH .Averaged Shifted histograms.
4.6.
Problemas
CAPITULO 4. HISTOGRAMAS
23
3. Construir un programa en MATLAB que tras leer unos datos calcule el ancho de ventana
optimo seg
un la referencia a la distribucion Normal y efect
ue la representacion grafica
del histograma resultante.
4. Examinar con ayuda de MATLAB el efecto que, sobre un histograma con ancho de
ventana fijo, tiene el cambio del origen de los intervalos.
Captulo 5
Polgonos de Frecuencia
Representan una estimacion continua de la densidad derivada de los histogramas mediante
una interpolacion a partir de los puntos medios de los intervalos de igual longitud. Aun cuando
muchos autores los consideran equivalentes, incluso con confusion en la terminologia aplicando el termino histograma a ambas estimaciones, podremos observar como las propiedades
estadsticas son notablemente diferentes a las que presentan los histogramas convencionales.
5.1.
Definici
on
El polgono de frecuencias (PF) conecta dos valores adyacentes del histograma entre sus
puntos medios del intervalo.
1 x
1 x
+
f(x) =
f0 +
f1
2 h
2 h
h
h
x<
2
2
(5.1)
5.2.
25
MISE
Recordemos que fi =
Ni
nh
pi
.
h
1
f (x) f (0) + f 0 (0)x + f 00 (0)x2
2
y las aproximaciones para p0 y p1 se pueden obtener de
1
f (s)ds hf (0) h2 f 0 (0) +
2
h
Z 0
1 2 0
f (s)ds hf (0) + h f (0) +
p1 =
2
h
p0 =
1 3 00
h f (0)
6
1 3 00
h f (0)
6
(5.2)
(5.3)
+
+
f (0) + xf 0 (0) +
2 h h
2 h h
6
(5.4)
dando un sesgo
1
Sesgo = E(f(x)) f (x) (h2 3x2 )f 00 (0)
6
(5.5)
h/2
h/2
Sesgo2 dx =
49h4 f 00 (0)2
h
2880
(5.6)
expresion similar para el resto de intervalos. Finalmente sumando sobre todos los intervalos
y utilizando la aproximacion Riemanniana
ISB =
X 49
k
2880
h4 f 00 (kh)h =
49 4
h R(f 00 ) + O(h6 )
2880
(5.7)
Vemos como el sesgo al cuadrado es de orden significativamente menor que el del histograma
O(h2 ).
El calculo de la varianza es parecido
1 x
Var(f(x)) =
2 h
2
1 x
+
Varf0 +
2 h
siendo
Var(fi ) =
2
1 x2
Cov(f0 , f1 )
Varf1 + 2
4 h2
npi (1 pi )
f (0)(1 hf (0))
(nh)2
nh
(5.8)
26
f (0)2
np0 p1
Cov(f0 , f1 ) =
(nh)2
n
f (0)2
1
2x2
f
(0)
+
+ o(n1 )
3
nh
2nh
n
!
(5.9)
h/2
h/2
Var dx =
2f (0) f (0)2
h
3nh
n
!
(5.10)
resultando finalmente
IV =
X
k
1
2f (kh) f (kh)2
2
R(f ) + o(n1 )
h=
3nh
n
3nh n
!
(5.11)
2
49 4
+
h R(f 00 )
3nh 2880
(5.12)
Por tanto
15
h = 2
49R(f 00 )
!1/5
n1/5
(5.13)
49R(f 00 )
15
!1/5
n4/5
(5.14)
5
AM ISE =
12
Comparando con los resultados obtenidos en el histograma, el AMISE optimo era de orden
O(n2/3 ), siendo de orden O(n4/5 ) en el PF. Igualmente el ancho de ventana optimo es mayor
en el FP que en el histograma. Por ejemplo con 800 datos distribuidos normalmente, el ancho
de ventana optimo para el PF es un 50 % mayor que el del histograma.
5.3.
Elecci
on del ancho de ventana
!1/5
n1/5
5.3.1.
27
Referencia a la distribuci
on Normal
Consideremos f N (, ), entonces
3
R(f 00 ) = 5
8
resultando
h 2, 15n1/5
(5.15)
(5.16)
(5.17)
= IQ/1, 348
5.3.2.
Siguiendo un proceso parecido al comentado en los histogramas, entre todas las densidades
con varianza 2 , la mas suave ( menor R(f)) es
35
x2
f (x) =
1 2
96
9
!3
35
243 5
(5.18)
por tanto
23328
h
343
1/5
(5.19)
5.4.
Problemas
1. Realizar un cuadro comparativo donde suponiendo datos provenientes de una distribucion Normal podamos comparar el AMISE optimo utilizando las tecnicas del histograma
y del PF. Crear tambien un cuadro donde para valores fijos del AMISE se nos presente
el n
umero de datos necesarios para alcanzarlo con cada tecnica.
Captulo 6
ASH (Averaged Shifted Histogram)
6.1.
Definici
on b
asica
(m 1)h
h 2h
, ,...,
m m
m
(6.1)
6.2.
h
.
m
Propiedades asint
oticas y definici
on general
28
para x Bk
(6.2)
29
Figura 6.1: ASH para los datos de nevadas en Bufalo, h=13,5 m=2 y m=16 respectivamente.
2
h
4
3
h
2
4
3h
4
5
h
7
x
10
11
2h
para x Bk
(6.4)
para que f (x; m)dx = 1. En el caso particular de (6.2) los pesos adoptan la forma de un
triangulo isosceles con base (-1,1), pero en general pueden definirse a traves de
K(i/m)
wm (i) = m Pm1
j=1m K(j/m)
i = 1 m, . . . , m 1
(6.5)
6.3.
30
Aproximaci
on para m
|i|
|i|
|i|
|x xj |
=1
=1
1
m
m
h
h
si |x xj | < h
Si xj
/ (x h, x + h) la influencia es 0, (ver Figura 6.2), por tanto
n
X
|x xj |
x xj
(x; m) = 1
1
I
l
m
f
[1,1]
m
nh j=1
h
h
(6.6)
y si definimos un peso
w(x) =
(6.7)
(6.8)
expresion que puede generalizarse con cualquier funcion peso que represente una densidad y
que corresponde a la denominada estimacion tipo N
ucleo (Kernel) que desarrollaremos en la
siguiente seccion.
6.4.
Problemas
1. Demostrar que en (6.4) los pesos wm (i) deben sumar m para que la densidad estimada
integre a 1.
2. Demostrar que si en (6.8) los pesos son nonegativos e integran a 1 la estimacion resultant
es una verdadera densidad.
Captulo 7
Naive Estimator (Rosenblatt 1956)
Rosenblatt (1956) propone como estimador
Fn (x + h) Fn (x h)
]{Xi : Xi (x h, x + h]}
=
f(x) =
2hn
2h
(7.1)
basado en que
1
P (x h < X x + h)
h0 2h
f (x) = lm
(7.2)
Sabemos que
EFn (x) = F (x)
y por tanto
Ef(x) =
y
1
(F (x + h) F (x h))
2h
lm Ef(x) = f (x)
h0
1
n[F (x + h) F (x h)][1 (F (x + h) F (x h))]
4h2 n2
(7.3)
por tanto
f (x)
lm Varf(x) =
h0
2hn
Se desprende que la estimacion es consistente bajo las condiciones del teorema 2. Puede
demostrarse que
1
h4
AM ISE =
+ R(f 00 )
2hn 36
31
(7.4)
32
h =
9
2R(f 00 )n
!1/5
(7.5)
y el AMISE resultante es
5
AM ISE = 24/5 91/5 (R(f 00 ))1/5 n4/5
4
(7.6)
(7.7)
donde
w(y) =
1/2 y [1, 1)
0
en caso contrario
(7.8)
f (x) =
K
nh i=1
h
(7.9)
Captulo 8
Estimaci
on tipo N
ucleo.
8.1.
Definici
on
n
x Xi
1 X
K
n hn i=1
h
(8.1)
33
TIPO NUCLEO.
CAPITULO 8. ESTIMACION
34
N
ucleo
K(t)
Rango
Epanechnikov
3
4
(1 t2 )
|t| < 1
Gauss
2
1 e(1/2)t
2
|t| <
Triangular
1 |t|
|t| < 1
Rectangular
1
2
|t| < 1
Biweight
15
(1
16
t 2 )2
|t| < 1
Triweight
35
(1
32
t 2 )3
|t| < 1
Arco coseno
cos 2 t
|t| < 1
TIPO NUCLEO.
CAPITULO 8. ESTIMACION
35
8.2.
Propiedades estadsticas
8.2.1.
Consistencia
|K(x)| dx <
(8.2)
lm |xK(x)| = 0
(8.3)
K(x) dx = 1
(8.4)
(8.5)
TIPO NUCLEO.
CAPITULO 8. ESTIMACION
36
donde {hn } es una secuencia de constantes positivas que satisfacen lmn hn = 0. Entonces
si x es un punto de continuidad de g,
lm gn (x) = g(x)
n
K(y) dy.
(8.6)
Demostracion:
Notemos en primer lugar que
gn (x) g(x)
K(y) dy
{g(x y) g(x)}
1
y
K( ) dy
hn
h
Sea ahora > 0, y dividamos el dominio de integracion en dos regiones, |y| y |y| > .
Entonces
Z
gn (x) g(x)
Z
|y|
|y|
|z| h
|K(z)| dz
Z
y
y
|g(x y)| y
1
K( ) dy + |g(x)|
K( ) dy
y
hn
h
h
|y| hn
|K(z)| dz
Z
Z
1
|g(y)| dy + |g(x)|
sup |zK(z)|
|K(z)| dz
|z|
|z| h
n
hn
(8.7)
(8.8)
TIPO NUCLEO.
CAPITULO 8. ESTIMACION
37
Demostracion:
En efecto, tengamos en cuenta que
Var [fn (x)] =
1
xy
1
Var
K
n
hn
h
(8.9)
Ademas
1
xy
1
Var
K
n
hn
h
xy 2
1
1
E
K
n
hn
h
"
#
Z
1
1
xy 2
=
K
f (y) dy
hn n hn
h
"
#
(8.10)
(8.11)
y por el Teorema 4
Z
1 Z
xy 2
K
f (y) dy f (x)
K 2 (y) dy
hn
h
ya que
(8.12)
(8.13)
(8.14)
Finalmente al ser
K(x) dx = 1
sup
<x<
Z
i
|K(x)| <
(8.15)
(8.16)
(8.17)
x K(x) dx = 0 i = 1, . . . , s 1
(8.18)
xs K(x) dx = ks 6= 0
(8.19)
xs |K(x)| dx <
(8.20)
TIPO NUCLEO.
CAPITULO 8. ESTIMACION
38
x2 K(x) dx > 0.
8.2.2.
Minimizaci
on del AMISE
K(t) f (x hn t) dt
(8.21)
00
h2n f 00 (x)k2
+ O(h4 )
2
(8.22)
h2n f 00 (x)k2
+ O(h4 )
2
(8.23)
(8.24)
nhn
n
Var[fn (x)] =
TIPO NUCLEO.
CAPITULO 8. ESTIMACION
39
Z
1
K 2 (t) dt
f (x)
nhn
(8.26)
(8.27)
AM ISE[fn (x)] = hn k2
f (x) dx +
K (t) dt
4
nhn
(8.28)
( R
2
K (t) dt
R
00
2
f (x) dx
)1/5
2/5
n1/5 k2
(8.29)
8.2.3.
(8.30)
Elecci
on del par
ametro de ventana.
f 00 (x)2 dx =
3 1/2 5
0,212 5 .
8
(8.31)
(8.32)
TIPO NUCLEO.
CAPITULO 8. ESTIMACION
40
donde puede ser substituida por una estimacion de la varianza a partir de los datos.
La utilizacion de (8.32) sera adecuada si la poblacion se asemeja en su distribucion a la
de la normal, sin embargo si trabajamos con poblaciones multimodales se producira una sobresuavizacion de la estimacion, Bowman (1985), Silverman (1986). Una posible modificacion
del parametro de suavizacion es
hn = 1,06 A n1/5
(8.33)
donde A = mn ( desviacion standard , rango intercuartil/1,349), comprobando que se comporta bien trabajando con densidades unimodales y moderadamente bimodales. Silverman
tambien sugiere la reduccion del factor 1.06 en (8.33); y propone como nuevo valor del parametro hn
hn = 0,9 A n1/5 ,
(8.34)
comprobando el autor con diversas simulaciones que el parametro definido en (8.34) funciona
correctamente con un amplio abanico de densidades, teniendo la ventaja adicional de su trivial
evaluacion. Podemos concluir que para un gran n
umero de datos la eleccion del parametro de
suavizacion definido en (8.34) funcionara correctamente, y en otros casos puede ser utilizado
como valor inicial para un posterior estudio. Una alternativa razonable es utilizarlo como
estimacion piloto inicial en posteriores tecnicas mas refinadas.
8.2.4.
Selecci
on de la funci
on n
ucleo o
ptima
En (8.30) denominemos
C(K) {k22 R4 (K)}1/5 .
(8.35)
K () = K( ) > 0.
En efecto
ademas
K (x)x2 dx =
R(K ) =
Por tanto
Z
x
1Z
k( )x2 dx = K(u) 2 u2 du = 2 k2 ,
K2 (x)dx =
C(K ) = { 4 k22
1 Z 2 x
1
k ( )dx = R(K).
2
1 4
R (K)}1/5 = C(K).
4
2
K 2 (x)dx s/t K
= 2 = k2 ,
TIPO NUCLEO.
CAPITULO 8. ESTIMACION
41
K(x)dx = 1 ,
xK(x)dx = 0 ,
x2 K(x)dx = k2 6= 0.
Hodges y Lehman (1956) demuestran que la funcion que minimiza la expresion anterior es la
funcion n
ucleo de Epanechnikov
Ke (t) =
3
(1
4
t2 ) |t| 1
,
|t| > 1
(8.36)
4/5
4/5
= C(K)n2
TIPO NUCLEO.
CAPITULO 8. ESTIMACION
42
N
ucleo
K(t)
Rango
Eficiencia
Epanechnikov
3
4
|t| < 1
1,000
Biweight
15
(1
16
t 2 )2
|t| < 1
0,994
Triweight
35
(1
32
t 2 )3
|t| < 1
0,987
Triangular
1 |t|
|t| < 1
0,986
Gauss
2
1 e(1/2)t
2
|t| <
0,951
Rectangular
1
2
|t| < 1
0,930
(1 t2 )
4/5
C(Ke )
C(K)
!5/4
n1
,
n2
C(Ke )
C(K)
!5/4
(8.37)
0, 349086
0, 363342
!5/4
= 0, 951198
TIPO NUCLEO.
CAPITULO 8. ESTIMACION
De \ A
Gauss
Gauss
1
Rectang. 0,575
Epan.
0,452
Triang.
0,411
Biwt.
0,381
Triwt.
0,336
Rectang. Epan.
1,740
2,214
1
1,272
0,786
1
0,715
0,910
0,663
0,844
0,584
0,743
43
Triang.
2,432
1,398
1,099
1
0,927
0,817
Biwt.
2,623
1,507
1,185
1,078
1
0,881
Triwt.
2,978
1,711
1,345
1,225
1,136
1
8.2.5.
Funciones n
ucleo equivalentes
n1/5 k21
h1 =
R(f 00 )
y
)1/5
(
R(K2 )
2/5
n1/5 k22
,
h2 =
00
R(f )
por tanto
!1/5
!1/5
4
R(K1 )/K
h1
K2 R(K1 )K1
1
=
=
4
h2
R(K2 )/K
K1 R(K2 )K2
2
En la Tabla 8.3 mostramos los factores de conversion de las ventanas para pasar de una
funcion n
ucleo a otra.
Dada la semejanza en las eficiencias una expresion alternativa aproximada es
K1
h
(8.38)
h2
K2 1
Destaquemos que muchas de las funciones n
ucleo definidas en la Tabla 8.2 pueden ser
consideradas casos particulares de una familia de funciones n
ucleo con soporte compacto
definida por
K(x) = krs (1 |x|r )s I[|x|1]
donde
r
r>0 s0
2Beta(s + 1, 1/r)
Resultando los casos particulares mostrados en la Tabla 8.4.
krs =
(8.39)
TIPO NUCLEO.
CAPITULO 8. ESTIMACION
Funcion N
ucleo
Rectangular
Triangular
Epanechnikov
Biweight
Triweight
44
s
0
1
1
2
3
1
2
2
2
krs
1/2
1
3/4
15/16
35/32
8.2.6.
Reducci
on del sesgo. N
ucleos de orden mayor que 2.
Trabajar con n
ucleos de orden mayor a 2 permite mejorar el MISE reduciendo la contribucion del sesgo. Consideremos
Z
xi K(x)dx = 0 i = 0, . . . , s 1
Z
(8.40)
xs K(x)dx = ks 6= 0,
(8.41)
K(t)f (x ht)dt,
(8.42)
K f 0 (x)h
tK + +
f (s) hs Z s
f (s) hs
t Kdt = f (x) +
ks ,
s!
s!
h2s 2
k R(f (s) ).
s!2 s
(8.43)
R(K)
.
nh
(8.44)
(8.45)
"
#1/(2s+1)
n1/(2s+1) .
(8.46)
TIPO NUCLEO.
CAPITULO 8. ESTIMACION
s
Ks en [-1,1]
3
(1
4
0, 320 n4/5
t2 )(3 7t2 )
0, 482 n8/9
0, 581 n12/13
0, 681 n16/17
15
(1
32
105
(1
206
6
315
(1
4096
AMISE N(0,1)
t2 )
45
i1/(2s+1)
n2s/(2s+1) .
(8.47)
2
1 et /2
2
(8.48)
0 (t) = t(t), y una funcion
1
1
3
K4 = (t) t2 (t) = (3 t2 )(t).
2
2
2
(8.49)
TIPO NUCLEO.
CAPITULO 8. ESTIMACION
46
TIPO NUCLEO.
CAPITULO 8. ESTIMACION
47
8.2.7.
Dominios acotados
asignar f (x) igual a cero en los valores negativos; renormalizando posteriormente para que
la integral fuera 1. Sin embargo este proceso no soluciona la infraestimacion que se produce
en las cercanias del lmite del dominio. Supongamos por ejemplo que f (x) esta definida solo
para x 0, en (8.8) resulta
E[fn (x)] =
1
hn K
xy
h
f (y) dy =
R
0
1
K
hn
xy
h
f (y) dy
(8.50)
x/h
f (x)
K(t)f (x th)dt
Z
x/h
K(t)dt f 0 (x)h
x/h
(8.51)
Z
x/h
tK(t)dt + f 00 (x)
h2 Z x/h 2
t K(t)dt
2
(8.52)
(8.53)
TIPO NUCLEO.
CAPITULO 8. ESTIMACION
48
2f (x) para x 0
0
para x < 0.
(8.54)
Hay que destacar que el ancho de ventana utilizado debe estar basado en la muestra de tama
no
n y no en la de 2n. En la Figura 8.7 podemos ver el resultado obtenido comparado con la
Figura 8.6.
Otra alternativa al metodo de reflexion es la utilizacion de funciones n
ucleo de frontera
Boundary kernels. Los n
ucleos de frontera son funciones ponderadas que se deben utilizar
dentro de la region lmite [0, h), es decir para x = ph 0 p < 1. No entramos en detalle en
la construccion de tales funciones n
ucleo pero una de las mas utilizadas es
B(x) =
donde
al (p) =
p
1
ul K(u)du.
(8.55)
TIPO NUCLEO.
CAPITULO 8. ESTIMACION
8.3.
49
Selecci
on del ancho de ventana
Siguiendo a Jones, Marron y Sheather (1996a) podemos clasificar las tecnicas de seleccion
del ancho de ventana basadas en una muestra en metodos de primera generacion y metodos
de segunda generacion. La clasificacion tiene su origen principal en la superioridad que han
mostrado las tecnicas desarrolladas recientemente, a partir de 1990 frente a las tecnicas de
primera generacion desarrolladas en su mayora con anterioridad a 1990.
Entre los metodos de primera generacion incluimos:
Reglas basadas en la distribuciones parametricas. Rules of Thumb.
Sobresuavizacion.
Reglas de Validacion cruzada.
y entre los de segunda:
Metodos Plug-In.
Bootstrap suavizado.
8.3.1.
(8.56)
donde A = mn ( desviacion standard , rango intercuartil/1,349), o con la modificacion sugerida en Silverman (1986)
hROT = 0,9 A n1/5 .
(8.57)
8.3.2.
Sobresuavizaci
on
f 00 (x)2 dx s/t
f =1y
x2 f = 1.
(8.58)
TIPO NUCLEO.
CAPITULO 8. ESTIMACION
50
35
35
(9 x2 )3+ y R[(f )00 ] =
69,984
243
35
,
243 5
"
R(K)
h =
4
nK
R(f 00 )
(8.59)
#1/5
243 5 R(K)
4
35nK
"
#1/5
(8.60)
"
R(K)
=3
4
35K
#1/5
n1/5
(8.61)
8.3.3.
Reglas de validaci
on cruzada.
Se caracterizan por utilizar la tecnica del leave-one-out para minimizar alguna medida de
discrepancia entre la densidad y su estimacion.
Validaci
on cruzada de mnimos cuadrados. LSCV
Es un metodo automatico para seleccionar el parametro de ventana. Sugerido por Rudemo
(1982) y Bowman (1984). Se basa en la minimizacion del MISE de la forma siguiente. Dado
un estimador f de la densidad f , el MISE se expresa
M ISE f = E
(f f )2 = E
f2 2E
ff + E
f 2.
(8.62)
El u
ltimo termino no depende de la estimacion f, por tanto la eleccion de h para minimizar
el MISE equivale a la minimizacion de
(f) = E
Un estimador de
Z
f2 2
ff .
(8.63)
(8.64)
TIPO NUCLEO.
CAPITULO 8. ESTIMACION
51
donde fi (x) es la densidad estimada a partir de los datos extrayendo de la muestra el dato
Xi ,
X x Xj
1
K
.
(8.65)
fi (x), =
(n 1)h j6=i
h
R
El estimador (8.64) es un estimador insesgado para E ff , tal y como puede demostrarse,
n
1X
1 X 1
Xi X j
fi (x), = Efn (x) =
E K
n i=1
n 1 j6=i h
h
Z Z
1
1
X1 X 2
xy
K
= E{ K
}=
f (x)f (y)dxdy
h
h
h
h
Z
Z Z
xy
1
K
f (y)dy}dx = E{f(x)}f (x)dx
=
{
h
Z h
= E{ f(x)f (x)dx}.
(8.66)
(f) = E
viene dado por
LSCV (h) =
Z
f2 2
ff
n
2X
f2 (x)dx
fi (Xi ).
n i=1
(8.67)
(8.68)
El estimador LSCV del parametro de ventana hLSCV sera el valor que minimize la expresion
anterior,
LSCV = argminh LSCV (h)
h
(8.69)
Suponemos que el mnimo de (8.68) estara cercano al mnimo de (8.67) y por tanto que el
parametro de ventana obtenido al minimizar (8.68) sera una buena eleccion. Puede demostrarse que la expresion (8.68) es equivalente a
LSCV (h) =
R(K)
2 X
(cij ),
+ 2
nh
n h i<j
(8.70)
donde
y
(Xi Xj )
.
h
Por ejemplo, utilizando la funcion n
ucleo de Gauss se obtiene
X c2 /4
1
1
2
+ 2
e ij 8ecij /2 .
LSCV (h) =
2nh n h i<j
cij =
(8.71)
(8.72)
(8.73)
TIPO NUCLEO.
CAPITULO 8. ESTIMACION
52
Validaci
on cruzada sesgada. BCV
En lugar de trabajar con la expresion exacta del MISE como en (8.62) se trabaja con la
expresion aproximada (8.28), que podemos expresar
AM ISE =
(8.74)
Scott y Terrell (1987) muestran que bajo condiciones de regularidad que implican funciones
n
ucleo con decrecimiento exponencial en las colas, como es el caso de la funcion n
ucleo de
Gauss, o bien funciones n
ucleo simetricas con soporte finito en [-1,1] con derivadas de la
densidad y de la funcion n
ucleo continuas hasta orden 4 y que K (i) (1) = 0 para 0 i 1,
se verifica
ER(f00 ) = R(f 00 ) +
R(K 00 )
+ O(h2 ),
nh5
00
)
es asintoticamente constante dado que el parametro de ventana optimo es
donde R(K
nh5
1/5
O(n
).
Notese que la funcion n
ucleo de Epanechnikov no verifica la condicion requerida.
En (8.74) reemplazamos R(f 00 ) por
00
00 ) = R(f00 ) R(K ) ,
R(f
nh5
R(K)
k2 X
(cij ),
+ 22
nh
2n h i<j
(8.75)
K 00 (w)K 00 (w + c)dw.
Definimos el estimador BCV del parametro de ventana hBCV como el valor que minimize
(8.75)
BCV = argminh BCV (h)
h
(8.76)
Con la funcion n
ucleo de Gauss se obtiene
BCV (h) =
X
1
1
4
2
+
12c
+
12
ecij /4 .
ij
2nh 64n2 h i<j ij
(8.77)
En Hall y Marron (1987) y en Scott y Terrell (1987) se demuestran una serie de convergencias bajo las condiciones de regularidad siguientes:
TIPO NUCLEO.
CAPITULO 8. ESTIMACION
53
Condicion 1. f 000 absolutamente continua; f (iv) integrable; R(f (iv) (f )1/2 ) y R(f (f (iv) )1/2 ) finitas.
Condicion 2a. K 0 simetrico en [1, 1]; K 0 Holder continuo; k2 > 0.
Condicion 2b. K 00 absolutamente continuo en (, ); K 000 continuo en (-1,1);R(K 000 ) < .
La funcion n
ucleo de Gauss verifica las condiciones anteriores, as como tambien la funcion
n
ucleo triweight
K(t) = 35/32(1 t2 )3 I[1,1] (t),
siendo esta u
ltima la funcion n
ucleo mas sencilla que satisface las condiciones 2a y 2 b.
Las convergencias demostradas son:
n
1/10
LSCV
h
L
2
),
1 N (0, LSCV
hM ISE
!
(8.78)
con
2
LSCV
= C(f, K)R()
C(f, K) =
2
R(f ){R(f 00 )}1/5 {k2 }2/5 {R(K)}9/5
25
(x) = (x) + x 0 (x)
1/10
BCV
h
L
2
1 N (0, BCV
),
hM ISE
!
(8.79)
con
2
BCV
= C(f, K)R(BCV )
0
BCV (x) = BCV (x) + xBCV
(x)
1
BCV (x) = k22 (K K)(4) (x).
4
Para la funcion n
ucleo de Gauss se obtiene
2
LSCV
15, 7
2
BCV
(8.80)
TIPO NUCLEO.
CAPITULO 8. ESTIMACION
54
n
Y
fj (Xj ; h),
j=1
8.3.4.
M
etodos Plug-In
Tratan de substituir en la expresion del hAM ISE dada en (8.29) el valor R(f 00 ) a traves
de una muestra piloto. El problema es escoger el parametro de suavizacion para esta muestra
piloto. Se han propuesto varias aproximaciones.
TIPO NUCLEO.
CAPITULO 8. ESTIMACION
55
R(f 00 ) =
(f 00 )2 dx =
000
f 00 df 0 (x) =
f (x)df (x) = +
(8.81)
es decir
R(f 00 ) = 4 = E{f (4) (x)}.
Un posible estimador es
n
1X
1 X X (4) Xj Xi
4 (g) =
.
f(4) (Xi ) = 2 5
K
n i=1
ng i j
g
(8.82)
Definimos
DP I =
h
R(K)
k22 4 (g)
)1/5
n1/5 .
(8.83)
2K (4) (0)
k2
!1/7
(8.84)
con R(f 000 ) estimado por un proceso analogo obteniendo una funcion 6 , y as sucesivamente
hasta que finalmente se estima el termino R(f (i) ) tomando como referencia una distribucion
parametrica como puede ser la normal. Generalmente no se realizan mas de dos o tres procesos
iterativos Jones y Sheather (1991). En Cao et al. (1994) se muestra el buen comportamiento
del estimador anterior tomando directamente en (8.84) la referencia a la distribucion normal
para estimar R(f 000 ).
Hall, Sheather, Jones y Marron (1991)
Trabajan con una mejor aproximacion del AMISE, en particular mejoran la aproximacion
del sesgo, con lo que se obtiene
AM ISE(h) =
R(K) R(f ) 1 4 2
1
(8.85)
1/5
J1
n
3/5
J2 ,
(8.86)
TIPO NUCLEO.
CAPITULO 8. ESTIMACION
con
J1 =
R(K)
2
k2 Rh1 (f 00 )
56
k4 Rh2 (f 000 )
20k2 Rh1 (f 00 )
yJ2 =
X
1
L(4) {(Xi Xj )/h1 }
5
n(n 1)h1 i,j
X
1
(6) {(Xi Xj )/h2 }.
7
n(n 1)h2 i,j
8.3.5.
M
etodos basados en Bootstrap
(8.87)
(
2n h(2)1/2 i,j
8h2
(
+2
1/2
X
i,j
4 X
31/2
i,j
(8.88)
(8.89)
+ n21/2 ).
(8.90)
(Xi Xj )2
exp
6h2
(
(Xi Xj )2
exp
4h2
(
Otros enfoques pueden encontrarse en Faraway y Jhun (1990), Hall (1990), Cao-Abad (1990).
Se han realizado estudios comparativos por simulacion del comportamiento de los diferentes selectores del parametro de ventana, destaquemos los trabajos de Cao, Cuevas y Manteiga
TIPO NUCLEO.
CAPITULO 8. ESTIMACION
57
(1994) y los de Jones, Marron y Sheather (1996a,1996b), Devroye (1997). Las conclusiones
obtenidas en los diferentes estudios muestran el buen comportamiento de los estimadores
basados en las tecnicas Plug-In y Bootstrap frente a los basados en validacion cruzada. En
cuanto a los estudios teoricos, se ha demostrado que la convergencia de los parametros de
ventana estimados con los metodos Plug-In o Bootstrap es de orden n5/14 , mucho mas cercana al lmite de n1/2 , Hall y Marrron (1987), que la de los metodos de validacion cruzada
n1/10 .
Captulo 9
Estimaci
on de Densidades
Multivariantes
9.1.
Definici
on y propiedades b
asicas
n
1 X
K{H1 (x Xi )}.
n|H| i=1
(9.1)
donde H es una matriz simetrica y definida positiva de orden d d que sera la denominada
matriz de anchos de ventana y donde la funcion n
ucleo es generalmente una funcion de
densidad multivariante
Z
<d
K(x) dx = 1
(9.2)
1 1
c (d
2 d
+ 2)(1 xT x)
58
si xT x < 1
en caso contrario
DE DENSIDADES MULTIVARIANTES
CAPITULO 9. ESTIMACION
59
(9.3)
3 1 (1 xT x)2
0
si xT x < 1
en caso contrario
K3 (x) =
4 1 (1 xT x)3
0
si xT x < 1
en caso contrario
d
Y
K(xi )
i=1
Z
<d
<d
<d
K(x) dx = 1
xK(x) dx = 0
(9.4)
xxT K(x) dx = Id
h1 h12
h12 h2
: h1 , h2 >
0, h212
< h 1 h2 .
DE DENSIDADES MULTIVARIANTES
CAPITULO 9. ESTIMACION
60
1
exp xT H2 x ,
2
(9.5)
que es la densidad de una distribucion normal multivariante con vector de medias 0 y matriz
de covarianzas H2 . La pertenencia a H1 significa que la masa de la funcion n
ucleo sera esferica,
a H2 significa que sera elptica con con los ejes ortogonales y en el caso H3 elptica con los
ejes en cualquier orientacion.
Bajo la axiomatica anterior y con la parametrizacion
H=hA
(9.6)
donde A es una matriz d d con |A| = 1 y h > 0, en Scott (1992) a traves de la forma
multidimensional del desarrollo de Taylor pero siguiendo el mismo esquema que en el caso
univariante, se muestra que para una estimacion como la definida en (9.1) el error cuadratico
medio integrado asintotico toma la forma
R(K) 1 4 Z
+ h
[tr{AAT 2 f (x)}]2 dx,
AM ISE =
d
d
nh
4
<
(9.7)
donde R(K) = <d K(x)2 dx y 2 f (x) es [ 2 f /(xi xj )]. El primer sumando corresponde a
la AIV y el segundo al IASB.
Bajo la parametrizacion anterior se tiene que si por ejemplo H H2
R
H=
h1
0
...
hd
entonces H = h
=
h1 /h
0
...
hd /h
9.2.
Selecci
on del par
ametro de suavizaci
on
9.2.1.
Referencia a la distribuci
on Normal
La eleccion optima de la matriz de anchos de ventana sera aquella que minimza el AMISE.
Silverman (1986) presenta algunos resultados para el parametro de suavizacion en el caso
H H1 , es decir H = hI, se obtiene
AM ISE =
1
1 4 2Z 2
R(K)
+
h k2 [ f (x)}]2 dx,
nhd
4
(9.8)
DE DENSIDADES MULTIVARIANTES
CAPITULO 9. ESTIMACION
Funcion n
ucleo
Mult. Gaussian
Mult. Gaussian
Mult. Epanechnikov
Mult. Epanechnikov
K2
K3
Dimension
2
d
2
d
2
2
61
A(K)
1
{4/(d + 2)}1/(d+4)
2.40
1
{8cd (d + 4)(2 )d }1/(d+4)
2,78
3,12
h =
dR(K)
R
2
k2 [2 f (x)}]2 dxn
)1/(d+4)
(9.9)
donde 2 = d1 i sii .
Scott (1992) en forma analoga propone para datos normales con las variables independientes y la funcion n
ucleo normal multivariante
P
1/(d+4)
4
i n1/(d+4) .
(9.10)
=
d+2
Aqu considerando diferente parametro de suavizacion para cada dimension. Dado que la
constante en (9.10) vara entre 0,924 y 1,059 una forma sencilla de asignar un parametro de
suavizacion, seg
un propone Scott, es
hi
=
h
i n1/(d+4)
i
(9.11)
En Wand (1992) se muestra que para datos normales bivariantes con coeficiente de correlacion
y utilizando la funcion n
ucleo de Gauss para H H3 el valor que minimiza el AMISE es
H = 1/2 n1/6
(9.12)
DE DENSIDADES MULTIVARIANTES
CAPITULO 9. ESTIMACION
62
9.3.
DE DENSIDADES MULTIVARIANTES
CAPITULO 9. ESTIMACION
Dimension
1
2
3
4
5
6
7
8
9
10
63
Tama
no muestral
4
19
67
223
768
2.790
10.700
43.700
187.000
842.000
Captulo 10
Estimaci
on por n
ucleos adaptables
10.1.
Introducci
on
La idea basica que se encierra en estos metodos es considerar que el parametro de suavizacion no tiene que ser fijo sino que puede variar para los diferentes datos muestrales seg
un
la densidad de observaciones presentes en un entorno de los mismos. Zonas con baja densidad de observaciones, por ejemplo en densidades con largas colas, permiten un parametro de
suavizacion mayor que al mismo tiempo evite distorsiones en las estimaciones resultantes.
Fix y Hodges (1951) en su trabajo pionero centrado en los problemas del analisis discriminante, propusieron el metodo del vecino mas proximo (nearest neighbor estimator). En un
punto fijo x y para un entero fijo k, sea Dk (x) la distancia eucldea de x a su k-esimo vecino
mas proximo entre X1 , . . . , Xn , y sea Vk (x) = cd [Dk (x)]d el volumen de la esfera d-dimensional
de radio Dk (x), donde cd es el volumen de la esfera unidad d-dimensional tal y como se define
en ( 9.3). El estimador de la densidad del k-esimo vecino mas proximo (k-NN) se define por
k/n
.
f(x) =
Vk (x)
(10.1)
n
X
1
x Xi
,
K
d
n[Dk (x)] i=1
Dk (x)
(10.2)
POR NUCLEOS
65
de n
ucleo variable ( variable kernel estimator), definido de la siguiente forma
n
1
1X
x Xi
f(x) =
K
d
n i=1 Hik
Hik
(10.3)
donde la ventana variable Hik = hDk (Xi ) no depende de x como en (10.2), h es un parametro
de suavizacion, y k controla el comportamiento local de Hik . El estimador (10.3) s que es
una verdadera densidad bajo las condiciones usuales de regularidad de las funciones n
ucleo y
tambien esta demostrada su consistencia, Wagner (1975), Devroye (1985).
10.2.
Estimador por n
ucleos adaptables
10.2.1.
Definici
on
y es el parametro de sensibilidad, un n
umero que satisfaga 0 1.
3. Definimos la estimacion de n
ucleo adaptable como
fh (x) = n1
n
X
i=1
1 1
hd d
i K{h i (x Xi )}
(10.4)
donde K es la funcion n
ucleo con las condiciones habituales y h el parametro de suavizacion.
POR NUCLEOS
66
10.2.2.
Elecci
on del par
ametro de sensibilidad
Una primera eleccion puede ser = 1/d. La razon de esta eleccion es que, supuesto un
valor peque
no para h, el n
umero esperado de observaciones en una esfera de radio hf (x) 1/d
centrada en x es aproximadamente igual a f (x) (volumen de la esfera) = cd hd , por tanto
el n
umero de observaciones afectadas por la funcion n
ucleo es aproximadamente el mismo en
cualquier punto de la densidad independientemente del punto concreto.
Sin embargo una de las elecciones que ha demostrado mejor comportamiento en la practica,
Abramson (1982), Silverman (1986), es = 1/2. La razon de este buen comportamiento puede
explicarse al calcular el sesgo de la estimacion en un punto, Silverman (1986) muestra que en
el caso univariante y tomando i = f (Xi )1/2 se verifica
Ef(t) f (t)
Z
h4
A(t) y 4 K(y)dy + o(h4 ),
24f (t)
donde
f (4) (t) 8f 000 (t)f 0 (t)
+
f (t)
f (t)2
6f 00 (t)2 36f 00 (t)f 0 (t)2 24f 0 (t)4
+
+
f (t)2
f (t)3
f (t)4
A(t) =
(10.5)
POR NUCLEOS
10.3.
67
Aplicaci
on al An
alisis Discriminante
(10.6)
10.3.1.
Aplicaci
on a diversos ejemplos cl
asicos y pruebas de simulaci
on
Para la comparacion el metodo MDP, se han considerado los mismos ejemplos y simulaciones que los realizados por los autores del metodo.
POR NUCLEOS
Metodo
LDF
QDF
MDP=1
Funcion n
ucleo
Mult. Gaussian
Mult. Gaussian
Mult. Epanechnikov
Mult. Epanechnikov
68
Parametro de
sensibilidad
0.5
1.0
0.5
1.0
Ventana
optima
70 % - 100 % hopt
80 % - 100 % hopt
80 % hopt
70 % i 100 % hopt
Prob. error
(Leave-one-out)
0.0541
0.0405
0.0541
0.0541
10.3.2.
Generalizaci
on para datos discretos y mixtos
Consideremos el caso de datos binarios multivariantes donde cada observacion toma los
valores 0 o 1. La distribucion de un vector multivariante binario de longitud k viene dada
por las probabilidades de cada uno de los 2k posibles resultados. Sea B k el espacio {0, 1}k de
psobiles observaciones multivariantes binarias. Dados dos vectores x y y en B k sea d(x, y) el
n
umero de desacuerdos en los correspondientes elementos de x e y; se verifica
d(x, y) = (x y)T (x y).
Para cualquier tal que
1
2
(10.7)
1, definamos la funcion n
ucleo K como
K(y|x, ) = kd(x,y) (1 )d(x,y) .
(10.8)
Que satisface
X
y
K(y|x, ) = 1 x y .
X
i
K(y|Xi , ).
(10.9)
POR NUCLEOS
Metodo
LDF
QDF
MDP=1
Funcion n
ucleo
Mult. Gaussian
Mult. Gaussian
Mult. Epanechnikov
Mult. Epanechnikov
69
Parametro de
sensibilidad
0.5
1.0
0.5
1.0
Ventana
optima
110 % - 120 % hopt
100 % hopt i endavant
100 %- 110 % hopt
90 %- 110 % hopt
Prob. error
(Leave-one-out)
0.0769
0.1026
0.1026
0.1026
Metodo
LDF
QDF
MDP=1
Funcion n
ucleo
Mult. Gaussian
Mult. Gaussian
Mult. Epanechnikov
Mult. Epanechnikov
Parametro de
sensibilidad
0.5
1.0
0.5
1.0
Ventana
optima
70 % - 110 % hopt
60 % - 110 % hopt
90 % hopt
70 %- 90 % hopt
Prob. error
(Leave-one-out)
0.1290
0.1290
0.1290
0.1290
Cuadro 10.3: Huang y Li (1991). Discriminacion entre dos grupos de mujeres: normales y con
enfermedad coronaria.
POR NUCLEOS
Metodo
LDF
QDF
MDP=20
Funcion n
ucleo
Mult. Gaussian
Mult. Gaussian
70
Parametro de
sensibilidad
0.5
1.0
Ventana
optima
30 % hopt
20 % hopt
Prob. error
(Leave-one-out)
0.1429
0.1429
Cuadro 10.4: Hand (1981). Discriminacion entre dos tipos de usuarios del centro de computacion de la Universidad de Londres.
Metodo
LDF
QDF
MDP=1
MDP=10
Funcion nucleo
Mult. Gaussian
Parametro de
sensibilidad
0.5
% clasificacion erronea
(Leave-one-out)
49.33
45.92
45.57
38.33
Ventana
optima
0.6 hopt
% error
(Leave-one-out)
38.03
% error
con hopt
39.25
Cuadro 10.5: Primera simulacion: Poblacion 1 - Normal bivariante (0,I) ; Poblacion 2 - Corona
circular ( R=2 , r=1 )
POR NUCLEOS
Metodo
LDF
QDF
MDP=1
MDP=10
Funcion nucleo
Mult. Gaussian
71
Parametro de
sensibilidad
0.5
Ventana
optima
2.0 hopt
% error
(Leave-one-out)
0.16
% error
con hopt
0.98
Cuadro 10.6: Segunda simulacion: Poblacion 1 - Normal trivariante (0,I) ; Poblacion 2 - Dos
uniformes trivariantes en (-4,-3) y (3,4)
El parametro controla la cantidad de suavizacion. Cuando = 1 todo el peso del n
ucleo
esta concentrado en y = x, y p(y) es la proporcion de datos para los cuales Xi = y. Por otro
lado cuando = 1/2, K(y|Xi , ) proporciona el mismo peso (1/2)k a todo y en B k y por
tanto la estimacion es una uniforme discreta sobre B k .
Para la eleccion automatica del parametro puede utilizarse el metodo de la validacion
cruzada maximo verosmil. La funcion que debe maximizarse es
X
i
log p1 (Xi ).
(10.10)
La regla que permite asignar una observacion x a una poblacion es identica a la presentada en
(10.6) con fEi (x) substituido por pEi (x). Entre los trabajos aplicados que utilizan el metodo
comentado destaquemos Anderson et al. (1972) con dos grupos de individuos uno de ellos
con Keratoconjunctivitis sicca (KCS) y otro normal y un vector de 10 caractersticas binarias.
Calculando por validacion cruzada maximo verosmil dado un grupo de 41 nuevos pacientes
todos ellos fueron diagnosticados correctamente.
Si los datos tienen k1 componentes binarias y k2 componentes continuas, es posible aplicar
la tecnica discriminante comentada con la eleccion de una funcion n
ucleo adecuada. Una
posible funcion n
ucleo es
1
(10.11)
donde d1 es la distancia entre las componentes binarias definida en (10.7), d2 es la distancia eucldea entre las componentes continuas, es la funcion de densidad normal, y y h
son parametros de suavizacion. Si S es el espacio de posibles observaciones, entonces una
POR NUCLEOS
72
(10.12)
Captulo 11
Otros m
etodos de estimaci
on no
param
etrica
11.1.
Estimaci
on por series ortogonales
f (x) =
i=
ai i (x) x
(11.1)
i (x) j (x) dx = ij
donde ij es la delta de Kronecker, y ai son los coeficientes de la serie y que vienen definidos
por ai = E[i (x)]. Definidos de esta forma es facil comprobar que los coeficientes ai minimizan
la expresion
R(a) = k f (x)
=
i=
f 2 (x)dx 2
ai i (x) k2 =
i=
73
ai
f (x)i (x) +
i=
a2i
(11.2)
NO PARAMETRICA
74
(11.3)
n
1X
i (Xj )
n j=1
(11.4)
a
i i (x),
(11.5)
i=
bi a
i i (x)
(11.6)
i=
k
X
a
i i (x).
(11.7)
i=k
Al efectuar el truncamiento no podemosR garantizar que en todos los casos las estimaciones
verifiquen fn (x) > 0 para todo x o que fn (x)dx 1, tan solo se cumplira para elecciones
particulares del sistema ortonormal y de la secuencia de pesos.
Una vez escogido un sistema ortonormal de funciones, la bondad y la suavizacion de la
estimacion obtenida dependera evidentemente del n
umero de terminos que intervengan en el
desarrollo. Se han propuesto algunas reglas para la eleccion del n
umero optimo de terminos
NO PARAMETRICA
75
pero sin embargo ninguna de ellas carece de inconvenientes, vease por ejemplo, Kronmal y
Tarter (1968), Hart (1985).
La eleccion del sistema de funciones tambien tiene una gran repercusion sobre la calidad
de la estimacion. Si, como es habitual, no disponemos de ning
un conocimiento previo de la
forma de la densidad, una de las razones para la eleccion del sistema puede ser la simplicidad
de su implementacion. Entre los sistemas ortonormales mas utilizados destacan el sistema
trigonometrico de Fourier y el sistema ortonormal de Hermite, aunque sin olvidar tampoco
los sistemas ortonormales de Laguerre y Legendre.
11.2.
M
axima verosimilitud penalizada.
(11.8)
(y) dy = 1
(y) = 0
si y 6= 0.
(11.9)
n
X
i=1
ln g(Xi ) R(g)
(11.10)
g = 1 , g(x) 0
si maximiza l (g) sobre la clase de todas las funciones que verifican
para todo x y R(g) < . El parametro controla la cantidad de suavizacion.
Good y
Gaskins en su trabajo proponen trabajar con la raiz cuadrada de la densidad
siendo = f , proponiendo como funciones penalizadoras
R(f ) =
(11.11)
NO PARAMETRICA
76
equivalente a
4R(f ) =
f 02
f
(11.12)
Dicha funcion penaliza la pendiente de las estimaciones. Otra funcion penalizadora propuesta
tambien por Good y Gaskins es la funcion
R(f ) =
002
(11.13)
que tomara valores altos si posee una gran curvatura local, y el valor cero si es una linea
recta.
La ventaja de trabajar con en lugar de con f esR que la restriccion f (x)
0 se satisface
R 2
automaticamente si es real; ademas la restriccion f = 1 se sustituye por = 1. Good
y Gaskins (1971,1980) proponen utilizar un desarrollo de en forma de serie de funciones
ortonormales siguiendo un desarrollo analogo al de la seccion anterior
(x) =
m
X
k k (x)
(11.14)
k=0
La estimacion maximo verosmil penalizada se obtiene ahora buscando los coeficientes k que
maximizan (11.11) y sustituyendo en (11.14) se forma finalmente la estimacion fn (x) = (x)2 .
11.3.
Secuencias delta.
Muchos de los metodos descritos hasta ahora son casos particulares de la siguiente clase
general. Sea (x, y) (x, y R), una funcion acotada con un parametro
de suavizacion > 0.
R
La secuencia { (x, y)} se llama una secuencia delta sobre R si
(x, y)(y) dy (x)
cuando para toda funcion infinitamente diferenciable sobre R. Cualquier estimador
que pueda ser escrito en la forma
n
1X
fn (x) =
(x, Xj ),
n j=1
xR
(11.15)
es llamado un estimador por secuencias delta. Los histogramas, los estimadores tipo n
ucleo
y los estimadores por series ortogonales pueden expresarse de la forma (11.15). En algunos
casos (histogramas y series ortogonales ), tomara valores enteros, mientras que en otros
(n
ucleos) tomara valores reales.
NO PARAMETRICA
Estimador
Secuencia delta
Histogramas
m (x, Xj ) =
N
ucleos
h (x, Xj ) = h1 K
Series ortogonales
r (x, Xj ) =
Pm
i=1 (ti+1
Pr
xXj
h
k=r
77
k (x) k (Xj )
Cuadro 11.1: Equivalencia con las secuencias delta de algunos metodos de estimacion no
parametrica
Bibliografa
1. Abramson, I.S. (1982). .On bandwidth variation in kernel estimates - a square root
law.Ann. Statist, 10, 1217-1223.
2. Anderson, J.A., Whaley, K., Williamson, J. and Buchanan, W.W. (1972). . A
statistical aid to the diagnosis of Keratoconjunctivitis sicca.Quart. J. Med., 41, 175189.
3. Beran, R. (1977). Minimum Hellinger Distance Estimates for Parametric Models.The
Annals of Statistics , 5 , 3 445-463.
4. Birg
e, L. (1985). Non-Asymptotic Minimax Risk for Hellinger Balls.Probability and
Mathematical Statistics , 5 , 1 21-29.
5. Birg
e, L. (1986). .On Estimating a Densitiy Using Hellinger Distance and Some Other
Strange Facts.Probab. Theory and Related Fields , 71 , 271-291.
6. Bochner, S. (1955). Harmonic analysis and the Theory of Probability. Univ. of California Press.
7. Bonan, S., Lubinsky, D.S. and Nevai, P. (1987). .Orthogonal polynomials and their
derivatives,II.SIAM J. Math. Anal. , 18 , 4 1163-1176.
8. Boneva, L.I., Kendall, D. and Stefanov, I. ( 1971 ) Spline transformations: Three
New Diagnostic Aids for the Statistical data-analyst.Journal of the Royal Statistical
Society. Series B., 33, 1-70.
9. Bowman, A.W. (1984). .An Alternative Method of Cross-Validation for the Smoothing
of Density Estimates.Biometrika, 71, 353-360.
10. Bowman, A.W. (1985). .A comparative study of some kernel-based nonparametric density estimators.J. Statist. Comput. Simul., 21, 313-327.
11. Bowman, A.W., Hall, P. and Titterington, D.M. (1984). C
ross-validation in
nonparametric estimation of probabilities and probability.Biometrika , 71 , 2 341-351.
78
NO PARAMETRICA
79
NO PARAMETRICA
80
NO PARAMETRICA
81
41. Good, I.J. ( 1971 ). Non-parametric roughness penalty for probability densities.
Nature Physical Science, 229, 29-30.
42. Good, I.J. and Gaskins, R.A. ( 1971 ). Nonparametric roughness penalties for
probability densities. Biometrika, 58(2), 255-277.
43. Good, I.J. and Gaskins, R.A. ( 1980 ). Density estimation and Bump-Hunting
by the penalized likelihood method exemplified by scattering and meteorite data.JASA,
75(369), 42-73.
44. Green, P.J. ( 1987 ). Penalized Likelihood for General Semi-parametric Regression
Models. International Statistical Review, 55, 245-259.
45. Grund, B., Hall, P. and Marron, J.S. (1994). Loss and Risk in Smoothing Parameter Selection.Journal of Nonparametric Statistics, 4, 107-132.
46. Habbema, J.D.F., Hermans, J. and van der Broek, K. (1974). .A stepwise discrimination program using density estimation.En Bruckman, G. (ed.), Compstat 1974.
Viena. Physica Verlag, pp. 100-110.
NO PARAMETRICA
82
55. Hodges, J.L. and Lehmann, E.L. (1956). The efficiency of some nonparametric
competitors of the t-test.Ann. Math. Statist., 27, 324-335.
56. Huang, X. and Li, B. (1991). .A new discriminant technique: Bayes-Fisher discrimination. Biometrics, 47, 741-744.
57. Izenman, A.J. ( 1991 ). Recent Developments in Nonparametric Density Estimation.
JASA, 86(413), 205-224.
NO PARAMETRICA
83
69. Marron, J.S. and Tsybakov, A.B. (1995). Visual Error Criteria for Qualitative
Smoothing.JASA , 90 , 430 499-507.
70. Mi
narro, A. and Oller, J.M. (1992). On a class of probability density functions
and their information metric. Sankhy`a, Series A , 55 , 2 214-225.
71. M
oricz, F. (1984). .Approximation theorems for double orthogonal series.Jour. Approximation Theory , 42 , 107-137.
72. Nadaraya, E.A. ( 1965 ). .On non-parametric estimates of density functions and
regression curves. Theory of Probability and its applications, 10, 186-190.
73. Nadaraya, E.A. ( 1989 ). Nonparametric Estimation of Probability Densities and
Regression Curve. Kluwer Academic Publishers, Dordrecht, Germany.
74. Ott, J. and Kronmal, R.A. (1976). Some classification procedures for multivariate
binary data using orthogonal.Jour. Amer. Statist. Assoc. , 71 , 354 391-399.
75. Park, B.U. and Marron, J.S. ( 1990 ). C
omparison of Data-Driven Bandwith
Selectors.JASA, vol. 85, No. 409, 66-72.
76. Parzen, E. ( 1962 ). .On estimation of a probability density function and mode. Ann.
of Math. Stat. 33, 1065-1076.
77. Rosenblatt, M. ( 1956 ). Remarks on some nonparametric estimatees of a density
function. The Annals of Mathematical Statistics., 27, 832-837.
78. Rosenblatt, M. ( 1971 ). C
urve Estimates. The Annals of Statistics, 42(6), 18151842.
79. Rudemo, M. (1982). Empirical Choice of Histograms and Kernel Density Estimators.Scandinavian Journal of Statistics, 9, 65-78.
80. Sain, S.R. and Scott, D.W. (1996). .On locally adaptive density estimation.JASA
, 91 , 436 1525-1534.
81. Schwartz, S.C. ( 1967 ). Estimation of Probability Density by an Orthogonal Series.
Ann. of Math. Statist., 38, 1261-1265.
82. Scott, D.W. (1992). Multivariate Density Estimation. John wiley and Sons, New York.
83. Scott, D.W. and Terrell, G.R. (1987). Biased and Unbiased Cross-Validation in
Density Estimation.. J. Amer. Statist. Assoc., 82, 1131-1146.
84. Scott, D.W. and Wand, M.P. (1991). Feasibility of Multivariate Density Estimates.. Biometrika, 78, 197-206.
NO PARAMETRICA
84
NO PARAMETRICA
85
99. Wagner, T.J. (1975). Nonparametric Estimates of Probability Densities.IEEE Transactions on Information Theory, 21, 438-440.
100. Walter, G. ( 1977). Properties of Hermite Series Estimation of Probability Density.Ann. of Statistics, 5(6), 1258-1264.
101. Walter, G. and Blum, J. ( 1979). Probability density estimation usign delta sequences.The Annals of Statistics, 7(2), 328-340.
102. Wand, M.P. (1992). Error Analysis for General Multivariate Kernel Estimators.Journal
of Nonparametric Statistics, 2, 1-15.
103. Wand, M.P. and Devroye, L. (1993). How easy is a given density to estimate?.Compu. Statist. and Data Analysis , 16 , 311-323.
104. Watson, G.S. ( 1969). Density Estimation by Orthogonal Series.The Annals of Mathematical Statistics, 40(4), 1496-1498.
105. Watson, G.S. and Leadbetter, M.R. ( 1963). .On the estimation of the Probability
Density.Ann. of Math. Statist., 34, 480-491.