You are on page 1of 49

UN PRONSTICO NO PARAMTRICO DE LA INFLACIN

COLOMBIANA*
Norberto Rodrguez N. y Patricia Siado C.**
Bogot, junio de 2003
RESUMEN
En este trabajo se presentan los resultados de un ejercicio de pronstico no paramtrico
mltiples pasos adelante para la inflacin colombiana mensual. En particular, se usa estimacin
Kernel para la media condicional de los cambios de la inflacin dada su propia historia. Los
resultados de pronstico se comparan con un modelo ARIMA estacional y un modelo tipo
STAR. Se encuentra que, excepto para el pronstico un mes adelante, el pronstico no
parametrito mejora a las otras dos metodologas que le compiten; adems, de entre las tres
alternativas consideradas el no paramtrico es el nico pronstico que estadsticamente mejora
al pronstico que se hace con un modelo de caminata aleatoria.
Palabras Claves: Pronstico No Paramtrico. Evaluacin y Comparacin de Pronsticos.
Ancho de Banda (bandwidth). Estimacin Kernel. Pronstico Rolling.

SUMMARY
This paper contains the results of a non parametric multi-step ahead forecast for the monthly
Colombian inflation, using Mean conditional kernel estimation over inflation changes, with no
inclusion of exogenous variables. The results are compared with those from an ARIMA and a
non-linear STAR. The nonparametric forecast over perform the others two, as well as being the
only, from the three, that statistically improved the nave forecast given by a random-walk
model.
Key Words: Nonparametric forecast, Kernel Estimation, Forecast Evaluation, Bandwidth
Selection, Rolling Forecast.

JEL: C14, C22, C52, C53, E31.


*

Este documento se basa en el trabajo de grado presentado por Patricia Siado para obtener el ttulo de
Estadstica, del Departamento de Estadstica de la Universidad Nacional. Se agradecen los comentarios
de los jurados calificadores y la ayuda del profesor Fabio H. Nieto. De mucha ayuda fue el curso
Estimacin No Paramtrica y Robusta en Series de Tiempo" dictado por Dr. Siegfred Heiler, profesor
de la Universidad de Konstanz, Alemania, para el doctorado de Estadstica de la Universidad Nacional
de Colombia, Bogot, agosto a septiembre de 2001. No obstante, cualquier error que persista es de
nuestra exclusiva responsabilidad. Esta versin del trabajo se vio nutrida de las discusiones con Hctor
Zarate, a quien tambin se le agradece. Los errores y omisiones son nicamente nuestro. Cualquier
posible opinin expresada aqu no compromete la posicin oficial del Banco de la Repblica ni
tampoco la de ninguno de los miembros de su Junta Directiva.
**
Econometrista Asociado de la Unidad de Econometra del Banco de la Repblica y Estadstica de la
Universidad Nacional de Colombia, respectivamente. Correspondencia nrodrini@banrep.gov.co.

1. INTRODUCCIN

El control de la inflacin es casi siempre uno de los objetivos prioritarios de la poltica


econmica gubernamental, en particular del banco central. Su pronstico acertado
ayudar a atenuar todos los posibles inconvenientes, al permitir tomar medidas
remdiales anticipadas si es necesario.

Para el estudio de la inflacin se han usado varias herramientas estadsticas entre las
cuales se encuentran los modelos de series de tiempo a travs de mtodos paramtricos,
con bsicamente dos propsitos, uno es construir un modelo que ajuste adecuadamente
los datos con la estimacin de los parmetros del modelo y as hacer anlisis de
poltica; el segundo propsito es usar el modelo identificado y estimado para realizar
pronsticos. El presente trabajo se centra exclusivamente en este ltimo objetivo.

La metodologa de Box- Jenkins ofrece la manera de lograr estos objetivos a travs de


la construccin, identificacin y prediccin de un proceso Autorregresivo de Media
Mvil Estacional, SARIMA; pero la linealidad, que es el soporte fundamental de la
teora Box- Jenkins, es bastante fuerte e inadecuada en muchas situaciones prcticas.

Uno de los problemas que se presenta en prediccin, principalmente si el horizonte de


pronstico es largo, es el aumento en el error cuadrtico medio de pronstico conforme
aumenta el horizonte de prediccin. Consideraciones de modelos paramtricos no
lineales tipo STAR, como bi-lineales o procesos ARCH1 no siempre logran producir
un notable mejoramiento en la calidad de la prediccin.

ARCH: Autoregressive Conditional Heteroskedasticity. La familia de modelos GARCH, o ARCH


Generalizado, provee recursos para realizar estimaciones cuando la varianza de un proceso no es
constante a travs del tiempo.

Hasta el momento no se haba utilizado mtodos no paramtricos para realizar


pronsticos en la serie de la inflacin colombiana, pero gracias a los desarrollos en la
teora de estadstica no paramtrica para series de tiempo, se facilita dicha labor; en el
presente trabajo se realizaron pronsticos de la inflacin colombiana por medio de los
mtodos de prediccin no paramtricos basados en estimacin kernel. No obstante la
aplicacin de tcnicas no paramtricas a datos de la economa colombiana no es tan
poco comn como se podra pensar, solo por mencionar dos trabajos de aplicacin a
datos de ingresos son Nuez y Jimenez (1998) y mas novedoso Zarate (2003).

Los mtodos no paramtricos tienen ventajas sobre los paramtricos. Los mtodos
paramtricos en muchas ocasiones no cumplen con los supuestos acerca de la forma
funcional del conjunto de variables aleatorias de las cuales provienen los datos,
produciendo as modelos no muy confiables que generan sesgos en y deterioran la
calidad de los pronsticos; en el campo no paramtrico se evita este problema al
permitir una forma funcional flexible, y no un conjunto pequeo de modelos rgidos
como lo hacen los paramtricos. Sin embargo, se les hace dos crticas, la primera se
refiere a la demora en el trabajo computacional y la segunda al amplio error cuadrtico
medio de prediccin. Gracias a desarrollos tecnolgicos en el mbito computacional y
su disponibilidad a bajo costo queda sin peso la primera crtica. La segunda ha sido
estudiada en la literatura; se ha demostrado que los pronsticos del mtodo no
paramtrico de la mediana condicional al ser comparados con los de modelos ARIMA
dan resultados favorables en trminos del error cuadrtico medio2, resultados similares
son mostrados para la media condicional3.

Puesto que se plantea el uso una nueva tcnica de pronstico, es deseable comparar sus
resultados con los de otros modelos existentes. Con eso en mente y por ubicar al lector,

2
3

Gannoun (1991). Vase las definiciones ms adelante.


Carbon and Delecroix (1993).

seguido a esta introduccin se presenta una breve sintaxis de dos de los modelos usados
por el Banco de la Repblica para generar pronsticos de la inflacin. En la seccin 3
se introducen los primeros conceptos de estimacin no-paramtrica de densidades
condicionales o funciones de regresin, junto a un ejemplo de datos simulados, para
terminar dicha seccin, con una descripcin de algunas de las funciones kernel mas
usadas en aplicaciones estadsticas de mtodos no-paramtricos de suavizamiento. Se
pasa a la seccin 4, donde se resume la metodologa de pronsticos no-paramtricos
mltiples pasos adelante, basados en suavizamiento kernel, y las especificaciones que
se requieren del mismo. La seccin 5 presenta los resultados del pronstico no
paramtrico de la inflacin colombiana, as como los resultados de la evaluacin de los
mismos. La seccin 6 concluye y enuncia algunas recomendaciones para futuro trabajo
de aplicacin en el rea.

2. MODELOS PARAMTRICOS USADOS PARA PRONSTICAR

Actualmente el Banco de la Repblica utiliza, entre otros, dos tipos de modelos para
pronosticar mensualmente la inflacin, son ellos los tradicionales modelos ARIMA y
los modelos no-lineales tipo STAR, una breve descripcin de ellos se presenta
enseguida.

2.1. MODELO ARIMA


El modelo que se usa comnmente para hacer pronsticos a la serie de tiempo de la
inflacin es un modelo ARIMA estacional de la forma:

(L ) (L 12

)(1 L )(1

L 12 ln (IPC

) = (L ) (L 12

)e

(1)

Donde ln es el logaritmo natural, L es el operador de rezagos4, (L ) y (L ) son

polinomios en L , con coeficientes fijos a travs de la muestra, de grados p y q,


respectivamente; (L12 ) y (L12 ) son polinomios en L12 de grados P y Q,
respectivamente, los cuales modelan el componente estacional;

{e t }

es un proceso

ruido blanco: variables aleatorias independientes e idnticamente distribuidas con


media 0 y varianza 2 , usualmente asumidas con distribucin normal (gaussiana).
Entre las ventajas de estos modelos se encuentran: son de fcil manejo computacional,
estn incorporados en la mayora de paquetes estadsticos, son bastante conocidos y
utilizados. Entre sus desventajas, sus pronsticos resultan desmejorados para el
mediano o largo plazo.

2.2. MODELOS AUTORREGRESIVOS DE TRANSICIN SUAVE: STAR


Los modelos tipo STAR corresponden a una gama de modelos no lineales, presentados
como una extensin de los modelos TAR (Threshold Autoregressive), donde se supone
que el proceso generador de la serie (Yt ) oscila de forma suave entre dos regmenes:
Yt = 0 + i Yt i + ( 0 + t Yt i )F (Yt d ) + t

(2)

t N (0, e2 ), F (Yt d ) es una funcin no lineal de Yt d que toma valores entre 0 y 1,


es no decreciente y continua, se denomina funcin de transicin; los dos modelos ms
comunes suponen las siguientes funciones:
Modelo LSTAR: F (Yt d ) = {1 + exp[ (Yt d c )]} , > 0
1

]}

Modelo ESTAR: F (Yt d ) = 1 exp (Yt d c ) , > 0


2

(3)
(4)

Los cambios de la no-linealidad que introduce el rgimen por medio de la funcin

F (Yt d ) dependen de los parmetros y c . En particular, para un modelo LSTAR los


regmenes de transicin ocurren alrededor de Yt d = c donde el parmetro indica el
grado de no-linealidad, es decir, qu tan rpido ocurre la transicin entre los dos
regmenes extremos: el paso de cero a uno en F (Yt d ).

Este modelo ha sido tambin

utilizado con una variable exogena.5


Entre las desventajas se encuentra que sus intervalos de pronstico son difciles de
obtener con mtodos convencionales y los pronsticos puntuales a mediano y largo
plazo deben ser generados va simulacin estocstica. La ventaja que presentan frente a
los ARIMA y otras tcnicas paramtricas es que resultan pronosticar consistentemente
mejor que aquellos a mediano y largo plazo.

L de rezagos est definido por: Lk z t = L Lz t = z t k

El operador

Se puede encontrar en Jalil y Melo (2000).

2.3.

OTROS MODELOS

Existen varios trabajos en los cuales se involucran especificaciones de modelos no


lineales para la inflacin de Colombia, uno de los primeros trabajos explica el proceso
inflacionario como un modelo 'Switching' con dos o tres estados,6 pero resulta de difcil
implementacin y no til para pronstico, debido a que bajo cierta especificacin
necesaria se requiere 20 das continuos de ejecucin en computador.
Recientemente se han usado modelos de redes neuronales, los cuales son intensivos en
uso de recurso computacional, lo cual dificulta el proceso de evaluacin de sus
pronsticos, pero aun as no han dado muestra de mejorar otros modelos en el trabajo
de pronosticar7.

6
7

El modelo se encuentra en Melo y Misas (1998).


Se puede ver en Misas y otros (2002).

3. REGRESIN NO PARAMTRICA

Con el objeto de introducir conceptos, en este captulo se presenta la estimacin no


paramtrica de densidades condicionales, o dicho de otro modo funciones de regresin;
lo cual es bsico para entender las estimaciones no paramtricas en modelos de series
de tiempo. Con el nimo de ilustrar las ideas se presenta un ejemplo. La estimacin no
paramtrica de densidades no condicionales y resultados bsicos de estimacin kernel
son dejados como Anexo A.
Como lo escribe Hrdle (1990), la aproximacin no paramtrica a la estimacin de
curvas de regresin tiene cuatro propsitos principales. Primero, proveer un mtodo
verstil de explorar una relacin general entre dos variables. Segundo, generar una
prediccin de observaciones aun no hechas, sin referencia a un modelo paramtrico
fijo. Tercero, proporcionar una herramienta para encontrar observaciones espurias,
mediante el estudio de la influencia de puntos aislados. Cuarto, constituye un mtodo
flexible de sustitucin de observaciones faltantes o atpicas y permite interpolar entre
valores adyacentes de las variables exgenas.
Dentro del marco de regresin no paramtrica se pueden citar adems de los mtodos
basados en kernel o suavizamiento, los de estimacin basada en los k vecinos ms
cercanos (k-nearest neighbor), las estimaciones con series ortogonales, regresin
cuantlica y los suavizamientos de Splines. El presente trabajo se centra en los basados
en metodologa kernel, la cual se describe a continuacin.
3.1. ESTIMACIN DE REGRESIN POR EL MTODO KERNEL
Se considera las variables aleatorias bidimensionales, independientes e idnticamente
distribuidas ( X 1 , Y1 ), ( X n , Yn ). Suponiendo que existe una funcin r (.) la cual
modela la relacin entre la respuesta Yi y la co-variable X i , as: Yi = r ( X i ) + i , y

adems que E ( i | X i ) = 0 , se puede mostrar que la aproximacin optima a Yi , en el


sentido de menor error cuadrtico medio, esta dada por la esperanza condicional,
r ( x ) = E (Yi X i = x ),

xR

note que no se hace ningn supuesto sobre la linealidad de dicha relacin.


Si se definen las funciones:
f ( x ) = f ( x, y )dy
la densidad marginal de X, donde f ( x, y ) es la densidad conjunta, sea:

( x ) = yf ( x, y )dy
entonces, la esperanza condicional de Yi dado Xi=x es,
r (x ) =

Un

estimador

f n (x ) =

1
nhn

kernel
x Xi
hn

K
i =1

de

f ( x, y ) y
(x )
dy =
, xR.
f (x )
f (x )
f (x ) ,

basado

en

las

observaciones,

es:

, donde K (.) es una funcin simtrica alrededor de cero,

continua, acotada, no necesariamente positiva en todo su soporte e integrable, (detalles


en el Anexo A, ecuacin (A.4), haciendo d=1), anlogamente, un estimador de ( x ) es
(vase Paga y Ullah, 1999, pags. 83-84):

n (x ) =

1
nhn

x Xi
hn

K
i =1

Yi , x R .

El estimador kernel de r ( x ) , basado en n observaciones, est definido como:

rn ( x ) =

n (x )
f n (x )

x R,

rescribiendo esta funcin se obtiene:


n

rn (x) = Wni (x)Yi


i =1

donde8
x Xi

K
hn

Wni ( x ) =
n
x Xs

s =1
hn

As, el estimador de regresin kernel de E (Yi X i = x ) es:


x Xi
hn

Yi
i =1
,
rn ( x ) =
n
x Xi

i =1
hn
n

xR.

(5)

El cual puede verse como un promedio ponderado de los Y, donde el peso depende de
la distancia entre X i y x , la cual es cuantificada por la funcin K (.) ; en general el
procedimiento de ponderacin asigna el mayor peso a puntos cercanos a x , y menor o
ningn peso a puntos apartados de x . Este es precisamente el estimador de NadarayaWatson; vase Bosq (1998) para detalles adicionales.
Las ponderaciones kernel definen una vecindad de puntos alrededor de x . El
suavizador kernel puede ser entendido como un polinomio de ajuste local constante.
Extensiones naturales a esta idea son las regresiones polinmicas locales, esto es,
ajustar una regresin lineal local, un ajuste cuadrtico local, etctera. Propiedades
tericas deseables son obtenidas con esta estrategia. En la prctica, muchas veces
resulta suficiente con la regresin lineal local. Vase Fan y Gijbels (1996).

3.2. EJEMPLO DE REGRESION NO PARAMETRICA


Este ejemplo, mas que detallar el uso de la regresin no paramtrica, pretende ilustrar
lo crtico de la seleccin del ancho de banda. El ejemplo esta basado de Gyrfi et al
8

Se debe usar la convencin Wni ( x ) =0 si el denominador es cero.


10

(2002), en ese caso Yi = r ( xi ) + i , donde i ~ N(0, var( i )) , var( i ) = 0.2 0.1cos(2xi )


y
si 1 x < 0.5,

( x + 2) 2 / 2

si 0.5 x < 0,
x / 2 + 0.875

r ( x) =
2
5( x 0.2) + 1.075 si 0 x < 0.5

si 0.5 x < 1
x + 0.125

donde x es generado aleatoriamente como una variable normal estndar truncada al


intervalo [-1, 1], as, la funcin r ( x) es polinomial a trazos, con discontinuidades; note
adems la heterocedasticidad del termino de error. El Grfico 1 muestra la nube de
puntos de los n=400 datos simulados; de all, se nota que el ojo humano no es capaz de
ver con claridad cual puede ser la funcin de regresin.
Y

-1

-0.5

0.5

Grfico 1. Datos simulados.


El Grfico 2 muestra el modelo terico junto con la lnea de ajuste que se obtendra con
un modelo paramtrico lineal. Obviamente, la aproximacin lineal no es una muy
buena alternativa.
El Grfico 3 muestra dos ajustes obtenidos por el mtodo kernel. El primero, la lnea a
trazos, se obtiene con el kernel Gaussiano y usa h=0.01, lo cual produce sub-ajuste
(poco suavizamiento), en el sentido que el ajuste sigue muy de cerca los datos
originales. El segundo, la lnea continua, se obtiene con h=0.4, generando sobre-ajuste

11

-1

-0.5

0.5

Grfico 2. Datos simulados, lnea continua relacin simulada, lnea a trazos ajuste lineal
(suavizamiento excesivo). El Grfico 4 muestra, junto a la relacin terica el ajuste
kernel con seleccin de ancho de banda que seala el mtodo plug-in, en el que se
sugiere h = x n 1 / 5 , en este caso h=0.1527. Los expertos recomiendan, en cuanto sea

posible, recurrir a la inspeccin visual del ajuste obtenido para varios anchos de banda
y tener en cuenta que es menos daino excederse un poco en suavizamiento que en
sobre-ajuste.

-1

-0.5

0.5

Grfico 3. Dos estimaciones kernel, a trazos h=0.01, lnea continua h=0.4.

12

-1

-0.5

0.5

Grfico 4. Estimacin kernel, con h optimo, h=0.1527.

As queda en evidencia la importancia de una adecuada seleccin del ancho de banda.


Los problemas son mucho mas grave cuando la regresin es mltiple, esto es con
varios regresores. De la construccin del estimador se encuentra que la metodologa es
menos influenciable a valores extremos y situaciones atpicas que los modelos
paramtricos. Otras aplicaciones, extensiones y detalles se pueden encontrar ilustradas
en Hrdle (1990).
3.3. FUNCIONES KERNEL
A continuacin se mencionan las funciones

kernel ms usadas en aplicaciones

practicas. Con fines ilustrativos se presentan los kernel estndar, K (u ) , pero se debe
u
tener en cuenta que en la practica se utiliza K h (u ) = h 1 K ( ) .
h

Kernel Uniforme: Asigna peso de

1
por igual a todas las observaciones que estn a
h

distancia no mayor de h y cero a las dems.

13

K (u ) =

1
I [1,1] (u )
2

0.6
0.5
0.4
0.3
0.2
0.1
0
-1.1

-0.6

-0.1

0.4

0.9

Grfico 5. Kernel uniforme.

Kernel Triangular: Asigna pesos de

1
a observaciones coincidentes y el peso de las
h

otras decrece linealmente hasta un peso de cero a las que estn a h o mas lejos.
K (u ) = (1 u )I [1,1] (u )
1
0.8
0.6
0.4
0.2
0
-1

-0.8

-0.6

-0.4

-0.2

0.2

0.4

0.6

0.8

Grfico 6. Kernel triangular

Kernel Epanechnikov: Para las observaciones que estn a distancia de 0 a h asigna


pesos entre 0.75 y cero, con decrecimiento cuadrtico. Las que estn a una distancia de
h o mayor tienen peso cero.

K (u ) =

3
(
1 u 2 )I [1,1] (u )
4

14

0.8

0.6

0.4

0.2

0
-1

-0.8

-0.6

-0.4

-0.2

0.2

0.4

0.6

0.8

Grfico 7. Kernel Epanechnikov

Kernel Bicuadrado: Los pesos para observaciones cercanas son cuando mas de 0.93
con decrecimiento polinomial curtico hasta llegar a cero, cuando la distancia es de h
o mayor.
K (u ) =

15
(1 2u 2 + u 4 )I [1,1] (u )
16

1
0.8
0.6
0.4
0.2
0
-1

-0.8

-0.6

-0.4

-0.2

0.2

0.4

0.6

0.8

Grfico 8. Kernel bicuadrado

Kernel

Gaussiano: Asigna pesos de acuerdo a una densidad normal estndar.

Observaciones cuya distancia oscila entre cero y 1 reciben peso entre 0.4 y 0.2, las que
estn a distancia 3 reciben peso de 0.0039 y prcticamente cero el resto de
observaciones. Es un Kernel muy popular, con soporte no compacto y diferenciable en

15

todo su soporte o recorrido. En este caso el ancho de banda en K h (u ) desempea el


papel de desviacin estndar.
K (u ) =

1
1
exp u 2
2
2

0.5
0.4
0.3
0.2
0.1
0
-2

-1.5

-1

-0.5

0.5

1.5

Grfico 9. Kernel Gaussiano.

Kernel Tri-Cbico: el cual es similar al Epanechnikov pero ms plano en la cima; con


la ventaja terica de que es diferenciable en los lmites de su soporte ( | u |= 1 )
K (u ) =

70
(1 | u |3 ) 3 I [ 1,1] (u )
81

1.2
1.0
0.8
0.6
0.4
0.2
0.0
-0.2

-1

-0.5

0.5

Grfico 10. Kernel Tri-cbico.

16

Kernel Dirichlet: Los pesos son asignados segn ondas senosoidales de magnitud
decrecientes, con un lbulo principal o mayor alrededor de cero y lbulos laterales o
menores a los dos lados. Este kernel resulta de soporte no acotado. Tiene la
particularidad de no ser siempre positiva y es usada en anlisis espectral, vase
Prietsley (1984).
K (u ) =

-4

-3

-2

-1

sen[( M + 0.5)u ]
2sen(0.5u )

Grfico 11. Kernel Dirichlet, M=2

De las anteriores funciones kernel y de otras que existen en la literatura las mas usadas
son la funcin Tri-cbico, Epanechnikov y la Gaussiana soportado en sus propiedades
estadsticas y asintticas. Dado que la eleccin de la funcin kernel no afecta
marcadamente los resultados, como es aceptado ampliamente en la literatura, en este
trabajo se usa el Kernel Gaussiano, como se explica mas adelante. Vase Hastie et al
(2002).

17

4. IMPLEMENTACIN DEL MTODO NO PARAMRICO EN SERIES DE


TIEMPO

Cuando un estimador kernel es aplicado a datos dependientes como en el caso de series


de tiempo, el efecto por la dependencia9 entre las observaciones afecta solamente un
pequeo intervalo de tiempo y no a todos los datos. Este hecho reduce la dependencia
entre las estimaciones, por lo que muchas de las tcnicas desarrolladas para datos
independientes pueden ser usadas en el caso de series de tiempo. Sin embargo, dentro
de las hiptesis se encuentra el que las observaciones sean asintticamente
independientes, lo que ha sido estudiado ampliamente por varios autores para los casos
que se presentan en este captulo.
4.1. ESTACIONARIZACIN
El primer paso, de la implementacin de los mtodos no paramtricos es la
estacionarizacin de los datos, que se lleva a cabo estabilizando la varianza y
removiendo la tendencia, si es del caso; sin embargo, algunos autores afirman que si
los cambios en la media y/o la varianza para las series de tiempo no estacionarias son
leves, las tcnicas no paramtricas siguen siendo igualmente efectivas10.
4.2. NOTACIN Y SUPOSICIONES GENERALES
Sea

{Z t }

un proceso observado de serie de tiempo univariado estrictamente

estacionario11 con 1 t n. En la prctica el supuesto de variables independiente e


idnticamente distribuidas difcilmente se cumple, mientras que el supuesto de un
9

Acerca de la utilizacin de las tcnicas para datos dependientes o series de tiempo vase Heiler (1999).
Ver Bosq (1998, Pg. 88), donde se menciona el mtodo cynical que consiste en ignorar el
componente determinstico de la serie observada, siendo este componente el que podra inducir la no
estacionaridad.

10

11

Por definicin

Z t es estrictamente estacionario si (Z t , , Z t + n )

distribucin

(Z

t+g

, , Z t + n+ g ) para

todo entero t, g, n 1 . Donde esto indica que los dos vectores aleatorios tienen la misma funcin de
distribucin conjunta.

18

proceso asintticamente independiente o mixing12 y no necesariamente distribuido


idnticamente, es mas simple de mantener. Estos supuestos han sido verificados para
procesos Gaussianos

13

y para procesos ARMA no Gaussianos,14 sin embargo, esta

suposicin es muy difcil de verificar en al prctica en situaciones generales.


El tercer supuesto es que {Z t } sigue un proceso d -markoviano15 (suposicin H), donde
d es llamado el coeficiente de Markov.

Dado la realizacin z1 , z 2 ,

, z n se desea predecir la variable aleatoria no observada

Z n+ m , m 1 donde m es el horizonte de prediccin.


Para este propsito se construye el proceso asociado {X t , Yt }, donde
X t = (Z t ,

, Z t d +1 )

(6)

Yt = Z t + m , t {d , , n}

(7)

Considerando el estimador de regresin kernel rn , basado en los datos z1 , z 2 , z n ,


para E (Yn X n ) = E (Z n + m Z n , , Z n d +1 ) es
nm

rn ( x ) = E (Yn X n ) = Wt m ( x )Yt
t =d

donde

x Xt

K d
hn

m
Wt ( x) =
, x Rd .
nm
x Xt

K d

t =d
hn
12

Vase Anexo B.
Demostrado por Ibraginov y Rosanov (1978).
14
Estudiado por Pham y Tran (1985).
15
Por definicin para un proceso Z t de Markov se cumple: F (Z t | Z t s s 1) =
13

F (Z t | Z t 1 , , Z t d ) , con F la funcin de distribucin acumulativa de probabilidad.


19

(8)

Ntese que la fijacin del ancho de banda hn controla el tamao de la vecindad local y
debe ser un valor real positivo que debe tender a cero cuando n tiende a infinito. La
funcin de K d (.) es una funcin Kernel d-variada, con integral mltiple igual a uno y
ella controla la forma de los pesos. Finalmente, x = X n = (Z n ,, Z n d +1 ) , se llamar el
bloque de referencia con el cual se comparan los otros bloques. As, una secuencia de
observaciones o bloque, tendr mayor peso en el pronstico si es ms parecido en
trminos de distancia al bloque de referencia, que un bloque que no lo sea.
El grfico 12 ilustra esas ideas, cuando se tiene un proceso Markoviano de orden d=3.
Dependiendo de la amplitud de banda, hn , y si el soporte del kernel es acotado, las
secuencias en negrilla sern consideradas en la generacin del pronstico, las dems
no. Ahora, fijado un h, las secuencias pasadas que se han de considerar en el pronstico
son aquellas que caen completamente dentro de la banda a trazos que se muestra en el
Grfico 13, y los pesos son asignados acordemente con la funcin Kernel usada.
12.6
12.5
12.4
12.3
12.2
12.1
12
11.9
11.8
11.7

Grfico 12. Secuencias a considerar en el pronstico Kernel.

20

12.5
12.4
12.3
12.2
12.1

12
11.9

kernel

11.8
11.7
11.6
n-2

n-1

Grfico 13. Vecindades de sendas pasadas.

4.3. PREDICTORES NO PARAMTRICOS BASADOS EN KERNEL


La prediccin de las variables Z n+m o Yn , consiste en encontrar la variable aleatoria
mas cercana (con respecto a cierta norma), conociendo todo el pasado de la serie. Este
problema puede ser visto as. Suponga que existe una funcin r (.) que modela la
relacin entre la respuesta Y , y la co-variable X y que r (.) esta definida a travs de la
distribucin condicional16. Dada una funcin de prdida convexa l (.) con mnimo nico
en cero, se define r ( x ) como la que minimiza la media E (l (Y a) X = x ) , con respecto
a a , es decir:

r( x) = arg min E (l (Y a) / X = x)
a R

Entonces estimando no paramtricamente r (.) por rn (.) y calculando rn ( X n ) se genera


Yn . De esta forma se obtiene la prediccin Z n+ m . Tres alternativas han sido propuestas

xt = ( z1 , , z n ) de longitud n de un proceso estocstico y


se desea obtener la prediccin del valor z n + m con el criterio de minimizar el error cuadrtico medio
(ECM), el predictor z n + m que minimiza el ECM es la esperanza de la distribucin condicionada

16

Cuando se ha observado una realizacin

z n + m = E [z n + m xt ] como predictor ptimo.

21

en la literatura: media, mediana y moda condicional, dependiendo de la funcin de


prdida que se considere.
4.3.1. Media Condicional: Se puede ver que con l (u ) = u 2 se llega a la funcin de
media condicional

r( x) = E (Y X = x).

Entonces usando la suposicin

estimando r(.) se obtiene:


nm

rn ( x) = Wt m ( x)Yt .

(9)

t =d

Aqu el predictor no paramtrico m pasos adelante de la media es:


nm

m
Z nmed
+ m = Wt ( X n )Yt .

(10)

t =d

Sobre alguna condicin de regularidad17, se logra demostrar que:


c. s .
Z nmed
+ m Z n + m 0 .

4.3.2. Mediana Condicional: Ahora se asume que la distribucin condicional de Y


dado X es mas pesada en un extremo o asimtrica. Entonces es mejor usar la mediana
en vez de la media para predecir valores futuros puesto que la mediana es ampliamente
resistente en estos casos. En este caso la funcin de prdida es dada por l (u ) = u , y la
solucin

de

r( x )

lleva

la

funcin

mediana

condicional

r( x) = inf y : F ( y X = x) 1 . Entonces usando la suposicin H y estimando r(.) ,


2
se obtiene:

n m

rn ( x) = inf y : Wt m ( x) I {Yt y} 1
2
t =d

(11)

Aqu el estimador no paramtrico para m pasos adelante de la mediana esta dado por:

17

Collomb (1984).

22

nm m

inf
=
Z nmediana
y : Wt ( X n ) I {Yt y } 12
+m
t =d

(12)

bajo algunas condiciones de regularidad 18 se prueba que


.s .
Z nmediana
Z n+ m c
0.
+m

4.3.3. Moda Condicional: Algunos autores19 propusieron un mtodo para producir


predictores no paramtricos basados en la funcin moda ( x) = arg max y f (Y X = x),
esta funcin puede ser estimada como sigue. Suponga que se tiene una funcin de
prdida no convexa con mnimo nico l (u ) = 0 cuando u = 0 y l (u ) = 1 en otro caso.
Entonces

la solucin de

r( x)

conduce a la funcin moda condicional,

r( x) = arg max yR f ( y X = x) . Despus, usando la suposicin H y estimando r(.) , se

obtiene:
nm
y Yt
rn ( x) = arg max h 1 Wt m ( x) K
yR
t =d
hn

(13)

Consecuentemente el predictor no paramtrico m pasos adelante es:


nm
y Yt
m

Z nmoda
+ m = arg max Wt ( X n ) K
yR
t =d
hn

(14)

bajo algunas condiciones de regularidad se ha demostrado que:


c. s .
Z nmoda
+ m Z n + m 0

Todos los predictores dados, pueden ser interpretados con respecto a los pesos
Wt m ( X n ). Una observacin con peso grande juega un rol ms importante en la
elaboracin de los predictores. Los pesos estarn cerca de cero si el correspondiente
bloque X t contiene un outlier; se este, Z t ' (t {t ,

t d + 1}). As, la metodologa de

estimacin kernel es robusta a la presencia de valores atpicos.

18

Demostrado por Gannoun, 1990.

23

4.4. ELECCIN DE COEFICIENTES


4.4.1. Eleccin de la funcin Kernel K
La funcin kernel mas usada en el caso multivariado es el producto kernel:
K d ( x1 ,..., x d ) = j =1 K ( x j )
d

donde la funcin Kernel K (.) est definida en la recta real. Ser usado el kernel
gaussiano, definido como:
d

K d ( x1 , , x d ) = (2 ) d 2 exp( xi 2), xi R
2

(15)

i =1

Esta funcin corresponde a la idea de dar pesos grandes a X t cuando esta cercano a
X n , usando la norma

Xn Xt

= sup o<t , < k +1 Z n t ' Z t t '

20

. En este caso, de no

presencia de variables exgenas o explicativas, no se requiere estandarizar las variables


xi , vase Hastie et al (2001, p 174).

4.4.2. Eleccin del coeficiente de Markov d


Intuitivamente se podra escoger el d lo ms grande posible para no dejar de considerar
demasiada informacin del pasado; no obstante, la eleccin de d esta limitada por la
cantidad de datos disponible, debe ser evidente que cuando el valor del coeficiente de
Markov crece, la cantidad de datos disponibles para prediccin decrece.
Matzner-Lber et al, (1988) proponen un mtodo emprico para encontrar el d ptimo,
el mtodo es el siguiente:

19
20

Collomb, Hrdle y Hassani 1987, propusieron el mtodo de la moda condicional.


Vese Matzner-Lber et al, (1988).

24

Sea Z t (d , hn ) la prediccin en el tiempo t , dependiendo del coeficiente de Markov d


y del ancho de banda hn obtenido para uno de los tres mtodos (media, mediana, moda
condicional). Sea d mx un valor fijo, el cual es bastante grande para capturar cualquier
efecto estacional en los datos. Entonces, para d {1,

, d mx } se define:

f1 (d ) = p 1 Z t Z t (d , hnd )

(16)

2
f 2 (d ) = p 1 {Z t Z t (d , hnd )}

(17)

f 3 (d ) = sup Z t Z t (d , hnd )

Donde t = n p,

(18)

, n. El parmetro de suavizamiento hnd ser definido despus. El

valor de p se toma como p = [n 4], para series de tiempo con n < 100 y para series
con tamao igual o superior a cien se usa p = [n 5 ] , donde [] representa la parte entera
del argumento. Si las funciones f j (d ), j {1,2,3} no se incrementan despus de cierto
valor d , se escoge el valor de f j (d ) con el cual ocurre la estabilizacin.

En otro caso se escoge arg mind f j (d ), de esta forma se encuentran tres valores
d1 , d 2 , d 3 y se toma d = max j d j . Esta aproximacin es rpida pero puede ocasionar
problemas para series de tiempo que tienen pocas observaciones21.
4.4.3. Eleccin del ancho de banda hn
El ancho de banda determina el suavizamiento del pronstico. Un ancho de banda
pequeo prcticamente reproduce los datos, mientras que uno extremadamente grande
produce como estimacin una constante.
21

Ver Auestad y Tjstheim, (1990).

25

Si h crece, la varianza del estimador decrece mientras que el sesgo se incrementa y


viceversa. Usualmente el ancho de banda ptimo es seleccionado al balancear el trance
entre varianza y el cuadrado del sesgo, mediante la minimizacin de alguna medida
global de error.
Generalmente para la estimacin de la densidad se usa la siguiente eleccin de h 22
hnd : n n 1 ( d + 4)

(19)

donde n es el estimador de la desviacin estndar de la serie de tiempo

{Z t ; t = 1, n} . Esta eleccin garantiza una rata ptima de convergencia con respecto al


criterio del error cuadrado medio. Sin embargo, no es ptimo en todos los casos,
puesto que no se toman en cuenta las condiciones mixing. Otra eleccin usada es:
hn = c hnd , c (0,5]

(20)

Dos procedimientos son usados para encontrar c. El primero es el de validacin


cruzada y el segundo es mtodo emprico.
Validacin cruzada: Este procedimiento ha sido estudiado por muchos autores,23 su
objetivo es encontrar c que minimice alguna medida de error cuadrtico. Dentro de esta
categora existen dos posibilidades.
Un procedimiento se llama validacin cruzada local (VCL), encuentra un valor de h
para cada horizonte de pronstico y el otro es validacin cruzada global (VCG) donde
se encuentra un valor comn de h para todos los horizontes de prediccin. Las formas
de cmputo son las siguientes:
VCL (c , m ) = (n k c + 1)

(Z

nm
t=d

c = arg min VCL(c, m )


c[0 , 5 ]

22
23

Propuesto por Deheuvels (1977).


Estudiado por Gyrfi, L., Hrdle, W., Sarda, P. y View, P. (1989).

26

(c ) Z t + m )

t+m t

(21)

y
VCG (c ) = (n M k + 1)

nM

t =k

m =1

M 1 Z t + m t (c ) Z t + m

(22)

c = arg min VCG (c )


c[0 , 5 ]

donde Z t + m t (c ) denota la versin de dejar la t-sima observacin por fuera y M es el


horizonte mximo de prediccin.
Mtodo Emprico: Este procedimiento usa parte de los datos pasados para encontrar el
ancho de banda. El mtodo emprico local (MEL) y mtodo emprico global (MEG)
son los siguientes:
MEL (c , m ) = p

nm

Z t + m (c ) Z t + m

t = n p m +1

Z t+m

100

(23)

c = arg min MEL(c, m )


c[0 , 5 ]

MEG (c ) = p

nM

t = n p M +1

1
M

Z t + m (c ) Z t + m

m =1

Zt+m

100

(24)

c = arg min MEG (c )


c[0 , 5 ]

El primer mtodo mencionado encuentra un valor de c para cada horizonte de


prediccin y el segundo encuentra un valor de c para todo horizonte de prediccin.

4.5. COMPARACIN DE LOS MTODOS


Seiso medidas se usan para medir la capacidad de pronstico dentro de muestra, el
Error Medio, el Error Absoluto Medio (EAM), el Error Absoluto Porcentual Medio
(EAPM), la raz del error cuadrtico medio (RECM), la raz del error cuadrtico medio
porcentual (RECMP) y la estadstica U de Theil. Sus frmulas aparecen a continuacin:
pm

EM (m) = ( p m + 1) 1 (Z n p + r + m Z n p + r + m )
r =0

27

(25)

pm

EAM (m) = ( p m + 1) 1 Z n p + r + m Z n p + r + m

(26)

r =0

pm

Z n p + r + m Z n p + r + m

r =0

Z n p+ m+ r

EAPM (m) = ( p m + 1) 1

RECM (m) = ( p m + 1)

p m

*100
2

(
r =0

Z n p + r + m Z n p + r + m

Z n p + r + m Z n p + r + m

RECMP(m) = ( p m + 1)
* 100

Z n p+ r + m
r =0

pm

U Theil (m) =

r =0

n p + r +m

(29)

(Z

Z n p + r + m

pm
r =0

(28)

p m

(Z

(27)

n p + r +m

Z n p+r

(30)

Donde n es el tamao de la serie, p = [n/5] indica el nmero de observaciones que son


quitadas al final de la serie, para hacer comparaciones dentro de muestra, r = 1,...,p
indica el aumento de tamao de muestra.
Comparacin estadstica de los mtodos:
Bajo el enfoque de Diebold y Mariano (1995), DM en adelante, se parte de la hiptesis
nula de que el nuevo modelo no mejora al modelo existente o modelo referencia, contra
la alternativa que el modelo nuevo mejora al modelo referencia. Interesa por tanto
rechazarla hiptesis nula.
H 0 : DM i 0
H 1 : DM i < 0
Para i = 1, 2 , 3, usando
DM 1 = (O PN ) (O PE )
2

DM 2 = O PN O PE
DM 3 =

PN
PE

obs PN 1 obs PE 1

28

donde: O = Dato observado, PE = Pronstico modelo referencia, PN = Pronostico


modelo nuevo, Obs:= Nmero de observaciones usadas para pronosticar.
Bajo la hiptesis nula, tanto DM1, DM2 como DM3 se distribuyen cada una como una
normal estndar. As, lo deseable es obtener valores para estas estadsticas menores que
cero (0) con p-valores pequeos.

29

5. APLICACIN PRCTICA

5.1. DATOS USADOS


Para la seleccin de coeficientes, inicialmente, se tom la serie de inflacin colombiana
medida mensualmente a travs del IPC calculado por el Departamento Administrativo
Nacional de Estadstica, DANE, a partir de enero de 1980 hasta septiembre de 2002,
contienen un total de 273 datos. Fuente: Archivos del Banco de la Repblica Bogot
Colombia24. Computacionalmente se trabajan cifras en escala (0, 1).
Con el objeto de encontrar coeficientes ptimos y para comparar los pronsticos de este
modelo con los de los modelos paramtricos, se tomaron datos desde febrero de 1980
hasta marzo de 1998 ( n p + r datos, con p = [n 5] y r = 1, , n p ) es decir
iniciando con 219 observaciones; luego se aumenta el tamao de muestra hasta
septiembre de 2002.

5.2. ESTACIONARIZACIN
En el Grfico 14 se presenta la evolucin de la inflacin colombiana, se puede apreciar
que la serie no tiene media constante y aunque parece presentar cambio de varianza se
ha considerado que de existir y modelar los mismos25, esto no afecta significativamente
los pronsticos bajo los mtodos no paramtricos, al igual que no lo hace en los
mtodos paramtricos tipo GARCH.

Para estabilizar la media se realiz una

diferenciacin de orden uno, en el Grfico 15 se ve la inflacin diferenciada, mostrando


24

A pesar de ser deseable en la practica estadstica, especialmente la no paramtrica, utilizar la mayor


cantidad de informacin posible, en este trabajo se descartan cifras previas por presentar cambios muy
bruscos en niveles, adems de hacer comparable los resultados con otros modelos que usan la misma
informacin.
25
Esto se puede llevar a cabo, entre otras alternativas, en el espritu de Hardle y Yang (1996).

30

un comportamiento constante en la media. Se deja para futuro trabajo la deteccin y


modelje de los posibles cambios en varianza.
35

30
25
20
15
10
5
0
Ene-80

Ene-83

Ene-86

Ene-89

Ene-92

Ene-95

Ene-98

Ene-01

Ene-98

Ene-01

Grfico 14. Inflacin colombiana.

3
1
-1
-3
-5
-7
Ene-80

Ene-83

Ene-86

Ene-89

Ene-92

Ene-95

Grfico 15. Inflacin diferenciada.

5.3. PREDICTOR USADO


El predictor usado es el de la media condicional mencionado en la seccin 4.3.1,
ecuacin (10), este predictor fue usado porque la serie no presenta valores atpicos,

31

adems el uso de los diferentes predictores no paramtricos basados en kernel


mencionados en la seccin 4.3, genera resultados similares, segn conclusiones de
estudios realizados para series de tiempo con mas de 100 observaciones26.
Para obtener los pesos que se le da a cada uno de los vectores de orden d comparados
con el ltimo vector de los n-p+r elementos de la serie, se ha hecho uso de la funcin
kernel gaussiana multivariada no correlacionadas de la ecuacin (15),

siguiendo

conclusiones que aseguran que cualquier eleccin de la funcin continua usada,


presenta resultados similares.

5.4. ELECCIN DE COEFICIENTES


5.4.1. Eleccin inicial de coeficientes
Eleccin del coeficiente de Markov ptimo d: se hizo por medio de las 3 funciones
f j (d ) j=1,2,3 vistas en la seccin 4.4.2., con anchos de banda de acuerdo a cada d
dados por el h de la frmula (19). Las funciones tomaron valores d = 1,,20.
Tomndose 20 como el valor mximo para alcanzar a capturar la estacionalidad en los
datos, no se consideran valores mayores por la excesiva perdida en informacin.
Los grficos para estas tres funciones que se encuentran a continuacin:
4.74
4.72

f1(d)

4.70
4.68
4.66
4.64
4.62
0

10

15

20

Grfico 16. Funcin f 1 (d )


26

Se pueden consultar Matzner-Lber, Gannoun y De Gooijer (1998) y De Gooijer y Zerom (2000).

32

f2(d)

41.8
41.6
41.4
41.2
41.0
40.8
40.6
40.4
40.2
40.0
0

10

15

20

Grfico 17. Funcin f 2 (d )


16.4
16.2

f3(d)

16.0
15.8
15.6
15.4
15.2
15.0
0

10 d

15

20

Grfico 18. Funcin f 3 ( d )

Se puede ver que las funciones f1 (d ) y f 2 (d ) decrecen antes e incrementan a partir de


d = 6 y f 3 ( d ) hace lo mismo en d = 4 , como se tienen dos valores para d se tom el

mayor de ellos como el coeficiente ptimo de Markov, esto es d = 6.


Eleccin del ancho de banda ptimo hn : Se obtuvo por medio de la frmula mostrada
en la seccin 4.4.3 ecuacin (19), el valor encontrado para h con d = 6 es hn = 0.56.
Los anteriores valores de d y hn fueron usados para todos los horizontes de prediccin,

33

el resultado de pronsticos con dichos coeficientes no mejoraban los de un modelo


ARIMA, se omite su presentacin aqu.
5.4.2. Eleccin posterior de coeficientes
Pensando en mejorar estos resultados se hallaron coeficientes d m y hnm para cada
horizonte de prediccin, utilizando una medida modificada del MEL que se present en
la ecuacin (23).
Este procedimiento se llev a cabo obteniendo errores de pronstico para cada

m = 1,,12, tamaos de muestra n d ,, n y para valores de hn = 0.001, 0.1,1 y


de d = 1, ,20 . Para comparar la calidad de pronstico se us la siguiente medida:
MELM (hn , m, d ) = ( p m + 1)

pm

z
r =0

n p+r +m

(hn , m, d ) z n p + r + m

hnm = arg min MELM (hn , m, d )


h( 0 ,1]

Esta medida permiti hacer un resumen para todos los tamaos de muestra y encontrar
los d y hn en cada horizonte de prediccin para los cuales esta medida era mnima, los
resultados se encuentran en la siguiente tabla:
m
1
2
3
4
5
6
7
8
9
10
11
12

dm
12
11
10
9
8
14
6
15
4
13
2
2
Tabla 1. Resultados d m y hnm

hnm
0,007
0,007
0,007
0,007
0,006
0,009
0,006
0,009
0,004
0,008
0,005
0,005
ptimos

Llama la atencin el hecho de que para horizontes largos, lase 11 y 12 meses, el orden
del proceso Markoviano resulta extremadamente pequeo, esto puede estar siendo

34

causado por que para dicha cantidad de rezagos comienza a ser evidente el problema
de el curso de la dimensionalidad, dicho de otra forma se disponen de pocas
observaciones para estimar esas relaciones, haciendo que la porcin de puntos que caen
en los limites sea muy grande cuando d crece, vase, entre otros, Hastie et al (2002).

5.5. COMPARACIN DE LOS MTODOS


Para la eleccin de dm y hnm mostrada en la Tabla 1 se obtienen las medidas de bondad
de pronstico como se presenta en la Tabla 2, ordenadas estas por RECMP, los
resultados son alentadores. El perodo de evaluacin es de enero de 2000 a mayo de
2003. Detallando el Error Medio se encuentra que el mtodo no paramtrico, excepto
para cinco y seis meses, es el que consistentemente genera pronsticos con menores
sesgos (absolutos) que los otras dos metodologas. Segn el ordenamiento presentado,
el pronstico no paramtrico supera a los otros dos en 9 de las 12 ocasiones, pero si los
resultados se ordenaran por EAM, EAPM o U-Theil el NP supera a los ARIMA y No
Lineal en todos los horizontes, y el RECM favorece al no paramtrico en once de los
doce horizontes. Todo lo anterior muestra adems la importancia de la correcta
seleccin de los coeficientes d y h.
Los valores de las estadsticas DM i y sus p-valores, P _ DM i , se presentan en la Tabla
3, el modelo referencia es el de caminata aleatoria. En este caso, los resultados no son
tan favorables. No obstante que en general ninguno de los pronsticos muestra mejorar
estadsticamente a los de un pronstico ingenuo (caminata aleatoria), cuando de
pronosticar un mes adelante se trata el NP es el nico que al 10% de significacin
mejora al pronstico de ingenuidad. Adems, el NP es el que muestra menores valores
de probabilidad para todas las estadsticas. No se descarta el posible problema de
insuficiente tamao de muestra para validar el resultado terico de DM.

35

Queda abierta la discusin de si los pronsticos no paramtricos resultan o no menos


persistentes, esto es menos influenciables por la informacin mas reciente utilizada,
que los modelos ARIMA y STAR. Dados los resultados de la anterior comparacin, se
podra conjeturar que si, aunque es recomendable hacerle un seguimiento detallado en
tiempo real, antes de aseverar conclusiones al respecto.

36

MODELO
NP
ARIMA
STR

m
1
1
1

Obs.
41
41
41

EM
0.01
-0.16
0.02

EAM
0.22
0.27
0.34

EAPM
3.01
3.48
4.50

RECM
0.30
0.35
0.42

RECMP
4.20
4.51
5.52

U-THEIL
0.89
1.05
1.27

NP
ARIMA
STR

2
2
2

40
40
40

0.01
-0.38
0.03

0.38
0.54
0.57

5.23
7.00
7.59

0.50
0.69
0.70

7.44
9.08
9.41

0.87
1.20
1.22

NP
STR
ARIMA

3
3
3

39
39
39

0.00
0.05
-0.64

0.51
0.77
0.83

7.24
10.11
10.96

0.68
0.93
1.01

10.35
12.43
13.73

0.92
1.25
1.37

NP
STR
ARIMA

4
4
4

38
38
38

-0.04
0.04
-0.94

0.63
0.84
1.12

9.00
11.11
14.62

0.83
1.02
1.34

12.65
13.82
18.09

0.97
1.19
1.56

NP
STR
ARIMA

5
5
5

37
37
37

-0.09
0.06
-1.20

0.77
0.92
1.39

11.03
12.30
18.30

0.99
1.11
1.63

14.98
15.08
22.07

1.03
1.15
1.69

STR
NP
ARIMA

6
6
6

36
36
36

0.09
-0.12
-1.47

1.07
0.94
1.67

14.35
13.24
22.23

1.22
1.17
1.93

16.80
17.21
26.13

1.13
1.08
1.79

STR
NP
ARIMA

7
7
7

35
35
35

0.17
-0.11
-1.71

1.13
1.05
1.93

15.28
14.68
25.95

1.33
1.28
2.21

18.37
18.63
30.05

1.10
1.06
1.82

STR
NP
ARIMA

8
8
8

34
34
34

0.25
-0.15
-1.98

1.25
1.21
2.20

16.90
16.67
29.85

1.45
1.46
2.48

20.00
20.31
34.03

1.11
1.11
1.89

NP
STR
ARIMA

9
9
9

33
33
33

-0.19
0.33
-2.29

1.26
1.35
2.49

17.30
18.41
34.03

1.51
1.57
2.77

20.68
21.82
38.03

1.10
1.15
2.01

NP
STR
ARIMA

10
10
10

32
32
32

-0.23
0.40
-2.61

1.33
1.41
2.75

18.09
19.53
37.78

1.62
1.71
3.07

21.61
23.72
42.29

1.13
1.20
2.15

NP
STR
ARIMA

11
11
11

31
31
31

-0.29
0.48
-2.95

1.33
1.54
3.03

18.21
21.41
42.05

1.65
1.83
3.36

22.00
25.63
46.77

1.11
1.23
2.27

NP
STR
ARIMA

12
12
12

30
30
30

-0.33
0.57
-3.28

1.33
1.62
3.34

18.21
22.69
46.62

1.65
1.96
3.68

22.08
27.54
51.48

1.08
1.29
2.41

Tabla 2. Medidas de bondad de pronstico para eleccin posterior.

37

MODELO
NP
ARIMA
STR

m
1
1
1

DM1
-1.49
-0.42
1.68

P_DM1
0.07
0.34
0.95

DM2
-1.92
-0.35
1.85

P_DM2
0.03
0.36
0.97

DM3
-1.88
-0.35
1.83

P_DM3
0.03
0.36
0.97

NP
ARIMA
STR

2
2
2

-0.22
1.13
1.70

0.41
0.87
0.96

-0.38
1.28
1.83

0.35
0.90
0.97

-0.40
1.26
1.88

0.34
0.90
0.97

NP
STR
ARIMA

3
3
3

0.05
1.82
3.05

0.52
0.97
1.00

-0.49
1.89
3.10

0.31
0.97
1.00

-0.37
1.91
3.02

0.36
0.97
1.00

NP
STR
ARIMA

4
4
4

0.28
1.64
3.67

0.61
0.95
1.00

-0.23
1.46
3.66

0.41
0.93
1.00

-0.04
1.47
3.61

0.48
0.93
1.00

NP
STR
ARIMA

5
5
5

0.79
1.35
3.94

0.78
0.91
1.00

0.06
1.07
3.77

0.53
0.86
1.00

0.25
1.16
3.71

0.60
0.88
1.00

STR
NP
ARIMA

6
6
6

1.08
1.34
3.88

0.86
0.91
1.00

1.10
0.43
3.65

0.86
0.66
1.00

1.03
0.46
3.67

0.85
0.68
1.00

STR
NP
ARIMA

7
7
7

0.11
0.26
3.91

0.54
0.60
1.00

0.26
-0.33
3.51

0.60
0.37
1.00

0.08
-0.38
3.51

0.53
0.35
1.00

STR
NP
ARIMA

8
8
8

-0.31
0.35
4.14

0.38
0.64
1.00

-0.06
-0.01
3.44

0.48
0.50
1.00

-0.13
-0.24
3.55

0.45
0.40
1.00

NP
STR
ARIMA

9
9
9

0.49
-0.26
4.34

0.69
0.40
1.00

-0.04
0.00
3.93

0.49
0.50
1.00

-0.34
-0.22
4.10

0.37
0.41
1.00

NP
STR
ARIMA

10
10
10

0.24
0.18
4.35

0.59
0.57
1.00

-0.06
-0.06
3.88

0.48
0.48
1.00

-0.39
-0.18
4.12

0.35
0.43
1.00

NP
STR
ARIMA

11
11
11

-0.11
0.85
4.35

0.45
0.80
1.00

-0.52
0.38
3.98

0.30
0.65
1.00

-0.96
0.30
4.21

0.17
0.62
1.00

NP
STR
ARIMA

12
12
12

-0.85
0.20
-0.92
0.18
1.52
0.94
0.79
0.79
4.38
1.00
4.12
1.00
Tabla 3. Comparacin estadstica de los mtodos.

-1.29
0.66
4.29

0.10
0.75
1.00

38

5.6. PRONSTICOS USANDO INFORMACIN DE LA SERIE COMPLETA


Se realizaron pronsticos para los 12 meses siguientes al final de la muestra disponible
a la fecha, para ello se usan los mismos coeficientes y rezagos reportados en la seccin
5.4.2. Los resultados se pueden ver en la Tabla 4 y en el Grfico 19.

Mes
Jun-03
Jul-03
Ago-03
Sep-03
Oct-03
Nov-03
Dic-03
Ene-04
Feb-04
Mar-04
Abr-04
May-04

m
dm
hm
Pronstico
1
12
0.007
7.6
2
11
0.007
7.5
3
10
0.007
7.4
4
9
0.007
7.3
5
8
0.006
7.1
6
14
0.009
7.0
7
6
0.006
6.8
8
15
0.009
6.7
9
4
0.004
6.6
10
13
0.008
6.5
11
2
0.005
6.4
12
2
0.005
6.3
Tabla 4. Pronsticos usando la serie completa.

Se nota que los pronsticos presentan tendencia a decaer, y al parecer no son


influenciados por el comportamiento de la informacin mas reciente utilizada, en este
caso febrero a mayo de 2003.
%
8.0
7.5
7.0
6.5
6.0
5.5
5.0
Ene-02

Abr-02

Jul-02

Oct-02

Ene-03

Abr-03

Jul-03

Oct-03

Ene-04

Grfico 19. Pronsticos de la inflacin junio de 2003 a mayo de 2004.

39

Abr-04

6. CONCLUSIONES Y RECOMENDACIONES

En este trabajo se aplicaron tcnicas no paramtricas tipo kernel para generar y evaluar
pronsticos de la inflacin colombiana. Los resultados de la evaluacin de pronsticos
son alentadores, pues en general mejoran, en sentido estadstico y computacional, a los
de las metodologas actualmente aplicadas.
La eleccin del ancho de banda h y del coeficiente de Markov d juega un papel muy
importante en los pronsticos de series de tiempo, en particular para la inflacin
colombiana, usando mtodos no paramtricos basados en kernel; se encontr que la
eleccin final de los coeficientes para cada horizonte de prediccin permite mejorar
los pronsticos dados bajo los modelos paramtricos ARIMA y no lineal STAR.
En la literatura especializada se encuentran diversas ideas para encontrar intervalos de
pronsticos bajo estos mtodos no paramtricos, los cuales pueden aplicarse para tener,
adems del pronstico puntual, un rango de su confiabilidad. (Johnston (1982) usando
Bickel y Rosenblatt (1973), los Bootstraping son otra alternativa aunque intensiva en
computo)
Existen tambin en la literatura no paramtrica, reportes de los efectos adversos de las
condiciones de borde (boundary conditions) o agrupamiento en alguno(s) de los
limites internos de las bandas de suavizamiento, lo cual puede generar sesgos en las
estimaciones. El kernel especial de Gasser-Muller (1979) puede ser usado para
sobrellevar este problema; otra alternativa de solucin es usar regresin lineal local o
ms aun polinmica local, se puede consultar Fan y Gijbels (1996). Una opcin mas,
sera usar funciones kernel, aunque normales, no independientes.
No se desea terminar sin antes resaltar el hecho de que el tema de anlisis no
paramtrico de series en el Tiempo es un rea de extensa aplicacin no explotada aun
en nuestro pas; invitando as a otros investigadores y acadmicos a examinar en esta
prometedora rea.
40

BIBLIOGRAFA

AUESTAD, B. and TJSTHEIM, D. 1990. Identification of Nonlinear Time Series:


First Order Characterization and Order Determination. Biometrika, 77, 669-687.
BHAT, U., Narayan 1933. Elements of Applied Stochastic Processes. New York :John
Wiley & Sons.
BICKEL, P. J. and ROSENBLATY, M. 1973. On Some Global Measures of the
deviations of density function estimates Annals of Statistics, 1, 1071-1091.
BOSQ D. 1998. Nonparametric Statistics for Stochastic Processes. Springer Verlag:
New York.
CARBON, M. and DELECROIX, M. 1993. Nonparametric vs parametric forecasting
in time series: a computational point of view. Applied Stochastic Models and Data
Analysis, 9, 215-229.
COLLOMB, G. 1984. Proprits de convergence presque complte du prdicteur
noyau. Zeitschrift fr Wahrscheinlichkeitstheorie. 66, 441-460.
COLLOMB, G., Hrdle, W. And Hassani, S.

1987. A note on prediction via

estimation of the conditional mode function, Journal of Statistical Planning and


Inference, 15, 227-236.
DE GOOIJER, Jan and ZEROM, Dawit, 2000. Kernel-Based Multistep-ahead
Predictions of the US Short-term Interest Rate. Journal of Forecasting, Vol. 19, p 335353.

41

DEHEUVELS, P. 1977. Estimation non paramtrique de la densit par histogramme


gnralis. Revue de Statistique Applique, 35, 5-42.
DIEBOLD, F. X. and Mariano R.S. 1995. Comparing Predictive accuracy. Journal
of Business and Economic Statistics, 13, 253-263.
FAN, J. and GIJBELS, I. 1996. Local Polynomial Modeling and Its Applications.
Chapman and Hall, London.
GANNOUN, A. 1990. Estimation non paramtrique de la mdiane conditionnelle:
mdiano gramme et mthode du noyau. Publication de IInstitut de Statistique de
lUniversit de Paris, XXXXV, 11-22.
GANNOUN, A. 1991. Prdiction non paramtrique: mdianogramme et mthode du
noyau en estimation de la mdiane conditionnelle.

Statistique et Analyse des

Donnes. 16, 23-42.


GASSER, T. and MULLER, H. G. 1979. Kernel Estimation of Regression Functions,
In: Gasser and Rosenblatt (editors), Smoothing Techniques for Curve Estimation,
Springer-Verlag, Heidelberg, 23-68.
GYRFI, L., HRDLE, W., SARDA, P. and VIEW, P. 1989. Nonparametric Curve
Estimation from Time Series. New York: Springer-Verlang.
GYRFI, L., KOHLER, M., KRZYZAK, A. and WALK, H. 2002. A Distribution Free
Theory on Nonparametric Regression. New York: Springer-Verlang.
HRDLE, W. 1990. Applied Non-parametric Regression. Cambridge University
Press., New York.

42

HRDLE, W., LTKEPOHL H. and CHEN R. 1997. A Review of Nonparametric


Time Series Analysis. International Statistical Review. 65, 1,. 49-72.
HRDLE, W. and YANG, 1996. Nonparametric Time Series Model Selection.
Discussion paper, Humbold-Universitat zu Berlin.
HART, J.D. & WHERLY, T.E. (1986) Kernel Regression Estimation Using Repeated
Measurement Data. Journal of the American Statistical Association, 81, 1080-1088.
HASTIE, Trevor, Robert TIBSHIRANI, J. H. FRIEDMAN, Jerome FRIEDMAN
(2002) Elements of Statistical Learning: Data Mining, Inference, and Prediction.
Springer-Verlag, New York.
HEILER, Siegfried 1999. A Survey on Nonparametric Time Series Analysis. Working
Paper. Universitt Konstanz Fakultt fr Wirtschaften.
IBRAGIMOV, I. A. and ROZANOV Y. 1978. Gaussian Random Processes. Spring
Verlag, New York.
JALIL, M. y MELO V. 2000. Una relacin no lineal entre inflacin y los medios de
pago. Borradores de economa N 145 abril, Banco de la Repblica. Bogot.
www.banrep.gov.co/ documento/invest.html.
JOHNSTON, G. J. 1982. Probabilities of Maximal Deviations for Nonparametric
Regression Functions Estimates Journal of Multivariate Analysis, 12, 402-414.
KREISS J.P. Y FRANKE. 1992. Bootstrapping Stationary Autoregressive MovingAverage Models. Journal of Time Series Analysis, 13, 297-317.

43

LIU, R. Y. Y SINGH 1992. Moving blocks jackknife and bootstrap capture weak
dependence. Exploring the Limits of Bootstrap. R. Lepage & L. Billard (eds.). New
York: Wiley, 225-248.
MATZNER-LBER, E., GANNOUN, A. y DE GOOIJER, J. G. 1998. Nonparametric
forecasting: a comparison of three kernel-based methods. Communications in
Statistics: Theory and Methods, 27, 1593-1617.
MELO V., L. F. y MISAS A., M. A., 1998. Anlisis del comportamiento de la inflacin
trimestral en Colombia bajo cambios de rgimen: una evidencia a travs del modelo
Switching de Hamilton. Borradores de economa, 086, febrero. Bogot.
MISAS, M., LOPEZ, E. y QUERUBN, P. 2002. La inflacin en Colombia: Una
aproximacin desde las redes neuronales. Borradores de economa Banco de la
Repblica. Bogot. #199, febrero.
NUEZ M., J. y JIMENEZ C., J. 1998. Correcciones a los ingresos de las Encuestas
de Hogares y Distribucin del Ingreso Urbano. En: SANCHEZ, F. (compilador) La
Distribucin del Ingreso en Colombia, DNP, Tercer Mundo Editores. Bogot.
PAGAN, a. and ULLAH, A. 1999.

Nonparametric

Econometrics.

Cambridge

University Press. Cambridge, UK.


PHAM, T.D. and TRAN 1985.

Some Strong Mixing Properties of Time Series

models. Stochastic Processes and their applications, 19, 297-303.


PRIESTLEY, M.B. 1984. Spectral analysis and time series. : Academic Press, London.
ZARATE S., H. M. 2003. Cambios en la Estructura Salarial: Una Historia desde la
Regresin Cuantlica. Borradores de Economa, No 245, Banco de la Repblica,
Bogot.

44

ANEXO A

La estimacin no paramtrica de densidades puede ser til en el anlisis exploratorio de


datos, pero puede ser tambin usada para problemas ms estndar en pruebas de
hiptesis e inferencia estadstica.
A.1. ESTIMADOR DE DENSIDADES USANDO HISTOGRAMAS.
Cuando el objetivo de estudio es construir un modelo de distribucin de probabilidad
para un conjunto de datos,

no se necesita hacer suposiciones sobre la posible

distribucin de la cual provienen los datos, sino que se puede estimar directamente la
funcin de densidad a partir de los datos siempre y cuando se tenga una muestra
grande.
A continuacin se muestra la construccin

del estimador no paramtrico para

funciones de densidad de variables aleatorias, que ha sido base de muchos predictores


no paramtricos.
El estimador natural es el histograma con n datos e intervalos de amplitud h. La
estimacin del histograma de la funcin de densidad en el punto x es:
1 n( 0 )
f ( x) =
h n

(A.1)

h
h
donde n( 0 ) es el nmero de datos en el intervalo [ x , x + ) , donde x es una marca
2
2
de clase, h es la amplitud de intervalo y n el tamao total de la muestra.
Esta estimacin es fcil de calcular pero tiene la desventaja de ser constante dentro del
intervalo y las estimaciones son muy dependientes del origen y de la amplitud del
intervalo, pues considera nicamente los datos dentro de cada uno ignorando los datos

45

adyacentes por prximos que estn; para resolver este ltimo problema se da cierto
peso a los datos de intervalos contiguos al que se est estimando.

Tomando como n(0 ) el nmero de datos en el intervalo x

h
, n(h ) y n( h ) al nmero
2

h
h
de datos en los intervalos adyacentes ( x + h ) y ( x h ) , respectivamente; se
2
2
construye un estimador que asigna cierto peso a los datos que estn en estos intervalos
y para los intervalos adyacentes el peso es el mismo, por simetra, obtenindose

1
f ( x) =
0 n(0 ) + 1 {n(h ) + n(h ) }
hn
h
h
para x [ x , x + ) , donde 0 , 1 > 0 y 0 + 2 1 = 1 .
2
2

Esta idea puede generalizarse incluyendo el resto de los intervalos con peso decreciente
para obtener:
m
1

f ( x) =
a
n
+
i [n(hi ) + n(hi ) ]

0 (0)

hn
i =1

(A.2)

donde 0 + 2 i = 1. Para valores de i tales que los intervalos formados contengan


elementos de la muestra.
El anterior estimador puede aplicarse si se divide el rango o soporte de valores de la
variable x en k puntos x1 , x k , para k tan grande como se quiera; se elige un valor de
h y aplicando la ecuacin (A.2) a cada punto. La estimacin de f ( x i ) equivale a

construir un histograma con centros de clase:


xi mh; xi (m 1)h,, xi h, xi , xi + h,..., xi + (m 1)h, xi + mh
y estimar la densidad en el punto xi aplicando la ponderacin simtrica (A.2). Para
calcular f ( x i +1 ) se toma x i +1 como nuevo punto central y aplicando de nuevo (A.2).

46

Este proceso equivale a calcular la frecuencia absoluta en cada punto dando ciertos
coeficientes de ponderacin a cada uno de los datos, la cual depende de la distancia a
dicho punto.

A.2. ESTIMACIN DE DENSIDAD POR EL MTODO KERNEL


El estimador encontrado anteriormente es llamado el estimador de densidad kernel,
formalmente se supone que los datos x1 x n vienen de una secuencia de variables
reales aleatorias independientes con una densidad comn

perteneciente a alguna

familia .
Si es grande (por ejemplo si contiene las densidades continas) se sabe que el
estimador insesgado de f puede no existir y que el supremo de la funcin mximo
verosmil es infinito.27
Entonces un estimador de densidad primario es el del histograma mencionado en el la
seccin anterior, definido formalmente como:

fn ( x ) =

v nj
n(a n , j a n , j 1 )

, x I nj , j

donde I nj = a n , j 1 , a n , j ) y (a nj , j ) es una secuencia estrictamente creciente tal que


n

a jn cuando, j y donde v nj = 1[an , j 1 ,an , j ) ( X i )


i =1

Si f es continua en el intervalo I nj y si a n, j a n, j 1 es pequeo, entonces fn ( x ) est


cercano a f ( x ) para cada x que pertenece a I nj .

27

Se puede leer en Bosq (1998, pg 3).

47

Dado que este estimador no utiliza la informacin de toda la muestra, solamente los
datos contenidos en el intervalo I nj , se construye el estimador histograma adaptable
definido como:
f n* ( x ) =

v n (x )
, xR
nhn

vn ( x ) = I

donde

i =1

hn
hn
x ,x+
2
2

(X i )

As f n* ( x ) se puede escribir en trminos de una funcin continua, simtrica y acotada


K (.) que da pesos a los datos en el intervalo dependiendo de la distancia al punto x :
f n* ( x ) =

1
nhn

x Xi
hn

K
i =1

, x R

(A.3)

Considerando el caso en que las observaciones sean la realizacin de un proceso


estocstico {X t }, por la extensin del teorema de Kolmogorov la distribucin v de un
proceso estocstico esta completamente especificada por las distribuciones finito
dimensionales28. El problema de estimacin de v se reduce a las estimaciones de las
densidades finito dimensionales asociadas.
As si ( X t , t Z ) es un proceso estocstico de dimensin R d con funcin de densidad
comn f , el estimador de densidad Kernel d-dimensional se puede escribir como:

f n (x ) =

1
nhnd

x Xt
K d

t =1
hn
n

1
= d
nhn

K
t =1

x1 X 1t
x X dt

,, d
hn
hn

, x R d

(A.4)
donde K d (.) es una funcin kernel d-variada.

28

Se puede remitir a Bhat (1933).

48

ANEXO B
CONDICIONES MIXING

Las condiciones mixing son herramientas matemticas planteadas para dar


propiedades asintticas a los estimadores basadas en kernel para datos dependientes.
Bsicamente estas prueban el control de la dependencia entre Xt y Xs cuando la
distancia en el tiempo t - s se incrementa. Generalmente estas condiciones son difciles
de chequear, sin embargo si el proceso es una cadena de Markov estacionaria, entonces
la ergodicidad geomtrica implica regularidad absoluta, lo cual implica las condiciones
strong mixing.29
Condicin strong mixing o -mixing:
Para A un elemento de la lgebra k generada por

[{X s }, s t ] y

B un elemento

de la lgebra k + s generada por [{X s }, s t + k ]


Se dice que una secuencia es -mixing s:
sup P( A B ) P( A)P(B ) k ,

k , k + s

Donde k 0 cuando k
Condicion uniformly mixing o -mixing
Se dice que una secuencia es -mixing si:
P( A B) P( A) P( B) k P( A)
Donde k 0 cuando k .

29

Afirmacin hecha por Hrdle W., Ltkepohl H. y Chen R. en su artculo A Review of Nonparametric
Time Series Analysis. Pg 53, 54.

49

You might also like