Professional Documents
Culture Documents
Introduccin.
Definicin.
Ejemplos de series de tiempo.
Objetivos.
Componentes de una serie de tiempo.
1.5.1 Tendencia.
1.5.2 Ciclo.
1.5.3 Variacin estacional.
1.5.4 Fluctuaciones irregulares.
Grfica de tiempo.
Suavizamiento (promedios mviles y suavizamiento exponencial).
Diferenciacin.
Prediccin con promedios mviles y suavizamiento exponencial.
Funcin de autocovarianza y autocorrelacin.
Correlograma.
Variograma.
b) variable ordinal. Es aquella cuyos valores poseen un orden. Por ejemplo el grado de
satisfaccin puede asumir los siguientes valores: muy satisfecho, satisfecho, insatisfecho. O
bien.
Una variable cuantitativa es aqulla cuyos valores representan cantidades numricas de
alguna caracterstica de inters de la poblacin. Ejemplos de este tipo de variables son el
peso, la altura, salario mensual, tipo de cambio, etc. Para este tipo de variables si es posible
realizar operaciones aritmticas, por lo que el promedio si se puede calcular e interpretar.
Este tipo de variables pueden clasificarse como discretas o continuas.
a) Variable discreta. Es aquella que puede asumir un nmero contable de valores. Para una
variable medida en esta escala, entre dos valores consecutivos cualesquiera no existe otro
valor posible de la variable bajo estudio. Generalmente los conteos son variables discretas,
como el nmero de glbulos blancos en una gota de sangre, o el nmero de personas
inscritos al curso de estadstica.
b) Variable continua. Es aquella puede asumir una cantidad no contable de valores en su
rango de medicin. Entre cualesquiera dos valores consecutivos puede existir un valor que
es posible en la prctica.
Parmetro. Un parmetro es alguna cantidad de inters que se refiere a todos los elementos
de la poblacin. Por ejemplo, el salario promedio de los profesores de preparatoria, el
nmero total de veces que la lluvia sobrepasa un umbral, la proporcin de personas que
estn a favor de cierto partido poltico, el nmero total de usuarios de la internet en Mrida,
el tiempo promedio de interrupcin del servicio de luz por usuario, por citar algunos
ejemplos. En cada uno de los ejemplos anteriores se desea conocer una medida que resume
la variable de inters. La medida que resume todos los datos de una poblacin completa
recibe el nombre de parmetro.
Estadstico. Por su parte, el valor numrico que resume los datos de una muestra recibe el
nombre de estadstico. Por ejemplo si se toma una muestra de algunos individuos que
recibieron la dieta y se obtiene el peso promedio de este subconjunto, el valor promedio es
uno de los estadsticos de resumen de la muestra.
x
i 1
x1 x2 ... xn
.
n
Mediana
Consideremos nuevamente una coleccin de n datos, es decir, x1 , x2 , xn . Suponga adems
que esos datos se encuentran ordenados de menor a mayor. Si n es impar, la mediana se
define como el valor central de esa lista. Si por el contrario n es par, la mediana se define
como el promedio de los dos datos centrales.
Moda
La moda de un conjunto de datos se define como el dato que tiene la mxima frecuencia.
En un conjunto de datos puede existir ms de una moda, y ms an, la moda puede no
existir.
Medidas de tendencia no central
Estas medidas se utilizan para describir la posicin que tiene el valor de una
observacin en relacin con el resto de observaciones de la muestra. Las medidas de
posicin no central que se utilizan con mayor frecuencia son los denominado cuartiles y
percentiles.
Cuartiles: Los cuartiles son tres valores que dividen a los elementos de la muestra en
conjuntos que poseen el 25% del total de los datos. Para obtenerlos se consideran todos los
datos de la muestra ordenados en orden creciente. Seguidamente se procede a encontrar la
mediana, que corresponde al segundo cuartil. Una vez que se ha calculado la mediana, el
primer cuartil ser la mediana de los datos menores que la mediana. De la misma manera,
el tercer cuartil ser la mediana de los datos que son mayores que la mediana.
As, el primer cuartil, denotado generalmente con Q1, cumple que el 25% de las
observaciones es menor que Q1. El segundo cuartil, denotado por Q2, es el valor que
cumple que el 50% de las observaciones es menor que Q2. As, el segundo cuartil coincide
con el valor de la mediana. El tercer cuartil, denotado por Q3, es el valor que cumple que el
75% de las observaciones es menor que Q3. En el siguiente diagrama se ilustran los
cuartiles.
25%
Mnimo
25%
Q1
25%
Q2
Mediana
25%
Q3
Mximo
Diagrama de Caja y Bigotes: Una vez que se han definido las medidas anteriores es
posible presentar una grfica que es muy utilizada en la prctica, que es el denominado
Diagrama de Caja y Bigotes, el cual presenta de manera grfica cinco elementos
importantes de una muestra, que son: el valor mnimo, los tres cuartiles y el valor mximo.
Un ejemplo de este tipo de grfica se presenta en seguida:
Con respecto al eje Y, donde se observan los valores de la variable tasa de inters, la
caja representa la mitad central de los datos, que se encuentran entre el primer y el tercer
cuartil. Por su parte, los extremos de los bigotes representan los valores mnimo y mximo
de los datos. El primer segmento (con respecto a su posicin en el eje Y) representa la
primera cuarta parte de los datos, es decir, los datos ms pequeos de la muestra. El
segundo segmento representa los datos ms grandes de la muestra. La lnea horizontal
representa la mediana de los datos, en tanto que el signo + indica la media. De la grfica
anterior se tiene que el primer cuartil es 4.0, la mediana 4.85, el tercer cuartil 5.15, el
mnimo es 3.0 y el mximo es 7.0. Adems la lnea que se encuentra en la caja representa la
mediana (que en el ejemplo es 4.8) y el punto rojo representa la media de los datos (que en
el ejemplo es 4.7).
Medidas de Dispersin
Considere los siguientes conjuntos de datos:
Datos A: 10, 8, 12, 10, 10.
Datos B: 10, 10, 25, 2, 3.
Al calcular las medidas de tendencia central resulta que todas son iguales a 10. Sin
embargo, al observar los datos es claro que stos conforman dos conjuntos cualitativamente
diferentes. Este ejemplo ilustra que el uso de las medidas de tendencia central no es
suficiente para describir el comportamiento de los datos. Al observar los datos es claro que
la diferencia entre ellos es la dispersin de los mismos. Las medidas de dispersin, tambin
conocidas como medidas de variabilidad, se utilizan precisamente para medir la dispersin
de los datos.
Para medir la dispersin de los datos existen varias cantidades: el rango (o
amplitud), la desviacin media, la varianza y la desviacin estndar.
Rango o amplitud: Esta medida se define como la diferencia que hay entre el valor
mximo y el valor mnimo de los datos. Es una medida fcil de calcular.
Desviacin media: Considere el conjunto de datos x1 , x2 , xn . Suponga que se calcula la
media, X , y que se considera la diferencia que existe entre cada dato y la media, es decir,
xi X . Es un hecho que si se considera la suma de esas cantidades, el resultado es igual a
cero. As, la suma de estas diferencias no es una buena medida de la dispersin de los datos.
En lugar de considerar solamente la diferencia, se considera el valor absoluto de cada
diferencia y se promedian los resultados. La Desviacin Media se define como sigue:
n
D.M .
x X
i 1
S2
(x X )
i 1
n 1
(x
i 1
X )2
n 1
Para poblaciones que siguen una distribucin normal se satisface la siguiente regla
emprica:
a) El intervalo [ X S , X S ] contiene aproximadamente el 68% de las observaciones.
b) El intervalo [ X 2S , X 2S ] contiene aproximadamente el 95% de las observaciones.
c) El intervalo [ X 3S , X 3S ] contiene aproximadamente el 99% de las observaciones.
Por ejemplo, si se sabe que la edad promedio de los nios de primer ao de primaria es
X 6.2 y la desviacin estndar es de 0.22, entonces se tendr que el 68% de los nios en
primero de primaria tienen edad entre 5.98 y 6.42 aos.
Ejercicio: usando la media y desviacin estndar anteriores, cules son los
intervalos de confianza del 95 y 99% respectivamente, suponiendo que se tiene
distribucin normal?
Esta regla emprica proporciona intervalos de confianza empricos. Una
interpretacin que poseen dichos intervalos es la siguiente: si se obtuvieran muchas
muestras de tamao n y se calcula el intervalo sealado para cada muestra, por ejemplo, el
del incisos a), el 68% de los intervalos calculados contendran a la media verdadera de la
poblacin. Se obtiene una interpretacin anloga para los intervalos del inciso b) y c),
usando el 95% y 99% de confianza, respectivamente.
Correlacin. Todas las medidas antes descritas se utilizan para una sola variable. En
muchos estudios se desea medir el grado de asociacin que poseen dos variables. Cuando
las dos variables se encuentran medidas en una escala numrica, la medida de asociacin
ms conocida es la correlacin. Esta medida permite responder a preguntas como las
siguientes: Se puede afirmar que las dos variables tienden a incrementarse conjuntamente?
O bien, Se puede afirmar que las dos variables tienden a interactuar de manera inversa? Si
se responde afirmativamente a la primera pregunta, se estar ante la presencia de una
relacin directa o positiva. Por otro lado, si se responde de manera positiva a la segunda
pregunta, se estar ante la presencia de una relacin inversa o negativa.
En otras palabras, cuando el aumento de una de las variables tiende a ocurrir con el
aumento de la segunda variables, se dice que dichas variables se encuentran relacionadas
positivamente. Por el contrario, si el aumento de una de las variables tiende a ocurrir con la
disminucin de la segunda variable, se dice que dichas variables se encuentran relacionadas
negativamente.
La medida de asociacin ms usada en la prctica es la denominada correlacin.
Esta medida permite responder a la siguiente pregunta: Qu tanta relacin lineal existe
entre las dos variables consideradas? Para estimar la correlacin se utiliza el denominado
coeficiente de correlacin y para responderla se vale de una medida llamada coeficiente de
correlacin. Suponga que se tiene dos conjuntos de datos denotados por x1 , x2 , xn y
y1 , y2 , yn .
( x X )( y
i 1
( xi X ) 2
i 1
Y)
(y
i 1
Y ) 2
100
90
80
70
60
50
150
160
170
180
r=0,4
40
190
30
140
200
100
100
90
90
80
80
70
70
60
60
150
160
170
180
190
200
50
50
40
30
140
r=0,8
150
160
170
180
r=0,9
40
190
30
140
200
r=1
150
160
170
180
190
200
90
80
80
70
60
50
40
30
20
10
60
70
50
40
30
20
r=-0,5
140
150
160
170
180
190
200
0
140
80
80
70
70
60
60
50
50
40
40
30
30
0
140
150
160
170
180
190
200
160
170
180
190
200
20
20
10
r=-0,7
10
r=-0,95
150
10
160
170
180
190
200
r=-0,999
0
140
150
Figura C: Ejemplo en el que dos variables poseen correlacin igual a cero, pero si se
encuentran relacionadas.
Al interpretar el coeficiente de correlacin debe tenerse en mente que aunque este
coeficiente mide la fuerza de la relacin lineal entre variables, este no proporciona
informacin alguna acerca de la relacin causal entre las variables. Por ejemplo, si se
encuentra que la correlacin entre la altura de los padres y de los hijos es de 0.83, puede
interpretarse que la altura es hereditaria? O si por ejemplo resulta que el coeficiente de
correlacin entre las capacidades matemticas las habilidades verbales es de 0.1, puede
interpretarse que las personas con habilidades matemticas no poseen habilidades verbales?
En la gran mayora de las ocasiones no es fcil explicar una relacin observada entre
dos variables. Es un hecho que obtener una correlacin alta (cercana a 1 a -1) no implica
que dicha relacin es de tipo causa-efecto. Considere el siguiente ejemplo:
Un estudio demostr que existe una relacin negativa entre el salario inicial de las
personas con grado en Economa y el nivel del grado. Ms precisamente, se observ que
personas con maestra ganaban en promedio menos que aquellos con licenciatura, y los que
tienen doctorado, en promedio ganan menos que los que tienen grado de maestra. Sin
embargo, se observ tambin que existe una correlacin positiva entre el salario inicial y el
nivel acadmico alcanzado por los economistas que se incorporaron a la fuerza laboral de la
industria privada. Tambin se encontr una correlacin positiva cuando se consideran a los
economistas que trabajan para el gobierno. Y si slo se est hablando de economistas que
trabajan en el rea acadmica, tambin hay una correlacin positiva entre salario y grado
acadmico. As que, en cualquier clase de trabajo, los poseedores de altos grados
acadmicos fueron tambin los mejor pagados. La correlacin inicialmente presentada se
debe a que los salarios de profesores fueron mucho menores que los de la industria y el
gobierno. Pocos trabajadores con nivel licenciatura escogieron trabajar en enseanza, pero
muchos con maestra y doctorado eligieron el trabajo acadmico. As que, en promedio,
grados avanzados estuvieron por abajo en los salarios, an cuando en cada tipo de empleo
les pagan mejor que a los otros; en realidad lo que aqu se est observando es el efecto de
otra variable (tipo de empleo) sobre los salarios. La relacin negativa entre salario y nivel
acadmico no significa que mayor educacin reduce el salario; sino ms bien que est
afectando una tercera variable (tipo de empleo) sobre los salarios. Esta tercera variable fue
confundida con el grado acadmico obtenido.
Considere ahora el siguiente conjunto de datos:
X
295
339
343
344
357
359
368
395
414
406
385
394
404
420
446
Y
73
78
85
91
100
109
119
125
129
135
142
139
140
147
156
Una regla prctica es que para poder construir una grfica en el tiempo que pueda
servir para detectar patrones, se deben considerar un mnimo de 24 observaciones. Con este
nmero de observaciones es posible con ms certidumbre detectar algn patrn de
comportamiento de la serie, identificar valores que pueden ser atpicos y tambin identificar
posibles lugares de discontinuidad de la serie. Otros ejemplos de series de tiempo son las
siguientes:
1. En Economa: Precios de un articulo, tasas de desempleo, tasa de inflacin, ndice de
precios, precio del dlar, precio del cobre, precios de acciones, ingreso nacional bruto, etc.
2. En Meteorologa: Cantidad de agua cada, temperatura mxima diaria, Velocidad del
viento (energa elica), energa solar, etc.
3. En Geofsica: Series sismolgicas.
4. En Qumica: Viscosidad de un proceso, temperatura de un proceso.
5. En Demografa: Tasas de natalidad, tasas de mortalidad.
6. En Medicina: Electrocardiograma, electroencefalograma.
7. En Marketing: Series de demanda, gastos, utilidades, ventas, ofertas.
8. En Telecomunicaciones: Anlisis de seales.
9. En Transporte: Series de trfico.
1.4 OBJETIVOS
Al analizar una serie de tiempo se hace con el objetivo de a) describir y modelar las
observaciones observadas y b) pronosticar el valor de la variable de inters en el siguiente
tiempo. Existen diversos mtodos para pronosticar una serie de tiempo, algunos de los
cuales se estudian en el presente curso.
Es importante comentar que cuando se dice que una serie de tiempo presenta una
tendencia, sta puede ser lineal o no lineal. Por ejemplo, en Figura 3 se observa una
tendencia lineal, en tanto que en la Figura 1, la tendencia parece ser del tipo no lineal.
Figura 3: Ejemplo de serie de tiempo con tendencia lineal
que influyeron en esos datos. Por ejemplo, en un estudio de total de ventas (en miles
de pesos) se obtuvo la grfica de la Figura 6, en la que se sealan con un crculo
rojo dos posibles outliers.
Figura 6: Ejemplo de serie de tiempo con outliers.
d) Variaciones aleatorias: Los movimientos irregulares (al azar) representan todos los tipos
de movimientos de una serie de tiempo que no sea tendencia, variaciones estacionales y
fluctuaciones cclicas.
2.2.- SUAVIZAMIENTO
Al graficar una serie de tiempo no siempre resulta evidente la presencia de ciclos o
de una tendencia. En general esto se debe a la presencia de las variaciones aleatorias. Una
manera de resaltar los componentes de la serie es a travs de realizar el proceso que se
conoce como suavizamiento de la serie. La idea de este procedimiento es definir, a partir de
la serie observada, una nueva serie que filtra o suaviza los efectos ajenos a la tendencia
(estacionalidad, efectos aleatorios), de manera que podamos visualizar la tendencia.
Para suavizar una serie de tiempo existen dos mtodos generalmente utilizados: el
de promedios mviles y el de suavizamiento exponencial. En seguida se definen cada uno
de ellos.
Mtodo de Promedio Mvil.
Este mtodo de suavizamiento es uno de los ms usados para describir la tendencia.
Para proceder se considera un nmero fijo k, generalmente impar, y calcular los promedios
de todos los grupos de k trminos consecutivos de la serie. Con este proceso se obtiene la
denominada serie suavizada por promedios mviles de orden k. De este modo se tienden a
anular las variaciones aleatorias.
Si y1 , y2 , yT , donde T es el nmero de observaciones de la serie, representa los
elementos de la serie de tiempo, el promedio mvil de orden 3 para el tiempo t se define
como sigue:
y yt yt 1
y t PM (3) t 1
.
3
En forma de tabla quedara como sigue:
Serie Original
y1
y2
y3
y4
y5
y6
y7
y1 y 2 y3
y 2
3
y 2 y3 y 4
y 3
3
y3 y 4 y5
y 4
3
y 4 y5 y 6
y 5
3
y5 y 6 y 7
y 6
3
En la figura (a) se observa la serie original. De las grficas (b), (c) y (d) es evidente
que mientras mayor sea el orden de suavizamiento, la serie suavizada posee un
comportamiento ms suave. Por otra parte, tambin es evidente que con un orden apropiado
de suavizamiento es posible resaltar comportamientos de la serie que no se aprecian de la
original. Por ejemplo, en las grficas (b) y (c) se observa que en el tiempo 20 ocurri algn
fenmeno que origin que la serie tenga un perodo de decrecimiento, despus de cual, la
serie retom su comportamiento creciente original, y aparentemente con la misma
pendiente. Este hecho no se observa en la grfica (d), debido a que se utilizaron tantos
elementos en el promedio que el comportamiento que se descubri en las grficas (b) y (c)
ya no se observ en la (d).
Se observa cmo a medida que aumenta el orden, el efecto del suavizado es mayor,
pero tambin se pierden ms datos en los extremos. Una ventaja del suavizamiento de
promedio mvil es muy fcil de aplicar y permite visualizar la tendencia de la serie. Sin
embargo, tambin posee dos inconvenientes. El primero consiste en que no es posible
obtener estimaciones de la tendencia en extremos. El segundo consiste en que no perimte,
tal como se aplic, proporcionar predicciones.
Si la serie bajo anlisis presenta un efecto estacional de perodo k, es conveniente
aplicar un suavizamiento de promedio mvil de orden k. Al hacer esto se elimina el efecto
estacional, junto con la variacin aleatoria, por lo que se podr observar solamente la
tendencia de la serie.
Mtodo de Suavizamiento Exponencial.
Este mtodo se basa en la idea de que una observacin suavizada en tiempo t, se
conforma por medio de un promedio ponderado del valor actual de la serie original y el
valor de la serie suavizada en el tiempo inmediatamente anterior. Si Zt representa la serie de
tiempo original y Yt la serie de tiempo suavizada, entonces la afirmacin anterior se expresa
como sigue:
y t yt (1 ) y t 1.
y t yt (1 ) yt 1 (1 ) 2 yt 2 (1 )3 yt 3 .
(b) =0.5
(c) =0.7
(d) =0.9
Serie (# de
accidentes
semanales)
2.00
-1.00
2.00
1.00
-1.00
0.00
2.00
-2.00
10
2.00
11
1.00
12
-1.00
13
1.00
14
0.00
15
1.00
16
10
1.00
17
-2.00
18
-1.00
19
2.00
20
0.00
Diferencia
21
11
2.00
22
12
1.00
23
10
-2.00
24
12
2.00
25
13
1.00
26
12
-1.00
27
13
1.00
28
13
0.00
29
15
2.00
30
14
-1.00
Serie
2
5
11
14
21
6
7
8
9
10
36
46
61
86
110
yt yt 1
yt yt 1 , |
t (t 1)
unidades hacia atrs de la observacin al tiempo t, es decir, yt-k. El valor que se obtiene, que
se denota por k , se calcula como sigue:
k Cov( yt , yt k ) E( yt t )( yt k t k ) .
Sin embargo, si el proceso es estacionario entonces la media es constante en el tiempo, as
que se tendr:
k E( yt )( yt k )
La funcin de autocovarianza para una serie se estima a travs de la siguiente
frmula:
1 T
( yt y)( ytk y),
T t k 1
1 T
1
( yt y)( yt 1 y) ( y2 y)( y1 y) ( y3 y)( y2 y) ( yT y)( yT 1 y).
T t k 1
T
E[( yt )( yt k )] k
.
E ( yt ) 2
0
d) k k .
e) k k .
2.6.- CORRELOGRAMA
Utilizando los elementos definidos en la seccin anterior, se obtiene una grfica que
se utiliza para describir el comportamiento de la serie, con respecto a su estructura de
autocovarianza. El correlograma ser la grfica de dispersin del tiempo, representado por
k, y los valores de autocorrelacin correspondientes.