You are on page 1of 176

Contenido

ndice de figuras ............................................................................................. 3


INTRODUCCIN .......................................................................................... 6
CAPTULO 1 ................................................................................................. 8
1.1 Direccin Estratgica............................................................................. 8
1.1 Business Intelligence ............................................................................. 9
1.2 Definicin de Data Mining .................................................................. 10
1.3 Conceptos Bsicos en Data Mining ...................................................... 12
CAPTULO 2: Modelo de Direccin Estratgica Propuesto ........................... 15
2.1 Proceso de Direccin Estratgica ......................................................... 15
2.2 Fase de Planificacin Estratgica ......................................................... 16
2.3 Procedimiento de la Fase de Planificacin. .......................................... 16
2.4 Etapas del Proceso de Planificacin Estratgica. .................................. 17
2.5 Mtodos y Procedimientos para Realizar el Anlisis Externo del Sistema.
................................................................................................................. 23
2.6 Mtodos y Procedimientos para Realizar el Anlisis Interno del Sistema.
................................................................................................................. 25
2.7 Estudio de Mercados. .......................................................................... 26
2.8 Mtodos y Procedimientos para Establecer el Posicionamiento
Estratgico y Estrategia Fundamental del Sistema. .................................... 27
2.9 Mtodos para el Diseo de Cuadro de Mando Integral ......................... 33
CAPTULO 3: Regresin Mltiple ................................................................ 40
3.1 Supuestos para el Clculo de una Regresin Lineal .............................. 41
3.2 Notacin Matricial del Modelo Lineal General .................................... 46
3.3 Mtodos de Clculo de los Estimadores ............................................... 47
3.4 Evaluacin del Modelo ........................................................................ 49
3.5 Diagnstico de una Regresin.............................................................. 51
3.6 Autocorrelacin ................................................................................... 60
3.7 Anlisis de Residuos ........................................................................... 61
3.8 Caso modelo de regresin lineal del PIB .............................................. 62
CAPTULO 4: Serie de Tiempo .................................................................... 73
4.1 Componentes de las Series de Tiempo ................................................. 73
4.2 Procesos Estocsticos Elementales ...................................................... 76
4.3 Tcnicas de Suavizamiento .................................................................. 78
4.4 Modelos Autorregresivos..................................................................... 87
1

4.5 Anlisis de Autocorrelaciones ............................................................. 89


CAPTULO 5: Anlisis Clster ..................................................................... 95
5.1 Clasificacin de las Tcnicas Clster ................................................... 95
5.2 Etapas de un Anlisis Clster............................................................... 97
5.3 Caso: Estudio del Producto APV en las AFP...................................... 100
CAPTULO 6: rboles de Decisin ............................................................ 107
6.1 Sistemas por Particin: rboles de Decisin para Clasificacin. ........ 108
6.2 Particiones Posibles ........................................................................... 108
6.3 Criterio de Seleccin de Particiones ................................................... 109
6.4 Poda .................................................................................................. 110
6.5 Algoritmos ms Populares ................................................................. 111
6.5 Caso: Analizar la Situacin de Quiebra de una Empresa. ................... 112
CAPTULO 7: Redes Neuronales Artificiales ............................................. 118
7.1 Redes Neuronales Biolgicas............................................................. 118
7.2 Modelo Matemtico .......................................................................... 119
7.3 Tipos de Funcin de Activacin ........................................................ 122
7.4 Estructuras y Arquitectura de Red...................................................... 124
7.5 Aprendizaje ....................................................................................... 124
7.6 Tipos de Redes Neuronales Artificiales ............................................. 126
7.7 Caso: Prediccin al Corto Plazo Fondo A de los Multifondos............. 127
CAPTULO 8: Reflexiones Sobre el Modelo Propuesto .............................. 136
Bibliografa................................................................................................. 139
Anexos ....................................................................................................... 141
Anexo 1: Anlisis de Regresin Lineal en SPSS ...................................... 141
Anexo 2: Anlisis de Series de Tiempo en el Software SPSS ................... 153
Anexo 3: Anlisis de Clster en el Software SPSS ................................... 156
Anexo 4: Software SPSS Clementine ...................................................... 161
Anexo 5: Redes neuronales artificiales en el software SPSS Clementine .. 163
Anexo 6: rboles de Decisin en el Software SPSS Clementine .............. 170
Anexo 7: Datos Caso Quiebra ................................................................. 173

ndice de figuras
Figura 1: Proceso de direccin estratgica ....................................................... 8
Figura 2: Estndar CRISP_DM ..................................................................... 11
Figura 3: Esquema de direccin estratgica ................................................... 16
Figura 4: Esquema del proceso de planificacin. ........................................... 16
Figura 5: Etapas proceso planificacin. ......................................................... 17
Figura 6: Modelo de negocios ....................................................................... 18
Figura 7: Tabla factores crticos externos: oportunidades y amenazas. ........... 24
Figura 8: Variable externa: amenaza (precio petrleo). .................................. 24
Figura 9: Tabla de factores internos: fortalezas y debilidades. ........................ 25
Figura 10: Factor interno: fortaleza ............................................................... 26
Figura 11: Clster, mtodo K medias. ........................................................... 26
Figura 12: Proceso Knowledge Discovery in Databases. ................................ 27
Figura 13: Esquema estrategia fundamental de la organizacin, paradigma
rombo. .......................................................................................................... 28
Figura 14: Mapa estratgico, caso acadmico. ............................................... 36
Figura 15: Tablero de objetivos estratgicos e indicadores de gestin en
docencia........................................................................................................ 37
Figura 16: Esquema en estrella, caso acadmico. ........................................... 38
Figura 17: Tablero de control e iniciativas estratgicas, caso empresa de
transporte. ..................................................................................................... 39
Figura 18: Estudios para la preparacin y evaluacin de un proyecto. ............ 39
Figura 19: Ejemplo grfico, regresin lineal .................................................. 40
Figura 20: Distribucin homocedstica.......................................................... 45
Figura 21: Distribucin heterocedstica. ........................................................ 45
Figura 22: Grficos del error y las variables exgenas. Homocedasicidad y
heterocedasticidad. ........................................................................................ 52
Figura 23: Histograma ejemplo test Jarque-Bera............................................ 56
Figura 24: Test de Durbin y Watson .............................................................. 60
Figura 25: Tendencia en una serie de tiempo. ................................................ 73
Figura 26: Estacionalidad en una serie de tiempo .......................................... 74

Figura 27: Variaciones cclicas en una serie de tiempo .................................. 74


Figura 28: Componente no sistmico en una serie de tiempo ......................... 75
Figura 29: Componentes de una serie de tiempo, modelo aditivo. .................. 75
Figura 30: Grfico ruido blanco .................................................................... 77
Figura 31: Comparacin serie original y serie suavizada. Suavizamiento
exponencial. .................................................................................................. 79
Figura 32: Precio del producto, ejemplo suavizamiento exponencial. ............. 83
Figura 33: Grfico observado y ajuste del precio, ejemplo suavizamiento
exponencial................................................................................................... 84
Figura 34: Consumo de helados, ejemplo descomposicin estacional............. 85
Figura 35: Observado y Ajuste, consumo de helado, ejemplo descomposicin
estacional. ..................................................................................................... 86
Figura 36: Grfico precio del petrleo, caso serie de tiempo .......................... 89
Figura 37: ACF caso precio petrleo ............................................................. 90
Figura 38: ACF Parcial, caso precio petrleo................................................. 91
Figura 39: Caso precio petrleo, observado y previsin, serie de tiempo ........ 93
Figura 40: Dendograma de tmpanos, anlisis cluster .................................... 99
Figura 41: Dendogramas, caso APV, anlisis cluster ................................... 104
Figura 42: Ejemplo rbol de decisin .......................................................... 107
Figura 43: Poda, rbol de decisin. .............................................................. 110
Figura 44: Ejemplo de operador "transposicin", rboles de decisin. .......... 111
Figura 45: rbol de decisin, SPSS Clementine .......................................... 114
Figura 46: rbol de decisin con nodo C5.0, caso quiebra. .......................... 114
Figura 47: rbol de decisin, caso quiebra .................................................. 116
Figura 48: Neurona biolgica ...................................................................... 118
Figura 49: Capas de una red neuronal artificial ............................................ 120
Figura 50: Modelo de neurona, red neuronal artificial. ................................. 121
Figura 51: Estructura bsica de una red multicapa. ...................................... 121
Figura 52: Funcin umbral .......................................................................... 122
Figura 53: Funcin umbral. ......................................................................... 123
Figura 54: Grfico multifondos, caso red neuronal artificial. ....................... 128

Figura 55: Grupos de entrenamiento, comprobacin y validacin, caso red


neuronal artificial ........................................................................................ 131
Figura 56: Grfico grupo de comprobacin, caso red neuronal..................... 132
Figura 57: Grfico grupo de validacin, caso red neuronal .......................... 132
Figura 58: Prediccin fondo A, caso red neuronal........................................ 134

INTRODUCCIN
La globalizacin, el entorno multicultural, el cambio tecnolgico, la reduccin
de los ciclos de vida y satisfaccin de los productos y servicios, y -en generalel acelerado cambio de la sociedad actual, estn configurando una serie de retos
que los directivos y las organizaciones deben enfrentar para generar estrategias
exitosas que aseguren el futuro de sus instituciones. Las decisiones estratgicas
se han vuelto cada vez ms complejas y tienen efectos sobre la estructura
organizacional, los procesos administrativos y productivos, las tecnologas de
la informacin y las comunicaciones.
En los ltimos aos se han presentado muchos cambios y de una profundidad
nunca antes conocida en la historia de la humanidad, por lo cual se hace cada
vez ms imprescindible para un directivo recurrir a modelos que describan
detalladamente cmo dirigir estratgicamente una organizacin.
En este libro se propone un mtodo de direccin estratgica que se caracteriza
por ser un proceso simple y prctico en la formulacin de las estrategias,
implementacin y control.
Para apoyar el mtodo de direccin estratgica es fundamental un proceso de
extraccin de datos desde bases de datos internas y externas a la organizacin y
luego- el anlisis de estos, para extraer informacin susceptible de usar para
tomar decisiones y acciones estratgicas informadas. Estos mtodos, tcnicas y
herramientas de software, para proveer informacin son parte del paradigma
del business intelligence y el proceso de data mining o minera de datos.
La organizacin del libro est orientada a la presentacin de los conceptos de
direccin estratgica y el apoyo de modelos matemticos, estadsticos y de
minera de datos.
En los captulos 1 y 2, se introduce el modelo de direccin estratgica
propuesto, el cual sigue un proceso dinmico y recursivo; comenzando con la
fase de planificacin estratgica, que a su vez se descompone en 9 etapas con
sus respectivos hitos y resultados, la fase de implementacin y cambio
organizacional y finalmente- la fase de control.
En el captulo 3, se presentan algunos conceptos bsicos del modelo de
regresin lineal y se introducen los supuestos del mtodo de mnimos
cuadrados ordinarios (MCO), para estimar los parmetros del modelo de
regresin lineal simple y mltiple.
El captulo 4, trata sobre los modelos de series de tiempo, con los mtodos de
promedios mviles, tcnicas de suavizamiento exponencial y modelos
autorregresivos.

En el captulo 5, se presentan algunos mtodos de clster y tcnicas como


algoritmos de dos etapas, k-medias y mtodos jerrquicos.
En el captulo 6, se ven los algoritmos de rboles, que son tcnicas de minera
de datos o modelos de prediccin utilizado en el mbito de la inteligencia
artificial, para apoyar las decisiones estratgicas en una organizacin.
En el captulo 7, se introducen los conceptos de redes neuronales artificiales,
que son modelos matemticos que simulan las propiedades de las redes
neuronales biolgicas imitando el comportamiento del cerebro humano, lo que
le da ventajas importantes respecto de otros modelos predictivos.
Finalmente, en el captulo 8, se hace una reflexin sobre el modelo propuesto
de direccin estratgica para las organizaciones, con el apoyo de mtodos
cualitativos y cuantitativos.

CAPTULO 1
1.1 Direccin Estratgica
La direccin estratgica debe ser liderada por altos directivos, dado que es el
corazn de la actividad de una organizacin, (Hunger, 2003) , (Drucker, 2004),
(Hax, A. & Wilde, D., 1999). El modelo de direccin estratgica propuesto es
un mtodo holstico, continuo y recursivo; que tiene como principal
caracterstica ser democrtico, sistemtico y participativo.

Considera los procesos de:


Planificacin estratgica, que es el proceso de decidir anticipadamente
qu se har y de qu manera; mediante la seleccin de objetivos
estratgicos, junto a estrategias y acciones para lograrlos.
Implementacin, que consiste en el desarrollo de las actividades
orientadas a conseguir los objetivos estratgicos en concordancia con la
planificacin estratgica, instaurar una estructura organizacional,
sistemas de informacin adecuados con los procesos y roles que deben
desempear las personas en la organizacin.
Control, en la que se desarrollan e implementan los sistemas que
permiten medir y corregir el desempeo individual y organizacional
para que los hechos se ajusten a los objetivos estratgicos.

FIG. 1: PROCESO DE DIRECCIN ESTRATGICA

El modelo se puede aplicar de forma top-down a la organizacin como un todo,


luego a las componentes, subsistemas o unidades estratgicas de negocios
(UEN) y, finalmente, a las unidades funcionales.
Una UEN es un sistema viable (Beer, 1988), conformado por uno o ms
productos determinados, que tienen un mercado bsico comn, delimitado y al
frente de la cual hay un ejecutivo o directivo que tiene la responsabilidad de
integrar los procesos administrativos, a travs de objetivos y una estrategia
fundamental.

Tambin se puede definir una UEN como aquel sistema que es capaz de
amoldarse a las variaciones de un entorno turbulento y cambiante, que debe
poseer las siguientes caractersticas (Beer, 1988):
i) Capaz de auto-organizarse: mantener la organizacin del sistema en forma
permanente y adaptarse de acuerdo a las exigencias del medio ambiente;
ii) Capaz de auto-controlarse: mantener las variables principales del sistema
dentro de ciertos lmites de normalidad;
iii) Deben poseer cierto grado de autonoma: poseer un suficiente nivel de
libertad, determinado por sus recursos, para mantener las variables esenciales
en su rea de regularidad.
Adems, poseen una misin nica y diferenciada, la estrategia de cada unidad
es as autnoma, si bien no independiente de las dems unidades estratgicas,
puesto que se integran en la estrategia de la institucin.
El mtodo de direccin estratgica en su fase de planificacin estratgica se
compone de un esquema grfico, que representa el proceso de planificacin y
un procedimiento que se realiza de manera secuencial en cascada con iteracin.
Este procedimiento est constituido por 9 etapas, de las cuales algunas de sus
actividades se pueden desarrollar de manera simultnea, en paralelo, y adems
pueden existir iteraciones entre actividades, porque se pueden presentar
situaciones dnde sea necesario volver a etapas anteriores, en razn de no
cumplir con ciertos requisitos y supuestos fundamentales en la actividad.
1.1 Business Intelligence
Se denomina inteligencia empresarial, inteligencia de negocios o BI (business
intelligence) (Shmueli, G., Patel, N., & Bruce, P., 2007), al conjunto de
mtodos, tcnicas y herramientas enfocadas a la administracin y creacin de
conocimiento mediante el anlisis de datos internos y externos en una
organizacin o empresa.
El trmino BI se refiere al uso de datos en una institucin para facilitar la toma
de decisiones. Ayuda a comprender el funcionamiento actual de la
organizacin, y tambin a pronosticar con anticipacin los acontecimientos
futuros, con el objetivo de ofrecer conocimientos para respaldar los objetivos
estratgicos y estrategias organizacionales.
Los mtodos y las herramientas del BI (Shmueli, G., Patel, N., & Bruce, P.,
2007) se basan en la utilizacin de un sistema de informacin de inteligencia
que se forma con distintos datos extrados de los datos bsicos del subsistema
operacional, con informacin relacionada con la institucin y su mbito y con
datos financieros y econmicos.

Estos sistemas utilizan herramientas y tcnicas ELT (extraer, cargar y


transformar) o actualmente ETL (extraer, transformar y cargar), que extraen los
datos de distintas fuentes, los depuran y preparan (homogeneizacin de los
datos) para luego cargarlos en un almacn de datos (Data warehouse, el cual es
un repositorio de datos reunido de mltiples fuentes, almacenado en un
esquema unificado y que reside en un nico sito. Los datos son organizados
alrededor de los temas principales, tales como, ventas, crditos, recursos
humanos, etc. Y estos se almacenan para proveer informacin histrica y
resumida).
El BI incluye mtodos de los sistemas DSS (decision support systems),
procesos de consultas y reportes, las tcnicas OLAP (on line analytical
processing), anlisis estadstico, economtrico y los procesos de data mining
DM (Shmueli, G., Patel, N., & Bruce, P., 2007) o minera de datos.
1.2 Definicin de Data Mining
La minera de datos DM (Shmueli, G., Patel, N., & Bruce, P., 2007) es un rea
de las ciencias de la computacin que busca modelos de comportamiento en
grandes volmenes de datos, mediante inteligencia artificial, aprendizaje
automtico, estadstica y sistemas de bases de datos. Su objetivo general es
obtener informacin til y convertirla en una herramienta factible de apoyar el
proceso de toma de decisiones.
La empresa de tecnologas de la informacin Gartner Group, en su pgina web,
noviembre 2012, define DM, como el proceso de descubrir correlaciones
significativas en nuevos patrones y tendencias a travs de procesar grandes
cantidades de datos almacenados en los repositorios, utilizando tecnologas de
reconocimiento de patrones, as como tcnicas estadsticas y matemticas.
El proceso de un proyecto de DM (Shmueli, G., Patel, N., & Bruce, P., 2007)
tiene varias etapas que son, esencialmente:

Comprensin del negocio y del problema que se quiere resolver.


Comprensin de los datos.
Preparacin, determinacin, obtencin y limpieza de los datos
necesarios.
Revisin de modelos matemticos y estadsticos.
Validacin, comunicacin, etc., de los resultados obtenidos.
Integracin, si procede, de los resultados en un sistema transaccional o
similar.

Este proceso se conoce como estndar CRISP-DM (Shmueli, G., Patel, N., &
Bruce, P., 2007).

10

FIG. 2: ESTNDAR CRISP_DM

La relacin entre todas estas fases es lineal slo sobre el papel. En realidad, es
mucho ms compleja y esconde toda una jerarqua de subfases. A travs de la
experiencia acumulada en proyectos de minera de datos se han ido
desarrollando metodologas que permiten gestionar esta complejidad de una
manera ms o menos uniforme.
Las tcnicas de la minera de datos provienen de la inteligencia artificial y de la
estadstica, que son algoritmos ms o menos sofisticados que se aplican sobre
un conjunto de datos para obtener informacin o conocimiento de un tema
particular.
Las tcnicas (Shmueli, G., Patel, N., & Bruce, P., 2007), (Hernndez, J., Ferri
Ramirez, C., Ramirez Quintana, Ma, 2004) ms representativas son:
Redes neuronales: Son un modelo de aprendizaje y procesamiento que imita o
se basa en el funcionamiento del sistema nervioso central. Es una estructura
interconectada de neuronas en red que producen un estmulo de salida. Los
perceptrn (simples y multicapas) y las redes de Kohonen (mapas auto
organizados), estn entre las ms conocidas.
Regresin lineal: La ms usada para generar vnculos entre informacin
diferente. Rpida y eficaz, pero insuficiente en espacios multidimensionales
donde puedan relacionarse ms de 2 variables.
Serie de tiempo: Es un conjunto de observaciones sobre valores que toma una
variable cuantitativa en diferentes momentos de tiempo.
11

Ejemplos de series de tiempo: Economa y finanzas: precios de un artculo,


tasas de desempleo, tasa de inflacin, ndice de precios, precio del dlar, precio
del cobre, precios de acciones, ingreso nacional bruto, etc. Meteorologa:
cantidad de agua cada, temperatura mxima diaria, velocidad del viento
(energa elica), energa solar, etc. Geofsica: series sismolgicas. Qumica:
viscosidad de un proceso, temperatura de un proceso. Demografa: tasas de
natalidad,
tasas
de
mortalidad.
Medicina:
electrocardiograma,
electroencefalograma. Marketing: series de demanda, gastos, utilidades, ventas,
ofertas. Telecomunicaciones: Anlisis de seales. Transporte: series de trfico.
Algunos de los mtodos utilizados en las series de tiempos: promedio mvil,
suavizamiento exponencial, descomposicin estacional, mtodo Box Jenkins.
(ARIMA). Etc.
rbol de decisin: es un esquema o algoritmo predictivo que se usa en el
contexto de la inteligencia artificial, donde a partir de una base de datos se
estructuran estos diagramas de construcciones lgicas, que representan y
modelan situaciones determinadas que se repiten sucesivamente en la bsqueda
de una respuesta a un problema. Ejemplos de rboles de decisin son los
algoritmos CART, ID3, C4.5 y CHAID.
Modelo estadstico: Es una ecuacin que se utiliza en los diseos
experimentales y en la regresin para sealar las diferentes variables que
inciden en la solucin y sus eventuales modificaciones.
Clustering: Es una manera de agrupar vectores de acuerdo a las cercanas entre
ellos, buscando que los de entrada estn a la menor distancia de los que ms se
le parezcan. Es una tcnica utilizada para clasificar casos en grupos que son
relativamente homogneos dentro de s mismos y heterogneos entre ellos,
sobre la base de un conjunto definido de variables. Ejemplos: Algoritmos Kmedias, de dos pasos y jerrquicos. Una de sus aplicaciones ms comunes es en
segmentacin de mercados, agrupamiento de consumidores de acuerdo a
preferencias de atributos, comprender el comportamiento de compradores,
consumidores con similares comportamientos o caractersticas son agrupados
juntos, identificar oportunidades de nuevos productos.
Clster de similares marcas o productos pueden ayudar a identificar
competidores u oportunidades de mercado.
Regla de asociacin: Es usada para revelar situaciones similares que se repiten
en un determinado conjunto de datos.
1.3 Conceptos Bsicos en Data Mining
Tipos de variables: hay varias maneras de clasificar las variables. Las variables
pueden ser numricas o de texto (caracteres). Ellas pueden ser continuas (capaz
de asumir cualquier valor numrico real, usualmente en un rango dado), enteras
12

(asumiendo solamente valores enteros) o categricas (asumiendo un nmero


limitado de valores).
Las variables categricas pueden ser numricas (1, 2, 3) o de texto (secretaria,
administrativo, profesor). Las variables categricas pueden no estar ordenadas
(llamadas variables nominales), con categoras tales como: Chile, Per,
Argentina, Colombia, Ecuador, Uruguay, Paraguay; o ellas pueden estar
ordenadas (llamadas variables ordinales) con categoras tales como: valor alto,
medio y bajo.
Clasificacin: es tal vez la forma ms bsica de anlisis de datos. Una
transaccin con tarjeta de crdito puede ser normal o fraudulenta. Un paciente
en un hospital se puede recuperar, seguir enfermo o fallecer.
Una tarea comn en DM es examinar los datos donde la clasificacin es
desconocida o puede darse en el futuro, con el objetivo de predecir cul es o
ser la clasificacin. Con datos similares, donde la clasificacin se puede
conocer, se pueden establecer reglas, las cuales entonces pueden ser aplicadas a
los datos con una clasificacin desconocida.
Prediccin: es similar a clasificacin, excepto que se trata de predecir el valor
de una variable numrica (por ejemplo, cantidad de compras) ms que una
clase (por ejemplo, comprador o no comprador).
Los algoritmos se dividen segn el objetivo del anlisis - en supervisados y no
supervisados (Shmueli, G., Patel, N., & Bruce, P., 2007):
Supervisados o predictivos: predicen un dato o un grupo de ellos a partir de
informacin previa.
No supervisados o del descubrimiento de conocimiento: se revelan modelos
de conducta o tendencias en los datos.
Aprendizaje supervisado y no supervisado: es una distincin fundamental entre
las tcnicas de minera de datos.
Algoritmos de aprendizaje supervisado son aquellos utilizados en la
clasificacin y prediccin de datos. Los datos se dividen en datos
entrenamiento, que son desde los cuales los algoritmos de clasificacin y
prediccin aprenden o son entrenados, acerca de la relacin entre las
variables independientes y la variable resultado (predicha). Una vez que el
algoritmo ha aprendido desde los datos de entrenamiento, este es aplicado a
otros datos de ejemplo (datos de validacin), donde el resultado es conocido,
para ver que tan bien lo hace en comparacin con otros modelos. Si hay varios
modelos que estn siendo probados, es adecuado tener una tercera muestra de
datos conocidos (los datos de prueba), para ser utilizado con el modelo final
seleccionado y comprobar que tambin lo hace. El modelo final seleccionado
puede entonces ser utilizado para clasificar o predecir resultados de inters en
13

nuevos casos donde la salida es desconocida. Anlisis de regresin lineal


simple es un ejemplo de aprendizaje supervisado.
Algoritmo de aprendizaje no supervisado: son aquellos utilizados donde no hay
una variable resultado a predecir o clasificar. Por lo cual, no hay aprendizaje
desde los casos donde tal variable resultado es conocida. Ejemplo de este tipo
de algoritmos son reglas de asociacin, mtodos de reduccin de datos y
tcnicas de clster.
Seleccin de variables para un modelo: ms no es necesariamente mejor
cuando se seleccionan variables para un modelo. Este es el concepto de
parsimonia, compactacin o simplicidad, que es un aspecto deseable en un
modelo. Si se incluyen ms variables, se necesitaran un nmero mayor de
registros para evaluar la relacin entre las variables.
Sobreajuste: al incluir ms variables, se aumenta el riesgo de sobre ajustar los
datos. En aprendizaje automtico, el sobreajuste (tambin es frecuente emplear
el trmino en ingls overfitting) es el efecto de sobre entrenar un algoritmo de
aprendizaje con unos ciertos datos para los que se conoce el resultado deseado.
El algoritmo de aprendizaje debe de alcanzar un estado en el que ser capaz de
predecir el resultado en otros casos a partir de lo aprendido con los datos de
entrenamiento, generalizando para poder resolver situaciones distintas a las
acaecidas durante el entrenamiento. Sin embargo, cuando un sistema se entrena
demasiado (se sobre entrena) o se entrena con datos extraos, el algoritmo de
aprendizaje puede quedar ajustado a unas caractersticas muy especficas de los
datos de entrenamiento que no tienen relacin causal con la funcin objetivo.
Durante la fase de sobreajuste el xito al responder las muestras de
entrenamiento sigue incrementndose mientras que su actuacin con muestras
nuevas va empeorando.
Normalizacin de los datos: algunos algoritmos requieren que los datos sean
normalizados antes que el algoritmo pueda ser implementado efectivamente.
Para normalizar los datos, se substrae la media a cada uno de los valores y se
divide por la desviacin estndar de las desviaciones resultantes de la media. Se
est expresando cada valor como el "nmero de desviaciones estndar de la
media", tambin conocido como z-score.

14

CAPTULO 2: Modelo de Direccin Estratgica


Propuesto
2.1 Proceso de Direccin Estratgica
La direccin estratgica es el arte y la ciencia de formular, implementar y
evaluar las decisiones interfuncionales que permiten a una organizacin
alcanzar sus objetivos estratgicos (Hunger, 2003).
El desafo de las organizaciones hoy es enfrentar la globalizacin de los
mercados, donde el fundamento de la estrategia es el vnculo con el cliente.
Arnoldo Hax y Dean Wilde (Hax, A. & Wilde, D., 2003), afirman en su
proyecto Delta, para desarrollar estrategia y administrar en la nueva
economa: Tenemos que complacer al cliente de un modo especial y nico si
es que esperamos alcanzar una rentabilidad superior.
El modelo de direccin estratgica propuesto se considera como un proceso
dinmico, continuo, recursivo, constituido por las fases de planificacin
estratgica (etapa de diseo y de pensar en el futuro), de implementacin (etapa
del hacer y el cambio) y de control (evaluacin y monitoreo en tiempo real de
los objetivos estratgicos y resultados, con respecto a los estndares
establecidos en la organizacin, ver Fig. N 3).
La planificacin se sustenta en la conviccin de que el futuro ser muy
diferente al pasado. Y se debe imaginar el futuro a partir del presente, hay que
visualizar, inventar, tomando en cuenta aquellos posibles escenarios
perceptibles hoy (ver Fig. N 4). Parte esencial es la identificacin de
oportunidades y amenazas en el medio ambiente en que se desenvuelve la
empresa y, su contraste con las fortalezas y debilidades de la organizacin
(Johnson, G. & Scholes, K., 2001), (Porter M. E., 1980) (Porter M. E., Ventaja
Competitiva, 1987), (Porter M. E., The Competitive Advantage of Nations,
1990). Incluye diferentes actividades que van desde (Johnson, G. & Scholes,
K., 2001), (Hax, A. & Majluf, N., 1996), (Johnson, G. & Scholes, K., 2001):
1) acuciosa recopilacin y anlisis de informacin, utilizando mtodos y
tcnicas estadsticas, economtricas, BI, DM (Johnson, G. & Scholes, K.,
2001), etc.;
2) examinar el futuro, producir nuevas ideas;
3) determinacin de objetivos globales y estrategias;
4) diseo de los indicadores y sistemas de control;
5) hasta formalizar planes y acciones para lograrlos.

15

FIG. 3: ESQUEMA DE DIRECCIN ESTRATGICA

2.2 Fase de Planificacin Estratgica


Esta fase se desarrolla en base a un esquema grfico, el cual permite representar
el sistema que se debe analizar y sirve para organizar y comunicar de forma
clara los elementos que involucran el todo. Adems, de un procedimiento que
se compone por un conjunto de actividades o eventos que se realizan o suceden
(de forma alternativa o simultnea) con el propsito de generar el plan
estratgico de la empresa.
El esquema del proceso de planificacin es el siguiente:

FIG. 4: ESQUEMA DEL PROCESO DE PLANIFICACIN.

2.3 Procedimiento de la Fase de Planificacin.


Este es un proceso que sigue un flujo de etapas secuenciales en cascada e
iterativo, constituido por 9 procesos, pero pueden existir iteraciones, porque se
pueden presentar situaciones dnde sea necesario volver a etapas anteriores.
16

FIG. 5: ETAPAS PROCESO PLANIFICACIN.

2.4 Etapas del Proceso de Planificacin Estratgica.


i) Etapa de especificacin de los aspectos generales del sistema en estudio.
Estado actual: describir el sistema y su entorno (qu somos) y sus modelos de
negocios.
Desde un punto de vista sistmico, un modelo de negocios consiste en dar
respuestas a las siguientes preguntas: 1) para quin? o quin?, con el
propsito de determinar los clientes y sus necesidades; 2) qu?, con el
propsito de definir el producto o servicio y su respectiva oferta de valor, y 3)
cmo?, consiste en establecer las estrategias, acciones, tareas a desarrollar.
El modelo de negocios comprende el siguiente conjunto de actividades: cmo
selecciona sus clientes, cmo consigue y conserva a los clientes, cmo crea una
propuesta de valor para sus clientes, cmo define y diferencia sus ofertas de
producto o servicios, cmo sale al mercado (estrategias), cmo define los
procesos y tareas que se deben llevarse a cabo y cmo configura los recursos y
presupuestos.

17

FIG. 6: MODELO DE NEGOCIOS

ii) Etapa de diagnstico estratgico de la empresa.


a. Anlisis externo, es un proceso que permite determinar cules de los
factores externos o no controlables a la empresa podran tener
influencia en trminos de facilitar o restringir el logro de objetivos. Es
decir, hay circunstancias o hechos presentes en el ambiente que a veces
representan una buena OPORTUNIDAD que la empresa podra
aprovechar, ya sea para desarrollarse an ms o para resolver un
problema. Tambin puede haber situaciones que ms bien representen
AMENAZAS para la organizacin.
b. Anlisis interno, donde se especifican los factores controlables,
FORTALEZAS y DEBILIDADES de la empresa que se deducen de un
anlisis o benchmarking (Porter M. E., 1980), (Porter M. E., Ventaja
Competitiva, 1987), (un proceso sistemtico y continuo para evaluar
comparativamente los productos, servicios y procesos de trabajo en
organizaciones) con el lder de la industria del sector, que se tienen
respecto a la disponibilidad de recursos de capital, personal, activos,
calidad de producto, estructura interna y de mercado, percepcin de los
consumidores, entre otros.
c. Factores crticos de xito, proceso para identificar los elementos que
permiten a la empresa alcanzar los objetivos que se ha trazado y
distinguen a la empresa de la competencia hacindola nica y tambin
se debe investigar el entorno para identificar los elementos
fundamentales que afectan positiva o negativamente el negocio, para
anticiparse a los hechos.
d.

Construir matriz VRIO, que es una herramienta de anlisis de


empresas que se engloba dentro de la teora de recursos y responde a
las cuatro caractersticas bsicas que ha de cumplir un recurso para dar
a la empresa ventaja competitiva.
18

e.

Construir la matriz FODA de la organizacin, con los antecedentes


recopilados en los pasos anteriores se genera esta matriz, y en cada uno
de los cuatro cuadrantes se establece el conjunto de estrategias
posibles. En el primer cuadrante, donde se cruzan las oportunidades
con las fortalezas FO, se determinan estrategias ofensivas, en el
segundo cuadrante de amenazas y fortalezas FA, como en el tercer
cuadrante de oportunidades con debilidades DO, se establecen
estrategias mixtas, y en el cuarto cuadrante de amenazas y debilidades
DA, se establecen estrategias defensivas.

iii) Etapa de determinacin del posicionamiento estratgico fundamental de la


empresa sustentada en el paradigma del rombo. Propuesto en (Saavedra, O.,
Saavedra, D. & Torres, A., 2012) el artculo Modelo de direccin estratgica,
en el encuentro ENEFA, 2012, Chile.
El desafo de las organizaciones de hoy es enfrentar la globalizacin de los
mercados, donde el principio bsico de la estrategia es el vnculo con el cliente.
Por esta razn, una tarea fundamental en las organizaciones es conocer sus
mercados, investigar el comportamiento de sus clientes, y adems es muy
importante conocer a sus no clientes, sus necesidades y conductas.
Arnoldo Hax y Dean Wilde (Hax, A. & Wilde, D., 2003), afirman en su
proyecto Delta, para desarrollar la estrategia y administrar en la era del
conocimiento e informacin: Tenemos que complacer al cliente de un modo
especial y nico si es que esperamos alcanzar una rentabilidad superior. Y
ellos proponen en su modelo tres posicionamientos estratgicos bsicos: 1)
Mejor producto. En este posicionamiento la filosofa fundamental es un
mercado amplio y en competencia, con tres estrategias fundamentales:
liderazgo en costo, diferenciacin y concentracin. Estas son las estrategias
bsicas que propone Michael Porter, en su propuesta de ventajas competitivas.
2) Solucin integral al cliente. La filosofa fundamental es vinculacin con un
cliente clave, productos hechos a la medida, con las estrategias
fundamentales: redefinir la experiencia cliente, amplitud horizontal e
integracin del cliente. Esta propuesta es totalmente ortogonal al
posicionamiento de mejor producto, la base de esta propuesta es la confianza y
colaboracin con el cliente y, por lo tanto, los competidores pierden
importancia en la relacin. 3) Sistema cerrado. El propsito de este
posicionamiento estratgico es la vinculacin con el cliente con el apoyo de
empresas complementadoras, y las estrategias fundamentales en esta situacin
son: estndar de propiedad, mercado dominante y acceso restringido. Las
organizaciones que alcanzan este vrtice en el modelo Delta, en general son
monoplicas en su sector industrial.
El paradigma del rombo surge al ampliar la propuesta de Arnoldo Hax y Dean
Wilde (Hax, A. & Wilde, D., 2003), con el posicionamiento estratgico
nuevos mercados, la filosofa fundamental es desarrollar productos nuevos o

19

mercados nuevos, donde la competencia no es tan relevante, si la vinculacin


con los clientes, no clientes y la innovacin de valor.
iv) Etapa de definicin y declaracin de la misin y visin de la empresa.
La misin del sistema es definir su negocio futuro.
La misin constituye una forma de hablar del futuro del sistema, la cual define,
aclara y crea marcos de referencia para la gestin futura de la organizacin y de
sus negocios. Es una declaracin duradera de la visin especfica que tiene una
organizacin de su negocio, la cual es esencial para determinar sus objetivos y
formular sus acciones estratgicas. En esencia, indica lo que el negocio ofrece,
a quin se desea servir y cmo se quiere competir. Razn o finalidad por la cual
una empresa existe. Es la formulacin de un propsito duradero de largo
alcance, que distingue y diferencia a la empresa de otras organizaciones.
La visin es una imagen imponente del futuro que atrae a la gente (visual), y se
emplean metforas, modelos, cuadros, comparaciones y analogas. Con este
mensaje se apela a las emociones de las personas en la organizacin. Provee
una sensacin de propsito, direccin y una razn de seguir adelante y conduce
a la accin.
v) Etapa de especificacin y anlisis de escenarios futuros para el sistema.
a. Expresa lo que en el futuro ser la institucin o unidad estratgica de
negocios, cul ser su quehacer, a quines beneficiara, cmo la
percibir el entorno y con quin se contar. Qu seremos?
b. Determinar y establecer los lineamientos y objetivos estratgicos
fundamentales para el sistema con sus respectivos indicadores de
medicin.
Lineamientos estratgicos: son las grandes dimensiones de actividad para
conseguir los objetivos estratgicos, y de esta forma lograr la posicin futura
deseada. Por ejemplo, una empresa puede declarar sus lineamientos
estratgicos fundamentales:
1) Rentabilidad, lograr un desempeo financiero superior y sustentable medido
en trminos de utilidad. Est enfocado a desarrollar las actividades de la
manera ms eficiente y efectiva, desde el punto de vista del costo, y la
utilizacin de la infraestructura para dar soporte a la estrategia fundamental.
2) Orientacin al cliente, sustentado en una propuesta exclusiva de valor para el
cliente. Contar con una estrategia corporativa integral que incluya la cartera de
negocios y capacidad funcional completa, para ofrecer al cliente una propuesta
econmica de valor superior y exclusiva.

20

3) Competitividad y eficiencia, la capacidad de la empresa para lograr el


mximo rendimiento de los recursos disponibles, como personal, financieros,
capital, materiales, ideas, etc., y los procesos de transformacin (procesos
operacionales y atencin al cliente, realizados de manera eficiente).
4) Desarrollo y seguridad del personal, un ambiente laboral vigorizador,
energizante, que crea las capacidades colectivas para llegar a ser una lder en la
que todos esperan trabajar, y dar el mximo de seguridad a sus trabajadores.
5) Innovacin, comprometerse en asegurar un flujo continuo de nuevos
servicios para as mantener la viabilidad futura de la empresa.
Objetivos estratgicos: indican los resultados que se deben lograr, de tal forma
de materializar la posicin futura deseada. Su horizonte es el largo plazo.
Son una expresin cuantitativa de la posicin futura que se desea alcanzar.
Buscan definir en trminos cuantitativos, los resultados concretos que se espera
alcanzar en cada negocio. Constituyen una medida para poder evaluar la
gestin deseada y entregan un dimensionamiento del resultado esperado en el
largo plazo.
Dependiendo la materia a la cual se orienten, encontraremos los siguientes tipos
de objetivos estratgicos:
Financieros: corresponden a resultados finales o terminales del negocio. Son
consecuencias financieras recogidas a travs de diferentes medidas financieras.
Relacionados con el cliente: corresponden a resultados que dicen relacin con
aspectos propios del cliente del negocio, especficamente con resultados que
tienen que ver con la forma en cmo el cliente ve y percibe a la organizacin.
De procesos internos del negocio: estn relacionados con aspectos internos
crticos para lograr los resultados que el cliente quiere ver en la organizacin.
De innovacin y desarrollo: corresponden a resultados fundamentales a lograr
para que la organizacin pueda seguir logrando en el tiempo buenos resultados.
Son mejoras en el tiempo de llegada al mercado de una nueva generacin de
productos o servicios, a travs de la incorporacin de tecnologas, etc.
De mejoramiento del personal y clima organizacional: Se asocian a resultados
de aprendizaje, emprendimiento y de innovacin.
Si es necesario, tambin se pueden determinar y establecer las metas
fundamentales para la organizacin, las cuales son objetivos de mediano y
corto plazo, con sus respectivos indicadores de medicin.
vi) Etapa de alineacin de los objetivos estratgicos y metas con las estrategias
de la organizacin o empresa. Una vez que se han explicitados los objetivos
21

estratgicos en el anlisis de los escenarios futuros, se consideran el conjunto


de estrategias posibles establecidas en la matriz FODA, para alinearlas con los
objetivos estratgicos. Porque estos sealan el Qu?, la organizacin se
compromete lograr en el futuro, y las estrategias indican el Cmo se van
alcanzar estos objetivos.
vii) Etapa de anlisis y evaluacin de los cambios necesarios para implementar
la visin estratgica del sistema. Aqu se revisan los supuestos, limitaciones, y
riesgos del cambio que se debe realizar. Si en esta etapa se presenta una
situacin difcil de resolver, es necesario volver a revisar etapas anteriores.
Se pueden considerar los siguientes aspectos:

Evaluar aspectos de estructura organizacional.


Evaluar los procesos de negocios de la empresa.
Analizar los sistemas de informacin y tecnologas de comunicaciones.
Analizar los sistemas econmicos y financieros.
Evaluar las competencias y habilidades de las personas en la
organizacin.

viii) Etapa de diseo de los sistemas de mediciones de desempeo y


cumplimiento de objetivos estratgicos. Una vez concluidas las siete etapas
anteriores, es necesario disear los sistemas de control, los cuales permitirn
comparar los resultados obtenidos en la ejecucin de los proyectos o acciones,
con los objetivos estratgicos establecidos. Si existen desviaciones importantes
se deben hacer los ajustes necesarios que corresponda, por ejemplo, cambios de
polticas, estrategias, procedimientos o acciones.
El diseo de los sistemas de control consiste en:
Disear los mapas estratgicos.
Disear los tableros de control.
Desarrollar los modelos conceptuales de los sistemas informticos a
desarrollar.
Determinar el software para la implementacin de los tableros de
control.
ix) Etapa de establecimiento del plan estratgico de desarrollo del sistema.
1) Establecer los planes de accin.
Planes generales: iniciativas globales que permiten lograr cada uno de los
lineamientos estratgicos. Representa una generalizacin de lo que se va a
realizar.
Hitos de control: son resultados intermedios que muestran el grado de avance
en cuanto al desarrollo de los planes especficos.

22

2) Formular los proyectos y analizar su factibilidad, tcnica, econmica y


operacional.
Proyectos: en el ms amplio concepto podemos decir que un proyecto es la
elaboracin de un plan, para llevar a cabo una idea que permita generar un
cambio en la situacin actual. Son actividades que deben ejecutarse para
lograr los objetivos declarados y comprometidos (Saavedra, O. &
Kristjanpoller, W., 2012).
a. Establecer los recursos para los proyectos.
b. Determinar el presupuesto para el plan de accin.
Presupuestos: reflejan las consecuencias financieras de los resultados
especficos que pretende lograr la posicin competitiva futura.

2.5 Mtodos y Procedimientos para Realizar el Anlisis Externo del


Sistema.
Para hacer el anlisis del entorno, a este lo dividiremos en el macro-entorno y
micro-entorno o sector industrial en el cual participa la organizacin.
Para deducir las principales variables del macro-entorno, es necesario estudiar
los modelos macroeconmicos (clsico, neoclsico, keynesiano, por ejemplo) y
obtener las variables exgenas denominadas PESTA (P de variables de tipo
poltico, E de econmicas, S de variables sociales, T de tecnolgicas y A de
variables de tipo ambiental).
- Aspectos polticos y legales: comprenden factores como la estabilidad
general del entorno, legislacin laboral, comercial, civil y tributaria, que
impactan o pueden impactar en el desarrollo y el clima de la organizacin en
general o de sectores en particular.
- Aspectos econmicos: son variables econmicas que inciden en el resultado
de la organizacin. Entre ellas encontramos variables como indicadores
macroeconmicos (tasa de inters, inflacin, tipo de cambio, PIB, IMACEC,
etc.), polticas comerciales, acuerdos de libre comercio, organismos
regulatorios, etc.
- Aspectos sociales: la organizacin genera cambios sociales y es receptora del
impacto que esas transformaciones puedan generar en el entorno. Estilos de
vida diferentes, gustos, el desarrollo, los valores y las costumbres no pueden ser
ajenos en un anlisis del macro-entorno.
- Aspectos tecnolgicos: descubrimientos cientficos, el impacto del desarrollo
de productos de tecnologas relacionados con la actividad de la organizacin, y
todos aquellos conocimientos que impliquen cambios en la forma de operar de
la empresa en forma directa o indirecta.
23

- Aspectos ambientales y ecolgicos: todos aquellos relacionados con el


medioambiente.
El micro-entorno est compuesto por factores externos a la organizacin, del
sector industrial en la que participa, y que inciden en el resultado del negocio, y
que la empresa por s misma, a travs de sus acciones y decisiones tambin
puede afectar. Los principales elementos que conforman el micro-entorno, son:
los competidores, los proveedores, los clientes, las empresas que desean entrar
al sector y las que producen productos sustitutos y complementarios, los
empleados y la comunidad en general. Uno de los modelos ms utilizados para
analizar el micro-entorno es el desarrollado por el profesor Michael Porter
(Porter M. E., 1980), (Porter M. E., Ventaja Competitiva, 1987), conocido
como el modelo de las fuerzas competitivas.
Una vez realizado el anlisis del entorno de la organizacin, se resumen la
variables y factores externos no controlables, pero que afectan directamente a la
organizacin en una tabla como la siguiente (ver FIG. 7), y en el caso de
algunas variables cuantitativas fundamentales, se pueden aplicar mtodos o
modelos de minera de datos para explicar su comportamiento.

FIG. 7: TABLA FACTORES CRTICOS EXTERNOS: OPORTUNIDADES Y


AMENAZAS.

FIG. 8: VARIABLE EXTERNA: AMENAZA (PRECIO PETRLEO).

Por ejemplo, en el sector de transporte se presenta actualmente niveles


decrecientes de rentabilidad sobre las ventas, debido a la evolucin relativa de
oferta y demanda, y a los elevados aumentos del costo del combustible, que han
dificultado la transmisin del mismo a los clientes. Por lo cual, esta es una gran
amenaza para las empresas del sector y es un factor crtico que hay que
estudiarlo con especial cuidado, a travs de modelos economtricos.

24

2.6 Mtodos y Procedimientos para Realizar el Anlisis Interno del


Sistema.
En esta etapa se considera el esquema de logstica del proceso de una
organizacin y se hace una comparacin con el lder de la industria. Adems, se
analizan los indicadores financieros de la misma manera.
La logstica incluye todas y cada una de las operaciones necesarias para
mantener la actividad de la organizacin: desde la programacin de compras
hasta el servicio postventa pasando por aprovisionamiento, planificacin y
gestin de la operacin, almacenaje, diseo, embalaje, etiquetado, clasificacin
y distribucin fsica.
Desde el punto financiero se utilizan los estados financieros que proveen
informacin sobre el patrimonio de la organizacin a una fecha y su evolucin
econmica y financiera en el perodo que abarcan, para facilitar la toma de
decisiones; se incluyen ndices de liquidez, ndices de endeudamiento, ndices
de rentabilidad, ndices de cobertura e ndices de valoracin.
La metodologa utilizada para hacer los anlisis financieros es: 1) Muestra
Representativa. Este mtodo consiste en compararse con el competidor clave o
grupo de competidores y/o se compara con el promedio de la industria; 2)
Series Temporales. Consiste en comparar el rendimiento actual y el pasado;
cualquier cambio significativo, de un ao a otro, puede ser una SEAL
importante; 3) Anlisis Combinado. Este mtodo es una combinacin de los
dos mtodos anteriores.
Una vez terminado el anlisis interno de la organizacin, donde se han
descubierto los factores fundamentales que distinguen a la organizacin de su
competencia. Esta informacin de las variables fundamentales internas de la
organizacin se resume en la siguiente tabla (ver FIG. 9), y las variables
cuantitativas crticas y controlables, se pueden explicar a travs de modelos
cuantitativos que proporciona la minera de datos.

FIG. 9: TABLA DE FACTORES INTERNOS: FORTALEZAS Y DEBILIDADES.

25

FIG. 10: FACTOR INTERNO: FORTALEZA

2.7 Estudio de Mercados.


a. Revisin y seleccin de los modelos de negocios. En una organizacin se
pueden identificar varios modelos de negocios, si es as el anlisis debe ser
independiente, porque los factores involucrados pueden ser muy diferentes, por
ejemplo, mercados distintos, productos diferentes, procesos y recursos
dismiles.
b. Aplicar un proceso de segmentacin de mercado. Es un proceso que consiste
en dividir el mercado de un bien o servicio en varios grupos ms pequeos e
internamente homogneos. Aplicando tcnica de clster, con procedimientos de
(Shmueli, G., Patel, N., & Bruce, P., 2007): a) clster de dos etapas; b) kmedias o c) jerrquicos.

FIG. 11: CLSTER, MTODO K MEDIAS.

Tambin se puede aplicar BI (Shmueli, G., Patel, N., & Bruce, P., 2007), que es
el proceso de extraccin de datos desde bases de datos internas y externas a la
organizacin y luego el anlisis de estos, para extraer informacin susceptible
de usar para tomar decisiones y acciones de negocios informadas. Y se dispone
de tcnicas y software de redes neuronales (MLP, mapas auto organizativos),
rboles de decisin (CART, ID3, C4.5, CHAID); regresiones: lineal, lgica,
probit, reglas de asociacin, lgica difusa; software, por ejemplo: Oracle, SAS,
SPSS, Data Engine, Clementine, Matlab, Eviews, entre otros.

26

El proceso fundamental asociado al tratamiento de datos es conocido como


KDD (Knowledge Discovery in Databases), que se refiere al proceso de
descubrir conocimiento e informacin potencialmente til para la toma de
decisiones en los datos contenidos en bases de datos (Hernndez, J., Ferri
Ramirez, C., Ramirez Quintana, Ma, 2004).
Este es un proceso iterativo que tiene varias etapas, comenzando con: 1)
Seleccin de los datos. En esta etapa se obtienen los datos importantes para el
anlisis desde distintas fuentes de informacin, bases de datos internas y
externas a la organizacin, archivos planos, etc.; 2) Preprocesamiento. Aqu se
hace la preparacin y limpieza de los datos que fueron extrados de las distintas
fuentes de informacin, se utilizan diversas tcnicas para manejar datos
faltantes, datos inconsistentes o fuera de rango; 3) Transformacin. En esta
etapa se transforman o generan nuevas variables a partir de las existentes, con
una estructura apropiada para la situacin; 4) Data Mining. Esta es la etapa de
modelamiento propiamente tal, donde se prueban diferentes modelos con el
propsito de descubrir patrones desconocidos, nuevos y tiles para tomar
decisiones, que estn ocultos en los datos de las bases de datos; 5) Evaluacin.
Se analizan los patrones tiles, basndose en algunos estadsticos o mtricas y
se interpretan los resultados obtenidos. Con este conocimiento generado se
pueden generar y fundamentar las estrategias y acciones que se deben
desarrollar en la organizacin.
En la FIG. 12, se presenta el esquema del proceso (Shmueli, G., Patel, N., &
Bruce, P., 2007).

FIG. 12: PROCESO KNOWLEDGE DISCOVERY IN DATABASES.

2.8 Mtodos y Procedimientos para Establecer el Posicionamiento


Estratgico y Estrategia Fundamental del Sistema.
Para establecer la estrategia fundamental del sistema, se utiliza el paradigma
del rombo (Saavedra, O., Saavedra, D. & Torres, A., 2012), en el cual se
presentan 4 posicionamientos estratgicos bsicos:

27

FIG. 13: ESQUEMA ESTRATEGIA FUNDAMENTAL DE LA ORGANIZACIN,


PARADIGMA ROMBO.

i)

Mejor producto, (Hax, A. & Wilde, D., 2003): cuya filosofa


fundamental es mercado amplio y en competencia, con las
estrategias de liderazgo en costo, diferenciacin y concentracin.

ii)

Nuevos mercados: donde la filosofa fundamental es desarrollar


productos nuevos o mercados nuevos, donde la competencia no es
tan relevante como la vinculacin con los clientes y la innovacin
(Chang, W. & Mauborgne, R., 2005), con las estrategias de:
reingeniera de producto, desarrollo de nuevos productos,
desarrollo de mercados (crear y capturar nueva demanda,
aprovechando las cosas que tienen en comn los no clientes, o
reconstruir las fronteras del mercado).

iii)

Solucin integral al cliente (Hax, A. & Wilde, D., 1999), (Hax, A.


& Wilde, D., 2003): ac la filosofa fundamental es la vinculacin
con el cliente clave con productos hecho a la medida, con las
estrategias de redefinir la experiencia cliente, amplitud horizontal e
integracin del cliente.

iv)

Sistema cerrado, (Hax, A. & Wilde, D., 2003): la filosofa


fundamente establece la vinculacin con el cliente con el apoyo de
empresas complementadoras, haciendo uso de estrategias de
estndar de propiedad, mercado dominante y acceso restringido.

Luego, hay que definir las ventajas competitivas para cada uno de los negocios,
esto consiste en pensar en el corazn de las estrategias, y radica en determinar
de qu manera especfica dicho negocio va a competir en su mercado. Por qu
28

me prefiere un cliente?, una vez que me ha preferido, por qu debiera seguir


hacindolo?, son dos preguntas cuyas respuestas constituyen la esencia del
xito de cualquier empresa y estn en el origen de la definicin de la ventaja
competitiva. Para que la estrategia empresarial sea exitosa, la compaa
necesita ser eficiente en su actuar.
El posicionamiento estratgico de nuevos mercados, lleva a las
organizaciones a generar un nuevo espacio de mercado haciendo irrelevante la
competencia, creando y capturando nueva demanda, alineando todas las
actividades de la organizacin con el objetivo de procurar la oportunidad de un
nuevo negocio y a la vez un aumento del valor de los productos.
Las actividades de estas organizaciones se hallan definidas por un espacio del
mercado an no explotado, y constituyen una oportunidad de fuertes ganancias.
Si bien algunos de los procesos son creados ms all de las industrias
tradicionales, en general surgen como resultado de la expansin de los lmites
de las industrias ya existentes (Chang, W. & Mauborgne, R., 2005) (como en el
caso del Cirque du Soleil), la competencia es irrelevante ya que las reglas del
juego an no han sido determinadas.
Se trata de generar poderosos saltos de valor que constituyan en s mismo una
barrera infranqueable para la competencia, al menos durante un perodo
suficientemente largo de tiempo.
La filosofa es la innovacin de valor (Chang, W. & Mauborgne, R., 2005),
se produce cuando las organizaciones alinean innovacin con utilidad, precio y
costos. Esto es una nueva manera de pensar y ejecutar la estrategia
fundamental, que trae como resultado la creacin de una nueva oportunidad y
una ruptura con la competencia.
El posicionamiento estratgico de mejor producto, (Hax, A. & Wilde, D.,
2003) considera todas aquellas industrias ya existentes en la actualidad (es un
mercado conocido y habitualmente masivo o segmentado). En el mismo, los
lmites de las industrias estn definidos y son conocidos por todos, al igual que
las reglas que rigen el mercado. En este escenario, las organizaciones tratan de
lograr ventajas competitivas frente a sus competidoras a fin de ganar una
porcin mayor del mercado.
Es en este mercado (masivo) donde el espacio se torna multitudinario y los
productos tienden a ser homogneos, poco diferenciados (commodities), o es
necesario un fuerte apoyo en marketing y una marca de mucho prestigio y
respaldo; las expectativas de crecimiento y rentabilidad son reducidas y ms
an si las organizaciones de la industrias entran en una guerra de precios.
Asimismo en este enfoque surgen una serie de supuestos que subyacen a la
definicin estratgica de muchas organizaciones, tales como (Chang, W. &
Mauborgne, R., 2005), (Hax, A. & Wilde, D., 2003):

29

Definir la industria tal cual lo hacen los competidores focalizando la


estrategia en ser los mejores dentro de la industria.

Mirar en sus industrias a travs de la ptica de estrategias generalmente


aceptadas (tales como la de los automviles de lujo), esforzndose por
destacarse dentro del grupo de pertenencia.

Focalizar en el mismo grupo de compradores.

Definir el alcance de los productos y servicios ofrecidos de manera


similar al del resto de la industria.

Aceptar la orientacin funcional o emocional de la industria en la que


est.

En el sentido ms amplio, una organizacin compite no slo con las


instituciones de su misma industria sino tambin con todas aquellas que
producen servicios o productos alternativos al propio. Al referirse a alternativas
no se limita slo a los productos y servicios substitutos, sino tambin a todos
aquellos productos o servicios que tengan diferente forma y funcin, pero el
mismo propsito. Un ejemplo de esto son los cines y los restaurantes, ya que si
bien no son substitutos, constituyen una alternativa en s mismo ya que
cumplen el mismo objetivo, el disfrutar de una salida o entretenimiento.
De esta manera, si bien se tiende a reaccionar frente a la accin de algn
competidor dentro de la industria, no se toma en consideracin lo que sucede en
las industrias alternativas a nuestros productos o servicios.
Para lograrlo las organizaciones deben desafiar dos procesos estratgicos
convencionales: la focalizacin sobre los clientes actuales y la tendencia a
segmentar finamente a fin de acomodar la oferta a las diferencias entre
compradores.
Las organizaciones se deben focalizar sobre sus no clientes (Chang, W. &
Mauborgne, R., 2005), en lugar de focalizar sobre las diferencias entre clientes;
deben tratar de construir lo comn en lo que el cliente valora.
Los no clientes pueden ser divididos en tres categoras: la primera est
compuesta por aquellos no clientes que se encuentran al borde del mercado;
eventualmente comprarn la oferta, pero mentalmente se sienten como no
clientes de la industria. Apenas tengan la oportunidad abandonarn este
mercado, pero ante una oferta de valor que pueda satisfacerlos, podra
quedarse, multiplicando asimismo su frecuencia de compra.
La segunda categora de no clientes est constituida por aquellos que se niegan
a las ofertas de la industria. Son agentes que han visto lo que se ofrece, pero se
niegan a adoptarlo.

30

Finalmente la tercera categora se compone por aquellos que nunca han


pensado en sus ofertas de mercado como una opcin.
Focalizando sobre los aspectos comunes entre estos no clientes y los clientes
actuales, las organizaciones pueden entender como acercar a estas personas al
nuevo mercado.
Si bien el trmino posicionamiento estratgico de nuevos mercados puede
parecer nuevo, la existencia del mismo no lo es. Echando una mirada
retrospectiva a los ltimos 100 aos es fcil percibir que existen muchas
industrias (Chang, W. & Mauborgne, R., 2005) que eran desconocidas entonces
(petroqumicas, automviles, aviacin, etc.), as como al observar los ltimos
30 aos podremos ver el surgimiento de nuevas industrias no imaginadas
previamente (biotecnologas, bioinformtica, telefona celular, videos, correos
privados, etc.). Esto habla de la irrupcin de nuevas maneras de hacer negocios
a lo largo de la historia de la era industrial. La realidad es que las industrias
nunca quedan estticas y continuamente evolucionan.
La historia de las industrias muestra que el universo del mercado nunca ha sido
constante, crendose infinidad de posibilidades; focalizarse en el
posicionamiento estratgico de mejor producto es aceptar los factores
limitantes de la guerra (territorio limitado y la necesidad de vencer al enemigo),
negando la fortaleza distintiva del mundo de los negocios: la posibilidad de
crear nuevos espacios de mercado que sean vrgenes an.
En el posicionamiento estratgico nuevos mercados, la filosofa fundamental
es desarrollar productos nuevos o mercados nuevos, donde la competencia no
es tan relevante como la vinculacin con los clientes y la innovacin de valor
(Saavedra, O., Saavedra, D. & Torres, A., 2012).
Se consideran en este posicionamiento tres estrategias fundamentales:

Reingeniera de producto.

Desarrollo de nuevos productos.

Desarrollo de mercado (crear y capturar nueva demanda, aprovechando


las cosas que tienen en comn los no clientes o reconstruir las fronteras
del mercado).

a.- La estrategia de reingeniera de producto se puede ilustrar con el proceso


desarrollado por el Cirque du Soleil, cuyo xito es alcanzado en una industria
en decadencia, compitiendo en un mercado (entretenimiento) donde surgan
novedades (por ejemplo, las consolas de juego, que motivan a los nios a
permanecer en sus hogares y no asistir al circo tradicional), y donde asimismo
las asociaciones de derechos de los animales incrementaban sus campaas en
contra de la utilizacin de animales en el espectculo. Como vemos desde el
punto de vista de una estrategia basada en la competencia, la industria del circo
31

parecera poco atractiva. Por lo cual, esta organizacin realiz una re-ingeniera
en el servicio de la entretencin, reconocida en todo el mundo por presentar
entretenimiento artstico de muy buena calidad.
Creado en 1984, las producciones del Cirque du Soleil han sido vistas por unos
40 millones de espectadores a travs del mundo. Su nivel de ingresos ha
alcanzado en slo 20 aos cifras similares a los de los circos Ringling BROS y
Barnum & Bailey durante ms de 100 aos (Chang, W. & Mauborgne, R.,
2005).
Montando un espectculo totalmente diferenciado de sus competidores, el
Cirque du Soleil alcanza un xito sustentado en la creacin de un nuevo
mercado que hizo que la competencia se convirtiera en irrelevante. Este circo
no crece a costa de los consumidores habituales de los circos competidores,
sino que su espectculo se dirige a un nuevo grupo de consumidores adultos
dispuestos a pagar una entrada sustancialmente ms cara a fin de ver un
espectculo que no tiene precedentes.
En este sentido se sugiere orientar la estrategia fundamental, pasando a
focalizar en alternativas en lugar de competidores y en no clientes en lugar de
clientes.
b.- La estrategia de nuevos productos se desarrolla cuando se potencia la I+D
en una organizacin con el fin de que permita llevar a cabo polticas de
lanzamiento de nuevos productos, de adaptacin de procesos, de diferenciacin
de productos, de venta de tecnologa y de independencia tcnica respecto a
otras empresas y pases. Estrategia de diferenciacin en calidad, servicio o
distribucin. Estrategia de nicho, que consiste en la especializacin por
producto, clientes o zonas geogrficas.
Esta estrategia consiste en crear nuevos productos para el mundo, en construir
algo que no existe, en inventar satisfactores nuevos, como en su momento lo
fueron el telfono celular, el fax, la Internet, las agendas palm, etctera.
Las decisiones estratgicas que pueden acompaar la estrategia de nuevo
producto son (Hax, A. & Majluf, N., 1996):
Estrategia de alta penetracin. El producto nuevo se lanza a un precio elevado
con el propsito de recobrar el beneficio bruto de cada unidad. Al mismo
tiempo, se gastar mucho en promocin con la finalidad de convencer o atraer
al mercado sobre los beneficios y excelencias del producto, no importando su
alto precio. La promocin facilitar o acelerar la penetracin del producto en
el mercado; esta decisin estratgica se explica con las siguientes suposiciones:
el mercado potencial no conoce el producto; quienes se enteran del nuevo
producto, estn impacientes por comprarlo, lo hacen al precio establecido; la
organizacin tendr que crear la preferencia de marca.

32

Estrategia de penetracin selectiva. Consiste en lanzar el nuevo producto a un


precio elevado y con escasa promocin. El propsito es recuperar la mayor
cantidad de beneficios por unidad y mantener bajos los gastos de la
mercadotecnia; de esta manera se espera percibir ms utilidades. Esta decisin
estratgica se explica con base en los siguientes puntos: el mercado es de
proporciones relativamente limitadas y los que deseen el producto lo pagarn a
precio alto.
Estrategia de penetracin ambiciosa. Consiste en lanzar un producto a bajo
precio con una fuerte promocin, intentndose con ello un rpido
posicionamiento en el mercado y, por ende, mayor participacin del mismo.
Esta decisin estratgica se explica por las siguientes circunstancias: el
mercado es grande; el mercado desconoce el producto; el consumidor es en
general ms sensible a los precios; los costos de elaboracin por unidad
disminuyen con la escala de produccin y la experiencia de produccin
acumulada.
Estrategia de baja penetracin. Se lanza el producto a un precio bajo y con poca
promocin para estimular la aceptacin rpida en el mercado y, al mismo
tiempo, mantener bajos los costos de promocin para percibir una utilidad
mayor. Esta decisin estratgica supone lo siguiente: el mercado es grande y es
sensible a los precios.
c.- La estrategia de nuevos mercados donde el desafo consiste en identificar
exitosamente entre la infinidad de posibilidades existentes, una oportunidad
comercial convincente (Saavedra, O., Saavedra, D. & Torres, A., 2012).
Todas las industrias estn sujetas al efecto de tendencias externas que afectan
su negocio a travs del tiempo (ver, por ejemplo, el surgimiento de Internet, el
movimiento global a favor de la proteccin del medio ambiente o
responsabilidad social). Hay que permitirse mirar a travs de esas tendencias
preguntndose como las mismas van a modificar el concepto de valor del
cliente, y como van a impactar sobre el modelo de negocio de la industria
puede facilitar la creacin de un nuevo mercado (un ejemplo de esto es el
mercado de la msica digital y la aparicin de Internet).
Son sectores de reciente aparicin, consecuencia de la revolucin tecnolgica.
Caractersticas: estrategia de internacionalizacin ampliando mercados y
alargando su ciclo de vida. Estrategias de crecimiento externo a travs de
fusiones o adquisiciones que permita aumentar el tamao y reforzar el
posicionamiento estratgico.
2.9 Mtodos para el Diseo de Cuadro de Mando Integral
El cuadro de mando integral (CMI) fue creado por R. Kaplan y D. Norton
(Kaplan, R., & Norton, D., 1993), (Kaplan, R., & Norton, D., 2004), y es un
instrumento para apoyar a los directivos en el trabajo con sus objetivos y los
medios para lograrlos. Para ello plantearon cuatro perspectivas bsicas:
33

financiera, del cliente, de procesos internos y de crecimiento y aprendizaje


(Kaplan, R., & Norton, D., 1993), (Kaplan, R., & Norton, D., 2004). Sin
embargo, stas pueden modificarse de acuerdo a las necesidades de cada
organizacin, manteniendo el equilibrio entre las perspectivas que representen
al modelo de negocio.
Adems, plantean la necesidad de establecer metas crebles y perseguir la
mejora continua en la planificacin estratgica y en el mejoramiento operativo
de las organizaciones.
Esta metodologa de sistema de control es el vnculo entre la planificacin
estratgica, que es la etapa del pensar (proceso de decidir anticipadamente
qu se har en el futuro y de qu manera. Seleccin de los objetivos, las
estrategias y las acciones para lograrlos) en el proceso de direccin estratgica
y la etapa del hacer (son las actividades que se deben desarrollar para lograr
los objetivos declarados y comprometidos, este conjunto de actividades
conforman los proyectos y el plan de accin de la organizacin. Este plan
operativo interrelaciona operativamente la misin, los objetivos estratgicos,
las estrategias, los proyectos, los costos asociados, los perodos de realizacin y
los responsables de la ejecucin), es decir, el rol del cuadro de mando integral
en el proceso de direccin estratgica es el engranaje entre la visin estratgica
de la organizacin y el plan de accin (Saavedra, O. & Kristjanpoller, W.,
2012).
Esta herramienta se apoya fuertemente sobre la base de indicadores cuyos
valores representan un fenmeno o situacin dada, lo que permite trazar
polticas correctivas o proactivas a la administracin, de tal forma de adoptar e
implementar las mejores prcticas, realizando una revisin peridica del estado
de los indicadores y con ello confirmar los avances obtenidos por las distintas
reas de la organizacin, en el logro de los objetivos estratgicos para alcanzar
un nivel de superioridad o ventaja competitiva.
Los elementos necesarios para configurar adecuadamente un CMI, son:
1) Misin, visualizacin y valores. La aplicacin de un CMI comienza con la
definicin de la misin, visualizacin y valores de la organizacin y slo ser
consistente si se han conceptualizado esos elementos.
2) Perspectivas, mapas estratgicos y objetivos. Los mapas estratgicos se
refieren al conjunto de objetivos estratgicos que se conectan a travs de
relaciones causales. Los mapas estratgicos son el aporte conceptual ms
importante del CMI (Kaplan, R., & Norton, D., 1993), (Kaplan, R., & Norton,
D., 2004). Ayudan a entender la coherencia entre los objetivos estratgicos y
permiten visualizar de manera sencilla y muy grfica la estrategia de la
organizacin. Las perspectivas sirven para clasificar los objetivos permitiendo
equilibrar la informacin y disponer de varias perspectivas claras de
informacin. Mediante las perspectivas se obtiene una visin global de la
unidad y mediante los indicadores asignados a cada perspectiva se concretan
34

los resultados de los objetivos a conseguir. Las perspectivas del cuadro de


mando se describen a continuacin y se representan esquemticamente en las
figuras 14 y 15.
2.10 Caso: Direccin Estratgica en Organizaciones sin Fines de Lucro.
En este caso se presenta una aplicacin de un modelo de control de gestin a un
departamento acadmico de una universidad (Saavedra, O. & Kristjanpoller,
W., 2012). Se sabe que las universidades que participan en el sistema de
educacin superior en Chile, desarrollan sus actividades de docencia,
investigacin, extensin y cultura, en un ambiente muy competitivo; en estas
circunstancias para lograr su viabilidad en el largo plazo, algunas han definido
cmo estrategia fundamental una direccin sustentada en unidades estratgicas
de negocios, UEN.
El cuadro de mando integral, CMI, para estas organizaciones puede parecer
muy similar a los que se desarrollan en organizaciones con fines de lucro, a
pesar que enfatizan un papel aun ms fuerte de los usuarios y empleados a la
hora de especificar sus objetivos e indicadores. En estas organizaciones, el CMI
proporciona la razn principal de su existencia (servir a los usuarios, y no
nicamente manteniendo el gasto dentro de los lmites presupuestarios), y
comunicar a la sociedad y a los empleados internos los resultados y los
inductores de actuacin por medio de los cuales la organizacin conseguir
alcanzar su misin y lineamientos estratgicos. Por esta razn, se incorpora en
el modelo inicial una quinta perspectiva o dimensin, fundamentada en
principios de la Neurociencia la cual ha sido una disciplina cientfica que ha
tomado un auge relevante en los ltimos aos-.
El objetivo fundamental de esta propuesta fue aplicar el cuadro de mando
integral en una unidad acadmica para promover la auto-evaluacin, la autoregulacin en la gestin, el pensamiento estratgico y el mejoramiento
continuo, con el apoyo de tecnologas de la informacin (Saavedra, O. &
Kristjanpoller, W., 2012).
Las organizaciones sin nimo de lucro, como su orientacin y nombre lo
indican, no estn destinadas a obtener una ganancia monetaria, sino al logro de
una misin. Obviamente, para su subsistencia y para su operacin, requieren
mantener un objetivo de buen rendimiento financiero en el largo plazo, porque
el mal uso de presupuestos o la falta de recursos financieros pueden
desembocar en una baja en la moral o en la desaparicin de la organizacin. Sin
embargo, la disponibilidad y el uso adecuado de los fondos financieros
recaudados o asignados a la organizacin, es uno de sus indicadores de xito,
pero de ninguna manera "miden" su razn de ser. Para estas organizaciones, la
satisfaccin de los usuarios (sea este un sector de la comunidad, un estado, un
pas o el mundo), es el fin ltimo que debe reflejar el xito de estas
organizaciones, y probablemente sea tambin, al menos en parte, el proveedor
de los fondos (aportes, donaciones).

35

FIG. 14: MAPA ESTRATGICO, CASO ACADMICO.

Los cinco aspectos fundamentales de la quinta perspectiva tienen como


denominador comn que todos estos son fundamentales para las personas en las
organizaciones, incrementan la concentracin, la productividad, la motivacin,
el liderazgo, el empoderamiento, etc. Se debe lograr crear una comunidad de
talentos, de modo de atraer, desarrollar, motivar, comprender y retener la
mejor dotacin de ellos. Permitir el desarrollo de carrera y capacitacin del
personal. As entonces se da cuenta de forma inequvoca la conexin del
personal con la estrategia fundamental de la organizacin (Saavedra, O. &
Kristjanpoller, W., 2012).

36

FIG. 15: TABLERO DE OBJETIVOS ESTRATGICOS E INDICADORES DE


GESTIN EN DOCENCIA.

Para soportar tecnolgicamente el CMI es necesario un pequeo data


warehouse, para un determinado nmero de usuarios, en un rea estratgica
especfica de la organizacin. Es un subconjunto de datos internos y externos
de la organizacin para un propsito concreto. Para construir tal sistema se
requiere un modelo multidimensional, que es el modo ptimo de organizar
los datos en los sistemas de BI, y puede hacerse mediante bases de datos
relacionales (ROLAP), o utilizando bases de datos multidimensionales
(MOLAP).
Una base de datos con modelo multidimensional o cubo es una base de
datos que tiene una estructura adecuada para resolver consultas analticas. Se
trata de modelos sencillos que aseguran unos buenos tiempos de respuesta, y
que se corresponden bastante con el lenguaje de negocio de los directivos de
una organizacin. Las herramientas de BI se conectan al modelo
multidimensional del data warehouse. En el diseo del modelo
multidimensional se utiliza un modelo conceptual con estructura en estrella o
una estructura en copo de nieve.
Los elementos en estos modelos conceptuales son denominados hechos o
medidas (los valores almacenados en el cubo) y las dimensiones (corresponden,

37

normalmente a valores en los ejes del cubo) son normalmente variables


descriptivas con alguna escala.

FIG. 16: ESQUEMA EN ESTRELLA, CASO ACADMICO.

El CMI proporciona a las organizaciones un instrumento para respaldar la


direccin estratgica, transforma los objetivos estratgicos en un conjunto de
medidas de rendimiento posibles de controlar peridicamente. Es un mtodo
estructurado para seleccionar los indicadores de gestin que guan la direccin
en el corto y largo plazo, al combinar indicadores financieros y no financieros,
y permite adelantar tendencias y realizar una poltica estratgica proactiva.
Las iniciativas estratgicas en el tablero de control. Son las acciones o
proyectos en las que la organizacin se va a centrar para la consecucin de los
objetivos estratgicos. Es clave priorizar las iniciativas en funcin de su
impacto y contribucin a los objetivos estratgicos.

38

FIG. 17: TABLERO DE CONTROL E INICIATIVAS ESTRATGICAS, CASO EMPRESA DE


TRANSPORTE.

Un proyecto es la bsqueda de una solucin inteligente, segura, eficiente,


rentable y con un riesgo controlado, al planteamiento de una oportunidad
estratgica, establecida en un objetivo estratgico en el tablero de control.
Para cada uno de los proyectos o acciones se realiza un estudio de
prefactibilidad, donde se hace una investigacin acabada de las variables que
influyen en el proyecto y que permitan fortalecer la conveniencia de ste.
Estudios
Mercado

Fase de prefactibilidad del proyecto


Investigacin de modelo de negocios
y mercados.
Estudio procesos, unidad productora.
Estudio de regulaciones y leyes.
Estudio
organizacional,
proceso
administrativo.
Construccin flujos de caja del
proyecto. Evaluacin de indicadores
financieros y anlisis de sensibilidad.

Tcnico
Tributario, legal y ambiental
Administrativo y organizacional
Econmico y financiero

FIG. 18: ESTUDIOS PARA LA PREPARACIN Y EVALUACIN DE UN


PROYECTO.

39

CAPTULO 3: Regresin Mltiple


Gran parte de los anlisis economtricos comienzan con la siguiente premisa: Y
y X son dos variables que representan a una poblacin. Se est interesado en
explicar Y en trminos de X o estudiar como vara Y con los cambios de
X. Estas variables pueden ser de diferentes ndoles, como Y puede ser la
produccin de manzanas y X la cantidad de fertilizante o Y el nmero de robos
frente a X el nmero de personal de seguridad (Wooldridge, 2006).
Cuando se crea un modelo que explique Y en trminos de X, aparecen varios
problemas. En primer lugar, dado que nunca se da una relacin exacta entre dos
variables, cmo permitir que otros factores afecten a y? En segundo lugar,
cul es la relacin funcional existente entre Y e X?

-3,00

-2,50

-2,00

-1,50

-1,00

-0,50

0,00

0,50

1,00

X
FIG. 19: EJEMPLO GRFICO, REGRESIN LINEAL

Se puede resolver estas interrogantes estableciendo una ecuacin que relaciona


Y y X. Una forma simple sera:

Esta ecuacin es lo que se llama modelo de regresin lineal simple. Las


variables Y y X tienen diferentes nombres que se emplean indistintamente
(Gujarati, 2004):

Y: Variable dependiente, variable explicada, variable de respuesta,


variable predicha o de regresando.

X: Variable independiente, variable explicativa, variable de control,


variable predictor o regresor.

La variable , denominada trmino de error o perturbacin en la relacin,


representa factores distintos a X que afectan a Y.
o parmetro de la
40

pendiente cambio que tendr Y por cada unidad que cambie X. El trmino
constante
se emplea en muchos casos, pero generalmente no es esencial para
el anlisis.
Cuando se habla de varias variables se dice que es una regresin mltiple y
sera de la siguiente forma (Gujarati, 2004):

Donde p es el nmero de parmetros independientes a tener en cuenta en la


regresin.
Los modelos de regresin lineal son los modelos en que la variable predictora
X, la variable respuesta Y y los parmetros son lineales. Lo cual se puede
presentar como:

Donde 0 es la interseccin o trmino "constante", las otras son los parmetros


respectivos a cada variable independiente, y p es el nmero de parmetros
independientes a tener en cuenta en la regresin.
Las variables en cuestin deben ser cuantitativas. Es posible introducir en el
modelo variables cualitativas o categricas, luego de escribirlas y dejarlas
expresadas como variables dicotmicas (binarias).
En el caso de que los datos no sean la poblacin y solo sean una muestra, estos
se escriben . Se hace esta diferencia ya que estos son estimadores de
los valores poblacionales.
3.1 Supuestos para el Clculo de una Regresin Lineal
Para el clculo de una regresin lineal, sea simple o mltiple, es necesario
hacer una serie de hiptesis simplificatorias. Si estas hiptesis se cumplen
cualquiera de los mtodos que se explican en este captulo puede ser usada para
calcular los estimadores (Gujarati, 2004), (Reguera, 2000).
1. Hiptesis de linealidad en los parmetros. Establece la linealidad en los
parmetros en la relacin entre la variable endgena y las exgenas.

Ct 1 2Yt t
No hay que confundir esta hiptesis de linealidad con la linealidad entre las
variables. Por ejemplo, en las relaciones entre Y y X que se dan a continuacin,
slo la primera es formalmente lineal. Sin embargo, cumplen la hiptesis de
linealidad en los parmetros las tres ecuaciones:

41

y 1 2 x
y 1 2e x

y 1 2 ln x
En determinadas relaciones econmicas no se cumple la hiptesis de linealidad
en los coeficientes. El ejemplo clsico de una funcin que no cumple con la
linealidad de los parmetros es la funcin de produccin de tipo Cobb-Douglas,
donde se representa la funcin de produccin de la empresa, como una relacin
entre la variable trabajo y la variable stock de capital:

Y AK L
2. Hiptesis de especificacin correcta. Esta hiptesis supone que las
variables explicativas, o las X del modelo, son aquellas variables
relevantes que explican el comportamiento de la variable endgena o
Y. No existe alguna variable exgena que no explique nada de la
variable endgena; es decir, que no hay X que no aporte al modelo. En
otras palabras, el modelo est bien planteado o especificado.
Esta hiptesis supone aceptar en la prctica dos cosas no siempre ciertas
(Wooldridge, 2006):
Aceptar que siempre hay una teora detrs que me permite saber cules
son las variables relevantes en cada modelo.
Aceptar que sobre estas variables dispongo siempre de informacin
muestral adecuada.
3. Hiptesis de grados de libertad positivos. Los grados de libertad de un
modelo se definen como la diferencia entre el nmero de datos (n) y el
nmero de variables explicativas (p). Es decir,
.
Esta hiptesis supone que, como mnimo, es necesario disponer de tantos datos
como parmetros a estimar. No obstante, es preferible siempre disponer de ms
datos que parmetros a estimar.
4. Hiptesis de parmetros constantes. Esta hiptesis supone que los
parmetros son constantes en el tiempo.
5. Hiptesis de independencia lineal entre las variables explicativas. Esta
hiptesis implica que cada variable explicativa contiene informacin
adicional sobre la endgena que no est contenida en otras. Si hubiera
informacin repetida, habra variables explicativas dependientes
linealmente de otras. Formalmente, se puede resumir la informacin
muestral sobre las variables explicativas en una matriz, con la siguiente
estructura:

42

x11

x
n1

x1k

xnk

Donde cada columna recoge los datos asociados a cada variable. El hecho de
que cada columna sea linealmente independiente de las otras implica que el
rango de la matriz X es completo, es decir, igual al nmero de variables (n). Si
alguna variable es linealmente dependiente de otra, se dice que existe un
problema de multicolinealidad perfecta.
6. Hiptesis de regresores no estocsticos. Esta hiptesis implica que los
datos de las variables explicativas son fijos en muestras repetidas.
Existen tres situaciones en econometra donde no es posible mantener esta
hiptesis:
Modelos de ecuaciones simultneas. Por ejemplo, un modelo de demanda y de
oferta de un bien que se intercambia en un mercado competitivo en equilibrio,
se puede escribir:

qtd a bpt 1t
pt c dqto 2t
qtd qto , t 1, 2,

,n

Donde se observa una relacin bidireccional entre el precio (p) y la cantidad


intercambiada (q), de forma que el precio es una variable exgena en la
ecuacin de demanda y pasa a ser la variable endgena en la ecuacin de oferta
y por tanto, esto hace que sea un regresor estocstico.
Modelos dinmicos en los que aparecen como regresores sucesivos retardos de
la variable endgena. Por ejemplo, si en la relacin entre consumo y renta se
supone un modelo dinmico como:

Ct 1 2Ct 1 3Yt t
donde el propio modelo indica que el consumo retardado es un regresor
estocstico al depender de un error aleatorio.
Modelos con errores de medida en las variables explicativas. Bajo la hiptesis
de renta permanente de Friedman, el consumo slo depende del componente
permanente de la renta ( Yt P ):

Ct bYt P t
43

Yt Yt P YtT
donde el componente transitorio ( Yt T ) o las desviaciones aleatorias alrededor
de la renta media de un agente no es observable. Por tanto, la renta permanente
( Yt P ) es un regresor estocstico, ya que Yt P Yt YtT .
7. Hiptesis referentes a las perturbaciones aleatorias del modelo o
hiptesis de Gauss-Markov. El trmino de error satisface las siguientes
hiptesis:
Esperanza nula en todo instante de tiempo: Ya que es tratado como la suma de
muchos efectos individuales sobre la variable endgena o Y, donde el signo de
cada uno es desconocido, no existe ninguna razn para esperar cualquier valor
distinto de cero. Matemticamente (Gujarati, 2004):

Una situacin en la que se incumple esta hiptesis es cuando, a su vez, se


incumple otra, como es omitir en el modelo una variable relevante.
Varianza constante (homocedasticidad): La homocedasticidad es una propiedad
fundamental del modelo de regresin lineal general y est dentro de sus
supuestos clsicos bsicos.
Se dice que existe homocedasticidad cuando la varianza de los errores
estocsticos de la regresin es la misma para cada observacin i (de 1
a n observaciones), es decir:
(

Donde
es un escalar constante para toda i. Lo que significara que habra
una distribucin de probabilidad de idntica amplitud para cada variable
aleatoria.
Esta cualidad es necesaria, segn el Teorema de Gauss-Markov, para que en un
modelo los coeficientes estimados sean los mejores o eficientes, lineales e
insesgados. (Gujarati, 2004)

44

FIG. 20: DISTRIBUCIN HOMOCEDSTICA (FUENTE: (GUJARATI, 2004)).

FIG. 21: DISTRIBUCIN HETEROCEDSTICA (FUENTE: (GUJARATI, 2004)).

Ausencia de autocorrelacin en todo instante de tiempo. Si hay autocorrelacin,


el error en un momento del tiempo ayudara a predecir el error en un momento
posterior y los errores tendran inercia. Si no hay autocorrelacin, la historia
pasada no ayuda a predecir el comportamiento futuro y los errores son
completamente aleatorios e imprevisibles.
Es muy frecuente el incumplimiento de esta hiptesis en modelos donde se
usan datos de series temporales.
Estas restricciones se imponen para exigir un buen comportamiento a las
variables, aunque tambin hay razones tcnicas que nos obligan a hacer estas
hiptesis, para as poder hacer los clculos de los estimadores por los mtodos
que se presentarn ms adelante.
Esto se puede ver en el clculo de su media y varianza del error. Teniendo n
variables aleatorias, tendremos (1, 2 , n ) :
Media: Sera un vector de n medias, E ( ) .

1 1
E . = .

n n
45

Matriz de varianzas y covarianzas: Sera una matriz que recoge las varianzas de
cada variable en la diagonal principal y las covarianzas entre una perturbacin
y otra diferente fuera de la diagonal. Es simtrica, definida positiva y de
tamao n n .
var(1 ) cov(1 2 )

cov( 21 ) var( 2 )
var( )

.
.

cov( n1 ) cov( n 2 )

. cov(1 n ) E (12 ) E (1 2 )

. cov( 2 n ) E ( 21 ) E ( 22 )

.
.
.
.

. var( n ) E ( n1 ) E ( 2 n )

Los elementos diferentes de dicha matriz son

. E (1 n )

. E ( 2 n )

.
.

2
. E ( n )

n(n 1)
. No obstante, si la
2

muestra disponible es de tamao n , ya no tenemos grados de libertad para


caracterizar el trmino de error, ya que habra que estimar medias y varianzas
y covarianzas distintas. Las hiptesis hacen que el vector de medias sea nulo y
la matriz de varianza-covarianza una matriz diagonal, en donde slo habra que
estimar la varianza constante, ya que por ausencia de autocorrelacin todas las
covarianzas son cero.
3.2 Notacin Matricial del Modelo Lineal General
La informacin asociada a la variable endgena se almacena en un vector
columna Y de tamao n1 :
Y= ( )
La informacin asociada a las variables explicativas se recoge en una matriz
llamada X de tamao:
(

Las perturbaciones en un vector de tamao n1 y los parmetros en un


vector de tamao p x 1:

= ( ) ;

46

=( )

El modelo lineal general (MLG) escrito en forma matricial o compacta es:


( )

)(

( )

o bien, Y =X + . Este es un sistema de n ecuaciones que se corresponde


con la forma compacta de escribir el MLG.
Las hiptesis sobre las perturbaciones en notacin matricial son:
E( ) = 0 ; var ( ) = E( T ) = 2 I, donde I es la matriz identidad
3.3 Mtodos de Clculo de los Estimadores
Mnimos cuadrados ordinarios (MCO) (Gujarati, 2004), (Wooldridge, 2006).
Esta es la tcnica ms usada para calcular los estimadores de una regresin
mltiple, est en todo los programas de minera de datos, para usarlo se deben
cumplir todos los supuestos nombrados anteriormente. El objetivo de esta es
minimizar la suma de los cuadrados de los errores ( ). Matemticamente sera:

Siendo el valor real de la variable a predecir y el valor predicho de la


el error.
variable e
Dada la formacin matricial mostrada anteriormente, Y =X + , el objetivo
es, de nuevo, obtener la expresin analtica del estimador MCO de . Para
ello, se define el vector de residuos de tamao n1 que una vez conseguida
una estimacin del vector , se calcular como:

Y X
La funcin objetivo minimizar la suma de cuadrados de los residuos con
respecto a los p parmetros del modelo se puede escribirse como:
n

min t2 min T min(Y X )T (Y X )


t 1

Operando:
47

min(Y T T X T )(Y X ) min(Y T Y 2 T X T Y T T X T X )


Condiciones de primer orden:

T
2 X T Y 2 X T X 0

donde se han tenido en cuenta los siguientes resultados sobre las derivadas
matriciales:

z T w
w
z

zT Az
2 Az
z

siendo z y w dos vectores de tamao compatible y A una matriz cuadrada. La


solucin analtica a las condiciones de primer orden es:

Este es un sistema de p ecuaciones con p incgnitas ( 1 , 2 ,..., k ), llamado


sistema de ecuaciones normales. El estimador que satisface este sistema se
llama estimador por MCO. La forma ms sencilla de resolver este sistema es
multiplicar el mismo por la inversa de la matriz X T X de tamao (p x p),
teniendo que:

En el caso de una regresin lineal simple quedara:

Estimacin por mxima verosimilitud


Este es un proceso de optimizacin de la variable L, la cual es expresada como:

48

En esta optimizacin se busca encontrar los estimadores y la varianza muestral


(S2) tales que L sea mxima. Para hacerlo hay que seguir los siguientes pasos:
1. Aplicar logaritmo a L a fin de obtener 1 = Ln (L)
2. Derivar Ln(L) respecto a
y , igualar las derivadas a cero y resolver
2
para los estimadores y S el sistema de ecuaciones resultante.
3. Resultan los estimadores:
(

( )

Para usar este mtodo se piden los mismos supuestos que en MCO agregado el
de la distribucin normal de los errores. (Reguera, 2000), (Gujarati, 2004).
Mnimos cuadrados generalizados o ponderados
Dada la existencia de autocorrelacin o de heterocedasticidad en los modelos
estos pueden ser calculados a travs del mtodo de los mnimos cuadrados
generalizados (Gujarati, 2004). El nico requisito que se mantiene es que la
media de los residuales debe ser cero (Reguera, 2000). Donde los estimadores
se pueden calcular como:

Siendo G:
( )

Dependiendo de G como es la estructura del modelo:


Si G = I (Matriz identidad) los residuales son homocedsticos e
incorrelacionados.
Si G es una matriz diagonal general, G = Diagonal(12, 22, 32,, n2)
los residuales estn incorrelacionados pero son heterocedsticos.
Si G es una matriz simtrica general, los residuos son heterocedsticos
y estn correlacionados.
3.4 Evaluacin del Modelo
Para ver la eficiencia de un modelo de regresin lineal simple o mltiple se
ocupan principalmente indicadores y dcima para ver que tan buenos son los
parmetros calculados (Gujarati, 2004), (Wooldridge, 2006).

49

Anlisis de varianza o tabla ANOVA (anlisis de varianza)


Cuando se calcula un modelo multivariante todos estos tienen un error frente a
la variable verdadera, este error se puede dividir en dos tipos principalmente:

Error por la regresin (SCE): Es el error que se le atribuye a la


aproximacin que se hace al calcular un modelo de cierta forma.
Matemticamente es el promedio de las observaciones ( ) menos el
valor calculado por la regresin ( ).
Error residual (SCR): Es el error al cual no se le puede atribuir una
razn. Matemticamente es el valor real ( ) menos el valor calculado
por la regresin ( ).

Siendo p el nmero de variables y n el nmero de datos, la evaluacin de estos


dos errores se ve en la tabla ANOVA (Gujarati, 2004), como:
Regresin simple:
Fuente de la
Variacin
Regresin

Grados de
libertad
P

Suma de
cuadrados

Residual

n-p-1

Total

n-1

Cuadrados Medios

Cuadrados Medios

Regresin mltiple:
Fuente de la
Variacin
Regresin

Grados de
libertad
P

Residual

n-p-1

Total

n-1

Suma de
cuadrados

F es el estadstico de la hiptesis global de la tabla ANOVA, donde se plantea


que:
Ho = 1 = 2 = = p = 0

Ha = una o ms j 0

50

Se rechaza Ho si el F calculado que se distribuye en F (p; n-p-1) (Distribucin F de


Snedecor) es tal que:

Al no rechazar la hiptesis, se dira que lo ms probable es que todos los


estimadores son nulos o existe un problema en el modelo.
Dcima para cada
Independiente del resultado que de la dcima del ANOVA, hay una dcima
para determinar si cada es cero o no. Bajo la estimacin los i se distribuyen
normales o t de Student, si, como comnmente pasa, no se conoce la varianza
poblacional.
La dcima seria:
Ho: j0= 0

Ha: j0 0

y
| |

j=0,1,2,p
|

Cumplindose el estadstico, se rechaza la hiptesis nula.


Bondad de ajuste
Bondad de ajuste o mejor conocida como R2 es una medida que se utiliza para
saber cunto explica el modelo el valor de la variable dependiente. La bondad
de ajuste viene dada por, (Wooldridge, 2006):

Pero como R2 sobrestima el valor poblacional, se calcula el R2 Corregida.

Donde:
n = tamao de la muestra
k = nmero de variables independientes

3.5 Diagnstico de una Regresin

51

Como ya se vio antes, para usar las tcnicas anteriormente nombradas para el
clculo de los modelos, se tienen que evitar la existencia de heteroestacidad,
multicolinealidad perfecta y autocorrelacin en ellos (Gujarati, 2004). A
continuacin se ver como identificar estos fenmenos:
Heterocedasticidad: es una importante violacin a los requerimientos de una
estimacin de parmetros por MCO o MV y uno de los supuestos a considerar
en una regresin. Esta invalida los resultados, ya que hace que la estimacin de
los parmetros no sea eficiente, a pesar de que sigan siendo insesgados. La
heteroestacidad es cuando los residuales o errores no tienen una varianza
constante. El principal modo de ser detectada es por el mtodo grfico:

FIG. 22: GRFICOS DEL ERROR Y LAS VARIABLES EXGENAS.


HOMOCEDASICIDAD Y HETEROCEDASTICIDAD.

Como se ve en la figura, al graficar los residuales puros o tipificados versus


cada variable explicativa. Al haber heterocedasticidad se ve alguna tendencia o
cambio en el orden de los residuos, mientras que si estos se mantienen como
una franja alrededor del eje de las abscisas no hay heteroestacidad sino
homoestacidad.
Tambin hay varias dcima o test (Gujarati, 2004), las ms usadas son:
Test de Jarque-Bera: Para verificar la normalidad de los residuos se usa el test
de Jarque-Bera. La hiptesis nula nos dice que tiene una distribucin normal.
Pero para entender este test es bueno saber la definicin de curtosis y asimetra.

Curtosis: Esta medida determina el grado de concentracin que


presentan los valores en la regin central de la distribucin. Por medio
del coeficiente de curtosis, podemos identificar si existe una gran
concentracin de valores (leptocrtica), una concentracin normal
(mesocrtica) o una baja concentracin (platicrtica).

52

FIG. 23: TIPOS DE CURVAS SEGN CURTOSIS.

Para calcular el coeficiente de curtosis se utiliza la ecuacin:

Donde (g2) representa el coeficiente de curtosis, (Xi) cada uno de los valores,
la media de la muestra y (ni) la frecuencia de cada valor. Los resultados de
esta frmula se interpretan:

(g2 = 0) la distribucin es mesocrtica: Al igual que en la asimetra es


bastante difcil encontrar un coeficiente de curtosis de cero (0), por lo
que se suelen aceptar los valores cercanos ( 0.5 aprox.).
(g2 > 0) la distribucin es leptocrtica.
(g2 < 0) la distribucin es platicrtica.

Cuando la distribucin de los datos cuenta con un coeficiente de asimetra (g1 =


0.5) y un coeficiente de curtosis de (g2 = 0.5), se le denomina curva normal.
Este criterio es de suma importancia, ya que para la mayora de los
procedimientos de la estadstica de inferencia se requiere que los datos se
distribuyan normalmente (Gujarati, 2004).

Asimetra: Esta medida nos permite identificar si los datos se


distribuyen de forma uniforme alrededor del punto central (media
aritmtica). La asimetra presenta tres estados diferentes, cada uno de
los cuales define de forma concisa como estn distribuidos los datos
respecto al eje de asimetra. Se dice que la asimetra es positiva cuando
la mayora de los datos se encuentran por encima del valor de la media
aritmtica, la curva es simtrica cuando se distribuyen
aproximadamente la misma cantidad de valores en ambos lados de la
media y se conoce como asimetra negativa cuando la mayor cantidad
de datos se aglomeran en los valores menores que la media.

53

FIG. 24: TIPOS DE CURVAS SEGN SIMETRA.

El coeficiente de asimetra, se representa mediante la ecuacin matemtica,

Donde (g1) representa el coeficiente de asimetra de Fisher, (Xi) cada uno de los
valores, la media de la muestra y (ni) la frecuencia de cada valor. Los
resultados de esta ecuacin se interpretan:

(g1 = 0): Se acepta que la distribucin es simtrica, es decir, existe


aproximadamente la misma cantidad de valores a los dos lados de la
media. Este valor es difcil de conseguir por lo que se tiende a tomar
los valores que son cercanos ya sean positivos o negativos ( 0.5).
(g1 > 0): La curva es asimtricamente positiva por lo que los valores se
tienden a reunir ms en la parte izquierda que en la derecha de la
media.
(g1 < 0): La curva es asimtricamente negativa por lo que los valores se
tienden a reunir ms en la parte derecha de la media.

Desde luego entre mayor sea el nmero (positivo o negativo), mayor ser la
distancia que separa la aglomeracin de los valores con respecto a la media.
Con este antecedente, Jarque y Bera desarrollaron un estadstico que evala en
forma conjunta la hiptesis nula si el coeficiente de asimetra y curtosis toman
valores de 0 y 3 respectiva y conjuntamente.
H0: t se aproxima a una distribucin normal.
H1: t no se aproxima a una distribucin normal.
Jarque - Bera se formula:

54

T: Tamao de muestra
K: Es la curtosis
S: Es la asimetra
k: Nmero de regresores
2
T k 2 K 3
JB
S

6
4

Regla de decisin:

JB (2 ;2)
Para ilustrar mejor, tomaremos datos del caso que se plantea al final del
captulo. Veremos si el error no estandarizado tiene una distribucin normal,
segn el test de Jarque Bera. En este caso tenemos:
k=3
T = 25

(20,95;2) 0,1026
Nos quedara calcular la asimetra y la curtosis, esto lo haremos con el
programa SPSS:

Estadsticos
Unstandardized Residual
N

Vlidos

25

Perdidos

Asimetra

,513

Error tp. de asimetra

,464

Curtosis

-1,044

Error tp. de curtosis

,902

Tenemos una asimetra negativa y una distribucin platicrtica segn la


curtosis.

55

FIG. 25: HISTOGRAMA EJEMPLO TEST JARQUE-BERA

Viendo el histograma podemos suponer que no es una distribucin normal,


pero podemos comprobarlo con el test de Jarque-Bera.

JB

2
1,044 32 15,956061
T k 2 K 3 25 3
2
S

0
,
513

6
4
6
4

JB no es menor que ( 0,95; 2) por lo tanto se refuta la hiptesis nula de que la


2

distribucin es normal. Es decir, podemos asegurar que la distribucin no se


parece a la distribucin normal.

Prueba de Goldfeld-Quandt: Este mtodo es aplicable si se supone que la


varianza es heteroscedstica,
est relacionada positivamente con una de las
variables explicativas en el modelo de regresin (Gujarati, 2004). Esto se puede
ver ms fcilmente en un modelo de dos variables:

Supngase que

esta relacionado positivamente con

en la forma:

Donde
es una constante. Esto significara que
sera proporcional al
cuadrado de . Si este resulta ser el caso, es muy probable que exista
heterocedasticidad en el modelo (Gujarati, 2004). Para probar esto Goldfeld y
Quandt sugieren los siguientes pasos.
1.- Ordenar las observaciones de acuerdo con los valores de
el ms bajo.

56

. Empezando por

2.- Omtanse las c observaciones centrales, donde c se ha especificado a priori


y divdanse las observaciones restantes (n-c) en dos grupos, cada uno de (n-c)/2
observaciones.
3.- Hganse regresiones por mnimo cuadrado ordinario por cada una de los
grupos. Obtenga las respectivas sumas de residuales al cuadrado SRC 1 y SRC2
siendo la primera de los ms bajos y la segunda de los ms altos. Cada uno
tiene:
grados de libertad.
Donde k es el nmero de parmetros que deben estimarse, incluyendo la
interseccin. En el caso de una regresin simple seran 2.
4.- Calcular la razn:

Si las esta normalmente distribuida se supone que sigue la distribucin F


con un nmero de grados de libertad en el numerador y denominador iguales a
(n-c-2k)/2. En una aplicacin si el calculado es superior al F critico al nivel
de significancia seleccionado, se puede rechazar la hiptesis de
homocedasticidad, es decir, es muy probable que halla heterocedasticidad.
Sobre el valor de c, no hay un nmero preciso, pero se sugiere en una regresin
lineal simple, si la muestra es alrededor de 30 que sea 8 y alrededor de 60 sea
16 (Gujarati, 2004).
Prueba general de heterocedasticidad de White: A diferencia de la anterior
prueba (Goldfeld-Quandt) que requiere ordenar las observaciones respecto a la
variable X que ocasiona heterocedasticidad, White no se apoya en el supuesto
de normalidad (Gujarati, 2004). En un modelo de regresin de tres:

Para realidad la prueba de White se procede a los siguientes pasos:


1.- Estime la regresin por mnimo cuadrado ordinario y obtenga los residuos.
2.- Efecte la siguiente regresin, llamada generalmente en la literatura auxiliar
(Gujarati, 2004):

Es decir, con los residuos al cuadrado se hace una regresin sobre las variables
X originales pero sobre sus productos cruzados (recordar que el anterior
57

ejemplo era con dos variables). Obtngase el R2 de este regresin (auxiliar)


(Gujarati, 2004).
3.- Bajo la hiptesis nula de que no hay heterocedasticidad, demostrar que el
tamao de la muestra (n) multiplicado por el R 2 obtenido en la regresin
auxiliar sigue la distribucin ji-cuadrada con grados de libertad igual al nmero
de regresores (excluyendo el trmino constante) de la regresin auxiliar:

4.- Si el valor ji cuadrada obtenido anteriormente excede al valor de la ji


cuadrado al nivel de significancia seleccionado, la conclusin es
heterocedasticidad sino homocedasticidad (Gujarati, 2004), (Wooldridge,
2006).
Tambin hay otras dcima sobre las que no se profundizar, entre ellas:

Dcima de igualdad de varianzas de Bartlett.


Dcima de correlacin.
Dcima de Park.
Dcima de Glejser.
Etc.

Multicolinealidad: Dos variables tienen colinealidad si una combinacin lineal


de todas ellas vale cero, en circunstancias que no todos los coeficientes de las
variables son nulos.

Si algn
, indica colinealidad perfecta o matemtica. Es decir, la variable
Xi se puede escribir como una combinacin lineal de las anteriores. Al formar
un modelo se debe evitar la colinealidad perfecta; si ocurre, hay que eliminar la
variable que la produce.
La multicolonealidad aumenta la varianza de los estimadores MCO, lo cual trae
como consecuencia: Las dcima de t-student para los son insensibles y las
observaciones se tornan influyentes.
Para poder detectar la multicolonealidad hay muchas formas, entre ellas:

Calcular correlaciones (R 2) simples entre variables. Si hay


correlaciones altas indican colinealidad. Requisito suficiente pero no
necesario.
Calcular correlaciones parciales, si hay ciertas correlaciones que son
altas y otras bajas, es smbolo de colinealidad entre ellas.
Encontrar R2 alto con pocas significativas.
Usar el indicador Cp de Mallows: Sean p variables predictoras ms el
intercepto (p + 1 en total), Cp es igual a:
58

Siendo SCE la suma de cuadrados del error, CME los cuadrados medios del
error.
Para interpretar este estadstico, se define el error cuadrtico medio de
prediccin para los puntos observados cuando se utiliza un modelo con p
parmetros como

( )

Siendo un buen criterio de seleccin del modelo el de elegir el modelo que


tenga el ECMPp mnimo. Este criterio es equivalente a minimizar el estadstico
Cp de Mallows.
Adems puede probarse que en los modelos sin sesgo Cp = p. Por tanto,
aquellos subconjuntos de j variables explicativas que tengan un Cp p = j + 1,
son buenos. Normalmente se construir una grfica de Cp para los diferentes
subconjuntos que se quieren analizar frente a p. Y se considerarn buenos los
subconjuntos que tienen Cp pequeo y adems estn por debajo de la diagonal
Cp = p.

El ltimo mtodo consiste en calcular el factor de incremento de la


varianza (FIV) de cada una de las variables explicativas. Se calcula de
la siguiente manera:

donde
( )

es la varianza ptima en el caso de ausencia de correlacin entre los


estimadores.
()

Es la varianza de un estimador cualquiera y


el coeficiente de determinacin
de la regresin entre Xj y el resto de las variables explicativas del modelo
59

inicial. Valores del FIVj > 5 estn asociados a


> 0,8 en cuyo caso se puede
considerar que las consecuencias sobre el MRLM ya pueden ser relevantes.

3.6 Autocorrelacin
La autocorrelacin es la dependencia de un valor de su anterior valor dado si
estos son ordenados. Si esto ocurre al nivel de los residuales se violan los
requisitos para estimar un modelo por MCO o por MV. La autocorrelacin
invalida las dcima global de los estimadores (F) y la particular de cada
estimador (t), (Wooldridge, 2006).
Para detectar la autocorrelacin de primer orden AR (1) existe la dcima de
Durbin y Watson (Gujarati, 2004). En la cual es estadgrafo sera:

Teniendo esto se entra a las tablas de DW y dependiendo la muestra se pueden


sacar los valores Di y Ds, los cuales sirven para formas las regiones criticas de
la forma que se ve en la figura:

FIG. 26: TEST DE DURBIN Y WATSON

En la figura, donde dice ???, es que las zonas no son concluyentes sobre la
autocorrelacin.
Prueba de rachas: El contraste de rachas permite verificar la hiptesis nula de
que la muestra es aleatoria, es decir, si las sucesivas observaciones son
independientes. Este contraste se basa en el nmero de rachas que presenta una
muestra. Una racha se define como una secuencia de valores mustrales con
una caracterstica comn precedida y seguida por valores que no presentan esa
caracterstica. As, se considera una racha la secuencia de k valores
consecutivos superiores o iguales a la media muestral (o a la mediana o a la
moda, o a cualquier otro valor de corte) siempre que estn precedidos y
seguidos por valores inferiores a la media muestral (o a la mediana o a la moda,
o a cualquier otro valor de corte).

60

El nmero total de rachas en una muestra proporciona un indicio de si hay o no


aleatoriedad en la muestra. Un nmero reducido de rachas (el caso extremo es
2) es indicio de que las observaciones no se han extrado de forma aleatoria, los
elementos de la primera racha proceden de una poblacin con una determinada
caracterstica (valores mayores o menores al punto de corte) mientras que los
de la segunda proceden de otra poblacin. De forma idntica un nmero
excesivo de rachas puede ser tambin indicio de no aleatoriedad de la muestra.
Si la muestra es suficientemente grande y la hiptesis de aleatoriedad es cierta,
la distribucin muestral del nmero de rachas, R, puede aproximarse mediante
una distribucin normal de parmetros:

donde n1 es el nmero de elementos de una clase, n2 es el nmero de elementos


de la otra clase y n es el nmero total de observaciones.
Si este test da que no es aleatoria la muestra, se puede intuir autocorrelacin.
3.7 Anlisis de Residuos
Tras los anteriores anlisis, si es que el modelo no se puede llevar se pueden
ver maneras de arreglarlo o ver por qu ocurre. Entre ellos est la bsqueda de
variables atpicas e influyentes.
Las variables atpicas son las que el residuo tipificado es mayor a 3 (en valor
absoluto) y las variables influyentes son las que al ser sacadas cambian
completamente el modelo (Gujarati, 2004). Para ver esto se hace un anlisis de
residuos, de los cuales existen:

Residuos no tipificados: son los residuos ordinarios del modelo de


regresin.
Residuos tipificados: tienen media cero y varianza prxima a 1. Un
sujeto con un residuo tipificado grande se puede considerar atpico. Se
suelen considerar atpicos los sujetos con residuos tipificados absolutos
superiores a 3.
Residuos estandarizados: de un sujeto se calcula igual que el anterior
slo que de la varianza residual se elimina el residuo del sujeto
correspondiente. Los residuos estandarizados siguen una distribucin
t-student con N-p-2 grados de libertad. Son observaciones atpicas las
correspondientes a residuos estandarizados significativos.

61

Los residuos anteriores nos permiten identificar observaciones alejadas lo cual


no significa que sean observaciones influyentes. Que una observacin sea
atpica no conlleva necesariamente que sea influyente. Observaciones
influyentes son aquellas que tienen un peso muy grande en los coeficientes del
modelo. Se sabe si una observacin es influyente comparando las estimaciones
obtenidas cuando se le incluye en la muestra con las obtenidas cuando se le
excluye. Varios son los estadsticos que miden la influencia de cada sujeto
sobre los estadsticos. Se han seleccionado las siguientes distancias:

Distancia de Mahalanobis: es una medida de influencia a priori, mide la


distancia de cada caso respecto a las medias de las variables
independientes. En regresin simple es el cuadrado de la puntuacin
tpica de cada caso. No debe superar al valor de chi-cuadrado para p
grados de libertad y un nivel de significacin de 0,001.
Distancia de Cook es una medida de influencia a posteriori. La
influencia se mide por la diferencia en los coeficientes de la ecuacin
calculados con la muestra completa y con la muestra menos la
observacin en cuestin. Valores de la distancia (D) mayores que 1 o
mayores que F para un = .50 y con p+ l y N- p- 1 grados de libertad
se pueden considerar influyentes.

Se cree que con estas nuevas variables, se obtiene informacin suficiente para
evaluar casos atpicos y/o influyentes.

3.8 Caso modelo de regresin lineal del PIB


El propsito de este caso es obtener un modelo de regresin lineal mltiple que
represente la relacin que pueda existir entre la variable dependiente producto
interno bruto PIB, con otras variables de la economa, en este caso se considera
el precio del cobre, el IPC y el desempleo.
Para el modelamiento y anlisis de los datos se utilizar el software SPSS
versin 17. Se puede observar cmo trabajar con este software en el anexo 1.
Definicin de las variables y anlisis inicial:
Primero, hay que especificar adecuadamente las variables:
Variable dependiente: PIB (Unidad: US$) Fuente: Banco Mundial
El producto interno bruto PIB (Samuelson, 2001) se mide sumando todas las
demandas finales de bienes y servicios en un perodo dado. Existen cuatro
grandes reas de gasto: el consumo de las familias (C), la inversin en nuevo
capital (I), el consumo del gobierno (G) y los resultados netos del comercio
exterior (exportaciones (X) importaciones (M)):

62

Variables independientes consideradas para el modelo:


1. IPC (Unidad: Promedio anual diciembre 1998 = 100) Fuente: Banco
Central de Chile.
2. Precio del cobre (centavos de dlar la libra) Fuente: Cochilco. La
Comisin Chilena del Cobre (Cochilco) es un organismo tcnico y
altamente especializado, creado en 1976. Desde esa fecha asesora al
gobierno en materias relacionadas con la produccin de cobre y sus
subproductos.
3. Desocupados. Fuente: INE, Instituto Nacional de Estadsticas de Chile.
Graficaremos la variable dependiente con las variables independientes.

63

Se puede observar en todos los casos, menos en el de desocupados, una


tendencia. Eso puede significar que esta variable, presente algn problema o
que no sea significativa en el modelo.
Modelo saturado: Primero se har el modelo con todas las variables.

Resumen del modelob


Error tp. de la
Modelo

R cuadrado
a

,986

R cuadrado corregida

,972

estimacin

,968

Durbin-Watson

1,12749E10

,898

a. Variables predictoras: (Constante), Desocupados, Cobre, IPC


b. Variable dependiente: PIB

Coeficientes

Modelo
1

(Constante)

Coeficientes no

Coeficientes

Estadsticos de

estandarizados

tipificados

colinealidad

Error tp.

Beta

-8,097E10

1,165E10

IPC

9,297E8

9,103E7

Cobre

3,782E8

Desocupados

3,462E7

Sig.

Tolerancia

FIV

-6,948

,000

,578

10,214

,000

,396

2,523

2,983E7

,531

12,680

,000

,725

1,380

3,143E7

,056

1,102

,283

,500

2,000

a. Variable dependiente: PIB

64

Diagnsticos de colinealidad

Proporciones de la varianza

ndice de
Modelo

Dimensin

Autovalores

condicin

(Constante)

IPC

Cobre

Desocupados

3,789

1,000

,00

,00

,01

,00

,120

5,610

,04

,00

,74

,03

,078

6,986

,14

,50

,10

,00

,013

16,826

,82

,50

,15

,97

a. Variable dependiente: PIB

De la regresin anterior se puede apreciar que el coeficiente de determinacin


R2 de 0,972, lo cual es muy alto, y si adems se observa la tabla ANOVA, se
puede deducir que las variables predictoras explican de gran manera la variable
PIB. Observando los valores del FIV, tambin se puede decir que no existe
multicolinealidad, algo que se afirma en el ndice de condicin de la
colinealidad, ya que ninguno es mayor a 30, como se dice en el anexo 1.
El primer problema es la dcima t de la variable desocupados. Tomando una
significancia que no pueda ser mayor que 0,05 los estimadores calculados para
esta variable no son significativos. Dado el anlisis grfico anterior, lo ms
aconsejable sera sacar la variable, ya que es muy probable que no afecte al
modelo.
El segundo problema que se observa es la autocorrelacin. Dado el criterio
entregado en el anexo 1, la dcima de Durbin-Watson da autocorrelacin
positiva.
Entre

Correlacin

0 - 1,078

Positiva

1,078 - 1,66

Incierta

1,66 - 2,34

Nula

2,34 - 2,922

Incierta

2,922 - 4

Negativa

Si es que quedara en una zona incierta, habra que aplicar otro test, como lo es
el test de rachas.
El siguiente paso ser sacar la variable desocupados y hacer de nuevo un
modelo con las variable que quedan, para ver si es que se elimina el problema
de la autocorrelacin tambin.

65

Resumen del modelo

Modelo

R cuadrado

Error tpica de la

corregida

estimacin

R cuadrado
a

,985

,971

,968

Durbin-Watson

1,13272E10

,885

a. Variables predictoras: (Constante), Cobre, IPC


b. Variable dependiente: PIB

ANOVA
Suma de
Modelo
1

cuadrados

Gl

Media cuadrtica

Regresin

9,710E22

4,855E22

Residual

2,951E21

23

1,283E20

Total

1,001E23

25

Sig.
a

378,398

,000

a. Variables predictoras: (Constante), Cobre, IPC


b. Variable dependiente: PIB

Coeficientes

Modelo
1

(Constante)

Coeficientes no

Coeficientes

Estadsticos de

estandarizados

tipificados

colinealidad

Error tp.

-7,010E10

6,229E9

IPC

9,993E8

6,582E7

Cobre

3,706E8

2,916E7

Beta

a. Variable dependiente: PIB

66

Sig.

Tolerancia

FIV

-11,253

,000

,622

15,184

,000

,765

1,307

,520

12,710

,000

,765

1,307

Diagnsticos de colinealidad

Proporciones de la varianza

Dimensi
Modelo

Autovalores

ndice de condicin

(Constante)

IPC

Cobre

2,827

1,000

,01

,01

,02

,095

5,447

,47

,04

,88

,078

6,035

,51

,94

,10

a. Variable dependiente: PIB

No se elimin el problema de la autocorrelacin, pero ahora todas las variables


son significativas. Al existir autocorrelacin en el modelo, los coeficientes
siguen siendo insesgados, pero dejan de ser eficientes. Por lo que, para obtener
nuevos coeficientes insesgados, y adems eficientes, se tendr que utilizar el
mtodos de mnimos cuadrados ponderados (MCP).
Antes de hacer la regresin por MCP, se analizaran los supuestos de
homocedasticidad y normalidad en los errores. Esto ya que si el modelo
presenta heterocedasticidad, necesitamos saber cual variables es la causante del
problema, y as aplicar el mtodo MCP para poder solucionar ese problema
junto con el de autocorrelacin. Y el anlisis de la normalidad de los residuos
no afecta en el mtodo de MCP, pero se realizara antes para as terminar de
verificar el cumplimiento de los supuestos economtricos.
Anlisis de heterocedasticidad: Este se llevar acabo de modo grfico, ya que
igual posteriormente se aplicar el mtodo de MCP y, si existe
heterocedasticidad, se eliminar. Pero lo que se busca es ver si los errores
tienen alguna relacin con alguna variable en particular, lo cual servira para
realizar de manera correcta la regresin por MCP. Para poder saber si los
residuos presentan relacin con alguna variable, se grafican los residuos al
cuadrado con respecto a cada variable del modelo, obteniendo los siguiente
grficos.

67

De los grficos se aprecia que los residuos no presentan ninguna clara relacin
con alguna de las variables, por lo que a simple vista se puede decir que el
modelo no presenta heterocedasticidad.
Es importante mencionar que si posteriormente no se fuese aplicar MCP, sera
necesario aplicar un test ms formal para ver si efectivamente el modelo
presenta o no heterocedasticidad. Ya que si existiera, y se dejara la regresin
actual, los estimadores serian insesgados, pero ineficientes. Y esto impedira
que el modelo sea un buen predictor del PIB, sirviendo nada ms para saber el
comportamiento y, a groso modo, de esta variable con respecto a las variables
independientes.
Anlisis de normalidad de los residuos
Este anlisis busca corroborar que los residuos se comporta de manera normal,
para lo cual se grafican sus valores esperados con respecto a los estimados.
Buscando que si lo errores se comportan de manera normal, el grfico se
asemeje a lo que es una lnea recta.
68

A pesar de la tendencia a una lnea recta, se puede ver algunas curvas. Se puede
decir que hay cierto grado de heterocedasticidad. Igual comprobaremos con el
test de Jarque-Bera y la dcima de Shapiro Wilk para confirmar (Gujarati,
2004), (Wooldridge, 2006).
Jarque - Bera se formula:
T: Tamao de muestra
K: Es la curtosis
S: Es la asimetra
k: Nmero de regresores

JB

T k
6

2 K 32
S

Regla de decisin:

JB (2 ;2)

69

Para ilustrar mejor, tomaremos datos del caso que se plantea al final del
captulo. Veremos si el error no estandarizado tiene una distribucin normal
segn el test de Jarque Bera. En este caso tenemos:
k=3
T = 25

(20,95;2) 0,1026
Nos quedara calcular la asimetra y la curtosis, esto lo haremos con el
programa SPSS:

Estadsticos
Unstandardized Residual
N

Vlidos

25

Perdidos

Asimetra

,513

Error tp. de asimetra

,464

Curtosis

-1,044

Error tp. de curtosis

,902

Tenemos una asimetra negativa y una distribucin es platicrtica segn la


curtosis.

JB

2
1,044 32 15,956061
T k 2 K 3 25 3
2
S

0
,
513

6
4
6
4

JB no es menor que ( 0,95; 2) por lo tanto se refuta la hiptesis nula de que la


2

distribucin es normal. Es decir, podemos asegurar que la distribucin no se


parece a la distribucin normal.
Regresin por mnimos cuadrados ponderados: Habiendo analizado todos los
supuestos, se procede a realizar una regresin por medio de MCP, con el
fin de poder encontrar estimadores insesgados y eficientes para cada una
de las variables. Y adems poder utilizar este modelo con el fin de la prediccin
del PIB.

70

Resumen del modelo

b,c

Error tp. de la
Modelo

R cuadrado
a

,981

R cuadrado corregida

,963

estimacin

,959

Durbin-Watson

1,62045E10

1,107

a. Variables predictoras: (Constante), Cobre, IPC


b. Variable dependiente: PIB
c. Regresin de mnimos cuadrados ponderados - Ponderada por Residuos

b,c

ANOVA
Modelo
1

Suma de cuadrados

Gl

Media cuadrtica

Regresin

1,550E23

7,751E22

Residual

6,039E21

23

2,626E20

Total

1,611E23

25

Sig.

295,174

,000

a. Variables predictoras: (Constante), Cobre, IPC


b. Variable dependiente: PIB
c. Regresin de mnimos cuadrados ponderados - Ponderada por Residuos

Coeficientes

a,b

Coeficientes
Coeficientes no estandarizados
Modelo
1

(Constante)

Error tp.

tipificados
Beta

-5,650E10

7,401E9

IPC

8,708E8

1,031E8

Cobre

3,887E8

4,678E7

Estadsticos de colinealidad
t

Sig.

Tolerancia

-7,634

,000

,527

8,445

,000

,419

2,387

,518

8,309

,000

,419

2,387

a. Variable dependiente: PIB


b. Regresin de mnimos cuadrados ponderados - Ponderada por Residuos

Es importante mencionar que lo que hace la regresin por MCP, es darle un


peso a cada dato, dndole ms peso los datos que se creen ms relevantes. En
este caso el peso se asigno segn los residuos al cuadrado, de forma que los que
tuviesen ms error, se les d menos peso para la regresin.

71

FIV

Y analizando la informacin que nos dan de la regresin, vemos que el modelo


se comporta muy bien, explicando con un 98,1% de seguridad el
comportamiento del PIB segn las variables independientes. Adems, se puede
observar que todos los coeficientes encontrados son significativos en el
modelo.

72

CAPTULO 4: Serie de Tiempo


Una serie temporal es una secuencia ordenada de observaciones cada una de las
cuales est asociada a un momento de tiempo. Ejemplos de series temporales
las podemos encontrar en cualquier campo de la ciencia. En economa, cuando
buscamos datos para estudiar el comportamiento de una variable econmica,
estos datos se presentan frecuentemente en forma de series temporales. As,
podemos pensar en series como los precios diarios de las acciones, las
exportaciones mensuales, el consumo mensual, tasa de desempleo, tasa de
inflacin, precio del dlar, precio del cobre, los beneficios trimestrales, etc. En
meteorologa: cantidad de agua cada, temperatura mxima diaria, velocidad
del viento (energa elica), energa solar, etc. En geofsica: series sismolgicas.
En qumica: viscosidad de un proceso, temperatura de un proceso. En
transporte: series de trfico. Etc.
Se define serie temporal o serie de tiempo como un conjunto de observaciones,
datos o valores {Yt; t = 1, 2, ... n } realizadas a lo largo del tiempo (Gujarati,
2004). Tpicamente, en cada instante t se tiene una nica respuesta Yt y se
habla de un modelo longitudinal.
4.1 Componentes de las Series de Tiempo
El anlisis tradicional de las serie de tiempo descansa en la idea general que
una serie de tiempo se puede descomponer en trminos de elementos parciales
que, agregados de alguna manera, reproducen el valor correspondiente de la
serie de tiempo. Estos componentes son los siguientes:
Tendencia: Es el comportamiento de la variable a largo plazo, refleja el sentido
de la serie de tiempo y corresponde a un modelo de regresin Y = f(t).
Habitualmente, f(t) se define con un mtodo de suavizamiento exponencial,
modelo simple o cuadrtico, se puede utilizar otros tipos de regresiones, como
logstica, exponencial, entre otros.
Exportacin Tendencia
2
2,1
2,5
2,4
2,6
2,6
3,1
2,9
3,2
3,2
3,3
3,5
3,6
3,8
4,3
4,1
4,4
4,4
4,8
4,7
5,1
5,0
5,2
5,3

Exportacin de la empresa S&D


6
Millones de dlares

Ao
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011

Recta Tendencia

4
3
2

Datos observados

1
0

2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011
Aos

FIG. 27: TENDENCIA EN UNA SERIE DE TIEMPO.

Estacionalidad: Son movimientos regulares de la serie que se repiten


peridicamente en el corto plazo y dentro de un ao. Ocurre con variables
73

como las ventas de trajes de bao, tarjetas de saludo, frutas frescas y similares.
La palabra "estacional" se refiere directamente a las estaciones climatolgicas
del ao, pero la idea es referirse a movimientos oscilatorios dentro del ao,
coincidan o no con las estaciones climticas.
Ventas
2,5
2,1
3,9
2,5
3,2
4,1
3,2
4,6
4,3
3,7
5,1
5,4

Ventas de la empresa S&D


6

Millones de dlares

Mes
Enero
Febrero
Marzo
Abril
Mayo
Junio
Julio
Agosto
Septiembre
Octubre
Noviembre
Diciembre

Variacin Estacional

3
2
1
0

Meses

FIG. 28: ESTACIONALIDAD EN UNA SERIE DE TIEMPO

Variaciones cclicas: Parecidas a la estacionalidad, son movimientos de la serie


que se observan a largo plazo (varios aos) y suelen corresponder a los ciclos
econmicos.

FIG. 29: VARIACIONES CCLICAS EN UNA SERIE DE TIEMPO

Componente no sistemtico: Los movimientos irregulares (al azar) representan


todos los tipos de movimientos de una serie de tiempo que no sea tendencia,
variaciones estacionales y fluctuaciones cclicas.
Son aquellas variaciones producidas por sucesos de ocurrencia imprevisible o
accidental que producen movimientos sin un patrn discernible; as por
ejemplo, las exportaciones de una empresa pueden ser afectadas por sucesos
inusuales no previsibles tales como huelgas, guerras, terremotos, inundaciones,
etc. Estas variaciones irregulares son de corta duracin y de magnitud muy
variable.

74

Tiempo
FIG. 30: COMPONENTE NO SISTEMICO EN UNA SERIE DE TIEMPO

Sin considerar las variables independientes x del modelo transversal, el modelo


de series de tiempo debe incluir los cuatro componentes anteriores. En general,
si Yt es una serie de tiempo, su modelo es una funcin f(Tt; St; Ct; It)
cualquiera. Esta funcin se decide en base de los datos disponibles y del
conocimiento tcnico y profesional del investigador.
En general, para los temas siguientes, los modelos pueden ser aditivos o
multiplicativos.
Modelo aditivo:
Se define en la forma Yt = Tt + St + Ct + I t, donde T, S, C e I representan los
componentes de tendencia, estacionales, cclicos e irregulares, respectivamente.
Los componentes estacionales, ciclos e irregulares corresponden a desviaciones
en torno a la tendencia.

FIG. 31: COMPONENTES DE UNA SERIE DE TIEMPO, MODELO ADITIVO.

Modelo multiplicativo:
Se expresa por Yt = Tt * St * Ct * I t. En este caso slo la tendencia est
expresada en las unidades de Y, mientras que los otros componentes se
expresan como razones, nmeros puros o porcentajes.
El modelo aditivo sufre el supuesto irreal de que los movimientos o
componentes son independientes uno de otro, algo que difcilmente se da en el
caso de la vida real.
75

El modelo multiplicativo supone que los movimientos o componentes


interactan entre s y no se mueven independientemente, por lo que este
modelo es ms utilizado que el aditivo.
Sin embargo, el criterio fundamental que se debe seguir en el caso de una
situacin dada es emplear el modelo que mejor se ajuste a los datos.
Modelos mixtos:
La conceptualizacin de los modelos en puramente aditivo o puramente
multiplicativo tiene relacin con el anlisis tradicional de las series de tiempo,
descomponindolas en cada uno de sus factores.
La tendencia actual usa otras tcnicas para el estudio y anlisis de las series de
tiempo. Por ejemplo, a travs de datos de panel se pueden modelar los efectos
estacionales usando variables ficticias, al mismo tiempo que se asla el factor
de tendencia.
Consideraciones de este tipo llevan a la formulacin de modelos mixtos,
mezcla de los dos anteriores. Por ejemplo, un modelo mixto puede tener la
expresin Yt = Tt * (1 + St ) * (1 + Ct ) + It , donde se supone que el
componente aleatorio es una perturbacin directa sobre la respuesta Y y no
representa una variacin proporcional.
4.2 Procesos Estocsticos Elementales
Un proceso estocstico es un conjunto de variables aleatorias asociadas a
distintos instantes de tiempo. Los elementales que se encuentran en la
econometra son (Gujarati, 2004), (Wooldridge, 2006):
Ruido blanco: Un proceso de ruido blanco representa una variable que es
constante, oscila en torno a una media constante, con una volatilidad constante
y cuyo pasado no contiene informacin til para predecir valores futuros.

76

FIG. 32: GRFICO RUIDO BLANCO

Proceso estocstico estacionario: Una serie de tiempo Yt es un proceso


estocstico estacionario (Gujarati, 2004) si tiene una media y una varianza
constante 2 en el tiempo y si el valor de la covarianza entre dos periodos
depende solamente de la distancia o rezago entre estos dos periodos de tiempo
y no del tiempo en el cual se ha calculado la covarianza.
La serie de tiempo Yt es una serie estocstica estacionaria si cumple las
siguientes propiedades:
Media
E(Yt) =
Varianza
var(Yt) = E(Yt - )2 = 2
Covarianza
k = E[(Yt - ) (Yt+k - )]
Donde k, la covarianza al rezago k, es la covarianza entre los valores de Yt y
Yt+k, es decir, entre dos valores Y que estn separados k periodos.
Caminata aleatoria: Es un proceso tal que la diferencia entre dos valores
consecutivos de la variable se comporta como un ruido blanco.

Si existe una tendencia sistemtica en el cambio se denomina camino aleatorio


con deriva.

Proceso autorregresivo: Definimos un proceso autorregresivo de primer orden


AR(1) como un proceso aleatorio que donde Y tiene relacin con s misma en
el periodo anterior de la serie. Matemticamente sera:

Los procesos autorregresivos pueden generalizarse al orden p, AR(p) sin ms


que aadir trminos retardados en la expresin general.

Media mvil: Definimos una media mvil de primer orden MA(1) como un
proceso aleatorio que responde a una expresin del tipo:
77

con

en diferencias a la media

Los procesos de medias mviles son estacionarios y, al igual que los


autorregresivos pueden generalizarse al orden q, MA(q) sin ms que aadir
trminos retardados en la expresin general.

Procesos integrados: Un proceso integrado es aquel que puede convertirse en


estacionario aplicando diferencias. As, por ejemplo, un camino aleatorio sera
un proceso integrado de orden 1 I(1), ya que puede convertirse en estacionario
tomando primeras diferencias. Definimos el orden de integracin de un proceso
como el nmero de diferencias que debemos aplicarle para convertirlo en
estacionario (Wooldridge, 2006), (Gujarati, 2004).
En el contexto de las series econmicas los rdenes de integracin ms
frecuentes son 1 2, I(1) I(2). En algunas ocasiones las diferencias deben
aplicarse sobre el valor estacional.
con

estacionario.

4.3 Tcnicas de Suavizamiento


Se entiende por suavizar una serie de tiempo la aplicacin de mtodos que
aminoren o cancelen el efecto de fluctuaciones aleatorias y muestren las
tendencias y componentes cclicos. Hay dos tipos de tcnicas de suavizamiento:
promedios mviles y suavizacin exponencial.
Promedios mviles: Es el mtodo de prediccin ms simple, donde se
selecciona un nmero dado de periodos n, y se obtiene la media o promedio de
la variable para los n periodos, permitiendo que el promedio se mueva
conforme se observan los nuevos datos de la variable en cuestin.
Una forma de visualizar la tendencia, es mediante suavizamiento de la serie. La
idea central es definir a partir de la serie observada una nueva serie que filtra o
suaviza los efectos ajenos a la tendencia (estacionalidad, efectos aleatorios), de
manera que podamos visualizar la tendencia.
Utilizando adecuadamente estos movimientos medios se eliminan los
movimientos o variaciones estacionales, cclicas e irregulares, quedando slo el
movimiento de tendencia. Este mtodo presenta el inconveniente de que se
pierden datos iniciales y finales de la serie original. Tambin se puede observar
que a medida que n crece, la cantidad de nuevos datos se reduce.

78

El mtodo consiste en fijar un nmero k, preferentemente impar, como 3, 5, 7,


etc., y calcular los promedios de todos los grupos de k trminos consecutivos
de la serie.

FIG. 33: COMPARACIN SERIE ORIGINAL Y SERIE SUAVIZADA.


SUAVIZAMIENTO EXPONENCIAL.

Por ejemplo, consideremos una serie de seis observaciones y fijemos el orden


k =3. Entonces en trminos de la serie suavizada son:
t
1
2

X(t)
X(1)
X(2)

X(3)

X(4)

X(5)

X(6)

Z(t) media mvil de orden 3


--

--

Suavizacin exponencial: es una tcnica de pronstico de series de tiempo que


pondera los datos histricos exponencialmente para que los datos ms recientes
tengan ms peso en el promedio mvil. Con la suavizacin exponencial simple,
el pronstico Ft se construye con la prediccin del ltimo periodo Ft-1 por una
porcin y (1- ) por el valor de la demanda real del periodo anterior Yt-1.
Ft = (1- )* Yt-1 + (Ft-1).

t 2.

F = Y (clculo del primer pronstico).


1

79

La constante de suavizacin es un nmero entre 0 y 1 que entra multiplicando


en cada pronstico, pero cuya influencia declina exponencialmente al volverse
antiguos los datos.
Con un cercano a 0, la serie suavizada pondera ms fuertemente el valor
original, luego ambas se parecen, y en consecuencia, el suavizamiento es poco.
La seleccin de depende de las caractersticas de la demanda. Los valores
altos de son ms sensibles a las fluctuaciones en la demanda.
Si se acerca a 1/2, se ponderan moderadamente la serie original y la
suavizada, por lo que el suavizamiento es moderado.
Y si es cercano a 1, (1- ) es cercano a cero, y la serie suavizada pondera ms
fuertemente el valor suavizado inmediatamente anterior, por lo que el
suavizado es importante.
Los valores bajos de , son ms apropiados para demandas relativamente
estables (sin tendencia o ciclicidad), pero con una gran cantidad de variacin
aleatoria.
La suavizacin exponencial simple es un promedio suavizado centrado en el
periodo presente. No se puede extrapolar para efectos de tendencia, por la que
ningn valor de compensar completamente la tendencia en los datos.
Los valores ordinarios de varan entre 0.01 y 0.40. Los valores bajos de
disminuyen efectivamente la variacin aleatoria (ruido dispersin).
Los valores altos son ms sensibles a cambios en la demanda (introducciones
de nuevos productos y error buscando cul valor reduce el error del pronstico.
Esto puede hacerse fcilmente modelando el pronstico en un programa de
cmputo, tratando con diferentes valores de .
Un valor de que proporcione aproximadamente un grado equivalente de
suavizacin tanto como un promedio mvil de un periodo es:
= 2 / (n + 1)
Para saber cuan preciso es el mtodo empleado en la realizacin del pronstico
se utiliza la siguiente frmula del cuadrado medio del error (CME o MSD)
como indicador de precisin del pronstico:

Y(t): Valor pronosticado en t


X(t): Valor observado en t

80

|
|

En las expresiones anteriores


representa la observacin, representa el
valor pronosticado y n representa el nmero de predicciones a realizar.
Para estas tres medidas, cuanto menor sea su valor, mejor ser el ajuste del
modelo.
Tipos de suavizamiento exponencial:
Simple: este modelo es adecuado para las series en las que no existe tendencia
o estacionalidad. Su nico parmetro de suavizado es el nivel. El suavizado
exponencial simple es el ms similar a un modelo ARIMA con cero rdenes de
autorregresin, un orden de diferenciacin, un orden de media mvil y sin
constante.
Tendencia lineal de Holt: este modelo es adecuado para las series con una
tendencia lineal y sin estacionalidad. Sus parmetros de suavizados son el nivel
y la tendencia, y sus valores no se restringen mutuamente. El modelo de Holt es
ms general que el modelo de Brown pero puede llevar ms tiempo de
computacin con series largas. El modelo de suavizado exponencial de Holt es
muy similar a un modelo ARIMA con cero rdenes de autorregresin, dos
rdenes de diferenciacin y dos rdenes de media mvil.
Tendencia lineal de Bown: este modelo es adecuado para las series con una
tendencia lineal y sin estacionalidad. Sus parmetros de suavizado son el nivel
y la tendencia, que se asumen iguales. Por ello, el modelo de Brown es un caso
especial del modelo de Holt, y es similar a un modelo ARIMA con cero
rdenes de autorregresin, dos rdenes de diferenciacin y dos rdenes de
media mvil, con el coeficiente para el segundo orden de media mvil igual al
cuadrado de la mitad del coeficiente de primer orden.
Tendencia amortiguada: este modelo es adecuado para las series con una
tendencia lineal que va desapareciendo y sin estacionalidad. Sus parmetros
son el nivel, la tendencia y la amortiguacin de la tendencia. El suavizado
exponencial amortiguado es similar a un modelo ARIMA con un orden de
autorregresin, un orden de diferenciacin y dos rdenes de media mvil.
Simple estacional: este modelo es adecuado para series con tendencia y un
efecto estacional que es constante a lo largo del tiempo. Sus parmetros de
suavizado son el nivel y la estacin, es similar a un modelo ARIMA con cero
rdenes de autorregresin, un orden de diferenciacin, un orden de
diferenciacin estacional y rdenes de media mvil, p y p+1, donde p es el
81

nmero de perodos contenidos en un intervalo estacional (para los datos


mensuales, p = 12).
De Winters aditivo: es un modelo para series con tendencia lineal y un efecto
estacional que no depende del nivel de la serie. Sus parmetros de suavizado
son el nivel, la tendencia y la estacin, es similar a un modelo ARIMA con cero
rdenes de autorregresin, un orden de diferenciacin, un orden de
diferenciacin estacional y p+1 rdenes de media mvil, donde p es el nmero
de perodos contenidos en un intervalo estacional (para los datos mensuales,
p = 12).
De Winters multiplicativo: es un modelo para series con tendencia lineal y un
efecto estacional que depende del nivel de la serie. Sus parmetros de
suavizado son el nivel, la tendencia y la estacin. No es similar a ningn
modelo ARIMA.
El procedimiento de descomposicin estacional, como lo son los modelos de
Winters, generan cuatro nuevas variables (series) con los siguientes prefijos de
tres letras para cada serie especificada (Gujarati, 2004):
SAF: Factores de correccin estacional. Estos valores indican el efecto de cada
periodo en el nivel de la serie.
SAS: Serie corregida estacionalmente. Son los valores obtenidos despus de
eliminar la variacin estacional de una serie.
STC: Componentes de tendencia-ciclo suavizado. Estos valores muestran la
tendencia y comportamiento cclico de la serie.
ERR: Valores de residuo o error. Son los valores que permanecen despus de
eliminar los componentes estacionales, de tendencia y ciclo de la serie.
4.4 Caso: Variacin de Precios de un Producto.
El propsito de este caso es presentar el mtodo de suavizamiento exponencial
para una situacin hipottica de la variacin del precio de un producto
cualquiera que se transa en el mercado.

82

Ao
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
CME

Precio
118
120
115
122
210
240
218
220
150
130
308
370
360
345
290
300
255
525
540
480
440
610
615
650
625
630
510
670
720
750
790
740
670
685
700
705
725
740

a=0,0779
118,0
118,0
119,8
115,4
121,5
203,1
237,1
219,5
220,0
155,4
132,0
294,3
364,1
360,3
346,2
294,4
299,6
258,5
504,2
537,2
484,5
443,5
597,0
613,6
647,2
626,7
629,7
519,3
658,3
715,2
747,3
786,7
743,6
675,7
684,3
698,8
704,5
723,4
5719,04

a=0,5
118,0
118,0
119,0
117,0
119,5
164,8
202,4
210,2
215,1
182,5
156,3
232,1
301,1
330,5
337,8
313,9
306,9
281,0
403,0
471,5
475,7
457,9
533,9
574,5
612,2
618,6
624,3
567,2
618,6
669,3
709,6
749,8
744,9
707,5
696,2
698,1
701,6
713,3
6366,91

a=0,7
118,0
118,0
118,6
117,5
118,9
146,2
174,3
187,4
197,2
183,0
167,1
209,4
257,6
288,3
305,3
300,7
300,5
286,9
358,3
412,8
433,0
435,1
487,6
525,8
563,1
581,6
596,1
570,3
600,2
636,1
670,3
706,2
716,3
702,4
697,2
698,0
700,1
707,6
8259,45

PronosSPSS
118,1
118,0
119,8
115,4
121,5
203,0
237,1
219,5
220,0
155,5
132,0
294,1
364,0
360,3
346,2
294,4
299,6
258,5
504,0
537,2
484,5
443,5
596,9
613,6
647,1
626,7
629,7
519,4
658,1
715,1
747,3
786,6
743,7
675,8
684,3
698,8
704,5
723,4
5719,67

FIG. 34: PRECIO DEL PRODUCTO, EJEMPLO SUAVIZAMIENTO


EXPONENCIAL.

83

Descripcin del modelo


Tipo de modelo
ID del modelo

Modelo_1

Simple

FIG. 35: GRFICO OBSERVADO Y AJUSTE DEL PRECIO, EJEMPLO


SUAVIZAMIENTO EXPONENCIAL

Caso: Consumo de Helado, con Mtodo de Descomposicin Estacional.


El propsito de este caso es analizar el consumo de un producto que tiene un
comportamiento con tendencia y estacionalidad. Por este motivo se utilizar el
mtodo de descomposicin estacional.
Modelo Aditivo: Yt = Tt + St + Ct + I t.
Ao Trimestre Consumo Helado Tendencia
2010
1
201
190,6
2
195
195,5
3
176
200,4
4
199
205,4
2011
1
230
210,3
2
225
215,2
3
203
220,1
4
229
225,0
2012
1
246
230,0
2
236
234,9
3
224
239,8
4
248
244,7
2013
1
2
3
4

Serie
206,0
199,0
181,3
205,6
225,7
218,7
201,0
225,3
245,4
238,4
220,7
245,0

Serie SPSS
202
195
177
201
224
218
202
226
250
242
223
248
271
264
246
271

84

2010
10,417
-0,506
-24,429
-6,352

2011
19,725
9,802
-17,121
3,956

2012
16,033
1,110
-15,813
3,264
R prom

E(i)
15,392
3,469
-19,121
0,289
0,0072

FE(i)
15,385
3,462
-19,128
0,282

FIG. 36: CONSUMO DE HELADOS, EJEMPLO DESCOMPOSICIN ESTACIONAL

Como se puede observar en los resultados al aplicar el modelo aditivo de


descomposicin estacional con el procedimiento presentado y desarrollado en
Excel, comparado con los resultados obtenidos al utilizar software SPSS, son
similares en comportamiento, la diferencia esta en el mtodo para determinar el
comportamiento de la componente de tendencia, que un caso se determina con
un modelo de regresin lineal simple y en el otro caso, con un mtodo de
suavizamiento exponencial. Una vez obtenido el modelo se puede hacer un
pronstico para el consumo de helado en los periodos siguientes.

Descripcin del modelo


Tipo de modelo
ID del modelo

Consumo Helado

Modelo_1

Aditivo de Winters

Previsin
Modelo
Consumo HeladoModelo_1

T1 2013

T2 2013

T3 2013

T4 2013

Previsin

271

264

246

271

LCS

280

274

256

281

LCI

262

255

237

261

Para cada modelo, las predicciones comienzan despus del ltimo valor no perdido del rango del perodo de
estimacin solicitado y finalizan en el ltimo perodo para el que hay disponibles valores no perdidos de todos los
predictores o en la fecha de finalizacin del perodo de prediccin solicitado, lo que ocurra antes.

85

FIG. 37: OBSERVADO Y AJUSTE, CONSUMO DE HELADO, EJEMPLO


DESCOMPOSICIN ESTACIONAL.

Caso: Consumo de Helado, con Mtodo de Descomposicin Estacional


El objetivo de este caso es analizar el consumo de un producto que tiene un
comportamiento con tendencia y estacionalidad. Por este motivo se utilizar el
mtodo de descomposicin estacional y un modelo es mixto.
Modelo Mixto: Yt = Tt * (1 + St ) * (1 + Ct ) + It
Ao
2010

2011

2012

2013

Trimestre Consumo Helado Tendencia


1
201
190,6
2
195
195,5
3
176
200,4
4
199
205,4
1
230
210,3
2
225
215,2
3
203
220,1
4
229
225,0
1
246
230,0
2
236
234,9
3
224
239,8
4
248
244,7
1
2
3
4

Serie
204,440
198,610
182,680
205,347
225,563
218,614
200,628
225,038
246,687
238,619
218,576
244,730

Serie SPSS
202
195
177
201
224
218
202
226
250
242
223
248
271
264
246
271

2010
1,055
0,997
0,878
0,969

2011
1,094
1,046
0,922
1,018

2012
1,070
1,005
0,934
1,013
R prom

E(i)
1,073
1,016
0,911
1,000
1,0000

FE(i)
1,073
1,016
0,911
1,000

Como se puede observar en los resultados al aplicar el modelo mixto de


descomposicin estacional con el procedimiento presentado y desarrollado en
Excel, comparado con los resultados obtenidos al utilizar software SPSS, son
similares en comportamiento. Una vez obtenido el modelo se puede hacer un
pronstico para el consumo de helado en los periodos siguientes.

86

4.4 Modelos Autorregresivos


Definimos un modelo como autorregresivo si la variable endgena de un
perodo t es explicada por las observaciones de ella misma correspondientes a
perodos anteriores aadindose, como en los modelos estructurales, un trmino
de error. En el caso de procesos estacionarios con distribucin normal, la teora
estadstica de los procesos estocsticos dice que, bajo determinadas condiciones
previas, toda Yt puede expresarse como una combinacin lineal de sus valores
pasados (parte sistemtica) ms un trmino de error (innovacin).
Los procesos autorregresivos de orden p (Gujarati, 2004), AR(p). Los rdenes
autorregresivos especifican los valores previos de la serie utilizados para
predecir los valores actuales. Por ejemplo, un orden autorregresivo igual a 2
especifica que se van a utilizar los valores de la serie correspondientes a dos
periodos de tiempo del pasado para predecir el valor actual.

La serie de tiempo Yt, sigue un proceso de media mvil de orden q


(Gujarati, 2004), MA(q). Los rdenes de media mvil especifican el modo en
que se utilizan las desviaciones de la media de la serie para los valores previos
con el fin de predecir los valores actuales. Por ejemplo, los rdenes de media
mvil de 1 y 2 especifican que las desviaciones del valor medio de la serie de
cada uno de los dos ltimos perodos de tiempo se tienen en cuenta al predecir
los valores actuales de la serie.

Por supuesto, es muy probable que la serie de tiempo Yt, tenga caractersticas
de AR y MA a la vez, es decir, un proceso autorregresivo y de media mvil,
ARMA. Por ejemplo, si Yt sigue un proceso ARMA(1,1), este puede escribirse
como
Yt = at + 1Yt-1 + 1t + 2t-1
Porque hay un trmino autorregresivo y uno de media mvil, y a t representa un
trmino constante.
En general, en un proceso ARMA(p,q), habr p trminos autorregresivos y q
trminos de medias mviles.
Se sabe que muchas series econmicas no son estacionarias (Gujarati, 2004),
los supuestos para que una serie sea estacionaria son, que la media y varianza
de la serie son constantes y su covarianza es invariante en el tiempo, por
consiguiente se deben diferenciar d veces para hacerla estacionaria.
Si se debe diferenciar una serie de tiempo d-veces para hacerla estacionaria y
luego se aplica a sta el modelo ARMA(p,q), se dice que la serie original es
ARIMA(p,d,q), es decir, es una serie de tiempo autorregresiva integrada de
87

media mvil (Gujarati, 2004), donde p denota el nmero de trminos


autorregresivos, d el nmero de veces que la serie debe ser diferenciada para
hacerla estacionaria y q es el nmero de trminos de media mvil.
Diferencia (d), especifica el orden de diferenciacin aplicado a la serie antes de
estimar los modelos. La diferenciacin es necesaria si hay tendencias (las series
con tendencias suelen ser no estacionarias y el modelado de ARIMA asume la
estacionariedad) y se utiliza para eliminar su efecto. El orden de diferenciacin
se corresponde con el grado de la tendencia de la serie (la diferenciacin de
primer orden representa las tendencias lineales, la diferenciacin de segundo
orden representa las tendencias cuadrticas, etc.).
La metodologa de Box-Jenkins (Gujarati, 2004) resulta til para determinar el
modelo de serie de tiempo que represente el fenmeno que se quiere explicar,
este consiste de los siguientes pasos:
1. Identificacin, encontrar los valores apropiados de p, d y q. Se recurre
al correlograma y el correlograma parcial para ayudar a identificar
estos valores.
2. Estimacin, habiendo identificado los valores apropiados de p y q, la
siguiente etapa es estimar los parmetros de los trminos
autorregresivos y de media mvil incluidos en el modelo. Algunas
veces, este clculo puede hacerse mediante mnimos cuadrados
simples, pero otras se tendr que recurrir a mtodos de estimacin no
lineal (en parmetros).
3. Verificacin, despus de seleccionar un modelo ARIMA particular y
de estimar sus parmetros, se trata de ver luego si el modelo
seleccionado se ajusta a los datos en forma razonablemente buena, ya
que es posible que exista otro modelo ARIMA que tambin lo haga.
4. Prueba simple, probar si los residuos son ruido blanco, sino lo son
iterar.
5. Prediccin, una vez ajustado el modelo, en muchos casos las
predicciones obtenidas por este mtodo son confiables, pero por
supuesto, cada caso debe ser verificado.
Las herramientas principales en la identificacin de los valores de p, d y q son
la funcin de autocorrelacin (FAC o ACF), la funcin de autocorrelacin
parcial (PACF) y los correlograma resultantes, que son los grficos de ACF y
de PACF frente a la longitud del rezago.
La ACF al rezago k, denotada por k, se define como,
k = [covarianza al rezago k/ varianza]
k = k/0
y
-1 k 1.
Si se grafica k con respecto a k, se obtiene el correlograma poblacional. Por
consiguiente, la funcin de autocorrelacin muestral al rezago k es
que es simplemente la razn entre la covarianza y varianza muestral.
88

La grafica de k frente a k se conoce como correlograma muestral.


Caso: Una Serie de Tiempo del Precio del Petrleo.
Hoy en da el petrleo y sus derivados, son una de las principales
fuentes de energa en el mundo. Esto lo podemos ver cotidianamente en
el combustible que consumen los automviles, los aviones, calefacciones a
petrleo, etc. Es por esto que es importante saber cmo se comporta, si hay
estaciones del ao en el cual sus precios bajan o suben, si su precio tiende a
subir o a bajar a medida que pasa el tiempo, entre otras cosas.
Para esto, en el presente estudio se busca modelar el precio del petrleo, con el
fin de obtener las mejores predicciones posibles. Para lo cual se usaran series
de tiempo con los precios mensuales del petrleo, desde enero del ao
2000, hasta octubre del ao 2010.
Una vez ingresados los datos en el programa y definida la periodicidad de
los datos, como esta explicado en el anexo 2, lo primero que se hace es
graficar la serie con respecto al tiempo. Esto nos servir para tener alguna
idea del comportamiento de la serie, para ver si tiene estacionalidad, tendencia
y ver con qu modelo se pudiese modelar.

FIG. 38: GRFICO PRECIO DEL PETRLEO, CASO SERIE DE TIEMPO

Del grfico se puede apreciar una leve tendencia al alza en el precio. Adems
no se ven claramente las estacionalidades, por lo que podramos deducir
que la serie no presenta estacionalidad.
4.5 Anlisis de Autocorrelaciones

89

Al examinar las autocorrelaciones y las autocorrelaciones parciales de una


serie temporal, se obtiene una conclusin ms cuantitativa sobre la relacin
entre los distintos periodos de esta, a diferencia de lo que se podra inferir
simplemente mirando el grafico de la serie. Por esto mediante un anlisis
de autocorrelacin hecho por el programa se obtuvo:

FIG. 39: ACF CASO PRECIO PETRLEO

90

FIG. 40: ACF PARCIAL, CASO PRECIO PETRLEO

En el primer grfico, se puede ver una clara tendencia. Este tipo de diagramas
es comn en los procesos que no son estacionarios, por lo que se confirma la no
existencia de estacionalidad vista en el grafico de la serie.
Al analizar el grfico de autocorrelaciones parciales, que considera la
relacin existente solo con el retardo sealado, eliminando la de
anteriores rezagos, se pueden realizar afirmaciones ms concluyentes sobre
la relacin entre periodos. En este caso podemos ver que existe una alta
correlacin con el retardo uno, pero adems, se puede ver una correlacin
significativa para los retardos 2,3 y 14.
Modelo:
Ahora para crear el modelo para la serie, se utiliza la herramienta crear
modelo del SPSS. Esta es capaz de elegir el mejor modelo para la
serie, dndonos adems la posibilidad de elegir nosotros el modelo.
Adems, pregunta cuantos pronsticos se quieren obtener, grficos que se
desean, etc.
En esta ocasin se deja que se elija solo el mejor modelo, pidindole al
programa las 6 proyecciones siguientes a los datos que se tienen, obteniendo lo
siguiente.
Descripcin del modelo
Tipo de modelo

91

Descripcin del modelo


Tipo de modelo
ID del modelo

Petrleo

Modelo_1

Tendencia amortiguada

Ajuste del modelo


Percentil

Estadstico de
ajuste
R-cuadrado

Media

ET Mnimo Mximo

10

25

50

75

90

95

,206 .

,206

,206

,206

,206

,206

,206

,206

,206

,206

,963 .

,963

,963

,963

,963

,963

,963

,963

,963

,963

RMSE

4,999 .

4,999

4,999

4,999

4,999

4,999

4,999

4,999

4,999

4,999

MAPE

7,265 .

7,265

7,265

7,265

7,265

7,265

7,265

7,265

7,265

7,265

estacionaria
R-cuadrado

MaxAPE
MAE
MaxAE
BIC normalizado

25,602 .

25,602 25,602 25,602 25,602 25,602 25,602 25,602 25,602 25,602

3,740 .

3,740

19,611 .

3,740

3,740

3,740

3,740

3,740

3,740

3,740

3,740

19,611 19,611 19,611 19,611 19,611 19,611 19,611 19,611 19,611

3,331 .

3,331

3,331

3,331

3,331

3,331

3,331

3,331

3,331

3,331

Estadsticos del modelo


Estadsticos de ajuste del
modelo

Modelo

Nmero de

R-cuadrado

predictores

estacionaria

petrleo-

Ljung-Box Q(18)
Nmero de

R-cuadrado

,206

,963

Estadsticos
20,306

GL

Sig.

15

valores atpicos

,161

Modelo_1
Parmetros del modelo de suavizado exponencial
Modelo
petrleo-Modelo_1

Estimacin
Sin transformacin

ET

Sig.

Alpha (Nivel)

,849

,250

3,393

,001

Gamma

,998

1,062

,939

,349

(Tendencia)

92

Estadsticos del modelo


Estadsticos de ajuste del
modelo

Modelo

Nmero de

R-cuadrado

predictores

estacionaria

Ljung-Box Q(18)
Nmero de

R-cuadrado

Estadsticos

Phi (Factor de

GL

Sig.

,600

,208

valores atpicos
2,885

,005

amortiguacin de la
tendencia)

Previsin
Modelo

Nov 2010

petrleo-Modelo_1

Dic 2010

Ene 2011

Feb 2011

Mar 2011

Abr 2011

Previsin

84,01

85,91

87,05

87,74

88,15

88,39

LCS

93,91

102,60

110,48

117,45

123,60

129,10

LCI

74,12

69,23

63,62

58,03

52,69

47,69

Para cada modelo, las predicciones comienzan despus del ltimo valor no perdido del rango del perodo de
estimacin solicitado y finalizan en el ltimo perodo para el que hay disponibles valores no perdidos de todos los
predictores o en la fecha de finalizacin del perodo de prediccin solicitado, lo que ocurra antes.

FIG. 41: CASO PRECIO PETRLEO, OBSERVADO Y PREVISIN, SERIE DE


TIEMPO

El programa dice que el mejor modelo que se ajusta a la serie es el de


tendencia amortiguada. Este modelo es adecuado para las series con una
93

tendencia lineal que va desapareciendo y sin estacionalidad. Sus parmetros de


suavizado son el nivel, la tendencia y la amortiguacin de la tendencia.
Por lo visto en los anlisis de autocorrelacin, y en el grfico de la
serie, era de esperar que el modelo no tuviese estacionalidad. Por lo que
la eleccin de modelos es congruente con los anlisis realizados anteriormente.
El suavizado exponencial amortiguado es muy similar a un modelo ARIMA
con un orden de autorregresin, un orden de diferenciacin y dos rdenes de
media mvil.
Se puede ver que el valor de R cuadrado es de 0.963, por lo que el modelo se
ajusta de muy buena manera a lo que es la serie.

94

CAPTULO 5: Anlisis Clster


El anlisis de clster (o anlisis de conglomerados) es una tcnica de anlisis
exploratorio de datos para resolver problemas de clasificacin. Consiste en
ordenar objetos (personas, cosas, animales, plantas, variables, etc.) en grupos
(conglomerados o clsteres) de forma que el grado de similitud entre miembros
del mismo clster sea ms fuerte que el grado de asociacin entre miembros de
diferentes clster. Cada clster se describe como la clase a la que sus miembros
pertenecen (Wooldridge, 2006). El anlisis clster se ocupa principalmente
para:

Segmentacin del mercado


Comprensin del comportamiento del comprador
Identificacin de oportunidades para productos nuevos
Seleccin de mercados de prueba
Reduccin de datos

En anlisis clster poca o ninguna informacin es conocida sobre la estructura


de las categoras, lo cual lo diferencia de los mtodos multivariantes de
asignacin y discriminacin. De todo lo que se dispone es de una coleccin de
observaciones, siendo el objetivo operacional en este caso, descubrir la
estructura de las categoras en la que se encajan las observaciones. Ms
concretamente, el objetivo es ordenar las observaciones en grupos tales que el
grado de asociacin natural es alto entre los miembros del mismo grupo y bajo
entre miembros de grupos diferentes.
5.1 Clasificacin de las Tcnicas Clster
Podemos encontrarnos dos tipos fundamentales de mtodos de clasificacin:
jerrquicos y no jerrquicos. En los primeros, la clasificacin resultante tiene
un nmero creciente de clases anidadas, mientras que en el segundo las clases
no son anidadas. Los mtodos tambin pueden dividirse en aglomerativos y
divisivos. En los primeros, se parte de tantas clases como objetos tengamos que
clasificar y en pasos sucesivos vamos obteniendo clases de objetos similares,
mientras que en los segundos se parte de una nica clase formada por todos los
objetos que se va dividiendo en clases sucesivamente.
Mtodos jerrquicos:
Estos mtodos tienen, como ya se dijo anteriormente, por objetivo agrupar
clsters para formar uno nuevo o bien separar alguno ya existente para dar
origen a otros dos, de tal forma que se minimice alguna funcin distancia o
bien se maximice alguna medida de similitud.
Los mtodos jerrquicos se subdividen a su vez en aglomerativos y
disociativos. Los aglomerativos comienzan el anlisis con tantos grupos como
individuos haya en el estudio. A partir de ah se van formando grupos de forma
95

ascendente, hasta que, al final del proceso, todos los casos estn englobados en
un mismo conglomerado. Los mtodos disociativos o divisivos realizan el
proceso inverso al anterior. Empiezan con un conglomerado que engloba a
todos los individuos. A partir de este grupo inicial se van formando, a travs de
sucesivas divisiones, grupos cada vez ms pequeos. Al final del proceso se
tienen tantos grupos como individuos en la muestra estudiada.
Independientemente del proceso de agrupamiento, hay diversos criterios para ir
formando los conglomerados; todos estos criterios se basan en una matriz de
distancias o similitudes. Por ejemplo, dentro de los mtodos aglomerativos
destacan:
1.
2.
3.
4.
5.
6.

Mtodo del amalgamamiento simple.


Mtodo del amalgamamiento completo.
Mtodo del promedio entre grupos.
Mtodo del centroide.
Mtodo de la mediana.
Mtodo de Ward.

Dentro de los mtodos disociativos, destacan, adems de los anteriores, que


siguen siendo vlidos:
1. El anlisis de asociacin.
2. El detector automtico de interaccin.
Mtodos no jerrquicos:
En cuanto a los mtodos no jerrquicos, tambin conocidos como partitivos o
de optimizacin, tienen por objetivo realizar una sola particin de los
individuos en K grupos. Ello implica que el investigador debe especificar a
priori los grupos que deben ser formados, siendo esta, posiblemente, la
principal diferencia respecto de los mtodos jerrquicos, (no obstante hay que
sealar que hay diversas versiones de estos procedimientos que flexibilizan un
tanto el nmero final de clusters a obtener). La asignacin de individuos a los
grupos se hace mediante algn proceso que optimice el criterio de seleccin.
Otra diferencia de estos mtodos respecto a los jerrquicos reside en que
trabajan con la matriz de datos original y no precisan su conversin en una
matriz de distancias o similitudes. Estos se pueden clasificar en:
Mtodos de reasignacin:
Permiten que un individuo asignado a un grupo en un determinado paso del
proceso sea reasignado a otro grupo en un paso posterior, si ello optimiza el
criterio de seleccin. El proceso acaba cuando no quedan individuos cuya
reasignacin permita optimizar el resultado que se ha conseguido. Dentro de
estos mtodos estn:
a) El mtodo K-medias.
96

b) El Quick-Clster anlisis.
c) El mtodo de Forgy.
d) El mtodo de las nubes dinmicas.
Mtodos de bsqueda de la densidad:
Dentro de estos mtodos estn los que proporcionan una aproximacin
tipolgica y una aproximacin probabilstica.
En el primer tipo, los grupos se forman buscando las zonas en las cuales se da
una mayor concentracin de individuos. Entre ellos destacan:
a) El anlisis modal de Wishart.
b) El mtodo Taxmap.
c) El mtodo de Fortn.
En el segundo tipo, se parte del postulado de que las variables siguen una ley
de probabilidad segn la cual los parmetros varan de un grupo a otro. Se trata
de encontrar los individuos que pertenecen a la misma distribucin. Entre los
mtodos de este tipo destaca el mtodo de las combinaciones de Wolf.
Mtodos directos:
Permiten clasificar simultneamente a los individuos y a las variables. El
algoritmo ms conocido dentro de este grupo es el Block-Clustering.
Mtodos de reduccin de dimensiones:
Estos mtodos consisten en la bsqueda de unos factores en el espacio de los
individuos; cada factor corresponde a un grupo. Se les conoce como Anlisis
Factorial tipo Q.
5.2 Etapas de un Anlisis Clster
Para hacer un anlisis clster se debe seguir los siguientes pasos:
1. Seleccin de muestra de datos.
2. Seleccin y transformacin de variables a utilizar.
3. Seleccin del mtodo y concepto de distancia o similitud.
Cuando se refiere a seleccin del concepto de distancia o similitud habla del
criterio que se usar para definir los grupos, por lo tanto es importante tenerlo
en mente para el anlisis antes de formar los clster y despus de ellos. Los
criterios pueden ser variados y depende de la persona encargada del estudio.
Los criterios pueden ser de:

Correlacin: Se traslada el concepto tradicional de covariacin, de


conexin entre variables, de "pautas" de transicin (por ejemplo, el
97

clculo de un coeficiente de correlacin) aplicndolo a las


observaciones de los sujetos como si fuesen observaciones de
variables.
Medidas de similitud o distancia: Definen proximidad, no covariacin,
y su eleccin (tipos) viene determinada por la escala de medida de las
variables: binaria u ordinal o de intervalo/razn.

Algunas medidas de distancia seran:


Euclidea (para "t" variables)

Manhattan (o funcin de la distancia absoluta, o City-Block)


|

Formulacin general de Power (s,r)


(

D2 de Manhalanobis

4. Seleccin y agrupacin por el criterio de agrupacin elegido.


Hay diferentes mtodos para la seleccin y agrupacin de grupos segn el
mtodo que se use. La seleccin de uno u otro mtodo se basa en la forma en
que la distancia se considera en el algoritmo de agrupacin, los cuales fueron
descritos anteriormente.
5. Determinacin de la estructura correcta.
La determinacin de la estructura correcta o el nmero de conglomerados es
una decisin subjetiva y depender del encargado del estudio. Pero hay grficos
que ayudan a ver como se forman los conglomerados.
Dendograma: Es un grfico que muestra como se agrupan los conglomerados
(Siendo este un caso de conglomerados jerrquicos), donde salen los casos y las
distancias, mientras que las lneas muestran que conglomerados se agrupan y
cules no.

98

FIG. 42: DENDOGRAMA DE TMPANOS, ANLISIS CLUSTER

Este diagrama se lee de abajo hacia arriba. Al principio todos los casos estn
separados, excepto el 146 y el 77 que se unen formando el primer grupo.
Mientras ms se avanza hacia arriba ms grupos se van uniendo y menos son
los nmeros de conglomerados, hasta llegar arriba donde todos son un gran
conglomerado.
Tambin el dendograma puede ser mostrado en forma horizontal:
Rescaled Distance Cluster Combine
C A S E
Label Num

0
5
10
15
20
25
+---------+---------+---------+---------+---------+

72
146
231
174
145
171
209
20
126
181
117
178
336
275
333

-+
-+
-+
-+-------+
-+
+-----------------------+
-+-------+
+---------------+
-+
|
|
---------------------------------+
|
-+
|
-+
|
-+-+
|
-+ |
|
-+ +---------------------------------------------+
-+ |
---+

99

5.3 Caso: Estudio del Producto APV en las AFP.


El objetivo de este caso es analizar el comportamiento del Ahorro Previsional
Voluntario APV, que es un mecanismo que permite a los trabajadores
dependientes e independientes ahorrar por sobre lo que cotizan
obligatoriamente en su Administradora de Fondos de Pensin AFP, con
importantes beneficios tributarios (Contreras, 2012).
Para realizar el anlisis se utilizar el mtodo de clster para hacer la
segmentacin de mercado, los datos disponibles del APV se obtienen de la
Superintendencia de Pensiones.
En este anlisis de debe considerar que las nicas variables demogrficas que
hay en los datos que tiene la superintendencia sobre las APV, es el nmero de
personas y el saldo total de cada fondo por sexo, si es dependiente o
independiente y edad. Siendo elegido los datos por edad ya que son los que ms
permiten anlisis, para formar conglomerados.
Adems, de los datos de la Superintendencia de Pensiones, se buscaron
variables que representaran la preocupacin por el desempleo, la preocupacin
por la vejez y la estabilidad econmica, ya que estas son las tres razones por lo
cual dicen las AFP que se toma un APV. Siendo estos obtenidos de la Encuesta
Nacional Urbana de Seguridad Ciudadana (ENUSC) a nivel nacional, esta es el
fruto del convenio suscrito entre la Subsecretara de Prevencin del Delito del
Ministerio del Interior y Seguridad Pblica y el Instituto Nacional de
Estadsticas (INE); la que tiene un error muestral de 4,5%, por lo tanto se
pueden tomar como representativas del pas.
Las preguntas de la encuesta de seguridad ciudadana son las siguientes
(Contreras, 2012):
Indique en orden de importancia las tres situaciones que ms le generan
preocupacin
Perder el trabajo
Dificultad de insertarse en el mercado laboral
Ser vctima de delito
Que un miembro del grupo familiar caiga en el alcoholismo o la
drogadiccin
La inestabilidad econmica del hogar
No tener acceso a la vivienda propia o perderla
Incertidumbre en la vejez (salud, previsin, desamparo)
Que usted o alguien de su familia no reciba una educacin que mejore
sus oportunidades laborales
No contar con un sistema de salud que cubra enfermedades o
accidentes
No sabe
No responde
100

Cul de los siguientes problemas de actualidad nacional tiene mayor


importancia para usted? Y en segundo lugar?
La pobreza
La situacin econmica
La contaminacin ambiental
El trfico de drogas
La educacin
El desempleo
La salud
La delincuencia
El consumo de drogas
La corrupcin
Otro
No sabe
No responde
Se escogieron para este anlisis las que estn marcadas con negrita, ya que son
las variables que ms representan lo que se quiere estudiar. De estas se tom la
frecuencia relativa de la mencin, es decir, en la primera pregunta el porcentaje
de la gente de la misma edad que nombr en sus tres primeras preocupaciones
y, en la segunda, el porcentaje de las personas de la misma edad que
mencionaron el problema a nivel nacional.
Teniendo esto, las variables para el anlisis clster seran, (Contreras, 2012):
1. Nmero de ahorrantes fondo A (Diciembre 2011). Fuente:
Superintendencia de pensiones.
2. Saldo promedio por ahorrante fondo A (Diciembre 2011). Fuente:
Superintendencia de pensiones.
3. Nmero de ahorrantes fondo B (Diciembre 2011). Fuente:
Superintendencia de pensiones.
4. Saldo promedio por ahorrante fondo B (Diciembre 2011). Fuente:
Superintendencia de pensiones.
5. Nmero de ahorrantes fondo C (Diciembre 2011). Fuente:
Superintendencia de pensiones.
6. Saldo promedio por ahorrante fondo C (Diciembre 2011). Fuente:
Superintendencia de pensiones.
7. Nmero de ahorrantes fondo D (Diciembre 2011). Fuente:
Superintendencia de pensiones.
8. Saldo promedio por ahorrante fondo D (Diciembre 2011). Fuente:
Superintendencia de pensiones.
9. Nmero de ahorrantes fondo E (Diciembre 2011). Fuente:
Superintendencia de pensiones.
10. Saldo promedio por ahorrante fondo E (Diciembre 2011). Fuente:
Superintendencia de pensiones.
11. Menciones Perder el trabajo por edad. Fuente: Pregunta Indique en
orden de importancia las tres situaciones que ms le generan
preocupacin Encuesta seguridad ciudadana 2011 (ENUSC)
101

12. Menciones La inestabilidad econmica del hogar Fuente: Pregunta


Indique en orden de importancia las tres situaciones que ms le
generan preocupacin Encuesta seguridad ciudadana 2011 (ENUSC)
13. Menciones Incertidumbre en la vejez (salud, previsin, desamparo)
Fuente: Pregunta Indique en orden de importancia las tres
situaciones que ms le generan preocupacin Encuesta seguridad
ciudadana 2011 (ENUSC)
14. Menciones No contar con un sistema de salud que cubra
enfermedades o accidentes Fuente: Pregunta Indique en orden de
importancia las tres situaciones que ms le generan preocupacin
Encuesta seguridad ciudadana 2011 (ENUSC)
15. Menciones La situacin econmica. Fuente: Pregunta Cul de los
siguientes problemas de actualidad nacional tiene mayor importancia
para usted? Y en segundo lugar? Encuesta seguridad ciudadana
2011 (ENUSC)
16. Menciones El desempleo: Fuente: Pregunta Cul de los siguientes
problemas de actualidad nacional tiene mayor importancia para
usted? Y en segundo lugar? Encuesta seguridad ciudadana 2011
(ENUSC)
17. Menciones La salud: Fuente: Pregunta Cul de los siguientes
problemas de actualidad nacional tiene mayor importancia para
usted? Y en segundo lugar? Encuesta seguridad ciudadana 2011
(ENUSC)
18. Menciones La pobreza: Fuente: Pregunta Cul de los siguientes
problemas de actualidad nacional tiene mayor importancia para
usted? Y en segundo lugar? Encuesta seguridad ciudadana 2011
(ENUSC)
Todas estas variables tienen datos dentro de estos rangos de edades:
1. 15-19
2. 20-24
3. 25-29
4. 30-39
5. 40-49
6. 50-59
7. 60 y ms
Se debe considerar en el anlisis que hay rangos de edades que son distintos
(15-19, 20-24 y 60 y ms). Aunque esto solo afecta significativamente a
la variable nmero de afiliados. Los datos en concreto se pueden ver en el
Anexo 6.
Dado esto, hacemos el anlisis en SPSS dando los siguientes resultados:
Historial de conglomeracin

102

Etapa en la que el conglomerado


Conglomerado que se combina
Etapa

Conglomerado 1

aparece por primera vez

Conglomerado 2

Coeficientes

Conglomerado 1

Prxima

Conglomerado 2

etapa

23,662

67,994

154,551

293,459

436,388

599,637

H I E R A R C H I C A L

C L U S T E R

A N A L Y S I S

Dendrogram using Average Linkage (Between Groups)


Rescaled Distance Cluster Combine
C A S E
Label Num

0
5
10
15
20
25
+---------+---------+---------+---------+---------+

1
2
3
4
5

-+-+
-+ +-------------------+
---+
+-------------------------+
-----------------------+
|
-----------+-----------------------+
|

103

6
7

-----------+
+-------------+
-----------------------------------+

FIG. 43: DENDOGRAMAS, CASO APV, ANLISIS CLUSTER

Sabido es que la eleccin de los clsteres en base a un dendograma es subjetiva


y depende del criterio de la persona encargada del estudio. En la imagen se
muestra una lnea que indica el corte elegido para esta ocasin, el cual fue
elegido por, (Contreras, 2012):
Como se ve, la separacin de los grupos tenda a hacer por edad, los
jvenes con los jvenes y los viejos con los viejos, por lo tanto se
eligi la separacin donde se pudiera ver la diferencia entre los que
estn en edad de jubilarse y los que no.
A pesar de que se podra unir en tres clsteres y representar en grupo
de Personas trabajadoras, Personas a menos de 10 aos de jubilarse
y Personas jubiladas se considero que el dato 4 (30-39 aos) tiene un
comportamiento lo suficientemente distinto a los tres anteriores como
para hacer su propio clsteres.
Tras esto, se puede decir que quedan cuatro clster:
1. 15 39 aos
2. 30 39 aos
3. 40 59 aos
4. 60 y ms
Para analizar las diferencias y las caractersticas de cada clster, se hicieron
grficos de dispersin de cada una de las variables como el que se muestra a
continuacin:

104

Encerrados en cada crculo se ven los diferentes clsteres y su comportamiento


por cada variable. Los dems grficos se pueden ver en el Anexo 3.
Con los grficos de dispersin se puede concluir que, (Contreras, 2012):
Conglomerado 1 (15-29 aos)
o Tienen bajo saldo promedio en todos los fondos.
o Creciente entrada al fondo A.
o Tienen una creciente entrada al fondo B y E.
o Creciente preocupacin por perder el trabajo.
o Son los que ms le preocupa la inestabilidad en el hogar.
o Les preocupa el desempleo.
Conglomerado 2 (30 39 aos)
o Tienen un saldo promedio bajo en todos los fondos, pero
creciente.
o Son los que ms personas participan en el fondo A y B.
o Tienen una creciente entrada al fondo B y E.
o Los ms preocupados por perder el trabajo.
o Decreciente preocupacin por la inestabilidad en el hogar.
o Decreciente preocupacin por el desempleo.
Conglomerado 3 (40-59 aos)
o Tienen el ms alto saldo promedio en todos los fondos.
o Alta y decreciente participacin en los fondos A, B, C y E.
105

o
o

Baja y creciente participacin en el fondo D.


Creciente preocupacin por el desamparo en la vejez, por el
sistema de salud y la situacin econmica.
o Decreciente preocupacin por el desempleo.
o Creciente preocupacin por la pobreza y la salud.
Conglomerado 4 (60 y ms aos)
o Saldo alto en todos los fondos.
o Baja participacin en el fondo A, B, C y E.
o Alta participacin en el fondo D.
o Les preocupa el desamparo en la vejez, por el sistema de salud
y la situacin econmica.
o Les preocupa la pobreza.

106

CAPTULO 6: rboles de Decisin


Un rbol de decisin es un modelo de prediccin utilizado en el mbito de la
inteligencia artificial. Dada una base de datos se construyen diagramas de
construcciones lgicas, muy similares a los sistemas de prediccin basados
en reglas, que sirven para representar y categorizar una serie de condiciones
que ocurren de forma sucesiva, para la resolucin de un problema. La decisin
final a tomar se puede determinar siguiendo las condiciones que se cumplen
desde la raz del rbol hasta algunas de sus hojas (Hernndez, J., Ferri Ramirez,
C., Ramirez Quintana, Ma, 2004), (Shmueli, G., Patel, N., & Bruce, P., 2007).
Edad

Races

< 25 aos

25 aos

Rechazar

Experiencia
3 aos

< 3 aos
Rechazar

Aceptar

FIG. 44: EJEMPLO RBOL DE DECISIN

Como se ve en la figura anterior, es sencillo aplicar un rbol de decisin en


casos como seleccin de personal. Vemos como primero se discrimina por edad
y despus por experiencia, siendo un clasificador que ayuda a tomar una
decisin en concreto.
Por otro lado, los sistemas de reglas son una generalizacin de los rboles de
decisin, de hecho, un rbol de decisin se puede expresar como un conjunto
de reglas. Pero en este no se exige exclusin ni exhaustividad en las
condiciones de las reglas, es decir, podra aplicarse ms de una regla o ninguna
(Hernndez, J., Ferri Ramirez, C., Ramirez Quintana, Ma, 2004), (Shmueli, G.,
Patel, N., & Bruce, P., 2007).
Es candidato para el cargo?
Si Edad 25 aos Y Experiencia 3
aos Entonces SI
En otro caso No.

107

Hojas

La representacin en forma de reglas suele ser ms reducida que la de los


rboles, ya que permite englobar condiciones y permite el uso de reglas por
defecto, como la de En otro caso que se muestra en el ejemplo anterior.
En general, la diferencia ms importante entre los sistemas de aprendizaje de
rboles de decisin y los sistemas de induccin de reglas es el algoritmo que
utilizan. Si es por particin o cobertura.
6.1 Sistemas por Particin: rboles de Decisin para Clasificacin.
La caracterstica ms relevante de los problemas de clasificacin es que se
asume que las clases son disjuntas, es decir, que un caso es de la clase a o de la
b, pero no puede ser de las dos. Casos simples sera: La raza de un perro, si es
un planeta o una estrella, etc. Lo cual es distinto a la categorizacin, donde se
permite ms de una clase, un ejemplo es la temtica de una pelcula, donde
perfectamente puede ser una pelcula de accin y de humor al mismo tiempo.
Un rbol de decisin en un problema de clasificacin conducir un ejemplo de
una sola hoja, es decir, solo tendr una clase el ejemplo. Por ende, las clases
deben ser tambin disjuntas. Esta propiedad dio el esquema para los primeros
algoritmos de aprendizaje de rboles de decisin. El espacio se iba partiendo de
arriba abajo, utilizando cada vez una particin, es decir, un conjunto de
condiciones excluyentes y exhaustivas. Estos algoritmos se llaman algoritmos
de particin. Por lo tanto, uno de los aspectos ms importantes en los sistemas
de aprendizaje de rboles de decisin es el denominado criterio de particin.
Simplemente el algoritmo va construyendo el rbol aadiendo particiones y los
hijos resultantes de cada particin. Finalmente, se llega a la situacin en la que
todos los ejemplos caen en un nodo inferior son de la misma clase. Por lo tanto
el rbol no sigue creciendo.
Los dos puntos ms importantes a considerar para que el algoritmo funcione
bien son los siguientes:
Particiones a considerar.
Criterio de seleccin de particiones.
Esto es lo que diferencia a los distintos algoritmos de particin existentes,
como CART (Breiman, 1984), ID3 (Quinlan 1983), C4.5 (Quinlan, 1993), etc.
6.2 Particiones Posibles
Las particiones son un conjunto de condiciones exhaustivas y excluyentes.
Cuantas ms particiones permitamos ms precisos podrn ser los rboles de
decisin generados. Pero, a cuantas ms particiones se elijan la complejidad del
algoritmo ser mayor. El desafo es encontrar un buen equilibrio entre precisin
y eficiencia.
108

Por esto es porque la mayora de los algoritmos de aprendizaje de rboles de


decisin solo permiten un juego muy limitado de particiones. Por ejemplo
C 4.5 contiene solo un tipo de particin para los atributos nominales y uno solo
para los numricos, (Shmueli, G., Patel, N., & Bruce, P., 2007).
Particiones nominales: El atributo xi es nominal y tiene posibles valores
{v1, v2,,vk}, solo existir una particin posible para ese atributo, la cual ser
(xi = v1, xi = v2,, xi = vk). Muchos algoritmos siguen esta particin, mientras
que otros exigen que los rboles sean binarios (Solo dos hijos por nodo).
Particiones numricas: Si un valor xi es numrico y continuo, puede tomar
valores diferentes en los ejemplos y tienen infinitos valores en general. Por esta
razn, se intentan tomar particiones que separen los ejemplos en intervalos.
Aunque las particiones descritas anteriormente son bastante simples, permiten
obtener rboles de decisin precisos y muy comprensibles, esto se debe a que
se pueden ajustar a muchos patrones y son fcilmente interpretables.

6.3 Criterio de Seleccin de Particiones


Los algoritmos de decisin tienen la particularidad que una vez decidida una
particin sigue hacia abajo la construccin del rbol y no se vuelven a
plantearse las particiones ya construidas. Adems, las particiones ya nombradas
pueden llegar a ser demasiadas. Estos aspectos tienen como consecuencia que
se busque un criterio que permita realizar una buena particin y que se haga sin
demasiado esfuerzo computacional.
Basndose en la idea de buscar particiones que discriminen o consigan nodos
ms puros, se han presentado en las ltimas dcadas numerosos criterios de
particin, tales como el criterio del error esperado, el criterio Gini (Breiman
1984), los criterios Gain, Gain Ratio y la modificacin del C 4.5 (Quinlan
1993) y DKM (Kearns & Mansour 1996). Estos criterios buscan la particin
s con el menor I(s) (Hernndez, J., Ferri Ramirez, C., Ramirez Quintana, Ma,
2004), definido de la siguiente forma:

Donde n es el nmero de nodos hijos de la particin (Nmero de condiciones


de la particin), pj es la probabilidad de caer en el nodo j,
es la proporcin
de elementos de la clase 1 en el nodo j,
es la proporcin de elementos de la
clase 2 en el nodo j, y as para las c clases. Bajo esta frmula general, cada
criterio de particin implementa una funcin f distinta, como se muestra en la
siguiente tabla:
f(p1,p2,,pc)

Criterio
109

Min(p1,p2,,pc)
1-(pi)2
pi log(pi)
2(pi)1/2

Error Esperado
GINI
Entropa (gain)
DKM

Estas funciones f(.) se denominan funciones de impureza y, por lo tanto, la


funcin I(s) calcula la media ponderada (Dependiendo de la cardinalidad de
cada hijo) de la impureza de los hijos en una particin. Varios de estos criterios
son usados en algoritmos conocidos, como Gain Ratio o C4.5 son basados en
Entropa.
6.4 Poda
Los algoritmos de rboles de decisin vistos obtienen un modelo que es
completo y consistente con respecto a la evidencia, es decir, el modelo cubre
todos los ejemplos vistos y los cubre todos de manera correcta. Esto podra
parecer optimo, pero un modelo que se ajuste demasiado a la evidencia suele
comportarse mal para nuevos ejemplo. Por lo tanto, intentar aproximar
demasiado un modelo puede llegar a que seamos demasiado especficos y no
acertemos a los nuevos ejemplos, especialmente si existe ruido en la muestra.
La manera ms frecuente de solucionar este problema es modificar los
algoritmos de aprendizaje de tal manera que obtengan modelos menos
especficos. En lo que son los rboles de decisin el contexto es eliminar
condiciones de las ramas de los rboles. Se puede ver grficamente como lo
ilustra la siguiente figura, (Shmueli, G., Patel, N., & Bruce, P., 2007):

FIG. 45: PODA, RBOL DE DECISIN.

Los nodos que estn por debajo del lmite de poda se eliminan, ya que se
consideran demasiado especficos.
Los mtodos de poda pueden dividirse en dos: prepoda y pospoda.

110

Prepoda: el proceso se realiza durante la construccin del rbol. Se trata en


realidad de determinar el criterio de parada a la hora de seguir especificando
una rama. En general, los criterios de prepoda pueden estar basados en nmero
de ejemplos por nodo, en nmero de excepciones respecto a la clase
mayoritaria (error esperado) o tcnicas ms sofisticadas, como el criterio MDL.
Postpoda: El proceso se realiza despus de la construccin del rbol, se trata de
eliminar nodos de abajo a arriba hasta un cierto lmite. Generalmente la
postpoda, al tener el modelo ya completo, tiende a tener mejores resultados que
la prepoda, pero es menos eficiente en lo que es optimizacin de recursos.
La poda es una de las primeras y ms simples modificaciones que se han ideado
para mejorar el comportamiento de los rboles de decisin. Con posteridad se
han definido otras serie de operadores y modificadores, generalmente apodados
operadores de restructuracin.
Cuando se hace una visin global del rbol, se puede observar mucho mejor
que ciertas partes se pueden reestructurar con el objetivo de simplificar la
representacin y/o conseguir mejor prediccin.

Talla 21,7

Color = verde

Talla < 21,7

Talla 21,7

Color = verde

Color = verde

FIG. 46: EJEMPLO DE OPERADOR "TRANSPOSICIN", RBOLES DE


DECISIN.

El ejemplo de la figura anterior, se muestra la aplicacin de un operador de


Transposicin. El resultado es un rbol diferente pero equivalente, que,
adems, podra provocar desencadenamiento de otros operadores y convertirlo
en un rbol ms simple (Hernndez, J., Ferri Ramirez, C., Ramirez Quintana,
Ma, 2004), (Shmueli, G., Patel, N., & Bruce, P., 2007).
6.5 Algoritmos ms Populares
Basndose en diferentes particiones, en un criterio de particin y otras
extensiones, han aparecido numerosos algoritmos y sistemas de aprendizaje de
rboles de decisin, (Shmueli, G., Patel, N., & Bruce, P., 2007).

CART (Breiman, 1984) y derivados: son mtodos de particin que


construyen rboles binarios y se basan en el criterio de particin GINI
y que sirve tanto para clasificacin como para regresin. La poda se
111

basa en una estimacin de la complejidad de error. Generalmente se


pueden encontrar en programas de minera de datos con el nombre
C&RT.

ID3 (Quinlan 1983) (Quinlan 1986) C 4.5 (Quinlan 1993) y derivados


(Assistant (Cestnik 1987): son mtodos de particin de la ganancia
(GainRatio). Tienen poda basada en reglas u otros mecanismos ms
sofisticados. Contiene mtodos de colapsado de ramas y muchas otras
mejoras.

IND (Buntine 1992, LMDT (Brodley & Utgoff 1995) y otros sistemas
hbridos: incorporan caractersticas de varios sistemas o aaden otras
tcnicas de aprendizaje y construccin de rboles de decisin:
regresin lineal, perceptrones, etc.

SLIQ (Mehta, 1996)y SPRINT: modificaciones de rboles de decisin


clsicos para conseguir escalabilidad para grandes volmenes de datos,
paralelizacin, etc.

6.5 Caso: Analizar la Situacin de Quiebra de una Empresa.


El objetivo de este caso es explicar el fenmeno de la quiebra de empresas
utilizando un mtodo de minera de datos con la tcnica de rboles y utilizando
el software SPSS Clementine, (Godoy, 2012).
El proceso de quiebra conlleva altos costos pecuniarios y sociales asociados al
fracaso empresarial. Por esta razn, constituye un riesgo para las partes
interesadas quienes temen la aparicin de este evento de manera sbita e
impredecible.
Para este estudio se ha extrado los datos nancieros de 30 empresas operando
en Chile, desde sus estados nancieros publicados por la Superintendencia de
Valores y Seguros. Esta muestra se divide en dos grupos: empresas quebradas,
registradas bajo la Superintendencia de Quiebras entre 2002 - 2011, y empresas
sanas o que no hayan quebrado en ese periodo.
Para conformar la poblacin de datos se consultaron diferentes fuentes,
(Godoy, 2012):
1. Base quiebras: Registro Nacional de Quiebras (2000-2012), elaborado por la
Superintendencia de Quiebras. El registro completo contiene las quiebras
histricas registradas en Chile desde 1956 hasta la fecha. Se trabaja con los
registros de empresas quebradas a partir del 1 de enero de 2000 hasta el 31 de
julio de 2012. Estos registros contienen por ejemplo, la razn social de la
empresa fallida, la fecha de la declaracin de la quiebra, la fecha de publicacin
de la quiebra en el Diario Ocial, direccin, el sndico de quiebra, el tribunal a
cargo de la quiebra, entre otros datos.
112

2. Base FECU: Ficha estadstica codicada uniforme (FECU) de empresas de


la muestra. Estas chas se obtienen desde la pgina de la Superintendencia de
Valores y Seguros (SVS). La FECU es un informe mediante el cual las
empresas scalizadas por la SVS dan a conocer sus estados nancieros. Posee
un formato estandarizado, debe presentarse trimestralmente e incluye el balance
general y el estado de resultado, entre otros datos.
3. Base SII: A travs del Servicio de Impuestos Internos (SII), se obtiene el
giro de las empresas a travs de la opcin Situacin Tributaria/Consultas y
Solicitudes/Consulta tributaria de terceros disponible en su portal online.
El modelo consiste en usar 8 ratios financieros tradicionales que consideran
medidas de liquidez, actividad, cobertura, solvencia y rentabilidad.
Variable
WCTA
CACL
TSTA
EBITTI
TDTA
TDTE
OMTA
ROA

Ratio Financiero
Capital de Trabajo / Total
de Activos
Activo Circulante / Pasivo
Circulante
Ventas / Total de Activos
EBIT / Gastos Financieros
Total de Deuda / Total de
Activos
Total de Deuda / Total de
Patrimonio
Margen Operacional /
Total de Activos
Utilidad del Ejercicio /
Total de Activos

Categora
Liquidez
Liquidez
Actividad
Cobertura
Solvencia
Solvencia
Rentabilidad
Rentabilidad

Donde la variable a predecir ser si es que la empresa quiebra o no.


Utilizando el SPSS Clementine1 cargamos los datos y los separamos, 60% de
ellos para entrenamiento (Datos que servirn para hacer el rbol) y 40% para el
grupo de comprobacin (Datos que no estn cuando se genera el modelo y
servirn para ver la efectividad de este en otros casos).

Anexo 6 para ms detalles.

113

FIG. 47: RBOL DE DECISIN, SPSS CLEMENTINE

En este caso, usaremos el algoritmo C5.0.


Dejando las variables por defecto del algoritmo tenemos:

FIG. 48: RBOL DE DECISIN CON NODO C5.0, CASO QUIEBRA.

Anlisis del grupo de entrenamiento:


Particin'
Correctos
Errneos

1_Entrenamiento
15
88,24%
2
11,76%
114

Total

17

Anlisis del grupo de Comprobacin

'Particin'
Correctos
Errneos
Total 13

2_Comprobacin
10
76,92%
3
23,08%

Como se ve a primera vista, el modelo es muy coherente en lo que son el grupo


de entrenamiento y el grupo de Comprobacin. Este modelo se ve que las
empresas pueden clasificarse segn la liquidez y la rentabilidad si es que
quiebran o no.
No obstante, se puede mejorar los resultados variando las opcin ruido
esperado, pero eso es solo recomendable hacerlo cuando los rboles que tienen
muchas hojas y son muy profundos, que no es este caso.
Para ver otras opciones, probaremos el nodo rbol de decisin

115

FIG. 49: RBOL DE DECISIN, CASO QUIEBRA

Particin
Correctos
Errneos
Total 17

1_Entrenamiento
17
100%
0
0%

'Particin'

2_Comprobacin
116

Correctos
Errneos
Total 13

9
4

69,23%
30,77%

En esta ocasin vemos un rbol de decisin ms grande y que acierta


completamente con los ejemplos de entrenamiento, pero que es menos efectivo
con datos que no entraron al entrenamiento. Lo cual demuestra que a veces es
mejor un rbol ms simple para lo que es prediccin.

117

CAPTULO 7: Redes Neuronales Artificiales


Las redes neuronales artificiales son modelos matemticos que simulan las
propiedades de las redes neuronales biolgicas imitando el comportamiento del
cerebro humano, lo que le da ventajas importantes respecto de otros modelos
predictivos. Para entenderlos bien es bueno hacer un acercamiento a las redes
neuronales biolgicas.
7.1 Redes Neuronales Biolgicas
El aparato de comunicacin neuronal de los animales y del hombre, formado
por el sistema nervioso y hormonal, en conexin a los rganos de los sentidos
y los rganos efectores (msculos, glndulas) tiene la misin de recoger
informaciones, trasmitirlas y elaborarlas, en parte tambin almacenarlas y
enviarlas de nuevo en forma elaborada. (Viuela & Len, 2004)
El sistema nervioso es el que recibe la informacin, la elabora, en parte la
almacena y enva en forma elaborada a los rganos efectores. El elemento
estructural fundamental de este es la clula nerviosa o neurona, las cuales
utilizan el producto de sus secreciones como seales qumicas (trasmisores)
para enviar la informacin. Dicha informacin se enva entre distintas
neuronas, a travs de prolongaciones, formando redes (Godoy, 2012).

FIG. 50: NEURONA BIOLGICA

La cual tiene cinco funciones principalmente:


1. Las neuronas recogen informacin que llega a ellas en forma de
impulsos, procedentes de otras neuronas o receptores.
2. Integran la informacin en un cdigo de activacin propio de la
neurona.
3. Trasmiten la informacin codificada en forma de impulsos a travs de
su axn.
4. A travs de sus ramificaciones el axn efecta la distribucin espacial
de los mensajes.

118

5. En sus terminales transmite los impulsos a las neuronas subsiguientes o


a las clulas efectoras.
7.2 Modelo Matemtico
Las neuronas articiales utilizadas para construir estas redes neuronales son
verdaderamente primitivas en comparacin a las que se pueden encontrar en el
cerebro. Sin embargo, el notable avance y la riqueza de herramientas tericas y
tecnolgicas en conjunto, generan una gran satisfaccin para los investigadores
en el sentido en cmo el entendimiento, radicado en la analoga neurobiolgica,
se ha sosticado en los ltimos aos (Viuela & Len, 2004), (Godoy, 2012).
Una red neuronal articial est compuesta por capas de neuronas: una capa de
entrada, una capa oculta y una capa de salida. La capa de entrada contiene
neuronas receptoras que captan la informacin desde el exterior de la red y la
traspasan a la siguiente capa. La siguiente capa corresponde a la capa oculta. La
capa oculta es a menudo simplicada en una sola, pero puede estar constituida
por una o ms capas. Se considera entonces el conjunto de capas ocultas como
la capa oculta simplicada. La informacin es procesada por la capa oculta y
transmitida hacia la siguiente capa de salida. Esta capa de salida posee
neuronas que entregan la informacin nal.
Se puede ver a una red neuronal articial como un grafo dirigido, donde los
nodos corresponden a las neuronas de cada capa, conectadas cada una con las
neuronas de la capa siguiente, y donde las conexiones entre ellas corresponden
a los arcos entre nodos, cada uno con sus pesos respectivos.
Se pueden identicar los siguientes elementos bsicos en un modelo neuronal
articial:
Un conjunto de sinapsis o conexiones neuronales, cada una de los cuales est
caracterizada por un peso o fuerza por s sola.

119

FIG. 51: CAPAS DE UNA RED NEURONAL ARTIFICIAL

Especcamente, una seal x j en la entrada de una sinapsis j conectada a una


neurona k es multiplicada por un peso sinptico wkj . Un peso wkj es positivo si
la sinapsis es excitadora; es negativo si la sinapsis es inhibitoria.
Un sumador, para sumar las seales entrantes, ponderadas por sus respectivas
conexiones neuronales. Estas operaciones constituyen a una combinacin
lineal.
Una funcin de activacin, que limita la amplitud de salida de la neurona a un
valor nito. Generalmente, la amplitud normalizada del rango de salida de la
neurona se escribe como el intervalo cerrado de la unidad [0,1], o
alternativamente [1,1].
El modelo de la neurona tambin incluye un parmetro externo llamado umbral
k, que tiene el efecto de reducir la entrada de la funcin de activacin. Por otro
lado, la entrada a la funcin de activacin puede ser aumentada utilizando un
trmino de sesgo en vez de un umbral, siendo ste el negativo del umbral.
Matemticamente, se puede describir una neurona k segn el par de ecuaciones:

Donde x1 ,x2 ,...,xp son las seales de entrada; wk1 ,wk2 ,...,wkp son los pesos
sinpticos de la neurona k; uk es la combinacin lineal de la salida; k es el
umbral; (.) corresponde a la funcin de activacin; e yk es la seal de salida
de la neurona.
120

FIG. 52: MODELO DE NEURONA, RED NEURONAL ARTIFICIAL.

La gura muestra el modelo matemtico no lineal de una neurona articial con


un parmetro umbral que atena la entrada desde la red de la funcin de
activacin.
Calculada la salida de una neurona, como se explic anteriormente, esta se
propaga, va conexiones de salida, a las clulas destino. Varias de estas forman
una red, como se muestra a continuacin:

Patrones
de
entrada

Patrones
de
Salidas

Representacin interna de las unidades


FIG. 53: ESTRUCTURA BSICA DE UNA RED MULTICAPA.

La estructura bsica de una red es la red multicapa mostrada en la figura


anterior. El primer nivel lo constituyen las clulas de entrada, las que reciben
los valores representados como vectores. A continuacin hay una serie de capas
intermedias, llamadas ocultas, cuyas unidades responden a rasgos particulares
que pueden aparecer en los patrones de entrada. Puede haber uno o varios
niveles ocultos. El ltimo nivel es la salida, las cuales sirven para calcular los
resultados finales de la red.

121

7.3 Tipos de Funcin de Activacin


La funcin de activacin, denotada por (.), dene la salida de una neurona en
trminos de su nivel de actividad en su entrada. Se pueden identicar tres tipos
de funciones de activacin:
1.- Funcin umbral: Para este tipo de funcin de activacin, descrita en la
siguiente ecuacin:
{

FIG. 54: FUNCIN UMBRAL

Correspondientemente, la salida de la neurona k empleando esta funcin de


activacin, ser:

Este modelo neuronal en particular, que utiliza una funcin umbral como
funcin de activacin, corresponde al llamado modelo de McCulloch-Pitts
(McCulloch and Pitts, 1943). Aqu la salida de la neurona toma el valor de1 si
el nivel de actividad interna total de esa neurona es no negativo y 0 en
cualquier otro caso. Dicho de otro modo, si la suma de los entradas ponderadas
que llegan a una neurona desde otras (
), supera (o es mayor) al
umbral de esa neurona (k), la salida tomar valor de 1, y en cualquier otro caso
tomar un valor de 0.
2.- Funcin lineal por tramos: Se ilustra esta funcin en la siguiente figura, se
tiene:

122

FIG. 55: FUNCIN UMBRAL.

donde el amplicador dentro de la regin lineal en operacin se asume como la


unidad; mientras este sea mayor, el rango del dominio de la regin intermedia
disminuye su amplitud. De esta funcin pueden existir dos situaciones, (Godoy,
2012):
a) Surge una combinacin lineal, si la regin en operacin se mantiene sin
correr en saturacin.
b) La funcin lineal por tramos se reduce a una funcin umbral, si el
factor de amplicacin es innitamente grande.
3.- Funcin sigmoidal: Esta funcin es por lejos la forma ms comn usada en
la construccin de redes neuronales articiales. Es denida como una funcin
estrictamente creciente que exhibe propiedades asintticas y de suavidad. Un
ejemplo es la funcin logstica, denida por:

123

donde a es un parmetro de pendiente de la funcin sigmoidal. En el lmite,


cuando el parmetro de pendiente se acerca al innito, la funcin sigmoidal se
convierte bsicamente en una funcin umbral. Mientras que la funcin umbral
toma los valores de 0 o 1, una funcin sigmoidal asume un rango continuo de
valores desde 0 a 1. Esta propiedad continua la hace diferenciable,
caracterstica conveniente en el tratamiento matemtico de la teora de redes
neuronales (Godoy, 2012).
7.4 Estructuras y Arquitectura de Red
La topologa describe la estructura de la red neuronal, esto es, como sus capas
de neuronas estn organizadas y conectadas. Una conexin es una nica lnea
de comunicacin que va desde una neurona que enva informacin hasta otra
que recibe. Cuando la salida de una neurona es la entrada de una neurona de la
misma capa u otra precedente, la red es una red con propagacin hacia atrs.
Aquellas redes propagadas hacia atrs que van en slo una direccin se llaman
redes recurrentes. Cuando la salida de una neurona va en una sola direccin,
desde la capa de entrada hacia la capa de salida, la red es una red con
propagacin hacia adelante. Con esta informacin se distinguen entonces las
siguientes estructuras de red, (Viuela & Len, 2004):
a) Red con propagacin hacia adelante con una capa (tambin llamada
perceptrn).
b) Red con propagacin hacia adelante multicapa (tambin llamada
perceptrn multicapa).
c) Red recurrente.
La forma en que las neuronas de una red estn estructuradas est ntimamente
relacionada al algoritmo de aprendizaje usado para entrenar a la red. Se habla
entonces, de algoritmo de aprendizaje usado en el diseo de la red neuronal
cuando se reere a cmo se ha sido estructurada esta misma.
7.5 Aprendizaje
Las redes neuronales son sistemas de aprendizaje basados en ejemplos. La
capacidad de una red para resolver un problema estar ligada de forma
fundamental al tipo de ejemplos que dispone el proceso de aprendizaje. Desde
el punto de vista de los ejemplos, el proceso de aprendizaje debe poseer las
siguientes caractersticas:
1. Ser significativo: Debe haber un nmero suficiente de ejemplos.
2. Ser representativo: Los componentes del conjunto de aprendizaje
debern ser diversos. Esto quiere decir, si se quiere medir la aparicin
de un caso especial, el conjunto de datos de entrenamiento debe tener
datos con esa anomala.
El proceso de aprendizaje de una red de neuronas artificiales consiste en ir
introduciendo paulatinamente todos los ejemplos del conjunto de aprendizaje y
124

modificar los pesos de las conexiones siguiendo un determinado esquema de


aprendizaje hasta llegar a un criterio de convergencia dado. El criterio de
convergencia depende del tipo de red utilizado, los cuales son:
1. Mediante un nmero fijo de ciclos.
2. Cuando el error descienda bajo una cantidad establecida.
3. Cuando la modificacin de los pesos sea irrelevante.
Sobre el tipo de aprendizaje, hay tres formas, (Godoy, 2012):
1. Aprendizaje supervisado (entrada, salida, objetivo). En este tipo
de aprendizaje se le proporciona a la red un conjunto de ejemplos que
determinan el comportamiento propio de la red. Se controla el
entrenamiento segn la respuesta que debera generar la red a partir de
una entrada determinada. Algunos ejemplos de aprendizaje supervisado
son:
Aprendizaje por correccin del error:
Regla de aprendizaje del perceptrn.
Regla delta o del mnimo error cuadrado.
Regla delta generalizada o algoritmo de retro-propagacin de
error.
Aprendizaje por refuerzo.
Aprendizaje estocstico.
2. Aprendizaje no supervisado o aprendizaje auto-organizado (entrada,
salida). Las entradas son las nicas disponibles para el aprendizaje, el
algoritmo de la red aprende a categorizar las entradas. Lo que hace a la
rede reconocer regularidades en el conjunto de entradas, es decir,
estimar una funcin densidad de probabilidad que describe la
distribucin de patrones. Se enfoca generalmente a problemas de
clustering, compresin de datos, clasicacin y mapas topogrcos.
Este es una gran aproximacin del aprendizaje humano y la percepcin.
Algunos ejemplos son:

Aprendizaje asociativo: Hebbiano.


Aprendizaje competitivo y cooperativo:
Red de Kohonen
Cognitron

3. Aprendizaje reforzado (recompensa/castigo). A la red se le proporciona


un grado de desempeo de la misma que debiese lograr. No se
proporciona una salida deseada, pero si se le indica a la red una cierta
medida del error que puede cometer, aunque es un error global. Aqu se
pueden mencionar:

Algoritmo lineal con recompensa y penalizacin.


Algoritmo asociativo con recompensa y penalizacin.
Heurstica crtica adaptativa.
125

7.6 Tipos de Redes Neuronales Artificiales


Modelos de redes neuronales artificiales hay muchos como para describirlos
todos, pero si se puede hacer una resea de los ms conocidos. Segn su
topologa, algunos modelos de redes neuronales seran, (Viuela & Len,
2004):
1. Perceptron simple: Es una red unidireccional compuesta por dos capas
de neuronas, una de entrada y la otra de salida, por lo tanto en este
modelo las neuronas de entrada nicamente envan la informacin a las
neuronas de salida. El aprendizaje de este tipo de red es del tipo
supervisado y se basa principalmente en la regla de correccin de error
con respecto a la salida deseada.
2. Perceptron multicapa: Este tipo de red neuronal artificial es una
ampliacin del anterior, ya que incorpora uno o ms niveles de
unidades ocultas. Un Perceptron multicapa es una red neuronal
artificial con alimentacin hacia delante y est compuesta de varias
capas de neuronas entre la entrada y la salida, permitiendo de esta
manera establecer regiones de decisin mucho ms complejas en
comparacin con el Perceptron simple.
3. Redes hebbianas: Este tipo de redes tiene un aprendizaje no
supervisado. Se basa en la regla de Hebb, la cual dice que cuando una
neurona activa a otra, la sinapsis queda reforzada. Este tipo de redes
nos indica que si en el momento de la asociacin entre las neuronas,
dos o ms de ellas se activan simultneamente, estas actuarn en
conjunto incrementando o potenciando la sinapsis, ya que ahora la
activacin o desactivacin de una de ellas influye en la otra, por
consiguiente se pueden activar varias neuronas en la salida.
4. Redes Kohonen: Este tipo de red neuronal artificial que posee la
capacidad de formar mapas de caractersticas de manera similar al
cerebro. El objetivo de este modelo es demostrar que un estmulo
externo (informacin de entrada) por si solo es suficiente para forzar la
formacin de estos mapas. Estos mapas se forman de la informacin de
entrada, la cual mediante la semejanza de sus datos, forma diferentes
categoras. Esta red utiliza el aprendizaje no supervisado de tipo
competitivo, es decir, las neuronas compiten por activarse y slo una
de ellas permanece activa ante una determinada informacin de
entrada, provocando que los pesos de las conexiones se ajusten en
funcin de la neurona vencedora.
5. Redes Hopfield: Funciona como una memoria asociativa no lineal, que
puede almacenar internamente patrones presentados de forma
incompleta o con ruido. Esta red est formada por neuronas conectadas
simtricamente (al existir una conexin desde la neurona Ni a la
neurona Nj, tambin existe la conexin desde Nj a Ni y ambas con el
126

mismo peso Wij = Wji) y el conjunto permitido de valores de entrada y


salida es (0,1) pudiendo ser (-1,1) o sea binario. Este modelo es similar
al Perceptron, pero presenta una caracterstica adicional y es que las
neuronas de la capa media, presentan conexiones de salida hacia otras
neuronas de la capa media. Este hecho, hace que en esta capa se d una
retroalimentacin entre sus neuronas, de forma que al activarse una de
las neuronas, las otras cambian su estado de activacin, que a la vez
har cambiar el suyo. Por lo tanto, el patrn de activacin se transmitir
slo cuando se llegue a un equilibrio. Esta red no implica clculo de
pesos sinpticos ya que estos se mantienen constantes.
7.7 Caso: Prediccin al Corto Plazo Fondo A de los Multifondos.
El objetivo de este caso es estudiar el fondo A que ofrece una AFP de los
multifondos (Contreras, 2012), estos son cinco alternativas de inversin,
creadas para incrementar el valor esperado de las pensiones. Se han
denominado alfabticamente - A, B, C, D, E - y se diferencian unas de otras
por el nivel de riesgo y rentabilidad que le dan a sus afiliados.
El fondo A segn la legislacin chilena es definido como el fondo de pensiones
donde la renta variable puede ser con un mximo de 80% y un mnimo de 40%.
Para redes neuronales artificiales, por lo tanto hay que buscar variables que sus
datos se adapten a los requisitos de la red. Como la rentabilidad de los
multifondos esta dada de forma mensual en la superintendencia de pensiones
no son datos suficientes para ingresarlos a una red, entonces se usar la
cantidad de cada multifondo en su defecto, al haber datos diarios de estas
variables.
Es importante entender que al predecir la cantidad del fondo no solo se esta
considerando la rentabilidad, sino que tambin como la gente mueve sus
ahorros previsionales entre los fondos. Esto incluye el aporte de cada afiliado,
si es que el afiliado cambia de fondos sus aportes y lo que se le paga al
pensionado, (Contreras, 2012).

127

Pesos Chilenos

3,5E+13

Multifondos - Chile

3E+13
2,5E+13
2E+13
1,5E+13
1E+13
5E+12
0

Fondo A
Fondo D

Fondo B
Fondo E

Fondo C

FIG. 56: GRAFICO MULTIFONDOS, CASO RED NEURONAL ARTIFICIAL.

Para las variables de entrada, por parte del mercado se vio lo que las mismas
AFP dicen que afecta a la rentabilidad, para as representar esa parte de la
variabilidad de la cantidad del fondo. Sobre los cambios que hace el afiliado
entre fondos, se sabe que tienen cierta relacin con la economa y como se ven
en el fondo, algo que se ve claramente en el grfico en el caso del fondo E,
donde aumento entre el 2008 y el 2009 en momentos de crisis. Esto ltimo se
debe por decisin propia del afiliado o por consejos de la misma AFP. Por
ende, se supondr que los cambios en la rentabilidad son los que explican en su
totalidad o en gran parte, la variabilidad de los fondos.
Las AFP dicen que la rentabilidad de los fondos est dividida en dos tipos de
papeles, los de renta variable y los de renta fija, los cuales tambin pueden
clasificarse en papeles internacionales y nacionales. Sobre la segunda
clasificacin nombrada las AFP dicen tener sus papeles en, (Contreras, 2012):
Internacional:
Asia Emergente
Latino Amrica
Norteamrica
Asia Pacifico Desarrollada
Europa emergente
frica-Medio Oriente
Europa
Nacional:
Servicios
128

Elctrico
Recursos naturales
Industrial
Telecomunicaciones

Para representar estas variables, en el caso internacional, se ocuparon los


ndices burstiles de las economas ms importantes de cada sector del mundo
nombrado. En lo que es nacional, se ocuparon los ndices sectoriales dados por
la Bolsa de Santiago, estos ndices no necesariamente representan el exacto
sector econmico a los que se refieren las AFP, pero si contienen a varias
empresas que son importantes. Los ndices que se usarn para el anlisis son:
Internacional
Asia Emergente
o SSE Composite Index (China)
o BSE SENSITIVE (India)
Latino Amrica
o IPC (Mxico)
o IBOVESPA (Brasil)
Norteamrica
o DowJones (USA)
Asia Pacifico Desarrollada
o Nikkei (Japn)
Europa emergente
o RTSI (Rusia)
frica-Medio Oriente
o Tel Aviv (Israel)
Europa
o Next150 (Euronext)
Nacional
Banca (Chile)
Construccin&Inmobiliario. (Chile)
Utilities (Chile)
Industrial (Chile)
Retail (Chile)
Consumo (Chile)
Comodities (Chile)
Por lo tanto, las variables para el modelo seran los datos del 3 de enero del
2006 al 30 de abril del 2012 de (Contreras, 2012):
Variable objetivo
1. Cantidad diaria fondo A . Fuente: Superintendencia de pensiones.
2. Cantidad diaria fondo B. Fuente: Superintendencia de pensiones.
3. Cantidad diaria fondo C. Fuente: Superintendencia de pensiones.
4. Cantidad diaria fondo D. Fuente: Superintendencia de pensiones.
129

5. Cantidad diaria fondo E. Fuente: Superintendencia de pensiones.


Variables de entrada
SSE Composite Index (China). Fuente: Google Finance.
BSE SENSITIVE (India). Fuente: Yahoo Finanzas.
IPC (Mxico). Fuente: Yahoo Finanzas.
IBOVESPA (Brasil). Fuente: Yahoo Finanzas.
DowJones (USA). Fuente: Yahoo Finanzas.
Nikkei (Japn). Fuente: Yahoo Finanzas.
RTSI (Rusia). Fuente: Yahoo Finanzas.
Tel Aviv (Israel). Fuente: Yahoo Finanzas.
Next150 (Euronext). Fuente: Yahoo Finanzas.
Banca (Chile). Fuente: Bolsa de Santiago.
Const.&Inmob. (Chile). Fuente: Bolsa de Santiago.
Utilities (Chile). Fuente: Bolsa de Santiago.
Industrial (Chile). Fuente: Bolsa de Santiago.
Retail (Chile). Fuente: Bolsa de Santiago.
Consumo (Chile). Fuente: Bolsa de Santiago.
Comodities (Chile). Fuente: Bolsa de Santiago.
Dado la cantidad de variables se hizo una divisin en el modelo, quedando un
modelo por cada fondo en las variables objetivo y en las variables de entrada
las variables que fueran ms correlacionadas. Para elegirlas se uso la
correlacin lineal de Pearson. Esto es solo para hacer ejemplo ms
rpidamente, pero se aconseja buscar ms formas de elegir bien las variables de
entrada.

Correlaciones de Pearson
SSE Composite Index - China

0.499

DowJones

0.369

Nikkei

-0.377

RTSI

0.490

Next150

0.315

IPC - Mexico

0.950

IBOVESPA

0.909

BSE SENSITIVE

0.921

TEL AVIV

0.826

Banca

0.202

CONST.&INMOB.

0.928

UTILITIES

0.802

INDUSTRIAL

0.846

130

RETAIL

0.874

CONSUMO

0.882

Comodities

0.948

Quedando:
Variable objetivo
1. Cantidad diaria fondo A . Fuente: Superintendencia de pensiones.
Variables de entrada
BSE SENSITIVE (India). Fuente: Yahoo Finanzas.
IPC (Mxico). Fuente: Yahoo Finanzas.
IBOVESPA (Brasil). Fuente: Yahoo Finanzas.
Const.&Inmob. (Chile). Fuente: Bolsa de Santiago.
Consumo (Chile). Fuente: Bolsa de Santiago.
Comodities (Chile). Fuente: Bolsa de Santiago.
Para entrenar estas redes se decidi hacer tres grupos de datos. Primero un
grupo de Entrenamiento, el cual es el grupo con que se entrena la red en el
programa, el grupo de Comprobacin, que son datos dentro de la misma fecha
del grupo de entrenamiento que no se ocupan en la red, que sirven para ver si la
red fue bien entrenada y el de Validacin, que sirve para ver como se comporta
la red fuera de los datos que se dieron. Estos fueron conformados as,
(Contreras, 2012):
Datos 2006-2011

Entrenamiento

Comprobacin
Datos enero-abril 2012

Validacin
FIG. 57: GRUPOS DE ENTRENAM IENTO, COMPROBACIN Y VALIDACIN,
CASO RED NEURONAL ARTIFICIAL

Despus de esto se entrenaron todos los modelos disponibles dentro del SPSS
Clementine. Se decidi elegir el mejor modelo considerando dos ndices: El
error absoluto promedio y la Correlacin lineal, que representan en cierta forma
lo deseado para predecir una variable.
Comprobacin
Entrenamiento

Error absoluto promedio


131

Correlacin lineal

Poda Exhaustiva
Poda
Dinmico
Mltiple
Rpido

2,91491E+11
3,3053E+11
3,64206E+11
4,003E+11
4,56332E+11

0,991
0,99
0,986
0,985
0,98

Validacin
Entrenamiento
Rpido
Poda
RBFN
Dinmico
Mltiple
Poda Exhaustiva

Error absoluto promedio


Correlacin lineal
3,23461E+11
0,688
4,0342E+11
0,521
4,48283E+11
0,749
4,58413E+11
0,661
4,82953E+11
0,652
6,05515E+11
0,583

Para este caso fue elegido el modelo generado por el entrenamiento del SPSS
Poda. Principalmente porque es el que muestra los mejores resultados en los
dos grupos de entrenamiento y una correlacin lineal positiva.

FIG. 58: GRFICO GRUPO DE COMPROBACIN, CASO


RED NEURONAL

132
FIG. 59: GRFICO GRUPO DE VALIDACIN, CASO RED
NEURONAL

En el grfico de comprobacin se ve que la prediccin (Que es la nombrada


como $N-FondoA) es muy cercana y certera a los datos reales. Mientras que en
la validacin se ve la misma tendencia, pero al final se ve que los datos que
predice la red tienden a estar ms debajo de los datos reales.
Antes de predecir valores en los fondos de pensiones hay que dar valores a las
otras variables, es decir, generar un escenario. Para esto se tomaron las
predicciones anuales hechas por la OCDE (Organizacin para la Cooperacin y
el Desarrollo Econmico) para los pases dentro del 2012 y las predicciones
hechas por los distintos sectores econmicos del pas sobre su crecimiento. En
el caso de no encontrarse se hizo la suposicin de que crecan al mismo
porcentaje anual que el ao pasado.

Pas

% crecimiento
Anual

Q1

Q2

Q3

Q4

2,40%

2,20%

2,50%

2,50%

2,50%

-0,10%

0,00%

-0,30%

0,30%

0,70%

Japn

2,00%

4,10%

0,80%

1,20%

1,40%

Mxico

3,60%

Brasil

3,20%

China

8,20%

India

7,10%

Rusia

4,50%

Israel

3,20%

USA
Euro rea

Anual

Q1

Construccin e
Inmobiliaria

7,50%

Banca

5,30%

Utilities

6,76%

Consumo

6,09%

Industrial

-7,40%

Retail

-16,50%

Comodities

-10,70%

Q2

Q3

Q4

Despus de esto, se calcularon las tasas diarias.


Tasas diarias
USA
Euro rea
Japn

Anual
Q1
0,0065%

0,0239%

Q2
0,0271%

0,0271%

0,0271%

-0,0003%

0,0000%

-0,0033%

0,0033%

0,0076%

0,0054%

0,0440%

0,0087%

0,0131%

0,0152%

133

Q3

Q4

Mxico

0,0097%

Brasil

0,0086%

China

0,0216%

India

0,0188%

Rusia

0,0121%

Israel

0,0086%
Anual

Construccin e
Inmobiliaria

0,0198%

Banca

0,0142%

Utilities

0,0179%

Consumo

0,0162%

Industrial

-0,0211%

Retail

-0,0494%

Comodities

-0,0310%

Q1

Q2

Q3

Q4

La prediccin se hizo hasta el segundo cuarto del ao 2012, empezando desde


abril y considerando las tasas diarias. En las variables donde haba tasas
trimestrales se uso el valor diario calculado a partir de esas tasas.
Resultados finales:
Tras hecho todo lo anteriormente nombrado aqu estn los resultados de las
predicciones hechas por los modelos. Para un mayor anlisis se agregar una
comparacin de los resultados al 30 de mayo del 2012, (Contreras, 2012).

Prediccin
Real

Valor
(Pesos chilenos)
13.239.091.863.295.13.009.402.685.534.-

Variacin
Abril-Mayo
-5,88%
-4,22%

134

FIG. 60: PREDICCIN FONDO A, CASO RED NEURONAL.

El fondo A, como anteriormente se dijo, se vea que sera un buen modelo de


prediccin al corto plazo. Como se ve en la prediccin de mayo, teniendo un
error del 1% en la variacin Abril-Mayo. El resultado es inusualmente cercano,
para haber calculado las variables de entrada linealmente.

135

CAPTULO 8: Reflexiones Sobre el Modelo


Propuesto
El trabajo de direccin estratgica debe ser liderado por los altos ejecutivos,
dado que es el corazn de la actividad de una organizacin; sin un marco
estratgico no se sabe a dnde ir o por qu se quiere llegar all. Por ello,
tampoco importa por qu se ha llegado all. Peter Drucker 2, autor de mltiples
obras reconocidas mundialmente sobre temas referentes a la gestin de las
organizaciones, sistemas de informacin y sociedad del conocimiento, propuso
que el desempeo de un alto directivo sea juzgado mediante el doble criterio de
eficacia -la habilidad para hacer las cosas correctas- y eficiencia -la
habilidad para hacerlas correctamente-.
Tambin, se puede reconocer que la sociedad y su entorno estn sufriendo
dinmicos cambios demogrficos, econmicos, sociales y de competitividad
nacional e internacional de gran trascendencia. Es as, que la globalizacin es
responsable en gran parte de la creciente competitividad de los mercados,
debido al alto desarrollo de las tecnologas y las comunicaciones y los tratados
comerciales.
De estos cambios no puede quedar fuera una organizacin, la cual necesita ir
evolucionando para no quedar atrs, y perder participacin en su sector
industrial. Ante el entorno cambiante que se desenvuelven, el exceso de
informacin y los altos niveles de competitividad, se requiere un marco de
referencia confiable y prctico que permita llevar a cabo una eficiente y
efectiva direccin estratgica, donde las decisiones de corto plazo no afecten
los lineamientos de sustentabilidad del negocio, adquiriendo relevancia la
utilizacin de mtodos y herramientas que permitan desarrollar una apropiada
gestin y sustentar los objetivos organizacionales relacionados a generar un
valor agregado en el conjunto de sus actividades utilizando eficientemente sus
recursos. Y una de sus actividades fundamentales es la planificacin
estratgica.
El proceso de planificacin estratgica est inserto en el marco de la direccin
estratgica, el cual es un mtodo sistmico, holstico en una organizacin, que
tiene como principal caracterstica ser sistemtico y participativo. Este proceso
se apoya en la conviccin de que el futuro ser muy diferente al pasado. Luego,
imagina un futuro a partir del presente, lo visualiza, inventa, tomando en cuenta
aquellos posibles escenarios perceptibles hoy. Parte esencial es la identificacin
de oportunidades y amenazas en el medio ambiente en que se desenvuelve la
organizacin y, su contraste con las fortalezas y debilidades de la empresa.
Incluye diferentes actividades que van desde: 1) acuciosa recopilacin y
anlisis de informacin, utilizando mtodos y tcnicas estadsticas,
2

Peter Drucker, abogado y tratadista austraco, autor de numerosas obras sobre gestin de las
organizaciones y sociedad del conocimiento, reconocido como padre del management moderno.
Fue uno de los lderes ms influyente del siglo XX.

136

economtricas, business intelligence, data mining o minera de datos, etc. 2)


examinar el futuro, producir nuevas ideas; 3) determinacin de objetivos
globales y estrategias; 4) hasta formalizar planes y acciones para lograrlos.
Una propuesta de un paradigma de direccin estratgica es fundamental para
liderar una organizacin en un sistema altamente competitivo y globalizado. El
modelo de direccin estratgica propuesto surge de la investigacin de
documentos de varios autores y la experiencia de haberlo aplicado a diversas
organizaciones en diferentes sectores industriales y se caracteriza por ser un
procedimiento se puede aplicar en cualquier tipo de organizacin, utilizando un
mtodo top-down, desde el pice estratgico hasta el nivel operativo de la
organizacin.
Por otra parte, el xito de las organizaciones sin fines de lucro se debe a
cun eficiente y eficazmente satisfacen las necesidades de sus usuarios. El
mtodo propuesto tambin proporciona a estas organizaciones un
instrumento para respaldar su direccin estratgica, este transforma los
objetivos estratgicos en un conjunto de medidas de rendimiento posibles
de evaluar y controlar peridicamente. Es un mtodo estructurado para
seleccionar los indicadores de gestin que guan la direccin en el corto y
largo plazo, al combinar indicadores financieros y no financieros, y permite
adelantar tendencias y realizar una poltica estratgica proactiva.
Evaluar la gestin como se puede observar es posible en cualquier contexto y
se pueden utilizar modelos y mtodos cualitativos y cuantitativos que fueron
pensados para empresas de todo tipo.
Consecuentemente con esto el modelo propuesto muestra que la base de toda
propuesta tiene que tener bases cientficas robustas, ampliamente investigada
por diversos cientficos, pudiendo incluir la problemtica actual del
management al valorar, medir y gestionar incluso el valor oculto en cualquier
compaa asociada al recurso humano.
Dado el enfoque fundamental de este mtodo, creando las condiciones
esenciales para la obtencin de las mejores capacidades y habilidades de las
personas, este generar inequvocamente un impacto directo en la motivacin,
en el clima organizacional, en la mejora de los liderazgos, en el
empoderamiento de las personas en sus funciones, y por ende, el natural
impacto en los procesos internos de las compaas, con el consecuente
incremento de la satisfaccin de los clientes y finalmente poder obtener los
resultados financieros sobresalientes.
La teora de la neurociencia puede complementar el modelo, al considerar cinco
aspectos claves, que pasan a ser la base donde se construye todo sistema de
direccin. Al haber incorporado la quinta perspectiva en el diseo de los
sistemas de control, pensando en el comportamiento de las personas en las
organizaciones, se recoge otra de las inquietudes ms relevantes en materia de
direccin del personal.
137

El modelo estima que el valor oculto de una organizacin radica en poder


generar las condiciones necesarias para permitir desarrollar todas las
capacidades de los individuos que forman parte de una compaa.
Si bien es cierto se tiene la percepcin que el modelo propuesto de direccin
estratgica es un mtodo adecuado, este requiere de mayores estudios y
comprobaciones futuras, en una etapa posterior es necesario poder demostrar a
ciencia cierta los resultados del nuevo modelo, donde se pueda desarrollar ms
experimentos, manipulacin de variables y datos con modelos cuantitativos.
Un principio que es esencial en esta propuesta es intuir que las personas son el
centro de la direccin en las organizaciones, como muchos plantean, y existen
buenas intenciones pero sin abordar realmente la problemtica. La estrategia de
direccin del personal no es considerada como pieza clave en las compaas,
aunque todos los ejecutivos del rea saben que son las personas quienes
determinan la estrategia, es por esta sencilla razn que se estima que, al
profundizar en la gestin de personas el trabajo aclara aspectos esenciales para
ser eficientes, que todos los expertos en managment concuerdan.
Los cinco aspectos fundamentales de la quinta perspectiva considerada en el
sistema de control de gestin (ver mapa estratgico, FIG. 14 y 15), tienen como
denominador comn que todos estos son fundamentales para las personas en las
organizaciones, porque incrementan la concentracin, la productividad, la
motivacin, el liderazgo, el empoderamiento, etc. Se debe buscar crear una
comunidad de talentos, de modo de atraer, desarrollar, motivar, comprender y
retener la mejor dotacin de personas. Permitir el desarrollo de carrera y
capacitacin del personal, as entonces se da cuenta de forma inequvoca la
conexin del personal con la estrategia fundamental de la organizacin.

138

Bibliografa
Beer, S. (1988). Brain of the Firm Second Edition. London and New York:
John Wiley.
Chang, W. & Mauborgne, R. (2005). La estrategia de Ocano Azul. Editorial
Norma.
Contreras, R. (2012). Modelos matemticos para el anlisis estratgico de un
sector financiero. Valparaso: UTFSM.
Drucker, P. F. (2004). What Makes An Effective Executive. Harvard Business
Review.
Godoy, F. (Octubre de 2012). Prediccin de la probabilidad de quiebra de
empresas en Chile mediante redes neuronales artificiales. Chile:
UTFSM.
Gujarati, D. N. (2004). Econometra. McGraw-Hill Interamerica.
Hax, A. & Majluf, N. (1996). Gestin de Empresa. Ediciones Dolmen.
Hax, A. & Wilde, D. (1999). The Delta Model: Adaptive Management for
Changing World. Sloan Management Review, 11-28.
Hax, A. & Wilde, D. (2003). Delta Project. Bogot: Editorial Norma.
Hernndez, J., Ferri Ramirez, C., Ramirez Quintana, Ma. (2004). Introduccin
a la Minera de datos. Editorial Pearson.
Hunger, J. D. (2003). Strategic Management. Prentice Hall.
Johnson, G. & Scholes, K. (2001). Strategic Administration. Prentice Hall.
Kaplan, R. & Norton, D. (Septiembre-Octubre de 2000). Having Trouble with
Your Strategy? Then Map It. Harvard Business Review, 167-176.
Kaplan, R., & Norton, D. (September-October de 1993). Putting the Balance
Scorecard to Work. Harvard Business Review, 134-142.
Kaplan, R., & Norton, D. (Enero-Febrero de 1996). Using the Balanced
Scorecard as a Strategic Management System. Harvard Business
Review, 75-85.
Kaplan, R., & Norton, D. (2001). Cmo Utilizar el Cuadro de Mando Integral
para Implantar y Gestionar su Estrategia. Espaa: Gestin 2000.
Kaplan, R., & Norton, D. (2004). Mapas Estratgicos. Espaa: Gestin 2000.
Kaplan, R., & Norton, D. (2004). The Strategy Map: Guide to Aligning
Intangible Assets. Strategy & Leadership, 32(5), 10-17.
Porter, M. E. (1980). Competitive Strategy. New York: Free Press.
Porter, M. E. (1987). Ventaja Competitiva. Mxico: CECSA.
Porter, M. E. (Marzo-Abril de 1990). The Competitive Advantage of Nations.
Harvard Business Review, 73-93.
Reguera, P. F. (2000). Apuntes de Econometra.
Saavedra, O. & Kristjanpoller, W. (2012). Direccin Estratgica en
organizaciones sin fines de lucro & Data Warehouse (pgs. 10-18).
Colombia: Congreso Iberoamericano, SOCOTE.
Saavedra, O., Saavedra, D. & Torres, A. (2012). Modelo de Direccin
Estratgica (pgs. 100-110). ENEFA.
Samuelson, P. N. (2001). Macroeconoma, Decimosexta edicin. Espaa:
McGraw-Hill.
139

Shmueli, G., Patel, N., & Bruce, P. (2007). Data Mining for Business
Intelligence. Estados Unidos de Norteamerica : John Wiley & Sons,
Inc.
Viuela, P. I., & Len, I. M. (2004). Redes de Neuronas Artificiales. Un
enfoque prctico. Madrid: Pearson Prentice Hall.
Wooldridge, J. M. (2006). Introduccin a la Econometra, Un enfoque
Moderno. Paraninfo.

140

Anexos
Anexo 1: Anlisis de Regresin Lineal en SPSS
Statistical Package for the Social Sciences (SPSS) es un programa estadstico
informtico muy usado en las ciencias sociales y las empresas de investigacin
de mercado. En la actualidad, la sigla se usa tanto para designar el programa
estadstico como la empresa que lo produce. Originalmente SPSS fue creado
como el acrnimo de Statistical Package for the Social Sciences aunque
tambin se ha referido como "Statistical Product and Service Solutions".
Como programa estadstico es muy popular su uso debido a la capacidad de
trabajar con bases de datos de gran tamao. El programa consiste en un mdulo
base y mdulos anexos que se han ido actualizando constantemente con nuevos
procedimientos estadsticos. Cada uno de estos mdulos se compra por
separado.
Como se mencion en el captulo 3, los modelos de regresin lineal son los
modelos que la variable predictora X, la variable respuesta Y y los parmetros
son lineales. Lo cual se puede presentar como:

Los estimadores pueden ser calculados de tres maneras, por Mnimos


cuadrados ordinarios (MCO), Mxima Verosimilitud y Mnimos cuadrados
ordinarios. En el SPSS se calculan en base a MCO, por lo tanto cuando se
arma un modelo de Regresin lineal, sea simple o mltiple, hay que tener en
consideracin los supuestos de MCO en el clculo de estos.
En el SPSS se puede calcular entrando a:

REGRESIN LINEAL SPSS

Donde aparece la siguiente ventana:

141

VENTANA DE REGRESIN LINEAL SPSS.

En la parte izquierda, tenemos una lista con todas las variables de nuestro
archivo de datos. El icono que tiene cada variable representa el tipo de dato que
fue especificado para esta variable (en la vista de variables). De esta lista
seleccionaremos, haciendo click sobre la variable correspondiente y luego
presionando el botn con una flecha para cada opcin. Las que son:
Variable Dependiente: Es la variable endgena de la regresin, y es la
que ser explicada por las dems variables independientes o exgenas.
Generalmente es se refiere a ella como Y en la literatura.
Variables Independientes: Son las variables exgenas de la regresin, y
son aquellas que explicaran el comportamiento de la variable
dependiente.
Los mtodos disponibles son:
Introducir: En este mtodo se introducen todas las variables del bloque
de un solo paso.
Por pasos: En cada paso se introduce la variable independiente que no
se encuentre ya en la ecuacin y que tenga la probabilidad para F ms
pequea, si esa probabilidad es suficientemente pequea. Las variables
ya introducidas en la ecuacin de regresin se eliminan de ella si su
probabilidad para F llega a ser suficientemente grande. El mtodo
termina cuando ya no hay ms variables candidatas a ser incluidas o
eliminadas.
Eliminar: Las variables de un bloque se eliminan todas de un solo paso.
Este mtodo no es muy til si se utiliza un solo bloque, ya que
eliminamos todas las variables del modelo. Es til cuando tenemos ms
de un bloque y queremos elegir que variables eliminar para realizar
comparaciones entre modelos con distintas variables.
142

Eliminacin hacia atrs: Procedimiento en el que se introducen todas


las variables al modelo y luego se van eliminando una por una. Aquella
variable que tenga la menor correlacin parcial con la variable
dependiente ser la primera en ser considerada para su eliminacin. Si
satisface el criterio, ser eliminada. El proceso se repite hasta que ya no
queden variables en el modelo que satisfagan el criterio de eliminacin.
Seleccin hacia adelante: Aqu se tiene primero el modelo sin variables
y luego se van considerando una por una para ser introducidas en el
mismo. La primera variable a considerar es aquella que presenta la
mayor correlacin parcial con la variable dependiente. Si satisface el
criterio, ingresara el modelo. El proceso se repite hasta que ya no
queden variables fuera del modelo que satisfagan el criterio de
seleccin.

Los criterios de eliminacin y seleccin mencionados en los mtodos por


pasos, hacia atrs y hacia adelante se pueden configurar en la casilla
Opciones. Aparecer el siguiente cuadro:

VENTANA DE OPCINES REGRESIN LINEAL

Podemos elegir utilizar o la probabilidad de F (significacin) o el valor de F


para los criterios de entrada y salida de variables. El programa ya viene con
valores por defecto para estas opciones.
Probabilidad de F: Una variable se introduce en el modelo si su nivel
de significacin es menor al valor de entrada y se elimina si su
significacin del valor de F es mayor que el valor de salida.
Usar valor de F: Una variable se introduce en el modelo si su valor de
F es mayor al valor de entrada y se elimina si su valor de F es menor
que el valor de salida. Se debe establecer un valor de F mayor para la
entrada que para la salida y utilizar dos valores positivos.
143

Tambin en podemos elegir si queremos incluir o no la constante en la


ecuacin. Una ecuacin sin constante (sin intercepto) pasa por el origen.
Generalmente no se acostumbra a utilizar esta opcin, ya que la interpretacin
de los resultados de un modelo con o sin intercepto no son comparables.
De igual forma, podemos elegir como queremos que se traten los valores
perdidos de las variables, que fueron mencionados en la primera parte.
Tenemos las siguientes opciones:
Excluir casos segn lista: Solo se incluirn en el anlisis los casos con
valores validos para todas las variables
Excluir casos segn pareja: Los casos con datos completos para la
pareja de variables correlacionadas se utilizan para calcular el
coeficiente de correlacin en el cual se basa el anlisis de regresin.
Remplazar por la media: Se emplean todos los casos en los clculos,
sustituyendo las observaciones perdidas por la media de la variable.
Variable de seleccin: es posible establecer una regla de seleccin para
que se escojan solo algunas observaciones. Se debe escoger la variable
que queremos utilizar para discriminar la seleccin y luego
establecemos la regla.
Teniendo esto se puede especificar el modelo, al apretar aceptar en la pantalla
de resultados aparecer:
Variables introducidas/eliminadas
Variables

Variables

Modelo

introducidas

eliminadas

Mtodo

X4, X1, X3a

Introducir

a. Todas las variables solicitadas introducidas.

Resumen del modelo


R cuadrado

Error tp. de la

Modelo

R cuadrado

corregida

estimacin

,737a

,543

-,829

,98324

a. Variables predictoras: (Constante), X4, X1, X3


TABLA 1: RESULTADOS MODELO REGRESIN LINEAL SPSS. (FUENTE:
ELABORACIN PROPIA)

En resumen del modelo observamos los valores R y R 2 que son los coeficientes
de determinacin, los cuales nos permiten ver cunto se explica del
144

comportamiento de las variables el modelo, en este caso sera un 54,3% dado


por el R2.
b

ANOVA
Suma de
Modelo
1

cuadrados

Gl

Media cuadrtica

Sig.

Regresin

1,147

,382

,396

,790

Residual

,967

,967

Total

2,114

a. Variables predictoras: (Constante), X4, X1, X3


b. Variable dependiente: Y
TABLA 2: RESULTADOS TABLA ANOVA SPSS. (FUENTE: ELABORACIN PROPIA)

Aqu se nos muestra la tabla Anova explicada en el captulo III, adems de esto
nos da la significacin o el valor p (Tambin llamado p-value) este nos sirve
para poder comparar las dcimas sin tener que calcular los estimadores. El
valor p es la probabilidad de rechazar la hiptesis nula cuando esta es
verdadera, mientras menor sea es mejor, el cual se compara con el nivel de
significacin que se requiere (generalmente es 0,05). En este caso se muestra
un valor p bastante alto (0,79) por lo cual no se puede rechazar la hiptesis nula
del estadstico F.
Coeficientesa
Coeficientes
Coeficientes no estandarizados
Modelo
1

Error tp.

(Constante)

-35,066

55,497

X1

,459

2,909

X3

8,516

X4

-7,017

tipificados
Beta

Sig.

-,632

,641

,146

,158

,000

18,732

,535

,455

,728

6,737

-,971

-1,042

,487

a. Variable dependiente: Y
TABLA 3: RESULTADOS MODELO REGRESIN LINEAL SPSS. (FUENTE:
ELABORACIN PROPIA)

Siendo en la ltima tabla en coeficientes la que nos muestra los betas de la


regresin en Coeficientes no estandarizados, B en este caso sera Y = -35,066 +
0,459X1 + 8,516X3 7,017X4. En t se ve el valor t de cada parmetro y en
Sig esta el valor p de la prueba de hiptesis por cada uno, como se ve, la
hiptesis nula solo se rechaza en X1, donde el valor p es menor a 0,05.

145

Anlisis de los residuos


Para que una regresin sea significativa hay que hacer un anlisis de residuos
en ella, para comprobar la no existencia de heterocedasticidad,
multicolonealidad y autocorrelacin.
Heterocedasticidad
En SPSS se pueden hacer grficos de los residuos para poder hacer el anlisis
de residuos:

GRFICOS DE RESIDUALES SPSS

Para obtenerlos, se entra en Grficos, que est en las opciones de la


regresin lineal. As se pueden obtener estos y un histograma.

GRFICOS REGRESIN LINEAL, SPSS

146

Siendo estos:
DEPENDNT: Variable dependiente.
*ZPRED: Valores pronosticados tipificados.
*ZRESID: Residuales tipificados.
*DRESID: Residuales eliminados.
*ADJPRED: Valores pronosticados corregidos.
*SRESID: Residuales estudentizados.
*SDRESID: Residuales estudentizados eliminados.
Tambin se pueden obtener el valor de los residuos tipificados o no en el SPSS.
Al entrar en anlisis en la regresin se aprieta en Guardar, ah nos mostrar la
siguiente ventana:

RESIDUOS Y RESIDUOS TIPIFICADOS, SPSS

Multicolonealidad
Para hacer pruebas de multicolonealidad en SPSS se hace un anlisis de
colinealidad que se puede hacer entrando en Estadsticos de la ventana de
Regresin Lineal.

147

DIAGNOSTICO DE COLINEALIDAD SPSS

Con esto se puede calcular el FIV, que saldr en esta tabla:

DIAGNOSTICO DE COLINEALIDAD PANTALLA DE RESULTADOS SPSS

Se ven los ndices de condicin mayores que 30, para estos si alguna de las
proporciones de la varianza es mayor que 90%, significa que hay colinealidad.
Autocorrelacin
Para detectar la autocorrelacin en el SPSS se tienen dos herramientas
principalmente en lo que es regresin lineal. Graficar los residuos (Explicado
en la parte de heteroestacidad) y la dcima de DW, la cual al ser seleccionada
en la ventana de estadsticos aparece en el resumen de la regresin:
Resumen del modelo

Modelo
1

R cuadrado

Error tp. de la

corregida

estimacin

R cuadrado
a

,094

,009

-,322

Durbin-Watson

,83573

a. Variables predictoras: (Constante), X1


b. Variable dependiente: Y
TABLA 44: RESULTADOS MODELO REGRESIN LINEAL SPSS.

Siendo los criterios para ver la autocorrelacin los siguientes:


148

1,935

Entre
0 - 1,078
1,078 - 1,66
1,66 - 2,34
2,34 2,922
2,922 - 4

Correlacin
Positiva
Incierta
Nula
Incierta
Negativa

Anlisis de residuos
Todos lo explicado en el captulo 3, para anlisis de residuos puede encontrarse
en la opcin Regresin lineal: Guardar, en el software SPSS.

VENTANA PARA GUARDAR DATOS, REGRESIN LINEAL SPSS

Por el cual se termina mostrando:

149

a
Estadsticos sobre los residuos

Valor pronosticado
Valor pronosticado tip.
Error tpico del v alor
pronosticado
Valor pronosticado
corregido
Residuo brut o
Residuo t ip.
Residuo estud.
Residuo eliminado
Residuo eliminado est ud.
Dist . de Mahalanobis
Dist ancia de Cook
Valor de inf luencia
centrado

Mnimo
8,3397
-2,168

Mximo
49,8464
3,440

Media
24,3844
,000

Desv iacin
tp.
7,40139
1,000

,701

2,513

,948

,286

294

8,4853

50,5264

24,3848

7,39960

294

-31,97624
-2,663
-2,675
-32,27098
-2,704
,001
,000

38,33554
3,192
3,205
38,65010
3,258
11,835
,050

,00000
,000
,000
-,00046
,001
,997
,004

11,98817
,998
1,002
12,07426
1,006
1,559
,007

294
294
294
294
294
294
294

,000

,040

,003

,005

294

N
294
294

a. Variable dependiente: estrs total

ESTADSTICOS SOBRE LOS RESIDUOS SPSS.

La tabla Estadsticos sobre los residuos nos ofrece informacin del rango,
tendencia central y dispersin de las variables que hemos creado con objeto de
identificar casos alejados y/o influyentes. No es necesario para saber si hay
casos atpicos o influyentes listar todos esos valores. Es suficiente con evaluar
si el valor mximo y/o mnimo de las medidas de alejamiento o influencia
superan los umbrales establecidos. En tal caso conviene realizar un histograma,
un grfico de puntos o un grfico de dispersin colocando el nmero del caso
(filas de la matriz de datos) en el eje de abscisas y las medidas de alejamiento o
de influencia en el eje de ordenadas. En este caso no parece que haya ningn
caso claramente influyente.

GRFICOS REGRESIN LINEAL, SPSS

150

Es til realizar el grfico de dispersin de los residuos estandarizados frente a


las puntuaciones ajustadas estandarizadas (pronsticos estandarizados). Estos
grficos de residuos frente a puntuaciones ajustadas son los que proporcionan
ms informacin acerca del cumplimiento de los supuestos del modelo y juegan
un papel fundamental en la identificacin de valores alejados e influyentes.
Adems del grfico de dispersin, hemos seleccionado el histograma y el
grfico de probabilidad normal. Estos grficos nos permiten, mediante
inspeccin visual, valorar el cumplimiento del supuesto de normalidad en los
residuos. No obstante, se puede realizar una prueba de significacin que
elimine la ambigedad inherente a la inspeccin visual.

Histograma

Variable dependiente: estrs total

50

Frecuencia

40

30

20

10

0
-3

-2

-1

Media =1,6E-16
Desviacin tpica =0,
998
N =294

Regresin Residuo tipificado

HISTOGRAMA RESIDUOS, SPSS

Grfico P-P normal de regresin Residuo tipificado

Variable dependiente: estrs total


1,0

Prob acum esperada

0,8

0,6

0,4

0,2

0,0
0,0

0,2

0,4

0,6

0,8

1,0

Prob acum observada

GRFICOS DE PROBABILIDAD NORMAL DE RESIDUOS, SPSS.

151

Grfico de dispersin

Variable dependiente: estrs total

Regresin Residuo tipificado

-1

-2

-3
-3

-2

-1

Regresin Valor pronosticado tipificado

GRFICO DE DISPERSIN DE RESIDUOS, SPSS.

Los grficos histograma y grfico P-P normal de regresin nos permiten valorar
el alejamiento del supuesto de normalidad. Comparando la curva normal con la
distribucin emprica en el histograma y evaluando el alejamiento de los puntos
representados en el segundo grfico con respecto a la diagonal. Podemos
concluir que no existen grandes desviaciones de la curva normal.
Por ltimo el grfico de dispersin de residuos frente a puntuaciones ajustadas.
Con este grfico podemos evaluar errores en la especificacin del modelo por
incumplimiento del supuesto de linealidad. En la medida en que aparezcan
tendencias curvilneas en el grfico, el modelo utilizado sera incorrecto.

152

Anexo 2: Anlisis de Series de Tiempo en el Software SPSS


Para estimar modelos de serie de tiempo en el SPSS primero es conveniente
definir las fechas de estas. Aunque no es necesario completamente si puede
ayudar a usar opciones en los modelos de las series de tiempo, especialmente
cuando se quieren crear predicciones.
En la ventana para definir fechas, nos dir que definamos como son los casos,
el SPSS nos da distintas opciones. Al elegir el tipo de caso nos pedir que
definamos la fecha del primer caso.
Despus de esto aparecern nuevas columnas en el editor de datos. Con estas el
programa podr saber las fechas de cada dato.
DEFINIR FECHAS - SPSS

Tras esto entramos a crear modelos en Analizar > Predicciones


modelos para crear nuestra serie temporal.

DEFINIR
SPSS

> Crear

FECHAS -

153

MODELIZADOR DE SERIES TEMPORALES - SPSS

Aqu podemos escoger el mtodo en que queremos que el programa modele la


serie de tiempo el cual puede ser autorregresivo integrado de media mvil
(ARIMA) o un modelo suavizado exponencial. Tambin existe el
procedimiento de Modelizador experto que identifica y estima automticamente
el modelo ARIMA o de suavizado exponencial eligiendo el que mejor se ajuste
para una o ms series de variables dependientes, lo que elimina la necesidad de
identificar un modelo adecuado mediante ensayo y error. Otra posibilidad
consiste en especificar un modelo ARIMA o de suavizado exponencial
personalizado.
Entre los modelos que se puede elegir en SPSS son:
Suavizamiento exponencial:
No estacional:
o Simple. Este modelo es adecuado para las series en las que no
existe tendencia o estacionalidad. Su nico parmetro de
suavizado es el nivel. El suavizado exponencial simple es el
ms similar a un modelo ARIMA con cero rdenes de
autorregresin, un orden de diferenciacin, un orden de media
mvil y sin constante.
o Tendencia lineal de Holt. Este modelo es adecuado para las
series con una tendencia lineal y sin estacionalidad. Sus
parmetros de suavizado son el nivel y la tendencia, y sus
valores no se restringen mutuamente. El modelo de Holt es
ms general que el modelo de Brown pero puede llevar ms
tiempo de computacin con series largas. El modelo de
suavizado exponencial de Holt es muy similar a un modelo
ARIMA con cero rdenes de autorregresin, dos rdenes de
diferenciacin y dos rdenes de media mvil.
o Tendencia lineal de Brown. Este modelo es adecuado para las
series con una tendencia lineal y sin estacionalidad. Sus
parmetros de suavizado son el nivel y la tendencia, que se
asumen iguales. Por ello, el modelo de Brown es un caso
especial del modelo de Holt. El modelo de suavizado
exponencial de Brown es muy similar a un modelo ARIMA
154

con cero rdenes de autorregresin, dos rdenes de


diferenciacin y dos rdenes de media mvil, con el
coeficiente para el segundo orden de media mvil igual al
cuadrado de la mitad del coeficiente de primer orden.
Tendencia amortiguada. Este modelo es adecuado para las
series con una tendencia lineal que va desapareciendo y sin
estacionalidad. Sus parmetros de suavizado son el nivel, la
tendencia y la amortiguacin de la tendencia. El suavizado
exponencial amortiguado es muy similar a un modelo ARIMA
con un orden de autorregresin, un orden de diferenciacin y
dos rdenes de media mvil.

Estacional:
o

Simple estacional: Este modelo es adecuado para series con


tendencia y un efecto estacional que es constante a lo largo del
tiempo. Sus parmetros de suavizado son el nivel y la estacin.
El modelo de suavizado exponencial simple estacional es muy
similar a un modelo ARIMA con cero rdenes de
autorregresin, un orden de diferenciacin, un orden de
diferenciacin estacional y rdenes demedia mvil 1, p y p + 1,
donde p es el nmero de perodos contenidos en un intervalo
estacional (para los datos mensuales, p = 12).
De Winters aditivo: Este modelo es adecuado para las series
con tendencia lineal y un efecto estacional que no depende del
nivel de la serie. Sus parmetros de suavizado son el nivel, la
tendencia y la estacin. El modelo de suavizado exponencial
aditivo de Winters es muy similar a un modelo ARIMA con
cero rdenes de autorregresin, un orden de diferenciacin, un
orden de diferenciacin estacional y p +1 rdenes de media
mvil, donde p es el nmero de perodos contenidos en un
intervalo estacional (para datos mensuales p = 12).
De Winters multiplicativo: Este modelo es adecuado para las
series con tendencia lineal y un efecto estacional que depende
del nivel de la serie. Sus parmetros de suavizado son el nivel,
la tendencia y la estacin. El modelo de suavizado exponencial
multiplicativo de Winters no es similar a ningn modelo
ARIMA.

ARIMA: Un modelo ARIMA es un modelo dinmico de series de tiempo, es


decir las estimaciones futuras vienen explicadas por los datos del pasado y no
por variables independientes. ARIMA es un modelo (p,d,q) en donde:
o p: Autorregresin
o d: Integracin o Diferenciacin
o q: Media Mvil

155

Anexo 3: Anlisis de Clster en el Software SPSS


El programa SPSS dispone de dos tipos de anlisis de conglomerados: El
anlisis de conglomerados jerrquico y el anlisis de conglomerados de K
medias. El mtodo jerrquico es idneo para determinar el nmero ptimo de
conglomerados existentes en los datos y el contenido de los mismos. El mtodo
de K medias permite procesar un nmero ilimitados de casos, pero solo permite
utilizar un mtodo de aglomeracin y requiere que se proponga previamente el
nmero de conglomerados que se desea obtener.
Nos vamos a Analizar -> Clasificar -> Conglomerados Jerrquicos
Se abrir la siguiente ventana:

VENTANA SPSS ANLISIS CLUSTER

Variables: El primer paso es elegir el conjunto de variables para realizar el


anlisis. El conjunto de variables seleccionado debe describir la similitud entre
los objetos en trminos relevantes para el problema que se desea estudiar.
Tambin se puede etiquetar las variables con alguna otra variable del archivo
de datos.
Estadsticos: Aqu se pueden pedir tablas que describan el proceso de diferentes
formas. l Historial de conglomeracin que nos dice como fueron formados los
conglomerados o la matriz de distancias que es la que nos da las distancias
entre cada dato, lo cual es lo que se usa para hacer los conglomerados.
Grficos: Aqu se pueden pedir los diferentes grficos que sirven para el
anlisis de los conglomerados. Como el Dendograma y el grfico de Tmpanos.
Mtodo: Aqu se puede seleccionar el mtodo que se utilizara para realizar los
conglomerados, como tambin la medida de distancia que se utilizara.
Guardar: Aqu podremos elegir si queremos guardar los conglomerados
resultantes. Sin embargo, aqu necesitamos ingresar un nmero de
conglomerados. Si no conocemos este nmero, es mejor hacer el anlisis

156

primero, y despus, cuando se pueda inferir con los resultados el nmero de


conglomerado optimo, realizarlo nuevamente ingresando aqu este nmero.
Volviendo a la ventana principal de conglomerados jerrquicos, verificaremos
que estn marcadas las casillas de visualizacin para estadsticos y grficos.
Luego damos clic en aceptar. En la ventana resultado se presentaran 4
elementos principales de los resultados.
Resumen de los casos. No siempre se pueden tomar los valores de la muestra
completa como se ve en el ejemplo porque puede un caso tener un valor
perdido o ausente para alguna variable, por lo que ser descartado por el
anlisis.
Resumen del procesamiento de los casos

a,b

Casos
Vlidos
N

Perdidos

Porcentaje
15

100,0

Total

Porcentaje
0

,0

Porcentaje
15

100,0

a. distancia eucldea al cuadrado usada


b. Vinculacin promedio (Inter-grupos)

Historial de conglomeracin
Etapa en la que el conglomerado
Conglomerado que se combina
Etapa

Conglomerado 1 Conglomerado 2

aparece por primera vez


Coeficientes

Prxima

Conglomerado 1 Conglomerado 2

etapa

72

146

,000

72

231

25,000

117

178

36,000

126

181

2885,000

117

336

9874,000

117

275

19873,000

72

174

69023,333

10

117

126

141724,500

11

171

209

168325,000

12

10

72

145

360497,500

12

11

117

333

519727,333

14

12

72

171

1990572,900

10

13

13

20

72

7131117,571

12

14

157

Historial de conglomeracin
Etapa en la que el conglomerado
Conglomerado que se combina
Etapa

Conglomerado 1 Conglomerado 2

aparece por primera vez


Coeficientes

Prxima

Conglomerado 1 Conglomerado 2

etapa

72

146

,000

72

231

25,000

117

178

36,000

126

181

2885,000

117

336

9874,000

117

275

19873,000

72

174

69023,333

10

117

126

141724,500

11

171

209

168325,000

12

10

72

145

360497,500

12

11

117

333

519727,333

14

12

72

171

1990572,900

10

13

13

20

72

7131117,571

12

14

11

14

20
117
1,096E7
13
RESULTADOS CONGLOMERADOS ANLISIS CLUSTER, SPSS.

Cuando ya se obtiene el nmero de conglomerados recomendado, se volver a


hacer el anlisis, pero esta vez, en la opcin Guardar, se especificara que se
realizarn 3 conglomerados:3

VENTANA ANLISIS CLUSTER SPSS

Ver detalles de eso en Captulo 4

158

Al realizar el anlisis, se ver que aparece una nueva columna en el conjunto de


datos en la cual cada dato que este en ese clster tendr un nmero especfico:

NUEVA VARIABLE, ANLISIS CLSTER, ANLISIS CLSTER SPSS

Despus de esto se puede realizar un grafico para ver como se agruparon los
datos. En Grficos -> Generador de grficos se puede realizar un grafico de
dispersin, utilizando la nueva variable para clasificar los datos:
1

2
3

GRFICO DE DISPERSIN ANLISIS CLUSTER, SPSS

En (4) se debe elegir, del men de la izquierda, los grficos de dispersin. En


las opciones de esta seleccin, se debe escoger el que se muestra en la foto (3),
que corresponde a un grafico de dispersin con distintas capas. Para elegir este
grafico, se selecciona con clic, y se arrastra al diagrama de arriba.

159

Aqu, se debe, de la misma manera, arrastrar las variables del men de la


izquierda a las distintas casillas. En el eje vertical (1) y en el horizontal (2), se
graficara dos variables a analizar. Por ltimo, se debe agregar la variable creada
por el anlisis de clster, al cuadro de la esquina superior derecha. Una vez
hecho esto, se realizara el grafico:

GRFICO DE DISPERSIN, ANALISIS CLUSTER

160

Anexo 4: Software SPSS Clementine


SPSS Clementine (Clementine desde ahora) es un conjunto de programas de
minera de datos que permite desarrollar rpidamente modelos predictivos. Con
un diseo que sigue el modelo CRISP-DM. El Clementine ocupa una lgica de
nodos, donde cada nodo es un proceso del proyecto, sea este un nodo para
generar un modelo, para mostrar resultados, etc.

1
3

2
VENTANA DE USUARIO SPSS CLEMENTINE

En la ilustracin anterior es una foto de pantalla de lo que es el SPSS


Clementine, en este caso la versin 11.1.
Dentro del cuadrado uno est la ventana que nos muestra los nodos y las
diferentes rutas que generamos con l. En ella se ponen los nodos, se mueven
en forma grfica a libertad y al hacerles doble clic se entrar a la configuracin
de este. Para ejecutar las rutas hechas solo hay que presionar en ejecutar dentro
de las opciones de los nodos o en los botones con flechas verdes que estn en la
parte superior del cuadro rojo.
Lo que est encerrado en el cuadrado dos es la ventana que nos muestra los
nodos disponibles en el programa, los cuales estn divididos en:

161

1. Nodos Orgenes: Estos nodos sirven para importar datos al programa.


Se puede importar de diferentes tipos de base de datos hasta archivos
Excel o SPSS.
2. Nodos Operaciones con registros: Nodos que sirven para muestrear
datos, seleccionar datos, unir registros de diferentes orgenes, etc.
3. Nodos Operaciones con campos: Nodos que permiten trabajar ms a
fondo con los datos, cambiando datos, partiendo datos en distintos
grupos, etc.
4. Nodos Grficos: Nodos que sirven para mostrar diferentes tipos de
grficos de las variables
5. Nodos Modelado: Aqu estn todos los nodos que generan modelos que
contiene el Clementine.
6. Nodos Resultado: Nodos que muestran diferentes anlisis de los
resultados de cierto modelo u de una base de datos dada. Pueden
mostrar diferentes estadsticos dependiendo el tipo de variable que se
tenga o generar informes personalizados.
7. Nodos Exportar: Nodos que crean archivos externos al Clementine para
guardar los resultados. Se puede exportar a diferentes archivos, entre
ellos archivos Excel y SPSS.
Todos estos nodos tienen diferentes requisitos para ser usados que estn bien
explicados en el manual de referencia de nodos que viene con el programa.
El tres es la ventana donde se muestran las rutas o distintos archivos de rutas
que hemos abierto, las diferentes ventanas de resultado y los modelos
generados. Los nodos de modelos generados aparecen cuando se ejecuta algn
nodo de modelado.
Finalmente, el cuatro esta una ventana que nos ofrece Clementine para ordenar
los archivos de proyecto. Con dos opciones, ver los archivos ordenados a
travs de la metodologa CRISP-DM o por clases o tipos de archivos que uno
genera en el programa.

162

Anexo 5: Redes neuronales artificiales en el software SPSS Clementine


El Clementine ofrece dos tipos de red neuronal, una de entrenamiento no
supervisado los mapas de Kohonen y una de entrenamiento supervisado,
Perceptron multicapa.
La red Kohonen se encuentra en el nodo Kohonen, al ser una red es de
entrenamiento no supervisado hace clasificaciones y busca redundancias dentro
de los datos. La red Perceptron multicapa, disponible en el nodo red neuronal,
al ser de entrenamiento supervisado aprende segn los resultados que se le da.

Nodo red neuronal

El nodo red neuronal, como anteriormente se dijo, contiene el tipo de red


Perceptron multicapa, este nodo no solamente hace el proceso de aprendizaje,
sino que tambin tiene varios mtodos de entrenamiento que permiten elegir el
tamao de red ms adecuado. Adems, tiene opciones para evitar el

sobreentrenamiento de esta. Las caractersticas principales de la red son:

P(t)

FUNCIN SIGMOIDE

Funcin de activacin: Funcin sigmoidea en las capas ocultas y funcin


identidad en las capas de salida. Esto ltimo permite que la red pueda predecir
modelos que no necesariamente estn entre 0 y 1, que son los lmites de la
funcin sigmoidea.
163

Algoritmo de entrenamiento: Retro propagacin o Regla delta generalizada.


Este algoritmo es bsicamente que el error de las salidas finales se propaga
haca atrs de la red ponderado por los pesos de cada entrada. El algoritmo
busca minimizar de la gradiente de los pesos, algo que puede generar mnimos
locales o mximos locales. Esto produce diferencias entre redes entrenadas con
los mismos conjuntos de datos y la misma estructura. A pesar de esto,
generalmente los resultados no deberan tener diferencias significativas.

VENTANA DE EDICIN, NODO RED NEURONAL SPSS CLEMENTINE

El nodo red neuronal tiene varias opciones, divididas en cinco partes: Campos,
Modelo, Opciones, Experto y Anotaciones.
Campos: Aqu uno puede definir las variables objetivo y las variables
de entrada. Las variables objetivo son las que se quiere predecir y las
de entrada son las que uno usa para predecir. Tambin se puede
seleccionar la opcin de usar la configuracin del nodo tipo. Lo
importante es que en alguna parte, sea en el nodo tipo, en la misma red
neuronal o en el nodo donde se importan los datos, se defina las
variables objetivo y las entradas. Si esto no se hace el nodo red
neuronal no funcionar.
Modelo: En esta opcin uno define las propiedades principales del
entrenamiento. El mtodo, cuando se detiene el entrenamiento y que
uno prefiere optimizar en el computador. En los mtodos de
entrenamiento el Clementine nos ofrece:
o Rpido: Este mtodo utiliza reglas de miniaturas y
caractersticas de los datos para seleccionar una forma
adecuada (Topologa) para la red. Esta formula puede cambiar
segn versin que se use del Clementine.

164

Dinmico: Este mtodo crea una topologa inicial aunque,


segn avanza el entrenamiento, aade o elimina unidades
ocultas y modifica esta topologa.
Mltiple: Este mtodo crea varias redes de distintas topologas
(el nmero exacto depende de los datos de entrenamiento). A
continuacin, se entrenan estas redes de acuerdo con un
procesamiento en seudoparalelo. Al final del entrenamiento, se
presenta como modelo final el modelo con el nivel inferior de
error cuadrtico medio.
Poda: Este mtodo se inicia con una red de gran tamao y
elimina (o poda) las unidades ms dbiles de las capas ocultas
y de entrada segn se va completando el entrenamiento.
Aunque por lo general este mtodo es lento, muchas veces
genera resultados mejores que otros mtodos.
RBFN: La red de funcin de base radial (RBFN) utiliza una
tcnica similar al conglomerado de K-Medias para crear una
particin de los datos basndose en valores del campo objetivo.
Poda exhaustiva: Este mtodo est relacionado con el mtodo
de poda. Se inicia con una red de gran tamao y poda las
unidades ms dbiles de las capas ocultas y de entrada segn se
va completando el entrenamiento. Poda exhaustiva selecciona
los parmetros de entrenamiento de red para garantizar una
bsqueda exhaustiva de los posibles modelos para seleccionar
el ms adecuado. Aunque por lo general este mtodo es el ms
lento, muchas veces genera los mejores resultados. Tenga en
cuenta que este mtodo puede necesitar mucho tiempo para
realizar entrenamientos, especialmente con conjuntos de datos
de gran tamao.

Para ms detalle de los mtodos se pueden ver en el Manual de Algoritmos que


trae el Clementine.
Opciones: Clementine ofrece varios anlisis del entrenamiento como
grficos que nos muestran el desempeo mientras la red se entrena.
Para hacer que estos se visualicen hay que marcarlos aqu.
Experto: Los mtodos de entrenamiento que tiene el Clementine traen
opciones por defecto, pero si se estima que estas opciones no son
suficientes se pueden cambiar aqu. Lo que se visualice depender del
mtodo de entrenamiento seleccionado.

Como hacer una red neuronal en SPSS Clementine


Entrenamiento

3
4

165

5
Comprobacin

Validacin

7
RUTA PARA GENERAR REDES NEURONALES EN EL SPSS CLEMENTINE

Para hacer una red neuronal se necesita primero definir cuales sern los grupos
de datos y variables con que se entrenaran. Despus tener todo eso y ordenarlos
en una base de datos (Sea SPSS, Excel o cualquiera que acepte el Clementine).
En este ejemplo, haremos como si fueran tres grupos de datos los que se
usarn. El grupo de entrenamiento, que se usar para entrenar la red, el grupo
de comprobacin, que se usar para comprobar si los datos dentro del rango de
la red y el grupo de validacin, que es usado para ver el comportamiento de una
red neuronal con datos que no pertenecan al grupo principal.

VENTANA NODO ORIGEN, SPSS CLEMENTINE

1. Importar los datos: Sea de SPSS, Excel o cualquier otro tipo de archivo de
base de datos, es imprescindible exportar los datos. Los nodos de origen
tienen 4 campos principalmente
Datos, donde se ve el archivo de origen y que parte de l se quiere
importar.
Filtro, aqu se puede escoger que variables se quiere que importen.
Muy til si la base de datos tiene muchas variables que no se usarn en
el anlisis.

166

Tipos, donde se puede definir el tipo de cada variable. Si es que estos


variables tipo razn, ordinales, etc. Esto no es necesario hacerlo en este
nodo.
Anotaciones, texto anexo que se quiera agregar.

VENTANA NODO TIPO, SPSS CLEMENTINE

2. Definir tipo de variable: Dada la importancia de definir el tipo de variable


para realizar la red se ha puesto un nodo tipo para representar este paso, a
pesar de que se puede definir, como se ha dicho anteriormente, en el nodo
de importar datos y en el nodo del entrenamiento. Lo necesario para la red
neuronal es definir las variables entradas y las salidas, como se ve en la
imagen en la columna direccin.

167

VENTANA NODO PARTICIN SPSS CLEMENTINE

3. Dividir las variables: Despus se tiene repartir los datos en dos o tres
grupos, en esto se ocupa el nodo particin. En este nodo uno puede definir
que porcentaje de datos quedarn en cada grupo que saldr del nodo. Para
definir por donde saldr cada uno se da una etiqueta en donde dice Valor.
Esta servir para definir en el nodo seleccionar porque parte de la ruta se
irn.

VENTANA NODO SELECCIONAR SPSS CLEMENTINE

4. Entrenar la red: Despus de esto, se entrena la red con el nodo red neuronal
con las opciones que se prefieran, explicadas anteriormente.
5. Aplicar modelo al grupo de comprobacin: En el paso 5 sacamos el nodo
del modelo generado de la pantalla de modelos y lo conectamos al nodo
seleccionar. Tras esto se pueden agregar distintos nodos de resultado segn
se estime conveniente.

168

6. Aplicar modelo al grupo de validacin: Importamos otra base de datos con


variables que separamos para el grupo de validacin. Estas no necesitan ser
especificadas para entrada o salida pero si tener el mismo nombre. Tambin
se puede hacer de la misma forma si se quiere hacer alguna prediccin.

169

Anexo 6: rboles de Decisin en el Software SPSS Clementine

RUTA ARBOL DE DECISIN SPSS CLEMENTINE

Hacer un rbol de decisin en clementine es muy parecido a las redes


neuronales descritas anteriormente, especialmente en lo que es la generacin de
los grupos de entrenamiento y comprobacin. Lo nico que cambia es el nodo
de entrenamiento, que son diferentes algoritmos que hacen rboles de decisin.
Hay cuatro algoritmos disponibles en Clementine para realizar un anlisis de
segmentacin y clasicacin. Todos estos algoritmos son bsicamente
similares: examinan todos los campos de la base de datos para detectar el que
proporciona la mejor clasicacin o pronstico dividiendo los datos en
subgrupos. El proceso se aplica de forma recursiva, dividiendo los subgrupos
en unidades cada vez ms pequeas hasta completar el rbol (segn se dena
determinados criterios de parada).

El nodo de rbol de clasicacin y regresin genera un rbol de decisin que


permite pronosticar o clasicar observaciones futuras. El mtodo utiliza la
particin reiterada para dividir los registros de entrenamiento en segmentos
minimizando las impurezas en cada paso, donde un nodo se considera puro si
el 100% de los casos del nodo corresponden a una categora especca del
campo objetivo. Los campos objetivo y predictor pueden ser de rango o
categricos. Todas las divisiones son binarias (slo se crean dos subgrupos).

Requisitos: Para entrenar un modelo de rbol C&R, se precisan uno o


varios campos de entrada y exactamente uno de salida. Los campos
objetivo y predictor pueden ser de rango o categricos. Se ignorarn los
campos establecidos en Ambos o Ninguno. Los tipos de los campos
utilizados en el modelo deben estar completamente instanciados y
cualquier campo ordinal que se utilice en el modelo debe disponer de
almacenamiento numrico (no en cadena). Si lo considera necesario,
utilice a continuacin el nodo Reclasificar para realizar las

170

conversiones. Consulte Nodo Reclasificar si desea obtener ms


informacin.

Puntos fuertes: Los modelos de rbol C&R son bastante ms robustos


cuando aparecen problemas como datos perdidos y un nmero elevado
de campos. Por lo general no precisan de largos tiempos de
entrenamiento para calcular las estimaciones. Adems, los modelos de
rbol C&R suelen ser ms fciles de comprender que algunos tipos de
modelos: la interpretacin de las reglas derivadas del modelo es muy
directa. A diferencia de C5.0, rbol C&R puede adaptar rangos
numricos como campos de salida categricos.

El nodo CHAID genera rboles de decisin utilizando estadsticos de chicuadrado para identicar las divisiones ptimas. A diferencia de los nodos
C&RT y QUEST, CHAID puede generar rboles no binarios, lo que signica
que algunas divisiones tendrn ms de dos ramas. Los campos objetivo y
predictor pueden ser de rango o categricos. CHAID exhaustivo es una
modicacin de CHAID que examina con mayor precisin todas las divisiones
posibles, aunque necesita ms tiempo para realizar los clculos.

Requisitos. Los campos objetivo y predictor pueden ser de rango o


categricos. Los nodos pueden dividirse en dos o ms subgrupos en
cada nivel. Todos los campos ordinales utilizados en el modelo deben
disponer de almacenamiento numrico (no en cadenas). Si lo considera
necesario, utilice a continuacin el nodo Reclasificar para realizar las
conversiones.

Puntos fuertes. A diferencia de los nodos C&RT y QUEST, CHAID


puede generar rboles no binarios, lo que significa que algunas
divisiones generarn ms de dos ramas. Es por ello que tiende a crear
un rbol ms extenso que los mtodos de desarrollo binarios. CHAID
admite todos los tipos de predictores y acepta tanto variables de
frecuencia como ponderaciones de casos.

El nodo QUEST proporciona un mtodo de clasicacin binario para generar


rboles de decisin; est diseado para reducir el tiempo de procesamiento
necesario para realizar los anlisis de C&RT y reducir la tendencia de los
171

mtodos de clasicacin de rboles para favorecer a los predictores que


permitan realizar ms divisiones. Los campos predictores pueden ser rangos
numricos, sin embargo el campo objetivo debe ser categrico. Todas las
divisiones son binarias.

Requisitos. Los campos predictor pueden ser rangos numricos, sin


embargo el campo objetivo debe ser categrico. Todas las divisiones
son binarias. No podr utilizar los campos de ponderacin. Todos los
campos ordinales utilizados en el modelo deben disponer de
almacenamiento numrico (no en cadenas). Si lo considera necesario,
utilice a continuacin el nodo Reclasificar para realizar las
conversiones.

Puntos fuertes. Al igual que CHAID (pero a diferencia de C&RT),


QUEST utiliza comprobaciones estadsticas para decidir si se ha de
utilizar un predictor o no. Tambin separa las cuestiones relacionadas
con la divisin y la seleccin de predictores, y aplica criterios distintos
a ambos casos. Esto contrasta con los casos de CHAID, donde el
resultado de la comprobacin de estadsticos que determina la
seleccin de variables tambin genera la divisin. De un modo similar,
C&RT emplea la medida de impureza-cambio tanto para seleccionar la
variable predictora como para determinar la divisin.

El nodo C5.0 genera un rbol de decisin o un conjunto de reglas. El modelo


divide la muestra basndose en el campo que ofrece la mxima ganancia de
informacin en cada nivel. El campo objetivo debe ser categrico. Se permiten
varias divisiones en ms de dos subgrupos.

Requisitos. Para entrenar un modelo C5.0, se precisa un campo de


entrada y uno o varios campos de salida simblicos. Se ignorarn los
campos establecidos en Ambos o Ninguno. Los tipos de los campos
utilizados en el modelo deben estar completamente instanciados.

Puntos fuertes. Los modelos C5.0 son bastante ms robustos cuando


aparecen problemas como datos perdidos y un nmero elevado de
campos de entrada. Por lo general no precisan de largos tiempos de
entrenamiento para calcular las estimaciones. Adems, los modelos
C5.0 suelen ser ms fciles de comprender que algunos tipos de
modelos, ya que la interpretacin de las reglas derivadas del modelo es
muy directa. C5.0 tambin ofrece el eficaz mtodo del aumento para
obtener una mayor precisin en tareas de clasificacin.

172

El Generador de rboles
Esta opcin puede generar un modelo de rbol automticamente, que permita al
algoritmo seleccionar la divisin ms adecuada para cada nivel, o bien, puede
utilizar el Generador de rboles interactivos para tomar el control, aplicando
sus conocimientos empresariales para refinar o simplificar el rbol antes de
guardar el modelo generado.
Cree una ruta y aada uno de los nodos de generacin de rboles C&RT,
CHAID o QUEST. (Nota: los rboles C5.0 no admiten la generacin de rboles
interactivos.)
En la ficha Modelo, seleccione Iniciar seccin interactiva.
Seleccione los campos objetivo y predictor y especifique las opciones del
modelo adicionales que considere necesario. Para obtener instrucciones
especficas, consulte la documentacin de los distintos nodos de generacin de
rboles.
Ejecute la ruta para abrir el generador de rboles.
Se muestra el rbol actual desde el nodo raz. Antes de generar uno o varios
modelos, puede editar y podar el rbol nivel a nivel y acceder a ganancias,
riesgos e informacin relacionada.
Anexo 7: Datos Caso Quiebra
Caso quiebra, rbol de decisin.
WCTA

CACL

TSTA

EBITTI

TDTA

TDTE

OMTA

ROA

Si quiebra o no

-0,74

0,54

1,02

0,28

1,02

-43,72

0,09

-0,01

1,00

-0,08

0,13

0,01

-60,87

0,08

0,09

0,00

-0,01

1,00

0,11

1,13

0,14 47281,47

0,87

6,65

0,04

0,04

1,00

1,11 2029,03 17300,53 39490,84

7,36

559,53

758,13

1,00

4358,95
-0,79

0,19

0,01

6,17

0,98

41,52

0,00

0,01

1,00

-0,29

0,77

0,24

1,00

1,10

-10,59

0,15

-0,03

1,00

-0,62

0,30

0,01

-6,64

0,70

2,36

0,00

-0,24

1,00

-1,03

0,22

1,25

-2,41

1,22

-5,54

-0,16

-0,31

1,00

-0,38

0,81

0,80

-1,39

0,74

2,80

0,01

-0,18

1,00

-0,16

1,35

0,46

2,46

0,50

0,98

0,11

0,00

0,00

-0,64

1,03

0,76

2,35

0,84

5,07

0,10

0,09

0,00

-4,39

0,04

54,40

2,46

4,59

0,08

12,92

0,30

0,00

0,24

1,43

0,41

4,87

0,75

1,09

0,22

0,09

0,00

173

-0,02

0,98

0,06

1,02

-63,64

0,03

0,04

0,00

-0,44

1,19

0,07

1,84

0,49

0,95

0,01

0,01

0,00

-0,44

0,52

0,16

2,93

1,66

3,50

0,62

1,62

0,40

0,07

0,00

0,55

13,61

0,33

0,50

0,12

0,10

0,00

0,25

3,43

0,36

5,52

0,22

0,29

0,08

0,02

0,00

-0,13

5,59

0,20

12,01

0,41

0,69

0,07

0,12

0,00

-1,80

2,69

0,01

-5887,25

2,03

-1,97

0,00

-0,53

0,00

-0,69

0,68

0,77

2,73

0,90

8,63

0,13

0,05

0,00

-0,18

0,40

0,00

-145,03

0,19

0,23

0,00

-0,92

0,00

0,23

255,46

0,01

-177,15

0,00

0,00

0,01

-0,21

0,00

0,12

1,14

0,12

1,01

0,87

6,69

0,04

0,04

0,00

0,08

1,09

0,05

1,02

0,92

10,90

0,02

0,01

0,00

0,72

3,73

0,07

0,30

0,27

0,36

0,00

-0,01

0,00

0,89

11,04

0,50

1,04

0,09

0,10

0,14

0,11

0,00

0,81

5,56

0,57

176,37

0,18

0,22

0,38

0,15

0,00

0,04

1,04

0,21

1,02

0,96

22,48

0,01

0,01

0,00

-1,03

0,21

1,47

-5,46

1,25

-5,06

0,09

-0,47

0,00

Caso PIB, Regresin lineal mltiple.


Ao
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008

PIB
17722536671,00
20902096532,00
24640912616,00
28385038397,00
31558927517,00
36424168146,00
44467946384,00
47693992627,00
55154226760,00
71349202309,00
75769008174,00
82808986192,00
79373597080,00
72995286764,00
75210511780,00
68568293067,00
67265403373,00
73989608529,00
95652734478,00
123055000000,00
154670000000,00
173079000000,00
179627000000,00

IPC
21,06
25,25
28,96
33,89
42,71
52,02
60,04
67,69
75,43
81,64
87,65
93,03
97,78
101,04
104,93
108,67
111,38
114,51
115,71
119,25
123,29
128,72
139,94

Desocupados
449,15
424,02
370,83
341,86
363,05
353,22
322,36
349,68
431,06
363,82
301,98
303,63
431,15
561,03
536,94
533,72
546,28
548,11
602,67
541,11
409,93
510,81
544,68

174

Cobre
110,40
139,30
195,80
204,40
184,30
161,50
156,70
129,60
154,10
189,50
144,80
143,70
107,00
100,80
110,00
94,60
95,80
103,70
157,30
187,80
328,20
331,60
292,30

2009
2010
2011

172591000000,00
216309000000,00
248585000000,00

142,02 632,79
144,18 563,76
148,99 534,40

239,10
373,40

Caso Petrleo Serie de tiempo


Enero Febrero Marzo Abril Mayo Junio Julio

Agosto Septiembre Octubre Noviembre Diciembre

2000

27,3

29,4

29,9

25,8

28,8

31,9

29,7

31,3

33,9

33,1

34,4

28,4

2001

29,5

29,6

27,2

27,4

28,6

27,6

26,4

27,5

26,2

22,2

19,6

19,3

2002

19,7

20,7

24,4

26,2

27

25,5

26,9

28,4

29,7

28,9

26,3

29,4

2003

33

35,8

33,3

28,2

28,1

30,7

30,8

31,6

28,3

30,3

31,1

32,1

2004

34,2

34,7

36,7

36,7

40,3

38

40,8

44,9

45,9

53,3

48,5

43,2

2005

46,8

48

54,2

53

49,8

56,4

58,7

65

65,5

62,4

58,3

59,4

2006

65,5

61,6

62,9

69,5

70,9

70,9

74,4

73

63,8

58,9

59,1

62

2007

54,2

59,3

60,6

63,9

63,5

67,5

74,1

72,4

79,9

85,9

94,8

91,4

2008

93

95,4

105,5 112,6

125,4

133,9 133,4

116,6

103,9

76,6

57,3

41,4

2009

41,7

39,2

48

49,8

59,1

69,6

64,1

71,1

69,4

75,8

78

74,5

2010

78,4

76,4

81,3

84,5

73,7

75,4

76,4

76,6

75,3

81,9

Caso APV, Anlisis Cluster

Edad

Fondo A
Nmero de
Saldo
ahorrantes
promedio

Fondo B
Nmero de Saldo
ahorrantes
promedio

Fondo C
Nmero de
Saldo
ahorrantes
promedio

Fondo D
Nmero de
ahorrantes

Saldo promedio

15-19

231

20414

126

6540

54

1195

431

20-24

4122

537789

1947

108830

811

32788

114

10109

25-29

21108

4661675

8722

963323

2962

444652

525

158314

30-39

78439

52651074

36679

13447883

20576

7366291

2520

2484086

40-49

72679 117274477

19566

37342610

67000

50652600

3662

8845674

50-59
60 y
ms

40493 118911569

14540

55577562

59809

115545799

19851

29971745

6410

40803031

19264

88835461

40969

60211284

Edad

9932

50767031

Fondo E
Nmero
de
ahorrante Saldo
s
promedio

15-19

54

3659

20-24

608

121063

25-29

2410

596815

30-39

9288

9162804

40-49

12092

33959731

50-59

11240

71457261

Indique en orden de importancia las tres situaciones que ms le generan preocupacin


La
Incertidumbre en la No contar con un
Perder
inestabilida vejez (salud,
sistema de salud que
el
d econmica previsin,
cubra enfermedades o
La situacin
trabajo del hogar
desamparo)
accidentes
econmica
9,78453
13,3448
6
17,1138
8
17,6290
1
17,5191
6
13,5055
3

16,90596

2,83778

13,3135

8,2608

17,4185

2,88559

13,35355

9,68421

14,81486

3,66478

13,46485

10,7893

13,97234

4,76635

13,07702

11,0234

13,77392

6,96278

13,14368

11,0805

13,23452

11,17458

13,7282

11,4454

175

60 y
ms

6955

66064499

5,39189

14,22697

15,56975

15,26988

Cul de los siguientes problemas de actualidad


nacional tiene mayor importancia para usted? Y
en segundo lugar?
Edad

6 El desempleo

7 La salud

1 La pobreza

15-19

4,46411

8,35886

19,11282

20-24

6,66303

9,75863

18,01984

25-29

8,2837

8,94863

17,59088

30-39

7,42283

9,51429

15,92277

40-49

7,54623

9,49843

15,14606

50-59

7,51108

10,69749

15,85761

60 y ms

4,86568

12,36294

16,6018

Caso fondo A, Redes Neuronales Artificiales


Ver archivos en estos enlaces
Grupo de entrenamiento y comprobacin
https://dl.dropbox.com/u/12063322/Ejemplo%20%20Redes%20Neuronales%20%20datos%20entrenamiento%20y%20comprobaci%C3%B3n.xls
Grupo de validacin
https://dl.dropbox.com/u/12063322/Ejemplo%20%20Redes%20Neuronales%20-%20validaci%C3%B3n.xls

176

11,6521

You might also like