Analisis Multivariado 3

MTODOS ESTADSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
MTODOS ESTADSTICOS
MULTIVARIADOS
Elabor: Dr. Primitivo Reyes Aguilar

Marzo de 2007
Pg. 1
CONTENIDO
1. Coeficiente de Cronbach
2. Mtodos de anlisis multivariado
3. ANOVA de K direcciones
4. Anlisis multivariado de Varianza (MANOVA)
5. Anlisis de Covarianza
6. Anlisis Discriminante
7. Anlisis de Conglomerados (Clusters)
8. Anlisis de componentes principales
9. Anlisis Factorial
10. Anlisis de Regresin Mltiple
11. Anlisis de correspondencia
Pg. 2
1. COEFICIENTE DE CRONBACH
Pg. 3
1. CLCULO DEL COEFICIENTE DE CONFIABILIDAD

(FIABILIDAD) ALFA-CRONBACH
Existen tres procedimientos para determinar el coeficiente o alfa :
1. Sobre la base de la varianza de los tems, con la aplicacin de la
siguiente
frmulaFrmula:
En donde N representa el nmero de tems de la escala, s2 (Yi) es

igual a la sumatoria de las varianzas de los tems y s2x equivale a la
varianza de toda la escala.
2. Sobre la base de la matriz de correlacin de los tems, el
procedimiento
seraSera:
a) Se aplica la escala.
b) Se obtienen los resultados.
c) Se calculan los coeficientes de correlacin r de Pearson entre todos
los tems (todos contra todos de par en par).
d) Se elabora la matriz de correlacin con los coeficientes obtenidos.
Por
ejemploEjemplo:
Pg. 4
Los coeficientes que se mencionan como ya fue calculado, se

ubican en la
parteParte superior de las lneas horizontales (guiones). Es decir, cada
coeficiente se incluye una sola vez y se excluyen los coeficientes que
vinculan al tem o
puntuacinPuntuacin consigo misma (1 con 1, 2 con 2, 3 con 3 y 4
con 4).
Pg. 5
3. Mediante otra frmula que se basa en la correlacin promedio
Pg. 6
2. MTODOS DE ANLISIS
MULTIVARIADO
Pg. 7
2. LOS MTODOS DE ANLISIS MULTIVARIADO

Los mtodos de anlisis multivariado son aquellos en que se analiza
la relacin entre diversas variables independientes y al menos una
dependiente. Son mtodos ms complejos que requieren del uso de
computadoras para efectuar los clculos necesarios
Entre las tcnicas ms comunes se encuentran (1) Anlisis de componentes

principales y factores comunes, (2) regresin y correlacin mltiple, (3) anlisis
discriminante mltiple, (4) anlisis multivariado de varianza y covarianza, (5)
anlisis conjunto, (6) correlacin cannica, (7) anlisis de clusters, (8) escala
multidimensional.
Otras
tcnicas
nuevas
incluyen
(9)
anlisis
de
correspondencia, (10) modelos de probabilidad lineal tales como el logit y

probit, y (11) modelos de ecuacin simultaneas / estructurales. A continuacin
se describen brevemente stas tcnicas.
Anlisis de componentes principales y de factores comunes

Es un mtodo estadstico que puede usarse para analizar las interrelaciones
entre un gran nmero de variables y explicar esas variables en trminos de sus
dimensiones subyacentes comunes. El objetivo es hallar la forma de sintetizar
la informacin contenida en un nmero de variables originales, dentro de un
Pg. 8
conjunto ms pequeo de variates (factores) con mnima prdida de

informacin.
Regresin mltiple
En un mtodo de anlisis adecuado cuando el problema de investigacin
involucra una variable dependiente nica que se presume se relaciona a dos o
ms variables independientes medibles. El objetivo es predecir el cambio en la
variable
dependiente
de
respuesta
con
cambios
en
las
variables
independientes, normalmente con el mtodo de mnimos cuadrados.

Por ejemplo se pueden predecir los montos gastados en cenas a partir de
ingresos de las familias (variable dependiente), su tamao, y la edad del padre
(variables independientes).
Anlisis discriminante mltiple (MDA)

Se aplica cuando la variable dependiente es dicotmica (vgr.Vg. hombre
mujer) o multitmica (vgrVg.. Alto medio bajo) y por tanto no medible. Como
en la regresin las variables independientes deben ser medibles. Se aplica
cuando la muestra total se puede dividir en grupos con base en una variable no
medible caracterizando varias clases conocidas. Su objetivo es comprender las
diferencias entre grupos y predecir la probabilidad de que una entidad (objeto
individual) pertenezca a una clase o grupo particular con base en varias
variables independientes medibles o mtricas.
Por ejemplo el anlisis discriminante se puede utilizar para distinguir entre
innovadores y no innovadores de acuerdo a su perfil demogrfico y
psicogrfico.
Anlisis multivariado de varianza y covarianza (MANOVA)

Es un mtodo estadstico para explorar simultneamente la relacin entre
varias variables categricas independientes (referidas como tratamientos) y dos
o ms variables dependientes medibles o mtricas. Es una extensin del
ANOVA univariado. El anlisis multivariado de covarianza (MANCOVA) se
Pg. 9
puede usar en conjunto con el MANOVA para remover (despus del

experimento) el efecto de cualquier variable mtrica independiente no
controlada (conocida como covariada) en la variable independiente.
Anlisis conjunto
Se aplica a nuevos productos para evaluar la importancia de los atributos del
nuevo producto as como los niveles de cada atributo, mientras que el
consumidor evala solo unos pocos perfiles del producto como combinaciones
de los niveles de producto.
Por ejemplo asumir un producto con tres atributos (precio, calidad y color),
cada uno en tres niveles posibles (vgrVg.. Rojo, amarillo y azul). En vez de
tener que evalurevaluar las 27 combinaciones posibles (3x3x3), se evala un
subconjunto de 9 o ms combinaciones con base en su atractivo para el
consumidor, de manera que el investigador no solo conozca la importancia de
cada atributo, sino adems la importancia de cada nivel (atractivo del rojo vsvs.
amarillo vsvs. azul).
Correlacin cannica
El anlisis de correlacin puede ser visto como una extensin lgica de la
regresin mltiple. Donde se trata de correlacionar simultneamente varias
variables dependientes medibles o mtricas y varias variables independientes
medibles. El principio es establecer una combinacin lineal de cada conjunto de
variables (dependientes e independientes) para maximizar la correlacin entre
los dos conjuntos (obteniendo ponderaciones adecuados para las variables).
Anlisis de conglomerados (Clusters)

Es una tcnica analtica para desarrollar sugrupossubgrupos significativos de
individuos u o objetos. Especficamente, el objetivo es clasificar una muestra de
entidades (individuos u objetos) en un nmero ms pequeo de grupos ms
pequeos con base en las similitudes entre entidades. A diferencia del anlisis
discriminante, los grupos no estn definidos, ms bien se usa para
identificarlos.
Pg. 10
Normalmente se realiza en tres pasos. El primero es la medicin de alguna

forma de similitud o asociacin entre las entidades para identificar cuantos
grupos realmente existen en la muestra. El segundo paso es el proceso en s
de
conglomerados,
donde
las
entidades
se
particionan
en
grupos
(conglomerados o clusters). El paso final es perfilar las personas o variables

para determinar su composicin. Muchas veces esto ltimo se realiza con el
anlisis discriminante.
Escala multidimensional
El objetivo es transformar los juicios del consumidor de similitud o preferencias
(vgrVg.. Preferencia por tiendas o marcas) en distancias representadas en un
espacio multidimensional. Si los objetos A y B se juzgan por el consumidor
como similares, comparados con cualquier otro par de objetos, la tcnica
posiciona los objetos A y B de manera que la distancia entre ellos en un
espacio multidimensional es ms pequeopequea que la distancia entre
cualquier otro par de objetos. Al final se muestra un mapa perceptual con la
posicin relativa de los objetos.
Anlisis de correspondencia
Facilita tanto la reduccin dimensional de objetos en un conjunto de atributos y
el mapa perceptual de objetos respecto a estos atributos. En su forma ms
elemental es una tabla de contingencia o tabulacin cruzada de dos variables
categricas. Transforma los datos no mtricos a un nivel medible y realiza una
reduccin dimensional (similar al anlisis de factores) y un mapa perceptual
(similar al anlisis multidimensional).
Por ejemplo, las preferencias de marcas de los consumidores pueden ser
tabuladas contra variables demogrficas (vgrVg.. Gnero, categoras de
ingresos, ocupacin) indicando cuanta gente prefiere cada una de las marcas
que caen en cada categora de las variables demogrficas. Por medio del
anlisis de correspondencia, la asociacin o correspondencia de marcas y las
caractersticas distintivas de aquellos que prefieren las marcas se muestran en
Pg. 11
un mapa tridimensional o bidimensional tanto de marcas como de las

caractersticas que distinguen a aquellos que prefieren cada marca.
Modelos de probabilidad lineal (Anlisis Logit)

Son una combinacin de regresin mltiple y anlisis discriminante. Es similar
al anlisis de regresin mltiple excepto que la variable dependiente es
categrica no mtrica como en el anlisis discriminante.
Modelos de ecuaciones estructurales

A veces se refiere como el nombre del software LISREL, es una tcnica que
permite separar las relaciones del conjunto de variables dependientes. En su
forma ms sencilla proporciona el modelo ms adecuado y la tcnica de
estimacin ms eficiente para una serie de ecuaciones de regresin mltiple,
evaluadas simultneamente. Se caracteriza por dos componentes bsicos: (1)
el modelo estructural y (2) el modelo de medicin.
El modelo estructural es la va que relaciona variables dependientes e
independientes. El modelo de medicin permite al investigador a usar varias
variables (indicadores) para una variable dependiente e independiente.
Pg. 12
Los datos para HATCO son los siguientes:

Variables / Tipo
Percepciones / Medibles (Mtricas)
X1
Tiempo de entrega - entrega del producto con la orden confirmada
X2
Nivel de precios
- nivel de precio percibido ponderacindo por
proveedores
X3
Flexibilidad de precios
- flexibilidad para negociar precios
X4
Imagen de la empresa
- general
X5
Servicio en general
- nivel necesario para mantener relaciones
X6
Imagen de la fuerza de ventas - general
X7
Calidad del producto calidad percibida en desempeo o rendimiento
Resultados de compras / Medibles (Mtricas)

X9
Nivel de utilizacin - que porcentaje de producto es surtido por Hatco
X10
Nivel de satisfaccin que tan satisfecho esta el cliente con Hatco
Caractersticas del comprador / No Medibles (No Mtricas)

X8
Tamao de la empresa
- 1- Grande 0 - pequeo
X11
Especificacin de compra - 1-Evala por el valor total y 0- especificacin
X12
Estructura de abastecimiento 1- centralizado 0 - descentralizado
X13
Tipo de industria
X14
Tipo de situacin de compra 1- nueva 2- modificada 0- tradicional
- 1- industria A
Pg. 13
0 otras industrias
3. ANOVA DE K DIRECCIONES
Pg. 14
3. ANOVA (anlisis de varianza de k direcciones )

El ANOVA es similar a la regresin en el sentido de que se utiliza para
investigar y modelar la relacin entre una variable de respuesta y una o ms
variables independientes. Sin embargo, el ANOVA difiere de la regresin en dos
aspectos: las variables independientes son cualitativas (categricas), y no hay
supuestos acerca de la naturaleza de la relacin (o sea que el modelo no
incluye coeficientes para variables). En efecto el ANOVA extiende la prueba de
dos muestras con prueba t para probar la igualdad de dos poblaciones a una
hiptesis ms general al comparar ms de dos medias, versus que no sean
iguales.
Definicin: Es una prueba estadstica para evaluar el efecto de dos o
ms variables independientes sobre una variable dependiente.
Responde a esquemas como el que se muestra en la figura:
Constituye una extensin del anlisis de varianza unidireccional,

solamente
Pg. 15
queQue incluye ms de una variable independiente. Evala los

efectos por separado de cada variable independiente y los efectos
conjuntos de dos o ms variables independientes.
Variables: Dos o ms variables independientes y una dependiente.
Nivel de medicin de las variables: La variable dependiente (criterio)
debe estar
medida en un nivel por intervalos o razn, y las variables
independientes
(factores) pueden
estar en cualquier
nivel
de
medicin, pero expresadas de manera categrica.

Interpretacin y ejemplo
Hi: La similitud en valores, la atraccin fsica y el grado de
retroalimentacin
positiva son variables que inciden en la satisfaccin sobre la relacin
en parejas de novios.
Contexto: Muestra de parejas de adultos jvenes (23-29 aos),
pertenecientes a estratos econmicos altos (n=400).
El ANOVA efectuado mediante un paquete estadstico computacional
como
SPSS produce los siguientes elementos bsicos:
Fuente de la variacin (source of variation). Es el factor que origina
variacin en la dependiente. Si una fuente no origina variacin en la
dependiente, no tiene efectos.
Efectos principales (main effects). Es el efecto de cada variable
independiente
Pg. 16
por separado; no est contaminado del efecto de otras variables

iindependientesindependientes ni de error. Suele proporcionarse la
suma de todos los efectos principales.
Interacciones de dos direcciones (2-way interactions). Representa el
efecto conjunto de dos variables independientes, aislado de los
dems posibles efectos de las variables independientes (individuales
o en conjuntos). Suele proporcionarse la suma de los efectos de todas
estas interacciones.
Interacciones de tres direcciones (3-way interactions). Constituye el
efecto conjunto de tres variables independientes, aislado de otros
efectos. Suele proporcionarse la suma de los efectos de todas estas
interacciones.
Puede haber efecto de K-direcciones, esto dependiedepende del
nmero de variables independientes.
En nuestro ejemplo, tenemos los resultados siguientes:
TABLA ANOVA
VARIABLE DEPENDIENTE: SATISFACCIN EN LA RELACIN
Fuente
variacin
de Suma
de Grados de Cuadrados
cuadrados
libertad
medios
Estadstico F
Significancia
de Fc = P
Efectos
principales
(main
effects
22.51
.001**
SIMILITUD
ATRACCIN
RETROALIM
SIMILITUD
ATRACCIN
SIMILITUD
RETROALIM
ATRACCION
31.18
21.02
11.84
0.001**
0.001**
0.004**
-4.32
0.04*
2.18
0.11
1.56
0.190
Pg. 17
RETROALIM
SIN
RETROLATRACCION
NOTA:
8.01
0.02*
Normalmente interesa saber si las razones F resultaron o no
significativas;
por
tanto,
slo
se
incluyen
estos
valores.
Se
recomienda concentrarse en dichos valores y evitar confusiones.

Desde luego, el investigador experimentado acostumbra estudiar
todos los valores.
** Razn F significativa al nivel del 0.01 (p < 0.01)
*Razn F significativa al nivel del 0.05 (p < 0.05)
Como podemos ver en la tabla, la similitud, la atraccin y la
retroalimentacin tienen un efecto significativo sobre la satisfaccin
en la relacin.
Respecto a los efectos de dos variables independientes conjuntas,
slo la similitud y la atraccin tienen un efecto, hay un efecto
conjunto de las tres variables independientes. La hiptesis de
investigacin se acepta y la nula se rechaza. Asimismo, se recuerda al
lector que en el captulo 5 del presente disco: Otros diseos
experimentales (en el apartado sobre diseos factoriales) se explica
la nocin de interaccin entre variables independientes. Cabe agregar
que el ANOVA es un mtodo estadstico propio para los diseos
experimentales factoriales.
Ejemplo:
Un experimento se realiz para probar cuanto tiempo toma usar un modelo
nuevo y un modelo anterior de calculadora. Seis ingenieros trabajando en un
problema estadstico y uno de ingeniera se les toma el tiempo para resolver el
problema. Los ingenieros se consideran como bloques en el diseo
experimental.
Pg. 18
Hay dos factores: Tipo de problema y modelo de calculadora cada uno con
dos niveles, se hacen experimentos donde esos niveles de los factores se
cruzan. Los datos se muestran a continuacin:
SolveTime
3.1
7.5
2.5
5.1
3.8
8.1
2.8
5.3
3
7.6
2
4.9
3.4
7.8
2.7
5.5
3.3
6.9
2.5
5.4
3.6
7.8
2.4
4.8
Engineer
Jones
Jones
Jones
Jones
Williams
Williams
Williams
Williams
Adams
Adams
Adams
Adams
Dixon
Dixon
Dixon
Dixon
Erickson
Erickson
Erickson
Erickson
Maynes
Maynes
Maynes
Maynes
ProbType
Stat
Stat
Eng
Eng
Stat
Stat
Eng
Eng
Stat
Stat
Eng
Eng
Stat
Stat
Eng
Eng
Stat
Stat
Eng
Eng
Stat
Stat
Eng
Eng
Calculator
New
Old
New
Old
New
Old
New
Old
New
Old
New
Old
New
Old
New
Old
New
Old
New
Old
New
Old
New
Old
Las instrucciones de Minitab son las siguientes:

1
Abrir la worksheet EXH_AOV.MTW.
Stat > ANOVA > Balanced ANOVA.
Responses, poner SolveTime.
Model, poner Engineer ProbType | Calculator.
En Random Factors, poner Engineer.
6 Click Results. En Display means corresponding to the terms, poner

ProbType | Calculator. Click OK cada cuadro de dilogo.
Los resultados obtenidos son los siguientes:
Pg. 19
ANOVA: SolveTime versus Engineer, ProbType, Calculator

Factor
Engineer
ProbType
Calculator
Type
random
fixed
fixed
Levels
6
2
2
Values
Adams, Dixon, Erickson, Jones, Maynes, Williams
Eng, Stat
New, Old
Analysis of Variance for SolveTime

Source
Engineer
ProbType
Calculator
ProbType*Calculator
Error
Total
S = 0.259487
DF
5
1
1
1
15
23
SS
1.053
16.667
72.107
3.682
1.010
94.518
R-Sq = 98.93%
MS
F
0.211
3.13
16.667 16.667
72.107 72.107
3.682 3.682
0.067
P
0.039
247.52
1070.89
54.68
0.000
0.000
0.000
R-Sq(adj) = 98.36%
Means
ProbType
Eng
Stat
Calculator
New
Old
N
12
12
ProbType
Eng
Eng
Stat
Stat
SolveTime
3.8250
5.4917
N
12
12
SolveTime
2.9250
6.3917
Calculator
New
Old
New
Old
N
6
6
6
6
SolveTime
2.4833
5.1667
3.3667
7.6167
Interpretacin de los resultados:

Se muestran los factores (fijos y aleatorios), niveles y valores. Despus se
muestra la tabla de ANOVA, donde se indica de acuerdo al valor P que hay una
interaccin significativa entre el tipo de problema y el modelo de calculadora, lo
que implica que la reduccin en tiempo de proceso de la calculadora depende
del tipo de problema.
En la lista de promedios se observa un menor tiempo entre la calculadora
nueva y la anterior.
Pg. 20
4. ANLISIS MULTIVARIADO DE VARIANZA

(MANOVA)
Pg. 21
4. ANLISIS
(MANOVA)
MULTIVARIADO
DE
VARIANZA
Es un modelo para analizar la relacin entre una o ms variables

independientes y dos o ms variables dependientes. Es decir, es til
para estructuras causales del tipo:
La tcnica posee varios usos, entre los que destacan:

- Evaluar diferencias entre grupos a travs de mltiples variables
dependientes (medidas por intervalos o razn). La(s) variable(s)
independiente(s) es(son) categrica(s) (no mtricas). Tiene el poder
de evaluar no solamente las diferencias totales, sino diferencias entre
las combinaciones de las dependientes.
En este sentido representa una extensin del anlisis de varianza
(ANOVA)
para cubrir casos donde hay ms de una variable dependiente y/o
cuando las variables dependientes simplemente no pueden ser
combinadas. En otras
palabras,
reconoce
si
los
cambios
en
la(s)
variable(s)
independiente(s) tienen un efecto significativo en las dependientes.

Pg. 22
Seala qu grupos difieren en una variable o en el conjunto de

variables dependientes.
- Identificar las interacciones entre las variables independientes y la
asociacin entre las dependientes.
Las tres clases principales del MANOVA son:
1) Hotelling's T. Es parecida a la prueba t (dos grupos) pero con ms
dependientes:
una
variable
independiente
dicotmica
varias
dependientes.
2) MANOVA unidireccional. Anlogo al ANOVA de una sola va, pero
con ms dependientes: una variable independiente multicategrica y
varias
dependientes.
3) MANOVA factorial. Similar al ANOVA factorial, solamente que con
dos o ms dependientes: varias independientes categricas y varias
dependientes.
Los
modelos
del
MANOVA
tienen
en
comn
que
forman
combinaciones lineales de las dependientes que discriminan mejor

entre los grupos en un experimento o una situacin no experimental.
Es una prueba de significancia de las diferencias en los grupos en un
espacio multidimensional donde cada dimensin est definida por
combinaciones lineales del conjunto de variables dependientes.
Una pregunta que suele hacer el estudiante al revisar el MANOVA es
por
qu
no
hacemos
ANOVAS
separados,
uno
para
cada
dependiente? La respuesta: las dependientes estn correlacionadas

muy frecuentemente, por lo cual los resultados de varios ANOVA
Pg. 23
pueden ser redundantes y difciles de integrar. He aqu una sntesis de

la explicacin de Wiersma (1999) sobre este tipo de anlisis:
Al incluir dos o ms variables dependientes simultneamente no se
consideran las diferencias entre las medias en cada variable, sino las
diferencias en variables cannicas. El inters no slo es saber si los
grupos definidos por las variables independientes difieren en las
variables cannicas, sino conocer la naturaleza de stas. Una variable
cannica es una variable artificial generada a partir de los datos.
Representa constructos y se compone de variables reales, las cuales
deben ser descritas en trminos de variables dependientes. Lo
anterior
se
efecta
por
medio
de
las
ponderaciones
de
los
coeficientes de correlacin entre una variable dependiente y una

variable cannica. Si una ponderacin entre la variable cannica y la
dependiente es positiva y elevada, significa que altos valores en la
dependiente se asocian con altos valores en la cannica. Por ejemplo,
si una variable dependiente consiste en puntuaciones a una prueba
sobre innovacin, y dichas puntuaciones se correlacionan en forma
considerable con una variable cannica, inferimos que la variable
cannica representa un constructo que involucra esencialmente a la
innovacin.
En los clculos que se hacen en el MANOVA, se generan variables
cannicas hasta que se encuentra que no hay una diferencia
estadstica significativa entre las categoras o los grupos de las
variables independientes; o bien, hasta que se agotan los grados de
libertad de las variables independientes (lo que ocurra primero). El
nmero de variables cannicas no puede exceder el nmero de
variables
dependientes,
dependientes
sea
pero
mayor
es
que
comn
que
el
variables
de
el
estadsticamente significativas o los grados de libertad.
Pg. 24
nmero
de
cannicas
La hiptesis general de investigacin en el MANOVA postula que las

medias
de
los
grupos
las
categoras
de
la(s)
variable(s)
independiente(s) difieren entre s en las variables cannicas. La

hiptesis nula postula que dichas medias sern iguales.
Se calculan diversas estadsticas para evaluar ambas hiptesis, entre
las que destacan: F (total, toma en cuenta el modelo completo), la
prueba Hotelling's TSquare, T2 (cuando hay dos grupos formados por
las variables independientes), Wilks' lambda, U (cuando hay ms de
dos grupos formados por las variables independientes), y PillaiBartlett
(cuando
hay
coeficientes
cannicos);
si
resultan
significativas en un nivel de confianza, se acepta la hiptesis de

investigacin de diferencia de medias. Esto indica que hay, por lo
menos, una variable cannica significativa (pero puede haber varias).
Si diversas variables cannicas son significativas, esto muestra que
se presentan diferencias en las variables cannicas en cuestin, entre
los grupos o categoras de las independientes.
Los paquetes estadsticos que contiene el MANOVA suelen posicionar
a los
grupos
de
las
variables
independientes
por
puntuaciones
discriminantes; stas son calculadas con una funcin discriminante,

que es una ecuacin de regresin para un compuesto de variables
dependientes.
discriminante
en
cada
grupo
cada
se
variable
le
asigna
cannica.
una
Las
puntuacin
puntuaciones
discriminantes de una variable independiente pueden ser cero o tener

un valor positivo o negativo.
Una puntuacin discriminante positiva y elevada para un grupo,
indica que ste se coloca por encima de los dems en la respectiva
variable cannica. Y deben considerarse las ponderaciones, las cuales
son positivas o negativas. Las puntuaciones discriminantes son
utilizadas para interpretar las separaciones de los grupos en las
Pg. 25
variables cannicas, en tanto que las ponderaciones se usan para

evaluar y ligar los resultados de las variables dependientes (Wiersma,
1999). Un ejemplo de las ponderaciones de los coeficientes de
correlacin entre las variables dependientes y las variables cannicas
as como las puntuaciones discriminantes se muestran en las tablas
siguientes:
Pg. 26
Como observamos en la ltima tabla, se obtuvieron tres constructos

subyacentes en las puntuaciones recolectadas de la muestra:
motivacin intrnseca, atribucin de causalidad externa y desempeo
laboral. Vemos en la tabla que los grupos (niveles en la empresa)
estn separados en las tres variables cannicas (los grupos difieren),
particularmente
en
la
primera
variable
cannica
(motivacin
intrnseca) y los obreros ocupan la posicin ms baja. Las variables

dependientes enmarcadas en un recuadro en la primera variable
cannica se ponderaron en ella; en consecuencia, los ejecutivos
tienen las puntuaciones ms altas en motivacin intrnseca medida
por la escala mencionada, en atribuciones internas y en sentimientos
de xito en el trabajo. As se interpretan todas las variables cannicas
y dependientes.
En el MANOVA se incluyen razones F y anlisis de varianza. Algunos
paquetes estadsticos agregan una prueba denominada correlacin
cannica, que es muy similar al MANOVA. sta es la mxima
correlacin que llega a obtenerse entre los conjuntos de puntuaciones
y las relaciones entre las variables independientes, entre las variables
dependientes y entre los conjuntos de ambas (dependientes e
independientes) (Kerlinger, 1979). Las variables en el MANOVA y la
correlacin cannica asumen que las variables dependientes estn
medidas en un nivel de intervalos o razn. Tal correlacin se
interpreta como otras; pero el contexto de interpretacin vara de
acuerdo con el nmero de variables involucradas.
Pg. 27
Ejemplo con Minitab

Se realiza un estudio para determinar las condiciones ptimas para extruir
pelcula plstica. Se miden tres respuestas Tear, gloss y opacity cinco
veces en cada combinacin de dos factores tasa de extrusin y cantidad de
aditivo cada grupo se pone en niveles bajos y altos. Se utiliza el MANOVA
balanceado para probar la igualdad de las medias.
DATOS
Tear
6.5
6.2
5.8
6.5
6.5
6.9
7.2
6.9
6.1
6.3
6.7
6.6
7.2
7.1
6.8
7.1
7
7.2
7.5
7.6
Gloss
9.5
9.9
9.6
9.6
9.2
9.1
10
9.9
9.5
9.4
9.1
9.3
8.3
8.4
8.5
9.2
8.8
9.7
10.1
9.2
Opacity
4.4
6.4
3
4.1
0.8
5.7
2
3.9
1.9
5.7
2.8
4.1
3.8
1.6
3.4
8.4
5.2
6.9
2.7
1.9
ExtrusionE
xtrusin
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
Additive
1
1
1
1
1
2
2
2
2
2
1
1
1
1
1
2
2
2
2
2
Instrucciones de Minitab
1
Abrir el archivo EXH_MVAR.MTW.
Seleccionar Stat > ANOVA > Balanced MANOVA.
En Responses, poner Tear Gloss Opacity.
En Model, poner Extrusion | Additive.
Pg. 28
Click Results. En Display of Results, seleccionar Matrices
(hypothesis, error, partial correlations) y Eigen analysis.

6
Click OK en cada cuadro de dilogo.
Los resultados se muestran a continuacin:

Results for: Exh_mvar.MTW
ANOVA: Tear, Gloss, Opacity versus Extrusion, Additive
MANOVA for Extrusion

s = 1
m = 0.5
n = 6.0
Test
Criterion
DF
Statistic
Num
Denom
Wilks'
0.38186
7.554
14
0.003
Lawley-Hotelling
1.61877
7.554
14
0.003
Pillai's
0.61814
7.554
14
0.003
Roy's
1.61877
SSCP Matrix for Extrusion
Tear
Gloss
Opacity
Tear
Gloss
Opacity
1.740
-1.505
0.8555
-1.505
1.301
-0.7395
0.855
-0.739
0.4205
SSCP Matrix for Error

Tear
Gloss
Opacity
Tear
1.764
0.0200
-3.070
Gloss
0.020
2.6280
-0.552
-3.070
-0.5520
64.924
Opacity
Partial Correlations for the Error SSCP Matrix

Tear
Gloss
Opacity
Pg. 29

Tear
1.00000
0.00929
-0.28687
Gloss
0.00929
1.00000
-0.04226
-0.28687
-0.04226
1.00000
Opacity
EIGEN Analysis for Extrusion
Eigenvalue
1.619
0.00000
0.00000
Proportion
1.000
0.00000
0.00000
Cumulative
1.000
1.00000
1.00000
Eigenvector
Tear
Gloss
Opacity
0.6541
0.4315
0.0604
-0.3385
0.5163
0.0012
0.0359
0.0302
-0.1209
MANOVA for Additive

s = 1
m = 0.5
n = 6.0
Test
Criterion
DF
Statistic
Num
Denom
Wilks'
0.52303
4.256
14
0.025
Lawley-Hotelling
0.91192
4.256
14
0.025
Pillai's
0.47697
4.256
14
0.025
Roy's
0.91192
SSCP Matrix for Additive

Tear
Gloss
Opacity
Tear
0.7605
0.6825
1.931
Gloss
0.6825
0.6125
1.732
Opacity
1.9305
1.7325
4.901
EIGEN Analysis for Additive
Eigenvalue
0.9119
0.00000
0.00000
Proportion
1.0000
0.00000
0.00000
Cumulative
1.0000
1.00000
1.00000
Pg. 30

Eigenvector
Tear
-0.6330
0.4480
-0.1276
Gloss
-0.3214
-0.4992
-0.1694
Opacity
-0.0684
0.0000
0.1102
MANOVA for Extrusion*Additive

s = 1
m = 0.5
n = 6.0
Test
Criterion
DF
Statistic
Num
Denom
Wilks'
0.77711
1.339
14
0.302
Lawley-Hotelling
0.28683
1.339
14
0.302
Pillai's
0.22289
1.339
14
0.302
Roy's
0.28683
SSCP Matrix for Extrusion*Additive

Tear
Gloss
Opacity
Tear
0.000500
0.01650
0.04450
Gloss
0.016500
0.54450
1.46850
Opacity
0.044500
1.46850
3.96050
EIGEN Analysis for Extrusion*Additive
Eigenvalue
0.2868
0.00000
0.00000
Proportion
1.0000
0.00000
0.00000
Cumulative
1.0000
1.00000
1.00000
Eigenvector
Tear
-0.1364
0.1806
0.7527
Gloss
-0.5376
-0.3028
-0.0228
Opacity
-0.0683
0.1102
-0.0000
Por default se muestra la tabla para las cuatro pruebas multivariadas (Wilks,
Lawley, Hotelling, Pillai y Roy) para cada uno de los trminos en el modelo.
Los valores s, m y n se utilizan para los clculos de los estadsticos de prueba
Fc, el cual es exacto si s = 1 o 2 de otra forma es aproximado.
Pg. 31
Examinando los valores P de las pruebas para Extrusin y Aditivo se observa

que son significativas para un nivel de 0.05, no as la interaccin.
Las matrices SSCP se usan para evaluar la contribucin a la variabilidad de
manera similar a la suma de cuadrados en la ANOVA univariada. La matriz
SSCP para Extrusion es la suma de cuadrados de la hiptesis y matriz de
productos cruzados H para las tres respuestas con el trmino de modelo
Extrusin. Los elementos diagonales de esta matriz, 1.740, 1.301 y 64.924 son
las sumas de cuadrados univariados para el trmino del modelo Extrusin
cuando las variables de respuesta son Tear, Gloss y Opacity respectivamente.
Los elementos fuera de la diagonal son los productos cruzados.
La matriz SSCP para el error es la suma de cuadrados de los errores y
productos cruzados E. Los elementos diagonales de la matriz 1.764, 2.6280, y
64.924 son las sumas de cuadrados de los errores para las variables de
respuesta Teat, Gloss y Opacity, respectivamente. Los elementos fuera de la
diagonal de esta matriz son los productos cruzados.
La matriz de correlaciones parciales para el error SSCP, se usa para evaluar
que tanto se relacionan las variables de respuesta. Las correlaciones parciales
entre Tear y Gloss son pequeas con 0.00929 y entre Gloss y Opacity
-0.04226. Y la correlacin parcial entre Tear y Opacity es de -0.28687 tampoco
es grande. Como la estructura de las correlaciones es dbil, se pueden realizar
anlisis univariados de ANOVA para cada una de las respuestas.
Se puede utilizar el anlisis de valores caractersticos o Eigenvalores, para
evaluar como difieren los promedios de las respuestas entre los niveles de los
diferentes trminos del modelo. El anlisis de Eigenvalores es E -1 H donde E es
la matriz SCCP del error y H es la matriz SCCP de las variables de respuesta.
Estos son los eigenvalores utilizados para calcular las cuatro pruebas de
MANOVA.
Poner la mayor importancia en los eigenvectores que corresponden a valores
altos de eigenvalores. En el ejemplo, el segundo y tercer eigenvalores son
pequeos, no significativos. Para ambos factores, Extrusion y Additive, los
Pg. 32
primeros eigenvalores contienen informacin similar. Para
Extrusion ies
0.6541, -0.3385, 0.0359 and for Additive it is -0.6630, -0.3214, -0.0684. El

mayor valor absoluto dentro de esos eigenvalores corresponde a la respuesta
Tear, el segundo a Gloss y el valor para Opacity es pequeo. Esto implica que
Tear tiene la mayor diferencia entre los dos niveles de los factores ya sea
Extrusion o Additive, el Gloss tiene las siguientes mayores diferencias y op.citp.
tiene solo pequeas diferencias.
Para un anlisis ms general utilizar General MANOVA con diseos
balanceados y no balanceados, incluso si se tienen covariados.
1
Seleccionar Stat > ANOVA > General MANOVA.
En Responses, seleccionar hasta 50 columnas numricas conteniendo las
variables de respuesta.
3
En Model, introducir los trminos del modelo que se quiera ajustar.
4. Click OK.
Pg. 33
5 ANLISIS DE COVARIANZA
Pg. 34
5. ANLISIS DE COVARIANZA
Definicin: Es un mtodo estadstico que analiza la relacin entre una
variable dependiente y dos o ms independientes, con el que se
elimina o controla el efecto de al menos una de estas independientes.
Similar al ANOVA, excepto que permite controlar la influencia de una
variable independiente, la cual con frecuencia es una caracterstica
antecedente que puede variar entre los grupos (Mertens, 2005) o
influir los resultados y afectar la claridad de las interpretaciones.
Perspectivas o usos: Wildt y Ahtola (1978, pp. 8-9) destacan tres
perspectivas para el anlisis de covarianza:
A. Perspectiva experimental. Se aplica a aquellas situaciones en que
el inters del investigador se centra en las diferencias observadas en
la variable dependiente, por medio de las categoras de la variable
independiente (o variables independientes). Pero el experimentador
asume que hay otras variables independientes cuantitativas que
contaminan la relacin y cuya influencia debe ser controlada.
Pg. 35
Y el investigador nicamente se interesa por conocer la relacin entre

las
variables independientes categricas y la variable dependiente.
Desea al mismo tiempo remover y controlar el efecto de las variables
independientes cuantitativas no categricas (continuas). Es decir,
desea tener un esquema como el de la figura
El
objetivo
es
purificar
la
relacin
entre
las
independientes
categricas y la
Variable
dependiente,
mediante
el
control
del
efecto
de
las
independientes no categricas o continuas.

Ejemplos de variables independientes categricas seran: gnero
(masculino,
femenino), inteligencia (alta, media, baja), ingreso (menos de un
salario mnimo, dos a cuatro salarios mnimos, cinco a 10 salarios
mnimos, 11 o ms salarios mnimos).
Los niveles de medicin nominal y ordinal son categricos en s
mismos, mientras que los niveles de intervalos y razn deben
Pg. 36
transformarse en categoras ms discretas. Estos ltimos son en s:

cuantitativos, continuos y de categoras mltiples. Por ejemplo, el
ingreso en su estado natural (ponderaciones, dlares, euros, etc.)
vara de la categora cero hasta la categora (K)k, ya que puede haber
millones de categoras.
Variable categrica unas cuantas categoras o un rango medio.
Variable continua muchas categoras (a veces una infinidad).
A dichas variables independientes cuantitativas continuas, cuya
influencia se controla, se les denomina covariables. Una covariable
se incluye en el anlisis para remover su efecto sobre la variable
dependiente, e incrementar el conocimiento de la relacin entre las
variables independientes categricas de inters y la dependiente, lo
cual aumenta la precisin del anlisis.
En esta perspectiva, el anlisis de covarianza puede ser concebido
primero
como un ajuste en la variable dependiente respecto a diferencias en
la
covariable
evaluacin
de
las
la
covariables
relacin
y,
entre
posteriormente,
las
variables
como
una
independientes
categricas y los valores ajustados de la variable dependiente (Wildt y

Ahtola, 1978). En trminos de Creswell (2005):
El procedimiento ajusta las puntuaciones en la dependiente para
dar cuenta por la covarianza (por decirlo en trminos sencillos: hace
equivalentes a los grupos en la(s) covariable(s) y controla influencias
potenciales que pueden afectar a la variable dependiente).
B. Perspectiva de inters por la covariable. Esta perspectiva se
ejemplifica con aquellas instancias en las cuales el inters principal se
centra en analizar la relacin entre la variable dependiente y la
Pg. 37
covariable (variable cuantitativa continua) o las covariables. Aqu el

enfoque es distinto; la influencia que se remueve es la de las
variables independientes categricas. Primero se controla el efecto
(en este caso contaminante) de estas variables y despus se analiza
el efecto purificado de las covariables.
C. Perspectiva de regresin. En esta tercera perspectiva, tanto las
variables
independientes categricas como las covariables resultan de inters
para el
investigador, quien puede desear examinar el efecto de cada variable
independiente (covariables y no covariables, todas) y despus ajustar
o corregir los efectos de las dems variables independientes.
En cualquier caso, el anlisis de covarianza elimina influencias no
deseadas
sobre la variable dependiente. Se puede utilizar en contextos
experimentales y no experimentales. La mayora de las veces la
funcin del ANCOVA es remover la varianza compartida entre una o
ms covariables y la dependiente, de este modo, se valora en su justa
dimensin la relacin causal entre la(s) variable(s) independiente(s)
de inters y la dependiente (Creswell, 2005).
Vemoslo conceptualmente pero de forma grfica con un ejemplo
simple:
Ejemplo:
Estudio: Al investigador le interesa analizar el efecto en el aprendizaje
de la
computacin, por medio un nuevo mtodo para su enseanza a nios.
La hiptesis es: El nuevo mtodo de enseanza de la computacin
Pg. 38
(MA-RH) provocar un mayor aprendizaje en los nios que un mtodo

tradicional.
Entonces, implementa el siguiente experimento: A un grupo de
infantes los
expone al nuevo mtodo de enseanza de computacin (MA-RHS); a
otro grupo no lo expone al nuevo mtodo, ste aprende con el
mtodo tradicional; finalmente, a un tercer grupo, de control, no
recibe ningn tipo de enseanza en computacin.
La variable independiente es el tipo de mtodo con tres categoras o
niveles
(mtodo nuevo, mtodo tradicional y ausencia de mtodo), la
dependiente es el aprendizaje en computacin (medida por una
prueba estandarizada a nivel de intervalos). Se tiene un esquema
como el de la figura.
Pg. 39
Con el experimento el investigador desea conocer la varianza en

comn entre mtodo y aprendizaje (cuantificarla), la relacin XY
(pura). Si los nios son asignados al azar a los grupos del
experimento y tiene grupos de tamao aceptable, por el diseo
mismo, remueve la influencia de las covariables que pudieran afectar.
Pero si no es factible hacerlo y tiene un diseo cuasiexperimental
(grupos intactos), debe remover tal influencia con el anlisis de
covarianza (eliminar al mnimo posible la varianza del aprendizaje no
explicada), para evitar que las covariables impidan ver con claridad la
relacin XY. Por ejemplo, el nivel educativo tecnolgico de los
padres puede influir (hace variar al aprendizaje) y este efecto debe
ser controlado, al introducirlo como covariable.
Pg. 40
Lo que el investigador
grficamente as:
desea
tambin
se
puede
expresar
Wildt y Ahtola (1978, p. 13) definen algunos usos del anlisis de

covarianza:
Pg. 41
1. Incrementar la precisin en experimentos con asignacin al azar.

2. Eliminar influencias extraas o contaminantes que pueden resultar
cuando las pruebas o los individuos no son asignados al azar a las
diferentes condiciones experimentales (grupos de un experimento).
3. Eliminar efectos de variables que confundan o distorsionen la
interpretacin de resultados en estudios no experimentales.
Nivel de medicin de las variables: La variable dependiente siempre
est medida por intervalos o razn y las variables independientes
pueden estar medidas en cualquier nivel.
Interpretacin: Depende de cada caso especfico, ya que el anlisis de
covarianza
efectuado
mediante
un
programa
estadstico
computacional, produce un cuadro de resultados muy parecido al del

anlisis
de
varianza.
Los
elementos
ms
comunes
pueden
obssevarseobservarse en la tabla ANOVA.

La razn F es, igual que en el anlisis de varianza, una razn de
varianzas. El razonamiento estadstico es el mismo y F se interpreta
igual, incluso se utiliza el mismo cuadro de la distribucin F.
Solamente que las inferencias y conclusiones se hacen al considerar
que las medias de la variable
dependiente,
travs
de
las
categoras
de
las
variables
independientes, se han ajustado, de este modo eliminan el efecto de

la covariable o covariables.
Ejemplo:
Diseo de investigacin que utiliza el anlisis de covarianza
Pg. 42
Hi: Los trabajadores que reciban retroalimentacin verbal sobre el

desempeo de parte de su supervisor mantendrn un nivel mayor de
productividad que los trabajadores que reciban retroalimentacin
sobre el desempeo por escrito, ms an que los trabajadores que no
reciban ningn tipo de retroalimentacin.
__
Hi: X1
__
> X2
__
>
X3
(verbal) (por escrito) (ausencia)
El investigador plantea un diseo experimental para intentar probar

su
hiptesis. Sin embargo, no puede asignar aleatoriamente a los
trabajadores a los tres grupos del experimento. El diseo sera con
grupos intactos
(cuasiexperimental) y se esquematizara as:
Asimismo, el investigador presupone que hay un factor que puede

contaminar los resultados (actuar como fuente de invalidacin
interna): la
motivacin. Diferencias iniciales en motivacin pueden invalidar el
estudio.
Como la asignacin al azar est ausente, no se sabe si los resultados
se ven influidos por dicho factor. Entonces, el experimentador decide
eliminar o controlar el efecto de la motivacin sobre la productividad
para conocer los efectos de la variable independiente: tipo de
retroalimentacin. La motivacin se convierte en covariable.
Pg. 43
El esquema es el que se muestra en la figura
Cabe destacar que, para introducir una covariable en el anlisis, de

preferencia debe medirse antes del inicio del experimento.
El anlisis de covarianza quita a la variabilidad de la dependiente lo
que se
debe a la covariable. Ajusta la varianza de la variable dependiente en
las categoras de la independiente, al basarse en la covariable. En el
ejemplo, ajusta la varianza
de la productividad debida a la
motivacin, en las categoras experimentales (tratamientos o grupos).

El ajuste se realiza sobre la base de la correlacin entre la covariable
y la dependiente. Esto se muestra esquemticamente en la tabla.
Una vez realizado el anlisis de covarianza, se evala si F es o no
significativa.
Cuando F resulta significativa se acepta la hiptesis de investigacin.
Si el resultado fuera:
G1 = 35
G2 = 36
Pg. 44
La correlacin entre la calificacin en motivacin y las puntuaciones

en
productividad es la base para el ajuste.
G3 = 38
Gl entre = K 1 = 3 1 = 2
Gl intra = N K = 107
F = 1.70
Comparamos con el valor de la tabla respectiva: en el nivel de 0.05 es
igual a 3.07, y nuestra razn F a 1.70 es menor a este valor. Por lo
tanto, rechazamos la hiptesis de investigacin y aceptamos la
hiptesis nula. Esto se contrasta y profundiza con las medias
ajustadas de los grupos que proporcione el anlisis de covarianza (no
las medias obtenidas en el experimento por cada grupo, sino las
ajustadas con base en la covariable).
Recordemos
que
SPSS
nos
proporciona
automticamente
la
significancia de F.
Ejemplo:
Determinar
si
hay
diferencia
en
la
resistencia
de
una
fibra
monofilamento producida por tres mquinas diferentes. El dimetro

de la fibra parece tener influencia en la resistencia como se muestra
abajo (covariado de Y).
Datos de resistencia - Y es la respuesta, X es el covariado.
Y
36
41
39
42
49
40
X
20
25
24
25
32
22
Maq
1
1
1
1
1
2
Pg. 45
48
39
45
44
35
37
42
34
32
28
22
30
28
21
23
26
21
15
2
2
2
2
3
3
3
3
3
La relacin entre X y Y es significativa como se observa en la

siguiente grfica:
En Minitab:
1. Stat > RegresinRegression > Fitted line plot
2. Introducir Y y X, seleccionar Linear
3. OK
Fitted Line Plot
Y = 14.14 + 1.080 X
50
S
R-Sq
R-Sq(adj)
1.78174
88.1%
87.2%
45
40
35
30
15.0
17.5
20.0
22.5
25.0
27.5
30.0
32.5
Para el ANOVA con Covariados, las instrucciones de Minitab son las

siguientes:
1. Stat > ANOVA > General Linear Model
2. Introducir en Response Y, en Model X y Maquina
Pg. 46
3. En Covariates X
4. En Results en Display Least Square Means corresponding to the
terms Maq
5. En Graphs seleccionar Normal plot for residuals
6. OK
General Linear Model: Y versus Maq
Factor
Maq
Type
fixed
Levels
3
Values
1, 2, 3
Analysis of Variance for Y, using Adjusted SS for Tests

Source
X
Maq
Error
Total
DF
1
2
11
14
Seq SS
305.13
13.28
27.99
346.40
S = 1.59505
Term
Constant
X
Adj SS
178.01
13.28
27.99
Adj MS
178.01
6.64
2.54
R-Sq = 91.92%
Coef
17.177
0.9540
SE Coef
2.783
0.1140
F
69.97
2.61
P
0.000
0.118
R-Sq(adj) = 89.72%
T
6.17
8.36
P
0.000
0.000
Unusual Observations for Y

Obs
7
Y
48.0000
Fit
45.1080
SE Fit
0.7489
Residual
2.8920
St Resid
2.05 R
R denotes an observation with a large standardized residual.

Means for Covariates
Covariate
X
Mean
24.13
StDev
4.324
Least Squares Means for Y

Maq
1
2
3
Mean
40.38
41.42
38.80
SE Mean
0.7236
0.7444
0.7879
Conclusin:
Se observa que no hay diferencia en las mquinas una vez que eliminamos la
variabilidad introducida por el dimetro de la fibra, en caso de no haber tomado
Pg. 47
en cuenta la covarianza del dimetro en la resistencia, se hubiese concluido al

revs, que si hay diferencia en las mquinas, como se muestra a continuacin:
Con Minitab:
1. Stat > ANOVA > One way
2. Response Y Factor Maquina
3. OK
Los resultados son los siguientes:
One-way ANOVA: Y versus Maq
Source
Maq
Error
Total
DF
2
12
14
S = 4.143
Level
1
2
3
N
5
5
5
SS
140.4
206.0
346.4
MS
70.2
17.2
F
4.09
R-Sq = 40.53%
Mean
41.400
43.200
36.000
StDev
4.827
3.701
3.808
P
0.044
R-Sq(adj) = 30.62%
Individual 95% CIs For Mean Based on Pooled

StDev
+---------+---------+---------+--------(---------*----------)
(---------*---------)
(---------*---------)
+---------+---------+---------+--------32.0
36.0
40.0
44.0
Pooled StDev = 4.143
Conclusin: Como P value es menor a 0.05 aparentemente si hay diferencia

entre mquinas.
Pg. 48
7. ANLISIS DISCRIMINANTE MLTIPLE Y

REGRESIN LOGSTICA
Pg. 49
7. ANLISIS DISCRIMINANTE MLTIPLE Y REGRESIN

LOGSTICA
El
anlisis
discriminante,
se
aplica
cuando
las
variables
independientes son medidas por intervalos o razn, y la dependiente

es categrica. Tal anlisis sirve para predecir la pertenencia de un
caso a una de las categoras de la variable dependiente, sobre la base
de varias independientes (dos o ms). Se utiliza una ecuacin de
regresin llamada funcin discriminante. Por ejemplo, si queremos
predecir el voto obtenido por dos partidos contendientes (variable
dependiente nominal con dos categoras) sobre la base de cuatro
variables independientes, aplicaremos el anlisis discriminante, para
resolver una ecuacin de regresin; as se obtienen las predicciones
individuales.
En el ejemplo, hay dos categoras (votar por A o votar por B); por
tanto, los valores a predecir son 0 y 1 (A y B, respectivamente). Si el
sujeto obtiene una puntuacin ms cercana a cero, se predice que
pertenece al grupo que votar por A; si logra una puntuacin ms
cercana a 1, se predice que pertenece al grupo que votar por B.
Adems, se consigue una medida del grado de discriminacin del
modelo.
Usar el Anlisis Discrimnate para clasificar observaciones en dos
grupos (Anlisis discriminante) o ms grupos (Anlisis discriminante
mltiple MDA) si se tiene una muestra con grupos conocidos. Se
puede utilizar tambin para investigar como contribuyen las variables
a la separacin de grupos. La regresin logstica o Logit Analysis se
limita a dos grupos. Para el caso de clasificar las observaciones
nuevas en una de dos categoras, la regresin logstica puede ser
superior al anlisis discriminante.
Se pueden hacer anlisis discriminantes lineales y cuadrticos. Los
lineales asumen que todos los grupos tienen la misma matriz de
Pg. 50
covarianza, los cuadrticos no hacen este supuesto y no son bien

comprendidos.
Pg. 51
Modelo discriminante
El problema que atiende la funcin discriminante es que tanto es posible
separar dos o ms grupos de individuos, con base en las mediciones
realizadas en esos individuos en varias variables. Por ejemplo para el caso de
los pjaros que sobrevivieron y los que no sobrevivieron, es interesante
considerar si es posible utilizar las dimensiones de sus cuerpos para separar
sobrevivientes de no sobrevivientes.
En el caso general donde hay m muestras aleatorias de diferentes grupos, de
tamaos n1, n2, ., nm y los valores disponibles para p variables X1, X2, ,
Xp para cada miembro de la muestra, la forma de los datos para una funcin de
anlisis discriminante es :
Individuo
1
2
n1
1
2
n2
1
2
nm
X1
X111
X211
.
Xn1,11
X121
X221
..
Xn2,2,1
X1m1
X1m1
.
Xnm,m1
X2
X112
X212
.
Xn1,12
X122
X222
..
Xn2,2,2
X1m2
X1m2
.
Xnm,m2
Xp
X11p
X21p
.
Xn1,1p
X12p
X22p
..
Xn2,2,p
X1mp
X1mp
.
Xnm,mp
Grupo
Grupo1
Grupo 2
Grupo m
En este caso los datos no requieren ser estandarizados como en el anlisis de

componentes principales y anlisis factorial, ya que los resultados no son
afectados por la escala de los datos.
Pg. 52
Discriminacin por distancia de Mahalanobis

Suponiendo que hay g poblaciones y que las distribuciones multivariadas son
conocidas para p variables X1, X2,, Xp. Sea ki la media de la variable Xk en
la poblacin i-sima, y asumiendo que la varianza de Xk tiene el mismo valor
Vk, en todas las poblaciones, se define a la distancia entre poblaciones y
muestras de Mahalanobis como:
p
Dij2 ( ri rj )v rs ( si sj )
r 1 s 1
Donde V(rs) es el elemento con rengln r-simo y columna s-sima, de la

matriz inversa de covarianza para las variables p. Tambin se puede escribir en
forma matricial como:
x ' ( x1 , x2 ,...., x p )
' ( 1 , 2 ,....., p )
Dij2 (i j )'V 1 (i j )
1i

2i
.....

pi
i es el vector de medias para la poblacin i-sima y V es el vector de

covarianza. Una condicin es que la V sea similar para todas las poblaciones.
La distancia de Mahalanobis se utiliza frecuentemente para medir la distancia
de una observacin simple multivariada desde el centro de la poblacin de la
que emerge la observacin. Tambin se puede interpretar como un residuo
respecto al centro, con la consideracin de que si excede cierto valor se
investigue como punto aberrante.
Pg. 53
Para el modelo discriminante, los vectores promedio de las m muestras pueden

ser considerados como estimados de los vectores promedio de los grupos.
Pueden calcularse las distancias de mahalanobis de individuos a centros de
grupos, y cada individuo puede ser asignado al grupo que le sea ms cercano.
El grupo final puede ser diferente del grupo del que procede originalmente. El
porcentaje de asignacin correcta es una indicacin clara de que tan bien los
grupos pueden ser separados, usando las variables disponibles.
El procedimiento puede definirse de manera ms clara como sigue:
El vector de valores promedio de la muestra del i-simo grupo es
x ' ( x1i , x2 i ,...., x pi )
La matriz de covarianza para las muestras es:
c11 c12....c1 p
c21 c22....c2 p
C
.................
cp1 cp2....cpp
La distancia de Mahalanobis de una observacin x' ( x1 , x2 ,......, x p )' al
centro del grupo i se estima con:
Di2 ( x xi )' C 1 ( x xi )
p
Di2 ( xr xri )c rs ( xs xsi )

r 1 s 1
Donde crs es el elemento den la r-sima fila y la s-sima columna de C -1. La

observacin x es asignada al grupo para el cual Di2 tiene el valor ms pequeo.
Funciones cannicas discriminantes
Pg. 54
Es a veces til poder determinar las funciones de las variables Xs que en

alguna forma separen los m grupos tan bien como sea posible. El mtodo ms
sencillo consiste en tomar una combinacin lineal de las variables X:
Z a1 X 1 a2 X 2 ........ a p X p
Una forma de seleccionar los coeficientes as es seleccionar los que den la

mayor Fc en una ANOVA. Si se utiliza este mtodo, se encuentran las
funciones cannicas discriminantes para cada observacin i-sima que no
estn correlacionadas entre s.
Z i ai1 X 1 ai 2 X 2 ........ aip X p
La tabla ANOVA para una variable simple y m muestras es la siguiente:

Fuente de
Variacin
Entre muestras
Suma de
cuadrados
B=TW
Grados de
libertad
m -1
Dentro
W ( xij x j ) 2 n - m
Cuadrado Medio
M1 = B/(m-1)
M1/M2
nj
j 1 i 1
de muestras
m
nj
T ( xij x ) 2
Total
n1
j 1 i 1
nj
Tamao de la muestra j-sima
Nmero total de observaciones
xij
Es la observacin i-sima de la j-sima muestra

nj
xj
xij
i 1
nj
Media de la muestra j-sima
nj
xij
j 1 i 1
Media global de todos los datos
El elemento en la fila r-sima y columna c-sima en la matriz T es:
nj
trc ( xijr xr )( xijc xc )

j 1 i 1
El elemento en la r-sima fila y c-sima columna de la matriz W es:

Pg. 55
nj
wrc ( xijr x jr )( xijc x jc )

j 1 i 1
Hallar los coeficientes de las funciones discriminantes cannicas se convierte

en un problema de eigenvalores. La matriz de variacin dentro de la muestra W
y la matriz de suma de cuadrados total T se calculan con las ecuaciones
anteriores. Por tanto la matriz entre grupos se determina con:
B=TW
Los eigenvalores y los eigenvectores se determinan con la matriz W-1B. Si los
eigenvalores 1>2>3>..s entonces i es la razn de la suma de cuadrados
entre grupos a la suma de cuadrados entre grupos para la i-sima combinacin
lineal, Zi, mientras que los elementos de los eigenvectores, ai = (ai1, ai2, ai3,
., aip), son los coeficientes de Zi.
Las funciones cannicas discriminantes Z1, Z2,, Zp son combinaciones
lineales de las variables originales seleccionadas de tal forma que Z1 refleje
tanta diferencia de grupo como sea posible; Z2 capture tanta diferencia de
grupo como sea posible no mostrada por Z1; Z3 capture tanta diferencia de
grupo como sea posible que no sea mostrada por Z1 y Z2; etc. Se espera que
con las primeras funciones sea suficiente para acumular la mayor parte de las
diferencias de grupo. Si y solo si con las primeras dos variables se cumple esta
condicin, se puede graficar la diferencia entre grupos, graficando las funciones
para los individuos de las muestras.
El nmero de variables cannicas es el mnimo entre el nmero de variables
(Xs) y el nmero de grupos menos uno (m 1= 2). Para el anlisis discrimnate
es necesario proporcionar el grupo al que pertenecen al inicio las
observaciones.
Para probar la significancia de la prueba, se puede utilizar el estadstico T2, de

Hottelling basado en el supuesto de normalidad y variabilidad similar dentro de
las muestras. Es decir que las muestras vengan de una distribucin mutivariada
normal con matrices de covarianza similares.
Pg. 56
Para probar si la funcin discriminante cannica Zj vara significativamente de

grupo a grupo se utiliza un estadstico Chi cuadrado.
Finalmente, se pueden analizar las distancias de Mahalanobis de las
observaciones a los centros de los grupos a ser examinados. Deben variar de
acuerdo a una distribucin Chi cuadrada con p grados de libertad, si exceden el
valor crtico, se debe analizar si la observacin realmente viene del grupo
asignado.
Pg. 57
Ejemplo:
El porcentaje de personas empleadas en nueve diferentes sectores industriales
en Europa (Agr = agricultura; Min = minera; Man = Manufactura; Ps = Energa;
Con = Construccin; Ser = Servicios; Fin = Finanzas; Sps = Servicios sociales;
Tc = Transporte y comunicaciones).
No
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
Grupo
1
1
1
1
1
1
1
1
1
1
1
2
1
2
2
1
1
2
3
3
3
3
3
3
3
3
Ciudad
Blgica
Dinamarca
Francia
Alemania Occ.
Irlanda
Italia
Luxenburgo
Holanda
Inglaterra
Austria
Finlandia
Grecia
Noruega
Portugal
Espaa
Suecia
Suiza
Turqua
Bulgaria
Checa
Alemania Ori.
Hungra
Polonia
Rumania
Rusia
Yugoslavia
Agr
3.3
9.2
10.8
6.7
23.2
15.9
7.7
6.3
2.7
12.7
13.0
41.4
9.0
27.8
22.9
6.1
7.7
66.8
23.6
16.5
4.2
21.7
31.1
34.7
23.7
48.7
Min
0.9
0.1
0.8
1.3
1.0
0.6
3.1
0.1
1.4
1.1
0.4
0.6
0.5
0.3
0.8
0.4
0.2
0.7
1.9
2.9
2.9
3.1
2.5
2.1
1.4
1.5
Man
27.6
21.8
27.5
35.8
20.7
27.6
30.8
22.5
30.2
30.2
25.9
17.6
22.4
24.5
28.5
25.9
37.8
7.9
32.3
35.5
41.2
29.6
25.7
30.1
25.8
16.8
Ps Con Ser Fin Sps Tc

0.9 8.2 19.1 6.2 26.6 7.2
0.6 8.3 14.6 6.5 32.2 7.1
0.9 8.9 16.8 6.0 22.6 5.7
0.9 7.3 14.4 5.0 22.3 6.1
1.3 7.5 16.8 2.8 20.8 6.1
0.5 10.0 18.1 1.6 20.1 5.7
0.8 9.2 18.5 4.6 19.2 6.2
1.0 9.9 18.0 6.8 28.5 6.8
1.4 6.9 16.9 5.7 28.3 6.4
1.4 9.0 16.8 4.9 16.8 7.0
1.3 7.4 14.7 5.5 24.3 7.6
0.6 8.1 11.5 2.4 11.0 6.7
0.8 8.6 16.9 4.7 27.6 9.4
0.6 8.4 13.3 2.7 16.7 5.7
0.7 11.5 9.7 8.5 11.8 5.5
0.8 7.2 14.4 6.0 32.4 6.8
0.8 9.5 17.5 5.3 15.4 5.7
0.1 2.8 5.2 1.1 11.9 3.2
0.6 7.9 8.0 0.7 18.2 6.7
1.2 8.7 9.2 0.9 17.9 7.0
1.3 7.6 11.2 1.2 22.1 8.4
1.9 8.2 9.4 0.9 17.2 8.0
0.9 8.4 7.5 0.9 16.1 6.9
0.6 8.7 5.9 1.3 11.7 5.0
0.6 9.2 6.1 0.5 23.6 9.3
1.1 4.9 6.4 11.3 5.3 4.0
En este caso el nmero de variables cannicas es el mnimo entre el nmero

de variables (8) y el nmero de grupos menos uno (m 1= 2). Las variables
cannicas se obtienen a continuacin:
1
Cargar los datos a Minitab
Stat > Multivariate > Discriminant Analysis.
En Groups, poner SalmonOrigin.
En Predictors, poner Freshwater Marine. Click OK.

Pg. 58
Discriminant Analysis: Grupo versus Agr, Min, ...

After subtracting group means,
Agr is highly correlated with other predictors.
Man is highly correlated with other predictors.
Sps is highly correlated with other predictors.
Linear Method for Response: Grupo
Predictors: Agr, Min, Man, Ps, Con, Ser, Fin, Sps
Group
Count
1
9
2
9
3
8
Summary of classification
True Group
1
2
3
8
1
0
1
8
0
0
0
8
9
9
8
8
8
8
0.889 0.889 1.000
Put into Group

1
2
3
Total N
N correct
Proportion
N = 26
N Correct = 24
Proportion Correct = 0.923
Squared Distance Between Groups

1
2
3
1
0.0000
9.4368
40.1385
2
9.4368
0.0000
20.4832
3
40.1385
20.4832
0.0000
Linear Discriminant Function for Groups

Constant
Agr
Min
Man
Ps
Con
Ser
Fin
Sps
1
-11171
221
284
211
371
287
244
204
255
2
-10821
218
277
208
369
283
239
200
251
Variable
Agr
Min
Man
Ps
Con
Ser
Pooled Mean
19.131
1.2538
27.008
0.90769
8.1654
12.958
3
-10678
217
279
207
371
282
236
199
249
Means for Group

1
2
3
9.533
23.044
25.525
1.0333
0.5556
2.2875
27.167
24.522
29.625
0.92222 0.78889 1.02500
8.4667
8.0556
7.9500
17.022
13.333
7.963
Pg. 59

Fin
Sps
4.0000
20.023
Variable
Agr
Min
Man
Ps
Con
Ser
Fin
Sps
Pooled
StDev
14.37
0.6643
6.969
0.3788
1.699
2.749
2.630
6.148
5.0222
24.511
4.5667
18.656
2.2125
16.513
StDev for Group

1
2
3
6.48
20.01
13.15
0.9000 0.2789 0.6600
4.871
8.343
7.274
0.2906 0.3855 0.4528
1.117
2.346
1.330
1.638
3.997
1.869
1.767
2.215
3.681
4.524
7.664
5.803
Pooled Covariance Matrix

Agr
Min
Man
Ps
Con
Ser
Fin
Sps
Sps
Agr
206.455
-1.471
-80.889
-2.568
-13.191
-31.181
-3.479
-59.429
37.798
Min
Man
Ps
Con
Ser
Fin
0.441
1.683
0.087
0.029
0.336
-0.424
-0.748
48.569
0.881
6.269
11.763
-1.216
9.607
0.143
0.042
0.576
0.220
0.424
2.887
2.076
-0.148
1.082
7.555
0.287
6.397
6.916
-1.432
Sps
Covariance matrix for Group 1

Agr
Min
Man
Ps
Con
Ser
Fin
Sps
Sps
Agr
42.053
-0.800
-15.359
-0.067
0.856
-0.776
-8.537
-14.949
20.466
Min
Man
Ps
Con
Ser
Fin
Sps
0.810
2.522
0.040
-0.156
0.372
-0.312
-2.359
23.727
-0.058
-1.376
-0.809
-0.272
-8.052
0.084
-0.208
0.012
0.074
0.100
1.248
0.920
-0.254
-0.922
2.684
-0.432
-2.050
3.122
5.906

Agr
Min
Man
Ps
Con
Ser
Fin
Sps
Sps
Agr
400.228
1.336
-140.614
-5.808
-30.813
-71.357
-31.392
-98.810
58.735
Min
Man
Ps
Con
Ser
Fin
Sps
0.078
-0.459
0.021
0.025
-0.288
0.048
-0.732
69.609
2.090
15.256
25.528
12.865
11.504
0.149
0.437
1.149
0.438
1.131
5.505
4.945
3.830
-0.771
15.978
3.179
16.029
4.908
4.981

Agr
Min
Man
Ps
Con
Ser
Fin
Agr
172.888
-5.445
-87.525
-1.722
-9.106
-20.013
34.201
Min
Man
Ps
Con
Ser
Fin
0.436
3.172
0.218
0.245
1.009
-1.093
52.914
0.572
4.734
10.401
-18.389
0.205
-0.123
0.565
0.135
1.769
0.119
-4.574
3.494
-2.195
13.547
Pg. 60
Sps

Sps
Sps
-65.256
33.678
1.076
27.621
-0.013

5.491
5.042
-17.147
Summary of Misclassified Observations

Observation
4**
True
Group
1
Pred
Group
2
16**
Group
1
2
3
1
2
3
Squared
Distance
11.326
6.373
19.796
5.350
10.989
35.747
Probability
0.077
0.921
0.001
0.944
0.056
0.000
Corrida con SPSS

Discriminant
Warnings
Option ''SEPARATE'' means
classification using group
covariance matrices of the canonical
discriminant functions, not those of
the original variables. If there are
fewer functions than variables, that
makes a difference.
Analysis Case Processing Summary
Unweighted Cases
Valid
Excluded Missing or out-of-range
group codes
At least one missing
discriminating variable
Both missing or
out-of-range group codes
and at least one missing
Total
Total
N
26
Percent
100.0
.0
.0
.0
0
26
.0
100.0
Pg. 61
Group Statistics
GRUPO
1.00
2.00
3.00
Total
AGR
MIN
MAN
PS
CON
SER
FIN
SPS
AGR
MIN
MAN
PS
CON
SER
FIN
SPS
AGR
MIN
MAN
PS
CON
SER
FIN
SPS
AGR
MIN
MAN
PS
CON
SER
FIN
SPS
Mean
9.5929
.8500
27.6214
.9571
8.4214
16.6786
5.1143
24.0786
39.7250
.6000
19.6250
.5000
7.7000
9.9250
3.6750
12.8500
25.5250
2.2875
29.6250
1.0250
7.9500
7.9625
2.2125
16.5125
19.1308
1.2538
27.0077
.9077
8.1654
12.9577
4.0000
20.0231
Std. Deviation
5.3626
.7743
5.0773
.2875
1.0401
1.5783
1.4206
5.3738
19.6736
.2160
9.0205
.2708
3.6102
3.4760
3.2908
2.5981
13.1487
.6600
7.2742
.4528
1.3299
1.8693
3.6806
5.8033
15.5466
.9700
7.0078
.3762
1.6456
4.5753
2.8066
6.8295
Valid N (listwise)
Unweighted
Weighted
14
14.000
14
14.000
14
14.000
14
14.000
14
14.000
14
14.000
14
14.000
14
14.000
4
4.000
4
4.000
4
4.000
4
4.000
4
4.000
4
4.000
4
4.000
4
4.000
8
8.000
8
8.000
8
8.000
8
8.000
8
8.000
8
8.000
8
8.000
8
8.000
26
26.000
26
26.000
26
26.000
26
26.000
26
26.000
26
26.000
26
26.000
26
26.000
Analysis 1
Summary of Canonical Discriminant Functions
Eigenvalues
Function
1
2
Eigenvalue % of Variance
11.347a
92.1
a
.977
7.9
Cumulative %
92.1
100.0
Canonical
Correlation
.959
.703
a. First 2 canonical discriminant functions were used in the

analysis.
Pg. 62
Wilks' Lambda
Test of Function(s)
1 through 2
2
Wilks'
Lambda
.041
.506
Chi-square
62.301
13.290
df
16
7
Standardized Canonical Discriminant Function Coefficients

Function
1
3.690
-.197
2.038
-.039
.237
1.900
1.047
2.205
AGR
MIN
MAN
PS
CON
SER
FIN
SPS
2
.555
.551
.736
.357
-.010
.025
.357
.970
Structure Matrix
Function
SER
FIN
AGR
MIN
PS
MAN
SPS
CON
.630*
.157*
-.243
-.265
-.001
-.017
.229
.045
.339
-.032
-.737*
.592*
.551*
.544*
.505*
.103*
Pooled within-groups correlations between discriminating

variables and standardized canonical discriminant functions
Variables ordered by absolute size of correlation within function.
*. Largest absolute correlation between each variable and
any discriminant function
Functions at Group Centroids
Function
GRUPO
1.00
2.00
3.00
1
2.792
-1.234
-4.269
2
.264
-2.150
.613
Unstandardized canonical discriminant

functions evaluated at group means
Pg. 63
Sig.
.000
.065
Group covariances of canonical discriminant functions

GRUPO
1.00
Function
1
2
1
2
1
2
2.00
3.00
1
.867
-.168
2.340
.242
.672
.209
2
-.168
.737
.242
.726
.209
1.605
The pooled within-groups covariance matrix of the canonical

discriminant functions is an identity matrix by definition.
Box's Test of Equality of Covariance Matrices of Canonical

Discriminant Functions
Log Determinants
GRUPO
1.00
2.00
3.00
(identity matrix)
Rank
2
2
2
2
Log
Determinant
-.492
.495
.035
.000
The ranks and natural logarithms of determinants

printed are those of the group covariance matrices
of the canonical discriminant functions.
Test Results
Box's M
F
Approx.
df1
df2
Sig.
4.673
.629
6
707.141
.707
Tests null hypothesis of equal population covariance

matrices of canonical discriminant functions.
Classification Statistics
Classification Processing Summary
Processed
Excluded
Used in Output
26
Missing or out-of-range
group codes
At least one missing
0
0
26
Pg. 64
Prior Probabilities for Groups
GRUPO
1.00
2.00
3.00
Total
Prior
.538
.154
.308
1.000
Cases Used in Analysis

Unweighted
Weighted
14
14.000
4
4.000
8
8.000
26
26.000
Separate-Groups Graphs
Canonical Discriminant Functions
GRUPO = 1
2.5
2.0
1.5
1.0
.5
Function 2
0.0
Group Centroid
-.5
Group Centroid
-1.0
-1.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
Function 1

GRUPO = 2
-1.0
-1.5
-2.0
Function 2
-2.5
Group Centroid
-3.0
Group Centroid
-3.5
-2.5
-2.0
-1.5
-1.0
-.5
0.0
.5
1.0
Function 1
Pg. 65

GRUPO = 3
3
Function 2
Group Centroid
-1
Group Centroid
-2
-5.5
-5.0
-4.5
-4.0
-3.5
-3.0
Function 1

3
2
1
3
1
GRUPO
-1
Function 2
Group Centroids
-2
3
-3
-4
1
-6
-4
-2
Function 1
Classification Resultsa
Original
Count
GRUPO
1.00
2.00
3.00
1.00
2.00
3.00
Predicted Group Membership

1.00
2.00
3.00
14
0
0
0
4
0
0
0
8
100.0
.0
.0
.0
100.0
.0
.0
.0
100.0
a. 100.0% of original grouped cases correctly classified.
Pg. 66
Total
14
4
8
100.0
100.0
100.0
Territorial Map
Canonical Discriminant
Function 2
-6.0
-4.0
-2.0
.0
2.0
4.0
6.0
31
31
31
31
31
31
4.0
31
31
31
31
31
31
2.0
31
31
331
32221
*
332
21
322
21
*
.0
332
21
3322
21
322
21
332
21
322
21
332
21
-2.0
322
21
332
21
322
21
332
21
322
21
332
21
-4.0 322
21
332
21
22
21
21
21
21
-6.0
21
-6.0
-4.0
-2.0
.0
2.0
4.0
Canonical Discriminant Function 1
6.0
6.0
Symbols used in territorial map

Symbol Group Label
------ ----- -------------------1
1
2
2
3
3
*
Indicates a group centroid

3
2
1
3
1
GRUPO
F u n c t io n 2
-1
Group Centroids
-2
3
-3
-4
1
-6
-4
-2
Function 1
Pg. 67
Ejemplo:
Para regular la pesca de salmn, se desea identificar si el pescado es originario
de Alaska o de Canad. Cincuenta peces de cada lugar de origen fueron
capturados y pesados cuando vivan en agua dulce y cuando vivieron en agua
salada. El objetivo es el de poder identificar si los nuevos pescados vienen de
criaderos en Alaska o Canad. Los datos se muestran a continuacin:
SalmonOrigin Freshwater
Marine
Alaska
108
368
Alaska
131
355
Alaska
105
469
Alaska
86
506
Alaska
99
402
Alaska
87
423
Alaska
94
440
Alaska
117
489
Alaska
79
432
Alaska
99
403
Alaska
114
428
Alaska
123
372
Alaska
123
372
Alaska
109
420
Alaska
112
394
Alaska
104
407
Alaska
111
422
Alaska
126
423
Alaska
105
434
Alaska
119
474
Alaska
114
396
Alaska
Alaska
100
84
470
399
SalmonOrigin Freshwater
CanadaCana
d
129
CanadaCana
d
148
CanadaCana
d
179
CanadaCana
d
152
CanadaCana
d
166
CanadaCana
d
124
CanadaCana
d
156
CanadaCana
d
131
CanadaCana
d
140
CanadaCana
d
144
CanadaCana
d
149
CanadaCana
d
108
CanadaCana
d
135
CanadaCana
d
170
CanadaCana
d
152
CanadaCana
d
153
CanadaCana
d
152
CanadaCana
d
136
CanadaCana
d
122
CanadaCana
d
148
CanadaCana
d
90
CanadaCana
d
145
CanadaCana
123
Pg. 68
Marine
420
371
407
381
377
389
419
345
362
345
393
330
355
386
301
397
301
438
306
383
385
337
364
Alaska
102
429
Alaska
101
469
Alaska
85
444
Alaska
109
397
Alaska
106
442
Alaska
82
431
Alaska
118
381
Alaska
105
388
Alaska
121
403
Alaska
85
451
Alaska
83
453
Alaska
53
427
Alaska
95
411
Alaska
76
442
Alaska
95
426
Alaska
87
402
Alaska
70
397
Alaska
84
511
Alaska
91
469
Alaska
74
451
Alaska
101
474
Alaska
80
398
Alaska
95
433
Alaska
92
404
Alaska
99
481
Alaska
94
491
Alaska
87
480
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
145
376
115
354
134
383
117
355
126
345
118
379
120
369
153
403
150
354
154
390
155
349
109
325
117
344
128
400
144
403
163
370
145
355
133
375
128
383
123
349
144
373
140
388
150
339
124
341
125
346
153
352
108
339
Las intruccionesinstrucciones de Minitab son las siguientes:
Pg. 69
Abrir la worksheet EXH_MVAR.MTW.
En Groups, poner SalmonOrigin.
En Predictors, poner Freshwater Marine. Click OK.
Los resultados obtenidos se muestran a continuacin:

Discriminant Analysis: SalmonOrigin versus Freshwater, Marine
Linear Method for Response: SalmonOrigin
Predictors: Freshwater, Marine
Group
Count
Alaska
50
Canada
50
True Group
Alaska Canada
44
1
6
50
50
44
49
0.880
0.980
Put into Group

Alaska
CanadaCanad
Total N
N correct
Proportion
N = 100
49
N Correct = 93

Alaska
Canada
Alaska
0.00000
8.29187
Canada
8.29187
0.00000

Alaska Canada
Constant
-100.68 -95.14
Freshwater
0.37
0.50
Marine
0.38
0.33
Observation
1**
2**
12**
13**
30**
32**
71**
Squared
Pred Group
Group Distance Probability
CanadaCanad Alaska
3.544
CanadaCanad
2.960
Alaska
CanadaCanad Alaska
8.1131
CanadaCanad
0.2729
Alaska
CanadaCanad Alaska
4.7470
CanadaCanad
0.7270
Alaska
CanadaCanad Alaska
4.7470
CanadaCanad
0.7270
Alaska
CanadaCanad Alaska
3.230
CanadaCanad
1.429
Alaska
CanadaCanad Alaska
2.271
CanadaCanad
1.985
CanadaCanad
Alaska Alaska
2.045
CanadaCanad
7.849
True Group
Alaska
Interpretando los resultados

Pg. 70
0.428
0.572
0.019
0.981
0.118
0.882
0.118
0.882
0.289
0.711
0.464
0.536
0.948
0.052
El Anlisis Discriminante identific correctamente 93 de los 100 peces, a pesar

de que la probabilidad de clasificar correctamente un pez de Alaska fue menor
(44/50 o 88%) que la probabilidad de clasificar correctamente un pez de
Canad (49/50 o 98%). Para identificar el origen de un pez recientemente
capturado depende de cual valor discriminante sea mayor. Se puede correr el
anlisis discriminante de nuevo y predecir a que grupo pertenecen las nuevas
observaciones.
El resumen de las observaciones mal clasificadas muestra la distancia al
cuadrado desde el punto mal clasificado a los centroides del grupo (vectores
medios) y las probabilidades posteriores. Las observaciones son asignadas al
grupo con la mayor probabilidad posterior.
Si en Options introducimos en Predict membership for: 100 130, la
clasificacin aparece como:
Prediction for Test Observations
Observation
1
Squared
Pred Group From Group Distance Probability
CanadaCanad
Alaska
78.448
0.000
CanadaCanad
55.194
1.000
Pg. 71
El anlisis discriminante involucra establecer una Variable (Variate),

combinacin lineal de dos o ms variables independientes que discriminarn
mejor entre grupos definidos a priori.
Se logra al poner los pesos de la
variable para cada variable de modo de maximizar la varianza entre grupos

respecto a la varianza dentro de los grupos. La ecuacin de la funcin
discriminante toma la forma de:
Z jk a W 1X 1k W 2X 2 k .... W nX nk
Donde:
Zjk = Valor Z discriminante de la funcin discriminante J para el objeto K.
a = Interseccin en eje Y
Wi = Peso discriminante para la variable independiente i.
Xik = Variable independiente i para el objeto k.
La media de un grupo se denomina Centroide, que indica la localizacin tpica
de cualquier individuo dentro de un grupo en particular y una comparacin de
las centroides de los grupos muestra que tan alejados se encuentran en
relacin a la dimensin considerada.
Representacin univariada de los valores Z de la funcin discriminante

Las reas sombreadas son la probabilidad de clasificar errneamente los objetos entre A y B
Ejemplo con HATCO:

Paso 1: Objetivos del anlisis discriminante
Identificar las percepciones de HATCO que difieren significativamente entre
empresas que utilizan los mtodos de compra: valor total de compra incluyendo
productos y servicios comprados y compra especificada donde se indican las
caractersticas deseadas del producto y del servicio.
Pg. 72
Paso 2. Diseo de la investigacin para el anlisis discriminante

La variable dependiente es categrica con dos grupos, las variables
independientes son X1 a X7 y X11 con los mtodos de compra de las
empresas.
LasLa muestra es de 100 observaciones que supera el mnimo de muestras a
variables de 5 a 1, siendo de 10.
Se toma una muestra de 40 observaciones para validar el modelo y se utilizan
60 observaciones para la estimacin.
Paso 3. Supuestos de la funcin discriminante
En la formacin de la Variate debe haber normalidad, linealidad, y
multicolinealidad y la estimacin de la funcin discriminante (matrices de
varianza y covarianza similares). Una prueba de igualdad de covarianza o
matrices de dispersin es la prueba M de Box.
Paso 4. Estimacin del modelo discriminante y evaluacin de ajuste
Ejemplo con datos de Hatco
El ejemplo siguiente utiliza las mismas variables que el anlisis discriminante
anterior para estimar el modelo.
Utilizando los datos de HATCO, la muestra de 100 clientes se divide en dos
grupos, uno de 60 para anlisis y otro de 40 para validacin. La regresin
logstica es ms robusta ante el supuesto de igualdad de varianza covarianza.
Para el ejemplo se utilizan las 7 variables X1 a X7 teniendo como respuesta a
X11.
Instrucciones en Minitab:
1.
2.
En Groups, poner X11.

Pg. 73
En Predictors, poner X1 X7.
4. Click OK.
Discriminant Analysis: X11 versus X1, X2, X3, X4, X5, X6, X7
Linear Method for Response: X11
Predictors: X1, X2, X3, X4, X5, X6, X7
Group
0
1
Count
25
35
True Group
Put into Group
0
1
0
24
2
1
1
33
Total N
25
35
N correct
24
33
Proportion
0.960 0.943
N = 60
N Correct = 57

0
1
0
0.0000 10.9857
1 10.9857
0.0000
0
1
Constant -55.092 -67.574
X1
12.813
16.539
X2
12.313
14.638
X3
7.780
10.158
X4
3.320
3.639
X5
-21.933 -26.874
X6
-2.326
-2.159
X7
4.389
2.657
Observation
13**
True
Group
0
Pred
Group
1
17**
56**
Group
0
1
0
1
0
1
Squared
Distance
6.238
6.032
7.893
15.673
4.753
8.078
Probability
0.474
0.526
0.980
0.020
0.841
0.159
Por medio de SPSS

1. Analize > Clasify > Discriminant
2. Grouping variable X11 (0:1) Independent variables X1 X7
3. Statistics Univariate ANOVAs Boxs M
4. OK
Los resultados se muestran a continuacin
Tests of Equality of Group Means
Pg. 74
X1
X2
Wilks'
Lambda
.614
.716
F
36.526
22.953
X3
.467
X4
.997
X5
X6
X7
df1
1
1
df2
58
58
Sig.
.000
.000
66.302
58
.000
.145
58
.704
.993
.414
58
.523
.991
.522
58
.473
.528
51.951
58
.000
Como se puede observar son significativos X1, X2, X3 y X7.

La funcin discriminante es la siguiente:
Function
X1
X2
1
1.152
.749
X3
.668
X4
.111
X5
-1.153
X6
.042
X7
-.626
La matriz estructural es la siguiente:

Structure Matrix
Function
1
X3
X7
.643
-.569
X1
.477
X2
-.379
X6
.057
X5
.051
X4
.030
Pooled within-groups correlations between discriminating variables and standardized canonical
discriminant functions Variables ordered by absolute size of correlation within function.
Medias de grupos (centroides) de las funciones cannicas discriminantes:

Function
X11
.00
1.00
1
-1.933
1.381
Unstandardized canonical discriminant functions evaluated at group means
Pg. 75
Z=0
N=24
N=33
Zo=-1.933
Z1=1.063
Grfica de los centroides de grupos
Paso 5. Validacin del modelo

Con los 40 datos restantes se repite la corrida y se observa que los resultados
concuerden:
Pg. 76
Tests of Equality of Group Means
X1
X2
Wilks'
Lambda
.546
.934
F
31.628
2.676
X3
.789
X4
.969
X5
X6
X7
df1
1
1
df2
38
38
Sig.
.000
.110
10.185
38
.003
1.205
38
.279
.798
9.611
38
.004
.997
.105
38
.748
.535
33.043
38
.000
Log Determinants
X11
.00
1.00
7
7
Log
DeterminantDe
terminan
-9.872
-6.987
-6.367
Rank
Pooled within-groups
The ranks and natural logarithms of determinants printed are those of the group covariance matrices.
Test Results
Box's M
F
Approx.
63.963
1.776
df1
28
df2
3061.289
Sig.
.007
Tests null hypothesis of equal population covariance matrices.
Function
X1
X2
1
1.932
1.525
X3
.294
X4
-.621
X5
-1.698
X6
.934
X7
-.783
Structure Matrix
Function
1
X7
X1
-.644
.630
X3
.358
X5
.347
X2
-.183
X4
-.123
X6
-.036
Pg. 77
Pooled within-groups correlations between discriminating variables and standardized canonical

discriminant functions Variables ordered by absolute size of correlation within function.
Function
X11
.00
1.00
1
-1.822
1.093
Unstandardized canonical discriminant functions evaluated at group means
Prior Probabilities for Groups
X11
.00
1.00
Total
Prior
.500
.500
1.000
Cases Used in Analysis

Unweighted
Weighted
15
15.000
25
25.000
40
40.000
.N
0=
0-3.0-2.5-2.0-1.5-1.0-0.50
5
1
M
S
nv.=
a
e
.D
td
0
2.6
8
-1
2
9
1
2
3
4
5
=
C
a
o
n
aX
ic
s1
lD
ri0
c
n
m
tF
a
u
tio
c
n
1
-2-10123N
4
0
5v
2
M
S
=
n
a
e
.D
td
9.1
0
1
.=
2
4
1
2
3
4
5 X
1=1
an
C
o
lD
a
ic
sc
rim
atF
n
n
u
tio
c
1
n
Classification Results(a)
Predicted Group
Membership
Original
Count
X11
.00
1.00
.00
.00
1.00
Total
15
3
0
22
15
25
100.0
.0
100.0
12.0
88.0
a 92.5% of original grouped cases correctly classified.
100.0
1.00
Pg. 78
Regresin Logstica
Una de las ventajas de la regresin logstica versus el anlisis discriminante es
que es menos afectada por las diferencias en varianzas / covarianzas entre los
grupos, que es una premisa del anlisis discriminante. Otra ventaja es que la
regresin logstica puede manejar variables independientes categricas
fcilmente, mientras que en el anlisis discriminante el uso de variables de
apoyo crea problemas con la igualdad de varianza / covarianza. Finalmente la
regresin logstica es similar a la regresin mltiple en trminos de su
interpretacin e interpretacin incluyendo los residuos.
Ejemplo:
Un investigador est interesado en comprender el efecto de fumar y el peso en
el pulso en reposo, como esta ltima variable dependiente es categrica (bajo,
alto) el anlisis de regresin logstica es adecuado.
You are a researcher who is interested in understanding the effect of smoking
and weight upon resting pulse rate. Because you have categorized the
response-pulse rateinto low and high, a binary logistic regression analysis is appropriate to
investigate the effects of smoking and weight upon pulse rate.
Se tiene inters en comprender el efecto de fumar y el peso sobre el pulso (alto
y bajo).
Los datos utilizados son los siguientes:
RestingPulse Smokes Weight RestingPulse Smokes Weight RestingPulse Smokes Weight
Low
Low
Low
Low
Low
Low
High
Low
Low
Low
High
Low
High
Low
Low
No
No
Yes
Yes
No
No
No
No
No
No
Yes
No
Yes
No
No
140
145
160
190
155
165
150
190
195
138
160
155
153
145
170
Low
Low
Low
Low
Low
Low
Low
Low
High
Low
Low
Low
Low
Low
Low
No
Yes
Yes
No
No
No
Yes
No
Yes
No
No
No
Yes
Yes
Yes
Pg. 79
215
150
145
155
155
150
155
150
180
160
135
160
130
155
150
Low
Low
Low
Low
Low
High
Low
High
High
Low
Low
High
Low
Low
Low
No
No
No
No
No
No
Yes
No
Yes
No
No
No
No
No
No
115
102
115
150
110
116
108
95
125
133
110
150
108
155
180
Low
Low
Low
Low
Low
Low
Low
Low
Low
High
Low
Low
High
High
Low
High
No
Yes
Yes
Yes
No
No
No
No
Yes
No
No
Yes
No
Yes
No
No
175
175
170
180
135
170
157
130
185
140
120
130
138
121
125
116
Low
High
Low
High
Low
High
High
Low
Low
Low
High
Low
Low
High
Low
Low
No
No
No
Yes
Yes
No
Yes
Yes
No
No
No
No
No
No
No
No
148
155
150
140
190
145
150
164
140
142
136
123
155
130
120
130
Low
Low
Low
Low
High
Low
High
High
Low
Low
Low
Low
Low
Low
High
No
No
No
No
Yes
No
No
Yes
Yes
No
No
No
Yes
No
Yes
122
120
118
125
135
125
118
150
112
125
190
155
170
145
131
Las instrucciones de Minitab para el ejemplo son:

1. Open worksheet EXH_REGR.MTW.
2. Seleccionar Stat > Regression > Binary Logistic Regression.
3. En Response, poner RestingPulse. En Model, poner Smokes Weight. En
Factors (optional), poner Smokes (para predictors categricos).
4. Click Graphs. Seleccionar Delta chi-square vs probability and Delta chisquare vs leverage. Click OK.
5. Click Results. Seleccionar In addition, list of factor level values, tests for
terms with more than 1 degree of freedom, and y 2 additional goodness-of-fit
tests.
6. Click OK en cada cuadro de dilogo.
Results for: Exh_regr.MTW
Binary Logistic Regression: RestingPulse versus Smokes, Weight
Link Function:
Logit
Observaciones que caen dentro de cada categora

Response Information
RestingP
Low
High
Total
Variable
70
22
92
Value
(Event)
Count
-> Evento de referencia
Factor Information
Factor
Levels Values
Pg. 80

Smokes
2 No
Yes
Logistic Regression Table

Predictor
Constant
Smokes
Yes
Weight
Coef
-1.987
SE Coef
1.679
Z
P
-1.18 0.237
-1.1930
0.02502
0.5530
0.01226
-2.16 0.031
2.04 0.041
Odds
Ratio
0.30
1.03
95% CI
Lower
Upper
0.10
1.00
0.90
1.05
Por ser su P value menor a 0.05 son significativos Smoke y Weight

El coeficiente de -1.93 para Smoke representa el cambio estimado en el log de
P(low pulse)/P(high pulse) cuando el sujeto fuma comparado a cuando no
fuma, con el covariado Weight (peso) mantenido constante.
El coeficiente de 0.0250 para Weight (peso) es el cambio estimado en el log de
P(low pulse)/P(high pulse) con una unidad (lb.) de incremento en peso con el
factor Fumar constante.
A pesar de que hay evidencia de el parmetro de peso Weight no es cero, la
tasa de exceso es muy cercana a uno (1.03), indicando que un incremento de
peso de una libra tiene un efecto menor en la tasa de pulso en reposo de la
persona. Una diferencia ms significativa se puede encontrar si se comparan
sujetos con una diferencia de peso mayor, por ejemplo 10 libras, la tasa cambia
a 1.28 (1.03 + 0.025*10), indicando que el puso de un sujeto con pulso bajo se
incrementa 1.28 veces con cada 10 libras de incremento de peso.
Para Smokes, el coeficiente negativo de -1.93 y la tasa de exceso de 0.30
indica que los sujetos que fuman tienden a tener una mayor tasa de pulso en
reposo (resting pulse rate) que los sujetos que no fuman. Dados sujetos con el
mismo peso, la tasa de exceso puede ser interpretada como el exceso de
fumadores en la misma muestra teineido un pulso bajo (low pulse) de 30% de
los no fumadores teniendo un pulso bajo (low pulse).
Log-Likelihood = -46.820
Test that all slopes are zero: G = 7.574, DF = 2, P-Value = 0.023
El estadstico G prueba la hiptesis nula de que los coeficientes asociados con

los predoctores son iguales a cero versus que esos coeficientes no todos son
Pg. 81
cero. En es ejemplo con G = 7.574 y P value = 0.023, indican que hay

suficiente evidencia que al menos uno de los coeficientes es diferente de cero.
Goodness-of-Fit Tests
Method
Chi-Square
Pearson
40.848
Deviance
51.201
Hosmer-Lemeshow
4.745
Brown:
General Alternative
0.905
Symmetric Alternative
0.463
DF
47
47
8
P
0.724
0.312
0.784
2
1
0.636
0.496
Estas pruebas de bondad de ajuste con P values de 0.312 a 0.724 indican que
no hay evidencia suficiente que indique que el modelo no ajuste a los datos
adecuadamente, considerando un nivel de significancia de 0.05.
Table of Observed and Expected Frequencies:
(See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic)
Value
Low
Obs
Exp
High
Obs
Exp
Total
Group
5
6
4
4.4
6
6.4
6
6.3
8
6.6
8
6.9
6
7.2
5
4.6
4
3.6
3
2.7
1
2.4
1
2.1
3
1.8
10
8
8.3
12
12.9
10
9.1
2
1.9
70
2
1.7
3
2.1
0
0.9
0
0.1
22
92
10
15
10
10
Total
Esta tabla permit e ver que tan bien ajusta el modelo a los datos, comparando
las frecuencias observadas y las frecuencias esperadas, siendo similares indica
que no hay evidencia suficiente de que los datos no ajusten bien al modelo,
soportado por las pruebas de bondad de ajuste para un nivel de significancia
de 0.05.
Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Pairs
Concordant
Discordant
Ties
Total
Number
1045
461
34
1540
Percent
67.9%
29.9%
2.2%
100.0%
Summary Measures
Somers' D
Goodman-Kruskal Gamma
Kendall's Tau-a
0.38
0.39
0.14
Esta tabla muestra 1540 pares (70 individuos con un low pulse y 22 con high
pulse resultando en 70*22 = 1540) con valores de respuesta diferentes. Con
base en el modelo un par es concordante si el individuo con una tasa de pulso
baja (low pulse rate) tiene una ms alta probabilidad de tener pulso bajo,
discrepante de si sucede lo contrario, y empate si las probabilidades son
iguales. En este ejemplo el 67.9% de los pares son concordantes y 29% son
Pg. 82
discrepantes. Se pueden usar estos valores como una medicin comparativa

de prediccin, por ejemplo para comparar ajustes con diferentes conjuntos de
predictores o con funciones diferentes de enlace.
Se muestran resumenes de pares concordantes y discrepantes de Somers,
Goodman-Kriskal Gamma, y Tau de Kendall. Las mtricas se encuentran entre
0 y 1 donde los valores mayores indican que el modelo tiene una mejor
habilidad predictiva. En este ejemplo el rango va de 0.14 a 0.39 que implica
una baja capacidad predictiva.
Pg. 83
Delta Chi-Square versus Probability
Delta Chi-Square
5
4
3
2
1
0
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Probability
Delta Chi-Square versus Leverage
Delta Chi-Square
5
4
3
2
1
0
0.01
0.06
0.11
0.16
Leverage
Las grficas del ejemplo de Chi cuadrada versus probabilidad y versus

apalancamiento muestran que hay dos puntos que se desvan ms all del
lmite sugerido de 3.84, indicando situaciones anormales que deben ser
investigadas.
Con la opcin Editor > Brush se puede observar que corresponden a los
valores de datos 31 y 66, correspondientes a individuos con un pulso alto, que
no fuman, y que tienen pesos menores al promedio (116 y 136 libras).
Pg. 84

El ejemplo siguiente utiliza las mismas variables que el anlisis discriminante
anterior para estimar el modelo.
Utilizando los datos de HATCO, la muestra de 100 clientes se divide en dos
grupos, uno de 60 para anlisis y otro de 40 para validacin. La regresin
logstica es ms robusta ante el supuesto de igualdad de varianza covarianza.
Para el ejemplo se utilizan las 7 variables X1 a X7 teniendo como respuesta a
X11.
Pg. 85
8. Anlisis de Conglomerados
Pg. 86
8. ANLISIS DE CONGLOMERADOS
Se cuenta tambin con el anlisis de conglomerados o clusters
(tcnica para
agruparAgrupar los casos o elementos de una muestra en grupos con
base en una o
msMs variables).
Usar Anlisis de componentes principales para ayudar a comprender la
estructura de datos y/o a formar un pequeo nmero de variables no
correlacionadas (por ejemplo para evitar multicolinealidad en la regresin).
El anlisis de conglomerados agrupa individuos u objetos dentro de

conglomerados (Clusters) de modo que los objetos en el mismo grupo tienen
caractersticas ms similares que las que tienen versus otros grupos.
El
Cluster
Variate
caractersticas
es
utilizadas
el
conjunto
para
de
comparar
variables
objetos
representando
en
el
anlisis
las
de
conglomerados. Es decir determina el carcter de los objetos. Es la nica

tcnica multivariada que no estima la variate empricamente sino que se
especifica por el investigador.
Variate es la combinacin lineal de variables formadas en la tcnica
multivariada al determinar empricamente ponderaciones aplicadas al conjunto
de variables especificadas por el investigador.
El anlisis de conglomerados tambin se ha denominado Anlisis Q,
Construccin de tipologa, Anlisis de clasificacin, y taxonoma numrica. Esto
debido al uso de estas tcnicas en diversas reas como la sicologa, biologa,
sociologa, economa, ingeniera, y los negocios. El anlisis de conglomerados
es parecido al anlisis factorial en su propsito de evaluar la estructura. Pero el
anlisis de conglomerados difiere del anlisis factorial en que agrupa objetos,
mientras que el anlisis factorial se enfoca principalmente a agrupar variables.
Pg. 87
El anlisis de conglomerados puede hacer reducciones de datos colectados de

cuestionarios en una poblacin, a informacin relacionada con pequeos
subgrupos especficos. No tiene bases estadsticas sobre las que se puedan
realizar inferencias estadsticas de una muestra a una poblacin, su uso es
principalmente como tcnica exploratoria. Las soluciones no son nicas y se
pueden obtener diversas soluciones variando uno o ms elementos del
procedimiento.
A. Conglomerados de observaciones
Usar conglomerados de observaciones para clasificar observaciones en
grupos, cuando inicialmente los grupos son desconocidos.
Este procedimiento utiliza un mtodo jerrquico aglomerativo que inicia con
todas
las
observaciones
separadas,
cada
una
formando
su
propio
conglomerado. Como primer paso, las dos observaciones ms cercanas se

unen. En un siguiente paso, ya sea que se adicione una tercera observacin a
las primeras dos, o dos observaciones diferentes se unan en un conglomerado
(cluster) diferente. Este proceso contina hasta que todos los conglomerados
se han unido en uno, sin embargo este ltimo no es til para propsitos de
clasificacin.
Cmo funciona el anlisis de conglomerados?

Se ilustra con un ejemplo con datos dbivariados.
Suponer que un estudio de mercado trata de determinar segmentos de
mercado en base a los patrones de lealtad de marcas (V1) y tiendas (V2),
medidas del 0 al 10 en 7 personas (A-G).
Variables
V1
V2
Pg. 88

F
Variables
V1
V2
A
3
2
B
4
5
C
4
7
D
2
7
E
6
6
F
7
7
G
6
4
Scatterplot of V2 vs V1
7
6
B
V2
Distancia
euclidiana de A a
B
3
A
2
2
V1
Para acomodar en grupos se necesita contestar:
Cmo se mide la similaridad?, se puede hacer por correlacin o

proximidad en un espacio de dos dimensiones.
Cmo se forman los conglomerados?
Cuntos grupos se formarn?
Ejemplo 1:
Para medir la similitud se evala con la distancia euclidiana (lnea recta) entre
cada par de observaciones (ver Tabla), entendiendo que las distancias
pequeas indican similaridad, E y F son las ms similares (1.414) y la A y F las
ms diferentes (6.403).
Observ.
A
Pg. 89
B
C
D
E
F
G
3.162
5.099
5.099
5.000
6.403
3.606
Formamos
2.000
2.828
2.236
3.606
2.236
2.000
2.236
3.000
3.606
conglomerados
ahora
4.123
5.000
5.000
con
un
1.414
2.000
3.162
Procedimiento
jerrquico
movindose paso a paso para formar un rango completo de soluciones.

Tambin se denomina Mtodo Aglomerativo dado que los conglomerados se
forman con la combinacin de conglomerados existentes.
La distancia entre observaciones es:
Paso
1
2
3
4
5
6
Distancia
Mnima entre
observa-ciones
Distancia
Mnima entre
observaciones
Sol. inicial
1.414
2.000
2.000
2.000
2.236
3.162
Par
observado
Solucin por
conglomerados
Miembros en el
conglomerado
E-F
E-G
C-D
B-C
B-E
A==B
A, B,C,D,E,F,G
A, B,C,D,E-F,G
A, B,C,D,E-F-G
A, B,C-D,E-F-G
A, B-C-D,E-F-G
A,B-C-D-E-F-G
A-B-C-D-E-F-G
Nm.
Deo.
de
Conglo
merado
.
7
6
5
4
3
2
1
Dist.ancia
Prom.edio
Ddentro del
Conglomerado.
Utilizando Minitab:
Stat > Multivariate Anlisis > Cluster Observations
Distance Measured Euclidean Seleccionar Show Dendogram OK
Pg. 90
0
1.414
2.192
2.144
2.234
2.896
3.420
Proceso de jerarqua de conglomerados
Similarity
50.61
67.08
83.54
100.00
D
Observations
Dendrogram with Single Linkage and Euclidean Distance
Distance
3.16
2.11
1.05
0.00
4
Observations
La similaridad s(ij) entre dos conglomerados i, j se determina como:

s (ij ) 100(1 d (ij ) / d max )
Pg. 91
Donde Dmax = 6.403

S(E,F) = 100(1 1.4142/ 6.403 ) = 77.913
S(C,D) = 100(1 2/6.403) = 68.7646
Cluster Analysis of Observations: V1, V2
Euclidean Distance, Single Linkage
Amalgamation Steps
Step
1
2
3
4
5
6
Number
of
clusters
6
5
4
3
2
1
Similarity
level
77.9137
68.7652
68.7652
68.7652
65.0785
50.6135
Distance
level
1.41421
2.00000
2.00000
2.00000
2.23607
3.16228
Clusters
joined
5
6
5
7
3
4
2
3
2
5
1
2
New
cluster
5
5
3
2
2
1
Number
of obs.
in new
cluster
2
3
2
3
6
7
Final Partition
Number of clusters: 1
Cluster1
Number of
observations
7
Within
cluster
sum of
squares
41.4286
Average
distance
from
centroid
2.23187
Maximum
distance
from
centroid
3.77154
Ejemplo 2:
Se registran las siguientes caractersticas para 14 censos: Poblacin total
(Pop), mediana de aos escolares (School), empleo total (Employ),empleo en
servicios de salud (Health), y valor mediano del valor de la casa (Home). Los
datos se muestran a continuacin:
Pop
5.935
1.523
2.599
4.009
4.687
8.044
2.766
6.538
6.451
3.314
3.777
1.53
2.768
6.585
School
14.2
13.1
12.7
15.2
14.7
15.6
13.3
17
12.9
12.2
13
13.8
13.6
14.9
Employ
2.265
0.597
1.237
1.649
2.312
3.641
1.244
2.618
3.147
1.606
2.119
0.798
1.336
2.763
Health
2.27
0.75
1.11
0.81
2.5
4.51
1.03
2.39
5.52
2.18
2.83
0.84
1.75
1.91
Pg. 92
Home
2.91
2.62
1.72
3.02
2.22
2.36
1.97
1.85
2.01
1.82
1.8
4.25
2.64
3.17
Se realiza un anlisis de components principales para comprender la estructura

de datos subyacente. Se usa la matriz de correlacin para estandarizar las
mediciones dado que no se mide con la misma escala.
1
Stat > Multivariate > Principal Components.
En Variables, Pop-Home.
En Type of Matrix, seleccionar Correlation.
Click Graphs y seleccionar Scree plot.

Principal Component Analysis: Pop, School, Employ, Health, Home
Eigenanalysis of the Correlation Matrix
Eigenvalue
Proportion
Cumulative
Variable
Pop
School
Employ
Health
Home
3.0289
0.606
0.606
PC1
-0.558
-0.313
-0.568
-0.487
0.174
1.2911
0.258
0.864
PC2
-0.131
-0.629
-0.004
0.310
-0.701
0.5725
0.114
0.978
PC3
0.008
-0.549
0.117
0.455
0.691
0.0954
0.019
0.998
PC4
0.551
-0.453
0.268
-0.648
0.015
0.0121
0.002
1.000
PC5
-0.606
0.007
0.769
-0.201
0.014
Scree Plot of Pop, ..., Home

3.0
Eigenvalue
2.5
2.0
1.5
1.0
0.5
0.0
1
3
Component Number
Pg. 93

El primer componente principal tiene varianza (eigenvalor) 3.029 y acumula el
60.6% de la varianza total. Los coeficientes para el PC1 muestran como
calcular el nivel del componente principal.
PC1 = .558 Pop .313 School .568 Employ .487 Health + .174 Home
Notar que la interpretacin de los components principales es subjetiva, sin
embargo, frecuentemente surgen patrones obvios. Por ejemplo, se podra
pensar que el primer componente represente el efecto del tamao de la
poblacin total, el nivel de escolaridad, empleo y servicios de salud, dado que
los coeficientes de estos trminos tienen el mismo signo y no son cercanos a
cero.
El segundo componente tiene varianza 1.2911 y acumula el 25.8% de la
variabilidad de los datos. Se calcula de los datos originales usando los
coeficientes listados en PC2. Este componente podra ser pensado como nivel
de contraste de escolaridad y valor de la casa con salud y empleo de alguna
manera.
Juntos el primero y segundo componentes representan el 86.4% y 97%,
respectivamente, de la variabilidad total. As, la mayora de la estructura de
datos puede ser capturada en dos o tres dimensiones relevantes. Los
componentes remanentes solo tienen una menor proporcin de probabilidad y
no son importantes. La grfica Scree proporciona una visin grfica de lo
anterior.
Ejemplo 32:
Con los datos de HATCO se utilizan las siete percepciones de clientes para
identificar segmentos de clientes.
Paso 1: Objetivos del anlisis de conglomerados
Pg. 94
El objetivo es segmentar objetos (clientes) en grupos con percepciones

similares (X1 a X7). Una vez identificados, se pueden aplicar diferentes
estrategias para para cada grupo.
X1 = Rapidez de entrega
X2 = Nivel de precio
X3 = Flexibilidad de precio
X4 = Imagen del fabricante
X5 = Servicio en general
X6 = Imagen de la fuerza de ventas
X7 = Calidad del producto
Paso 2. Diseo del anlisis de conglomerados
Se identifica si no hay puntos aberrantes en los datos. Se selecciona la medida
de similaridad, en este caso la distancia euclidiana al cuadrado. Si se observa
multicolinealidad que afecte a las ponderaciones de las variables, entonces se
puede utilizar la distancia de Mahalanobis (D2). La estandarizacin de variables
no es importante dado que tienen valores parecidos.
Paso 3. Supuestos en el anlisis de conglomerados
Para el anlisis se considera que los datos de la muestra representan a la
poblacin de clientes de HATCO. Queda pendiente el efecto de la
multicolinealidad en la ponderacin implcita de los resultados.
Paso 4. Establecer conglomerados y evaluar el ajuste al modelo
Con Minitab:
1. Stat > Multivariate > Cluster observations
2. Variables or distance matrix X1 X7
3. Linkage
method
Ward
(minimizea
conglomerados)
4. Distance Measure Squared Euclidean
5. Seleccionar Show Dendogram
6. Customize Label Y axis with Distances
7. OK
Pg. 95
la
distancia
dentro
de
los
Cluster Analysis of Observations: X1, X2, X3, X4, X5, X6, X7

Squared Euclidean Distance, Ward Linkage
Amalgamation Steps
Step
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
Number
of
clusters
99
98
97
96
95
94
93
92
91
90
89
88
87
86
85
84
83
82
81
80
79
78
77
76
75
74
73
72
71
70
69
68
67
66
65
64
63
62
61
60
59
58
57
56
55
54
53
52
51
50
49
48
47
46
45
44
43
42
41
40
39
Similarity
level
100.000
99.987
99.987
99.975
99.949
99.924
99.912
99.912
99.912
99.912
99.874
99.874
99.874
99.836
99.798
99.760
99.760
99.760
99.722
99.722
99.722
99.722
99.684
99.646
99.646
99.646
99.646
99.646
99.646
99.520
99.457
99.457
99.330
99.267
99.153
99.115
98.939
98.812
98.686
98.673
98.673
98.656
98.648
98.591
98.332
97.902
97.877
97.761
97.321
96.355
96.203
95.986
95.818
95.552
95.325
94.826
94.301
94.054
93.996
93.783
93.745
Distance
level
0.000
0.010
0.010
0.020
0.040
0.060
0.070
0.070
0.070
0.070
0.100
0.100
0.100
0.130
0.160
0.190
0.190
0.190
0.220
0.220
0.220
0.220
0.250
0.280
0.280
0.280
0.280
0.280
0.280
0.380
0.430
0.430
0.530
0.580
0.670
0.700
0.840
0.940
1.040
1.050
1.050
1.063
1.070
1.115
1.320
1.660
1.680
1.772
2.120
2.885
3.005
3.177
3.310
3.520
3.700
4.095
4.510
4.706
4.751
4.920
4.950
Clusters
joined
15
20
5
42
24
27
47
61
19
28
67
90
36
41
51
77
18
92
33
62
25
44
85
87
43
46
38
63
69
81
50
72
56
91
94
98
1
95
16
73
75
99
37
48
11
100
4
89
84
88
23
32
2
83
29
78
3
71
17
64
8
68
12
76
9
74
52
60
10
34
26
59
49
97
7
67
13
21
40
54
82
93
10
30
66
80
36
84
6
70
45
86
39
96
10
53
13
35
50
69
40
45
14
38
9
58
22
55
65
79
10
31
6
52
10
37
14
66
15
19
16
29
Pg. 96
New
cluster
15
5
24
47
19
67
36
51
18
33
25
85
43
38
69
50
56
94
1
16
75
37
11
4
84
23
2
29
3
17
8
12
9
52
10
26
49
7
13
40
82
10
66
36
6
45
39
10
13
50
40
14
9
22
65
10
6
10
14
15
16
Number
of obs.
in new
cluster
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
3
2
2
2
3
2
4
2
2
2
4
3
4
4
3
3
2
2
5
4
7
5
4
4

62
38
93.594
5.070
4
63
37
92.867
5.645 25
64
36
92.341
6.062 25
65
35
91.633
6.622 18
66
34
90.732
7.335 23
67
33
90.566
7.466
9
68
32
89.797
8.075 11
69
31
89.607
8.225
8
70
30
88.621
9.005
1
71
29
88.537
9.072 13
72
28
87.859
9.608 40
73
27
87.621
9.797
4
74
26
86.484
10.697
3
75
25
86.381
10.778 18
76
24
86.216
10.909
7
77
23
85.195
11.717 16
78
22
85.001
11.870 39
79
21
82.841
13.580
3
80
20
82.550
13.810
9
81
19
81.104
14.954
9
82
18
77.848
17.531
2
83
17
76.996
18.205
8
84
16
67.541
25.688
1
85
15
65.781
27.081
2
86
14
61.257
30.661
7
87
13
60.778
31.040 11
88
12
56.202
34.662
6
89
11
49.784
39.741
2
90
10
42.640
45.395
3
91
9
40.362
47.197
1
92
8
36.171
50.514
1
93
7
29.104
56.107
6
94
6
19.593
63.634
5
95
5
17.930
64.950
1
96
4
-15.826
91.665
2
97
3
-96.701
155.669
2
98
2
-135.645
186.489
1
99
1
-839.878
743.820
1
Final Partition
Within
Average
cluster distance
Number of
sum of
from
observations squares centroid
Cluster1
100 996.352
3.05166

75
33
26
50
56
12
85
36
51
22
94
24
10
43
15
47
65
57
14
49
4
17
25
40
9
23
8
39
82
18
16
11
7
13
6
3
5
2
Maximum
distance
from
centroid
5.27503
Pg. 97
4
25
25
18
23
9
11
8
1
13
40
4
3
18
7
16
39
3
9
9
2
8
1
2
7
11
6
2
3
1
1
6
5
1
2
2
1
1
4
4
6
6
4
5
4
6
4
5
6
6
9
8
7
6
4
10
10
12
8
8
10
14
19
8
12
18
12
18
24
20
21
29
38
50
50
100
Distance
406.13
270.75
135.38
0.00
Observations
Distance
406.13
270.75
135.38
0.00
Observations
Pg. 98
Distance
406.13
270.75
135.38
0.00
Observations
Distance
406.13
270.75
135.38
0.00
Observations
B. Conglomerado de observaciones por K-Medias
Pg. 99
Esta opcin se utiliza de manera similar al conglomerado de observaciones,

para clasificar observaciones en grupos cuando no se conocen al inicio. Este
procedimiento utiliza la formacin de conglomerados no jerrquicos de
observaciones de acuerdo al algoritmo de MacQueen. 1 El algoritmo funciona
mejor cuando hay suficiente informacin disponible para hacer asignaciones
iniciales de conglomerados adecuadas.
El procedimiento de conglomerado por K medias inicia al agrupar
observaciones en un nmero de conglomerados predefinidos.
1. Se evala cada observacin, movindola al conglomerado ms cercano, que
es el que tiene la distancia euclidiana ms pequea entre la observacin y el
centroide del conglomerado.
2. Cuando cambia el conglomerado, al ganar o perder alguna observacin, se
recalcula el centroide del conglomerado.
3. El proceso se repite hasta que no haya ms observaciones a mover dentro
de un conglomerado diferente. De esta manera, todas las observaciones estn
en su conglomerado ms cercano. De modo diferente a la clasificacin
jerrquica, es posible que dos observaciones sean partidas en conglomerados
diferentes despus de que hayan reunido.
El procedimiento de K medias trabaja mejor cuando se proporcionan puntos de
arranque para los conglomerados adecuados, hay dos formas de hacerlo:
Especificando un nmero de conglomerados o
Proporcionando una columna de particin inicial que contenga cdigos

de grupos.
Suponiendo que se sabe que la particin final consistir de tres grupos, y que
las observaciones 2, 5 y 9 pertenecen a esos grupos respectivamente. Para
proceder depende de si se especifica el nmero de conglomerados o se
proporciona una columna de particin.
1
R. Johnson and D. Wichern (1992). Applied Multivariate Statistical Methods, Third Edition. Prentice
Hall.
Pg. 100
Si se especifica el nmero de conglomerados, los datos deben

acomodarse de manera que las observaciones 2, 5 y 9 se encuentren al
principio de la hoja de trabajo, y especificar 3 como nmero de
conglomerados (Number of clusters).
Si se especifica una columna inicial de particin, no es necesario

acomodar los datos. En la columna de particin inicial de la hoja de
trabajo, poner los nmeros de grupo 1, 2, y 3, para las observaciones 2,
5, y 9 respectivamente y cero para las otras observaciones.
La particin final depende en gran modo de la particin inicial utilizada, se

pueden intentar diferentes particiones.
Ejemplo:
Se atrapan, anestesian, y miden ciento cuarenta y tres osos negros. Las
mediciones son altura y longitud de la cabeza (Lenght, Head L), peso total y
peso de la cabeza (Weight, Weight H.), dimensin del cuello y del cachete
(Neck G., Chest G.).
Se desea clasificar los 143 osos, como pequeos, de tamao medio, o
grandes. Se sabe que el segundo, setenta y ochoavo, y quincuagsimo (15)
oso de la muestra es tpico de esas categoras respectivas.
Se crea la columna de particin inicial con los tres osos semilla, designados
como: 1 = pequeo, 2= tamao medio y 3= grande y los remanentes osos
como cero (desconocidos) para indicar membresa inicial del conglomerado.
Despus se realiza un anlisis de conglomerado por K medias y se guardan las
membresas del conglomerado en cada columna denominada BearSize.
Los datos se muestran a continuacin:
No.
Head.L Head.W Neck.G Length Chest.G Weight BearSize
No.
Head.L Head.W Neck.G Length Chest.G Weight BearSize
10
15
45
23
65
73
15.5
28
76.5
55
446
11
6.5
20
47.5
24
70
74
15
46
27
62
12
17
57
27
74
75
14.5
23
61.5
44
236
12.5
20.5
59.5
38
142
76
13.5
8.5
23
63.5
44
212
12
18
62
31
121
77
18.5
8.5
23.5
67.5
42
204
Pg. 101
11
5.5
16
53
26
80
78
15
26
65
40
224
12
5.5
17
56
30.5
108
79
10
15.5
48
26
60
16.5
28
67.5
45
344
80
10
15
41
26
64
16.5
27
78
49
371
81
13
21
59
34
146
10
15.5
31
72
54
416
82
15.5
20.5
60
35
152
11
16
32
77
52
432
83
15.5
29
79
50
400
12
17
10
31.5
72
49
348
84
13.5
24.5
62
41
248
13
15.5
7.5
32
75
54.5
476
85
14.5
6.5
26
70.5
41
278
14
17.5
32
75
55
478
86
15
26.5
69
46.5
297
15
15
33
75
49
386
87
16
31.5
75
47
350
16
15.5
6.5
22
62
35
166
88
11.5
17
53
30.5
114
17
13
21
70
41
220
89
11.5
15
52.5
28
76
18
15
6.5
28
78
45
334
90
11
4.5
13
46
23
48
19
15
7.5
26.5
73.5
41
262
91
12
19
57
34.5
148
20
13.5
27
68.5
49
360
92
13.5
17
58
29
114
21
15.5
29.3
76
53
416
93
13.5
17
58
29.5
116
22
13.5
20
64
38
204
94
12.5
7.5
19
60
34
158
23
12.5
18
58
31
144
95
14
6.5
21
63
35
198
24
12
8.3
18.5
60.3
32
122
96
12
19
58.5
33.5
114
25
16
29
73
44
332
97
13
17.5
61
33
135
26
4.5
13
37
19
34
98
13.5
17
58
29
130
27
12.5
4.5
10.5
63
32
140
99
12.5
6.5
18
60
30
130
28
14
21.5
67
37
180
100
13.5
6.5
22
64
36
190
29
11.5
17.5
52
29
105
101
14.5
6.5
21.5
64
37
180
30
13
21.5
59
33
166
102
12
6.5
18.5
55.5
27.5
110
31
13.5
24
64
39
204
103
13
19.5
61.5
31
140
32
14.5
7.5
26.5
66
40
250
104
13.5
20
63.5
33
144
33
4.5
12
36
19
26
105
13.5
20
64
35
160
34
13
19
59
30
120
106
13.5
6.5
22
66.5
35
184
35
13
19
59
30
114
107
11
15.5
48.5
25.5
79
36
13.5
6.5
23
66.5
38
210
108
14.5
22.5
67
40
216
37
16
9.5
30
72
48
436
109
15
26.5
71
42.5
302
38
12.5
19
57.5
32
125
110
12
19
53.5
32
122
39
12.5
19
57
34
152
111
17
29.5
70
45.5
322
40
12.5
6.5
19.5
61
36
176
112
15.5
27
70
47
308
41
13
20
61
33
132
113
15.5
20
63
33
154
42
13.5
18.5
57
35
180
114
12
18
66.5
34
146
43
13
17
54
28
90
115
13
5.5
19.5
64
35
162
44
13
5.5
20.5
57.8
34.5
140
116
17.5
30
83
49
396
45
10
13
40
23
40
117
13
18
55.5
30.5
122
46
16
24
63
42
220
118
13
5.5
19.5
55
32.5
126
47
10
13.5
43
23
46
119
13
20.5
57
34
146
48
11
15
45
25
60
120
13
5.5
19.5
61.5
37
156
49
13.5
22
66.5
34
154
121
12.5
19.5
58.5
32
142
50
13
5.5
17.5
60.5
31
116
122
10
4.5
10
43.5
24
29
51
13
6.5
21
60
34.5
182
123
16.5
8.5
29.5
69
49.5
348
52
14.5
5.5
20
61
34
150
124
17
8.5
30.5
79.5
48.5
368
53
14
6.5
26
65
39
180
125
12
5.5
18
54.5
32
116
54
13
20
63
35
172
126
13
19
59
34
130
55
13.5
21
59.5
32.5
150
127
14
21
66.5
37
160
56
11
16
50.5
28
90
128
13
6.5
20.5
60
36.5
154
57
9.5
4.5
16
40
26
65
129
16
7.5
28
73
45
316
58
13.5
6.5
28
64
48
356
130
13.5
5.5
19.5
61
35
158
59
14.5
6.5
26
65
48
316
131
12.5
5.5
19
56
32
120
Pg. 102
60
13.5
5.5
19
60.5
34
148
132
15.5
30.5
75
54
514
61
11.5
5.5
17.5
52.5
30
104
133
15.5
7.5
25.5
73.5
43
324
62
11
17
49
29
94
134
14.5
22
67.5
38
196
63
11.5
17
47
29.5
86
135
12.5
8.5
18
57.3
32.8
140
64
13
21
59
35
150
136
12
18
56
32.5
114
65
13.5
21
64
35
166
137
12
5.5
15
51
24
82
66
16.5
6.5
27
72
44.5
270
138
13
22
61
40
230
67
14
5.5
24
65
39
202
139
15.5
23
69
42.5
290
68
13.5
6.5
21.5
63
40
202
140
15.5
23
69
42.5
289
69
15.5
28
70.5
50
365
141
12
17.5
59
28.5
128
70
11.5
16.5
48
31
79
142
13.5
20
62
32.5
156
71
11.5
17
50.5
28
90
143
16.5
6.5
30
72
49
398

1
Open worksheet BEARS.MTW.
Para crear la columna de particin inicial, seleccionar Calc > Make
Patterned Data > Simple Set of Numbers.

3
En Store patterned data in, nombrar Inicial a la columna de
almacenamiento.
4
En From first value y From last value, poner 0.
En List each value, poner 143. Click OK.
Ir a la ventana de datos y poner 1, 2, y 3 en los renglones 2, 78 y 15
respectivamente en la columna Inicial.

7
Seleccionar Stat > Multivariate > Cluster K-Means.
En Variables, seleccionar 'Head.L'-Weight.
En Specify Partition by, seleccionar Initial partition column e Inicial.
10 Seleccionar Standardize variables.

11 Seleccionar Storage. en Cluster membership column, seleccionar
BearSize.
12 Click OK en cada uno de los cuadros de dilogo
Session window output
K-means Cluster Analysis: Head.L, Head.W, Neck.G, Length,
Chest.G, Weight
Standardized Variables
Final Partition
Pg. 103
K medias clasifica a los 143 osos de la forma siguiente:

Cluster1
Number of
observations
41
Within
cluster
sum of
squares
63.075
Average
distance
from
centroid
1.125
Maximum
distance
from
centroid
2.488
Cluster2
67
78.947
0.997
2.048
Cluster3
35
65.149
1.311
2.449
Cluster Centroids
Cluster1
-1.0673
Cluster2
0.0126
Cluster3
1.2261
Grand
centroid
-0.0000
Head.W
-0.9943
-0.0155
1.1943
0.0000
Neck.G
-1.0244
-0.1293
1.4476
-0.0000
Length
-1.1399
0.0614
1.2177
0.0000
Chest.G
-1.0570
-0.0810
1.3932
-0.0000
Weight
-0.9460
-0.2033
1.4974
-0.0000
Variable
Head.L
Distances Between Cluster Centroids

Cluster1
Cluster2
Cluster3
Cluster1
0.0000
2.4233
5.8045
Cluster2
2.4233
0.0000
3.4388
Cluster3
5.8045
3.4388
0.0000
En general, un conglomerado con una suma de cuadrados pequea es ms

compacto que otro con una suma ms grande. El centroide es el vector de
medias de variables de las observaciones en ese conglomerado y se usa como
el punto central del conglomerado
La columna BearSize contiene la designacin del conglomerado.
Pg. 104
Ejemplo de HATCO:
De Minitab con soluciones por grupos de Conglomerados:
1. Stat > Multivariate > Cluster K Means
3. Number of clusters 2 o 4
4. OK
Solucin por dos conglomerados
K-means Cluster Analysis: X1, X2, X3, X4, X5, X6, X7
Final Partition
Cluster1
Cluster2
Number of
observations
52
48
Within
cluster
sum of
squares
315.799
294.132
Average
distance
from
centroid
2.383
2.368
Maximum
distance
from
centroid
4.285
4.279
Cluster Centroids
Variable
X1
X2
X3
X4
X5
X6
X7
Cluster1
4.3827
1.5808
8.8615
4.9250
2.9577
2.5250
5.9038
Cluster2
2.5750
3.2125
6.8458
5.5979
2.8708
2.8167
8.1271
Grand
centroid
3.5150
2.3640
7.8940
5.2480
2.9160
2.6650
6.9710

Cluster1
Cluster2
Cluster1
0.0000
3.9347
Cluster2
3.9347
0.0000
En esta solucin se observa que en el grupo o cluster 1 versus cluster 2, X1 y

X3 son mayores.
En el caso de las variables X2, X4, X6 y X7 tienen valores ms altos en el
cluster 2 que en el cluster 1. X5 no muestra diferencia significativa. Por tanto se
sugieren dos segmentos, evaluados desde un punto de vista conceptual y
prctico.
Corriendo con SPSS se tiene:
1. Analyze > Clasify > K Jeans Clusters
Pg. 105
2. Variables X1 X7
3. Number of clusters 2
4. OK
ANOVA
Cluster
X1
X2
Mean Square
81.563
66.457
X3
X4
X5
Error
df
1
1
Mean Square
.930
.766
101.414
11.302
.188
X6
X7
df
98
98
F
87.717
86.753
Sig.
.000
.000
.923
98
109.816
.000
1.178
98
9.596
.003
.568
98
.331
.566
2.123
.579
98
3.670
.058
123.372
1.280
98
96.404
.000
The F tests should be used only for descriptive purposes because the clusters have been chosen to
maximize the differences among cases in different clusters. The observed significance levels are not
corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are
equal.
Solucin por cuatro conglomerados

K-means Cluster Analysis: X1, X2, X3, X4, X5, X6, X7
Final Partition
Cluster1
Cluster2
Cluster3
Cluster4
Number of
observations
34
29
14
23
Within
cluster
sum of
squares
155.126
123.693
54.234
109.941
Average
distance
from
centroid
2.100
2.012
1.833
2.031
Maximum
distance
from
centroid
2.922
3.211
3.051
3.947
Cluster Centroids
Variable
X1
X2
X3
X4
X5
X6
X7
Cluster1
4.1441
1.5794
8.5765
4.4176
2.8353
2.0882
5.3147
Cluster2
2.0241
2.7655
7.0103
5.1621
2.3655
2.5552
8.2690
Cluster3
3.6143
4.1286
5.9500
6.0643
3.8429
3.1643
7.9500
Cluster4
4.4043
1.9435
9.1826
6.0870
3.1652
3.3522
7.1870
Grand
centroid
3.5150
2.3640
7.8940
5.2480
2.9160
2.6650
6.9710

Cluster1
Cluster2
Cluster3
Cluster4
Cluster1
0.0000
4.2514
5.0504
2.9268
Cluster2
4.2514
0.0000
2.9967
3.7896
Cluster3
5.0504
2.9967
0.0000
4.1141
Cluster4
2.9268
3.7896
4.1141
0.0000
El Cluster 3 es mucho ms compacto que el cluster 1, como se indica por la

suma de cuadrados.
Pg. 106
En este caso se muestra en forma ms clara un grupo de patrones con valores

altos y otro con valores bajos.
Corriendo con SPSS se tiene:
5. Analyze > Clasify > K Jeans Clusters
6. Variables X1 X7
7. Number of clusters 4
OK
ANOVA
Cluster
X1
X2
Mean Square
37.108
28.530
Error
df
3
3
Mean Square
.639
.583
df
96
96
F
58.055
48.960
Sig.
.000
.000
X3
37.115
.839
96
44.224
.000
X4
15.527
.835
96
18.598
.000
X5
7.487
.348
96
21.509
.000
X6
8.242
.355
96
23.204
.000
X7
53.222
3
.928
96
57.330
.000
The F tests should be used only for descriptive purposes because the clusters have been chosen to
maximize the differences among cases in different clusters. The observed significance levels are not
corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are
equal.
C. Conglomerados por variables

Usar conglomerados por variables para clasificar variables en grupos, cuando
son inicialmente desconocidos. Una razn puede ser reducir su nmero. Esta
tcnica puede dar nuevas variables que sean ms comprensibles que las que
proporciona el anlisis de componentes.
El procedimiento es jerrquico e inicia con todas las variables por separado,
cada una formando su propio conglomerado. En el primer paso, se unen las
dos variables ms cercanas. Despus, ya sea que una tercera variable se
agregue a las dos primeras, o se unan en un conglomerado diferente. El
proceso continua hasta que todos lo conglomerados se unen en uno.
Pg. 107
Ejemplo:
Se realiza un estudio para determinar el efecto de largo plazo de un cambio en
el ambiente en la presin arterial. Los sujetos son 39 peruanos de alrededor de
21 aos que han migrado de las montaas de los Andes a ciudades ms
grandes con menor altura.
Se registra la edad (Age), aos desde la migracin (Years), peso en Kgs.
(Weight), estatura en mm (Height), mentn, antebrazo, y pierna en mm (Chin,
Forearm, Calf), pulso en latidos por minuto (Pulse), y presin sistlica y
diastlica (Systol, Diastol).
El objetivo es reducir el nmero de variables al combinar variables con
caractersticas similares. Se usa la distancia de correlacin, enlace promedio y
dendograma.
Los datos son los siguientes:
Peru.Mtw
Age
21
22
24
24
25
27
28
28
31
32
33
33
34
35
Years
1
6
5
1
1
19
5
25
6
13
13
10
15
18
Weight
71
56.5
56
61
65
62
53
53
65
57
66.5
59.1
64
69.5
Height
1629
1569
1561
1619
1566
1639
1494
1568
1540
1530
1622
1486
1578
1645
Chin
8
3.3
3.3
3.7
9
3
7.3
3.7
10.3
5.7
6
6.7
3.3
9.3
Pg. 108
Forearm
7
5
1.3
3
12.7
3.3
4.7
4.3
9
4
5.7
5.3
5.3
5
Calf
12.7
8
4.3
4.3
20.7
5.7
8
0
10
6
8.3
10.3
7
7
Pulse
88
64
68
52
72
72
64
80
76
60
68
72
88
60
Systol
170
120
125
148
140
106
120
108
124
134
116
114
130
118
Diastol
76
60
75
120
78
72
76
62
70
64
76
74
80
68
35
36
36
37
37
38
38
38
38
39
39
39
41
41
41
42
43
43
43
44
44
45
47
50
54
2
12
15
16
17
10
18
11
11
21
24
14
25
32
5
12
25
26
10
19
18
10
1
43
40
64
56.5
57
55
57
58
59.5
61
57
57.5
74
72
62.5
68
63.4
68
69
73
64
65
71
60.2
55
70
87
1648
1521
1547
1505
1473
1538
1513
1653
1566
1580
1647
1620
1637
1528
1647
1605
1625
1615
1640
1610
1572
1534
1536
1630
1542
3
3.3
3
4.3
6
8.7
5.3
4
3
4
7.3
6.3
6
10
5.3
11
5
12
5.7
8
3
3
3
4
11.3
3.7
5
3
5
5.3
6
4
3.3
3
3
6.3
7.7
5.3
5
4.3
7
3
4
3
6.7
4.7
3
3
6
11.7
6.7
11.7
6
7
11.7
13
7.7
4
3
5
15.7
13.3
8
11.3
13.7
10.7
6
5.7
7
7.7
4.3
3.3
4
11.7
11.3
60
72
84
64
72
64
80
76
60
64
64
68
76
60
76
88
72
68
60
74
72
56
64
72
92
138
134
120
120
114
124
114
136
126
124
128
134
112
128
134
128
140
138
118
110
142
134
116
132
152

1
Open worksheet PERU.MTW.
Choose Stat > Multivariate > Cluster Variables.
In Variables or distance matrix, enter Age-Diastol.
For Linkage Method, choose Average.
Check Show dendrogram. Click OK.

Cluster Analysis of Variables: Age, Years, Weight, Height, Chin, Forearm, ...
Correlation Coefficient Distance, Average Linkage
Amalgamation Steps
En cada paso se unen dos conglomerados:
Step
1
2
3
4
5
6
7
8
9
Number
of
clusters
9
8
7
6
5
4
3
2
1
Similarity
level
86.7763
79.4106
78.8470
76.0682
71.7422
65.5459
61.3391
56.5958
55.4390
Distance
level
0.264474
0.411787
0.423059
0.478636
0.565156
0.689082
0.773218
0.868085
0.891221
Clusters
joined
6
7
1
2
5
6
3
9
3
10
3
5
3
8
1
3
1
4
Pg. 109
New
cluster
6
1
5
3
3
3
3
1
1
Number
of obs.
in new
cluster
2
2
3
2
3
6
7
9
10
78
86
70
76
80
64
66
78
72
62
84
92
80
82
92
90
72
74
66
70
84
70
54
90
88
Dendrogram with Average Linkage and Correlation Coefficient Distance

55.44
Similarity
70.29
85.15
100.00
Age
Years Weight Systol Diastol Chin Forearm Calf

Variables
Pulse Height
El dendograma muestra la informacin de los resultados del proceso de

aglomeracin en forma de diagrama de rbol, de aqu se sugiere que las
algunas variables son similares, y se pueden combinar ya sea promediando
sus valores o calculando totales:
Chin, Forearm, Calf son similares y pueden combinarse.
Age y Year son similares pero se investigar la relacin. Si los sujetos

tienden a migrar a cierta edad entonces las variables pueden contener
informacin similar y pueden combinarse.
El peso y las presiones son similares, sin embargo se decide mantener

el peso separado y unir las presiones en una.
Ejemplo con Hatco:

Investigando ahora la agrupacin de variables se tiene:
En Minitab:
1. Stat > Multivariate > Cluster variables
Pg. 110
3. Linkage
method
Ward
(minimizea
la
distancia
dentro
de
conglomerados)
4. Distance Measure Correlation
5. Seleccionar Show Dendogram
6. Customize Label Y axis with Distances
7. OK
Cluster Analysis of Variables: X1, X2, X3, X4, X5, X6, X7
Correlation Coefficient Distance, Ward Linkage
Amalgamation Steps
Step
1
2
3
4
5
6
Number
of
clusters
6
5
4
3
2
1
Similarity
level
89.4112
80.5950
73.4873
57.8288
39.4434
-4.3342
Distance
level
0.21178
0.38810
0.53025
0.84342
1.21113
2.08668
Clusters
joined
4
6
1
5
2
7
1
3
2
4
1
2
New
cluster
4
1
2
1
2
1
Number
of obs.
in new
cluster
2
2
2
3
4
7
Dendrogram with Ward Linkage and Correlation Coefficient Distance
Distance
2.09
1.39
0.70
0.00
X1
X5
X3
X2
Variables
X7
X4
X6
Se identifican conglomerados en las variables X1 y y X5; X2 y X7; X4 y X6,

despus entre X1, X5, X3 y X2, X7, X4 y X6 y al final un solo conglomerado.
Pg. 111
los
Paso 5. Interpretacin de los conglomerados

Como resultado de un anlisis factorial se tiene:
Instrucciones en Minitab:
1. Stat > Multivariate > Factor analysis
2. Variables X1 X7 Method of Extraction Maximum likelihood
3. Rotation Varimax
4. Graphs Scree Plot y Loading Plot for first two factors
5. OK
Factor Analysis: X1, X2, X3, X4, X5, X6, X7

Maximum Likelihood Factor Analysis of the Correlation Matrix
* NOTE * Heywood case
Unrotated Factor Loadings and Communalities
Variable
X1
X2
X3
X4
X5
X6
X7
Factor1
0.969
-0.181
0.436
0.133
0.752
0.133
-0.424
Factor2
0.177
-0.984
0.400
-0.301
-0.660
-0.214
-0.400
Communality
0.971
1.000
0.350
0.108
1.000
0.063
0.340
Variance
% Var
1.9431
0.278
1.8896
0.270
3.8327
0.548
Rotated Factor Loadings and Communalities

Varimax Rotation
Variable
X1
X2
X3
X4
X5
X6
X7
Factor1
-0.894
0.714
-0.587
0.065
-0.235
0.015
0.577
Factor2
0.414
0.700
-0.075
0.323
0.972
0.251
0.082
Communality
0.971
1.000
0.350
0.108
1.000
0.063
0.340
Variance
% Var
2.0468
0.292
1.7859
0.255
3.8327
0.548
Factor Score Coefficients

Variable
Factor1
Factor2
Pg. 112

X1
X2
X3
X4
X5
X6
X7
0.000
1.132
0.000
-0.000
-0.815
-0.000
-0.000
-0.000
0.273
-0.000
-0.000
0.832
-0.000
0.000
Loading Plot of X1, ..., X7

X5
1.0
0.8
Second Factor
X2
0.6
X1
0.4
X4
X6
0.2
X7
0.0
X3
-1.0
-0.5
0.0
First Factor
0.5
Para las correlaciones en Minitab:

1. Stat > Basic statistics > Correlations
2. Variables X1 X7 Show P values
3. OK
Correlations: X1, X2, X3, X4, X5, X6, X7
X1
-0.349
0.000
X2
X3
0.476
0.000
-0.472
0.000
X4
0.050
0.618
0.272
0.006
-0.095
0.347
X5
0.612
0.000
0.513
0.000
0.064
0.524
0.299
0.003
X6
0.077
0.446
0.186
0.064
-0.015
0.880
0.788
0.000
0.241
0.016
X7
-0.483
0.000
0.470
0.000
-0.407
0.000
0.200
0.046
-0.055
0.586
X2
X3
X4
X5
Cell Contents: Pearson correlation

P-Value
Pg. 113
X6
0.177
0.078
Al definir los factores que son las dimensiones de las variables que se
correlacionan significativamente, se observan dos factores. El primer factor
contiene a X1, X2, X3 y X7 y el segundo factor contiene a los aspectos de
imagen X4 y X6. En el primer factor X2 y X7 se relacionan inversamente con
X1 y X3, es decir que mientras se incrementan unas, las otras bajan. Esto
sugiere que altos valores en X1 y X3 implican valores bajos en X2 y X7. O sea
que definir conglomerados slo con base en valores altos o bajos es
inapropiado.
De la tabla ANOVA para dos conglomerados se observa que solo X5
Servicio general no es significativa.
Cluster
De la grfica de centros de conglomerados se observa que X4 y X6 tienen

valores mayores en el conglomerado 2 que en el 1 y X1, X3 tienen valores
mayores en el conglomerado 1 que en el 2 y X2 y X7 son menores.
Para el caso de 4 conglomerados, el 1 se divide en 1 y 4 y el 2 se divide en 2 y
3 se tiene:
Pg. 114
En general la aplicacin del anlisis de conglomerados es un arte ms que una

ciencia y se deben aplicar criterios objetivos y subjetivos adecuados.
Pg. 115
9. ANLISIS DE COMPONENTES
PRINCIPALES
Pg. 116
9. ANLISIS DE COMPONENTES PRINCIPALES

Introduccin
El objetivo del anlisis es tomar p variables X1, X2, ., Xp algunas de ellas
correlacionadas entre s y encontrar combinaciones de las mismas para
producir ndices Z1, Z2, .., Zp que sean no correlacionadas. Z1 muestra la
mayor parte de la varianza, seguida de Z2, etc. Se trata de reducir el nmero
de variables X por un pequeo grupo de variables Z.
Un ejemplo clsico2 es tratar de caracterizar criminales con base en siete
dimensiones corporales. Las dimensiones utilizadas fueron: longitud del dedo
izquierdo, longitud de la pierna izquierda, longitud del pie izquierdo, longitud de
la cabeza, ancho de la cabeza, ancho y alto de la cara.
Como resultados del anlisis3 se determinaron tres componentes no
correlacionados de esas mediciones, en conjunto acumulaban el 84% de la
varianza total de las siete variables originales. Cada uno de los componentes
es una combinacin lineal de las siete variables originales.
El primero incluye el 54% de la varianza total y se refiere a las

dimensiones generales.
El segundo contiene el 25% de la varianza total representa el contraste

entre el tamao de la cabeza y y el resto del cuerpo.
El tercer tiene el 9% de la varianza y contrasta la longitud de la cabeza

con su ancho.
Los coeficientes se muestran a continuacin:

Variables
Long. Cabeza
Ancho cabeza
Ancho cara
Long. Dedo izq.
Long. Brazo izq.
Pie izquierdo
Estatura
2
3
Coeficientes
Primero
Segundo
Tercero
0.538
-0.447
-0.712
0.413
-0.784
0.206
0.575
-0.628
0.309
0.853
0.288
0.056
0.888
0.339
0.030
0.878
0.219
0.048
0.849
0.220
0.005
Maxwell, A.E., Multivariate Analysis in Behavioral Research, Chapman and Hall, Londres, 1977.
Ibidem
Pg. 117
La posibilidad de caracterizar a los criminales con sus dimensiones motivo al

desarrollo de los anlisis multivariados.
El mtodo de componentes principales

Dada la matriz X que representa n observaciones en cada una de las p
variables, X1, X2, X3, ., Xp, el propsito del anlisis de componentes
principales consiste en determinar una nueva variable Z1 que pueda ser
utilizada para acumular la varianza de las p X variables. El componente
principal Z1 est dado por la combinacin lineal de las p X variables por:
Z1 v11 X 1 v21 X 2 ..... v p1 X p
Para determinar los coeficientes de Z1 se usa el mtodo de mnimos

cuadrados, donde se trata de minimizar la suma de las desviaciones al
cuadrado de:
j 1
i 1
( xij xij ) 2
Donde:
zi1
v j1 x ij
xij a j1 zi1
xij i 1,2,...., n; j 1,2,...., p
Denota las observaciones en X.

En notacin matricial se trata de determinar los los vectores (p x1) v1 y a1,
donde z1 (n x 1) = Xv1 y X = z1a1 tal que tr ( X X )' ( X X ) sea minimizada.
Para la solucin de este problema se utilizan los valores caractersticos o
Eigenvalores, dados por:
( X ' X I )v 0
Pg. 118
Como la magnitud de v es arbitraria, vv=1. Por tanto la solucin al problema

son los vectores caractersticos o eigenvalores j, j = 1,2,3,., s y los vectores
caractersticos correspondientes vj, j = 1,2,3,., s, donde el nmero de
soluciones de s, corresponde al rango de (XX).
Ejemplo:
6 152 0
Dada la matriz
A 15 4
2 2
3
0 2 2
Los valores caractersticos o Eigenvalores se obtienen al resolver la ecuacin

del determinante: | A - I | = 0, lo cual da en este caso:
(6 ) 15 2 0
3
15
(
4
)
2
2 0
0
(2 )
2
El polinomio resultante es:

(6 )(4 )(2 )
3
15
(6 ) ( 2 ) 0
2
2
Con sus races caractersticas o eigenvalores = 1, 3 y 8.

Los eigenvectores correspondientes se obtienen resolviendo la ecuacin
Pg. 119
(A -I)v = 0 para cada uno de los eigenvalores . Para el caso de = 3 se

tiene:
( 6 3) 15 0
2
v1
15 3
2 ( 4 3) 2 v2 0
v3 La restriccin para que la solucin sea nica es que:

3
0 2 (2 3)
v12 v22 v32 1
Proporciona el eigenvector:
1
v'
2
3
10
20
Determinado los otros eigenvectores se tiene la matriz V.
3 1 9
28 2 14
V 5 3 12
14 10 35
15 9 1
28 20 70
Pg. 120
En Matlab se tiene:
To get started, select "MATLAB Help" from the Help menu.
>> A=[6 sqrt(15/2) 0; sqrt(15/2) 4 sqrt(3/2); 0 sqrt(3/2) 2]
A =
6.0000
2.7386
0
2.7386
4.0000
1.2247
0
1.2247
2.0000
>> Lamda=eig(A)
Lamda =
1.0000
3.0000
8.0000
>> [V,D]=eig(A)
V =
0.3273
-0.5976
0.7319
0.5000
-0.5477
-0.6708
-0.8018
-0.5855
-0.1195
0
3.0000
0
0
0
8.0000
D =
1.0000
0
0
>>
Los s eigenvectores y sus correspondientes eigenvalores proporcionan s

soluciones para el componente principal deseado Z1. La solucin que
corresponde al mnimo requerido emplea el eigenvalor ms grande 1 y su
vector correspondiente v1.
En particular var(Zi) = i y las constantes ai1, ai2, , aip son los elementos del
eigenvector correspondiente.
Los pasos para hacer un anlisis de componentes principales son los
siguientes:4
1. Iniciar codificando las variables X1, X2, .., Xp a que tnegan media cero y
desviacin estndar uno.
2. Calcular la matriz de covarianza C. Es la matriz de correlacin despus del
paso 1.
Bryan, F.J. Manly, Multivariate Statistical Methods, Chapman and Hall, Londres, 1986
Pg. 121
1 c12 ..................c1 p
c21 1 ........... c2 p
C
..............................
c p1 c p 2 ........... 1
Donde cada Cij = Cji es la correlacin entre Xi y Xj. De esta manera la suma de
los trminos diagonales, y la suma de los eigenvalores es igual al nmero de
variables p.
3. Encontrar los eigenvalores 1, 2, , p y los correspondientes
eignevectores a1, a2, , ap. Los coeficientes del i-simo componente
principal estn dados por ai mientras que la varianza es i.
4. Descartar cualquier componente que solo contenga una pequea parte de la
varianza de los datos (menor o igual a uno). Por ejemplo, iniciando en 20
variables, puede ser que los primeros tres componentes tengan el 90% de la
varianza total. Bajo esta base, se pueden ignorar los otros 17 componentes.
Ejemplo:
Los datos de las dimensiones de 49 pjaros se muestran a continuacin:
Tabla y corrida Minitab
Los eigenvalores de esta matriz son: 3.616, 0.532, 0.386, 0.302 y 0.164, que
suman 5.000, que es igual a la suma de los trminos de la diagonal de la matriz
C.
De la tabla de eigenvectores, se obtienen los coeficientes de los componentes
principales.
El eigenvalor de un componente principal, indica la varianza de un total de
5.000. As, para el primer componente principal se tiene:
Pg. 122
(3.616/5.000)*100%=72.3%; el segundo tiene 10.6%; el tercero 7.7%, etc. De

manera clara, el primer componente es el ms importante.
El primer componente principal es:
Z1 0.452 X 1 0.462 X 2 0.451X 3 0.471X 4 0.398 X 5
Donde X1 a X5 son las variables estandarizadas. Este es un ndice del tamao

de los pjaros. De modo que el 72.3% de la varianza de los datos est
relacionada con diferencias en los tamaos.
El segundo componente principal es:
Z 2 0.051X 1 0.300 X 2 0.325 X 3 0.185 X 4 0.877 X 5
En este caso contrasta X2, X3 y X4 contra X5, de modo que Z2 ser alta si
(X2,X3,X4) son altas y (X5) es baja, por tanto puede considerarse que
representa la diferencia de forma entre los pjaros.
Para calcular Z1, primero se estandarizan las Xi como sigue:
X1 = (x1 Media x1)/ desv. Estad. x1 = (156 157.98) / 3.654
X2 = (245 241.327)/5.068 = 0.725
X3 = (31.6 31.459)/0.795 = 0.177
X4 = (18.5 18.469)/0.564 = 0.055
X5 = (20.5 20.827)/0.991 = -0.330
Sustituyendo estos valores en las ecuaciones para Z1 y Z2 se tiene:
Z1 = 0.064
Z2 = 0.602
De esta misma manera se pueden calcular los otros componentes.
Los valores de las coordenadas Z correspondientes a los diferentes pjaros se
muestra a continuacin.
Pg. 123
En la figura se puede observar que los pjaros con valores extremos en

dimensiones Z1 tienen menos probabilidades de sobrevivir, lo mismo sucede
para valores altos de Z2.
Pg. 124
Ejemplo: alimentos en las principales ciudades europeas:

X1
Pas
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
RMEAT
10.1
8.9
13.5
7.8
9.7
10.6
8.4
9.5
18
10.2
5.3
13.9
9
9.5
9.4
6.9
6.2
6.2
7.1
9.9
13.1
17.4
9.3
11.4
4.4
X2
WMEAT
1.4
14
9.3
6
11.4
10.8
11.6
4.9
9.9
3
12.4
10
5.1
13.6
4.7
10.2
3.7
6.3
3.4
7.8
10.1
5.7
4.6
12.5
5
X3
EGGS
0.5
4.3
4.1
1.6
2.8
3.7
3.7
2.7
3.3
2.8
2.9
4.7
2.9
3.6
2.7
2.7
1.1
1.5
3.1
3.5
3.1
4.7
2.1
4.1
1.2
X4
MILK
8.9
19.9
17.5
8.3
12.5
25
11.1
33.7
19.5
17.6
9.7
25.8
13.7
23.4
23.3
19.3
4.9
11.1
8.6
24.7
23.8
20.6
16.6
18.8
9.5
X5
FISH
0.2
2.1
4.5
1.2
2
9.9
5.4
5.8
5.7
5.9
0.3
2.2
3.4
2.5
9.7
3
14.2
1
7
7.5
2.3
4.3
3
3.4
0.6

Para un anlisis de correlaciones se tiene:
1. Stat > Basic statistics > Correlation
2. Variables X1, X2, X3, X4, X6, X7
3. Display p values
4. OK
Pg. 125
X6
CERL
42.3
28
26.6
56.7
34.3
21.9
24.6
26.3
28.1
41.7
40.1
24
36.8
22.4
23
36.1
27
49.6
29.2
19.5
25.6
24.3
43.6
18.6
55.9
X7
STARCH
0.6
3.6
5.7
1.1
5
4.8
6.5
5.1
4.8
2.2
4
6.2
2.1
4.2
4.6
5.9
5.9
3.1
5.7
3.7
2.8
4.7
6.4
5.2
3
X8
X9
NUTS FR-VEG
5.5
1.7
1.3
4.3
2.1
4
3.7
4.2
1.1
4
0.7
2.4
0.8
3.6
1
1.4
2.4
6.5
7.8
6.5
5.4
4.2
1.6
2.9
4.3
6.7
1.8
3.7
1.6
2.7
2
6.6
4.7
7.9
5.3
2.8
5.9
7.2
1.4
2
2.4
4.9
3.4
3.3
3.4
2.9
1.5
3.8
5.7
3.2
Correlations: RMEAT, WMEAT, EGGS, MILK, FISH, CERL, STARCH, NUTS, FRVEG
RMEAT
0.153
0.465
WMEAT
EGGS
0.586
0.002
0.620
0.001
MILK
0.503
0.010
0.281
0.173
0.576
0.003
FISH
0.061
0.772
-0.234
0.260
0.066
0.755
0.138
0.511
CERL
-0.500
0.011
-0.414
0.040
-0.712
0.000
-0.593
0.002
-0.524
0.007
0.135
0.519
0.314
0.127
0.452
0.023
0.222
0.285
0.404
0.045
-0.533
0.006
NUTS
-0.349
0.087
-0.635
0.001
-0.560
0.004
-0.621
0.001
-0.147
0.483
0.651
0.000
-0.474
0.017
FR-VEG
-0.074
0.724
-0.061
0.771
-0.046
0.829
-0.408
0.043
0.266
0.198
0.047
0.825
0.084
0.688
WMEAT
STARCH
EGGS
MILK
FISH
CERL
STARCH
NUTS
0.375
0.065

P-Value
Se observa que varias variables Xi estan correlacionadas entre s.
Para el anlisis de componentes principales se tiene:

1
Cargar los datos de la Tabla.
Stat > Multivariate > Principal components
En Variables, X1, X2, X3, X4, X6, X7, X8, X9
En Number of factors to extract, 3. Seleccionar Correlation Matrix
5 Click Graphs y seleccionar Scree Plot, Score plot for first 2

components Loading plot for first 2 components
8 Click Storage e indicar las columnas donde se guarden los coeficientes y
los valores Z (scores) Coef1 Coef 2 y Z1 Z2
9. Click OK en cada uno de los cuadros de dilogo.
Pg. 126
Los eigenvalores para cada componente son los siguientes:

Principal Component Analysis: RMEAT, WMEAT, EGGS, MILK, FISH, CERL,
STARCH, NUT
PC1
PC2
PC3
PC4
Eigenvalue 4.0064 1.6350 1.1279 0.9547
Proportion
0.445
0.182
0.125
0.106
Cumulative
0.445
0.627
0.752
0.858
PC9
Eigenvalue 0.0991
Proportion
0.011
Cumulative
1.000
PC5
0.4638
0.052
0.910
PC6
0.3251
0.036
0.946
PC7
0.2716
0.030
0.976
PC8
0.1163
0.013
0.989
Se observa que los componentes PC1 y PC2 contienen el 62% de la varianza

total.
Scree Plot of RMEAT, ..., FR-VEG
4
Eigenvalue
0
1
4
5
6
Component Number
Valor mnimo a considerar
La composicin aproximada de las variables en funcin de los componentes

principales son:
Variable
RMEAT
WMEAT
EGGS
MILK
FISH
CERL
STARCH
NUTS
FR-VEG
PC1
-0.303
-0.311
-0.427
-0.378
-0.136
0.438
-0.297
0.420
0.110
PC2
0.056
0.237
0.035
0.185
-0.647
0.233
-0.353
-0.143
-0.536
PC3
0.298
-0.624
-0.182
0.386
0.321
-0.096
-0.243
0.054
-0.408
Que al graficar en funcin de los dos primeros componentes, se obtiene lo

siguiente:
Pg. 127
Loading Plot of RMEAT, ..., FR-VEG

WMEAT
0.1
Second Component
CERL
MI LK
0.2
RMEAT
EGGS
0.0
-0.1
NUTS
-0.2
-0.3
STARCH
-0.4
-0.5
FR-VEG
-0.6
FI SH
-0.7
-0.5
-0.4
-0.3
-0.2
-0.1
0.0
0.1
First Component
0.2
0.3
0.4
Los valores de las variables Z1 y Z2 (scores) calculados son:

Z1
3.48537
-1.42267
-1.62203
3.13408
-0.37046
-2.36527
-1.42221
-1.56386
-1.48798
2.23970
1.45744
-2.66348
1.53457
-1.64145
-0.97470
-0.12187
1.70585
2.75681
1.31181
-1.63373
-0.91232
-1.73537
0.78260
-2.09384
3.62301
Z2
1.63048
1.04123
-0.15950
1.30107
0.60267
-0.28545
-0.45030
0.59600
-0.78537
-1.00106
0.81595
0.76371
-0.39899
0.91199
-0.82203
-0.53174
-4.28893
1.11879
-2.55352
0.20738
0.75106
0.09398
0.11077
0.29378
1.03803
Que al graficarlos dan lo siguiente:

1. Graph > Scatterplot > Simple
2. Y Variables Z2 X Variables Z1
3. Labels > Data labels > Use labels form column Pas
4. OK
Pg. 128
Se tiene la grfica siguiente de paisespases:

Europa occidental
Europa oriental
Balcanes
Scatterplot of Z2 vs Z1
2
12
24
14 2
8
20
22
3
7
9
18
21
11
25
23
15
13
16
10
Z2
-1
-2
19
-3
-4
17
-5
-3
-2
-1
Z1
Pennsula ibrica
Pg. 129
Ejemplo:
Se registran las siguientes caractersticas para 14 censos: Poblacin total
(Pop), mediana de aos escolares (School), empleo total (Employ),empleo en
servicios de salud (Health), y valor mediano del valor de la casa (Home). Los
datos se muestran a continuacin:
Pop
5.935
1.523
2.599
4.009
4.687
8.044
2.766
6.538
6.451
3.314
3.777
1.53
2.768
6.585
School
14.2
13.1
12.7
15.2
14.7
15.6
13.3
17
12.9
12.2
13
13.8
13.6
14.9
Employ
2.265
0.597
1.237
1.649
2.312
3.641
1.244
2.618
3.147
1.606
2.119
0.798
1.336
2.763
Health
2.27
0.75
1.11
0.81
2.5
4.51
1.03
2.39
5.52
2.18
2.83
0.84
1.75
1.91
Home
2.91
2.62
1.72
3.02
2.22
2.36
1.97
1.85
2.01
1.82
1.8
4.25
2.64
3.17
Se realiza un anlisis de componentes principales para comprender la

estructura de datos subyacente. Se usa la matriz de correlacin para
estandarizar las mediciones dado que no se mide con la misma escala.
1
Stat > Multivariate > Principal Components.
En Type of Matrix, seleccionar Correlation.
Click Graphs y seleccionar Scree plot.

Principal Component Analysis: Pop, School, Employ, Health, Home
Pg. 130

Eigenvalue
Proportion
Cumulative
Variable
Pop
School
Employ
Health
Home
3.0289
0.606
0.606
PC1
-0.558
-0.313
-0.568
-0.487
0.174
1.2911
0.258
0.864
PC2
-0.131
-0.629
-0.004
0.310
-0.701
0.5725
0.114
0.978
PC3
0.008
-0.549
0.117
0.455
0.691
0.0954
0.019
0.998
PC4
0.551
-0.453
0.268
-0.648
0.015
0.0121
0.002
1.000
PC5
-0.606
0.007
0.769
-0.201
0.014

3.0
Eigenvalue
2.5
2.0
1.5
1.0
0.5
0.0
1
3
Component Number

El primer componente principal tiene varianza (eigenvalor) 3.029 y acumula el
60.6% de la varianza total. Los coeficientes para el PC1 muestran como
calcular el nivel del componente principal.
PC1 = .558 Pop .313 School .568 Employ .487 Health + .174 Home
Notar que la interpretacin de los componentes principales es subjetiva, sin
embargo, frecuentemente surgen patrones obvios. Por ejemplo, se podra
pensar que el primer componente represente el efecto del tamao de la
poblacin total, el nivel de escolaridad, empleo y servicios de salud, dado que
los coeficientes de estos trminos tienen el mismo signo y no son cercanos a
cero.
El segundo componente tiene varianza 1.2911 y acumula el 25.8% de la
variabilidad de los datos. Se calcula de los datos originales usando los
Pg. 131
coeficientes listados en PC2. Este componente podra ser pensado como nivel
de contraste de escolaridad y valor de la casa con salud y empleo de alguna
manera.
Juntos el primero y segundo componentes representan el 86.4% y 97%,
respectivamente, de la variabilidad total. As, la mayora de la estructura de
datos puede ser capturada en dos o tres dimensiones relevantes. Los
componentes remanentes solo tienen una menor proporcin de probabilidad y
no son importantes. La grfica Scree proporciona una visin grfica de lo
anterior.
Pg. 132
10. ANLISIS FACTORIAL
Pg. 133
10. ANLISIS FACTORIAL

De manera similar al anlisis de componentes principales, el propsito principal
del Anlisis factorial es decribirdescribir la variacin entre muchas variables, en
trminos de una pocas variables subyacentes no observables, denominadas
factores. De manera diferente al anlisis de componentes, en el anlisis
factorial se especifican un cierto nmero de factores comunes. Todas las
covarianzas o correlaciones se explican por los factores comunes. La varianza
no explicada por los factores comunes se asigna los trminos de error residual
denominados factores nicos, no correlacionados entre s.
La matriz del modelo de anlisis factorial asume que la matriz de correlacin o
de covarianzas se puede dividir en dos partes:
La matriz de factores comunes
La matriz de errores o factores nicos
Mientras que el anlisis de componentes principales se enfoca a explicar la

vasrianzavarianza de las variables, el anlisis factorial se enfoca a la
explicacin de la covarianza de las variables. Al final obtiene grupos de
variables dentro de los cuales las variables son altamente correlacionadas, sin
embargo entre diferentes grupos tengan correlacin dbil. 5
El anlisis factorial es un mtodo cuyo propsito principal es definir la
estructura subyacente de una matriz de datos. Atiende el problema de analizar
la estructura de las interrelaciones (correlaciones) entre un gran nmero de
variables
(vgrVg.. Respuestas de cuestionarios) al definir un conjunto de
dimensiones subyacentes comunes, conocidas como factores. Con el anlisis

factorial se identifican las dimensiones separadas de la estructura y despus se
determina que tanto cada variable es explicada por cada dimensin. Una vez
que se determinan las dimensiones y se explican las variables por cada
dimensin, se puede hacer un resumen y reduccin de datos. 6
5
Jonson, J.D., Applied Multivariate Data Analysis: Volume II, Categorical and Multivariate Methods,
Spinger Verlag, Nueva York, 1992
6
Hair, Joseph, F, et. Al., Multivariate Data Analysis, 5th. Edition, Prentice Hall International, Nueva
Jersey, 1998
Pg. 134
El anlisis factorial es una tcnica de interdependencia en la cual todas las

variables son consideradas de manera simultanea, cada una relacionada a las
otras, y empleando el concepto de variate, composicin lineal de variables. De
hecho las variates (factores) se forman para maximizar su explicacin de todo
el conjunto de variables, no para predecir una variable dependiente(s). Una
variate (factor) es una variable dependiente que es funcin del conjunto total de
variables.
Se usa el Anlisis factorial, de manera similar al anlisis de componentes
principales, para resumir la estructura de covarianza de los datos en unaunas
pocas dimensiones de los mismos. Sin embargo, el nfasis en anlisis factorial
es la identificacin de los factores subyacentes que pueden explicar las
dimensiones asociadas con la gran variabilidad de los datos.
Se pueden tener tres tipos de datos de entrada:
Columnas de datos unitarios
Una Matriz de correlaciones o covarianzas
Columnas conteniendo ponderaciones de factores
Con los datos del ejemplo anterior de Componentes principales, realizar un

anlisis factorial como sigue:
Nos gustara investigar que factores pueden explicar la mayor parte de la
variabilidad. Como primer paso del anlisis factorial, se utiliza la extraccin de
componentes principales y se examinan los eigenvalores en grfica como
ayuda para decidir el nmero de factores.
Modelo matemtico
A partir de los trabajos de Charles Spearman (1904) al hacer estudios de
psicologa sobre la teora de pruebas mentales, formul un modelo de dos
factores: cada resultado de la prueba se forma de dos partes, uno que es
comn a todas las pruebas (inteligencia general) y otro que es especfico a la
prueba. Posteriormente, se modific a para permitir que cada resultado de
Pg. 135
prueba consistiera de una parte debida a varios factores comunes, adems de

una parte especfica de la prueba.
El modelo general de anlisis de factores es el siguiente:
X i ai1F1 ai 2 F2 ... aim Fm ei
Donde Xi es el resultado i-simo de la prueba con media cero y varianza

unitaria; ai1, ai2,, aim son las Cargas factoriales para la i-sima prueba; F1,
F2, , Fm son los m factores comunes no correlacionados, cada uno con
media cero y varianza uno, ei es el error especfico para la i-sima prueba, no
correlacionado con los factores comunes.
Con este modelo:
Var ( X i ) a 2i1Var ( F1 ) a 2i 2Var ( F2 ) ... a 2imVar ( Fm ) Var (ei )

Var ( X i ) a 2i1 a 2i 2 ... a 2im Var (ei )
Donde:
a 2i1 a 2i 2 ... a 2im

Es llamada la comunalidad de Xi (la parte de la varianza que est relacionada
con los factores comunes) mientras que Var(ei)
es denominada la
especificidad de Xi (la parte de su varianza que no est relacionada con los

factores comunes). Tambin se puede establecer que la correlacin entre Xi y
Xj es:
rij ai1a j1 ai 2 a j 2 ...... aim a jm
De esta manera dos resultados de prueba estn muy correlacionados si tienen

valores de carga altos en los mismos factores. Adems -1<= aij <= 1, ya que la
comunalidad no puede exceder uno.
El anlisis factorial se hace en tres etapas:
Pg. 136
Etapa 1 extraccin de factores: se determinan cargas o

ponderaciones provisionales de los factores aij. Una forma de hacerlo es
realizar un anlisis de componentes principales y no considerar los
componentes principales despus de los primeros m, que sern
tomados como los m factores. Como regla se pueden tomar los m
eigenvalores que excedan a la unidad. Estos factores no estn
correlacionados entre s, sin emabargo los factores especficos pueden
estar correlacionados entre s, lo que no afecta si las comunalidades son
altas. Con cualquier mtodo que se extraigan las ponderaciones
preliminares de los factores, se puede mostrar que no son nicas. Si F1,
F2,, Fm son los factores preliminares, se pueden construir
combinaciones lineales de estos de la forma:
F1' d11 F1 d12 F2 ..... d1m Fm
F2' d 21F1 d 22 F2 ..... d 2 m Fm
Fm' d m1 F1 d m 2 F2 ..... d mm Fm
Las combinaciones se pueden hacer de forma que no sean

correlacionadas y expliquen los datos adecuadamente. Se observa que
hay un nmero infinito de posibles soluciones.
Etapa 2 Rotacin de factores: los factores preliminares se

transforman de modo que se identifiquen nuevos factores ms fciles de
interpretar. Rotar equivale a seleccionar los coeficientes dij en las
ecuaciones anteriores. La rotacin puede ser ortogonal u oblicua. Con la
rotacin ortogonal, los nuevos factores no estn correlacionados, tal
como los originales. Con rotacin oblicua, los nuevos factores estn
correlacionados. Se espera que las ponderaciones o cargas aij sean
casi cero (indicando que Xi no se relaciona con el factor Fj), o muy
alejadas de cero (positivas o negativas) indicando que Xi est
determinado ampliamente por Xj de manera amplia.
Un mtodo popular de rotacin es el Varimax que est basado en el

supuesto de que la interpretabilidad del factor j puede ser medido por la
Pg. 137
varianza del cuadrado de sus ponderaciones (a1j2, a2j2 ,etc.) donde si la

varianza es grande, los valores de aij2 tienden a ser cero o cercanos a la
unidad, de esta forma Varimax maximiza la suma de estas varianzas para
todos los factores.
Los factores rotados se pueden expresar como sigue:
F * (G ' G ) 1 G ' X
Etapa 3 aaclculo de los factores individuales: son los valores de

los factores F1, F2, , Fm,
para cada una de las observaciones
individuales.
Pg. 138
PROCESO DE DECISIN DE ANLISIS FACTORIAL

Paso 1. Objetivos del Anlisis factorial
El propsito es encontrar una forma de condensar (resumir) la informacin
contenida en un cierto nmero de variables originales, en un grupo ms
pequeo de dimensiones nuevas, compuestas o variates (factores) con un
mnimo de prdida de informacin.
Por ejemplo si hay datos de 100 cuestionarios en 10 caractersticas, el anlisis
factorial se aplica a la matriz de correlacin de variables y se denomina
Anlisis Factorial R, para identificar las dimensiones que estn latentes o no
son fcilmente observables.
El anlisis factorial tambin se puede aplicar a una matriz de correlacin de los
cuestionarios individuales basados en sus caractersticas, referido como
Anlisis Factorial Q, es un mtodo de condensar o combinar un grupo grande
de gente en diferentes grupos distintos dentro de una poblacin grande, para
esto se utiliza el anlisis de conglomerados (clusters).
Paso 2. Diseo del anlisis factorial

Incluye tres decisiones bsicas: (1) clculo de los datos de entrada (una matiz
de correlacin) para cumplir con los objetivos especificados de agrupar
variables o cuestionarios; (2) el diseo del estudio en trminos del nmero de
variables, propiedades de medicin de las variables, y el tipo de variables
permitidas y (3) el tamao de muestra necesario (al menos 5 veces el nmero
de variables analizadas), ambos en trminos absolutos y como funcin de del
nmero de variables en el anlisis.
Pg. 139
Paso 3. Supuestos del anlisis factorial

Es deseable algn grado de multicolinealidad entre variables dado que el
objetivo es identificar conjuntos de variables interrelacionadas, no son tan
importantes la normalidad, homoestacidad y linealidad a menos que
disminuyan significativamente las correlaciones observadas.
La matriz de correlacin debe indicar valores mayores a 0.3 para aplicar el
anlisis de correlacin. Tambin si las correlaciones parciales entre variables
(correlacin entre variables cuando el efecto de las otras variables se toma en
cuenta) son pequeas dado que la variable puede explicada por los factores
(variates con ponderaciones para cada una de
las variables). Si las
correlaciones parciales son altas, no hay factores subyacentes verdaderos y

el anlisis factorial es inapropiado.
La prueba de esfericidad de Bartlett mide la presencia de correlaciones entre
las variables, proporciona la probabilidad de que la matriz de correlacin tenga
correlaciones significativas en algunas de las variables. Otro indicador es el
Measure of Sampling Adequacy (MSA), con rango de 0 a 1, donde 0.8 o ms
es meritorio; 0.07 o ms es regular; 0.60 o ms es mediocre; 0.50 o ms
miserable y debajo de 0.50 inaceptable.
El supuesto bsico en el anlisis factorial es que existe una estructura
subyacente en el conjunto de variables seleccionadas.
Paso 4. Identificando factores y evaluando el ajuste del modelo

Una vez que se especifican las variables y se prepara la matriz de correlacin,
se toman decisiones en relacin a (1) el mtodo de extraccin de los factores
(anlisis de factores comunes versus anlisis de componentes) y (2) el nmero
de factores seleccionados para representar la estructura subyacente en los
datos.
Pg. 140
Anlisis de componentes
El anlisis de componentes se usa cuando el objetivo es resumir la mayor parte
de la informacin original (varianza) en un mnimo nmero de factores para
propsitos de prediccin. Considera la varianza total y determina factores que
contienen pequeas proporciones de varianza nica y, en algunos casos,
varianza del error. No se basa en un modelo estadstico especfico. 7
Anlisis factorial
En contraste el anlisis de factores comunes se utiliza para identificar los
factores subyacentes o dimensiones que reflejan aquello que las variables
comparten en comn. Se basa en un modelo estadstico especial.
En este mtodo se tienen tres tipos de varianzas: (1) comn, (2) especfica
(nica), y (3) error. La varianza comn (communalities) se define como la
varianza en una variable que es compartida por todas las dems variables. La
varianza especfica es la varianza asociada solo con una variable especfica.
La varianza del error es la varianza debida a la incertidumbre en el proceso de
recoleccin de datos, errores de medicin, o componente aleatorio en el
fenmeno medido.
Criterios para el nmero de factores a extraer
El primer mtodo extrae la combinacin de variables explicando la mayor
cantidad de varianza y despus contina con combinaciones que representan
menos y menos cantidades de varianza.
La seleccin de factores a extraer equivale a enfocar un microscopio,
normalmente se hace por prueba y error contrastando los resultados.
Criterio de Raz Latente: su racional es que cualquier factor individual debe
contener la varianza de al menos una variable. Como cada variable contribuye
con 1 al eigenvalor total o raz latente. Se seleccionan solo los factores con
eigenvalores mayores a uno, cuando se tienen menos de 20 variables, los
factores extrados son pocos.
7
Ibidem
Pg. 141
Criterio a Priori: en este mtodo el investigador ya tiene una idea clara de los
factores a extraer y as lo indica en la computadora.
Criterio de porcentaje de varianza: Enfoque basado en lograr un porcentaje
acumulado de varianza total extrado por factores sucesivos. Normalmente el
proceso para al acumular 95%.
Criterio Scree Test: Se usa para identificar el nmero ptimo de factores que
pueden ser extrados antes de que la cantidad de varianza nica empiece a
dominar la estructura de varianza comn.
Eig
env
alor
1
Nmero de factores
Paso 5. Interpretando los factores

Se obtiene la matriz no rotada para estimar el nmero de factores a extraer. La
matriz de factores contiene ponderaciones de factores para cada variable en
cada factor. El primer factor puede verse como la mejor combinacin lineal
incluida en los datos, con cada factor con ponderaciones significativos y
acumula la mayor parte de la varianza; el segundo factor es la segunda mejor
combinacin lineal de variables, sujeta a que es ortogonal al primer factor, se
basa en la porcin residual de la varianza una vez removido el primero, as
sucesivamente.
Pg. 142
Los ponderaciones de los factores representan la correlacin de cada una de

las variables y el factor, entre mayores sean, mayor ser la representatividad
del factor por la variable.
La rotacin de los factores ms simple es una rotacin ortogonal, en la cual
se mantienen los ejes a 90 grados. Se pueden rotar los ejes sin mantener los
90 grados entre los ejes de referencia. Cuando no hay restriccin de
ortogonalidad, el procedimiento de rotacin se denomina rotacin oblicua.
+1 Factor II rotado
+1 Factor II sin rotar

V1
V2
+1 Factor I sin rotar
-1
V4
V3
V5
+1 Factor I rotado
-1
Factor II
Fig. 1 Rotacin ortogonal de factores ( observar la ponderacin
o ponderacin de factores I y
II en la variable V2, es ms clara cuando se rotan los factores)
En la figura se observan dos conglomerados de variables (V1 y V2) y (V3, V4 y

V5), sin embargo con los factores sin rotar no es muy obvia su ponderacin o
ponderacin de los factores I y II. Despus de la rotacin de los ejes de
factores, las variables 3, 4 y 5 tienen una ponderacin o ponderacin fuerte de
factor I, y las variables 1 y2 tienen una ponderacin o ponderacin fuerte en el
factor II. Siendo ms obvia la distincin entre conglomerados en dos grupos.
Mtodos de rotacin ortogonal
En la prctica el objetivo de todos los mtodos de rotacin es simplificar las
filas y columnas de la matriz de factores para facilitar la interpretacin. En una
Pg. 143
matriz de factores las columnas representan factores, con cada rengln

correspondiente a la ponderacin de las variables a travs de los factores. Al
simplificar los renglones, se hacen tantos valores en cada fila tan cercanos a
cero como sea posible (i.e. maximizando la ponderacin de una variable con un
factor nico). Simplificando las columnas, se hacen tantos valores en las
columnas tan cercanos a cero como sea posible (i.e. hacer el mximo nmero
de ponderaciones altas como sea posible). Se han desarrollado tres mtodos
para lo anterior como sigue:
Quartimax: para simplificar las filas de la matriz; o sea, que Quartimax se
enfoca a rotar los factores iniciales de manera que las variables tengan la
mayor ponderacin posible de un factor y la mnima de los otros. Aunque este
mtodo no ha sido eficiente.
Varimax: se centra en simplificar las columnas de la matriz factorial. La
mxima simplificacin posible se logra cuando solo hay 1s y 0s en la columna.
Es decir que VARIMAX maximiza la suma de variancias de ponderaciones
requeridas de la matriz factorial. Este mtodo ha probado ser un mtodo
analtico efectivo para obtener una rotacin ortogonal de factores.
Equimax:
Es un compromiso entre las anteriores. Trata de simplificar los renglones y las
columnas, no se utiliza frecuentemente.
Mtodos de rotacin oblicua:
Estos mtodos son similares a las rotaciones ortogonales excepto que permiten
factores correlacionados en vez de mantener la independencia de los factores
rotados.
En general no hay reglas para seleccionar uno de los mtodos anteriores.
Criterios para la significancia de ponderacin de factores en las variables
Pg. 144
De manera prctica si las ponderaciones son de 0.30 se considera que

cumplen el nivel mnimo; ponderaciones de 0.40 son importantes; 0.50 o
mayores son significativas en la prctica. Como la ponderacin del factor es la
correlacin de la variable y el factor, la ponderacin al cuadrado es la cantidad
representada de la varianza total por el factor. De esta forma con 0.3 se tiene
un 10% de explicacin y un 0.5 de ponderacin denota que un 25% de la
varianza es representada por el factor.
Evaluando la significancia estadstica
Con base en un nivel de significancia de 0.05, un nivel de potencia del 80% y
errores estndar asumidos se el doble de los coeficientes de correlacin
convencionales, se tiene la tabla siguiente:
Ponderacin del
factor
0.30
0.35
0.40
0.45
0.50
0.55
0.60
0.65
0.70
Tamao de muestra
requerida para tener
significancia
350
300
250
200
150
100
85
70
60
Resumiendo las guas para la significancia de los factores son:

(1) entre mayor sea el tamao de muestra, el valor de ponderacin
significativo se reduce.
(2) Entre ms variables sean consideradas en el anlisis, ms pequea es
la ponderacin que se considera significativa.
(3) Entre ms factores haya, mayor es la ponderacin en los factores
adicionales para que sea considerada significativa.
Cada columna de nmeros en la matriz representa un factor por separado. Las
columnas de nmeros representan las ponderaciones para cada una de las
variables. Identificar la ms alta ponderacin para cada variable. Recordar que
Pg. 145
para tamaos de muestra similares a 100 se considera significante 0.3. La

comunalidad para cada variable representa la cantidad de varianza
considerada por la solucin factorial para cada variable. Evaluar la comunalidad
de las variables, es decir identificar las que tengan ms del 50%, ya que las
que tengan menos no tienen suficiente explicacin. El nombre de los factores
se desarrolla de manera intuitiva, con base en las variables con una mayor
ponderacin se consideran ms importantes y tienen una mayor influencia para
el nombre seleccionado para representar al factor.
Validacin del anlisis factorial

Se trata de evaluar el grado de generalizacin de los resultados en la poblacin
y la influencia potencial de casos individuales en los resultados totales.
El alfa de Cronbach es una medida del coeficiente de confiabilidad que evala
la consistencia de toda la escala. Este ndice es la relacin positiva del nmero
de tems en la escala, donde 0.7 se considera adecuado.
Pg. 146
Ejemplo con datos de alimentos:

Continuando con el ejemplo del anlisis de componentes que se realiz en el
captulo anterior para el caso de alimentos en diferentes pases, se identificaron
dos componentes principales que excedan un eigenvalor de 1.0, como sigue:
Scree Plot of RMEAT, ..., FR-VEG

4
Eigenvalue
0
1
5
6
Factor Number
Parte del archivo de datos se muestra a continuacin:

Pas
1
2
RMEAT
X1
10.1
8.9
Etc.
WMEAT
X2
1.4
14
EGGS
X3
0.5
4.3
MILK
X4
8.9
19.9
FISH
X5
0.2
2.1
CERL
X6
42.3
28
STARCH
X7
0.6
3.6
NUTS
X8
5.5
1.3

1
Cargar los datos de tabla de alimentos.
Stat > Multivariate > Factor Analysis.
En Variables, X1, X2, X3, X4, X6, X7, X8, X9
En Number of factors to extract, 4.

5
En Method of Extraction, seleccionar Principal components
En Type of Rotation, seleccionar Varimax.
Click Graphs y seleccionar Loading plot for first 2 factors y Scree Plot.
8
Click Results y seleccionar Sort loadings.
Pg. 147
FR-VEG
X9
1.7
4.3
Seleccionar Storage e indicar columnas para ponderaciones,

coeficientes, Zs, eigenvalores, etc.
10 Click OK en cada uno de los cuadros de dilogo.

Factor Analysis: RMEAT, WMEAT, EGGS, MILK, FISH, CERL, STARCH, NUTS, FRVEG
Principal Component Factor Analysis of the Correlation Matrix
Los eigenvalores para los factores 1 y 2 son los siguientes:

Eigenvalues
4.00644
1.63500
1.12792
0.95466
Factores
F1
F2
F3
F4
Con los eigenvalores anteriores, se determina el modelo factorial:

X1
X2
X3
X4
X5
X6
X7
X8
X9
Variable
RMEAT
WMEAT
EGGS
MILK
FISH
CERL
STARCH
NUTS
FR-VEG
Factor1
-0.606
-0.622
-0.854
-0.756
-0.272
0.876
-0.595
0.841
0.221
Factor2
0.072
0.303
0.045
0.236
-0.827
0.299
-0.451
-0.183
-0.686
Factor3
0.316
-0.663
-0.193
0.410
0.341
-0.102
-0.258
0.058
-0.433
Factor4
0.632
-0.036
0.306
-0.003
-0.211
-0.006
-0.329
0.323
0.451
Communality
0.871
0.918
0.862
0.795
0.919
0.867
0.732
0.849
0.910
Variance
% Var
4.0064
0.445
1.6350
0.182
1.1279
0.125
0.9547
0.106
7.7240
0.858
La comunalidad de X1 RMEAT = 0.871 se calcula de la manera siguiente:

0.871 = 0.606^2+0.072^2+0.316^2+0.632^2
Como las comunalidades son relativamente altas (cercanas a la unidad), indica
que la mayor parte de la varianza para las variables X1 a X9 se acumula en los
factores F1 a F4.
Las ponderaciones de los factores que son mayores a |0.5|, sin importar el
signo, se analizan para mostrar como se relacionan las variables con los
factores. Se puede observar que: la variable X1 se explica fuertemente por los
Pg. 148
factores F1 y F4; la variable X2 se explica por los factores F1 y F3; las

variables X2 X3, X4, X6, X7 y X8 se relacionan fuertemente al factor 1 y X5 y
X9 al factor 2. Esto sugiere que una rotacin puede ayudar a definir los
factores.
Varimax Rotation
Variable
X1 RMEAT
X2 WMEAT
X3 EGGS
X4 MILK
X5 FISH
X6 CERL
X7 STARCH
X8 NUTS
X9 FR-VEG
Factor1 Factor2 Factor3 Factor4 Communality

0.051
-0.931
0.014
0.037
0.871
0.943
-0.127
-0.100
0.050
0.918
0.628
-0.664
0.163
0.020
0.862
0.197
-0.610
0.219
0.579
0.795
-0.226
-0.088
0.921
-0.104
0.919
-0.395
0.549
-0.624
-0.145
0.867
0.515
-0.004
0.683
-0.026
0.732
-0.638
0.263
-0.326
-0.515
0.849
-0.010
0.003
0.178
-0.937
0.910
Variance
% Var
2.2054
0.245
2.0749
0.231
1.9273
0.214
1.5165
0.168
7.7240
0.858
Sorted Rotated Factor Loadings and Communalities

Variable
WMEAT
NUTS
RMEAT
EGGS
MILK
FISH
STARCH
CERL
FR-VEG
Factor1
0.943
-0.638
0.051
0.628
0.197
-0.226
0.515
-0.395
-0.010
Factor2
-0.127
0.263
-0.931
-0.664
-0.610
-0.088
-0.004
0.549
0.003
Factor3
-0.100
-0.326
0.014
0.163
0.219
0.921
0.683
-0.624
0.178
Factor4
0.050
-0.515
0.037
0.020
0.579
-0.104
-0.026
-0.145
-0.937
Communality
0.918
0.849
0.871
0.862
0.795
0.919
0.732
0.867
0.910
Variance
% Var
2.2054
0.245
2.0749
0.231
1.9273
0.214
1.5165
0.168
7.7240
0.858
En este caso las variables X3, X4, X6, X7 y X8 se explican al menos por dos
factores, lo cual es mejor.
Loading Plot of RMEAT, ..., FR-VEG
CERL
0.50
Second Factor
0.25
NUTS
FR-VEG
0.00
STARCH
FISH
WMEAT
-0.25
-0.50
MI LK
EGGS
-0.75
RMEAT
-1.00
-0.50
-0.25
0.00
0.25
First Factor
0.50
Pg. 149
0.75
1.00
El modelo queda como sigue:

Variable
RMEAT
WMEAT
EGGS
MILK
FISH
CERL
STARCH
NUTS
FR-VEG
Factor1
-0.208
0.580
0.217
-0.130
-0.256
-0.027
0.259
-0.238
0.103
Factor2
-0.666
0.134
-0.297
-0.248
0.037
0.158
0.254
-0.128
-0.144
Factor3
-0.175
-0.188
-0.095
0.043
0.578
-0.252
0.369
-0.124
0.040
Factor4
-0.154
-0.123
-0.184
0.328
0.005
-0.004
-0.038
-0.292
-0.719
Obteniendo las graficas de Z1 vs. Z2 y Z3 vs. Z4 con los valores de los

coeficientes de los factores se tiene:
Z1
-2.08984
1.51952
0.54271
-0.67265
1.12632
0.28382
1.45824
-0.67673
0.03566
-1.73291
1.07856
0.84733
-0.62204
1.20389
-0.87260
1.07154
-1.02013
-0.51952
-0.48351
-0.27184
0.10789
-0.53941
-0.34330
1.23608
-0.66709
Z2
0.21229
-0.14373
-0.78648
0.77630
0.60458
-0.24185
0.86238
-0.14921
-1.84164
-0.89465
1.20405
-1.15498
-0.37440
-0.18081
0.00189
0.81779
1.36441
1.25002
0.41424
-0.39239
-1.21314
-2.17878
0.78311
-0.44858
1.70958
Z3
-1.48719
-0.67295
0.18603
-1.57884
-0.33966
1.21441
0.78301
0.93845
0.00237
-0.40999
-1.09708
-0.08258
-0.59829
-0.31569
1.50818
0.25040
2.63942
-1.03438
1.05124
0.76534
-0.71597
-0.17044
0.21603
0.05799
-1.10980
Z4
0.91607
-0.04645
-0.22398
-0.08663
0.02184
1.14642
0.03869
2.29981
-1.24522
-1.39879
-0.64712
0.51667
-1.17455
0.37021
1.24280
-0.66725
-1.71648
0.40083
-1.81043
1.37725
-0.11354
-0.12795
0.63639
0.00754
0.28389
Pg. 150
2
Yugoslavia
Portugal
Rumania
Hungra
Polonia
Checa Alemania orien
Bulgaria Rusia
Espaa
Z2
Albania
Noruega
Finlandia
Italia Suecia
Holanda Autria
Dinamarca
Alemania Occ
Blgica
Grecia
-1
I rlanda
Suiza
Francia
-2
Reino Unido
-2
-1
Z1
Finlandia
2
Suecia
1
Z4
Noruega
Dinamarca
Albania
Rusia
I rlanda
Holanda
Rumania
Yugoslavia
Bulgaria
Suiza
Alemania orien
Checa
Alemania Occ
Blgica
Autria Reino Unido
Polonia
Hungra
-1
I talia
Francia
Grecia
Portugal
Espaa
-2
-2
-1
Z3
2
Yugoslavia
Portugal
Rumania
Bulgaria
PoloniaAlemania orien
Rusia
Hungra
Checa
Espaa
Z2
Albania
Autria Holanda
I talia
Alemania Occ
Grecia
-1
Suiza
Finlandia
Suecia
Noruega
Dinamarca
Blgica
I rlanda
Francia
-2
Reino Unido
-2
-1
Z3
Pg. 151
2
Autria
Alemania orien
Alemania OccHolanda
Checa
Polonia
I rlanda
Hungra
Z1
Blgica
0
Espaa
Suecia
Rusia
Reino Unido Rumania
Yugoslavia
I talia
Finlandia
Noruega
Bulgaria
Portugal
-1
Dinamarca
Suiza
Francia
Grecia
Albania
-2
-2
-1
1
Z4
Pg. 152
Ejemplo con datos de HATCO

Prueba de la adecuacin del modelo, utilizando Minitab:
1. Stat > Basic statistics > Correlation
2. Variables X1, X2, X3, X4, X6, X7
3. Display p values
4. OK
Correlations: X1, X2, X3, X4, X6, X7
X1
-0.349
0.000
X2
X3
0.476
0.000
-0.472
0.000
X4
0.050
0.618
0.272
0.006
-0.095
0.347
X6
0.077
0.446
0.186
0.064
-0.015
0.880
0.788
0.000
X7
-0.483
0.000
0.470
0.000
-0.407
0.000
0.200
0.046
X2
X3
X4
X6
0.177
0.078

P-Value
De la matriz, 7 de 15 correlaciones son significativas estadsticamente. El valor

de MSA de 0.665 cumple con con el criterio para aplicar el anlisis factorial.
Anlisis factorial con Minitab:

1
Cargar los datos de HATCO.
En Variables, X1, X2, X3, X4, X6, X7

6
En Method of Extraction, seleccionar Principal components
Pg. 153
Click Graphs y seleccionar Loading plot for first 2 factors y Scree Plot.
8 Click Results y seleccionar Sort loadings. Click OK en cada uno de los

cuadros de dilogo.
Factor Analysis: X1, X2, X3, X4, X6, X7
Variable
X1
X2
X3
X4
X6
X7
Factor1
0.618
-0.763
0.695
-0.502
-0.434
-0.761
Factor2
-0.517
0.079
-0.357
-0.793
-0.827
0.170
Communality
0.649
0.588
0.610
0.881
0.873
0.609
Variance
% Var
2.4664
0.411
1.7425
0.290
4.2089
0.701
El primer factor contiene la mayor parte de la varianza y es un factor general

con alta ponderacin en cada variable. Las ponderaciones para el segundo
factor muestra tres variables que tambin tiene alta ponderacin (X1, X4 y X6).
La interpretacin es sumamente difcil y sin significado, por lo que se debe
considerar la rotacin de factores como sigue:
Varimax Rotation
Variable
X1
X2
X3
X4
X6
X7
Factor1
-0.783
0.718
-0.781
0.097
0.020
0.758
Factor2
0.188
0.268
0.010
0.934
0.934
0.186
Communality
0.649
0.588
0.610
0.881
0.873
0.609
Variance
% Var
2.3231
0.387
1.8858
0.314
4.2089
0.701
Las variables X1, X2 y X3 ponderacinnponderacin significativamente al factor

1 y las variables X4 y X6 ponderacinnponderacin significativamente al factor
2.
Pg. 154
Si se considera como punto de corte las ponderaciones con 0.55 o ms, el

factor 1 tiene cuatro ponderaciones significativas y el factor 2 tiene 2. Para el
factor 1, se ven dos grupos de variables. Las primeras son el nivel de precios
(X2) y la calidad del producto (X7) ambas con signos positivos y varan como
conjunto. Las otras dos, tiempo de entrega (X1) y flexibilidad de precios (X3)
tienen signos negativos tambin varan como conjunto.
En el factor 1, ambos grupos varan en sentido contrario, tal vez este factor sea
el valor bsico y representa un compromiso entre percepciones de precio o
calidad del producto y percepciones de tiempo de entrega y flexibilidad de
precios.
En el factor 2, la variable X4 (imagen de fabricacin) y X6 (imagen de la fuerza

de ventas) tal vez se pueda agrupar en imagen, ambas variables tienen el
mismo signo, actuando en la misma direccin.
La variable X5 (servicio en general) no se incluy en al anlisis.

Se tienen ahora dos factores como combinacin lineal de las variables para
efectos de realizacin de estudios:
Variable
X1
X2
X3
X4
X6
X7
Factor1
-0.356
0.297
-0.343
-0.020
-0.054
0.320
Factor2
0.154
0.097
0.058
0.498
0.503
0.050
Para verificar la validez del modelo se pueden hacer dos grupos de 50

observaciones y comparar sus matrices rotadas.
Pg. 155
Data 1 50: Rotated Factor Loadings and Communalities

Varimax Rotation
Variable
X1_1
X2_1
X3_1
X4_1
X6_1
X7_1
Factor1
-0.827
0.603
-0.686
0.156
0.136
0.702
Factor2
0.085
0.376
-0.177
0.919
0.924
0.201
Communality
0.691
0.506
0.502
0.869
0.871
0.533
Variance
% Var
2.0548
0.342
1.9178
0.320
3.9726
0.662
Data 51 100: Rotated Factor Loadings and Communalities

Varimax Rotation
Variable
X1_2
X2_2
X3_2
X4_2
X6_2
X7_2
Factor1
0.741
-0.785
0.815
-0.041
0.052
-0.824
Factor2
-0.313
-0.190
-0.154
-0.949
-0.923
-0.154
Communality
0.647
0.652
0.688
0.903
0.854
0.703
Variance
% Var
2.5127
0.419
1.9338
0.322
4.4466
0.741
Como se ve las dos rotaciones VARIMAX son comparables en trminos de

ponderaciones y comunalidades para las seis percepciones. As se puede
asegurar que los resultados son estables dentro de la muestra.
De la grfica Scree Plot con los Eigenvalores de los factores se tiene:
Scree Plot of X1, ..., X7
2.5
Eigenvalue
2.0
1.5
1.0
0.5
0.0
1
3
4
Factor Number
Slo dos factores sern mantenidos si se toma como referencia el Eigenvalor

de 1 o tres si se toma como referencia el criterio Scree.
La grfica de ponderaciones por variables se muestra a continuacin,
identificando tres grupos de variables:
Pg. 156
Loading Plot of X1, ..., X7

X6 X4
0.9
0.8
Second Factor
0.7
0.6
0.5
0.4
0.3
X2
X1
0.2
X7
0.1
X3
0.0
-1.0
-0.5
0.0
First Factor
0.5
En resumen se identifican dos dimensiones Valor bsico e Imagen, ahora se

pueden hacer planes alrededor de estas dos dimensiones en lugar de
considerar todas las variables separadas.
Ejemplo con datos del archivo EXH_MVAR

Se registran las siguientes caractersticas de 14 regiones censadas: poblacin
total (Pop), promedio de escolaridad (School), empleo total (Employ), empleo
en servicios de salud (Health), y valor promedio de casa (Home). Se desea
investigar que factores podran explicar la mayor parte de la variabilidad.
Como primer paso del anlisis factorial, se usa el mtodo de extraccin de
componentes principales y se examina la grfica de eigenvalores (Scree) para
apoyarnos en decidir sobre el nmero de factores.
Pop
5.935
1.523
2.599
4.009
4.687
8.044
2.766
6.538
6.451
3.314
3.777
School
14.2
13.1
12.7
15.2
14.7
15.6
13.3
17
12.9
12.2
13
Employ
2.265
0.597
1.237
1.649
2.312
3.641
1.244
2.618
3.147
1.606
2.119
Health
2.27
0.75
1.11
0.81
2.5
4.51
1.03
2.39
5.52
2.18
2.83
Pg. 157
1.53
2.768
6.585
13.8
13.6
14.9
0.798
1.336
2.763
0.84
1.75
1.91

1
En Variables, poner Pop-Home.
Click Graphs y seleccionar Scree plot. Click OK in each dialog box.

Factor Analysis: Pop, School, Employ, Health, Home
Variable
Pop
School
Employ
Health
Home
Factor1
-0.972
-0.545
-0.989
-0.847
0.303
Factor2
-0.149
-0.715
-0.005
0.352
-0.797
Factor3
0.006
-0.415
0.089
0.344
0.523
Factor4
0.170
-0.140
0.083
-0.200
0.005
Factor5
-0.067
0.001
0.085
-0.022
0.002
Communality
1.000
1.000
1.000
1.000
1.000
Variance
% Var
3.0289
0.606
1.2911
0.258
0.5725
0.114
0.0954
0.019
0.0121
0.002
5.0000
1.000
Factor3
0.011
-0.726
0.155
0.601
0.914
Factor4
1.782
-1.466
0.868
-2.098
0.049
Factor5
-5.511
0.060
6.988
-1.829
0.129

Variable
Pop
School
Employ
Health
Home
Factor1
-0.321
-0.180
-0.327
-0.280
0.100
Factor2
-0.116
-0.553
-0.004
0.272
-0.617
Pg. 158

3.0
Eigenvalue
2.5
2.0
1.5
1.0
0.5
0.0
1
3
Factor Number
Interpretacin de resultados
Cinco factores describen estos datos perfectamente, pero la meta es reducir el
nmero de factores requeridos para explicar la variabilidad de los datos.
La proporcin de la variabilidad explicada por los dos ltimos factores es
mnima (0.019 y 0.002 respectivamente) y pueden ser eliminadas sin
afectar al resultado. Los primeros dos factores juntos representan 86% de
la variabilidad mientras que tres factores representan 98% de la
variabilidad. La cuestin es si usar dos o tres factores, se requieren otras
corridas para decidir si usar dos o tres factores.
Se seleccionan dos factores como el nmero que representa los datos del
censo en base al anlisis de componentes principales. Se realiza una
extraccin de mxima verisimilitud y rotacin varimax para interpretar los
factores.
1
En Method of Extraction, seleccionar Maximum likelihood.
Pg. 159
Click Graphs y seleccionar Loading plot for first 2 factors.
Click Results y seleccionar Sort loadings. Click OK en cada uno de los
cuadros de dilogo.
Factor Analysis: Pop, School, Employ, Health, Home
Maximum Likelihood Factor Analysis of the Correlation Matrix
* NOTE * Heywood case
Variable
Pop
School
Employ
Health
Home
Factor1
0.971
0.494
1.000
0.848
-0.249
Factor2
0.160
0.833
0.000
-0.395
0.375
Communality
0.968
0.938
1.000
0.875
0.202
Variance
% Var
2.9678
0.594
1.0159
0.203
3.9837
0.797

Varimax Rotation
Variable
Pop
School
Employ
Health
Home
Factor1
0.718
-0.052
0.831
0.924
-0.415
Factor2
0.673
0.967
0.556
0.143
0.173
Communality
0.968
0.938
1.000
0.875
0.202
Variance
% Var
2.2354
0.447
1.7483
0.350
3.9837
0.797
Sorted Rotated Factor Loadings and Communalities

Variable
Health
Employ
Pop
Home
School
Factor1
0.924
0.831
0.718
-0.415
-0.052
Factor2
0.143
0.556
0.673
0.173
0.967
Communality
0.875
1.000
0.968
0.202
0.938
Variance
% Var
2.2354
0.447
1.7483
0.350
3.9837
0.797

Variable
Pop
School
Employ
Health
Home
Factor1
-0.165
-0.528
1.150
0.116
-0.018
Factor2
0.246
0.789
0.080
-0.173
0.027
Pg. 160
Loading Plot of Pop, ..., Home

1.0
School
0.8
Second Factor
Pop
0.6
Employ
0.4
0.2
Home
Health
0.0
-0.50
-0.25
0.00
0.25
First Factor
0.50
0.75
1.00
Estos resultados indican un caso Heywood (las varianzas menores al lmite de

convergencia especificado se ponen a cero y sus comunalidades a 1).
Se tienen tres tablas de ponderaciones y comunalidades: no rotadas, rotadas,
ordenadas y rotadas. Los factores no rotados explican el 79.7 de la variabilidad
de los datos y los valores de comunalidad indican que todas las variables sin
Home estn bien representadas por esos dos factores (comunalidad son 0.202
para Home, 0.875 1.0 para otras variables). El porcentaje de la variabilidad
total representada por los factores no cambia con la rotacin, sino despus de
rotar, pero despus de rotar, estos factores son mas claramente balanceados
en el porcentaje de variabilidad que ellos representan, siendo 44.7% y 35%,
respectivamente.
El ordenamiento es realizado por la ponderacin mxima absoluta para
cualquier factor. Las variables que tienen la mayor ponderacin absoluta en el
factor 1 se muestran primero en orden. Despus las variables con la
ponderacin mayor en el factor 2 y as sucesivamente. El factor 1 tiene su
ponderacin mayor positiva en Health (0.924), Employ (0.831) y Pop (0.718), y
-0.415 en Home, mientras que la ponderacin en School es baja. El factor 2
tiene una ponderacin positiva en School de 0.967 y ponderacin de 0.556 y
0.673 en Employ y Pop respectivamente, y una ponderacin pequea en
Health y Home.
Pg. 161
Se pueden ver las ponderaciones rotadas grficamente en la grfica de

ponderaciones (load graph). Ah se muestra para factor 1 con ponderaciones
altas en Pop, Emply, y Health y ponderacin negativa en Home. School tiene
una ponderacin alta positiva para el factor 2 y algo menor para Pop y Employ.
De los resultados se puede pensar en que el factor 1 sea un factor relacionado
con Cuidado de la salud tamao de la poblacin. El factor 2 puede ser
considerado como un factor relacionado con educacin tamao de la
poblacin.
En forma adicional Minitab muestra una tabla de coeficientes del factor.
Muestran como se calculan los factores. Minitab calcula los valores
multiplicando los coeficientes y los datos despus de corregirlos centrndolos
al restarle sus medias.
Pg. 162
10. ANLISIS DE REGRESIN MLTIPLE
Pg. 163
10. ANLISIS DE REGRESIN MLTIPLE

Es una tcnica estadstica que se puede usar para analizar la relacin entre
una variable dependiente simple (respuesta, criterio) y varias variables
independientes cuyos valores son conocidos para predecir la variable
dependiente. Los pesos denotan la contribucin relativa de las variables
independientes a la prediccin general y facilitar la interpretacin de la
influencia de cada variable en la prediccin, lo que se complica si hay
correlacin de las variables independientes.
El conjunto de variables independientes con sus pesos forma la Variate de
regresin, ecuacin de regresin o modelo de regresin, que es una
combinacin lineal de las variables independientes que mejor predicen la
variable dependiente.
Los supuestos de un anlisis de regresin mltiple son los siguientes:
Linealidad del fenmeno medido
Varianza constante de los trminos de error
Independencia de los trminos de error
Normalidad de la distribucin de los trminos de error.
Trminos clave
Coeficiente ajustado de determinacin (R2 ajustada): Es una mtrica

modificada del coeficiente de determinacin que toma en cuenta el
nmero de variables independientes incluidas en la ecuacin de
regresin y el tamao de muestra. A pesar de que la adicin de variables
independientes hace que se incremente el coeficiente de determinacin,
el coeficiente de determinacin ajustado se reduce si las variables
independientes tienen poco poder explicativo y/o si los grados de
libertad son muy pequeos. Este estadstico es til para comparar
ecuaciones con diferentes nmeros de variables independientes, con
diferentes tamaos de muestra, o ambos.
Regresin con todos los posibles subconjuntos: Mtodo de

seleccin de variables en el modelo que considera todas las
Pg. 164
combinaciones posibles de las variables independientes. Por ejemplo

para cuatro variables, se estiman modelos para una, dos, tres y cuatro
variables, identificando el modelo con la mayor capacidad predictiva.
Eliminacin hacia atrs: Mtodo de seleccin de variables en el

modelo que inicia con todas las combinaciones posibles de las variables
independientes para ir eliminando las que no tienen una contribucin
significativa a la prediccin.
Coeficiente beta: Coeficientes estandarizados de la regresin que

permite una comparacin directa de su potencia relativa explicatoria de
la variable dependiente.
Coeficiente de determinacin (R2): Mide la proporcin de la varianza

de la variable dependiente alrededor de su media que es explicada por
las variables predictoras independientes. El coeficiente puede variar
entre 0 y 1. Entre mayor sea su valor es mejor la prediccin de la
Colinealidad: Expresin de la relacin entre dos (colinealidad) o entre

varias (multicolinealidad) variables independientes. Dos variables
independientes tienen colinealidad total si coeficiente de correlacin es 1
y no tienen colinealidad si coeficiente de correlacin es cero.
La
multicolinealidad se presenta cuando una variable independiente est

muy correlacionada con otras variables independientes.
Coeficiente de correlacin (r.): Coeficiente que indica la fuerza de la

asociacin entre dos variables medibles. El signo (+) o (-) indica la
direccin de la relacin. +1 o -1 indica una correlacin perfecta positiva
(cuando aumenta una variable, aumenta la otra) o negativa (inversa
cuando aumenta una variable, la otra disminuye) y 0 sin correlacin.
Grados de libertad: En una regresin simple se estiman dos

parmetros, la interseccin (b0) y el coeficiente de la regresin para la
variable
independiente
(b1).
Por
tanto
los
grados
de
libertad
proporcionan una medida de cmo se restringen los datos para alcanzar

un cierto nivel de prediccin (n-2). Si el nmero de grados de libertad es
pequeo, la prediccin resultante no puede generalizarse, esta ser ms
robusta con un valor alto de grados de libertad.
Pg. 165
Variable ficticia: Es una variable independiente usada para contabilizar

el efecto que tienen diferentes niveles de una variable no medible al
predecir la variable dependiente. Para contabilizar los L niveles de una
variable independiente no medible, se requieren L-1 variables artificiales.
En el caso de Hombre Mujer se requiere una variable X con valores 0
y 1; para tres niveles se requerirn dos variables X1 y X2.
Adicin hacia delante: Mtodo de seleccin de variables en el modelo

que inicia sin las variables independientes para ir agregndolas con
base en su contribucin a la prediccin.
Homoestacidad: Descripcin de los datos para los cuales la varianza

de los trminos de error (e ) aparece constante sobre el rango de valores
de la variable independiente. Cuando los trminos de error tienen
varianza incremental o modulada, se dice que los datos tienen
Heteroestacidad.
Observacin influyente: Es una observacin que tiene una influencia

desproporcionada en uno o ms aspectos de los estimados de la
regresin, puede ser basada en valores extremos de las variables
independientes y dependiente o ambas.
Outlier: Es una observacin que tiene una diferencia significativa entre

el valor real de la variable dependiente y el valor de prediccin. Los
casos que son muy diferentes ya sea en sus variables independientes o
dependiente. Deben analizarse para poder eliminarlas.
Coeficiente de correlacin parcial: Valor que mide la fuerza de la

relacin entre la variable dependiente o criterio y una nica variable
independiente manteniendo constante los efectos de las otras variables
independientes. Es til para identificar la variable independiente con la
mayor capacidad predictiva incremental. Se le asocian los estadsticos
parciales de F y t as como su grfica de regresin parcial.
Potencia: Probabilidad de que se tenga una relacin significativa si

realmente existe. Complementa el nivel de significancia Alfa.
Error de prediccin: Diferencia entre los valores reales y estimados de

la variable dependiente para cada observacin en la muestra (residuos).
Pg. 166
Estadstico PRESS: Medida de validacin obtenida al eliminar cada

observacin una a la vez y estimando su valor dependiente con el
modelo de regresin estimado con las observaciones remanentes.
Variable de Regresin (variate): Combinacin lineal de variables

independientes
ponderadas
usadas
para
predecir
la
variable
dependiente.
Error estndar: El valor t de un coeficiente de regresin se obtiene

cuando se divide el valor del coeficiente entre el error estndar.
Estimacin por pasos: Mtodo de seleccionar variables para inclusin

en el modelo de regresin que inicia seleccionando el mejor predictor de
la variable dependiente. Las variables independientes adicionales se
seleccionan con base de su potencia explicatorio incremental que
pueden agregar al modelo de regresin (o en base a sus coeficientes de
correlacin significativos estadsticamente). Tambin se pueden eliminar
variables independientes si su potencia predictiva se reduce a niveles no
significativos cuando se agrega otra variable independiente al modelo.
Residuo estudentizado: Para minimizar el efecto de un outlier simple,

se calcula la desviacin estndar del residuo para la observacin i de los
estimados de la regresin omitiendo la observacin i-sima.
Tolerancia: Es una medida de colinealidad y multicolinealidad, es:
TOLi 1 Ri2
*
Ri2 es el coeficiente de determinacin para la variable de prediccin i por
las otras variables independientes. Conforme disminuye el valor de la

tolerancia la variable es mejor estimada por las otras variables
independientes (colinealidad).
Factor de inflacin de varianza (VIF): es un indicador del efecto que

las otras variables independientes tienen en el error estndar de un
coeficiente de regresin. El factor de inflacin de varianza est
directamente relacionado al valor de la tolerancia (VIFi = 1 / TOLi).
Valores grandes de VIF tambin indican un alto grado de colinealidad o
multicolinealidad entre las variables independientes.
Pg. 167
Frmulas:
La ecuacin de regresin simple es:
Y b0 b1V1
Donde:
bo = Trmino de intercepcin
b1 = coeficiente de la regresin.
Error de prediccin o residuo = diferencia entre valor real y estimado de la
El error estndar del estimado se determina como:
SEE
SSE
n2
Con SSE = Suma de cuadrados del error.

n = tamao de la muestra
El intervalo de confianza de prediccin se determina como:
IC Y t * SEE
La suma de cuadrados total es:

SST SSR SSE
n
i 1
i 1
i 1
( yi y ) 2 ( yi y i ) 2 ( y i y ) 2
y = promedio de todas las observaciones
yi = valor de la observacin individual i
y = valor estimado de la observacin i
El coeficiente de determinacin se calcula como sigue:

R2
SSR
SST
Para el caso de la regresin mltiple se tiene:

Y b0 b1V1 b2V2 e
Para probar la significancia de la regresin se utiliza el estadstico F:
SSR
F
SSE
dfr
dfe
Cada suma de cuadrados dividida entre sus grados de libertad representa la

varianza.
Pg. 168
DIAGNSTICO AVANZADO
ndice de condicin: Medicin de la cantidad de varianza asociada con un

Eigenvalor (valor caracterstico) de manera que un ndice grande indica un
alto grado de colinealidad.
Distancia de Cook (Di): Medida resumida de la influencia de una

observacin simple con base en los cambios totales en todos los dems
residuos cuando la observacin se excluye del proceso de estimacin. Los
valores mayores a 1 indican influencia significativa de la observacin en la
estimacin de los coeficientes de la regresin.
COVRATIO (razn de covarianza): Mide la influencia de una observacin

simple en conjunto completo de coeficientes de la regresin. Un valor
cercano a 1 indica poca influencia, si (COVRATIO 1) > 3 p/n (p es el
nmero de variables independientes +1 y n es el tamao de muestra), la
observacin se considera que tiene influencia.
Residuo excluido (deleted residual): Es el proceso de calcular residuos

en los cuales la influencia de cada una de las observaciones se excluye
cuando se calcula su residuo. Esto se logra al omitir la i-sima observacin
de la ecuacin de regresin usada para calcular el valor estimado Y.
DFBETA: Mide el cambio en un coeficiente de la regresin cuando una

observacin se omite del anlisis de la regresin, se establece en trminos
del coeficiente mismo, tambin se puede tener una versin estandarizada
SDBETA, donde sus valores son ajustados por sus errores estndar, se
definen cortes en 1 o 2 correspondientes a niveles de confianza de 0.10 y
0.05 respectivamente.
DFFIT: Mide el impacto de una observacin en el ajuste general del modelo,

con una versin estandarizada DFFIT. La mejor regla prctica es
calsificarclasificar como influenciables cualquier valor SDFFIT > 2 /
raizraz(p/n).
p es el nmero de variables independientes +1 y n es el
tamao de muestra.
Eigenvalor (valor caracterstico): Mide la cantidad de varianza contenida

en la matriz de correlacin de manera que la suma de los eigenvalores es
igual al nmero de variables. Tambin se conoce como raz latente o raz
caracterstica.
Pg. 169
Matriz sombrero: Matriz que contiene valores para cada observacin en la

diagonal conocida como matriz sombrero, que representan el impacto de la
variable dependiente observada en su valor estimado por la regresin. Si
todas las observaciones tuvieran la misma influencia, tendran un valor de
p/n. Si una observacin no tiene influencia, su valor ser -1/n, y cuando un
valor domina valdr (n-1)/n. Los valores que exceden a 2p/n para muestra
grandes o 3p/n para muestras pequeas (n<= 30) son candidatos como
observaciones influyentes.
Punto palanca (leverage point): Una observacin que tiene un impacto

sustancial en los resultados de la regresin dadas sus diferencias con otras
observaciones en una o ms de las variables independientes. La medida
ms comn de estos puntos es el valor sombrero contenido en la matriz
sombrero.
Distancia de Malahanobis (D2): Medida de la singularidad de una

observacin simple con base en las diferencias entre los valores de la
observacin y los valores promedio para todos los otros casos
de las
variables independientes. La influencia en la regresin por la observacin es

diferente para una o ms variables predictoras, causando un corrimiento en
la ecuacin de regresin.
Outlier (punto aberrante o lejano): Es una observacin que tiene una

diferencia sustancial entre sus valores observados y estimados en la
variable
dependiente
(un
residuo
grande)
entre
sus
variables
independientes y y los de otras observaciones. El objetivo de identificarlos

es que pueden representar de manera inapropiada el comportamiento de la
poblacin.
Matriz de descomposicin varianza de los coeficientes de regresin:

Mtodo para determinar la contribucin relativa de cada uno de los
eigenvalores a cada uno de los coeficientes estimados. Si dos o ms
coeficientes estn muy asociados con un eigenvalor simple (ndice de
condicin)
indica
que
est
presente
un
nivel
inaceptable
de
multicolinealidad.
Residuo: Medida de la estimacin predictiva de una observacin simple,

calculado como la diferencia del valor observado y el valor estimado de la
Pg. 170
variable dependiente. Se asume que los residuos tienen media cero y

varianza constante. Tambin sirven para identificar outliers y observaciones
influenciables.
Residuos estandarizados: Reescalado de los residuos a una base comn

dividiendo cada uno de los residuos entre la desviacin estndar de los
residuos. De esta manera los residuos estandarizados tienen una media de
cero y una desviacin estndar de uno. Los outliers son identificados como
las observaciones que tienen residuos mayores a 1 o 2 para niveles de
confianza de 0.10 y 0.05 respectivamente.
Residuos estudentizados: Difieren del residuo estandarizado en la forma

de calcular la desviacin estndar. Para minimizar la influencia de un outlier
simple, la desviacin estndar utilizada para estandarizar el residuo i-simo
se calcula de los estimados de la regresin excluyendo la observacin isima. Esto se hace de manera repetitiva para cada una de las
observaciones, cada vez se excluye la observacin de los clculos.
Evaluado la multicolinealidad
Corrida con SPSS V10
Regression
Variables Entered/Removed(b)
Model
1
Variables Entered
Variables Removed Method
X7, X5, X6, X3, X2, X4, X1(a)
. Enter
a All requested variables entered.

b Dependent Variable: X9
Model Summary
Model
1
R
.879(a)
R Square Adjusted R Square Std. Error of the Estimate

.772
.755
a Predictors: (Constant), X7, X5, X6, X3, X2, X4, X1

ANOVA(b)
Pg. 171
4.4508
Model
Sum of Squares df Mean Square
Regression
6177.812
1 Residual
1822.444 92
Total
8000.256 99
Sig.
882.545 44.552 .000(a)

19.809
a Predictors: (Constant), X7, X5, X6, X3, X2, X4, X1

b Dependent Variable: X9
Coefficients(a)
Unstandardized
Coefficients
Standardized
Coefficients
Collinearity
Statistics
t
Beta
Model
(Constant)
Sig.
Std. Error
-9.255
4.949
X1
1.956
2.045
X2
1.280
X3
Tolerance
VIF
-1.870
.065
.287
.957
.341
.027
36.445
2.155
.170
.594
.554
.030
33.176
3.270
.406
.507
8.057
.000
.627
1.596
X4
-3.937E-03
.671
.000
-.006
.995
.347
2.884
X5
4.600
4.012
.384
1.147
.255
.022
45.401
X6
1.230
.954
.106
1.290
.200
.370
2.701
X7
.426
.356
.075
1.198
.234
.629
1.589
a Dependent Variable: X9
Collinearity Diagnostics(a)
Variance Proportions
Dimension Eigenvalue
Model
1
Condition
Index
(Constant) X1
X2
X3
X4
X5
X6
X7
7.533
1.000
.00 .00 .00 .00 .00 .00 .00 .00
.251
5.474
.00 .00 .01 .01 .00 .00 .00 .01
.106
8.426
.00 .01 .01 .00 .01 .00 .04 .04
6.548E-02
10.726
.01 .00 .00 .04 .03 .00 .18 .09
2.463E-02
17.489
.01 .01 .01 .31 .00 .00 .00 .53
1.219E-02
24.861
.03 .00 .00 .07 .75 .00 .67 .05
Pg. 172
6.259E-03
34.692
.86 .00 .00 .52 .17 .00 .10 .28
8.354E-04
94.959
.09 .97 .97 .05 .04 .99 .01 .00
a Dependent Variable: X9
Faltan conceptos del captulo 4 y 4.
Pg. 173
Ejemplo:
Familia
Tarjetas
1
2
3
4
5
6
7
8
Total
4
6
6
7
8
7
8
10
TamanoTam
ao
2
2
4
4
5
5
6
6
Ingreso
14
16
14
17
18
21
17
25
Las instrucciones de Minitab para correr el ejemplo son:

1
2
Cargar datos
en Minitab.
Stat > Regression > Regression.
En Response, seleccionar Tarjetas.
En Predictors, seleccionar TamanoTamao e Ingreso.
Click Graphs.
En Residuals for Plots, seleccionar Standardized.
7 En Residual Plots, seleccionar Individual Plots. Seleccionar Histogram

of residuals, Normal plot of residuals, y Residuals versus fits. Click OK.
8 Click Options. en Display, seleccionar PRESS y predicted R-square.
Click OK en cada uno de los cuadros de dilogo.
Pg. 174
Normal Probability Plot of the Residuals

(response is Tarjetas)
99
95
90
Percent
80
70
60
50
40
30
20
10
5
-3
-2
-1
0
1
Standardized Residual
Regression Analysis: Tarjetas versus TamanoTamao, Ingreso

The regression equation is
Tarjetas = 0.48 + 0.632 TamanoTamao + 0.216 Ingreso

Predictor
Coef SE Coef
T
Constant
0.482
1.461 0.33
TamanoTamao
0.6322
0.2523
Ingreso
0.2158
0.1080 2.00
S = 0.780990
R-Sq = 86.1%
PRESS = 8.02177
P
0.755
2.51 0.054
0.102
R-Sq(adj) = 80.6%
R-Sq(pred) = 63.54%
Analysis of Variance
Source
Regression
Residual Error
Total
Source
DF
TamanoTamao
Ingreso
1
DF
2
5
7
SS
18.9503
3.0497
22.0000
MS
9.4751
0.6099
F
15.53
P
0.007
Seq SS
1 16.5143
2.4360
Interpretacin de resultados
Salida de sesin
El valor P en la tabla de ANOVA (0.000) muestra que el modelo

estmadoestimado por el procedimiento de regresin es significativo a un
alfa de 0.05, indicando que al menos un coeficiente es diferente de cero.
Pg. 175
Los valores P de los coeficientes estimados para tamanotamao es de

0.054 indicando que es significativo a un nivel alfa de 0.054. Sugiriendo
que el modelo de regresin simple es adecuado.
El valor de R cuadrado indica que los predoctores explican el 87.4% de

la varianza en Tarjetas. La R cuadrada ajustada es 85.9%, que
representa la contribucin del nmero de predictores en el modelo.
Ambos valores indican que el ajuste es adecuado.
El valor pronosticdopronosticado R cuadrado es 78.96%, dado que es

parecido a R cuadrado y r cuadrado ajustado, el modelo no parece estar
sobreajustado y tiene una buena habilidad de prediccin
Las observaciones 4 y 22 se identifican como no usuales dado que el

valor estandarizado de los residuos es mayor a 2. Indicando puntos
aberantesaberrantes o outliers.
Salida grfica
El histograma de los residuos muestra un patrn consistente con la

distribucin normal. El histograma es ms efectivo para grupos de ms
de 50 observaciones. La grfica de probabilidad normal es ms fcil de
interpretar con pequeas muestras.
En la grfica normal tambin sobresalen los outliers 4 y 22.
La grfica de residuos contra valores de prediccin muestra que los

residuos son ms pequeos conforme conforme los valores ajustados se
incrementan, indicando que no tienen varianza constante.
Pg. 176

Hacer un estudio de correlacin entre las variables independientes:
1
Cargar datos en Minitab.
Stat > Basic statistics > Correlation
Variables X1 X7 X9 indicar Show P value
OK

Correlations: X1, X2, X3, X4, X5, X6, X7, X9
X1
-0.349
0.000
X2
X3
0.476
0.000
-0.472
0.000
X4
0.050
0.618
0.272
0.006
-0.095
0.347
X5
0.612
0.000
0.513
0.000
0.064
0.524
0.299
0.003
X6
0.077
0.446
0.186
0.064
-0.015
0.880
0.788
0.000
0.241
0.016
X7
-0.483
0.000
0.470
0.000
-0.407
0.000
0.200
0.046
-0.055
0.586
0.177
0.078
X9
0.676
0.000
0.083
0.412
0.556
0.000
0.225
0.024
0.701
0.000
0.257
0.010
X2
X3
X4
X5
X6
X7
-0.192
0.055

P-Value
La variable X5 (servicio en general) est ms correlacionado con la respuesta

X9 con r = 0.701. X1 tambin est correlacionada con la respuesta sin embargo
tiene correlacin con X5 por lo que el uso de ambas es cuestionable.
Las instrucciones de Minitab para correr el ejemplo son:
1
Cargar datos en Minitab.
Stat > Regression > Regression.
Pg. 177
En Response, seleccionar X9 (utilizacin del producto).
En Predictors, seleccionar X1 X7.
Click Graphs.
En Residuals for Plots, seleccionar Standardized.
7 En Residual Plots, seleccionar Individual Plots. Seleccionar Histogram

of residuals, Normal plot of residuals, y Residuals versus fits. Click OK.
Regression Analysis: X9 versus X1, X2, X3, X4, X5, X6, X7
The regression equation is
X9 = - 9.25 + 1.96 X1 + 1.28 X2 + 3.27 X3 - 0.004 X4 + 4.60 X5 + 1.23 X6
+ 0.426 X7
Predictor
Constant
X1
X2
X3
X4
X5
X6
X7
Coef
-9.255
1.956
1.280
3.2702
-0.0039
4.600
1.2305
0.4261
S = 4.45075
SE Coef
4.949
2.045
2.155
0.4059
0.6714
4.012
0.9537
0.3557
R-Sq = 77.2%
T
-1.87
0.96
0.59
8.06
-0.01
1.15
1.29
1.20
PRESS = 2144.13
P
0.065
0.341
0.554
0.000
0.995
0.255
0.200
0.234
R-Sq(adj) = 75.5%
R-Sq(pred) = 73.20%
Analysis of Variance
Source
Regression
Residual Error
Total
Source
X1
X2
X3
X4
X5
X6
X7
DF
1
1
1
1
1
1
1
DF
7
92
99
SS
6177.81
1822.44
8000.26
MS
882.54
19.81
F
44.55
P
0.000
Seq SS
3659.76
927.88
1424.10
80.48
18.20
38.97
28.43
Unusual Observations
Obs
7
11
14
22
55
100
X1
4.60
2.40
3.70
3.40
3.80
2.50
X9
46.000
32.000
38.000
35.000
39.000
33.000
Fit
58.734
41.365
47.833
34.870
33.433
43.721
SE Fit
1.379
1.014
1.098
2.711
2.712
1.049
Residual
-12.734
-9.365
-9.833
0.130
5.567
-10.721
St Resid
-3.01R
-2.16R
-2.28R
0.04 X
1.58 X
-2.48R
R denotes an observation with a large standardized residual.

X denotes an observation whose X value gives it large influence.
Pg. 178
Normplot of Residuals for X9

Normal Probability Plot of the Residuals
(response is X9)
99.9
99
Percent
95
90
80
70
60
50
40
30
20
10
5
1
0.1
-3
-2
-1
0
1
Residuals Versus the Fitted Values

(response is X9)
-1
-2
-3
20
30
40
Fitted Value
50
Pg. 179
60
11. ANLISIS DE CORRESPONDENCIA
Pg. 180
11. Anlisis de correspondencia

A. Anlisis de correspondencia simple
El anlisis de correspondencia simple ayuda a explorar las relaciones en una
clasificacin de dos vas. Puede operar tambin en tres vas y cuatro vas dado
que pueden reducirse a tablas de dos vas. Este procedimiento descompone
una tabla de contingencia de manera similar a como el anlisis de
componentes principales descompone datos continuos multivariados. Se
realiza un anlisis eigen de los datos, y la variabilidad es dividida en
dimensiones relevantes y asociada con renglones y/o columnas.
El anlisis de correspondencia realiza un anlisis de componentes principales
ponderados en una tabla de contingencia. Si la tabla tiene r renglones y c
columnas, el nmero de dimensiones relevantes es el ms pequeo de (r-1) y
(c-1). Como con componentes principales, la variabilidad se divide, pero en
lugar de particionar la varianza total, el anlisis de correspondencia simple
particiona el estadstico c2 de Pearson (similar al de la prueba de asociacin).
Tradicionalmente, el anlisis de correspondencia usa c2/n, denominado inercia
total o inercia, en lugar de c2. Las inercias asociadas con todos los
componentes principales se suman hasta la inercia total. Idealmente, los
primeros uno, dos o tres componentes deben contener la inercia total.
Los subespacios dimensionales ms bajos se expanden por los componentes
principales. El primer eje principal se selecciona de manera que contenga la
mayor cantidad de inercia; el segundo eje principal se selecciona de manera
que contenga la mayor cantidad de la inercia remanente, etc. Los subespacios
son anidados, de modo que el mejor subes paci de una dimensin es un
subes paci del mejor subespacio de dos dimensiones, etc.
La coordenada principal para el perfil del rengln i y compnente (eje) k es la
coordenada de la proyeccin del perfil del rengln i en el componente k. Las
coordenadas del rengln estandarizado para el componente k son las
Pg. 181
coordenadas principales para el componente k dividido por la raz cuadrada de

la inercia k-sima.
De igual manera, la coordenada principal para el perfil de la columna j y el
componente k es la coordenada de la proyeccin del perfil de columna j en el
componente k. Las coordenadas estandarizadas de columna para el
componente k son las coordenadas de la columna principal para el componente
k dividido por la k-sima inercia.
La tabla de contingencia puede ser analizada en trminos de perfiles de
renglones y columnas. Un perfil de rengln es una lista proporciones de rengln
que se calculan de los nmeros de la tabla de contingencia. Especficamente,
el perfil del rengln i es (ni1/ni., ni2/ni.,.,nic/ni.). Un perfil de columna es una
lista de proporciones de columna, donde nij, es la frecuencia en el rengln i y la
columna j de la tabla y ni., es la suma de las frecuencias en el rengln i.
Especficamente, el perfil para la columna j es (n1j/n.j, n2j/n.,, , nrj/n.j), donde
n.j, es la suma de las frecuencias en la columna j.
Los dos anlisis son matemticamente equivalentes, el que se seleccione es
que sea ms natural para un anlisis dado. En general, es interesante estudiar
como difieren los perfiles de rengln o de columna uno de otro.
Los perfiles de rengln son vectores de longitud c y por tanto se encuentran en
un espacio dimensional de c-dimensiones (de manera similar, los perfiles de
columna se encuentran en un espacio r-dimensional).
Como esta dimensin es normalmente alta para permitir una interpretacin
fcil, se desea encontrar un espacio de menor dimensin (de preferencia no
ms de dos o tres) que se encuentre cercano a todos los perfiles de renglones
(o puntos de perfiles de columnas). Despus se pueden proyectar estos puntos
de los perfiles en el subespacio y estudiar las proyecciones. Si las
proyecciones son cercanas a los perfiles, no se pierde mucha informacin,
trabajando en dos o tres dimensiones permite estudiar los datos ms fcilmente
y, en particular, permite examinar las grficas. El proceso es similar a
Pg. 182
seleccionar un nmero pequeo de componentes principales para resumir la

variabilidad de los datos continuos.
Si d = el ms pequeo de (r-1) y (c-1), entonces los perfiles de rengln (o
perfiles equivalentes de columna) se encuentran en un subespacio ddimensional del espacio c-dimensional completo (o su equivalente rdimensional completo). De sta forma, hay a lo ms d componentes.
Ejemplo:
Del texto de M. J. Greenacre, Correspondence Analysis in Practice, by p.75. 796
investigadores fueron clasificados en diez disciplinas acadmicas y cinco
categoras de fondos, A es la categora ms alta, D es la categora ms baja y
E es categora sin fondeo. Las disciplinas son renglones y las categoras son
columnas. Se desea saber como las disciplinas se comparan unas con otras
respecto a las categoras de fondeo, se forma que se realiza un anlisis de
correspondencia con una orientacin a renglones.
Como informacin complementaria se incluye: un rengln para investigadores
de museos no incluida en el estudio y un rengln para matemticas y
estadstica.
Los datos colectados son los siguientes:
Archivo
Tabl.Mtw
CT1
3
1
6
3
10
3
1
0
2
2
CT2
19
2
25
15
22
11
6
12
5
11
CT3
39
13
49
41
47
25
14
34
11
37
CT4
14
1
21
35
9
15
5
17
4
8
CT5
10
12
29
26
26
34
11
23
7
20
RowNames
Geology
Biochemistry
Chemistry
Zoology
Physics
Engineering
Microbiology
Botany
Statistics
Mathematics
ColNames
A
B
C
D
E

1
Open worksheet EXH_TABL.MTW.
Pg. 183
RowSupp1
4
12
11
19
7
RowSupp2
4
16
48
12
27
RSNames
Museums
MathSci
Stat > Multivariate > Simple Correspondence Analysis.
3 Seleccionar en Columns of a contingency table, CT1-CT5. En Row

names, seleccionar RowNames. En Column names, seleccionar ColNames.
4
Click Results y seleccionar Row profiles. Click OK.
5 Click Supp Data. En Supplementary Rows, indicar RowSupp1 RowSupp2.

En Row names, indicar RSNames. Click OK.
6 Click Graphs. Seleccionar Show supplementary points in all plots.
Seleccionar Symmetric plot showing rows only y Asymmetric row plot
showing rows and columns.
7
Click OK in each dialog box.

Simple Correspondence Analysis: CT1, CT2, CT3, CT4, CT5
Perfiles por rengln: Se muestra la proporcin de cada una de las categoras

de rengln por columna. As, de la clase de Geologa, 3.5% est en columna A,
22.4% en columna B, etc. La masa de la fila de Geologa, 0.107, es la
proporcin de todas las materias de Geologa en el conjunto de datos.
Row Profiles
Geology
Biochemistry
Chemistry
Zoology
Physics
Engineering
Microbiology
Botany
Statistics
Mathematics
Mass
A
0.035
0.034
0.046
0.025
0.088
0.034
0.027
0.000
0.069
0.026
0.039
B
0.224
0.069
0.192
0.125
0.193
0.125
0.162
0.140
0.172
0.141
0.161
C
0.459
0.448
0.377
0.342
0.412
0.284
0.378
0.395
0.379
0.474
0.389
D
0.165
0.034
0.162
0.292
0.079
0.170
0.135
0.198
0.138
0.103
0.162
E
0.118
0.414
0.223
0.217
0.228
0.386
0.297
0.267
0.241
0.256
0.249
Mass
0.107
0.036
0.163
0.151
0.143
0.111
0.046
0.108
0.036
0.098
Anlisis de la tabla de contingencia: se muestra la descomposicin de la

inercia total. Se muestra el resumen de la descomposicin de una tabla de
contingencia de 10 x 5 en 4 componentes. La columna denominada inercia
contiene el valor Chi cuadrada / n para cada componente. De la inercia total,
65.972 / 796 = 0.0829, 47.2% est contenida en el primer componente, 36.66%
por el segundo componente, etc. Aqu, 65.972 es el estadstico Chi cuadrada
que se debera obtener si se realizara la prueba Chi cuadrada de asociacin
con esta tabla de contingencia.
Pg. 184
Analysis of Contingency Table

Axis
1
2
3
4
Total
Inertia
0.0391
0.0304
0.0109
0.0025
0.0829
Proportion
0.4720
0.3666
0.1311
0.0303
Cumulative
0.4720
0.8385
0.9697
1.0000
Histogram
******************************
***********************
********
*
Contribuciones de rengln: como no se especific el nmero de

componentes, se calculan dos.
La columna Quality, es la proporcin de la inercia de rengln

representada por los dos componentes. Los renglones Zoology y
Geology, con Quality de 0.928 y 0.916, respectivamente, estn mejor
representados entre los renglones por los dos componentes, mientras
que Math tiene la representacin ms dbil con 0.319.
La columna Mass tiene el mimo significado que en la tabla de perfiles de

Rengln la proporcin de la clase en el conjunto completo de datos.
La columna denominada Inert, es la proporcin en la que contribuye

cada rengln en la inercia total. As, Geology contribuye con 13.7% del
estadstico Chi cuadrado total.
Row Contributions
ID
1
2
3
4
5
6
7
8
9
10
Name
Geology
Biochemistry
Chemistry
Zoology
Physics
Engineering
Microbiology
Botany
Statistics
Mathematics
Qual
0.916
0.881
0.644
0.929
0.886
0.870
0.680
0.654
0.561
0.319
Mass
0.107
0.036
0.163
0.151
0.143
0.111
0.046
0.108
0.036
0.098
ID
1
2
3
4
5
6
7
8
9
Name
Geology
Biochemistry
Chemistry
Zoology
Physics
Engineering
Microbiology
Botany
Statistics
Component
Coord
Corr
-0.303 0.861
0.455 0.762
-0.073 0.510
-0.102 0.083
-0.027 0.006
0.292 0.749
0.110 0.671
0.039 0.029
-0.014 0.007
Inert
0.137
0.119
0.021
0.230
0.196
0.152
0.010
0.067
0.012
0.056
Component
Coord
Corr
-0.076 0.055
-0.180 0.119
-0.038 0.134
0.327 0.846
-0.316 0.880
0.117 0.121
-0.013 0.009
0.179 0.625
-0.125 0.554
-0.107 0.240
2
Contr
0.322
0.248
0.029
0.052
0.003
0.310
0.018
0.005
0.000
Pg. 185
1
Contr
0.016
0.030
0.006
0.413
0.365
0.039
0.000
0.088
0.014
0.029

10
Mathematics
0.061
0.079
0.012
Renglones suplementarios: esta tabla se puede interpretar de manera similar

a la tabla de contribuciones por rengln.
Supplementary Rows
ID
1
2
Name
Museums
MathSci
Qual
0.556
0.559
Mass
0.067
0.134
Inert
0.353
0.041
Component
Coord
Corr
0.314 0.225
-0.112 0.493
1
Contr
0.168
0.043
Component
Coord
Corr
-0.381 0.331
0.041 0.066
2
Contr
0.318
0.007
Contribuciones de columna: aqu se muestra que dos componentes explican

la mayora de la variabilidad en las categoras de fondeo B, D, y E. Las
categoras de fondeo A, B, C y D contribuyen ms al componente 1, mientras
que la categora sin fondos E, contribuye ms al componente 2.
Column Contributions
ID
1
2
3
4
5
Name
A
B
C
D
E
Qual
0.587
0.816
0.465
0.968
0.990
Mass
0.039
0.161
0.389
0.162
0.249
Inert
0.187
0.110
0.094
0.347
0.262
Component
Coord
Corr
-0.478 0.574
-0.127 0.286
-0.083 0.341
0.390 0.859
0.032 0.012
1
Contr
0.228
0.067
0.068
0.632
0.006
Component
Coord
Corr
-0.072 0.013
-0.173 0.531
-0.050 0.124
-0.139 0.109
0.292 0.978
2
Contr
0.007
0.159
0.032
0.103
0.699
Grfica de Renglones: muestra las coordenadas principales de rengln. El

componente 1, que mejor explica Zoologa y Fsica, muestra dos clases
removidas desde el origen, pero con signo contrario. El componente 1 podr
ser pensado como contraste de las ciencias biolgicas y Botnica con la Fsica.
El componente 2 podra pensarse como contraste de Bioqumica e Ingeniera
con Geologa.
Pg. 186
Row Plot
0.5
Biochemistry
0.4
Engineering
Component 2
0.3
0.2
0.1
Physics
0.0
Microbiology
Mathematics
MathSci
Statistics
Botany
Chemistry
Zoology
-0.1
-0.2
Geology
-0.3
Museums
-0.4
-0.4 -0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4 0.5
Component 1
Grfica asimtrica de renglones:
los renglones son escalados en
coordenadas principales y las columnas son escaladas en coordenadas

estndar. Entre las clases de fondeo, el Componente 1 contrasta los niveles de
fondeo, mientras que el componente 2 contrasta de los que se fondean (A a D)
contra los que no se fondean . Entre las disciplina, la fsica tiende a tener el
mayor nivel de fondeo y la Zoologa tiene el fondeo ms bajo. La Bioqumica
tiende a tener el punto medio del nivel de fondeo, pero es el ms alto entre los
investigadores sin fondeo. Los museos tienden a estar fondeados, pero en un
menor nivel que los investigadores acadmicos.
Asymmetric Row Plot

2
Component 2
Biochemistry
Engineering
Microbiology
Physics
MathSciBotany
Mathematics
Chemistry StatisticsZoology
C
Geology Museums
-1
-2
-3
-3
-2
-1
0
Component 1
Pg. 187
B. Anlisis de correspondencia mltiple

El anlisis de correspondencia mltiple extiende al anlisis de correspondencia
simple al caso de tres o ms variables categricas. El anlisis de
correspondencia mltiple realiza un anlisis de correspondencia simple en una
matriz de variables indicadoras donde cada columna de la matriz corresponde
a un nivel de variable categrica. En vez de tener una tabla de dos vas, la
tabla multi va se resume a una dimensin. Al moverse del procedimiento
simple al mltiple. Se gana informacin en un nmero potencial mayor de
variables, pero se puede perder informacin en como los renglones y las
columnas se relacionan unas con otras.
El anlisis de correspondencia mltiple descompone una matriz de variables

indicadoras formadas de todas las variables consideradas. No se parece al de
correspondencia simple, donde las columnas y renglones son de una variable,
aqu todas las clases de variables son contribuyentes de columnas.
El anlisis de correspondencia mltiple realiza un anlisis de componentes
principales ponderado de la matriz de variables indicadoras. Si el nmero de
categoras en las j columnas categricas son c1, c2, , cj, el nmero de
dimensiones relevantes es la suma de (ci-1), con i = 1, 2, ., j. Como en el
anlisis de correspondencia simple, el anlisis de correspondencia mltiple
particiona el estadstico Chi cuadrada de Pearson. A diferencia del anlisis de
correspondencia simple, no se pueden analizar ya sean los perfiles de rengln
o de columna hay solo perfiles de columnas --. Dado que no hay renglones,
este anlisis ofrece solo una grfica una grfica de coordenadas de
columnas.
Ejemplo:
Los accidentes de automvil se clasifican de acuerdo al tipo de accidente en:
colisin o volcadura; severidad del accidente (no severo y severo); si o no el
chofer fue expulsado; y el tamao del coche (pequeo o estndar). Se utiliza el
Pg. 188
anlisis de correspondencia mltiple para examinar como las categoras en

esta tabla de cuatro vas se relacionan unas con otras.
1
Open worksheet EXH_TABL.MTW.
Stat > Multivariate > Multiple Correspondence Analysis.
3 Seleccionar Categorical variables, e indicar CarWt DrEject AccType

AccSever.
4
En Category names, seleccionar AccNames.
Click Graphs. seleccionar Display column plot.
7 Click OK en cada uno de los cuadros de dilogo.

Multiple Correspondence Analysis: CarWt, DrEject, AccType, AccSever
Anlisis de la matriz indicadora: esta tabla da un resumen de la

descomposicin de las variables. La columna denominada Inercia es el valor de
la Chi cuadrada / n contenida por cada componente. De la inercia total de 1,
40.3%, 25.2%, 19.0% y, 15.5% son contenidas en los componentes primero al
cuarto respectivamente.
Analysis of Indicator Matrix
Axis
1
2
3
4
Total
Inertia
0.4032
0.2520
0.1899
0.1549
1.0000
Proportion
0.4032
0.2520
0.1899
0.1549
Cumulative
0.4032
0.6552
0.8451
1.0000
Histogram
******************************
******************
**************
***********
Contribuciones de columna: como no se especific el nmero de

componentes, se calculan dos.
La columna Quality, es la proporcin de la inercia de columna

representada por los dos componentes. Las categoras tamao de coche
(pequeo, estndar) con Qual = 0.965, mientras que las categoras de
expulsin son al menos representadas por Qual = 0.474. Cuando hay
solo dos categoras para cada clase, cada una es representada de
Pg. 189
manera similar por cualquier componente, pero esto puede no ser cierto
para ms de dos categoras.
La columna Mass tiene el mismo significado que en la tabla de perfiles

de Rengln la proporcin de la clase en el conjunto completo de datos.
En este ejemplo CarWt, DrEject, AccType, y AccServer se combinan
para una proporcin de 0.25.
La columna denominada Inert, es la proporcin en la que contribuye

cada columna en la inercia total. Las categoras coches pequeos,
expulsados, y volcaduras tienen la mayor inercia, sumando 61.4%, que
indica que estas categoras estn ms disociadas de las dems.
Column Contributions
ID
1
2
3
4
5
6
7
8
Name
Small
Standard
NoEject
Eject
Collis
Rollover
NoSevere
Severe
Qual
0.965
0.965
0.474
0.474
0.613
0.613
0.568
0.568
Mass
0.042
0.208
0.213
0.037
0.193
0.057
0.135
0.115
Inert
0.208
0.042
0.037
0.213
0.057
0.193
0.115
0.135
Component
Coord
Corr
0.381 0.030
-0.078 0.030
-0.284 0.472
1.659 0.472
-0.426 0.610
1.429 0.610
-0.652 0.502
0.769 0.502
1
Contr
0.015
0.003
0.043
0.250
0.087
0.291
0.143
0.168
Component
Coord
Corr
-2.139 0.936
0.437 0.936
-0.020 0.002
0.115 0.002
0.034 0.004
-0.113 0.004
-0.237 0.066
0.280 0.066
2
Contr
0.771
0.158
0.000
0.002
0.001
0.003
0.030
0.036
La informacin para los compoinentes es como sigue:
La columna denominada Coord da las coordenadas de la columna. Ejec.

Y Rollover tienen las coordenadas mayores para el componente 1 y
Small tiene la coordenada ms grande en valor absoluto para el
componente 2. El signo y su tamao relativo son tiles para interpretar
los componentes.
La columna Corr representa la contribucin del componente respectivo a

la inercia del rengln. Aqu, el Componente 1 contiene de 47 a 61% de la
inercia de las categoras de expulsin, tipo de colisin, y severidad del
accidente, pero explica solo el 30% de la inercia del tamao de coche.
Contr, la contribucin del rengln a la inercia del eje, muestra Ejec. Y

Rollover contribuyendo a la mayora del, con componente 1 (Contr =
0.250 y 0.291, respectivamente). El componente 2, por otra parte
Pg. 190
contiene el 93.6% de la inercia de la categora del tamao del coche con

Small contribuyendo con el 77.1% de la inercia del eje.
Grfica de columna: Como la contribucin para el Componente 1 indica, Ejec.
Y Rollover estn ms distantes del origen. Este componente constrasta Ejec. Y
Rollover y de alguna manera Severe y NoSevere. El Componente 2 separa
Small de las otras categoras. Sin embargo dos componentes pueden no ser
adecuados para explicar la variabilidad de esos datos.
Column Plot
2
Component 2
1
Standard
Severe
NoEject
Collis
NoSevere
Eject
Rollover
-1
-2
Small
-2
-1
0
Component 1
Pg. 191
12. ESCALADO MULTIDIMENSIONAL
Pg. 192
12. Escalado Multidimensional

El escalado multidimensional intenta encontrar la estructura de un conjunto de
medidas de distancias entre objetos o casos. Esto se logra al asignar
observaciones a localidades especficas en un espacio conceptual (de dos o
tres dimensiones) de tal manera que las distancias entre puntos en el espacio
se ajusten a las diferencias tan cerca como sea posible. En muchos casos, las
dimensiones de este espacio conceptual puede ser interpretado y usado
posteriormente para interpretar los datos. Si se han medido las variables
objetivamente, se puede utilizar el escalado multidimensional como una tcnica
de reduccin de datos. Se puede aplicar tambin a calificaciones subjetivas de
diferencias entre objetos o conceptos. Adicionalmente, el procedimiento puede
manejar
datos
no
similares
de
fuentes
mltiples,
como
diferentes
encuestadores o encuestados.
Por ejemplo, Cmo percibe la gente las relaciones entre diferentes coches? Si
se tienen datos de encuestas indicando calificaciones de similaridad entre
diferentes fabricantes y modelos de coches, el escalado multidimensional
puede
ser
utilizado
para
identificar
dimensiones
que
describan
las
percepciones de los clientes.

Se podra encontrar por ejemplo, que el precio y tamao de un vehculo define
un espacio de dos dimensiones, que contiene las similaridades reportadas por
los encuestados.
Construyendo un mapa de la matriz de distancias
El escalado multidimensional es una tcnica que est diseada para construir
un mapa mostrando las relaciones entre un nmero de objetos, dada slo una
tabla de distancias entre ellos. El mapa puede estar en una dimensin (si
caen en una lnea), en dos dimensiones (si los objetos se encuentran en un
plano), en tres dimensiones ( si los objetos pueden ser representados por
puntos en el espacio), o en un nmero mayor de dimensiones.
Por ejemplo, las distancias entre cuatro objetos A, B, C y D se tiene:
Pg. 193
A
B
C
D
A
0
6
6
2.5
B
6
0
9.5
7.8
C
6
9.5
0
3.5
D
2.5
7.8
3.5
0
B
A
La distancia al mismo objeto es cero. El objeto puede ser reconstruido con

base en las distancias de la matriz.
Procedimiento para escalado multidimensional
El escalado multidimensional clsico inicia con una matriz de distancias entre n
objetos que tienen ij , la distancia del objeto i al objeto j, en el rengln i-simo
y la columna j-sima. El nmero de dimensiones t, para el mapeo de objetos es
fijo para una solucin en particular. Los pasos que se siguen en los programas
computacionales son los siguientes:
1. Una configuracin inicial es preparada para los n objetos en t dimensiones,
i.e., se asumen las coordenadas (x1, x2, , xt) para cada objeto en un espacio
dimensional t.
2. Se calculan las distancias euclidianas entre los individuos para la
configuracin. Sea dij la distancia entre individuos i y j.
3. Se hace una regresin de dij sobre ij, la ltima es la distancia entre
individuos i y j con base en los datos de entrada.
La regresin puede ser lineal, polinmica o monotnica. Por ejemplo una
regresin lineal asume que:
d ij a b ij
Pg. 194
La regresin monotnica asume que si varia delta puede incrementar de la dij o

mantenerse constante, sin establecerse una relacin entre las variables.
Las distancias obtenidas
dij a b ij
de la regresin
disparidades, que son las distancias ij
se denominan
escaladas para ajustar a la
configuracin de dij tan cerca como sea posible:

4. La bondad de ajuste entre las distancias de la configuracin y las
disparidades se mide con un estadstico adecuado, que puede ser el STRESS,
que es:
STRESS 1
(d
ij
dij ) 2 / dij
2 1/ 2
El trmino STRESS indica la amplitud a la cual la configuracin espacial de

puntos tiene que ser estresada para obtener los datos de distancias ij .
5. Las coordenadas (x1, x2, , xt) de cada objeto se cambia ligeramente para
reducir el estrs.
Los pasos 2 a 5 se repiten hasta que parece que el estrs no se puede reducir
ms. Como resultados del anlisis se tienen las coordenadas de los n
individuos en las t dimensiones. Estas coordenadas pueden utilizarse para
dibujar un mapa que muestre como se relacionan los individuos. Es deseable
encontrar una buena solucin en tres o menos dimensiones, para poder hacer
una representacin grfica adecuada.
Ejemplo:
Con base en un mapa de carreteras de una isla de Nueva Zelanda de 13
ciudades. Como las distancias no son proporcionales a las distancias
geogrficas no es posible recuperar exactamente el mapa de las carreteras.
Pg. 195
Escalado multidimensional
Franza
Alejandra Balclutha Blenheim Christchurch Dunedin Josef
Te
Greymouth Invercargill Milford Nelson Queenstown anau
Timaru
Alejandra
100
485
284
126
233
347
138
248
563
56
173
197
Balclutha
100
478
276
50
493
402
89
213
537
156
138
177
Blenheim
485
478
201
427
327
214
567
691
73
494
615
300
Christchurch
284
276
201
226
247
158
365
489
267
305
414
99
Dunedin
126
50
427
226
354
352
139
263
493
192
188
127
Franza_Josef
233
493
327
247
354
114
380
416
300
228
366
313
Greymouth
347
402
214
158
352
114
493
555
187
341
480
225
Invercargill
138
89
567
365
139
380
493
174
632
118
99
266
Milford
248
213
691
489
263
416
555
174
756
178
75
377
Nelson
563
537
73
267
493
300
187
632
756
572
681
366
Queenstown
56
156
494
305
192
228
341
118
178
572
117
230
Te_anau
173
138
615
414
188
366
480
99
75
681
117
315
Timaru
197
177
300
99
127
313
225
266
377
366
230
315
Corrida con SPSS

1. Analyze > Scale > Multidimensional scaling
2. Pasar todas las variables (dimensions min 2 max 2)
3. Options: Group plots; Individual subject plots; Data Matriz; Model summary
4. OK
Alscal
Alscal Procedure Options
Data OptionsNumber of Rows (Observations/Matrix).
Number of Columns (Variables) . . .
Number of Matrices
. . . . . .
Measurement Level . . . . . . .
Data Matrix Shape . . . . . . .
Type . . . . . . . . . . .
Approach to Ties . . . . . . .
Conditionality . . . . . . . .
Data Cutoff at . . . . . . . .
Model OptionsModel . . . . . .
Maximum Dimensionality
Minimum Dimensionality
Negative Weights . .
.
.
.
.
.
.
.
.
.
.
.
.
13
13
1
Ordinal
Symmetric
Dissimilarity
Leave Tied
Matrix
.000000
.
.
.
.
.
.
.
.
Euclid
2
2
Not Permitted
Output OptionsJob Option Header . . . . . .

Data Matrices . . . . . . .
Configurations and Transformations
Output Dataset . . . . . . .
.
.
.
.
Printed
Printed
Plotted
Not Created
Pg. 196
Initial Stimulus Coordinates
Computed
Algorithmic OptionsMaximum Iterations

. .
Convergence Criterion
.
Minimum S-stress . . .
Missing Data Estimated by
Tiestore . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
30
.00100
.00500
Ulbounds
78
1
2
3
4
5
6
7
8
9
10
11
12
13
6
7
8
9
10
11
12
13
11
12
13
.
.
.
.
.
Raw (unscaled) Data for Subject 1

1
2
3
4
.000
100.000
.000
485.000
478.000
.000
284.000
276.000
201.000
.000
126.000
50.000
427.000
226.000
233.000
493.000
327.000
247.000
347.000
402.000
214.000
158.000
138.000
89.000
567.000
365.000
248.000
213.000
691.000
489.000
563.000
537.000
73.000
267.000
56.000
156.000
494.000
305.000
173.000
138.000
615.000
414.000
197.000
177.000
300.000
99.000
.000
354.000
352.000
139.000
263.000
493.000
192.000
188.000
127.000
10
.000
114.000
380.000
416.000
300.000
228.000
366.000
313.000
.000
493.000
555.000
187.000
341.000
480.000
225.000
.000
174.000
632.000
118.000
99.000
266.000
.000
756.000
178.000
75.000
377.000
.000
572.000
681.000
366.000
11
12
13
.000
117.000
230.000
.000
315.000
.000
Iteration history for the 2 dimensional solution (in squared

distances)
Young's S-stress formula 1 is used.
Iteration
S-stress
Improvement
1
2
3
4
.08605
.06010
.02596
.05795
.00214
.05730
.00066
Iterations stopped because
S-stress improvement is less than
.001000
Stress and squared correlation (RSQ) in distances
RSQ values are the proportion of variance of the scaled data
(disparities)
in the partition (row, matrix, or entire data) which
is accounted for by their corresponding distances.
Stress values are Kruskal's stress formula 1.
For matrix
Pg. 197

Stress
.05316
RSQ =

.98624
Configuration derived in 2 dimensions

Stimulus Coordinates
Dimension
Stimulus
Number
1
2
3
4
5
6
7
8
9
10
11
12
13
Stimulus
Name
ALEJANDR
BALCLUTH
BLENHEIM
CHRISTCH
DUNEDIN
FRANZA
GREYMO
INVERCAR
MILFORD
NELSON
QUEENST
TE_ANAU
TIMARU
.7202
.8481
-1.9897
-.9345
.5307
-.6973
-1.3326
1.2799
1.8132
-2.3233
.8088
1.4641
-.1875
-.3136
.7719
.4399
.3452
.5790
-1.2456
-.5697
.3898
-.3440
.0714
-.4895
-.2811
.6461
Optimally scaled data (disparities) for subject

1
2
3
4
1
.000
2
.901
.000
3
2.793
2.793
.000
4
1.807
1.807
1.197
.000
5
.901
.297
2.597
1.533
6
1.533
2.793
2.112
1.533
7
2.112
2.535
1.347
.996
8
.982
.577
3.226
2.215
9
1.533
1.347
3.883
2.793
10
3.157
3.157
.432
1.533
11
.297
.996
2.949
1.941
12
.996
.982
3.528
2.535
13
1.197
1.029
1.941
.753
6
7
8
9
10
11
12
13
6
.000
.901
2.535
2.597
1.941
1.533
2.271
1.941
11
12
13
11
.000
.901
1.533
.000
2.793
3.157
1.180
2.112
2.793
1.533
.000
.996
3.617
.901
.753
1.533
12
13
.000
1.941
Pg. 198
.000
.000
4.157
1.029
.432
2.271
1
5
.000
2.199
2.189
.982
1.533
2.793
1.190
1.190
.901
10
.000
3.226
3.804
2.271
Derived Stimulus Configuration

Euclidean distance model
1.0
timaru
blenheim
.5
balcluth
dunedin
invercar
christch
nelson
0.0
-.5
Dimension 2
te_anau
alejandr
milford
queenst
greymo
-1.0
franza
-1.5
-3
-2
-1
Dimension 1
Scatterplot of Linear Fit

5
Distances
0
0
Disparities
Scatterplot of Nonlinear Fit

5
Distances
0
0
100
200
300
400
500
600
700
Observations
Pg. 199
800
Transformation Scatterplot
5
Disparities
0
0
100
200
300
400
500
600
700
800
Observations
Ahora con Minitab:

1. Graph > Scatterplot > Simple
2. Y Variables Z2; X Variables Z1
3. Labels > Data labels > Use labels from column Ciudad
4. OK
1.0
Balclutha
Timaru
0.5
Blenheim
Dunedin
Invercargill
Christchurch
Nelson
0.0
Te anau
Z2
Alejandra
Greymouth
-0.5
Milford
Queenstown
-1.0
Franza J osef
-1.5
-2
-1
0
Z1
Pg. 200
Ejemplo HATCO:
Paso 1: Objetivos del mapeo perceptual
El propsito del estudio es explorar la imagen y competitividad de Hatco,
atendiendo las percepciones del mercado sobre Hatco y nueve competidores,
as como investigar preferencias, entre clientes potenciales.
Paso 2. Diseo del estudio de mapeo perceptual
Se hacen entrevistas con 18 gerentes medios de diferentes empresas
representantes de la base de clientes potenciales existente en el mercado. Se
colectaron tres tipos de datos: juicios de similaridad; calficacin de atributos de
las organizaciones; y preferencias de cada organizacin en diferentes
situaciones de compra.
Datos de similaridad
Los juicios de similaridad se realizaron con enfoque de comparacin de objetos
pareados. Los 45 pares de organizaciones [(10 x 9)/2] se presentaron a los
encuestados, quienes indicaron que tan similares eran en una escala de nueve
puntos, con 1 no similar y 9 muy similar, los valores deben ser
transformados ya que valores altos de similaridad indican mayor similitud, lo
opuesto a una distancia de similaridad.
Calificacin de atributos
Se obtuvieron calificaciones para los ocho atributos de cada organizacin,
incluyendo: calidad, orientacin de la direccin, calidad del servicio, rapidez de
entrega, nivel de precios, imagen de la fuerza de ventas, flexibilidad de precios,
e imagen de manufactura. En este caso, se pidi a cada encuestado
seleccionar la organizacin que mejor caracterizaba el atributo, podran ser
varias organizaciones.
Evaluacin de preferencias
Pg. 201
Se evaluaron las preferencias de los encuestados ante tres diferentes

situaciones de compra: recompra repetitiva, recompra modificada, y nueva
situacin de compra. La calificacin fue de 1 para la organizacin ms
preferida, 2 para la siguiente en importancia, etc.
Paso 3. Supuestos en el mapeo perceptual
Los
supuestos
correspondencia)
del
MSD
tratan
(escalamiento
principalmente
mltiple)
con
la
CA (anlisis de
comparabilidad
representatividad de los objetos evaluados y de los encuestados. Por lo que

deben ser seleccionados cuidadosamente.
Pasos 4 y 5. Escalado multidimensional
Se especifica un anlisis composicional (MDS) y uno composicionla (CA) para
la construccin de los mapas preceptales, se inicia con el MDS.
Paso 4: Obtener resultados del MDS y evaluar el ajuste del modelo
Los 45 juicios de similaridad de los 18 encuestados se procesaron como
matrices separadas, y una matriz de promedios de valores se calcul para
ilustrar el patrn de similaridades. Los datos se muestran a continuacin:
EJEMPLO DE MDS Y CA
EMPRESA HATCO A
HATCO
0
6.61
A
6.61
0
B
6.61
6.61
C
2.33
2.61
D
2.56
2.56
E
4.06
2.39
F
2.5
3.5
G
2.33
2.39
H
2.44
4.94
I
6.17
6.94
B
6.61
6.61
0
3.44
4.11
2.17
4
3.72
6.61
2.83
C
2.33
2.61
3.44
0
6.94
4.06
2.22
2.67
2.5
2.5
D
2.56
2.56
4.11
6.94
0
2.39
2.17
2.61
7.06
2.5
E
4.06
2.39
2.17
4.06
2.39
0
4.06
3.67
5.61
3.5
F
2.5
3.5
4
2.22
2.17
4.06
0
2.28
2.83
6.94
Corrida con SPSS

1. Analyze > Scale > Multidimensional scaling
2. Pasar todas las variables
Pg. 202
G
2.33
2.39
3.72
2.67
2.61
3.67
2.28
0
2.56
2.44
H
2.44
4.94
6.61
2.5
7.06
5.61
2.83
2.56
0
2.39
I
6.17
6.94
2.83
2.5
2.5
3.5
6.94
2.44
2.39
0
3 Seleccionar Data are distances; Shape Square Symmetric
Continue
4. Model: Seleccionar Level of measurements Ordinal Dimensions Min 2 Max 2

4. Options: Group plots; Individual subject plots; Data Matrix; Model summary
4. OK
Alscal
Alscal Procedure Options
Data OptionsNumber of Rows (Observations/Matrix).

Number of Columns (Variables) . . .
Number of Matrices
. . . . . .
Measurement Level . . . . . . .
Data Matrix Shape . . . . . . .
Type . . . . . . . . . . .
Approach to Ties . . . . . . .
Conditionality . . . . . . . .
Data Cutoff at . . . . . . . .
10
10
1
Ordinal
Symmetric
Dissimilarity
Leave Tied
Matrix
.000000
Model OptionsModel . . . . . .
Maximum Dimensionality
Minimum Dimensionality
Negative Weights . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Euclid
2
2
Not Permitted
Job Option Header . . . . . .

Data Matrices . . . . . . .
Configurations and Transformations
Output Dataset . . . . . . .
Initial Stimulus Coordinates . .
.
.
.
.
.
Printed
Printed
Plotted
Not Created
Computed
.
.
.
.
30
.00100
.00500
Ulbounds
Output Options-
Algorithmic OptionsMaximum Iterations

. .
Convergence Criterion
.
Minimum S-stress . . .
Missing Data Estimated by
.
.
.
.
.
.
.
.
.
.
.
.
Pg. 203

Tiestore .

.
45
Raw (unscaled) Data for Subject 1

1
1
2
3
4
5
6
7
8
9
10
.000
6.610
6.610
2.330
2.560
4.060
2.500
2.330
2.440
6.170
6
6
7
8
9
10
.000
4.060
3.670
5.610
3.500
2
.000
6.610
2.610
2.560
2.390
3.500
2.390
4.940
6.940
7
.000
2.280
2.830
6.940
.000
3.440
4.110
2.170
4.000
3.720
6.610
2.830
.000
6.940
4.060
2.220
2.670
2.500
2.500
.000
2.560
2.440
.000
2.390
.000
2.390
2.170
2.610
7.060
2.500
10
.000
>Warning # 14654
>The total number of parameters being estimated (the number of
stimulus
>coordinates plus the number of weights, if any) is large relative to
the
>number of data values in your data matrix. The results may not be
reliable
>since there may not be enough data to precisely estimate the values
of the
>parameters. You should reduce the number of parameters (e.g.
request
>fewer dimensions) or increase the number of observations.
>Number of parameters is 20.
Number of data values is 45
Iteration history for the 2 dimensional solution (in squared

distances)
Young's S-stress formula 1 is used.
Iteration
1
2
3
4
5
6
S-stress
.34762
.31655
.30447
.29330
.28544
.27995
Pg. 204
Improvement
.03107
.01208
.01116
.00787
.00549

7
8
.27809
.27736
.00186
.00072
Iterations stopped because

S-stress improvement is less than
.001000
Stress and squared correlation (RSQ) in distances

RSQ values are the proportion of variance of the scaled data
(disparities)
in the partition (row, matrix, or entire data) which
is accounted for by their corresponding distances.
Stress values are Kruskal's stress formula 1.
Stress
For matrix
.21711
RSQ =
.65041
Configuration derived in 2 dimensions
Stimulus Coordinates
Dimension
Stimulus
Number
1
2
3
4
5
6
7
8
9
10
Stimulus
Name
HATCO
A
B
C
D
E
F
G
H
I
1.4421
-.7839
-.9662
.9408
-.7348
-1.6467
.8884
.0380
1.3800
-.5578
.4676
1.3555
-1.5220
-.5781
1.1899
-.0867
.9950
.1487
-.7134
-1.2565
Optimally scaled data (disparities) for subject

1
1
2
3
4
5
6
7
8
.000
2.793
2.793
1.445
1.616
2.793
1.572
1.445
2
.000
2.793
1.621
1.616
1.572
1.796
1.572
Pg. 205
.000
1.796
2.793
1.445
2.793
1.949
.000
2.793
2.793
1.445
1.621
1
5
.000
1.572
1.445
1.621

9
10
1.572
2.793
2.793
2.793
6
6
7
8
9
10

2.793
1.621
.000
2.793
1.796
2.793
1.796
.000
1.445
1.621
2.793
.000
1.616
1.572
Derived Stimulus Configuration

a
d
1.5
1.0
hatco
.5
g
e
0.0
Dimension 2
-.5
-1.0
i
b
-1.5
-2.0
-2.0
-1.5
-1.0
-.5
0.0
.5
1.0
1.5
Dimension 1
Scatterplot of Linear Fit

3.5
3.0
2.5
2.0
1.5
Distances
1.0
.5
0.0
1.4
1.6
1.8
2.0
2.2
2.4
2.6
2.8
Disparities
Pg. 206
3.0
1.572
1.572
9
.000
1.572
2.845
1.572
10
.000
Scatterplot of Nonlinear Fit

3.5
3.0
2.5
2.0
1.5
Distances
1.0
.5
0.0
2
Observations
Transformation Scatterplot
3.0
2.8
2.6
2.4
2.2
Disparities
2.0
1.8
1.6
1.4
2
Observations
Pg. 207

Analisis Multivariado 3

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Analisis Multivariado 3

Uploaded by

Copyright:

Available Formats

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Elabor: Dr. Primitivo Reyes Aguilar

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

1. CLCULO DEL COEFICIENTE DE CONFIABILIDAD

En donde N representa el nmero de tems de la escala, s2 (Yi) es

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Los coeficientes que se mencionan como ya fue calculado, se

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

3. Mediante otra frmula que se basa en la correlacin promedio

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

2. LOS MTODOS DE ANLISIS MULTIVARIADO

Entre las tcnicas ms comunes se encuentran (1) Anlisis de componentes

correspondencia, (10) modelos de probabilidad lineal tales como el logit y

Anlisis de componentes principales y de factores comunes

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

conjunto ms pequeo de variates (factores) con mnima prdida de

independientes, normalmente con el mtodo de mnimos cuadrados.

Anlisis discriminante mltiple (MDA)

Anlisis multivariado de varianza y covarianza (MANOVA)

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

puede usar en conjunto con el MANOVA para remover (despus del

Anlisis de conglomerados (Clusters)

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Normalmente se realiza en tres pasos. El primero es la medicin de alguna

(conglomerados o clusters). El paso final es perfilar las personas o variables

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

un mapa tridimensional o bidimensional tanto de marcas como de las

Modelos de probabilidad lineal (Anlisis Logit)

Modelos de ecuaciones estructurales

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Los datos para HATCO son los siguientes:

Tiempo de entrega - entrega del producto con la orden confirmada

- nivel de precio percibido ponderacindo por

- flexibilidad para negociar precios

- nivel necesario para mantener relaciones

Imagen de la fuerza de ventas - general

Calidad del producto calidad percibida en desempeo o rendimiento

Resultados de compras / Medibles (Mtricas)

Nivel de utilizacin - que porcentaje de producto es surtido por Hatco

Nivel de satisfaccin que tan satisfecho esta el cliente con Hatco

Caractersticas del comprador / No Medibles (No Mtricas)

Especificacin de compra - 1-Evala por el valor total y 0- especificacin

Estructura de abastecimiento 1- centralizado 0 - descentralizado

Tipo de situacin de compra 1- nueva 2- modificada 0- tradicional

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

MTODOS ESTADSTICOS MULTIVARIADOS