You are on page 1of 207

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

MTODOS ESTADSTICOS
MULTIVARIADOS

Elabor: Dr. Primitivo Reyes Aguilar


Marzo de 2007
Pg. 1

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

CONTENIDO
1. Coeficiente de Cronbach
2. Mtodos de anlisis multivariado
3. ANOVA de K direcciones
4. Anlisis multivariado de Varianza (MANOVA)
5. Anlisis de Covarianza
6. Anlisis Discriminante
7. Anlisis de Conglomerados (Clusters)
8. Anlisis de componentes principales
9. Anlisis Factorial
10. Anlisis de Regresin Mltiple
11. Anlisis de correspondencia

Pg. 2

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

1. COEFICIENTE DE CRONBACH

Pg. 3

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

1. CLCULO DEL COEFICIENTE DE CONFIABILIDAD


(FIABILIDAD) ALFA-CRONBACH
Existen tres procedimientos para determinar el coeficiente o alfa :
1. Sobre la base de la varianza de los tems, con la aplicacin de la
siguiente
frmulaFrmula:

En donde N representa el nmero de tems de la escala, s2 (Yi) es


igual a la sumatoria de las varianzas de los tems y s2x equivale a la
varianza de toda la escala.
2. Sobre la base de la matriz de correlacin de los tems, el
procedimiento
seraSera:
a) Se aplica la escala.
b) Se obtienen los resultados.
c) Se calculan los coeficientes de correlacin r de Pearson entre todos
los tems (todos contra todos de par en par).
d) Se elabora la matriz de correlacin con los coeficientes obtenidos.
Por
ejemploEjemplo:
Pg. 4

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Los coeficientes que se mencionan como ya fue calculado, se


ubican en la
parteParte superior de las lneas horizontales (guiones). Es decir, cada
coeficiente se incluye una sola vez y se excluyen los coeficientes que
vinculan al tem o
puntuacinPuntuacin consigo misma (1 con 1, 2 con 2, 3 con 3 y 4
con 4).

Pg. 5

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

3. Mediante otra frmula que se basa en la correlacin promedio

Pg. 6

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

2. MTODOS DE ANLISIS
MULTIVARIADO

Pg. 7

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

2. LOS MTODOS DE ANLISIS MULTIVARIADO


Los mtodos de anlisis multivariado son aquellos en que se analiza
la relacin entre diversas variables independientes y al menos una
dependiente. Son mtodos ms complejos que requieren del uso de
computadoras para efectuar los clculos necesarios

Entre las tcnicas ms comunes se encuentran (1) Anlisis de componentes


principales y factores comunes, (2) regresin y correlacin mltiple, (3) anlisis
discriminante mltiple, (4) anlisis multivariado de varianza y covarianza, (5)
anlisis conjunto, (6) correlacin cannica, (7) anlisis de clusters, (8) escala
multidimensional.

Otras

tcnicas

nuevas

incluyen

(9)

anlisis

de

correspondencia, (10) modelos de probabilidad lineal tales como el logit y


probit, y (11) modelos de ecuacin simultaneas / estructurales. A continuacin
se describen brevemente stas tcnicas.

Anlisis de componentes principales y de factores comunes


Es un mtodo estadstico que puede usarse para analizar las interrelaciones
entre un gran nmero de variables y explicar esas variables en trminos de sus
dimensiones subyacentes comunes. El objetivo es hallar la forma de sintetizar
la informacin contenida en un nmero de variables originales, dentro de un

Pg. 8

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

conjunto ms pequeo de variates (factores) con mnima prdida de


informacin.

Regresin mltiple
En un mtodo de anlisis adecuado cuando el problema de investigacin
involucra una variable dependiente nica que se presume se relaciona a dos o
ms variables independientes medibles. El objetivo es predecir el cambio en la
variable

dependiente

de

respuesta

con

cambios

en

las

variables

independientes, normalmente con el mtodo de mnimos cuadrados.


Por ejemplo se pueden predecir los montos gastados en cenas a partir de
ingresos de las familias (variable dependiente), su tamao, y la edad del padre
(variables independientes).

Anlisis discriminante mltiple (MDA)


Se aplica cuando la variable dependiente es dicotmica (vgr.Vg. hombre
mujer) o multitmica (vgrVg.. Alto medio bajo) y por tanto no medible. Como
en la regresin las variables independientes deben ser medibles. Se aplica
cuando la muestra total se puede dividir en grupos con base en una variable no
medible caracterizando varias clases conocidas. Su objetivo es comprender las
diferencias entre grupos y predecir la probabilidad de que una entidad (objeto
individual) pertenezca a una clase o grupo particular con base en varias
variables independientes medibles o mtricas.
Por ejemplo el anlisis discriminante se puede utilizar para distinguir entre
innovadores y no innovadores de acuerdo a su perfil demogrfico y
psicogrfico.

Anlisis multivariado de varianza y covarianza (MANOVA)


Es un mtodo estadstico para explorar simultneamente la relacin entre
varias variables categricas independientes (referidas como tratamientos) y dos
o ms variables dependientes medibles o mtricas. Es una extensin del
ANOVA univariado. El anlisis multivariado de covarianza (MANCOVA) se

Pg. 9

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

puede usar en conjunto con el MANOVA para remover (despus del


experimento) el efecto de cualquier variable mtrica independiente no
controlada (conocida como covariada) en la variable independiente.

Anlisis conjunto
Se aplica a nuevos productos para evaluar la importancia de los atributos del
nuevo producto as como los niveles de cada atributo, mientras que el
consumidor evala solo unos pocos perfiles del producto como combinaciones
de los niveles de producto.
Por ejemplo asumir un producto con tres atributos (precio, calidad y color),
cada uno en tres niveles posibles (vgrVg.. Rojo, amarillo y azul). En vez de
tener que evalurevaluar las 27 combinaciones posibles (3x3x3), se evala un
subconjunto de 9 o ms combinaciones con base en su atractivo para el
consumidor, de manera que el investigador no solo conozca la importancia de
cada atributo, sino adems la importancia de cada nivel (atractivo del rojo vsvs.
amarillo vsvs. azul).

Correlacin cannica
El anlisis de correlacin puede ser visto como una extensin lgica de la
regresin mltiple. Donde se trata de correlacionar simultneamente varias
variables dependientes medibles o mtricas y varias variables independientes
medibles. El principio es establecer una combinacin lineal de cada conjunto de
variables (dependientes e independientes) para maximizar la correlacin entre
los dos conjuntos (obteniendo ponderaciones adecuados para las variables).

Anlisis de conglomerados (Clusters)


Es una tcnica analtica para desarrollar sugrupossubgrupos significativos de
individuos u o objetos. Especficamente, el objetivo es clasificar una muestra de
entidades (individuos u objetos) en un nmero ms pequeo de grupos ms
pequeos con base en las similitudes entre entidades. A diferencia del anlisis
discriminante, los grupos no estn definidos, ms bien se usa para
identificarlos.

Pg. 10

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Normalmente se realiza en tres pasos. El primero es la medicin de alguna


forma de similitud o asociacin entre las entidades para identificar cuantos
grupos realmente existen en la muestra. El segundo paso es el proceso en s
de

conglomerados,

donde

las

entidades

se

particionan

en

grupos

(conglomerados o clusters). El paso final es perfilar las personas o variables


para determinar su composicin. Muchas veces esto ltimo se realiza con el
anlisis discriminante.

Escala multidimensional
El objetivo es transformar los juicios del consumidor de similitud o preferencias
(vgrVg.. Preferencia por tiendas o marcas) en distancias representadas en un
espacio multidimensional. Si los objetos A y B se juzgan por el consumidor
como similares, comparados con cualquier otro par de objetos, la tcnica
posiciona los objetos A y B de manera que la distancia entre ellos en un
espacio multidimensional es ms pequeopequea que la distancia entre
cualquier otro par de objetos. Al final se muestra un mapa perceptual con la
posicin relativa de los objetos.

Anlisis de correspondencia
Facilita tanto la reduccin dimensional de objetos en un conjunto de atributos y
el mapa perceptual de objetos respecto a estos atributos. En su forma ms
elemental es una tabla de contingencia o tabulacin cruzada de dos variables
categricas. Transforma los datos no mtricos a un nivel medible y realiza una
reduccin dimensional (similar al anlisis de factores) y un mapa perceptual
(similar al anlisis multidimensional).
Por ejemplo, las preferencias de marcas de los consumidores pueden ser
tabuladas contra variables demogrficas (vgrVg.. Gnero, categoras de
ingresos, ocupacin) indicando cuanta gente prefiere cada una de las marcas
que caen en cada categora de las variables demogrficas. Por medio del
anlisis de correspondencia, la asociacin o correspondencia de marcas y las
caractersticas distintivas de aquellos que prefieren las marcas se muestran en

Pg. 11

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

un mapa tridimensional o bidimensional tanto de marcas como de las


caractersticas que distinguen a aquellos que prefieren cada marca.

Modelos de probabilidad lineal (Anlisis Logit)


Son una combinacin de regresin mltiple y anlisis discriminante. Es similar
al anlisis de regresin mltiple excepto que la variable dependiente es
categrica no mtrica como en el anlisis discriminante.

Modelos de ecuaciones estructurales


A veces se refiere como el nombre del software LISREL, es una tcnica que
permite separar las relaciones del conjunto de variables dependientes. En su
forma ms sencilla proporciona el modelo ms adecuado y la tcnica de
estimacin ms eficiente para una serie de ecuaciones de regresin mltiple,
evaluadas simultneamente. Se caracteriza por dos componentes bsicos: (1)
el modelo estructural y (2) el modelo de medicin.
El modelo estructural es la va que relaciona variables dependientes e
independientes. El modelo de medicin permite al investigador a usar varias
variables (indicadores) para una variable dependiente e independiente.

Pg. 12

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Los datos para HATCO son los siguientes:


Variables / Tipo
Percepciones / Medibles (Mtricas)
X1

Tiempo de entrega - entrega del producto con la orden confirmada

X2

Nivel de precios

- nivel de precio percibido ponderacindo por

proveedores
X3

Flexibilidad de precios

- flexibilidad para negociar precios

X4

Imagen de la empresa

- general

X5

Servicio en general

- nivel necesario para mantener relaciones

X6

Imagen de la fuerza de ventas - general

X7

Calidad del producto calidad percibida en desempeo o rendimiento

Resultados de compras / Medibles (Mtricas)


X9

Nivel de utilizacin - que porcentaje de producto es surtido por Hatco

X10

Nivel de satisfaccin que tan satisfecho esta el cliente con Hatco

Caractersticas del comprador / No Medibles (No Mtricas)


X8

Tamao de la empresa

- 1- Grande 0 - pequeo

X11

Especificacin de compra - 1-Evala por el valor total y 0- especificacin

X12

Estructura de abastecimiento 1- centralizado 0 - descentralizado

X13

Tipo de industria

X14

Tipo de situacin de compra 1- nueva 2- modificada 0- tradicional

- 1- industria A

Pg. 13

0 otras industrias

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

3. ANOVA DE K DIRECCIONES

Pg. 14

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

3. ANOVA (anlisis de varianza de k direcciones )


El ANOVA es similar a la regresin en el sentido de que se utiliza para
investigar y modelar la relacin entre una variable de respuesta y una o ms
variables independientes. Sin embargo, el ANOVA difiere de la regresin en dos
aspectos: las variables independientes son cualitativas (categricas), y no hay
supuestos acerca de la naturaleza de la relacin (o sea que el modelo no
incluye coeficientes para variables). En efecto el ANOVA extiende la prueba de
dos muestras con prueba t para probar la igualdad de dos poblaciones a una
hiptesis ms general al comparar ms de dos medias, versus que no sean
iguales.
Definicin: Es una prueba estadstica para evaluar el efecto de dos o
ms variables independientes sobre una variable dependiente.
Responde a esquemas como el que se muestra en la figura:

Constituye una extensin del anlisis de varianza unidireccional,


solamente

Pg. 15

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

queQue incluye ms de una variable independiente. Evala los


efectos por separado de cada variable independiente y los efectos
conjuntos de dos o ms variables independientes.
Variables: Dos o ms variables independientes y una dependiente.
Nivel de medicin de las variables: La variable dependiente (criterio)
debe estar
medida en un nivel por intervalos o razn, y las variables
independientes

(factores) pueden

estar en cualquier

nivel

de

medicin, pero expresadas de manera categrica.


Interpretacin y ejemplo
Hi: La similitud en valores, la atraccin fsica y el grado de
retroalimentacin
positiva son variables que inciden en la satisfaccin sobre la relacin
en parejas de novios.
Contexto: Muestra de parejas de adultos jvenes (23-29 aos),
pertenecientes a estratos econmicos altos (n=400).
El ANOVA efectuado mediante un paquete estadstico computacional
como
SPSS produce los siguientes elementos bsicos:
Fuente de la variacin (source of variation). Es el factor que origina
variacin en la dependiente. Si una fuente no origina variacin en la
dependiente, no tiene efectos.
Efectos principales (main effects). Es el efecto de cada variable
independiente

Pg. 16

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

por separado; no est contaminado del efecto de otras variables


iindependientesindependientes ni de error. Suele proporcionarse la
suma de todos los efectos principales.
Interacciones de dos direcciones (2-way interactions). Representa el
efecto conjunto de dos variables independientes, aislado de los
dems posibles efectos de las variables independientes (individuales
o en conjuntos). Suele proporcionarse la suma de los efectos de todas
estas interacciones.
Interacciones de tres direcciones (3-way interactions). Constituye el
efecto conjunto de tres variables independientes, aislado de otros
efectos. Suele proporcionarse la suma de los efectos de todas estas
interacciones.
Puede haber efecto de K-direcciones, esto dependiedepende del
nmero de variables independientes.
En nuestro ejemplo, tenemos los resultados siguientes:

TABLA ANOVA
VARIABLE DEPENDIENTE: SATISFACCIN EN LA RELACIN
Fuente
variacin

de Suma
de Grados de Cuadrados
cuadrados
libertad
medios

Estadstico F

Significancia
de Fc = P

Efectos
principales
(main
effects

22.51

.001**

SIMILITUD
ATRACCIN
RETROALIM
SIMILITUD
ATRACCIN
SIMILITUD
RETROALIM
ATRACCION

31.18
21.02
11.84

0.001**
0.001**
0.004**

-4.32

0.04*

2.18

0.11

1.56

0.190

Pg. 17

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

RETROALIM
SIN

RETROLATRACCION
NOTA:

8.01

0.02*

Normalmente interesa saber si las razones F resultaron o no

significativas;

por

tanto,

slo

se

incluyen

estos

valores.

Se

recomienda concentrarse en dichos valores y evitar confusiones.


Desde luego, el investigador experimentado acostumbra estudiar
todos los valores.
** Razn F significativa al nivel del 0.01 (p < 0.01)
*Razn F significativa al nivel del 0.05 (p < 0.05)
Como podemos ver en la tabla, la similitud, la atraccin y la
retroalimentacin tienen un efecto significativo sobre la satisfaccin
en la relacin.
Respecto a los efectos de dos variables independientes conjuntas,
slo la similitud y la atraccin tienen un efecto, hay un efecto
conjunto de las tres variables independientes. La hiptesis de
investigacin se acepta y la nula se rechaza. Asimismo, se recuerda al
lector que en el captulo 5 del presente disco: Otros diseos
experimentales (en el apartado sobre diseos factoriales) se explica
la nocin de interaccin entre variables independientes. Cabe agregar
que el ANOVA es un mtodo estadstico propio para los diseos
experimentales factoriales.

Ejemplo:
Un experimento se realiz para probar cuanto tiempo toma usar un modelo
nuevo y un modelo anterior de calculadora. Seis ingenieros trabajando en un
problema estadstico y uno de ingeniera se les toma el tiempo para resolver el
problema. Los ingenieros se consideran como bloques en el diseo
experimental.
Pg. 18

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Hay dos factores: Tipo de problema y modelo de calculadora cada uno con
dos niveles, se hacen experimentos donde esos niveles de los factores se
cruzan. Los datos se muestran a continuacin:
SolveTime
3.1
7.5
2.5
5.1
3.8
8.1
2.8
5.3
3
7.6
2
4.9
3.4
7.8
2.7
5.5
3.3
6.9
2.5
5.4
3.6
7.8
2.4
4.8

Engineer
Jones
Jones
Jones
Jones
Williams
Williams
Williams
Williams
Adams
Adams
Adams
Adams
Dixon
Dixon
Dixon
Dixon
Erickson
Erickson
Erickson
Erickson
Maynes
Maynes
Maynes
Maynes

ProbType
Stat
Stat
Eng
Eng
Stat
Stat
Eng
Eng
Stat
Stat
Eng
Eng
Stat
Stat
Eng
Eng
Stat
Stat
Eng
Eng
Stat
Stat
Eng
Eng

Calculator
New
Old
New
Old
New
Old
New
Old
New
Old
New
Old
New
Old
New
Old
New
Old
New
Old
New
Old
New
Old

Las instrucciones de Minitab son las siguientes:


1

Abrir la worksheet EXH_AOV.MTW.

Stat > ANOVA > Balanced ANOVA.

Responses, poner SolveTime.

Model, poner Engineer ProbType | Calculator.

En Random Factors, poner Engineer.

6 Click Results. En Display means corresponding to the terms, poner


ProbType | Calculator. Click OK cada cuadro de dilogo.
Los resultados obtenidos son los siguientes:
Pg. 19

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

ANOVA: SolveTime versus Engineer, ProbType, Calculator


Factor
Engineer
ProbType
Calculator

Type
random
fixed
fixed

Levels
6
2
2

Values
Adams, Dixon, Erickson, Jones, Maynes, Williams
Eng, Stat
New, Old

Analysis of Variance for SolveTime


Source
Engineer
ProbType
Calculator
ProbType*Calculator
Error
Total
S = 0.259487

DF
5
1
1
1
15
23

SS
1.053
16.667
72.107
3.682
1.010
94.518

R-Sq = 98.93%

MS
F
0.211
3.13
16.667 16.667
72.107 72.107
3.682 3.682
0.067

P
0.039
247.52
1070.89
54.68

0.000
0.000
0.000

R-Sq(adj) = 98.36%

Means
ProbType
Eng
Stat
Calculator
New
Old

N
12
12

ProbType
Eng
Eng
Stat
Stat

SolveTime
3.8250
5.4917
N
12
12

SolveTime
2.9250
6.3917

Calculator
New
Old
New
Old

N
6
6
6
6

SolveTime
2.4833
5.1667
3.3667
7.6167

Interpretacin de los resultados:


Se muestran los factores (fijos y aleatorios), niveles y valores. Despus se
muestra la tabla de ANOVA, donde se indica de acuerdo al valor P que hay una
interaccin significativa entre el tipo de problema y el modelo de calculadora, lo
que implica que la reduccin en tiempo de proceso de la calculadora depende
del tipo de problema.
En la lista de promedios se observa un menor tiempo entre la calculadora
nueva y la anterior.

Pg. 20

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

4. ANLISIS MULTIVARIADO DE VARIANZA


(MANOVA)

Pg. 21

MTODOS ESTADSTICOS MULTIVARIADOS

4. ANLISIS
(MANOVA)

P. REYES / MARZO 2007

MULTIVARIADO

DE

VARIANZA

Es un modelo para analizar la relacin entre una o ms variables


independientes y dos o ms variables dependientes. Es decir, es til
para estructuras causales del tipo:

La tcnica posee varios usos, entre los que destacan:


- Evaluar diferencias entre grupos a travs de mltiples variables
dependientes (medidas por intervalos o razn). La(s) variable(s)
independiente(s) es(son) categrica(s) (no mtricas). Tiene el poder
de evaluar no solamente las diferencias totales, sino diferencias entre
las combinaciones de las dependientes.
En este sentido representa una extensin del anlisis de varianza
(ANOVA)
para cubrir casos donde hay ms de una variable dependiente y/o
cuando las variables dependientes simplemente no pueden ser
combinadas. En otras
palabras,

reconoce

si

los

cambios

en

la(s)

variable(s)

independiente(s) tienen un efecto significativo en las dependientes.


Pg. 22

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Seala qu grupos difieren en una variable o en el conjunto de


variables dependientes.
- Identificar las interacciones entre las variables independientes y la
asociacin entre las dependientes.
Las tres clases principales del MANOVA son:
1) Hotelling's T. Es parecida a la prueba t (dos grupos) pero con ms
dependientes:

una

variable

independiente

dicotmica

varias

dependientes.
2) MANOVA unidireccional. Anlogo al ANOVA de una sola va, pero
con ms dependientes: una variable independiente multicategrica y
varias
dependientes.
3) MANOVA factorial. Similar al ANOVA factorial, solamente que con
dos o ms dependientes: varias independientes categricas y varias
dependientes.
Los

modelos

del

MANOVA

tienen

en

comn

que

forman

combinaciones lineales de las dependientes que discriminan mejor


entre los grupos en un experimento o una situacin no experimental.
Es una prueba de significancia de las diferencias en los grupos en un
espacio multidimensional donde cada dimensin est definida por
combinaciones lineales del conjunto de variables dependientes.
Una pregunta que suele hacer el estudiante al revisar el MANOVA es
por

qu

no

hacemos

ANOVAS

separados,

uno

para

cada

dependiente? La respuesta: las dependientes estn correlacionadas


muy frecuentemente, por lo cual los resultados de varios ANOVA

Pg. 23

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

pueden ser redundantes y difciles de integrar. He aqu una sntesis de


la explicacin de Wiersma (1999) sobre este tipo de anlisis:
Al incluir dos o ms variables dependientes simultneamente no se
consideran las diferencias entre las medias en cada variable, sino las
diferencias en variables cannicas. El inters no slo es saber si los
grupos definidos por las variables independientes difieren en las
variables cannicas, sino conocer la naturaleza de stas. Una variable
cannica es una variable artificial generada a partir de los datos.
Representa constructos y se compone de variables reales, las cuales
deben ser descritas en trminos de variables dependientes. Lo
anterior

se

efecta

por

medio

de

las

ponderaciones

de

los

coeficientes de correlacin entre una variable dependiente y una


variable cannica. Si una ponderacin entre la variable cannica y la
dependiente es positiva y elevada, significa que altos valores en la
dependiente se asocian con altos valores en la cannica. Por ejemplo,
si una variable dependiente consiste en puntuaciones a una prueba
sobre innovacin, y dichas puntuaciones se correlacionan en forma
considerable con una variable cannica, inferimos que la variable
cannica representa un constructo que involucra esencialmente a la
innovacin.
En los clculos que se hacen en el MANOVA, se generan variables
cannicas hasta que se encuentra que no hay una diferencia
estadstica significativa entre las categoras o los grupos de las
variables independientes; o bien, hasta que se agotan los grados de
libertad de las variables independientes (lo que ocurra primero). El
nmero de variables cannicas no puede exceder el nmero de
variables

dependientes,

dependientes

sea

pero

mayor

es

que

comn

que

el

variables

de

el

estadsticamente significativas o los grados de libertad.

Pg. 24

nmero

de

cannicas

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

La hiptesis general de investigacin en el MANOVA postula que las


medias

de

los

grupos

las

categoras

de

la(s)

variable(s)

independiente(s) difieren entre s en las variables cannicas. La


hiptesis nula postula que dichas medias sern iguales.
Se calculan diversas estadsticas para evaluar ambas hiptesis, entre
las que destacan: F (total, toma en cuenta el modelo completo), la
prueba Hotelling's TSquare, T2 (cuando hay dos grupos formados por
las variables independientes), Wilks' lambda, U (cuando hay ms de
dos grupos formados por las variables independientes), y PillaiBartlett

(cuando

hay

coeficientes

cannicos);

si

resultan

significativas en un nivel de confianza, se acepta la hiptesis de


investigacin de diferencia de medias. Esto indica que hay, por lo
menos, una variable cannica significativa (pero puede haber varias).
Si diversas variables cannicas son significativas, esto muestra que
se presentan diferencias en las variables cannicas en cuestin, entre
los grupos o categoras de las independientes.
Los paquetes estadsticos que contiene el MANOVA suelen posicionar
a los
grupos

de

las

variables

independientes

por

puntuaciones

discriminantes; stas son calculadas con una funcin discriminante,


que es una ecuacin de regresin para un compuesto de variables
dependientes.

discriminante

en

cada

grupo

cada

se

variable

le

asigna

cannica.

una
Las

puntuacin
puntuaciones

discriminantes de una variable independiente pueden ser cero o tener


un valor positivo o negativo.
Una puntuacin discriminante positiva y elevada para un grupo,
indica que ste se coloca por encima de los dems en la respectiva
variable cannica. Y deben considerarse las ponderaciones, las cuales
son positivas o negativas. Las puntuaciones discriminantes son
utilizadas para interpretar las separaciones de los grupos en las

Pg. 25

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

variables cannicas, en tanto que las ponderaciones se usan para


evaluar y ligar los resultados de las variables dependientes (Wiersma,
1999). Un ejemplo de las ponderaciones de los coeficientes de
correlacin entre las variables dependientes y las variables cannicas
as como las puntuaciones discriminantes se muestran en las tablas
siguientes:

Pg. 26

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Como observamos en la ltima tabla, se obtuvieron tres constructos


subyacentes en las puntuaciones recolectadas de la muestra:
motivacin intrnseca, atribucin de causalidad externa y desempeo
laboral. Vemos en la tabla que los grupos (niveles en la empresa)
estn separados en las tres variables cannicas (los grupos difieren),
particularmente

en

la

primera

variable

cannica

(motivacin

intrnseca) y los obreros ocupan la posicin ms baja. Las variables


dependientes enmarcadas en un recuadro en la primera variable
cannica se ponderaron en ella; en consecuencia, los ejecutivos
tienen las puntuaciones ms altas en motivacin intrnseca medida
por la escala mencionada, en atribuciones internas y en sentimientos
de xito en el trabajo. As se interpretan todas las variables cannicas
y dependientes.
En el MANOVA se incluyen razones F y anlisis de varianza. Algunos
paquetes estadsticos agregan una prueba denominada correlacin
cannica, que es muy similar al MANOVA. sta es la mxima
correlacin que llega a obtenerse entre los conjuntos de puntuaciones
y las relaciones entre las variables independientes, entre las variables
dependientes y entre los conjuntos de ambas (dependientes e
independientes) (Kerlinger, 1979). Las variables en el MANOVA y la
correlacin cannica asumen que las variables dependientes estn
medidas en un nivel de intervalos o razn. Tal correlacin se
interpreta como otras; pero el contexto de interpretacin vara de
acuerdo con el nmero de variables involucradas.

Pg. 27

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Ejemplo con Minitab


Se realiza un estudio para determinar las condiciones ptimas para extruir
pelcula plstica. Se miden tres respuestas Tear, gloss y opacity cinco
veces en cada combinacin de dos factores tasa de extrusin y cantidad de
aditivo cada grupo se pone en niveles bajos y altos. Se utiliza el MANOVA
balanceado para probar la igualdad de las medias.
DATOS
Tear
6.5
6.2
5.8
6.5
6.5
6.9
7.2
6.9
6.1
6.3
6.7
6.6
7.2
7.1
6.8
7.1
7
7.2
7.5
7.6

Gloss
9.5
9.9
9.6
9.6
9.2
9.1
10
9.9
9.5
9.4
9.1
9.3
8.3
8.4
8.5
9.2
8.8
9.7
10.1
9.2

Opacity
4.4
6.4
3
4.1
0.8
5.7
2
3.9
1.9
5.7
2.8
4.1
3.8
1.6
3.4
8.4
5.2
6.9
2.7
1.9

ExtrusionE
xtrusin
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2

Additive
1
1
1
1
1
2
2
2
2
2
1
1
1
1
1
2
2
2
2
2

Instrucciones de Minitab
1

Abrir el archivo EXH_MVAR.MTW.

Seleccionar Stat > ANOVA > Balanced MANOVA.

En Responses, poner Tear Gloss Opacity.

En Model, poner Extrusion | Additive.

Pg. 28

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Click Results. En Display of Results, seleccionar Matrices

(hypothesis, error, partial correlations) y Eigen analysis.


6

Click OK en cada cuadro de dilogo.

Los resultados se muestran a continuacin:


Results for: Exh_mvar.MTW
ANOVA: Tear, Gloss, Opacity versus Extrusion, Additive

MANOVA for Extrusion


s = 1

m = 0.5

n = 6.0
Test

Criterion

DF

Statistic

Num

Denom

Wilks'

0.38186

7.554

14

0.003

Lawley-Hotelling

1.61877

7.554

14

0.003

Pillai's

0.61814

7.554

14

0.003

Roy's

1.61877

SSCP Matrix for Extrusion

Tear
Gloss
Opacity

Tear

Gloss

Opacity

1.740

-1.505

0.8555

-1.505

1.301

-0.7395

0.855

-0.739

0.4205

SSCP Matrix for Error


Tear

Gloss

Opacity

Tear

1.764

0.0200

-3.070

Gloss

0.020

2.6280

-0.552

-3.070

-0.5520

64.924

Opacity

Partial Correlations for the Error SSCP Matrix


Tear

Gloss

Opacity

Pg. 29

MTODOS ESTADSTICOS MULTIVARIADOS


Tear

1.00000

0.00929

-0.28687

Gloss

0.00929

1.00000

-0.04226

-0.28687

-0.04226

1.00000

Opacity

P. REYES / MARZO 2007

EIGEN Analysis for Extrusion

Eigenvalue

1.619

0.00000

0.00000

Proportion

1.000

0.00000

0.00000

Cumulative

1.000

1.00000

1.00000

Eigenvector
Tear
Gloss
Opacity

0.6541

0.4315

0.0604

-0.3385

0.5163

0.0012

0.0359

0.0302

-0.1209

MANOVA for Additive


s = 1

m = 0.5

n = 6.0
Test

Criterion

DF

Statistic

Num

Denom

Wilks'

0.52303

4.256

14

0.025

Lawley-Hotelling

0.91192

4.256

14

0.025

Pillai's

0.47697

4.256

14

0.025

Roy's

0.91192

SSCP Matrix for Additive


Tear

Gloss

Opacity

Tear

0.7605

0.6825

1.931

Gloss

0.6825

0.6125

1.732

Opacity

1.9305

1.7325

4.901

EIGEN Analysis for Additive

Eigenvalue

0.9119

0.00000

0.00000

Proportion

1.0000

0.00000

0.00000

Cumulative

1.0000

1.00000

1.00000

Pg. 30

MTODOS ESTADSTICOS MULTIVARIADOS


Eigenvector

Tear

-0.6330

0.4480

-0.1276

Gloss

-0.3214

-0.4992

-0.1694

Opacity

-0.0684

0.0000

0.1102

P. REYES / MARZO 2007

MANOVA for Extrusion*Additive


s = 1

m = 0.5

n = 6.0
Test

Criterion

DF

Statistic

Num

Denom

Wilks'

0.77711

1.339

14

0.302

Lawley-Hotelling

0.28683

1.339

14

0.302

Pillai's

0.22289

1.339

14

0.302

Roy's

0.28683

SSCP Matrix for Extrusion*Additive


Tear

Gloss

Opacity

Tear

0.000500

0.01650

0.04450

Gloss

0.016500

0.54450

1.46850

Opacity

0.044500

1.46850

3.96050

EIGEN Analysis for Extrusion*Additive

Eigenvalue

0.2868

0.00000

0.00000

Proportion

1.0000

0.00000

0.00000

Cumulative

1.0000

1.00000

1.00000

Eigenvector

Tear

-0.1364

0.1806

0.7527

Gloss

-0.5376

-0.3028

-0.0228

Opacity

-0.0683

0.1102

-0.0000

Por default se muestra la tabla para las cuatro pruebas multivariadas (Wilks,
Lawley, Hotelling, Pillai y Roy) para cada uno de los trminos en el modelo.
Los valores s, m y n se utilizan para los clculos de los estadsticos de prueba
Fc, el cual es exacto si s = 1 o 2 de otra forma es aproximado.
Pg. 31

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Examinando los valores P de las pruebas para Extrusin y Aditivo se observa


que son significativas para un nivel de 0.05, no as la interaccin.
Las matrices SSCP se usan para evaluar la contribucin a la variabilidad de
manera similar a la suma de cuadrados en la ANOVA univariada. La matriz
SSCP para Extrusion es la suma de cuadrados de la hiptesis y matriz de
productos cruzados H para las tres respuestas con el trmino de modelo
Extrusin. Los elementos diagonales de esta matriz, 1.740, 1.301 y 64.924 son
las sumas de cuadrados univariados para el trmino del modelo Extrusin
cuando las variables de respuesta son Tear, Gloss y Opacity respectivamente.
Los elementos fuera de la diagonal son los productos cruzados.
La matriz SSCP para el error es la suma de cuadrados de los errores y
productos cruzados E. Los elementos diagonales de la matriz 1.764, 2.6280, y
64.924 son las sumas de cuadrados de los errores para las variables de
respuesta Teat, Gloss y Opacity, respectivamente. Los elementos fuera de la
diagonal de esta matriz son los productos cruzados.
La matriz de correlaciones parciales para el error SSCP, se usa para evaluar
que tanto se relacionan las variables de respuesta. Las correlaciones parciales
entre Tear y Gloss son pequeas con 0.00929 y entre Gloss y Opacity
-0.04226. Y la correlacin parcial entre Tear y Opacity es de -0.28687 tampoco
es grande. Como la estructura de las correlaciones es dbil, se pueden realizar
anlisis univariados de ANOVA para cada una de las respuestas.
Se puede utilizar el anlisis de valores caractersticos o Eigenvalores, para
evaluar como difieren los promedios de las respuestas entre los niveles de los
diferentes trminos del modelo. El anlisis de Eigenvalores es E -1 H donde E es
la matriz SCCP del error y H es la matriz SCCP de las variables de respuesta.
Estos son los eigenvalores utilizados para calcular las cuatro pruebas de
MANOVA.
Poner la mayor importancia en los eigenvectores que corresponden a valores
altos de eigenvalores. En el ejemplo, el segundo y tercer eigenvalores son
pequeos, no significativos. Para ambos factores, Extrusion y Additive, los
Pg. 32

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

primeros eigenvalores contienen informacin similar. Para

Extrusion ies

0.6541, -0.3385, 0.0359 and for Additive it is -0.6630, -0.3214, -0.0684. El


mayor valor absoluto dentro de esos eigenvalores corresponde a la respuesta
Tear, el segundo a Gloss y el valor para Opacity es pequeo. Esto implica que
Tear tiene la mayor diferencia entre los dos niveles de los factores ya sea
Extrusion o Additive, el Gloss tiene las siguientes mayores diferencias y op.citp.
tiene solo pequeas diferencias.
Para un anlisis ms general utilizar General MANOVA con diseos
balanceados y no balanceados, incluso si se tienen covariados.
1

Seleccionar Stat > ANOVA > General MANOVA.

En Responses, seleccionar hasta 50 columnas numricas conteniendo las

variables de respuesta.
3

En Model, introducir los trminos del modelo que se quiera ajustar.

4. Click OK.

Pg. 33

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

5 ANLISIS DE COVARIANZA

Pg. 34

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

5. ANLISIS DE COVARIANZA
Definicin: Es un mtodo estadstico que analiza la relacin entre una
variable dependiente y dos o ms independientes, con el que se
elimina o controla el efecto de al menos una de estas independientes.
Similar al ANOVA, excepto que permite controlar la influencia de una
variable independiente, la cual con frecuencia es una caracterstica
antecedente que puede variar entre los grupos (Mertens, 2005) o
influir los resultados y afectar la claridad de las interpretaciones.
Perspectivas o usos: Wildt y Ahtola (1978, pp. 8-9) destacan tres
perspectivas para el anlisis de covarianza:
A. Perspectiva experimental. Se aplica a aquellas situaciones en que
el inters del investigador se centra en las diferencias observadas en
la variable dependiente, por medio de las categoras de la variable
independiente (o variables independientes). Pero el experimentador
asume que hay otras variables independientes cuantitativas que
contaminan la relacin y cuya influencia debe ser controlada.

Pg. 35

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Y el investigador nicamente se interesa por conocer la relacin entre


las
variables independientes categricas y la variable dependiente.
Desea al mismo tiempo remover y controlar el efecto de las variables
independientes cuantitativas no categricas (continuas). Es decir,
desea tener un esquema como el de la figura

El

objetivo

es

purificar

la

relacin

entre

las

independientes

categricas y la
Variable

dependiente,

mediante

el

control

del

efecto

de

las

independientes no categricas o continuas.


Ejemplos de variables independientes categricas seran: gnero
(masculino,
femenino), inteligencia (alta, media, baja), ingreso (menos de un
salario mnimo, dos a cuatro salarios mnimos, cinco a 10 salarios
mnimos, 11 o ms salarios mnimos).
Los niveles de medicin nominal y ordinal son categricos en s
mismos, mientras que los niveles de intervalos y razn deben

Pg. 36

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

transformarse en categoras ms discretas. Estos ltimos son en s:


cuantitativos, continuos y de categoras mltiples. Por ejemplo, el
ingreso en su estado natural (ponderaciones, dlares, euros, etc.)
vara de la categora cero hasta la categora (K)k, ya que puede haber
millones de categoras.
Variable categrica unas cuantas categoras o un rango medio.
Variable continua muchas categoras (a veces una infinidad).
A dichas variables independientes cuantitativas continuas, cuya
influencia se controla, se les denomina covariables. Una covariable
se incluye en el anlisis para remover su efecto sobre la variable
dependiente, e incrementar el conocimiento de la relacin entre las
variables independientes categricas de inters y la dependiente, lo
cual aumenta la precisin del anlisis.
En esta perspectiva, el anlisis de covarianza puede ser concebido
primero
como un ajuste en la variable dependiente respecto a diferencias en
la

covariable

evaluacin

de

las
la

covariables

relacin

y,

entre

posteriormente,

las

variables

como

una

independientes

categricas y los valores ajustados de la variable dependiente (Wildt y


Ahtola, 1978). En trminos de Creswell (2005):
El procedimiento ajusta las puntuaciones en la dependiente para
dar cuenta por la covarianza (por decirlo en trminos sencillos: hace
equivalentes a los grupos en la(s) covariable(s) y controla influencias
potenciales que pueden afectar a la variable dependiente).
B. Perspectiva de inters por la covariable. Esta perspectiva se
ejemplifica con aquellas instancias en las cuales el inters principal se
centra en analizar la relacin entre la variable dependiente y la

Pg. 37

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

covariable (variable cuantitativa continua) o las covariables. Aqu el


enfoque es distinto; la influencia que se remueve es la de las
variables independientes categricas. Primero se controla el efecto
(en este caso contaminante) de estas variables y despus se analiza
el efecto purificado de las covariables.
C. Perspectiva de regresin. En esta tercera perspectiva, tanto las
variables
independientes categricas como las covariables resultan de inters
para el
investigador, quien puede desear examinar el efecto de cada variable
independiente (covariables y no covariables, todas) y despus ajustar
o corregir los efectos de las dems variables independientes.
En cualquier caso, el anlisis de covarianza elimina influencias no
deseadas
sobre la variable dependiente. Se puede utilizar en contextos
experimentales y no experimentales. La mayora de las veces la
funcin del ANCOVA es remover la varianza compartida entre una o
ms covariables y la dependiente, de este modo, se valora en su justa
dimensin la relacin causal entre la(s) variable(s) independiente(s)
de inters y la dependiente (Creswell, 2005).
Vemoslo conceptualmente pero de forma grfica con un ejemplo
simple:
Ejemplo:
Estudio: Al investigador le interesa analizar el efecto en el aprendizaje
de la
computacin, por medio un nuevo mtodo para su enseanza a nios.
La hiptesis es: El nuevo mtodo de enseanza de la computacin

Pg. 38

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

(MA-RH) provocar un mayor aprendizaje en los nios que un mtodo


tradicional.
Entonces, implementa el siguiente experimento: A un grupo de
infantes los
expone al nuevo mtodo de enseanza de computacin (MA-RHS); a
otro grupo no lo expone al nuevo mtodo, ste aprende con el
mtodo tradicional; finalmente, a un tercer grupo, de control, no
recibe ningn tipo de enseanza en computacin.
La variable independiente es el tipo de mtodo con tres categoras o
niveles
(mtodo nuevo, mtodo tradicional y ausencia de mtodo), la
dependiente es el aprendizaje en computacin (medida por una
prueba estandarizada a nivel de intervalos). Se tiene un esquema
como el de la figura.

Pg. 39

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Con el experimento el investigador desea conocer la varianza en


comn entre mtodo y aprendizaje (cuantificarla), la relacin XY
(pura). Si los nios son asignados al azar a los grupos del
experimento y tiene grupos de tamao aceptable, por el diseo
mismo, remueve la influencia de las covariables que pudieran afectar.
Pero si no es factible hacerlo y tiene un diseo cuasiexperimental
(grupos intactos), debe remover tal influencia con el anlisis de
covarianza (eliminar al mnimo posible la varianza del aprendizaje no
explicada), para evitar que las covariables impidan ver con claridad la
relacin XY. Por ejemplo, el nivel educativo tecnolgico de los
padres puede influir (hace variar al aprendizaje) y este efecto debe
ser controlado, al introducirlo como covariable.

Pg. 40

MTODOS ESTADSTICOS MULTIVARIADOS

Lo que el investigador
grficamente as:

desea

P. REYES / MARZO 2007

tambin

se

puede

expresar

Wildt y Ahtola (1978, p. 13) definen algunos usos del anlisis de


covarianza:

Pg. 41

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

1. Incrementar la precisin en experimentos con asignacin al azar.


2. Eliminar influencias extraas o contaminantes que pueden resultar
cuando las pruebas o los individuos no son asignados al azar a las
diferentes condiciones experimentales (grupos de un experimento).
3. Eliminar efectos de variables que confundan o distorsionen la
interpretacin de resultados en estudios no experimentales.
Nivel de medicin de las variables: La variable dependiente siempre
est medida por intervalos o razn y las variables independientes
pueden estar medidas en cualquier nivel.
Interpretacin: Depende de cada caso especfico, ya que el anlisis de
covarianza

efectuado

mediante

un

programa

estadstico

computacional, produce un cuadro de resultados muy parecido al del


anlisis

de

varianza.

Los

elementos

ms

comunes

pueden

obssevarseobservarse en la tabla ANOVA.


La razn F es, igual que en el anlisis de varianza, una razn de
varianzas. El razonamiento estadstico es el mismo y F se interpreta
igual, incluso se utiliza el mismo cuadro de la distribucin F.
Solamente que las inferencias y conclusiones se hacen al considerar
que las medias de la variable
dependiente,

travs

de

las

categoras

de

las

variables

independientes, se han ajustado, de este modo eliminan el efecto de


la covariable o covariables.

Ejemplo:
Diseo de investigacin que utiliza el anlisis de covarianza

Pg. 42

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Hi: Los trabajadores que reciban retroalimentacin verbal sobre el


desempeo de parte de su supervisor mantendrn un nivel mayor de
productividad que los trabajadores que reciban retroalimentacin
sobre el desempeo por escrito, ms an que los trabajadores que no
reciban ningn tipo de retroalimentacin.
__
Hi: X1

__
> X2

__
>

X3

(verbal) (por escrito) (ausencia)

El investigador plantea un diseo experimental para intentar probar


su
hiptesis. Sin embargo, no puede asignar aleatoriamente a los
trabajadores a los tres grupos del experimento. El diseo sera con
grupos intactos
(cuasiexperimental) y se esquematizara as:

Asimismo, el investigador presupone que hay un factor que puede


contaminar los resultados (actuar como fuente de invalidacin
interna): la
motivacin. Diferencias iniciales en motivacin pueden invalidar el
estudio.
Como la asignacin al azar est ausente, no se sabe si los resultados
se ven influidos por dicho factor. Entonces, el experimentador decide
eliminar o controlar el efecto de la motivacin sobre la productividad
para conocer los efectos de la variable independiente: tipo de
retroalimentacin. La motivacin se convierte en covariable.
Pg. 43

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

El esquema es el que se muestra en la figura

Cabe destacar que, para introducir una covariable en el anlisis, de


preferencia debe medirse antes del inicio del experimento.
El anlisis de covarianza quita a la variabilidad de la dependiente lo
que se
debe a la covariable. Ajusta la varianza de la variable dependiente en
las categoras de la independiente, al basarse en la covariable. En el
ejemplo, ajusta la varianza

de la productividad debida a la

motivacin, en las categoras experimentales (tratamientos o grupos).


El ajuste se realiza sobre la base de la correlacin entre la covariable
y la dependiente. Esto se muestra esquemticamente en la tabla.
Una vez realizado el anlisis de covarianza, se evala si F es o no
significativa.
Cuando F resulta significativa se acepta la hiptesis de investigacin.
Si el resultado fuera:
G1 = 35
G2 = 36

Pg. 44

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

La correlacin entre la calificacin en motivacin y las puntuaciones


en
productividad es la base para el ajuste.
G3 = 38
Gl entre = K 1 = 3 1 = 2
Gl intra = N K = 107
F = 1.70
Comparamos con el valor de la tabla respectiva: en el nivel de 0.05 es
igual a 3.07, y nuestra razn F a 1.70 es menor a este valor. Por lo
tanto, rechazamos la hiptesis de investigacin y aceptamos la
hiptesis nula. Esto se contrasta y profundiza con las medias
ajustadas de los grupos que proporcione el anlisis de covarianza (no
las medias obtenidas en el experimento por cada grupo, sino las
ajustadas con base en la covariable).
Recordemos

que

SPSS

nos

proporciona

automticamente

la

significancia de F.

Ejemplo:
Determinar

si

hay

diferencia

en

la

resistencia

de

una

fibra

monofilamento producida por tres mquinas diferentes. El dimetro


de la fibra parece tener influencia en la resistencia como se muestra
abajo (covariado de Y).
Datos de resistencia - Y es la respuesta, X es el covariado.
Y
36
41
39
42
49
40

X
20
25
24
25
32
22

Maq
1
1
1
1
1
2

Pg. 45

MTODOS ESTADSTICOS MULTIVARIADOS

48
39
45
44
35
37
42
34
32

28
22
30
28
21
23
26
21
15

P. REYES / MARZO 2007

2
2
2
2
3
3
3
3
3

La relacin entre X y Y es significativa como se observa en la


siguiente grfica:
En Minitab:
1. Stat > RegresinRegression > Fitted line plot
2. Introducir Y y X, seleccionar Linear
3. OK
Fitted Line Plot
Y = 14.14 + 1.080 X
50

S
R-Sq
R-Sq(adj)

1.78174
88.1%
87.2%

45

40

35

30
15.0

17.5

20.0

22.5

25.0

27.5

30.0

32.5

Para el ANOVA con Covariados, las instrucciones de Minitab son las


siguientes:
1. Stat > ANOVA > General Linear Model
2. Introducir en Response Y, en Model X y Maquina

Pg. 46

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

3. En Covariates X
4. En Results en Display Least Square Means corresponding to the
terms Maq
5. En Graphs seleccionar Normal plot for residuals
6. OK
Los resultados se muestran a continuacin:
General Linear Model: Y versus Maq
Factor
Maq

Type
fixed

Levels
3

Values
1, 2, 3

Analysis of Variance for Y, using Adjusted SS for Tests


Source
X
Maq
Error
Total

DF
1
2
11
14

Seq SS
305.13
13.28
27.99
346.40

S = 1.59505
Term
Constant
X

Adj SS
178.01
13.28
27.99

Adj MS
178.01
6.64
2.54

R-Sq = 91.92%

Coef
17.177
0.9540

SE Coef
2.783
0.1140

F
69.97
2.61

P
0.000
0.118

R-Sq(adj) = 89.72%
T
6.17
8.36

P
0.000
0.000

Unusual Observations for Y


Obs
7

Y
48.0000

Fit
45.1080

SE Fit
0.7489

Residual
2.8920

St Resid
2.05 R

R denotes an observation with a large standardized residual.


Means for Covariates
Covariate
X

Mean
24.13

StDev
4.324

Least Squares Means for Y


Maq
1
2
3

Mean
40.38
41.42
38.80

SE Mean
0.7236
0.7444
0.7879

Conclusin:
Se observa que no hay diferencia en las mquinas una vez que eliminamos la
variabilidad introducida por el dimetro de la fibra, en caso de no haber tomado

Pg. 47

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

en cuenta la covarianza del dimetro en la resistencia, se hubiese concluido al


revs, que si hay diferencia en las mquinas, como se muestra a continuacin:
Con Minitab:
1. Stat > ANOVA > One way
2. Response Y Factor Maquina
3. OK
Los resultados son los siguientes:
One-way ANOVA: Y versus Maq
Source
Maq
Error
Total

DF
2
12
14

S = 4.143

Level
1
2
3

N
5
5
5

SS
140.4
206.0
346.4

MS
70.2
17.2

F
4.09

R-Sq = 40.53%

Mean
41.400
43.200
36.000

StDev
4.827
3.701
3.808

P
0.044

R-Sq(adj) = 30.62%

Individual 95% CIs For Mean Based on Pooled


StDev
+---------+---------+---------+--------(---------*----------)
(---------*---------)
(---------*---------)
+---------+---------+---------+--------32.0
36.0
40.0
44.0

Pooled StDev = 4.143

Conclusin: Como P value es menor a 0.05 aparentemente si hay diferencia


entre mquinas.

Pg. 48

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

7. ANLISIS DISCRIMINANTE MLTIPLE Y


REGRESIN LOGSTICA

Pg. 49

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

7. ANLISIS DISCRIMINANTE MLTIPLE Y REGRESIN


LOGSTICA
El

anlisis

discriminante,

se

aplica

cuando

las

variables

independientes son medidas por intervalos o razn, y la dependiente


es categrica. Tal anlisis sirve para predecir la pertenencia de un
caso a una de las categoras de la variable dependiente, sobre la base
de varias independientes (dos o ms). Se utiliza una ecuacin de
regresin llamada funcin discriminante. Por ejemplo, si queremos
predecir el voto obtenido por dos partidos contendientes (variable
dependiente nominal con dos categoras) sobre la base de cuatro
variables independientes, aplicaremos el anlisis discriminante, para
resolver una ecuacin de regresin; as se obtienen las predicciones
individuales.
En el ejemplo, hay dos categoras (votar por A o votar por B); por
tanto, los valores a predecir son 0 y 1 (A y B, respectivamente). Si el
sujeto obtiene una puntuacin ms cercana a cero, se predice que
pertenece al grupo que votar por A; si logra una puntuacin ms
cercana a 1, se predice que pertenece al grupo que votar por B.
Adems, se consigue una medida del grado de discriminacin del
modelo.
Usar el Anlisis Discrimnate para clasificar observaciones en dos
grupos (Anlisis discriminante) o ms grupos (Anlisis discriminante
mltiple MDA) si se tiene una muestra con grupos conocidos. Se
puede utilizar tambin para investigar como contribuyen las variables
a la separacin de grupos. La regresin logstica o Logit Analysis se
limita a dos grupos. Para el caso de clasificar las observaciones
nuevas en una de dos categoras, la regresin logstica puede ser
superior al anlisis discriminante.
Se pueden hacer anlisis discriminantes lineales y cuadrticos. Los
lineales asumen que todos los grupos tienen la misma matriz de
Pg. 50

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

covarianza, los cuadrticos no hacen este supuesto y no son bien


comprendidos.

Pg. 51

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Modelo discriminante
El problema que atiende la funcin discriminante es que tanto es posible
separar dos o ms grupos de individuos, con base en las mediciones
realizadas en esos individuos en varias variables. Por ejemplo para el caso de
los pjaros que sobrevivieron y los que no sobrevivieron, es interesante
considerar si es posible utilizar las dimensiones de sus cuerpos para separar
sobrevivientes de no sobrevivientes.
En el caso general donde hay m muestras aleatorias de diferentes grupos, de
tamaos n1, n2, ., nm y los valores disponibles para p variables X1, X2, ,
Xp para cada miembro de la muestra, la forma de los datos para una funcin de
anlisis discriminante es :
Individuo
1
2

n1
1
2

n2
1
2

nm

X1
X111
X211
.
Xn1,11
X121
X221
..
Xn2,2,1
X1m1
X1m1
.
Xnm,m1

X2
X112
X212
.
Xn1,12
X122
X222
..
Xn2,2,2
X1m2
X1m2
.
Xnm,m2

Xp
X11p
X21p
.
Xn1,1p
X12p
X22p
..
Xn2,2,p
X1mp
X1mp
.
Xnm,mp

Grupo
Grupo1

Grupo 2

Grupo m

En este caso los datos no requieren ser estandarizados como en el anlisis de


componentes principales y anlisis factorial, ya que los resultados no son
afectados por la escala de los datos.

Pg. 52

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Discriminacin por distancia de Mahalanobis


Suponiendo que hay g poblaciones y que las distribuciones multivariadas son
conocidas para p variables X1, X2,, Xp. Sea ki la media de la variable Xk en
la poblacin i-sima, y asumiendo que la varianza de Xk tiene el mismo valor
Vk, en todas las poblaciones, se define a la distancia entre poblaciones y
muestras de Mahalanobis como:
p

Dij2 ( ri rj )v rs ( si sj )
r 1 s 1

Donde V(rs) es el elemento con rengln r-simo y columna s-sima, de la


matriz inversa de covarianza para las variables p. Tambin se puede escribir en
forma matricial como:
x ' ( x1 , x2 ,...., x p )

' ( 1 , 2 ,....., p )

Dij2 (i j )'V 1 (i j )

1i

2i
.....

pi

i es el vector de medias para la poblacin i-sima y V es el vector de


covarianza. Una condicin es que la V sea similar para todas las poblaciones.
La distancia de Mahalanobis se utiliza frecuentemente para medir la distancia
de una observacin simple multivariada desde el centro de la poblacin de la
que emerge la observacin. Tambin se puede interpretar como un residuo
respecto al centro, con la consideracin de que si excede cierto valor se
investigue como punto aberrante.

Pg. 53

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Para el modelo discriminante, los vectores promedio de las m muestras pueden


ser considerados como estimados de los vectores promedio de los grupos.
Pueden calcularse las distancias de mahalanobis de individuos a centros de
grupos, y cada individuo puede ser asignado al grupo que le sea ms cercano.
El grupo final puede ser diferente del grupo del que procede originalmente. El
porcentaje de asignacin correcta es una indicacin clara de que tan bien los
grupos pueden ser separados, usando las variables disponibles.
El procedimiento puede definirse de manera ms clara como sigue:
El vector de valores promedio de la muestra del i-simo grupo es
x ' ( x1i , x2 i ,...., x pi )

La matriz de covarianza para las muestras es:

c11 c12....c1 p

c21 c22....c2 p

C
.................

cp1 cp2....cpp
La distancia de Mahalanobis de una observacin x' ( x1 , x2 ,......, x p )' al
centro del grupo i se estima con:

Di2 ( x xi )' C 1 ( x xi )
p

Di2 ( xr xri )c rs ( xs xsi )


r 1 s 1

Donde crs es el elemento den la r-sima fila y la s-sima columna de C -1. La


observacin x es asignada al grupo para el cual Di2 tiene el valor ms pequeo.
Funciones cannicas discriminantes

Pg. 54

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Es a veces til poder determinar las funciones de las variables Xs que en


alguna forma separen los m grupos tan bien como sea posible. El mtodo ms
sencillo consiste en tomar una combinacin lineal de las variables X:
Z a1 X 1 a2 X 2 ........ a p X p

Una forma de seleccionar los coeficientes as es seleccionar los que den la


mayor Fc en una ANOVA. Si se utiliza este mtodo, se encuentran las
funciones cannicas discriminantes para cada observacin i-sima que no
estn correlacionadas entre s.
Z i ai1 X 1 ai 2 X 2 ........ aip X p

La tabla ANOVA para una variable simple y m muestras es la siguiente:


Fuente de
Variacin
Entre muestras

Suma de
cuadrados
B=TW

Grados de
libertad
m -1

Dentro

W ( xij x j ) 2 n - m

Cuadrado Medio

M1 = B/(m-1)

M1/M2

nj

j 1 i 1

de muestras
m

nj

T ( xij x ) 2

Total

n1

j 1 i 1

nj

Tamao de la muestra j-sima

Nmero total de observaciones

xij

Es la observacin i-sima de la j-sima muestra


nj

xj

xij

i 1

nj

Media de la muestra j-sima

nj
xij

j 1 i 1

Media global de todos los datos

El elemento en la fila r-sima y columna c-sima en la matriz T es:

nj

trc ( xijr xr )( xijc xc )


j 1 i 1

El elemento en la r-sima fila y c-sima columna de la matriz W es:


Pg. 55

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

nj

wrc ( xijr x jr )( xijc x jc )


j 1 i 1

Hallar los coeficientes de las funciones discriminantes cannicas se convierte


en un problema de eigenvalores. La matriz de variacin dentro de la muestra W
y la matriz de suma de cuadrados total T se calculan con las ecuaciones
anteriores. Por tanto la matriz entre grupos se determina con:
B=TW
Los eigenvalores y los eigenvectores se determinan con la matriz W-1B. Si los
eigenvalores 1>2>3>..s entonces i es la razn de la suma de cuadrados
entre grupos a la suma de cuadrados entre grupos para la i-sima combinacin
lineal, Zi, mientras que los elementos de los eigenvectores, ai = (ai1, ai2, ai3,
., aip), son los coeficientes de Zi.
Las funciones cannicas discriminantes Z1, Z2,, Zp son combinaciones
lineales de las variables originales seleccionadas de tal forma que Z1 refleje
tanta diferencia de grupo como sea posible; Z2 capture tanta diferencia de
grupo como sea posible no mostrada por Z1; Z3 capture tanta diferencia de
grupo como sea posible que no sea mostrada por Z1 y Z2; etc. Se espera que
con las primeras funciones sea suficiente para acumular la mayor parte de las
diferencias de grupo. Si y solo si con las primeras dos variables se cumple esta
condicin, se puede graficar la diferencia entre grupos, graficando las funciones
para los individuos de las muestras.
El nmero de variables cannicas es el mnimo entre el nmero de variables
(Xs) y el nmero de grupos menos uno (m 1= 2). Para el anlisis discrimnate
es necesario proporcionar el grupo al que pertenecen al inicio las
observaciones.

Para probar la significancia de la prueba, se puede utilizar el estadstico T2, de


Hottelling basado en el supuesto de normalidad y variabilidad similar dentro de
las muestras. Es decir que las muestras vengan de una distribucin mutivariada
normal con matrices de covarianza similares.

Pg. 56

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Para probar si la funcin discriminante cannica Zj vara significativamente de


grupo a grupo se utiliza un estadstico Chi cuadrado.
Finalmente, se pueden analizar las distancias de Mahalanobis de las
observaciones a los centros de los grupos a ser examinados. Deben variar de
acuerdo a una distribucin Chi cuadrada con p grados de libertad, si exceden el
valor crtico, se debe analizar si la observacin realmente viene del grupo
asignado.

Pg. 57

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Ejemplo:
El porcentaje de personas empleadas en nueve diferentes sectores industriales
en Europa (Agr = agricultura; Min = minera; Man = Manufactura; Ps = Energa;
Con = Construccin; Ser = Servicios; Fin = Finanzas; Sps = Servicios sociales;
Tc = Transporte y comunicaciones).

No
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26

Grupo
1
1
1
1
1
1
1
1
1
1
1
2
1
2
2
1
1
2
3
3
3
3
3
3
3
3

Ciudad
Blgica
Dinamarca
Francia
Alemania Occ.
Irlanda
Italia
Luxenburgo
Holanda
Inglaterra
Austria
Finlandia
Grecia
Noruega
Portugal
Espaa
Suecia
Suiza
Turqua
Bulgaria
Checa
Alemania Ori.
Hungra
Polonia
Rumania
Rusia
Yugoslavia

Agr
3.3
9.2
10.8
6.7
23.2
15.9
7.7
6.3
2.7
12.7
13.0
41.4
9.0
27.8
22.9
6.1
7.7
66.8
23.6
16.5
4.2
21.7
31.1
34.7
23.7
48.7

Min
0.9
0.1
0.8
1.3
1.0
0.6
3.1
0.1
1.4
1.1
0.4
0.6
0.5
0.3
0.8
0.4
0.2
0.7
1.9
2.9
2.9
3.1
2.5
2.1
1.4
1.5

Man
27.6
21.8
27.5
35.8
20.7
27.6
30.8
22.5
30.2
30.2
25.9
17.6
22.4
24.5
28.5
25.9
37.8
7.9
32.3
35.5
41.2
29.6
25.7
30.1
25.8
16.8

Ps Con Ser Fin Sps Tc


0.9 8.2 19.1 6.2 26.6 7.2
0.6 8.3 14.6 6.5 32.2 7.1
0.9 8.9 16.8 6.0 22.6 5.7
0.9 7.3 14.4 5.0 22.3 6.1
1.3 7.5 16.8 2.8 20.8 6.1
0.5 10.0 18.1 1.6 20.1 5.7
0.8 9.2 18.5 4.6 19.2 6.2
1.0 9.9 18.0 6.8 28.5 6.8
1.4 6.9 16.9 5.7 28.3 6.4
1.4 9.0 16.8 4.9 16.8 7.0
1.3 7.4 14.7 5.5 24.3 7.6
0.6 8.1 11.5 2.4 11.0 6.7
0.8 8.6 16.9 4.7 27.6 9.4
0.6 8.4 13.3 2.7 16.7 5.7
0.7 11.5 9.7 8.5 11.8 5.5
0.8 7.2 14.4 6.0 32.4 6.8
0.8 9.5 17.5 5.3 15.4 5.7
0.1 2.8 5.2 1.1 11.9 3.2
0.6 7.9 8.0 0.7 18.2 6.7
1.2 8.7 9.2 0.9 17.9 7.0
1.3 7.6 11.2 1.2 22.1 8.4
1.9 8.2 9.4 0.9 17.2 8.0
0.9 8.4 7.5 0.9 16.1 6.9
0.6 8.7 5.9 1.3 11.7 5.0
0.6 9.2 6.1 0.5 23.6 9.3
1.1 4.9 6.4 11.3 5.3 4.0

En este caso el nmero de variables cannicas es el mnimo entre el nmero


de variables (8) y el nmero de grupos menos uno (m 1= 2). Las variables
cannicas se obtienen a continuacin:
Las instrucciones de Minitab son las siguientes:
1

Cargar los datos a Minitab

Stat > Multivariate > Discriminant Analysis.

En Groups, poner SalmonOrigin.

En Predictors, poner Freshwater Marine. Click OK.

Los resultados se muestran a continuacin:


Pg. 58

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Discriminant Analysis: Grupo versus Agr, Min, ...


After subtracting group means,
Agr is highly correlated with other predictors.
After subtracting group means,
Man is highly correlated with other predictors.
After subtracting group means,
Sps is highly correlated with other predictors.
Linear Method for Response: Grupo
Predictors: Agr, Min, Man, Ps, Con, Ser, Fin, Sps
Group
Count

1
9

2
9

3
8

Summary of classification
True Group
1
2
3
8
1
0
1
8
0
0
0
8
9
9
8
8
8
8
0.889 0.889 1.000

Put into Group


1
2
3
Total N
N correct
Proportion
N = 26

N Correct = 24

Proportion Correct = 0.923

Squared Distance Between Groups


1
2
3

1
0.0000
9.4368
40.1385

2
9.4368
0.0000
20.4832

3
40.1385
20.4832
0.0000

Linear Discriminant Function for Groups


Constant
Agr
Min
Man
Ps
Con
Ser
Fin
Sps

1
-11171
221
284
211
371
287
244
204
255

2
-10821
218
277
208
369
283
239
200
251

Variable
Agr
Min
Man
Ps
Con
Ser

Pooled Mean
19.131
1.2538
27.008
0.90769
8.1654
12.958

3
-10678
217
279
207
371
282
236
199
249

Means for Group


1
2
3
9.533
23.044
25.525
1.0333
0.5556
2.2875
27.167
24.522
29.625
0.92222 0.78889 1.02500
8.4667
8.0556
7.9500
17.022
13.333
7.963

Pg. 59

MTODOS ESTADSTICOS MULTIVARIADOS


Fin
Sps

4.0000
20.023

Variable
Agr
Min
Man
Ps
Con
Ser
Fin
Sps

Pooled
StDev
14.37
0.6643
6.969
0.3788
1.699
2.749
2.630
6.148

5.0222
24.511

P. REYES / MARZO 2007

4.5667
18.656

2.2125
16.513

StDev for Group


1
2
3
6.48
20.01
13.15
0.9000 0.2789 0.6600
4.871
8.343
7.274
0.2906 0.3855 0.4528
1.117
2.346
1.330
1.638
3.997
1.869
1.767
2.215
3.681
4.524
7.664
5.803

Pooled Covariance Matrix


Agr
Min
Man
Ps
Con
Ser
Fin
Sps
Sps

Agr
206.455
-1.471
-80.889
-2.568
-13.191
-31.181
-3.479
-59.429
37.798

Min

Man

Ps

Con

Ser

Fin

0.441
1.683
0.087
0.029
0.336
-0.424
-0.748

48.569
0.881
6.269
11.763
-1.216
9.607

0.143
0.042
0.576
0.220
0.424

2.887
2.076
-0.148
1.082

7.555
0.287
6.397

6.916
-1.432

Sps

Covariance matrix for Group 1


Agr
Min
Man
Ps
Con
Ser
Fin
Sps
Sps

Agr
42.053
-0.800
-15.359
-0.067
0.856
-0.776
-8.537
-14.949
20.466

Min

Man

Ps

Con

Ser

Fin

Sps

0.810
2.522
0.040
-0.156
0.372
-0.312
-2.359

23.727
-0.058
-1.376
-0.809
-0.272
-8.052

0.084
-0.208
0.012
0.074
0.100

1.248
0.920
-0.254
-0.922

2.684
-0.432
-2.050

3.122
5.906

Covariance matrix for Group 2


Agr
Min
Man
Ps
Con
Ser
Fin
Sps
Sps

Agr
400.228
1.336
-140.614
-5.808
-30.813
-71.357
-31.392
-98.810
58.735

Min

Man

Ps

Con

Ser

Fin

Sps

0.078
-0.459
0.021
0.025
-0.288
0.048
-0.732

69.609
2.090
15.256
25.528
12.865
11.504

0.149
0.437
1.149
0.438
1.131

5.505
4.945
3.830
-0.771

15.978
3.179
16.029

4.908
4.981

Covariance matrix for Group 3


Agr
Min
Man
Ps
Con
Ser
Fin

Agr
172.888
-5.445
-87.525
-1.722
-9.106
-20.013
34.201

Min

Man

Ps

Con

Ser

Fin

0.436
3.172
0.218
0.245
1.009
-1.093

52.914
0.572
4.734
10.401
-18.389

0.205
-0.123
0.565
0.135

1.769
0.119
-4.574

3.494
-2.195

13.547

Pg. 60

Sps

MTODOS ESTADSTICOS MULTIVARIADOS


Sps
Sps

-65.256
33.678

1.076

27.621

-0.013

P. REYES / MARZO 2007


5.491

5.042

-17.147

Summary of Misclassified Observations


Observation
4**

True
Group
1

Pred
Group
2

16**

Group
1
2
3
1
2
3

Squared
Distance
11.326
6.373
19.796
5.350
10.989
35.747

Probability
0.077
0.921
0.001
0.944
0.056
0.000

Corrida con SPSS


Discriminant
Warnings
Option ''SEPARATE'' means
classification using group
covariance matrices of the canonical
discriminant functions, not those of
the original variables. If there are
fewer functions than variables, that
makes a difference.
Analysis Case Processing Summary
Unweighted Cases
Valid
Excluded Missing or out-of-range
group codes
At least one missing
discriminating variable
Both missing or
out-of-range group codes
and at least one missing
discriminating variable
Total
Total

N
26

Percent
100.0

.0

.0

.0

0
26

.0
100.0

Pg. 61

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Group Statistics

GRUPO
1.00

2.00

3.00

Total

AGR
MIN
MAN
PS
CON
SER
FIN
SPS
AGR
MIN
MAN
PS
CON
SER
FIN
SPS
AGR
MIN
MAN
PS
CON
SER
FIN
SPS
AGR
MIN
MAN
PS
CON
SER
FIN
SPS

Mean
9.5929
.8500
27.6214
.9571
8.4214
16.6786
5.1143
24.0786
39.7250
.6000
19.6250
.5000
7.7000
9.9250
3.6750
12.8500
25.5250
2.2875
29.6250
1.0250
7.9500
7.9625
2.2125
16.5125
19.1308
1.2538
27.0077
.9077
8.1654
12.9577
4.0000
20.0231

Std. Deviation
5.3626
.7743
5.0773
.2875
1.0401
1.5783
1.4206
5.3738
19.6736
.2160
9.0205
.2708
3.6102
3.4760
3.2908
2.5981
13.1487
.6600
7.2742
.4528
1.3299
1.8693
3.6806
5.8033
15.5466
.9700
7.0078
.3762
1.6456
4.5753
2.8066
6.8295

Valid N (listwise)
Unweighted
Weighted
14
14.000
14
14.000
14
14.000
14
14.000
14
14.000
14
14.000
14
14.000
14
14.000
4
4.000
4
4.000
4
4.000
4
4.000
4
4.000
4
4.000
4
4.000
4
4.000
8
8.000
8
8.000
8
8.000
8
8.000
8
8.000
8
8.000
8
8.000
8
8.000
26
26.000
26
26.000
26
26.000
26
26.000
26
26.000
26
26.000
26
26.000
26
26.000

Analysis 1
Summary of Canonical Discriminant Functions
Eigenvalues
Function
1
2

Eigenvalue % of Variance
11.347a
92.1
a
.977
7.9

Cumulative %
92.1
100.0

Canonical
Correlation
.959
.703

a. First 2 canonical discriminant functions were used in the


analysis.

Pg. 62

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Wilks' Lambda
Test of Function(s)
1 through 2
2

Wilks'
Lambda
.041
.506

Chi-square
62.301
13.290

df
16
7

Standardized Canonical Discriminant Function Coefficients


Function
1
3.690
-.197
2.038
-.039
.237
1.900
1.047
2.205

AGR
MIN
MAN
PS
CON
SER
FIN
SPS

2
.555
.551
.736
.357
-.010
.025
.357
.970

Structure Matrix
Function
SER
FIN
AGR
MIN
PS
MAN
SPS
CON

.630*
.157*
-.243
-.265
-.001
-.017
.229
.045

.339
-.032
-.737*
.592*
.551*
.544*
.505*
.103*

Pooled within-groups correlations between discriminating


variables and standardized canonical discriminant functions
Variables ordered by absolute size of correlation within function.
*. Largest absolute correlation between each variable and
any discriminant function
Functions at Group Centroids
Function
GRUPO
1.00
2.00
3.00

1
2.792
-1.234
-4.269

2
.264
-2.150
.613

Unstandardized canonical discriminant


functions evaluated at group means

Pg. 63

Sig.
.000
.065

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Group covariances of canonical discriminant functions


GRUPO
1.00

Function
1
2
1
2
1
2

2.00
3.00

1
.867
-.168
2.340
.242
.672
.209

2
-.168
.737
.242
.726
.209
1.605

The pooled within-groups covariance matrix of the canonical


discriminant functions is an identity matrix by definition.

Box's Test of Equality of Covariance Matrices of Canonical


Discriminant Functions
Log Determinants
GRUPO
1.00
2.00
3.00
(identity matrix)

Rank
2
2
2
2

Log
Determinant
-.492
.495
.035
.000

The ranks and natural logarithms of determinants


printed are those of the group covariance matrices
of the canonical discriminant functions.
Test Results
Box's M
F

Approx.
df1
df2
Sig.

4.673
.629
6
707.141
.707

Tests null hypothesis of equal population covariance


matrices of canonical discriminant functions.

Classification Statistics
Classification Processing Summary
Processed
Excluded

Used in Output

26
Missing or out-of-range
group codes
At least one missing
discriminating variable

0
0
26

Pg. 64

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Prior Probabilities for Groups

GRUPO
1.00
2.00
3.00
Total

Prior
.538
.154
.308
1.000

Cases Used in Analysis


Unweighted
Weighted
14
14.000
4
4.000
8
8.000
26
26.000

Separate-Groups Graphs
Canonical Discriminant Functions
GRUPO = 1
2.5
2.0
1.5
1.0
.5

Function 2

0.0

Group Centroid

-.5

Group Centroid

-1.0
-1.5

1.0

1.5

2.0

2.5

3.0

3.5

4.0

4.5

Function 1

Canonical Discriminant Functions


GRUPO = 2
-1.0

-1.5

-2.0

Function 2

-2.5

Group Centroid
-3.0
Group Centroid
-3.5

-2.5

-2.0

-1.5

-1.0

-.5

0.0

.5

1.0

Function 1

Pg. 65

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Canonical Discriminant Functions


GRUPO = 3
3

Function 2

Group Centroid
-1
Group Centroid
-2

-5.5

-5.0

-4.5

-4.0

-3.5

-3.0

Function 1

Canonical Discriminant Functions


3
2
1

3
1

GRUPO

-1

Function 2

Group Centroids

-2

3
-3

-4

1
-6

-4

-2

Function 1

Classification Resultsa

Original

Count

GRUPO
1.00
2.00
3.00
1.00
2.00
3.00

Predicted Group Membership


1.00
2.00
3.00
14
0
0
0
4
0
0
0
8
100.0
.0
.0
.0
100.0
.0
.0
.0
100.0

a. 100.0% of original grouped cases correctly classified.

Pg. 66

Total
14
4
8
100.0
100.0
100.0

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Territorial Map
Canonical Discriminant
Function 2
-6.0
-4.0
-2.0
.0
2.0
4.0

6.0
31

31

31

31

31

31
4.0

31

31

31

31

31

31
2.0

31

31

331

32221

*
332
21

322
21
*
.0

332
21

3322
21

322
21

332
21

322
21

332
21
-2.0
322

21

332
21

322
21

332
21

322
21

332
21
-4.0 322

21

332
21
22
21

21

21

21
-6.0
21

-6.0
-4.0
-2.0
.0
2.0
4.0
Canonical Discriminant Function 1

6.0

6.0

Symbols used in territorial map


Symbol Group Label
------ ----- -------------------1
1
2
2
3
3
*
Indicates a group centroid

Canonical Discriminant Functions


3
2
1

3
1

GRUPO

F u n c t io n 2

-1

Group Centroids

-2

3
-3

-4

1
-6

-4

-2

Function 1

Pg. 67

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Ejemplo:
Para regular la pesca de salmn, se desea identificar si el pescado es originario
de Alaska o de Canad. Cincuenta peces de cada lugar de origen fueron
capturados y pesados cuando vivan en agua dulce y cuando vivieron en agua
salada. El objetivo es el de poder identificar si los nuevos pescados vienen de
criaderos en Alaska o Canad. Los datos se muestran a continuacin:
SalmonOrigin Freshwater

Marine

Alaska

108

368

Alaska

131

355

Alaska

105

469

Alaska

86

506

Alaska

99

402

Alaska

87

423

Alaska

94

440

Alaska

117

489

Alaska

79

432

Alaska

99

403

Alaska

114

428

Alaska

123

372

Alaska

123

372

Alaska

109

420

Alaska

112

394

Alaska

104

407

Alaska

111

422

Alaska

126

423

Alaska

105

434

Alaska

119

474

Alaska

114

396

Alaska
Alaska

100
84

470
399

SalmonOrigin Freshwater
CanadaCana
d
129
CanadaCana
d
148
CanadaCana
d
179
CanadaCana
d
152
CanadaCana
d
166
CanadaCana
d
124
CanadaCana
d
156
CanadaCana
d
131
CanadaCana
d
140
CanadaCana
d
144
CanadaCana
d
149
CanadaCana
d
108
CanadaCana
d
135
CanadaCana
d
170
CanadaCana
d
152
CanadaCana
d
153
CanadaCana
d
152
CanadaCana
d
136
CanadaCana
d
122
CanadaCana
d
148
CanadaCana
d
90
CanadaCana
d
145
CanadaCana
123

Pg. 68

Marine
420
371
407
381
377
389
419
345
362
345
393
330
355
386
301
397
301
438
306
383
385
337
364

MTODOS ESTADSTICOS MULTIVARIADOS

Alaska

102

429

Alaska

101

469

Alaska

85

444

Alaska

109

397

Alaska

106

442

Alaska

82

431

Alaska

118

381

Alaska

105

388

Alaska

121

403

Alaska

85

451

Alaska

83

453

Alaska

53

427

Alaska

95

411

Alaska

76

442

Alaska

95

426

Alaska

87

402

Alaska

70

397

Alaska

84

511

Alaska

91

469

Alaska

74

451

Alaska

101

474

Alaska

80

398

Alaska

95

433

Alaska

92

404

Alaska

99

481

Alaska

94

491

Alaska

87

480

d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d
CanadaCana
d

P. REYES / MARZO 2007

145

376

115

354

134

383

117

355

126

345

118

379

120

369

153

403

150

354

154

390

155

349

109

325

117

344

128

400

144

403

163

370

145

355

133

375

128

383

123

349

144

373

140

388

150

339

124

341

125

346

153

352

108

339

Las intruccionesinstrucciones de Minitab son las siguientes:

Pg. 69

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Abrir la worksheet EXH_MVAR.MTW.

Stat > Multivariate > Discriminant Analysis.

En Groups, poner SalmonOrigin.

En Predictors, poner Freshwater Marine. Click OK.

Los resultados obtenidos se muestran a continuacin:


Discriminant Analysis: SalmonOrigin versus Freshwater, Marine
Linear Method for Response: SalmonOrigin
Predictors: Freshwater, Marine
Group
Count

Alaska
50

Canada
50

Summary of classification
True Group
Alaska Canada
44
1
6
50
50
44
49
0.880
0.980

Put into Group


Alaska
CanadaCanad
Total N
N correct
Proportion
N = 100

49

N Correct = 93

Proportion Correct = 0.930

Squared Distance Between Groups


Alaska
Canada

Alaska
0.00000
8.29187

Canada
8.29187
0.00000

Linear Discriminant Function for Groups


Alaska Canada
Constant
-100.68 -95.14
Freshwater
0.37
0.50
Marine
0.38
0.33
Summary of Misclassified Observations
Observation
1**
2**
12**
13**
30**
32**
71**

Squared
Pred Group
Group Distance Probability
CanadaCanad Alaska
3.544
CanadaCanad
2.960
Alaska
CanadaCanad Alaska
8.1131
CanadaCanad
0.2729
Alaska
CanadaCanad Alaska
4.7470
CanadaCanad
0.7270
Alaska
CanadaCanad Alaska
4.7470
CanadaCanad
0.7270
Alaska
CanadaCanad Alaska
3.230
CanadaCanad
1.429
Alaska
CanadaCanad Alaska
2.271
CanadaCanad
1.985
CanadaCanad
Alaska Alaska
2.045
CanadaCanad
7.849

True Group
Alaska

Interpretando los resultados


Pg. 70

0.428
0.572
0.019
0.981
0.118
0.882
0.118
0.882
0.289
0.711
0.464
0.536
0.948
0.052

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

El Anlisis Discriminante identific correctamente 93 de los 100 peces, a pesar


de que la probabilidad de clasificar correctamente un pez de Alaska fue menor
(44/50 o 88%) que la probabilidad de clasificar correctamente un pez de
Canad (49/50 o 98%). Para identificar el origen de un pez recientemente
capturado depende de cual valor discriminante sea mayor. Se puede correr el
anlisis discriminante de nuevo y predecir a que grupo pertenecen las nuevas
observaciones.
El resumen de las observaciones mal clasificadas muestra la distancia al
cuadrado desde el punto mal clasificado a los centroides del grupo (vectores
medios) y las probabilidades posteriores. Las observaciones son asignadas al
grupo con la mayor probabilidad posterior.
Si en Options introducimos en Predict membership for: 100 130, la
clasificacin aparece como:
Prediction for Test Observations
Observation
1

Squared
Pred Group From Group Distance Probability
CanadaCanad
Alaska
78.448
0.000
CanadaCanad
55.194
1.000

Pg. 71

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

El anlisis discriminante involucra establecer una Variable (Variate),


combinacin lineal de dos o ms variables independientes que discriminarn
mejor entre grupos definidos a priori.

Se logra al poner los pesos de la

variable para cada variable de modo de maximizar la varianza entre grupos


respecto a la varianza dentro de los grupos. La ecuacin de la funcin
discriminante toma la forma de:
Z jk a W 1X 1k W 2X 2 k .... W nX nk

Donde:
Zjk = Valor Z discriminante de la funcin discriminante J para el objeto K.
a = Interseccin en eje Y
Wi = Peso discriminante para la variable independiente i.
Xik = Variable independiente i para el objeto k.
La media de un grupo se denomina Centroide, que indica la localizacin tpica
de cualquier individuo dentro de un grupo en particular y una comparacin de
las centroides de los grupos muestra que tan alejados se encuentran en
relacin a la dimensin considerada.

Representacin univariada de los valores Z de la funcin discriminante


Las reas sombreadas son la probabilidad de clasificar errneamente los objetos entre A y B

Ejemplo con HATCO:


Paso 1: Objetivos del anlisis discriminante
Identificar las percepciones de HATCO que difieren significativamente entre
empresas que utilizan los mtodos de compra: valor total de compra incluyendo
productos y servicios comprados y compra especificada donde se indican las
caractersticas deseadas del producto y del servicio.
Pg. 72

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Paso 2. Diseo de la investigacin para el anlisis discriminante


La variable dependiente es categrica con dos grupos, las variables
independientes son X1 a X7 y X11 con los mtodos de compra de las
empresas.
LasLa muestra es de 100 observaciones que supera el mnimo de muestras a
variables de 5 a 1, siendo de 10.
Se toma una muestra de 40 observaciones para validar el modelo y se utilizan
60 observaciones para la estimacin.
Paso 3. Supuestos de la funcin discriminante
En la formacin de la Variate debe haber normalidad, linealidad, y
multicolinealidad y la estimacin de la funcin discriminante (matrices de
varianza y covarianza similares). Una prueba de igualdad de covarianza o
matrices de dispersin es la prueba M de Box.
Paso 4. Estimacin del modelo discriminante y evaluacin de ajuste
Ejemplo con datos de Hatco
El ejemplo siguiente utiliza las mismas variables que el anlisis discriminante
anterior para estimar el modelo.
Utilizando los datos de HATCO, la muestra de 100 clientes se divide en dos
grupos, uno de 60 para anlisis y otro de 40 para validacin. La regresin
logstica es ms robusta ante el supuesto de igualdad de varianza covarianza.
Para el ejemplo se utilizan las 7 variables X1 a X7 teniendo como respuesta a
X11.
Instrucciones en Minitab:
1.

Stat > Multivariate > Discriminant Analysis.

2.

En Groups, poner X11.


Pg. 73

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

En Predictors, poner X1 X7.

4. Click OK.
Los resultados se muestran a continuacin:
Discriminant Analysis: X11 versus X1, X2, X3, X4, X5, X6, X7
Linear Method for Response: X11
Predictors: X1, X2, X3, X4, X5, X6, X7
Group
0
1
Count
25
35
Summary of classification
True Group
Put into Group
0
1
0
24
2
1
1
33
Total N
25
35
N correct
24
33
Proportion
0.960 0.943
N = 60
N Correct = 57

Proportion Correct = 0.950

Squared Distance Between Groups


0
1
0
0.0000 10.9857
1 10.9857
0.0000
Linear Discriminant Function for Groups
0
1
Constant -55.092 -67.574
X1
12.813
16.539
X2
12.313
14.638
X3
7.780
10.158
X4
3.320
3.639
X5
-21.933 -26.874
X6
-2.326
-2.159
X7
4.389
2.657
Summary of Misclassified Observations
Observation
13**

True
Group
0

Pred
Group
1

17**

56**

Group
0
1
0
1
0
1

Squared
Distance
6.238
6.032
7.893
15.673
4.753
8.078

Probability
0.474
0.526
0.980
0.020
0.841
0.159

Por medio de SPSS


1. Analize > Clasify > Discriminant
2. Grouping variable X11 (0:1) Independent variables X1 X7
3. Statistics Univariate ANOVAs Boxs M
4. OK
Los resultados se muestran a continuacin
Tests of Equality of Group Means

Pg. 74

MTODOS ESTADSTICOS MULTIVARIADOS

X1
X2

Wilks'
Lambda
.614
.716

F
36.526
22.953

X3

.467

X4

.997

X5
X6
X7

df1

P. REYES / MARZO 2007

1
1

df2
58
58

Sig.
.000
.000

66.302

58

.000

.145

58

.704

.993

.414

58

.523

.991

.522

58

.473

.528

51.951

58

.000

Como se puede observar son significativos X1, X2, X3 y X7.


La funcin discriminante es la siguiente:
Standardized Canonical Discriminant Function Coefficients
Function
X1
X2

1
1.152
.749

X3

.668

X4

.111

X5

-1.153

X6

.042

X7

-.626

La matriz estructural es la siguiente:


Structure Matrix
Function
1
X3
X7

.643
-.569

X1

.477

X2

-.379

X6

.057

X5

.051

X4

.030
Pooled within-groups correlations between discriminating variables and standardized canonical
discriminant functions Variables ordered by absolute size of correlation within function.

Medias de grupos (centroides) de las funciones cannicas discriminantes:


Functions at Group Centroids
Function
X11
.00
1.00

1
-1.933
1.381
Unstandardized canonical discriminant functions evaluated at group means

Pg. 75

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Z=0
N=24

N=33

Zo=-1.933

Z1=1.063

Grfica de los centroides de grupos

Paso 5. Validacin del modelo


Con los 40 datos restantes se repite la corrida y se observa que los resultados
concuerden:

Pg. 76

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Tests of Equality of Group Means

X1
X2

Wilks'
Lambda
.546
.934

F
31.628
2.676

X3

.789

X4

.969

X5
X6
X7

df1
1
1

df2
38
38

Sig.
.000
.110

10.185

38

.003

1.205

38

.279

.798

9.611

38

.004

.997

.105

38

.748

.535

33.043

38

.000

Log Determinants

X11
.00
1.00

7
7

Log
DeterminantDe
terminan
-9.872
-6.987

-6.367

Rank

Pooled within-groups

The ranks and natural logarithms of determinants printed are those of the group covariance matrices.
Test Results
Box's M
F

Approx.

63.963
1.776

df1

28

df2

3061.289

Sig.

.007
Tests null hypothesis of equal population covariance matrices.
Standardized Canonical Discriminant Function Coefficients
Function
X1
X2

1
1.932
1.525

X3

.294

X4

-.621

X5

-1.698

X6

.934

X7

-.783
Structure Matrix
Function
1

X7
X1

-.644
.630

X3

.358

X5

.347

X2

-.183

X4

-.123

X6

-.036

Pg. 77

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Pooled within-groups correlations between discriminating variables and standardized canonical


discriminant functions Variables ordered by absolute size of correlation within function.
Functions at Group Centroids
Function
X11
.00
1.00

1
-1.822
1.093
Unstandardized canonical discriminant functions evaluated at group means
Prior Probabilities for Groups

X11
.00
1.00
Total

Prior
.500
.500
1.000

Cases Used in Analysis


Unweighted
Weighted
15
15.000
25
25.000
40
40.000
.N
0=
0-3.0-2.5-2.0-1.5-1.0-0.50
5
1
M
S
nv.=
a
e
.D
td
0
2.6
8
-1
2
9
1
2
3
4
5

=
C
a
o
n
aX
ic
s1
lD
ri0
c
n
m
tF
a
u
tio
c
n
1

-2-10123N
4
0
5v
2
M
S
=
n
a
e
.D
td
9.1
0
1
.=
2
4
1
2
3
4
5 X
1=1

an
C
o
lD
a
ic
sc
rim
atF
n
n
u
tio
c
1
n

Classification Results(a)
Predicted Group
Membership
Original

Count

X11
.00
1.00

.00

.00

1.00

Total

15
3

0
22

15
25

100.0

.0

100.0

12.0
88.0
a 92.5% of original grouped cases correctly classified.

100.0

1.00

Pg. 78

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Regresin Logstica
Una de las ventajas de la regresin logstica versus el anlisis discriminante es
que es menos afectada por las diferencias en varianzas / covarianzas entre los
grupos, que es una premisa del anlisis discriminante. Otra ventaja es que la
regresin logstica puede manejar variables independientes categricas
fcilmente, mientras que en el anlisis discriminante el uso de variables de
apoyo crea problemas con la igualdad de varianza / covarianza. Finalmente la
regresin logstica es similar a la regresin mltiple en trminos de su
interpretacin e interpretacin incluyendo los residuos.

Ejemplo:
Un investigador est interesado en comprender el efecto de fumar y el peso en
el pulso en reposo, como esta ltima variable dependiente es categrica (bajo,
alto) el anlisis de regresin logstica es adecuado.
You are a researcher who is interested in understanding the effect of smoking
and weight upon resting pulse rate. Because you have categorized the
response-pulse rateinto low and high, a binary logistic regression analysis is appropriate to
investigate the effects of smoking and weight upon pulse rate.
Se tiene inters en comprender el efecto de fumar y el peso sobre el pulso (alto
y bajo).
Los datos utilizados son los siguientes:
RestingPulse Smokes Weight RestingPulse Smokes Weight RestingPulse Smokes Weight

Low
Low
Low
Low
Low
Low
High
Low
Low
Low
High
Low
High
Low
Low

No
No
Yes
Yes
No
No
No
No
No
No
Yes
No
Yes
No
No

140
145
160
190
155
165
150
190
195
138
160
155
153
145
170

Low
Low
Low
Low
Low
Low
Low
Low
High
Low
Low
Low
Low
Low
Low

No
Yes
Yes
No
No
No
Yes
No
Yes
No
No
No
Yes
Yes
Yes

Pg. 79

215
150
145
155
155
150
155
150
180
160
135
160
130
155
150

Low
Low
Low
Low
Low
High
Low
High
High
Low
Low
High
Low
Low
Low

No
No
No
No
No
No
Yes
No
Yes
No
No
No
No
No
No

115
102
115
150
110
116
108
95
125
133
110
150
108
155
180

MTODOS ESTADSTICOS MULTIVARIADOS

Low
Low
Low
Low
Low
Low
Low
Low
Low
High
Low
Low
High
High
Low
High

No
Yes
Yes
Yes
No
No
No
No
Yes
No
No
Yes
No
Yes
No
No

175
175
170
180
135
170
157
130
185
140
120
130
138
121
125
116

Low
High
Low
High
Low
High
High
Low
Low
Low
High
Low
Low
High
Low
Low

P. REYES / MARZO 2007

No
No
No
Yes
Yes
No
Yes
Yes
No
No
No
No
No
No
No
No

148
155
150
140
190
145
150
164
140
142
136
123
155
130
120
130

Low
Low
Low
Low
High
Low
High
High
Low
Low
Low
Low
Low
Low
High

No
No
No
No
Yes
No
No
Yes
Yes
No
No
No
Yes
No
Yes

122
120
118
125
135
125
118
150
112
125
190
155
170
145
131

Las instrucciones de Minitab para el ejemplo son:


1. Open worksheet EXH_REGR.MTW.
2. Seleccionar Stat > Regression > Binary Logistic Regression.
3. En Response, poner RestingPulse. En Model, poner Smokes Weight. En
Factors (optional), poner Smokes (para predictors categricos).
4. Click Graphs. Seleccionar Delta chi-square vs probability and Delta chisquare vs leverage. Click OK.
5. Click Results. Seleccionar In addition, list of factor level values, tests for
terms with more than 1 degree of freedom, and y 2 additional goodness-of-fit
tests.
6. Click OK en cada cuadro de dilogo.
Los resultados se muestran a continuacin:
Results for: Exh_regr.MTW
Binary Logistic Regression: RestingPulse versus Smokes, Weight
Link Function:

Logit

Observaciones que caen dentro de cada categora


Response Information
RestingP

Low
High
Total

Variable

70
22
92

Value

(Event)

Count

-> Evento de referencia

Factor Information
Factor
Levels Values

Pg. 80

MTODOS ESTADSTICOS MULTIVARIADOS


Smokes

2 No

P. REYES / MARZO 2007

Yes

Logistic Regression Table


Predictor
Constant
Smokes
Yes
Weight

Coef
-1.987

SE Coef
1.679

Z
P
-1.18 0.237

-1.1930
0.02502

0.5530
0.01226

-2.16 0.031
2.04 0.041

Odds
Ratio
0.30
1.03

95% CI
Lower
Upper
0.10
1.00

0.90
1.05

Por ser su P value menor a 0.05 son significativos Smoke y Weight


El coeficiente de -1.93 para Smoke representa el cambio estimado en el log de
P(low pulse)/P(high pulse) cuando el sujeto fuma comparado a cuando no
fuma, con el covariado Weight (peso) mantenido constante.
El coeficiente de 0.0250 para Weight (peso) es el cambio estimado en el log de
P(low pulse)/P(high pulse) con una unidad (lb.) de incremento en peso con el
factor Fumar constante.
A pesar de que hay evidencia de el parmetro de peso Weight no es cero, la
tasa de exceso es muy cercana a uno (1.03), indicando que un incremento de
peso de una libra tiene un efecto menor en la tasa de pulso en reposo de la
persona. Una diferencia ms significativa se puede encontrar si se comparan
sujetos con una diferencia de peso mayor, por ejemplo 10 libras, la tasa cambia
a 1.28 (1.03 + 0.025*10), indicando que el puso de un sujeto con pulso bajo se
incrementa 1.28 veces con cada 10 libras de incremento de peso.
Para Smokes, el coeficiente negativo de -1.93 y la tasa de exceso de 0.30
indica que los sujetos que fuman tienden a tener una mayor tasa de pulso en
reposo (resting pulse rate) que los sujetos que no fuman. Dados sujetos con el
mismo peso, la tasa de exceso puede ser interpretada como el exceso de
fumadores en la misma muestra teineido un pulso bajo (low pulse) de 30% de
los no fumadores teniendo un pulso bajo (low pulse).

Log-Likelihood = -46.820
Test that all slopes are zero: G = 7.574, DF = 2, P-Value = 0.023

El estadstico G prueba la hiptesis nula de que los coeficientes asociados con


los predoctores son iguales a cero versus que esos coeficientes no todos son
Pg. 81

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

cero. En es ejemplo con G = 7.574 y P value = 0.023, indican que hay


suficiente evidencia que al menos uno de los coeficientes es diferente de cero.
Goodness-of-Fit Tests
Method
Chi-Square
Pearson
40.848
Deviance
51.201
Hosmer-Lemeshow
4.745
Brown:
General Alternative
0.905
Symmetric Alternative
0.463

DF
47
47
8

P
0.724
0.312
0.784

2
1

0.636
0.496

Estas pruebas de bondad de ajuste con P values de 0.312 a 0.724 indican que
no hay evidencia suficiente que indique que el modelo no ajuste a los datos
adecuadamente, considerando un nivel de significancia de 0.05.
Table of Observed and Expected Frequencies:
(See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic)
Value
Low
Obs
Exp
High
Obs
Exp
Total

Group
5
6

4
4.4

6
6.4

6
6.3

8
6.6

8
6.9

6
7.2

5
4.6

4
3.6

3
2.7

1
2.4

1
2.1

3
1.8

10

8
8.3

12
12.9

10
9.1

2
1.9

70

2
1.7

3
2.1

0
0.9

0
0.1

22

92

10

15

10

10

Total

Esta tabla permit e ver que tan bien ajusta el modelo a los datos, comparando
las frecuencias observadas y las frecuencias esperadas, siendo similares indica
que no hay evidencia suficiente de que los datos no ajusten bien al modelo,
soportado por las pruebas de bondad de ajuste para un nivel de significancia
de 0.05.
Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Pairs
Concordant
Discordant
Ties
Total

Number
1045
461
34
1540

Percent
67.9%
29.9%
2.2%
100.0%

Summary Measures
Somers' D
Goodman-Kruskal Gamma
Kendall's Tau-a

0.38
0.39
0.14

Esta tabla muestra 1540 pares (70 individuos con un low pulse y 22 con high
pulse resultando en 70*22 = 1540) con valores de respuesta diferentes. Con
base en el modelo un par es concordante si el individuo con una tasa de pulso
baja (low pulse rate) tiene una ms alta probabilidad de tener pulso bajo,
discrepante de si sucede lo contrario, y empate si las probabilidades son
iguales. En este ejemplo el 67.9% de los pares son concordantes y 29% son
Pg. 82

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

discrepantes. Se pueden usar estos valores como una medicin comparativa


de prediccin, por ejemplo para comparar ajustes con diferentes conjuntos de
predictores o con funciones diferentes de enlace.
Se muestran resumenes de pares concordantes y discrepantes de Somers,
Goodman-Kriskal Gamma, y Tau de Kendall. Las mtricas se encuentran entre
0 y 1 donde los valores mayores indican que el modelo tiene una mejor
habilidad predictiva. En este ejemplo el rango va de 0.14 a 0.39 que implica
una baja capacidad predictiva.

Pg. 83

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Delta Chi-Square versus Probability

Delta Chi-Square

5
4
3
2
1
0
0.4

0.5

0.6

0.7

0.8

0.9

1.0

Probability

Delta Chi-Square versus Leverage

Delta Chi-Square

5
4
3
2
1
0
0.01

0.06

0.11

0.16

Leverage

Las grficas del ejemplo de Chi cuadrada versus probabilidad y versus


apalancamiento muestran que hay dos puntos que se desvan ms all del
lmite sugerido de 3.84, indicando situaciones anormales que deben ser
investigadas.
Con la opcin Editor > Brush se puede observar que corresponden a los
valores de datos 31 y 66, correspondientes a individuos con un pulso alto, que
no fuman, y que tienen pesos menores al promedio (116 y 136 libras).

Pg. 84

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Ejemplo con datos de Hatco


El ejemplo siguiente utiliza las mismas variables que el anlisis discriminante
anterior para estimar el modelo.
Utilizando los datos de HATCO, la muestra de 100 clientes se divide en dos
grupos, uno de 60 para anlisis y otro de 40 para validacin. La regresin
logstica es ms robusta ante el supuesto de igualdad de varianza covarianza.
Para el ejemplo se utilizan las 7 variables X1 a X7 teniendo como respuesta a
X11.

Pg. 85

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

8. Anlisis de Conglomerados

Pg. 86

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

8. ANLISIS DE CONGLOMERADOS
Se cuenta tambin con el anlisis de conglomerados o clusters
(tcnica para
agruparAgrupar los casos o elementos de una muestra en grupos con
base en una o
msMs variables).
Usar Anlisis de componentes principales para ayudar a comprender la
estructura de datos y/o a formar un pequeo nmero de variables no
correlacionadas (por ejemplo para evitar multicolinealidad en la regresin).

El anlisis de conglomerados agrupa individuos u objetos dentro de


conglomerados (Clusters) de modo que los objetos en el mismo grupo tienen
caractersticas ms similares que las que tienen versus otros grupos.
El

Cluster

Variate

caractersticas

es

utilizadas

el

conjunto

para

de

comparar

variables
objetos

representando
en

el

anlisis

las
de

conglomerados. Es decir determina el carcter de los objetos. Es la nica


tcnica multivariada que no estima la variate empricamente sino que se
especifica por el investigador.
Variate es la combinacin lineal de variables formadas en la tcnica
multivariada al determinar empricamente ponderaciones aplicadas al conjunto
de variables especificadas por el investigador.
El anlisis de conglomerados tambin se ha denominado Anlisis Q,
Construccin de tipologa, Anlisis de clasificacin, y taxonoma numrica. Esto
debido al uso de estas tcnicas en diversas reas como la sicologa, biologa,
sociologa, economa, ingeniera, y los negocios. El anlisis de conglomerados
es parecido al anlisis factorial en su propsito de evaluar la estructura. Pero el
anlisis de conglomerados difiere del anlisis factorial en que agrupa objetos,
mientras que el anlisis factorial se enfoca principalmente a agrupar variables.

Pg. 87

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

El anlisis de conglomerados puede hacer reducciones de datos colectados de


cuestionarios en una poblacin, a informacin relacionada con pequeos
subgrupos especficos. No tiene bases estadsticas sobre las que se puedan
realizar inferencias estadsticas de una muestra a una poblacin, su uso es
principalmente como tcnica exploratoria. Las soluciones no son nicas y se
pueden obtener diversas soluciones variando uno o ms elementos del
procedimiento.

A. Conglomerados de observaciones
Usar conglomerados de observaciones para clasificar observaciones en
grupos, cuando inicialmente los grupos son desconocidos.
Este procedimiento utiliza un mtodo jerrquico aglomerativo que inicia con
todas

las

observaciones

separadas,

cada

una

formando

su

propio

conglomerado. Como primer paso, las dos observaciones ms cercanas se


unen. En un siguiente paso, ya sea que se adicione una tercera observacin a
las primeras dos, o dos observaciones diferentes se unan en un conglomerado
(cluster) diferente. Este proceso contina hasta que todos los conglomerados
se han unido en uno, sin embargo este ltimo no es til para propsitos de
clasificacin.

Cmo funciona el anlisis de conglomerados?


Se ilustra con un ejemplo con datos dbivariados.
Suponer que un estudio de mercado trata de determinar segmentos de
mercado en base a los patrones de lealtad de marcas (V1) y tiendas (V2),
medidas del 0 al 10 en 7 personas (A-G).
Variables

V1

V2

Pg. 88

MTODOS ESTADSTICOS MULTIVARIADOS


F

Variables
V1
V2

A
3
2

B
4
5

P. REYES / MARZO 2007

C
4
7

D
2
7

E
6
6

F
7
7

G
6
4

Scatterplot of V2 vs V1
7

6
B

V2

Distancia
euclidiana de A a
B

3
A

2
2

V1

Para acomodar en grupos se necesita contestar:

Cmo se mide la similaridad?, se puede hacer por correlacin o


proximidad en un espacio de dos dimensiones.

Cmo se forman los conglomerados?

Cuntos grupos se formarn?

Ejemplo 1:
Para medir la similitud se evala con la distancia euclidiana (lnea recta) entre
cada par de observaciones (ver Tabla), entendiendo que las distancias
pequeas indican similaridad, E y F son las ms similares (1.414) y la A y F las
ms diferentes (6.403).

Observ.
A

Pg. 89

MTODOS ESTADSTICOS MULTIVARIADOS

B
C
D
E
F
G

3.162
5.099
5.099
5.000
6.403
3.606

Formamos

2.000
2.828
2.236
3.606
2.236

2.000
2.236
3.000
3.606

conglomerados

ahora

P. REYES / MARZO 2007

4.123
5.000
5.000
con

un

1.414
2.000

3.162

Procedimiento

jerrquico

movindose paso a paso para formar un rango completo de soluciones.


Tambin se denomina Mtodo Aglomerativo dado que los conglomerados se
forman con la combinacin de conglomerados existentes.
La distancia entre observaciones es:

Paso

1
2
3
4
5
6

Distancia
Mnima entre
observa-ciones
Distancia
Mnima entre
observaciones

Sol. inicial
1.414
2.000
2.000
2.000
2.236
3.162

Par
observado

Solucin por
conglomerados
Miembros en el
conglomerado

E-F
E-G
C-D
B-C
B-E
A==B

A, B,C,D,E,F,G
A, B,C,D,E-F,G
A, B,C,D,E-F-G
A, B,C-D,E-F-G
A, B-C-D,E-F-G
A,B-C-D-E-F-G
A-B-C-D-E-F-G

Nm.
Deo.
de
Conglo
merado
.
7
6
5
4
3
2
1

Dist.ancia
Prom.edio
Ddentro del
Conglomerado.

Utilizando Minitab:
Stat > Multivariate Anlisis > Cluster Observations
Distance Measured Euclidean Seleccionar Show Dendogram OK

Pg. 90

0
1.414
2.192
2.144
2.234
2.896
3.420

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Proceso de jerarqua de conglomerados

Similarity

50.61

67.08

83.54

100.00

D
Observations

Dendrogram with Single Linkage and Euclidean Distance

Distance

3.16

2.11

1.05

0.00

4
Observations

La similaridad s(ij) entre dos conglomerados i, j se determina como:


s (ij ) 100(1 d (ij ) / d max )

Pg. 91

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Donde Dmax = 6.403


S(E,F) = 100(1 1.4142/ 6.403 ) = 77.913
S(C,D) = 100(1 2/6.403) = 68.7646
Cluster Analysis of Observations: V1, V2
Euclidean Distance, Single Linkage
Amalgamation Steps

Step
1
2
3
4
5
6

Number
of
clusters
6
5
4
3
2
1

Similarity
level
77.9137
68.7652
68.7652
68.7652
65.0785
50.6135

Distance
level
1.41421
2.00000
2.00000
2.00000
2.23607
3.16228

Clusters
joined
5
6
5
7
3
4
2
3
2
5
1
2

New
cluster
5
5
3
2
2
1

Number
of obs.
in new
cluster
2
3
2
3
6
7

Final Partition
Number of clusters: 1

Cluster1

Number of
observations
7

Within
cluster
sum of
squares
41.4286

Average
distance
from
centroid
2.23187

Maximum
distance
from
centroid
3.77154

Ejemplo 2:
Se registran las siguientes caractersticas para 14 censos: Poblacin total
(Pop), mediana de aos escolares (School), empleo total (Employ),empleo en
servicios de salud (Health), y valor mediano del valor de la casa (Home). Los
datos se muestran a continuacin:
Pop
5.935
1.523
2.599
4.009
4.687
8.044
2.766
6.538
6.451
3.314
3.777
1.53
2.768
6.585

School
14.2
13.1
12.7
15.2
14.7
15.6
13.3
17
12.9
12.2
13
13.8
13.6
14.9

Employ
2.265
0.597
1.237
1.649
2.312
3.641
1.244
2.618
3.147
1.606
2.119
0.798
1.336
2.763

Health
2.27
0.75
1.11
0.81
2.5
4.51
1.03
2.39
5.52
2.18
2.83
0.84
1.75
1.91

Pg. 92

Home
2.91
2.62
1.72
3.02
2.22
2.36
1.97
1.85
2.01
1.82
1.8
4.25
2.64
3.17

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Se realiza un anlisis de components principales para comprender la estructura


de datos subyacente. Se usa la matriz de correlacin para estandarizar las
mediciones dado que no se mide con la misma escala.
Las instrucciones de Minitab son las siguientes:
1

Abrir la worksheet EXH_MVAR.MTW.

Stat > Multivariate > Principal Components.

En Variables, Pop-Home.

En Type of Matrix, seleccionar Correlation.

Click Graphs y seleccionar Scree plot.

Click OK en cada cuadro de dilogo.

Los resultados se muestran a continuacin:


Principal Component Analysis: Pop, School, Employ, Health, Home
Eigenanalysis of the Correlation Matrix
Eigenvalue
Proportion
Cumulative
Variable
Pop
School
Employ
Health
Home

3.0289
0.606
0.606
PC1
-0.558
-0.313
-0.568
-0.487
0.174

1.2911
0.258
0.864
PC2
-0.131
-0.629
-0.004
0.310
-0.701

0.5725
0.114
0.978
PC3
0.008
-0.549
0.117
0.455
0.691

0.0954
0.019
0.998
PC4
0.551
-0.453
0.268
-0.648
0.015

0.0121
0.002
1.000
PC5
-0.606
0.007
0.769
-0.201
0.014

Scree Plot of Pop, ..., Home


3.0

Eigenvalue

2.5
2.0
1.5
1.0
0.5
0.0
1

3
Component Number

Pg. 93

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Interpretando los resultados


El primer componente principal tiene varianza (eigenvalor) 3.029 y acumula el
60.6% de la varianza total. Los coeficientes para el PC1 muestran como
calcular el nivel del componente principal.
PC1 = .558 Pop .313 School .568 Employ .487 Health + .174 Home
Notar que la interpretacin de los components principales es subjetiva, sin
embargo, frecuentemente surgen patrones obvios. Por ejemplo, se podra
pensar que el primer componente represente el efecto del tamao de la
poblacin total, el nivel de escolaridad, empleo y servicios de salud, dado que
los coeficientes de estos trminos tienen el mismo signo y no son cercanos a
cero.
El segundo componente tiene varianza 1.2911 y acumula el 25.8% de la
variabilidad de los datos. Se calcula de los datos originales usando los
coeficientes listados en PC2. Este componente podra ser pensado como nivel
de contraste de escolaridad y valor de la casa con salud y empleo de alguna
manera.
Juntos el primero y segundo componentes representan el 86.4% y 97%,
respectivamente, de la variabilidad total. As, la mayora de la estructura de
datos puede ser capturada en dos o tres dimensiones relevantes. Los
componentes remanentes solo tienen una menor proporcin de probabilidad y
no son importantes. La grfica Scree proporciona una visin grfica de lo
anterior.

Ejemplo 32:
Con los datos de HATCO se utilizan las siete percepciones de clientes para
identificar segmentos de clientes.
Paso 1: Objetivos del anlisis de conglomerados

Pg. 94

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

El objetivo es segmentar objetos (clientes) en grupos con percepciones


similares (X1 a X7). Una vez identificados, se pueden aplicar diferentes
estrategias para para cada grupo.
X1 = Rapidez de entrega
X2 = Nivel de precio
X3 = Flexibilidad de precio
X4 = Imagen del fabricante
X5 = Servicio en general
X6 = Imagen de la fuerza de ventas
X7 = Calidad del producto
Paso 2. Diseo del anlisis de conglomerados
Se identifica si no hay puntos aberrantes en los datos. Se selecciona la medida
de similaridad, en este caso la distancia euclidiana al cuadrado. Si se observa
multicolinealidad que afecte a las ponderaciones de las variables, entonces se
puede utilizar la distancia de Mahalanobis (D2). La estandarizacin de variables
no es importante dado que tienen valores parecidos.
Paso 3. Supuestos en el anlisis de conglomerados
Para el anlisis se considera que los datos de la muestra representan a la
poblacin de clientes de HATCO. Queda pendiente el efecto de la
multicolinealidad en la ponderacin implcita de los resultados.
Paso 4. Establecer conglomerados y evaluar el ajuste al modelo
Con Minitab:
1. Stat > Multivariate > Cluster observations
2. Variables or distance matrix X1 X7
3. Linkage

method

Ward

(minimizea

conglomerados)
4. Distance Measure Squared Euclidean
5. Seleccionar Show Dendogram
6. Customize Label Y axis with Distances
7. OK
Los resultados se muestran a continuacin:
Pg. 95

la

distancia

dentro

de

los

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Cluster Analysis of Observations: X1, X2, X3, X4, X5, X6, X7


Squared Euclidean Distance, Ward Linkage
Amalgamation Steps

Step
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61

Number
of
clusters
99
98
97
96
95
94
93
92
91
90
89
88
87
86
85
84
83
82
81
80
79
78
77
76
75
74
73
72
71
70
69
68
67
66
65
64
63
62
61
60
59
58
57
56
55
54
53
52
51
50
49
48
47
46
45
44
43
42
41
40
39

Similarity
level
100.000
99.987
99.987
99.975
99.949
99.924
99.912
99.912
99.912
99.912
99.874
99.874
99.874
99.836
99.798
99.760
99.760
99.760
99.722
99.722
99.722
99.722
99.684
99.646
99.646
99.646
99.646
99.646
99.646
99.520
99.457
99.457
99.330
99.267
99.153
99.115
98.939
98.812
98.686
98.673
98.673
98.656
98.648
98.591
98.332
97.902
97.877
97.761
97.321
96.355
96.203
95.986
95.818
95.552
95.325
94.826
94.301
94.054
93.996
93.783
93.745

Distance
level
0.000
0.010
0.010
0.020
0.040
0.060
0.070
0.070
0.070
0.070
0.100
0.100
0.100
0.130
0.160
0.190
0.190
0.190
0.220
0.220
0.220
0.220
0.250
0.280
0.280
0.280
0.280
0.280
0.280
0.380
0.430
0.430
0.530
0.580
0.670
0.700
0.840
0.940
1.040
1.050
1.050
1.063
1.070
1.115
1.320
1.660
1.680
1.772
2.120
2.885
3.005
3.177
3.310
3.520
3.700
4.095
4.510
4.706
4.751
4.920
4.950

Clusters
joined
15
20
5
42
24
27
47
61
19
28
67
90
36
41
51
77
18
92
33
62
25
44
85
87
43
46
38
63
69
81
50
72
56
91
94
98
1
95
16
73
75
99
37
48
11
100
4
89
84
88
23
32
2
83
29
78
3
71
17
64
8
68
12
76
9
74
52
60
10
34
26
59
49
97
7
67
13
21
40
54
82
93
10
30
66
80
36
84
6
70
45
86
39
96
10
53
13
35
50
69
40
45
14
38
9
58
22
55
65
79
10
31
6
52
10
37
14
66
15
19
16
29

Pg. 96

New
cluster
15
5
24
47
19
67
36
51
18
33
25
85
43
38
69
50
56
94
1
16
75
37
11
4
84
23
2
29
3
17
8
12
9
52
10
26
49
7
13
40
82
10
66
36
6
45
39
10
13
50
40
14
9
22
65
10
6
10
14
15
16

Number
of obs.
in new
cluster
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
3
2
2
2
3
2
4
2
2
2
4
3
4
4
3
3
2
2
5
4
7
5
4
4

MTODOS ESTADSTICOS MULTIVARIADOS


62
38
93.594
5.070
4
63
37
92.867
5.645 25
64
36
92.341
6.062 25
65
35
91.633
6.622 18
66
34
90.732
7.335 23
67
33
90.566
7.466
9
68
32
89.797
8.075 11
69
31
89.607
8.225
8
70
30
88.621
9.005
1
71
29
88.537
9.072 13
72
28
87.859
9.608 40
73
27
87.621
9.797
4
74
26
86.484
10.697
3
75
25
86.381
10.778 18
76
24
86.216
10.909
7
77
23
85.195
11.717 16
78
22
85.001
11.870 39
79
21
82.841
13.580
3
80
20
82.550
13.810
9
81
19
81.104
14.954
9
82
18
77.848
17.531
2
83
17
76.996
18.205
8
84
16
67.541
25.688
1
85
15
65.781
27.081
2
86
14
61.257
30.661
7
87
13
60.778
31.040 11
88
12
56.202
34.662
6
89
11
49.784
39.741
2
90
10
42.640
45.395
3
91
9
40.362
47.197
1
92
8
36.171
50.514
1
93
7
29.104
56.107
6
94
6
19.593
63.634
5
95
5
17.930
64.950
1
96
4
-15.826
91.665
2
97
3
-96.701
155.669
2
98
2
-135.645
186.489
1
99
1
-839.878
743.820
1
Final Partition
Number of clusters: 1
Within
Average
cluster distance
Number of
sum of
from
observations squares centroid
Cluster1
100 996.352
3.05166

P. REYES / MARZO 2007


75
33
26
50
56
12
85
36
51
22
94
24
10
43
15
47
65
57
14
49
4
17
25
40
9
23
8
39
82
18
16
11
7
13
6
3
5
2
Maximum
distance
from
centroid
5.27503

Pg. 97

4
25
25
18
23
9
11
8
1
13
40
4
3
18
7
16
39
3
9
9
2
8
1
2
7
11
6
2
3
1
1
6
5
1
2
2
1
1

4
4
6
6
4
5
4
6
4
5
6
6
9
8
7
6
4
10
10
12
8
8
10
14
19
8
12
18
12
18
24
20
21
29
38
50
50
100

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Proceso de jerarqua de conglomerados

Distance

406.13

270.75

135.38

0.00
Observations

Proceso de jerarqua de conglomerados

Distance

406.13

270.75

135.38

0.00
Observations

Pg. 98

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Proceso de jerarqua de conglomerados

Distance

406.13

270.75

135.38

0.00
Observations

Proceso de jerarqua de conglomerados

Distance

406.13

270.75

135.38

0.00
Observations

B. Conglomerado de observaciones por K-Medias

Pg. 99

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Esta opcin se utiliza de manera similar al conglomerado de observaciones,


para clasificar observaciones en grupos cuando no se conocen al inicio. Este
procedimiento utiliza la formacin de conglomerados no jerrquicos de
observaciones de acuerdo al algoritmo de MacQueen. 1 El algoritmo funciona
mejor cuando hay suficiente informacin disponible para hacer asignaciones
iniciales de conglomerados adecuadas.
El procedimiento de conglomerado por K medias inicia al agrupar
observaciones en un nmero de conglomerados predefinidos.
1. Se evala cada observacin, movindola al conglomerado ms cercano, que
es el que tiene la distancia euclidiana ms pequea entre la observacin y el
centroide del conglomerado.
2. Cuando cambia el conglomerado, al ganar o perder alguna observacin, se
recalcula el centroide del conglomerado.
3. El proceso se repite hasta que no haya ms observaciones a mover dentro
de un conglomerado diferente. De esta manera, todas las observaciones estn
en su conglomerado ms cercano. De modo diferente a la clasificacin
jerrquica, es posible que dos observaciones sean partidas en conglomerados
diferentes despus de que hayan reunido.
El procedimiento de K medias trabaja mejor cuando se proporcionan puntos de
arranque para los conglomerados adecuados, hay dos formas de hacerlo:

Especificando un nmero de conglomerados o

Proporcionando una columna de particin inicial que contenga cdigos


de grupos.

Suponiendo que se sabe que la particin final consistir de tres grupos, y que
las observaciones 2, 5 y 9 pertenecen a esos grupos respectivamente. Para
proceder depende de si se especifica el nmero de conglomerados o se
proporciona una columna de particin.
1

R. Johnson and D. Wichern (1992). Applied Multivariate Statistical Methods, Third Edition. Prentice
Hall.

Pg. 100

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Si se especifica el nmero de conglomerados, los datos deben


acomodarse de manera que las observaciones 2, 5 y 9 se encuentren al
principio de la hoja de trabajo, y especificar 3 como nmero de
conglomerados (Number of clusters).

Si se especifica una columna inicial de particin, no es necesario


acomodar los datos. En la columna de particin inicial de la hoja de
trabajo, poner los nmeros de grupo 1, 2, y 3, para las observaciones 2,
5, y 9 respectivamente y cero para las otras observaciones.

La particin final depende en gran modo de la particin inicial utilizada, se


pueden intentar diferentes particiones.

Ejemplo:
Se atrapan, anestesian, y miden ciento cuarenta y tres osos negros. Las
mediciones son altura y longitud de la cabeza (Lenght, Head L), peso total y
peso de la cabeza (Weight, Weight H.), dimensin del cuello y del cachete
(Neck G., Chest G.).
Se desea clasificar los 143 osos, como pequeos, de tamao medio, o
grandes. Se sabe que el segundo, setenta y ochoavo, y quincuagsimo (15)
oso de la muestra es tpico de esas categoras respectivas.
Se crea la columna de particin inicial con los tres osos semilla, designados
como: 1 = pequeo, 2= tamao medio y 3= grande y los remanentes osos
como cero (desconocidos) para indicar membresa inicial del conglomerado.
Despus se realiza un anlisis de conglomerado por K medias y se guardan las
membresas del conglomerado en cada columna denominada BearSize.
Los datos se muestran a continuacin:
No.

Head.L Head.W Neck.G Length Chest.G Weight BearSize

No.

Head.L Head.W Neck.G Length Chest.G Weight BearSize

10

15

45

23

65

73

15.5

28

76.5

55

446

11

6.5

20

47.5

24

70

74

15

46

27

62

12

17

57

27

74

75

14.5

23

61.5

44

236

12.5

20.5

59.5

38

142

76

13.5

8.5

23

63.5

44

212

12

18

62

31

121

77

18.5

8.5

23.5

67.5

42

204

Pg. 101

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

11

5.5

16

53

26

80

78

15

26

65

40

224

12

5.5

17

56

30.5

108

79

10

15.5

48

26

60

16.5

28

67.5

45

344

80

10

15

41

26

64

16.5

27

78

49

371

81

13

21

59

34

146

10

15.5

31

72

54

416

82

15.5

20.5

60

35

152

11

16

32

77

52

432

83

15.5

29

79

50

400

12

17

10

31.5

72

49

348

84

13.5

24.5

62

41

248

13

15.5

7.5

32

75

54.5

476

85

14.5

6.5

26

70.5

41

278

14

17.5

32

75

55

478

86

15

26.5

69

46.5

297

15

15

33

75

49

386

87

16

31.5

75

47

350

16

15.5

6.5

22

62

35

166

88

11.5

17

53

30.5

114

17

13

21

70

41

220

89

11.5

15

52.5

28

76

18

15

6.5

28

78

45

334

90

11

4.5

13

46

23

48

19

15

7.5

26.5

73.5

41

262

91

12

19

57

34.5

148

20

13.5

27

68.5

49

360

92

13.5

17

58

29

114

21

15.5

29.3

76

53

416

93

13.5

17

58

29.5

116

22

13.5

20

64

38

204

94

12.5

7.5

19

60

34

158

23

12.5

18

58

31

144

95

14

6.5

21

63

35

198

24

12

8.3

18.5

60.3

32

122

96

12

19

58.5

33.5

114

25

16

29

73

44

332

97

13

17.5

61

33

135

26

4.5

13

37

19

34

98

13.5

17

58

29

130

27

12.5

4.5

10.5

63

32

140

99

12.5

6.5

18

60

30

130

28

14

21.5

67

37

180

100

13.5

6.5

22

64

36

190

29

11.5

17.5

52

29

105

101

14.5

6.5

21.5

64

37

180

30

13

21.5

59

33

166

102

12

6.5

18.5

55.5

27.5

110

31

13.5

24

64

39

204

103

13

19.5

61.5

31

140

32

14.5

7.5

26.5

66

40

250

104

13.5

20

63.5

33

144

33

4.5

12

36

19

26

105

13.5

20

64

35

160

34

13

19

59

30

120

106

13.5

6.5

22

66.5

35

184

35

13

19

59

30

114

107

11

15.5

48.5

25.5

79

36

13.5

6.5

23

66.5

38

210

108

14.5

22.5

67

40

216

37

16

9.5

30

72

48

436

109

15

26.5

71

42.5

302

38

12.5

19

57.5

32

125

110

12

19

53.5

32

122

39

12.5

19

57

34

152

111

17

29.5

70

45.5

322

40

12.5

6.5

19.5

61

36

176

112

15.5

27

70

47

308

41

13

20

61

33

132

113

15.5

20

63

33

154

42

13.5

18.5

57

35

180

114

12

18

66.5

34

146

43

13

17

54

28

90

115

13

5.5

19.5

64

35

162

44

13

5.5

20.5

57.8

34.5

140

116

17.5

30

83

49

396

45

10

13

40

23

40

117

13

18

55.5

30.5

122

46

16

24

63

42

220

118

13

5.5

19.5

55

32.5

126

47

10

13.5

43

23

46

119

13

20.5

57

34

146

48

11

15

45

25

60

120

13

5.5

19.5

61.5

37

156

49

13.5

22

66.5

34

154

121

12.5

19.5

58.5

32

142

50

13

5.5

17.5

60.5

31

116

122

10

4.5

10

43.5

24

29

51

13

6.5

21

60

34.5

182

123

16.5

8.5

29.5

69

49.5

348

52

14.5

5.5

20

61

34

150

124

17

8.5

30.5

79.5

48.5

368

53

14

6.5

26

65

39

180

125

12

5.5

18

54.5

32

116

54

13

20

63

35

172

126

13

19

59

34

130

55

13.5

21

59.5

32.5

150

127

14

21

66.5

37

160

56

11

16

50.5

28

90

128

13

6.5

20.5

60

36.5

154

57

9.5

4.5

16

40

26

65

129

16

7.5

28

73

45

316

58

13.5

6.5

28

64

48

356

130

13.5

5.5

19.5

61

35

158

59

14.5

6.5

26

65

48

316

131

12.5

5.5

19

56

32

120

Pg. 102

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

60

13.5

5.5

19

60.5

34

148

132

15.5

30.5

75

54

514

61

11.5

5.5

17.5

52.5

30

104

133

15.5

7.5

25.5

73.5

43

324

62

11

17

49

29

94

134

14.5

22

67.5

38

196

63

11.5

17

47

29.5

86

135

12.5

8.5

18

57.3

32.8

140

64

13

21

59

35

150

136

12

18

56

32.5

114

65

13.5

21

64

35

166

137

12

5.5

15

51

24

82

66

16.5

6.5

27

72

44.5

270

138

13

22

61

40

230

67

14

5.5

24

65

39

202

139

15.5

23

69

42.5

290

68

13.5

6.5

21.5

63

40

202

140

15.5

23

69

42.5

289

69

15.5

28

70.5

50

365

141

12

17.5

59

28.5

128

70

11.5

16.5

48

31

79

142

13.5

20

62

32.5

156

71

11.5

17

50.5

28

90

143

16.5

6.5

30

72

49

398

Las instrucciones de Minitab son las siguientes:


1

Open worksheet BEARS.MTW.

Para crear la columna de particin inicial, seleccionar Calc > Make

Patterned Data > Simple Set of Numbers.


3

En Store patterned data in, nombrar Inicial a la columna de

almacenamiento.
4

En From first value y From last value, poner 0.

En List each value, poner 143. Click OK.

Ir a la ventana de datos y poner 1, 2, y 3 en los renglones 2, 78 y 15

respectivamente en la columna Inicial.


7

Seleccionar Stat > Multivariate > Cluster K-Means.

En Variables, seleccionar 'Head.L'-Weight.

En Specify Partition by, seleccionar Initial partition column e Inicial.

10 Seleccionar Standardize variables.


11 Seleccionar Storage. en Cluster membership column, seleccionar
BearSize.
12 Click OK en cada uno de los cuadros de dilogo
Los resultados se muestran a continuacin:
Session window output
K-means Cluster Analysis: Head.L, Head.W, Neck.G, Length,
Chest.G, Weight
Standardized Variables
Final Partition

Pg. 103

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

K medias clasifica a los 143 osos de la forma siguiente:


Number of clusters: 3

Cluster1

Number of
observations
41

Within
cluster
sum of
squares
63.075

Average
distance
from
centroid
1.125

Maximum
distance
from
centroid
2.488

Cluster2

67

78.947

0.997

2.048

Cluster3

35

65.149

1.311

2.449

Cluster Centroids
Cluster1
-1.0673

Cluster2
0.0126

Cluster3
1.2261

Grand
centroid
-0.0000

Head.W

-0.9943

-0.0155

1.1943

0.0000

Neck.G

-1.0244

-0.1293

1.4476

-0.0000

Length

-1.1399

0.0614

1.2177

0.0000

Chest.G

-1.0570

-0.0810

1.3932

-0.0000

Weight

-0.9460

-0.2033

1.4974

-0.0000

Variable
Head.L

Distances Between Cluster Centroids


Cluster1

Cluster2

Cluster3

Cluster1

0.0000

2.4233

5.8045

Cluster2

2.4233

0.0000

3.4388

Cluster3

5.8045

3.4388

0.0000

En general, un conglomerado con una suma de cuadrados pequea es ms


compacto que otro con una suma ms grande. El centroide es el vector de
medias de variables de las observaciones en ese conglomerado y se usa como
el punto central del conglomerado
La columna BearSize contiene la designacin del conglomerado.

Pg. 104

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Ejemplo de HATCO:
De Minitab con soluciones por grupos de Conglomerados:
1. Stat > Multivariate > Cluster K Means
2. Variables or distance matrix X1 X7
3. Number of clusters 2 o 4
4. OK
Solucin por dos conglomerados
K-means Cluster Analysis: X1, X2, X3, X4, X5, X6, X7
Final Partition
Number of clusters: 2

Cluster1
Cluster2

Number of
observations
52
48

Within
cluster
sum of
squares
315.799
294.132

Average
distance
from
centroid
2.383
2.368

Maximum
distance
from
centroid
4.285
4.279

Cluster Centroids
Variable
X1
X2
X3
X4
X5
X6
X7

Cluster1
4.3827
1.5808
8.8615
4.9250
2.9577
2.5250
5.9038

Cluster2
2.5750
3.2125
6.8458
5.5979
2.8708
2.8167
8.1271

Grand
centroid
3.5150
2.3640
7.8940
5.2480
2.9160
2.6650
6.9710

Distances Between Cluster Centroids


Cluster1
Cluster2

Cluster1
0.0000
3.9347

Cluster2
3.9347
0.0000

En esta solucin se observa que en el grupo o cluster 1 versus cluster 2, X1 y


X3 son mayores.
En el caso de las variables X2, X4, X6 y X7 tienen valores ms altos en el
cluster 2 que en el cluster 1. X5 no muestra diferencia significativa. Por tanto se
sugieren dos segmentos, evaluados desde un punto de vista conceptual y
prctico.
Corriendo con SPSS se tiene:
1. Analyze > Clasify > K Jeans Clusters
Pg. 105

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

2. Variables X1 X7
3. Number of clusters 2
4. OK
ANOVA
Cluster
X1
X2

Mean Square
81.563
66.457

X3
X4
X5

Error
df
1
1

Mean Square
.930
.766

101.414

11.302
.188

X6
X7

df
98
98

F
87.717
86.753

Sig.
.000
.000

.923

98

109.816

.000

1.178

98

9.596

.003

.568

98

.331

.566

2.123

.579

98

3.670

.058

123.372

1.280

98

96.404

.000

The F tests should be used only for descriptive purposes because the clusters have been chosen to
maximize the differences among cases in different clusters. The observed significance levels are not
corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are
equal.

Solucin por cuatro conglomerados


K-means Cluster Analysis: X1, X2, X3, X4, X5, X6, X7
Final Partition
Number of clusters: 4

Cluster1
Cluster2
Cluster3
Cluster4

Number of
observations
34
29
14
23

Within
cluster
sum of
squares
155.126
123.693
54.234
109.941

Average
distance
from
centroid
2.100
2.012
1.833
2.031

Maximum
distance
from
centroid
2.922
3.211
3.051
3.947

Cluster Centroids
Variable
X1
X2
X3
X4
X5
X6
X7

Cluster1
4.1441
1.5794
8.5765
4.4176
2.8353
2.0882
5.3147

Cluster2
2.0241
2.7655
7.0103
5.1621
2.3655
2.5552
8.2690

Cluster3
3.6143
4.1286
5.9500
6.0643
3.8429
3.1643
7.9500

Cluster4
4.4043
1.9435
9.1826
6.0870
3.1652
3.3522
7.1870

Grand
centroid
3.5150
2.3640
7.8940
5.2480
2.9160
2.6650
6.9710

Distances Between Cluster Centroids


Cluster1
Cluster2
Cluster3
Cluster4

Cluster1
0.0000
4.2514
5.0504
2.9268

Cluster2
4.2514
0.0000
2.9967
3.7896

Cluster3
5.0504
2.9967
0.0000
4.1141

Cluster4
2.9268
3.7896
4.1141
0.0000

El Cluster 3 es mucho ms compacto que el cluster 1, como se indica por la


suma de cuadrados.

Pg. 106

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

En este caso se muestra en forma ms clara un grupo de patrones con valores


altos y otro con valores bajos.
Corriendo con SPSS se tiene:
5. Analyze > Clasify > K Jeans Clusters
6. Variables X1 X7
7. Number of clusters 4
OK
ANOVA
Cluster
X1
X2

Mean Square
37.108
28.530

Error
df
3
3

Mean Square
.639
.583

df
96
96

F
58.055
48.960

Sig.
.000
.000

X3

37.115

.839

96

44.224

.000

X4

15.527

.835

96

18.598

.000

X5

7.487

.348

96

21.509

.000

X6

8.242

.355

96

23.204

.000

X7

53.222
3
.928
96
57.330
.000
The F tests should be used only for descriptive purposes because the clusters have been chosen to
maximize the differences among cases in different clusters. The observed significance levels are not
corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are
equal.

C. Conglomerados por variables


Usar conglomerados por variables para clasificar variables en grupos, cuando
son inicialmente desconocidos. Una razn puede ser reducir su nmero. Esta
tcnica puede dar nuevas variables que sean ms comprensibles que las que
proporciona el anlisis de componentes.
El procedimiento es jerrquico e inicia con todas las variables por separado,
cada una formando su propio conglomerado. En el primer paso, se unen las
dos variables ms cercanas. Despus, ya sea que una tercera variable se
agregue a las dos primeras, o se unan en un conglomerado diferente. El
proceso continua hasta que todos lo conglomerados se unen en uno.

Pg. 107

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Ejemplo:
Se realiza un estudio para determinar el efecto de largo plazo de un cambio en
el ambiente en la presin arterial. Los sujetos son 39 peruanos de alrededor de
21 aos que han migrado de las montaas de los Andes a ciudades ms
grandes con menor altura.
Se registra la edad (Age), aos desde la migracin (Years), peso en Kgs.
(Weight), estatura en mm (Height), mentn, antebrazo, y pierna en mm (Chin,
Forearm, Calf), pulso en latidos por minuto (Pulse), y presin sistlica y
diastlica (Systol, Diastol).
El objetivo es reducir el nmero de variables al combinar variables con
caractersticas similares. Se usa la distancia de correlacin, enlace promedio y
dendograma.

Los datos son los siguientes:

Peru.Mtw
Age
21
22
24
24
25
27
28
28
31
32
33
33
34
35

Years
1
6
5
1
1
19
5
25
6
13
13
10
15
18

Weight
71
56.5
56
61
65
62
53
53
65
57
66.5
59.1
64
69.5

Height
1629
1569
1561
1619
1566
1639
1494
1568
1540
1530
1622
1486
1578
1645

Chin
8
3.3
3.3
3.7
9
3
7.3
3.7
10.3
5.7
6
6.7
3.3
9.3

Pg. 108

Forearm
7
5
1.3
3
12.7
3.3
4.7
4.3
9
4
5.7
5.3
5.3
5

Calf
12.7
8
4.3
4.3
20.7
5.7
8
0
10
6
8.3
10.3
7
7

Pulse
88
64
68
52
72
72
64
80
76
60
68
72
88
60

Systol
170
120
125
148
140
106
120
108
124
134
116
114
130
118

Diastol
76
60
75
120
78
72
76
62
70
64
76
74
80
68

MTODOS ESTADSTICOS MULTIVARIADOS

35
36
36
37
37
38
38
38
38
39
39
39
41
41
41
42
43
43
43
44
44
45
47
50
54

2
12
15
16
17
10
18
11
11
21
24
14
25
32
5
12
25
26
10
19
18
10
1
43
40

64
56.5
57
55
57
58
59.5
61
57
57.5
74
72
62.5
68
63.4
68
69
73
64
65
71
60.2
55
70
87

1648
1521
1547
1505
1473
1538
1513
1653
1566
1580
1647
1620
1637
1528
1647
1605
1625
1615
1640
1610
1572
1534
1536
1630
1542

3
3.3
3
4.3
6
8.7
5.3
4
3
4
7.3
6.3
6
10
5.3
11
5
12
5.7
8
3
3
3
4
11.3

P. REYES / MARZO 2007

3.7
5
3
5
5.3
6
4
3.3
3
3
6.3
7.7
5.3
5
4.3
7
3
4
3
6.7
4.7
3
3
6
11.7

6.7
11.7
6
7
11.7
13
7.7
4
3
5
15.7
13.3
8
11.3
13.7
10.7
6
5.7
7
7.7
4.3
3.3
4
11.7
11.3

60
72
84
64
72
64
80
76
60
64
64
68
76
60
76
88
72
68
60
74
72
56
64
72
92

138
134
120
120
114
124
114
136
126
124
128
134
112
128
134
128
140
138
118
110
142
134
116
132
152

Las instrucciones de Minitab son las siguientes:


1

Open worksheet PERU.MTW.

Choose Stat > Multivariate > Cluster Variables.

In Variables or distance matrix, enter Age-Diastol.

For Linkage Method, choose Average.

Check Show dendrogram. Click OK.

Los resultados son los siguientes:


Cluster Analysis of Variables: Age, Years, Weight, Height, Chin, Forearm, ...
Correlation Coefficient Distance, Average Linkage
Amalgamation Steps

En cada paso se unen dos conglomerados:

Step
1
2
3
4
5
6
7
8
9

Number
of
clusters
9
8
7
6
5
4
3
2
1

Similarity
level
86.7763
79.4106
78.8470
76.0682
71.7422
65.5459
61.3391
56.5958
55.4390

Distance
level
0.264474
0.411787
0.423059
0.478636
0.565156
0.689082
0.773218
0.868085
0.891221

Clusters
joined
6
7
1
2
5
6
3
9
3
10
3
5
3
8
1
3
1
4

Pg. 109

New
cluster
6
1
5
3
3
3
3
1
1

Number
of obs.
in new
cluster
2
2
3
2
3
6
7
9
10

78
86
70
76
80
64
66
78
72
62
84
92
80
82
92
90
72
74
66
70
84
70
54
90
88

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Dendrogram with Average Linkage and Correlation Coefficient Distance


55.44

Similarity

70.29

85.15

100.00

Age

Years Weight Systol Diastol Chin Forearm Calf


Variables

Pulse Height

El dendograma muestra la informacin de los resultados del proceso de


aglomeracin en forma de diagrama de rbol, de aqu se sugiere que las
algunas variables son similares, y se pueden combinar ya sea promediando
sus valores o calculando totales:

Chin, Forearm, Calf son similares y pueden combinarse.

Age y Year son similares pero se investigar la relacin. Si los sujetos


tienden a migrar a cierta edad entonces las variables pueden contener
informacin similar y pueden combinarse.

El peso y las presiones son similares, sin embargo se decide mantener


el peso separado y unir las presiones en una.

Ejemplo con Hatco:


Investigando ahora la agrupacin de variables se tiene:

En Minitab:
1. Stat > Multivariate > Cluster variables
2. Variables or distance matrix X1 X7

Pg. 110

MTODOS ESTADSTICOS MULTIVARIADOS

3. Linkage

method

Ward

P. REYES / MARZO 2007

(minimizea

la

distancia

dentro

de

conglomerados)
4. Distance Measure Correlation
5. Seleccionar Show Dendogram
6. Customize Label Y axis with Distances
7. OK
Los resultados se muestran a continuacin:
Cluster Analysis of Variables: X1, X2, X3, X4, X5, X6, X7
Correlation Coefficient Distance, Ward Linkage
Amalgamation Steps

Step
1
2
3
4
5
6

Number
of
clusters
6
5
4
3
2
1

Similarity
level
89.4112
80.5950
73.4873
57.8288
39.4434
-4.3342

Distance
level
0.21178
0.38810
0.53025
0.84342
1.21113
2.08668

Clusters
joined
4
6
1
5
2
7
1
3
2
4
1
2

New
cluster
4
1
2
1
2
1

Number
of obs.
in new
cluster
2
2
2
3
4
7

Dendrogram with Ward Linkage and Correlation Coefficient Distance

Distance

2.09

1.39

0.70

0.00

X1

X5

X3

X2
Variables

X7

X4

X6

Se identifican conglomerados en las variables X1 y y X5; X2 y X7; X4 y X6,


despus entre X1, X5, X3 y X2, X7, X4 y X6 y al final un solo conglomerado.

Pg. 111

los

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Paso 5. Interpretacin de los conglomerados


Como resultado de un anlisis factorial se tiene:
Instrucciones en Minitab:
1. Stat > Multivariate > Factor analysis
2. Variables X1 X7 Method of Extraction Maximum likelihood
3. Rotation Varimax
4. Graphs Scree Plot y Loading Plot for first two factors
5. OK

Factor Analysis: X1, X2, X3, X4, X5, X6, X7


Maximum Likelihood Factor Analysis of the Correlation Matrix
* NOTE * Heywood case
Unrotated Factor Loadings and Communalities
Variable
X1
X2
X3
X4
X5
X6
X7

Factor1
0.969
-0.181
0.436
0.133
0.752
0.133
-0.424

Factor2
0.177
-0.984
0.400
-0.301
-0.660
-0.214
-0.400

Communality
0.971
1.000
0.350
0.108
1.000
0.063
0.340

Variance
% Var

1.9431
0.278

1.8896
0.270

3.8327
0.548

Rotated Factor Loadings and Communalities


Varimax Rotation
Variable
X1
X2
X3
X4
X5
X6
X7

Factor1
-0.894
0.714
-0.587
0.065
-0.235
0.015
0.577

Factor2
0.414
0.700
-0.075
0.323
0.972
0.251
0.082

Communality
0.971
1.000
0.350
0.108
1.000
0.063
0.340

Variance
% Var

2.0468
0.292

1.7859
0.255

3.8327
0.548

Factor Score Coefficients


Variable

Factor1

Factor2

Pg. 112

MTODOS ESTADSTICOS MULTIVARIADOS


X1
X2
X3
X4
X5
X6
X7

0.000
1.132
0.000
-0.000
-0.815
-0.000
-0.000

P. REYES / MARZO 2007

-0.000
0.273
-0.000
-0.000
0.832
-0.000
0.000

Loading Plot of X1, ..., X7


X5

1.0

0.8

Second Factor

X2

0.6
X1

0.4

X4
X6

0.2
X7

0.0

X3

-1.0

-0.5

0.0
First Factor

0.5

Para las correlaciones en Minitab:


1. Stat > Basic statistics > Correlations
2. Variables X1 X7 Show P values
3. OK
Correlations: X1, X2, X3, X4, X5, X6, X7
X1
-0.349
0.000

X2

X3

0.476
0.000

-0.472
0.000

X4

0.050
0.618

0.272
0.006

-0.095
0.347

X5

0.612
0.000

0.513
0.000

0.064
0.524

0.299
0.003

X6

0.077
0.446

0.186
0.064

-0.015
0.880

0.788
0.000

0.241
0.016

X7

-0.483
0.000

0.470
0.000

-0.407
0.000

0.200
0.046

-0.055
0.586

X2

X3

X4

X5

Cell Contents: Pearson correlation


P-Value

Pg. 113

X6

0.177
0.078

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Al definir los factores que son las dimensiones de las variables que se
correlacionan significativamente, se observan dos factores. El primer factor
contiene a X1, X2, X3 y X7 y el segundo factor contiene a los aspectos de
imagen X4 y X6. En el primer factor X2 y X7 se relacionan inversamente con
X1 y X3, es decir que mientras se incrementan unas, las otras bajan. Esto
sugiere que altos valores en X1 y X3 implican valores bajos en X2 y X7. O sea
que definir conglomerados slo con base en valores altos o bajos es
inapropiado.
De la tabla ANOVA para dos conglomerados se observa que solo X5
Servicio general no es significativa.

Cluster

De la grfica de centros de conglomerados se observa que X4 y X6 tienen


valores mayores en el conglomerado 2 que en el 1 y X1, X3 tienen valores
mayores en el conglomerado 1 que en el 2 y X2 y X7 son menores.
Para el caso de 4 conglomerados, el 1 se divide en 1 y 4 y el 2 se divide en 2 y
3 se tiene:

Pg. 114

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

En general la aplicacin del anlisis de conglomerados es un arte ms que una


ciencia y se deben aplicar criterios objetivos y subjetivos adecuados.

Pg. 115

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

9. ANLISIS DE COMPONENTES
PRINCIPALES

Pg. 116

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

9. ANLISIS DE COMPONENTES PRINCIPALES


Introduccin
El objetivo del anlisis es tomar p variables X1, X2, ., Xp algunas de ellas
correlacionadas entre s y encontrar combinaciones de las mismas para
producir ndices Z1, Z2, .., Zp que sean no correlacionadas. Z1 muestra la
mayor parte de la varianza, seguida de Z2, etc. Se trata de reducir el nmero
de variables X por un pequeo grupo de variables Z.
Un ejemplo clsico2 es tratar de caracterizar criminales con base en siete
dimensiones corporales. Las dimensiones utilizadas fueron: longitud del dedo
izquierdo, longitud de la pierna izquierda, longitud del pie izquierdo, longitud de
la cabeza, ancho de la cabeza, ancho y alto de la cara.
Como resultados del anlisis3 se determinaron tres componentes no
correlacionados de esas mediciones, en conjunto acumulaban el 84% de la
varianza total de las siete variables originales. Cada uno de los componentes
es una combinacin lineal de las siete variables originales.

El primero incluye el 54% de la varianza total y se refiere a las


dimensiones generales.

El segundo contiene el 25% de la varianza total representa el contraste


entre el tamao de la cabeza y y el resto del cuerpo.

El tercer tiene el 9% de la varianza y contrasta la longitud de la cabeza


con su ancho.

Los coeficientes se muestran a continuacin:


Variables
Long. Cabeza
Ancho cabeza
Ancho cara
Long. Dedo izq.
Long. Brazo izq.
Pie izquierdo
Estatura
2
3

Coeficientes
Primero
Segundo
Tercero
0.538
-0.447
-0.712
0.413
-0.784
0.206
0.575
-0.628
0.309
0.853
0.288
0.056
0.888
0.339
0.030
0.878
0.219
0.048
0.849
0.220
0.005

Maxwell, A.E., Multivariate Analysis in Behavioral Research, Chapman and Hall, Londres, 1977.
Ibidem

Pg. 117

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

La posibilidad de caracterizar a los criminales con sus dimensiones motivo al


desarrollo de los anlisis multivariados.

El mtodo de componentes principales


Dada la matriz X que representa n observaciones en cada una de las p
variables, X1, X2, X3, ., Xp, el propsito del anlisis de componentes
principales consiste en determinar una nueva variable Z1 que pueda ser
utilizada para acumular la varianza de las p X variables. El componente
principal Z1 est dado por la combinacin lineal de las p X variables por:
Z1 v11 X 1 v21 X 2 ..... v p1 X p

Para determinar los coeficientes de Z1 se usa el mtodo de mnimos


cuadrados, donde se trata de minimizar la suma de las desviaciones al
cuadrado de:

j 1

i 1

( xij xij ) 2

Donde:
zi1

v j1 x ij

xij a j1 zi1
xij i 1,2,...., n; j 1,2,...., p

Denota las observaciones en X.


En notacin matricial se trata de determinar los los vectores (p x1) v1 y a1,
donde z1 (n x 1) = Xv1 y X = z1a1 tal que tr ( X X )' ( X X ) sea minimizada.
Para la solucin de este problema se utilizan los valores caractersticos o
Eigenvalores, dados por:
( X ' X I )v 0

Pg. 118

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Como la magnitud de v es arbitraria, vv=1. Por tanto la solucin al problema


son los vectores caractersticos o eigenvalores j, j = 1,2,3,., s y los vectores
caractersticos correspondientes vj, j = 1,2,3,., s, donde el nmero de
soluciones de s, corresponde al rango de (XX).
Ejemplo:

6 152 0
Dada la matriz

A 15 4
2 2

3
0 2 2

Los valores caractersticos o Eigenvalores se obtienen al resolver la ecuacin


del determinante: | A - I | = 0, lo cual da en este caso:

(6 ) 15 2 0
3
15
(
4

)
2
2 0

0
(2 )
2

El polinomio resultante es:


(6 )(4 )(2 )

3
15
(6 ) ( 2 ) 0
2
2

Con sus races caractersticas o eigenvalores = 1, 3 y 8.


Los eigenvectores correspondientes se obtienen resolviendo la ecuacin

Pg. 119

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

(A -I)v = 0 para cada uno de los eigenvalores . Para el caso de = 3 se


tiene:

( 6 3) 15 0
2

v1
15 3
2 ( 4 3) 2 v2 0

v3 La restriccin para que la solucin sea nica es que:


3
0 2 (2 3)
v12 v22 v32 1
Proporciona el eigenvector:
1
v'
2

3
10

20

Determinado los otros eigenvectores se tiene la matriz V.

3 1 9
28 2 14

V 5 3 12
14 10 35
15 9 1
28 20 70

Pg. 120

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

En Matlab se tiene:
To get started, select "MATLAB Help" from the Help menu.
>> A=[6 sqrt(15/2) 0; sqrt(15/2) 4 sqrt(3/2); 0 sqrt(3/2) 2]
A =

6.0000
2.7386
0

2.7386
4.0000
1.2247

0
1.2247
2.0000

>> Lamda=eig(A)
Lamda =
1.0000
3.0000
8.0000
>> [V,D]=eig(A)
V =

0.3273
-0.5976
0.7319

0.5000
-0.5477
-0.6708

-0.8018
-0.5855
-0.1195

0
3.0000
0

0
0
8.0000

D =
1.0000
0
0
>>

Los s eigenvectores y sus correspondientes eigenvalores proporcionan s


soluciones para el componente principal deseado Z1. La solucin que
corresponde al mnimo requerido emplea el eigenvalor ms grande 1 y su
vector correspondiente v1.
En particular var(Zi) = i y las constantes ai1, ai2, , aip son los elementos del
eigenvector correspondiente.
Los pasos para hacer un anlisis de componentes principales son los
siguientes:4
1. Iniciar codificando las variables X1, X2, .., Xp a que tnegan media cero y
desviacin estndar uno.
2. Calcular la matriz de covarianza C. Es la matriz de correlacin despus del
paso 1.

Bryan, F.J. Manly, Multivariate Statistical Methods, Chapman and Hall, Londres, 1986

Pg. 121

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

1 c12 ..................c1 p

c21 1 ........... c2 p

C
..............................

c p1 c p 2 ........... 1
Donde cada Cij = Cji es la correlacin entre Xi y Xj. De esta manera la suma de
los trminos diagonales, y la suma de los eigenvalores es igual al nmero de
variables p.
3. Encontrar los eigenvalores 1, 2, , p y los correspondientes
eignevectores a1, a2, , ap. Los coeficientes del i-simo componente
principal estn dados por ai mientras que la varianza es i.
4. Descartar cualquier componente que solo contenga una pequea parte de la
varianza de los datos (menor o igual a uno). Por ejemplo, iniciando en 20
variables, puede ser que los primeros tres componentes tengan el 90% de la
varianza total. Bajo esta base, se pueden ignorar los otros 17 componentes.

Ejemplo:
Los datos de las dimensiones de 49 pjaros se muestran a continuacin:
Tabla y corrida Minitab
Los eigenvalores de esta matriz son: 3.616, 0.532, 0.386, 0.302 y 0.164, que
suman 5.000, que es igual a la suma de los trminos de la diagonal de la matriz
C.
De la tabla de eigenvectores, se obtienen los coeficientes de los componentes
principales.
El eigenvalor de un componente principal, indica la varianza de un total de
5.000. As, para el primer componente principal se tiene:

Pg. 122

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

(3.616/5.000)*100%=72.3%; el segundo tiene 10.6%; el tercero 7.7%, etc. De


manera clara, el primer componente es el ms importante.
El primer componente principal es:
Z1 0.452 X 1 0.462 X 2 0.451X 3 0.471X 4 0.398 X 5

Donde X1 a X5 son las variables estandarizadas. Este es un ndice del tamao


de los pjaros. De modo que el 72.3% de la varianza de los datos est
relacionada con diferencias en los tamaos.
El segundo componente principal es:
Z 2 0.051X 1 0.300 X 2 0.325 X 3 0.185 X 4 0.877 X 5

En este caso contrasta X2, X3 y X4 contra X5, de modo que Z2 ser alta si
(X2,X3,X4) son altas y (X5) es baja, por tanto puede considerarse que
representa la diferencia de forma entre los pjaros.
Para calcular Z1, primero se estandarizan las Xi como sigue:
X1 = (x1 Media x1)/ desv. Estad. x1 = (156 157.98) / 3.654
X2 = (245 241.327)/5.068 = 0.725
X3 = (31.6 31.459)/0.795 = 0.177
X4 = (18.5 18.469)/0.564 = 0.055
X5 = (20.5 20.827)/0.991 = -0.330
Sustituyendo estos valores en las ecuaciones para Z1 y Z2 se tiene:
Z1 = 0.064
Z2 = 0.602
De esta misma manera se pueden calcular los otros componentes.
Los valores de las coordenadas Z correspondientes a los diferentes pjaros se
muestra a continuacin.

Pg. 123

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

En la figura se puede observar que los pjaros con valores extremos en


dimensiones Z1 tienen menos probabilidades de sobrevivir, lo mismo sucede
para valores altos de Z2.

Pg. 124

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Ejemplo: alimentos en las principales ciudades europeas:


X1
Pas
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

RMEAT
10.1
8.9
13.5
7.8
9.7
10.6
8.4
9.5
18
10.2
5.3
13.9
9
9.5
9.4
6.9
6.2
6.2
7.1
9.9
13.1
17.4
9.3
11.4
4.4

X2
WMEAT
1.4
14
9.3
6
11.4
10.8
11.6
4.9
9.9
3
12.4
10
5.1
13.6
4.7
10.2
3.7
6.3
3.4
7.8
10.1
5.7
4.6
12.5
5

X3
EGGS
0.5
4.3
4.1
1.6
2.8
3.7
3.7
2.7
3.3
2.8
2.9
4.7
2.9
3.6
2.7
2.7
1.1
1.5
3.1
3.5
3.1
4.7
2.1
4.1
1.2

X4
MILK
8.9
19.9
17.5
8.3
12.5
25
11.1
33.7
19.5
17.6
9.7
25.8
13.7
23.4
23.3
19.3
4.9
11.1
8.6
24.7
23.8
20.6
16.6
18.8
9.5

X5
FISH
0.2
2.1
4.5
1.2
2
9.9
5.4
5.8
5.7
5.9
0.3
2.2
3.4
2.5
9.7
3
14.2
1
7
7.5
2.3
4.3
3
3.4
0.6

Las instrucciones de Minitab son las siguientes:


Para un anlisis de correlaciones se tiene:
1. Stat > Basic statistics > Correlation
2. Variables X1, X2, X3, X4, X6, X7
3. Display p values
4. OK
Los resultados son los siguientes:

Pg. 125

X6
CERL
42.3
28
26.6
56.7
34.3
21.9
24.6
26.3
28.1
41.7
40.1
24
36.8
22.4
23
36.1
27
49.6
29.2
19.5
25.6
24.3
43.6
18.6
55.9

X7
STARCH
0.6
3.6
5.7
1.1
5
4.8
6.5
5.1
4.8
2.2
4
6.2
2.1
4.2
4.6
5.9
5.9
3.1
5.7
3.7
2.8
4.7
6.4
5.2
3

X8

X9

NUTS FR-VEG
5.5
1.7
1.3
4.3
2.1
4
3.7
4.2
1.1
4
0.7
2.4
0.8
3.6
1
1.4
2.4
6.5
7.8
6.5
5.4
4.2
1.6
2.9
4.3
6.7
1.8
3.7
1.6
2.7
2
6.6
4.7
7.9
5.3
2.8
5.9
7.2
1.4
2
2.4
4.9
3.4
3.3
3.4
2.9
1.5
3.8
5.7
3.2

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Correlations: RMEAT, WMEAT, EGGS, MILK, FISH, CERL, STARCH, NUTS, FRVEG
RMEAT
0.153
0.465

WMEAT

EGGS

0.586
0.002

0.620
0.001

MILK

0.503
0.010

0.281
0.173

0.576
0.003

FISH

0.061
0.772

-0.234
0.260

0.066
0.755

0.138
0.511

CERL

-0.500
0.011

-0.414
0.040

-0.712
0.000

-0.593
0.002

-0.524
0.007

0.135
0.519

0.314
0.127

0.452
0.023

0.222
0.285

0.404
0.045

-0.533
0.006

NUTS

-0.349
0.087

-0.635
0.001

-0.560
0.004

-0.621
0.001

-0.147
0.483

0.651
0.000

-0.474
0.017

FR-VEG

-0.074
0.724

-0.061
0.771

-0.046
0.829

-0.408
0.043

0.266
0.198

0.047
0.825

0.084
0.688

WMEAT

STARCH

EGGS

MILK

FISH

CERL

STARCH

NUTS

0.375
0.065

Cell Contents: Pearson correlation


P-Value

Se observa que varias variables Xi estan correlacionadas entre s.

Para el anlisis de componentes principales se tiene:


1

Cargar los datos de la Tabla.

Stat > Multivariate > Principal components

En Variables, X1, X2, X3, X4, X6, X7, X8, X9

En Number of factors to extract, 3. Seleccionar Correlation Matrix

5 Click Graphs y seleccionar Scree Plot, Score plot for first 2


components Loading plot for first 2 components
8 Click Storage e indicar las columnas donde se guarden los coeficientes y
los valores Z (scores) Coef1 Coef 2 y Z1 Z2
9. Click OK en cada uno de los cuadros de dilogo.

Pg. 126

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Los eigenvalores para cada componente son los siguientes:


Principal Component Analysis: RMEAT, WMEAT, EGGS, MILK, FISH, CERL,
STARCH, NUT
Eigenanalysis of the Correlation Matrix
PC1
PC2
PC3
PC4
Eigenvalue 4.0064 1.6350 1.1279 0.9547
Proportion
0.445
0.182
0.125
0.106
Cumulative
0.445
0.627
0.752
0.858
PC9
Eigenvalue 0.0991
Proportion
0.011
Cumulative
1.000

PC5
0.4638
0.052
0.910

PC6
0.3251
0.036
0.946

PC7
0.2716
0.030
0.976

PC8
0.1163
0.013
0.989

Se observa que los componentes PC1 y PC2 contienen el 62% de la varianza


total.
Scree Plot of RMEAT, ..., FR-VEG
4

Eigenvalue

0
1

4
5
6
Component Number

Valor mnimo a considerar

La composicin aproximada de las variables en funcin de los componentes


principales son:
Variable
RMEAT
WMEAT
EGGS
MILK
FISH
CERL
STARCH
NUTS
FR-VEG

PC1
-0.303
-0.311
-0.427
-0.378
-0.136
0.438
-0.297
0.420
0.110

PC2
0.056
0.237
0.035
0.185
-0.647
0.233
-0.353
-0.143
-0.536

PC3
0.298
-0.624
-0.182
0.386
0.321
-0.096
-0.243
0.054
-0.408

Que al graficar en funcin de los dos primeros componentes, se obtiene lo


siguiente:

Pg. 127

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Loading Plot of RMEAT, ..., FR-VEG


WMEAT

0.1
Second Component

CERL

MI LK

0.2

RMEAT

EGGS

0.0
-0.1

NUTS

-0.2
-0.3

STARCH

-0.4
-0.5

FR-VEG

-0.6

FI SH

-0.7
-0.5

-0.4

-0.3

-0.2

-0.1
0.0
0.1
First Component

0.2

0.3

0.4

Los valores de las variables Z1 y Z2 (scores) calculados son:


Z1
3.48537
-1.42267
-1.62203
3.13408
-0.37046
-2.36527
-1.42221
-1.56386
-1.48798
2.23970
1.45744
-2.66348
1.53457
-1.64145
-0.97470
-0.12187
1.70585
2.75681
1.31181
-1.63373
-0.91232
-1.73537
0.78260
-2.09384
3.62301

Z2
1.63048
1.04123
-0.15950
1.30107
0.60267
-0.28545
-0.45030
0.59600
-0.78537
-1.00106
0.81595
0.76371
-0.39899
0.91199
-0.82203
-0.53174
-4.28893
1.11879
-2.55352
0.20738
0.75106
0.09398
0.11077
0.29378
1.03803

Que al graficarlos dan lo siguiente:


1. Graph > Scatterplot > Simple
2. Y Variables Z2 X Variables Z1
3. Labels > Data labels > Use labels form column Pas
4. OK

Pg. 128

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Se tiene la grfica siguiente de paisespases:


Europa occidental

Europa oriental

Balcanes

Scatterplot of Z2 vs Z1
2

12
24

14 2
8
20
22
3
7
9

18
21

11

25

23
15

13

16

10

Z2

-1
-2

19

-3
-4

17

-5
-3

-2

-1

Z1

Pennsula ibrica

Pg. 129

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Ejemplo:
Se registran las siguientes caractersticas para 14 censos: Poblacin total
(Pop), mediana de aos escolares (School), empleo total (Employ),empleo en
servicios de salud (Health), y valor mediano del valor de la casa (Home). Los
datos se muestran a continuacin:
Pop
5.935
1.523
2.599
4.009
4.687
8.044
2.766
6.538
6.451
3.314
3.777
1.53
2.768
6.585

School
14.2
13.1
12.7
15.2
14.7
15.6
13.3
17
12.9
12.2
13
13.8
13.6
14.9

Employ
2.265
0.597
1.237
1.649
2.312
3.641
1.244
2.618
3.147
1.606
2.119
0.798
1.336
2.763

Health
2.27
0.75
1.11
0.81
2.5
4.51
1.03
2.39
5.52
2.18
2.83
0.84
1.75
1.91

Home
2.91
2.62
1.72
3.02
2.22
2.36
1.97
1.85
2.01
1.82
1.8
4.25
2.64
3.17

Se realiza un anlisis de componentes principales para comprender la


estructura de datos subyacente. Se usa la matriz de correlacin para
estandarizar las mediciones dado que no se mide con la misma escala.
Las instrucciones de Minitab son las siguientes:
1

Abrir la worksheet EXH_MVAR.MTW.

Stat > Multivariate > Principal Components.

En Variables, Pop-Home.

En Type of Matrix, seleccionar Correlation.

Click Graphs y seleccionar Scree plot.

Click OK en cada cuadro de dilogo.

Los resultados se muestran a continuacin:


Principal Component Analysis: Pop, School, Employ, Health, Home

Pg. 130

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Eigenanalysis of the Correlation Matrix


Eigenvalue
Proportion
Cumulative
Variable
Pop
School
Employ
Health
Home

3.0289
0.606
0.606
PC1
-0.558
-0.313
-0.568
-0.487
0.174

1.2911
0.258
0.864
PC2
-0.131
-0.629
-0.004
0.310
-0.701

0.5725
0.114
0.978
PC3
0.008
-0.549
0.117
0.455
0.691

0.0954
0.019
0.998
PC4
0.551
-0.453
0.268
-0.648
0.015

0.0121
0.002
1.000
PC5
-0.606
0.007
0.769
-0.201
0.014

Scree Plot of Pop, ..., Home


3.0

Eigenvalue

2.5
2.0
1.5
1.0
0.5
0.0
1

3
Component Number

Interpretando los resultados


El primer componente principal tiene varianza (eigenvalor) 3.029 y acumula el
60.6% de la varianza total. Los coeficientes para el PC1 muestran como
calcular el nivel del componente principal.
PC1 = .558 Pop .313 School .568 Employ .487 Health + .174 Home
Notar que la interpretacin de los componentes principales es subjetiva, sin
embargo, frecuentemente surgen patrones obvios. Por ejemplo, se podra
pensar que el primer componente represente el efecto del tamao de la
poblacin total, el nivel de escolaridad, empleo y servicios de salud, dado que
los coeficientes de estos trminos tienen el mismo signo y no son cercanos a
cero.
El segundo componente tiene varianza 1.2911 y acumula el 25.8% de la
variabilidad de los datos. Se calcula de los datos originales usando los
Pg. 131

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

coeficientes listados en PC2. Este componente podra ser pensado como nivel
de contraste de escolaridad y valor de la casa con salud y empleo de alguna
manera.
Juntos el primero y segundo componentes representan el 86.4% y 97%,
respectivamente, de la variabilidad total. As, la mayora de la estructura de
datos puede ser capturada en dos o tres dimensiones relevantes. Los
componentes remanentes solo tienen una menor proporcin de probabilidad y
no son importantes. La grfica Scree proporciona una visin grfica de lo
anterior.

Pg. 132

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

10. ANLISIS FACTORIAL

Pg. 133

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

10. ANLISIS FACTORIAL


De manera similar al anlisis de componentes principales, el propsito principal
del Anlisis factorial es decribirdescribir la variacin entre muchas variables, en
trminos de una pocas variables subyacentes no observables, denominadas
factores. De manera diferente al anlisis de componentes, en el anlisis
factorial se especifican un cierto nmero de factores comunes. Todas las
covarianzas o correlaciones se explican por los factores comunes. La varianza
no explicada por los factores comunes se asigna los trminos de error residual
denominados factores nicos, no correlacionados entre s.
La matriz del modelo de anlisis factorial asume que la matriz de correlacin o
de covarianzas se puede dividir en dos partes:

La matriz de factores comunes

La matriz de errores o factores nicos

Mientras que el anlisis de componentes principales se enfoca a explicar la


vasrianzavarianza de las variables, el anlisis factorial se enfoca a la
explicacin de la covarianza de las variables. Al final obtiene grupos de
variables dentro de los cuales las variables son altamente correlacionadas, sin
embargo entre diferentes grupos tengan correlacin dbil. 5
El anlisis factorial es un mtodo cuyo propsito principal es definir la
estructura subyacente de una matriz de datos. Atiende el problema de analizar
la estructura de las interrelaciones (correlaciones) entre un gran nmero de
variables

(vgrVg.. Respuestas de cuestionarios) al definir un conjunto de

dimensiones subyacentes comunes, conocidas como factores. Con el anlisis


factorial se identifican las dimensiones separadas de la estructura y despus se
determina que tanto cada variable es explicada por cada dimensin. Una vez
que se determinan las dimensiones y se explican las variables por cada
dimensin, se puede hacer un resumen y reduccin de datos. 6
5

Jonson, J.D., Applied Multivariate Data Analysis: Volume II, Categorical and Multivariate Methods,
Spinger Verlag, Nueva York, 1992
6
Hair, Joseph, F, et. Al., Multivariate Data Analysis, 5th. Edition, Prentice Hall International, Nueva
Jersey, 1998

Pg. 134

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

El anlisis factorial es una tcnica de interdependencia en la cual todas las


variables son consideradas de manera simultanea, cada una relacionada a las
otras, y empleando el concepto de variate, composicin lineal de variables. De
hecho las variates (factores) se forman para maximizar su explicacin de todo
el conjunto de variables, no para predecir una variable dependiente(s). Una
variate (factor) es una variable dependiente que es funcin del conjunto total de
variables.
Se usa el Anlisis factorial, de manera similar al anlisis de componentes
principales, para resumir la estructura de covarianza de los datos en unaunas
pocas dimensiones de los mismos. Sin embargo, el nfasis en anlisis factorial
es la identificacin de los factores subyacentes que pueden explicar las
dimensiones asociadas con la gran variabilidad de los datos.
Se pueden tener tres tipos de datos de entrada:

Columnas de datos unitarios

Una Matriz de correlaciones o covarianzas

Columnas conteniendo ponderaciones de factores

Con los datos del ejemplo anterior de Componentes principales, realizar un


anlisis factorial como sigue:
Nos gustara investigar que factores pueden explicar la mayor parte de la
variabilidad. Como primer paso del anlisis factorial, se utiliza la extraccin de
componentes principales y se examinan los eigenvalores en grfica como
ayuda para decidir el nmero de factores.

Modelo matemtico
A partir de los trabajos de Charles Spearman (1904) al hacer estudios de
psicologa sobre la teora de pruebas mentales, formul un modelo de dos
factores: cada resultado de la prueba se forma de dos partes, uno que es
comn a todas las pruebas (inteligencia general) y otro que es especfico a la
prueba. Posteriormente, se modific a para permitir que cada resultado de

Pg. 135

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

prueba consistiera de una parte debida a varios factores comunes, adems de


una parte especfica de la prueba.
El modelo general de anlisis de factores es el siguiente:
X i ai1F1 ai 2 F2 ... aim Fm ei

Donde Xi es el resultado i-simo de la prueba con media cero y varianza


unitaria; ai1, ai2,, aim son las Cargas factoriales para la i-sima prueba; F1,
F2, , Fm son los m factores comunes no correlacionados, cada uno con
media cero y varianza uno, ei es el error especfico para la i-sima prueba, no
correlacionado con los factores comunes.
Con este modelo:

Var ( X i ) a 2i1Var ( F1 ) a 2i 2Var ( F2 ) ... a 2imVar ( Fm ) Var (ei )


Var ( X i ) a 2i1 a 2i 2 ... a 2im Var (ei )
Donde:

a 2i1 a 2i 2 ... a 2im


Es llamada la comunalidad de Xi (la parte de la varianza que est relacionada
con los factores comunes) mientras que Var(ei)

es denominada la

especificidad de Xi (la parte de su varianza que no est relacionada con los


factores comunes). Tambin se puede establecer que la correlacin entre Xi y
Xj es:
rij ai1a j1 ai 2 a j 2 ...... aim a jm

De esta manera dos resultados de prueba estn muy correlacionados si tienen


valores de carga altos en los mismos factores. Adems -1<= aij <= 1, ya que la
comunalidad no puede exceder uno.
El anlisis factorial se hace en tres etapas:
Pg. 136

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Etapa 1 extraccin de factores: se determinan cargas o


ponderaciones provisionales de los factores aij. Una forma de hacerlo es
realizar un anlisis de componentes principales y no considerar los
componentes principales despus de los primeros m, que sern
tomados como los m factores. Como regla se pueden tomar los m
eigenvalores que excedan a la unidad. Estos factores no estn
correlacionados entre s, sin emabargo los factores especficos pueden
estar correlacionados entre s, lo que no afecta si las comunalidades son
altas. Con cualquier mtodo que se extraigan las ponderaciones
preliminares de los factores, se puede mostrar que no son nicas. Si F1,
F2,, Fm son los factores preliminares, se pueden construir
combinaciones lineales de estos de la forma:
F1' d11 F1 d12 F2 ..... d1m Fm
F2' d 21F1 d 22 F2 ..... d 2 m Fm
Fm' d m1 F1 d m 2 F2 ..... d mm Fm

Las combinaciones se pueden hacer de forma que no sean


correlacionadas y expliquen los datos adecuadamente. Se observa que
hay un nmero infinito de posibles soluciones.

Etapa 2 Rotacin de factores: los factores preliminares se


transforman de modo que se identifiquen nuevos factores ms fciles de
interpretar. Rotar equivale a seleccionar los coeficientes dij en las
ecuaciones anteriores. La rotacin puede ser ortogonal u oblicua. Con la
rotacin ortogonal, los nuevos factores no estn correlacionados, tal
como los originales. Con rotacin oblicua, los nuevos factores estn
correlacionados. Se espera que las ponderaciones o cargas aij sean
casi cero (indicando que Xi no se relaciona con el factor Fj), o muy
alejadas de cero (positivas o negativas) indicando que Xi est
determinado ampliamente por Xj de manera amplia.

Un mtodo popular de rotacin es el Varimax que est basado en el


supuesto de que la interpretabilidad del factor j puede ser medido por la

Pg. 137

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

varianza del cuadrado de sus ponderaciones (a1j2, a2j2 ,etc.) donde si la


varianza es grande, los valores de aij2 tienden a ser cero o cercanos a la
unidad, de esta forma Varimax maximiza la suma de estas varianzas para
todos los factores.
Los factores rotados se pueden expresar como sigue:
F * (G ' G ) 1 G ' X

Etapa 3 aaclculo de los factores individuales: son los valores de


los factores F1, F2, , Fm,

para cada una de las observaciones

individuales.

Pg. 138

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

PROCESO DE DECISIN DE ANLISIS FACTORIAL


Paso 1. Objetivos del Anlisis factorial
El propsito es encontrar una forma de condensar (resumir) la informacin
contenida en un cierto nmero de variables originales, en un grupo ms
pequeo de dimensiones nuevas, compuestas o variates (factores) con un
mnimo de prdida de informacin.
Por ejemplo si hay datos de 100 cuestionarios en 10 caractersticas, el anlisis
factorial se aplica a la matriz de correlacin de variables y se denomina
Anlisis Factorial R, para identificar las dimensiones que estn latentes o no
son fcilmente observables.
El anlisis factorial tambin se puede aplicar a una matriz de correlacin de los
cuestionarios individuales basados en sus caractersticas, referido como
Anlisis Factorial Q, es un mtodo de condensar o combinar un grupo grande
de gente en diferentes grupos distintos dentro de una poblacin grande, para
esto se utiliza el anlisis de conglomerados (clusters).

Paso 2. Diseo del anlisis factorial


Incluye tres decisiones bsicas: (1) clculo de los datos de entrada (una matiz
de correlacin) para cumplir con los objetivos especificados de agrupar
variables o cuestionarios; (2) el diseo del estudio en trminos del nmero de
variables, propiedades de medicin de las variables, y el tipo de variables
permitidas y (3) el tamao de muestra necesario (al menos 5 veces el nmero
de variables analizadas), ambos en trminos absolutos y como funcin de del
nmero de variables en el anlisis.

Pg. 139

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Paso 3. Supuestos del anlisis factorial


Es deseable algn grado de multicolinealidad entre variables dado que el
objetivo es identificar conjuntos de variables interrelacionadas, no son tan
importantes la normalidad, homoestacidad y linealidad a menos que
disminuyan significativamente las correlaciones observadas.
La matriz de correlacin debe indicar valores mayores a 0.3 para aplicar el
anlisis de correlacin. Tambin si las correlaciones parciales entre variables
(correlacin entre variables cuando el efecto de las otras variables se toma en
cuenta) son pequeas dado que la variable puede explicada por los factores
(variates con ponderaciones para cada una de

las variables). Si las

correlaciones parciales son altas, no hay factores subyacentes verdaderos y


el anlisis factorial es inapropiado.
La prueba de esfericidad de Bartlett mide la presencia de correlaciones entre
las variables, proporciona la probabilidad de que la matriz de correlacin tenga
correlaciones significativas en algunas de las variables. Otro indicador es el
Measure of Sampling Adequacy (MSA), con rango de 0 a 1, donde 0.8 o ms
es meritorio; 0.07 o ms es regular; 0.60 o ms es mediocre; 0.50 o ms
miserable y debajo de 0.50 inaceptable.
El supuesto bsico en el anlisis factorial es que existe una estructura
subyacente en el conjunto de variables seleccionadas.

Paso 4. Identificando factores y evaluando el ajuste del modelo


Una vez que se especifican las variables y se prepara la matriz de correlacin,
se toman decisiones en relacin a (1) el mtodo de extraccin de los factores
(anlisis de factores comunes versus anlisis de componentes) y (2) el nmero
de factores seleccionados para representar la estructura subyacente en los
datos.

Pg. 140

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Anlisis de componentes
El anlisis de componentes se usa cuando el objetivo es resumir la mayor parte
de la informacin original (varianza) en un mnimo nmero de factores para
propsitos de prediccin. Considera la varianza total y determina factores que
contienen pequeas proporciones de varianza nica y, en algunos casos,
varianza del error. No se basa en un modelo estadstico especfico. 7
Anlisis factorial
En contraste el anlisis de factores comunes se utiliza para identificar los
factores subyacentes o dimensiones que reflejan aquello que las variables
comparten en comn. Se basa en un modelo estadstico especial.
En este mtodo se tienen tres tipos de varianzas: (1) comn, (2) especfica
(nica), y (3) error. La varianza comn (communalities) se define como la
varianza en una variable que es compartida por todas las dems variables. La
varianza especfica es la varianza asociada solo con una variable especfica.
La varianza del error es la varianza debida a la incertidumbre en el proceso de
recoleccin de datos, errores de medicin, o componente aleatorio en el
fenmeno medido.
Criterios para el nmero de factores a extraer
El primer mtodo extrae la combinacin de variables explicando la mayor
cantidad de varianza y despus contina con combinaciones que representan
menos y menos cantidades de varianza.
La seleccin de factores a extraer equivale a enfocar un microscopio,
normalmente se hace por prueba y error contrastando los resultados.
Criterio de Raz Latente: su racional es que cualquier factor individual debe
contener la varianza de al menos una variable. Como cada variable contribuye
con 1 al eigenvalor total o raz latente. Se seleccionan solo los factores con
eigenvalores mayores a uno, cuando se tienen menos de 20 variables, los
factores extrados son pocos.
7

Ibidem

Pg. 141

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Criterio a Priori: en este mtodo el investigador ya tiene una idea clara de los
factores a extraer y as lo indica en la computadora.
Criterio de porcentaje de varianza: Enfoque basado en lograr un porcentaje
acumulado de varianza total extrado por factores sucesivos. Normalmente el
proceso para al acumular 95%.
Criterio Scree Test: Se usa para identificar el nmero ptimo de factores que
pueden ser extrados antes de que la cantidad de varianza nica empiece a
dominar la estructura de varianza comn.
Eig
env
alor
1

Nmero de factores

Paso 5. Interpretando los factores


Se obtiene la matriz no rotada para estimar el nmero de factores a extraer. La
matriz de factores contiene ponderaciones de factores para cada variable en
cada factor. El primer factor puede verse como la mejor combinacin lineal
incluida en los datos, con cada factor con ponderaciones significativos y
acumula la mayor parte de la varianza; el segundo factor es la segunda mejor
combinacin lineal de variables, sujeta a que es ortogonal al primer factor, se
basa en la porcin residual de la varianza una vez removido el primero, as
sucesivamente.

Pg. 142

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Los ponderaciones de los factores representan la correlacin de cada una de


las variables y el factor, entre mayores sean, mayor ser la representatividad
del factor por la variable.
La rotacin de los factores ms simple es una rotacin ortogonal, en la cual
se mantienen los ejes a 90 grados. Se pueden rotar los ejes sin mantener los
90 grados entre los ejes de referencia. Cuando no hay restriccin de
ortogonalidad, el procedimiento de rotacin se denomina rotacin oblicua.
+1 Factor II rotado

+1 Factor II sin rotar


V1
V2

+1 Factor I sin rotar

-1
V4
V3
V5

+1 Factor I rotado

-1
Factor II

Fig. 1 Rotacin ortogonal de factores ( observar la ponderacin

o ponderacin de factores I y

II en la variable V2, es ms clara cuando se rotan los factores)

En la figura se observan dos conglomerados de variables (V1 y V2) y (V3, V4 y


V5), sin embargo con los factores sin rotar no es muy obvia su ponderacin o
ponderacin de los factores I y II. Despus de la rotacin de los ejes de
factores, las variables 3, 4 y 5 tienen una ponderacin o ponderacin fuerte de
factor I, y las variables 1 y2 tienen una ponderacin o ponderacin fuerte en el
factor II. Siendo ms obvia la distincin entre conglomerados en dos grupos.
Mtodos de rotacin ortogonal
En la prctica el objetivo de todos los mtodos de rotacin es simplificar las
filas y columnas de la matriz de factores para facilitar la interpretacin. En una
Pg. 143

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

matriz de factores las columnas representan factores, con cada rengln


correspondiente a la ponderacin de las variables a travs de los factores. Al
simplificar los renglones, se hacen tantos valores en cada fila tan cercanos a
cero como sea posible (i.e. maximizando la ponderacin de una variable con un
factor nico). Simplificando las columnas, se hacen tantos valores en las
columnas tan cercanos a cero como sea posible (i.e. hacer el mximo nmero
de ponderaciones altas como sea posible). Se han desarrollado tres mtodos
para lo anterior como sigue:
Quartimax: para simplificar las filas de la matriz; o sea, que Quartimax se
enfoca a rotar los factores iniciales de manera que las variables tengan la
mayor ponderacin posible de un factor y la mnima de los otros. Aunque este
mtodo no ha sido eficiente.
Varimax: se centra en simplificar las columnas de la matriz factorial. La
mxima simplificacin posible se logra cuando solo hay 1s y 0s en la columna.
Es decir que VARIMAX maximiza la suma de variancias de ponderaciones
requeridas de la matriz factorial. Este mtodo ha probado ser un mtodo
analtico efectivo para obtener una rotacin ortogonal de factores.
Equimax:
Es un compromiso entre las anteriores. Trata de simplificar los renglones y las
columnas, no se utiliza frecuentemente.
Mtodos de rotacin oblicua:
Estos mtodos son similares a las rotaciones ortogonales excepto que permiten
factores correlacionados en vez de mantener la independencia de los factores
rotados.
En general no hay reglas para seleccionar uno de los mtodos anteriores.
Criterios para la significancia de ponderacin de factores en las variables

Pg. 144

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

De manera prctica si las ponderaciones son de 0.30 se considera que


cumplen el nivel mnimo; ponderaciones de 0.40 son importantes; 0.50 o
mayores son significativas en la prctica. Como la ponderacin del factor es la
correlacin de la variable y el factor, la ponderacin al cuadrado es la cantidad
representada de la varianza total por el factor. De esta forma con 0.3 se tiene
un 10% de explicacin y un 0.5 de ponderacin denota que un 25% de la
varianza es representada por el factor.
Evaluando la significancia estadstica
Con base en un nivel de significancia de 0.05, un nivel de potencia del 80% y
errores estndar asumidos se el doble de los coeficientes de correlacin
convencionales, se tiene la tabla siguiente:
Ponderacin del
factor
0.30
0.35
0.40
0.45
0.50
0.55
0.60
0.65
0.70

Tamao de muestra
requerida para tener
significancia
350
300
250
200
150
100
85
70
60

Resumiendo las guas para la significancia de los factores son:


(1) entre mayor sea el tamao de muestra, el valor de ponderacin
significativo se reduce.
(2) Entre ms variables sean consideradas en el anlisis, ms pequea es
la ponderacin que se considera significativa.
(3) Entre ms factores haya, mayor es la ponderacin en los factores
adicionales para que sea considerada significativa.
Cada columna de nmeros en la matriz representa un factor por separado. Las
columnas de nmeros representan las ponderaciones para cada una de las
variables. Identificar la ms alta ponderacin para cada variable. Recordar que

Pg. 145

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

para tamaos de muestra similares a 100 se considera significante 0.3. La


comunalidad para cada variable representa la cantidad de varianza
considerada por la solucin factorial para cada variable. Evaluar la comunalidad
de las variables, es decir identificar las que tengan ms del 50%, ya que las
que tengan menos no tienen suficiente explicacin. El nombre de los factores
se desarrolla de manera intuitiva, con base en las variables con una mayor
ponderacin se consideran ms importantes y tienen una mayor influencia para
el nombre seleccionado para representar al factor.

Validacin del anlisis factorial


Se trata de evaluar el grado de generalizacin de los resultados en la poblacin
y la influencia potencial de casos individuales en los resultados totales.
El alfa de Cronbach es una medida del coeficiente de confiabilidad que evala
la consistencia de toda la escala. Este ndice es la relacin positiva del nmero
de tems en la escala, donde 0.7 se considera adecuado.

Pg. 146

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Ejemplo con datos de alimentos:


Continuando con el ejemplo del anlisis de componentes que se realiz en el
captulo anterior para el caso de alimentos en diferentes pases, se identificaron
dos componentes principales que excedan un eigenvalor de 1.0, como sigue:

Scree Plot of RMEAT, ..., FR-VEG


4

Eigenvalue

0
1

5
6
Factor Number

Parte del archivo de datos se muestra a continuacin:


Pas
1
2

RMEAT
X1
10.1
8.9
Etc.

WMEAT
X2
1.4
14

EGGS
X3
0.5
4.3

MILK
X4
8.9
19.9

FISH
X5
0.2
2.1

CERL
X6
42.3
28

STARCH
X7
0.6
3.6

NUTS
X8
5.5
1.3

Las instrucciones de Minitab son las siguientes:


1

Cargar los datos de tabla de alimentos.

Stat > Multivariate > Factor Analysis.

En Variables, X1, X2, X3, X4, X6, X7, X8, X9

En Number of factors to extract, 4.


5

En Method of Extraction, seleccionar Principal components

En Type of Rotation, seleccionar Varimax.

Click Graphs y seleccionar Loading plot for first 2 factors y Scree Plot.
8

Click Results y seleccionar Sort loadings.

Pg. 147

FR-VEG
X9
1.7
4.3

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Seleccionar Storage e indicar columnas para ponderaciones,


coeficientes, Zs, eigenvalores, etc.

10 Click OK en cada uno de los cuadros de dilogo.


Los resultados se muestran a continuacin:
Factor Analysis: RMEAT, WMEAT, EGGS, MILK, FISH, CERL, STARCH, NUTS, FRVEG
Principal Component Factor Analysis of the Correlation Matrix

Los eigenvalores para los factores 1 y 2 son los siguientes:


Eigenvalues
4.00644
1.63500
1.12792
0.95466

Factores
F1
F2
F3
F4

Unrotated Factor Loadings and Communalities

Con los eigenvalores anteriores, se determina el modelo factorial:


Unrotated Factor Loadings and Communalities
X1
X2
X3
X4
X5
X6
X7
X8
X9

Variable
RMEAT
WMEAT
EGGS
MILK
FISH
CERL
STARCH
NUTS
FR-VEG

Factor1
-0.606
-0.622
-0.854
-0.756
-0.272
0.876
-0.595
0.841
0.221

Factor2
0.072
0.303
0.045
0.236
-0.827
0.299
-0.451
-0.183
-0.686

Factor3
0.316
-0.663
-0.193
0.410
0.341
-0.102
-0.258
0.058
-0.433

Factor4
0.632
-0.036
0.306
-0.003
-0.211
-0.006
-0.329
0.323
0.451

Communality
0.871
0.918
0.862
0.795
0.919
0.867
0.732
0.849
0.910

Variance
% Var

4.0064
0.445

1.6350
0.182

1.1279
0.125

0.9547
0.106

7.7240
0.858

La comunalidad de X1 RMEAT = 0.871 se calcula de la manera siguiente:


0.871 = 0.606^2+0.072^2+0.316^2+0.632^2
Como las comunalidades son relativamente altas (cercanas a la unidad), indica
que la mayor parte de la varianza para las variables X1 a X9 se acumula en los
factores F1 a F4.
Las ponderaciones de los factores que son mayores a |0.5|, sin importar el
signo, se analizan para mostrar como se relacionan las variables con los
factores. Se puede observar que: la variable X1 se explica fuertemente por los

Pg. 148

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

factores F1 y F4; la variable X2 se explica por los factores F1 y F3; las


variables X2 X3, X4, X6, X7 y X8 se relacionan fuertemente al factor 1 y X5 y
X9 al factor 2. Esto sugiere que una rotacin puede ayudar a definir los
factores.
Rotated Factor Loadings and Communalities
Varimax Rotation
Variable
X1 RMEAT
X2 WMEAT
X3 EGGS
X4 MILK
X5 FISH
X6 CERL
X7 STARCH
X8 NUTS
X9 FR-VEG

Factor1 Factor2 Factor3 Factor4 Communality


0.051
-0.931
0.014
0.037
0.871
0.943
-0.127
-0.100
0.050
0.918
0.628
-0.664
0.163
0.020
0.862
0.197
-0.610
0.219
0.579
0.795
-0.226
-0.088
0.921
-0.104
0.919
-0.395
0.549
-0.624
-0.145
0.867
0.515
-0.004
0.683
-0.026
0.732
-0.638
0.263
-0.326
-0.515
0.849
-0.010
0.003
0.178
-0.937
0.910

Variance
% Var

2.2054
0.245

2.0749
0.231

1.9273
0.214

1.5165
0.168

7.7240
0.858

Sorted Rotated Factor Loadings and Communalities


Variable
WMEAT
NUTS
RMEAT
EGGS
MILK
FISH
STARCH
CERL
FR-VEG

Factor1
0.943
-0.638
0.051
0.628
0.197
-0.226
0.515
-0.395
-0.010

Factor2
-0.127
0.263
-0.931
-0.664
-0.610
-0.088
-0.004
0.549
0.003

Factor3
-0.100
-0.326
0.014
0.163
0.219
0.921
0.683
-0.624
0.178

Factor4
0.050
-0.515
0.037
0.020
0.579
-0.104
-0.026
-0.145
-0.937

Communality
0.918
0.849
0.871
0.862
0.795
0.919
0.732
0.867
0.910

Variance
% Var

2.2054
0.245

2.0749
0.231

1.9273
0.214

1.5165
0.168

7.7240
0.858

En este caso las variables X3, X4, X6, X7 y X8 se explican al menos por dos
factores, lo cual es mejor.
Loading Plot of RMEAT, ..., FR-VEG
CERL

0.50

Second Factor

0.25

NUTS

FR-VEG

0.00

STARCH

FISH

WMEAT

-0.25
-0.50

MI LK

EGGS

-0.75
RMEAT

-1.00
-0.50

-0.25

0.00
0.25
First Factor

0.50

Pg. 149

0.75

1.00

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

El modelo queda como sigue:


Factor Score Coefficients
Variable
RMEAT
WMEAT
EGGS
MILK
FISH
CERL
STARCH
NUTS
FR-VEG

Factor1
-0.208
0.580
0.217
-0.130
-0.256
-0.027
0.259
-0.238
0.103

Factor2
-0.666
0.134
-0.297
-0.248
0.037
0.158
0.254
-0.128
-0.144

Factor3
-0.175
-0.188
-0.095
0.043
0.578
-0.252
0.369
-0.124
0.040

Factor4
-0.154
-0.123
-0.184
0.328
0.005
-0.004
-0.038
-0.292
-0.719

Obteniendo las graficas de Z1 vs. Z2 y Z3 vs. Z4 con los valores de los


coeficientes de los factores se tiene:

Z1
-2.08984
1.51952
0.54271
-0.67265
1.12632
0.28382
1.45824
-0.67673
0.03566
-1.73291
1.07856
0.84733
-0.62204
1.20389
-0.87260
1.07154
-1.02013
-0.51952
-0.48351
-0.27184
0.10789
-0.53941
-0.34330
1.23608
-0.66709

Z2
0.21229
-0.14373
-0.78648
0.77630
0.60458
-0.24185
0.86238
-0.14921
-1.84164
-0.89465
1.20405
-1.15498
-0.37440
-0.18081
0.00189
0.81779
1.36441
1.25002
0.41424
-0.39239
-1.21314
-2.17878
0.78311
-0.44858
1.70958

Z3
-1.48719
-0.67295
0.18603
-1.57884
-0.33966
1.21441
0.78301
0.93845
0.00237
-0.40999
-1.09708
-0.08258
-0.59829
-0.31569
1.50818
0.25040
2.63942
-1.03438
1.05124
0.76534
-0.71597
-0.17044
0.21603
0.05799
-1.10980

Z4
0.91607
-0.04645
-0.22398
-0.08663
0.02184
1.14642
0.03869
2.29981
-1.24522
-1.39879
-0.64712
0.51667
-1.17455
0.37021
1.24280
-0.66725
-1.71648
0.40083
-1.81043
1.37725
-0.11354
-0.12795
0.63639
0.00754
0.28389

Pg. 150

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Scatterplot of Z2 vs Z1
2

Yugoslavia
Portugal

Rumania

Hungra
Polonia
Checa Alemania orien

Bulgaria Rusia
Espaa

Z2

Albania
Noruega
Finlandia
Italia Suecia

Holanda Autria

Dinamarca

Alemania Occ
Blgica

Grecia

-1

I rlanda

Suiza

Francia

-2

Reino Unido

-2

-1

Z1

Scatterplot of Z4 vs Z3
Finlandia

2
Suecia

1
Z4

Noruega
Dinamarca

Albania
Rusia
I rlanda
Holanda

Rumania
Yugoslavia
Bulgaria

Suiza

Alemania orien
Checa
Alemania Occ

Blgica
Autria Reino Unido
Polonia

Hungra

-1

I talia
Francia
Grecia
Portugal

Espaa

-2
-2

-1

Z3

Scatterplot of Z2 vs Z3
2

Yugoslavia
Portugal

Rumania

Bulgaria

PoloniaAlemania orien
Rusia

Hungra
Checa

Espaa

Z2

Albania

Autria Holanda
I talia
Alemania Occ
Grecia

-1

Suiza

Finlandia
Suecia

Noruega

Dinamarca

Blgica

I rlanda

Francia

-2

Reino Unido

-2

-1

Z3

Pg. 151

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Scatterplot of Z1 vs Z4
2
Autria
Alemania orien
Alemania OccHolanda
Checa
Polonia

I rlanda

Hungra

Z1

Blgica

0
Espaa

Suecia

Rusia
Reino Unido Rumania
Yugoslavia

I talia

Finlandia
Noruega

Bulgaria

Portugal

-1

Dinamarca

Suiza

Francia

Grecia
Albania

-2
-2

-1

1
Z4

Pg. 152

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Ejemplo con datos de HATCO


Prueba de la adecuacin del modelo, utilizando Minitab:
1. Stat > Basic statistics > Correlation
2. Variables X1, X2, X3, X4, X6, X7
3. Display p values
4. OK
Correlations: X1, X2, X3, X4, X6, X7
X1
-0.349
0.000

X2

X3

0.476
0.000

-0.472
0.000

X4

0.050
0.618

0.272
0.006

-0.095
0.347

X6

0.077
0.446

0.186
0.064

-0.015
0.880

0.788
0.000

X7

-0.483
0.000

0.470
0.000

-0.407
0.000

0.200
0.046

X2

X3

X4

X6

0.177
0.078

Cell Contents: Pearson correlation


P-Value

De la matriz, 7 de 15 correlaciones son significativas estadsticamente. El valor


de MSA de 0.665 cumple con con el criterio para aplicar el anlisis factorial.

Anlisis factorial con Minitab:

Las instrucciones de Minitab son las siguientes:


1

Cargar los datos de HATCO.

Stat > Multivariate > Factor Analysis.

En Variables, X1, X2, X3, X4, X6, X7

En Number of factors to extract, 2.


6

En Method of Extraction, seleccionar Principal components

En Type of Rotation, seleccionar Varimax.

Pg. 153

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Click Graphs y seleccionar Loading plot for first 2 factors y Scree Plot.

8 Click Results y seleccionar Sort loadings. Click OK en cada uno de los


cuadros de dilogo.
Los resultados se muestran a continuacin:
Factor Analysis: X1, X2, X3, X4, X6, X7
Principal Component Factor Analysis of the Correlation Matrix
Unrotated Factor Loadings and Communalities
Variable
X1
X2
X3
X4
X6
X7

Factor1
0.618
-0.763
0.695
-0.502
-0.434
-0.761

Factor2
-0.517
0.079
-0.357
-0.793
-0.827
0.170

Communality
0.649
0.588
0.610
0.881
0.873
0.609

Variance
% Var

2.4664
0.411

1.7425
0.290

4.2089
0.701

El primer factor contiene la mayor parte de la varianza y es un factor general


con alta ponderacin en cada variable. Las ponderaciones para el segundo
factor muestra tres variables que tambin tiene alta ponderacin (X1, X4 y X6).
La interpretacin es sumamente difcil y sin significado, por lo que se debe
considerar la rotacin de factores como sigue:
Rotated Factor Loadings and Communalities
Varimax Rotation
Variable
X1
X2
X3
X4
X6
X7

Factor1
-0.783
0.718
-0.781
0.097
0.020
0.758

Factor2
0.188
0.268
0.010
0.934
0.934
0.186

Communality
0.649
0.588
0.610
0.881
0.873
0.609

Variance
% Var

2.3231
0.387

1.8858
0.314

4.2089
0.701

Las variables X1, X2 y X3 ponderacinnponderacin significativamente al factor


1 y las variables X4 y X6 ponderacinnponderacin significativamente al factor
2.

Pg. 154

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Si se considera como punto de corte las ponderaciones con 0.55 o ms, el


factor 1 tiene cuatro ponderaciones significativas y el factor 2 tiene 2. Para el
factor 1, se ven dos grupos de variables. Las primeras son el nivel de precios
(X2) y la calidad del producto (X7) ambas con signos positivos y varan como
conjunto. Las otras dos, tiempo de entrega (X1) y flexibilidad de precios (X3)
tienen signos negativos tambin varan como conjunto.

En el factor 1, ambos grupos varan en sentido contrario, tal vez este factor sea
el valor bsico y representa un compromiso entre percepciones de precio o
calidad del producto y percepciones de tiempo de entrega y flexibilidad de
precios.

En el factor 2, la variable X4 (imagen de fabricacin) y X6 (imagen de la fuerza


de ventas) tal vez se pueda agrupar en imagen, ambas variables tienen el
mismo signo, actuando en la misma direccin.

La variable X5 (servicio en general) no se incluy en al anlisis.


Se tienen ahora dos factores como combinacin lineal de las variables para
efectos de realizacin de estudios:
Factor Score Coefficients
Variable
X1
X2
X3
X4
X6
X7

Factor1
-0.356
0.297
-0.343
-0.020
-0.054
0.320

Factor2
0.154
0.097
0.058
0.498
0.503
0.050

Para verificar la validez del modelo se pueden hacer dos grupos de 50


observaciones y comparar sus matrices rotadas.

Pg. 155

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Data 1 50: Rotated Factor Loadings and Communalities


Varimax Rotation
Variable
X1_1
X2_1
X3_1
X4_1
X6_1
X7_1

Factor1
-0.827
0.603
-0.686
0.156
0.136
0.702

Factor2
0.085
0.376
-0.177
0.919
0.924
0.201

Communality
0.691
0.506
0.502
0.869
0.871
0.533

Variance
% Var

2.0548
0.342

1.9178
0.320

3.9726
0.662

Data 51 100: Rotated Factor Loadings and Communalities


Varimax Rotation
Variable
X1_2
X2_2
X3_2
X4_2
X6_2
X7_2

Factor1
0.741
-0.785
0.815
-0.041
0.052
-0.824

Factor2
-0.313
-0.190
-0.154
-0.949
-0.923
-0.154

Communality
0.647
0.652
0.688
0.903
0.854
0.703

Variance
% Var

2.5127
0.419

1.9338
0.322

4.4466
0.741

Como se ve las dos rotaciones VARIMAX son comparables en trminos de


ponderaciones y comunalidades para las seis percepciones. As se puede
asegurar que los resultados son estables dentro de la muestra.
De la grfica Scree Plot con los Eigenvalores de los factores se tiene:
Scree Plot of X1, ..., X7
2.5

Eigenvalue

2.0

1.5

1.0

0.5

0.0
1

3
4
Factor Number

Slo dos factores sern mantenidos si se toma como referencia el Eigenvalor


de 1 o tres si se toma como referencia el criterio Scree.
La grfica de ponderaciones por variables se muestra a continuacin,
identificando tres grupos de variables:
Pg. 156

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Loading Plot of X1, ..., X7


X6 X4

0.9
0.8

Second Factor

0.7
0.6
0.5
0.4
0.3

X2
X1

0.2

X7

0.1
X3

0.0
-1.0

-0.5

0.0
First Factor

0.5

En resumen se identifican dos dimensiones Valor bsico e Imagen, ahora se


pueden hacer planes alrededor de estas dos dimensiones en lugar de
considerar todas las variables separadas.

Ejemplo con datos del archivo EXH_MVAR


Se registran las siguientes caractersticas de 14 regiones censadas: poblacin
total (Pop), promedio de escolaridad (School), empleo total (Employ), empleo
en servicios de salud (Health), y valor promedio de casa (Home). Se desea
investigar que factores podran explicar la mayor parte de la variabilidad.
Como primer paso del anlisis factorial, se usa el mtodo de extraccin de
componentes principales y se examina la grfica de eigenvalores (Scree) para
apoyarnos en decidir sobre el nmero de factores.
Pop
5.935
1.523
2.599
4.009
4.687
8.044
2.766
6.538
6.451
3.314
3.777

School
14.2
13.1
12.7
15.2
14.7
15.6
13.3
17
12.9
12.2
13

Employ
2.265
0.597
1.237
1.649
2.312
3.641
1.244
2.618
3.147
1.606
2.119

Health
2.27
0.75
1.11
0.81
2.5
4.51
1.03
2.39
5.52
2.18
2.83

Pg. 157

MTODOS ESTADSTICOS MULTIVARIADOS

1.53
2.768
6.585

13.8
13.6
14.9

0.798
1.336
2.763

P. REYES / MARZO 2007

0.84
1.75
1.91

Las instrucciones de Minitab son las siguientes:


1

Abrir la worksheet EXH_MVAR.MTW.

Stat > Multivariate > Factor Analysis.

En Variables, poner Pop-Home.

Click Graphs y seleccionar Scree plot. Click OK in each dialog box.

Los resultados se muestran a continuacin:


Factor Analysis: Pop, School, Employ, Health, Home
Principal Component Factor Analysis of the Correlation Matrix
Unrotated Factor Loadings and Communalities
Variable
Pop
School
Employ
Health
Home

Factor1
-0.972
-0.545
-0.989
-0.847
0.303

Factor2
-0.149
-0.715
-0.005
0.352
-0.797

Factor3
0.006
-0.415
0.089
0.344
0.523

Factor4
0.170
-0.140
0.083
-0.200
0.005

Factor5
-0.067
0.001
0.085
-0.022
0.002

Communality
1.000
1.000
1.000
1.000
1.000

Variance
% Var

3.0289
0.606

1.2911
0.258

0.5725
0.114

0.0954
0.019

0.0121
0.002

5.0000
1.000

Factor3
0.011
-0.726
0.155
0.601
0.914

Factor4
1.782
-1.466
0.868
-2.098
0.049

Factor5
-5.511
0.060
6.988
-1.829
0.129

Factor Score Coefficients


Variable
Pop
School
Employ
Health
Home

Factor1
-0.321
-0.180
-0.327
-0.280
0.100

Factor2
-0.116
-0.553
-0.004
0.272
-0.617

Pg. 158

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Scree Plot of Pop, ..., Home


3.0

Eigenvalue

2.5
2.0
1.5
1.0
0.5
0.0
1

3
Factor Number

Interpretacin de resultados
Cinco factores describen estos datos perfectamente, pero la meta es reducir el
nmero de factores requeridos para explicar la variabilidad de los datos.
La proporcin de la variabilidad explicada por los dos ltimos factores es
mnima (0.019 y 0.002 respectivamente) y pueden ser eliminadas sin
afectar al resultado. Los primeros dos factores juntos representan 86% de
la variabilidad mientras que tres factores representan 98% de la
variabilidad. La cuestin es si usar dos o tres factores, se requieren otras
corridas para decidir si usar dos o tres factores.
Se seleccionan dos factores como el nmero que representa los datos del
censo en base al anlisis de componentes principales. Se realiza una
extraccin de mxima verisimilitud y rotacin varimax para interpretar los
factores.
Las instrucciones de Minitab son las siguientes:
1

Abrir la worksheet EXH_MVAR.MTW.

Stat > Multivariate > Factor Analysis.

En Variables, Pop-Home.

En Number of factors to extract, 2.

En Method of Extraction, seleccionar Maximum likelihood.

Pg. 159

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

En Type of Rotation, seleccionar Varimax.

Click Graphs y seleccionar Loading plot for first 2 factors.

Click Results y seleccionar Sort loadings. Click OK en cada uno de los

cuadros de dilogo.
Los resultados se muestran a continuacin:
Factor Analysis: Pop, School, Employ, Health, Home
Maximum Likelihood Factor Analysis of the Correlation Matrix
* NOTE * Heywood case
Unrotated Factor Loadings and Communalities
Variable
Pop
School
Employ
Health
Home

Factor1
0.971
0.494
1.000
0.848
-0.249

Factor2
0.160
0.833
0.000
-0.395
0.375

Communality
0.968
0.938
1.000
0.875
0.202

Variance
% Var

2.9678
0.594

1.0159
0.203

3.9837
0.797

Rotated Factor Loadings and Communalities


Varimax Rotation
Variable
Pop
School
Employ
Health
Home

Factor1
0.718
-0.052
0.831
0.924
-0.415

Factor2
0.673
0.967
0.556
0.143
0.173

Communality
0.968
0.938
1.000
0.875
0.202

Variance
% Var

2.2354
0.447

1.7483
0.350

3.9837
0.797

Sorted Rotated Factor Loadings and Communalities


Variable
Health
Employ
Pop
Home
School

Factor1
0.924
0.831
0.718
-0.415
-0.052

Factor2
0.143
0.556
0.673
0.173
0.967

Communality
0.875
1.000
0.968
0.202
0.938

Variance
% Var

2.2354
0.447

1.7483
0.350

3.9837
0.797

Factor Score Coefficients


Variable
Pop
School
Employ
Health
Home

Factor1
-0.165
-0.528
1.150
0.116
-0.018

Factor2
0.246
0.789
0.080
-0.173
0.027

Pg. 160

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Loading Plot of Pop, ..., Home


1.0

School

0.8
Second Factor

Pop

0.6

Employ

0.4

0.2

Home

Health

0.0
-0.50

-0.25

0.00

0.25
First Factor

0.50

0.75

1.00

Estos resultados indican un caso Heywood (las varianzas menores al lmite de


convergencia especificado se ponen a cero y sus comunalidades a 1).
Se tienen tres tablas de ponderaciones y comunalidades: no rotadas, rotadas,
ordenadas y rotadas. Los factores no rotados explican el 79.7 de la variabilidad
de los datos y los valores de comunalidad indican que todas las variables sin
Home estn bien representadas por esos dos factores (comunalidad son 0.202
para Home, 0.875 1.0 para otras variables). El porcentaje de la variabilidad
total representada por los factores no cambia con la rotacin, sino despus de
rotar, pero despus de rotar, estos factores son mas claramente balanceados
en el porcentaje de variabilidad que ellos representan, siendo 44.7% y 35%,
respectivamente.
El ordenamiento es realizado por la ponderacin mxima absoluta para
cualquier factor. Las variables que tienen la mayor ponderacin absoluta en el
factor 1 se muestran primero en orden. Despus las variables con la
ponderacin mayor en el factor 2 y as sucesivamente. El factor 1 tiene su
ponderacin mayor positiva en Health (0.924), Employ (0.831) y Pop (0.718), y
-0.415 en Home, mientras que la ponderacin en School es baja. El factor 2
tiene una ponderacin positiva en School de 0.967 y ponderacin de 0.556 y
0.673 en Employ y Pop respectivamente, y una ponderacin pequea en
Health y Home.

Pg. 161

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Se pueden ver las ponderaciones rotadas grficamente en la grfica de


ponderaciones (load graph). Ah se muestra para factor 1 con ponderaciones
altas en Pop, Emply, y Health y ponderacin negativa en Home. School tiene
una ponderacin alta positiva para el factor 2 y algo menor para Pop y Employ.
De los resultados se puede pensar en que el factor 1 sea un factor relacionado
con Cuidado de la salud tamao de la poblacin. El factor 2 puede ser
considerado como un factor relacionado con educacin tamao de la
poblacin.
En forma adicional Minitab muestra una tabla de coeficientes del factor.
Muestran como se calculan los factores. Minitab calcula los valores
multiplicando los coeficientes y los datos despus de corregirlos centrndolos
al restarle sus medias.

Pg. 162

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

10. ANLISIS DE REGRESIN MLTIPLE

Pg. 163

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

10. ANLISIS DE REGRESIN MLTIPLE


Es una tcnica estadstica que se puede usar para analizar la relacin entre
una variable dependiente simple (respuesta, criterio) y varias variables
independientes cuyos valores son conocidos para predecir la variable
dependiente. Los pesos denotan la contribucin relativa de las variables
independientes a la prediccin general y facilitar la interpretacin de la
influencia de cada variable en la prediccin, lo que se complica si hay
correlacin de las variables independientes.
El conjunto de variables independientes con sus pesos forma la Variate de
regresin, ecuacin de regresin o modelo de regresin, que es una
combinacin lineal de las variables independientes que mejor predicen la
variable dependiente.
Los supuestos de un anlisis de regresin mltiple son los siguientes:

Linealidad del fenmeno medido

Varianza constante de los trminos de error

Independencia de los trminos de error

Normalidad de la distribucin de los trminos de error.

Trminos clave

Coeficiente ajustado de determinacin (R2 ajustada): Es una mtrica


modificada del coeficiente de determinacin que toma en cuenta el
nmero de variables independientes incluidas en la ecuacin de
regresin y el tamao de muestra. A pesar de que la adicin de variables
independientes hace que se incremente el coeficiente de determinacin,
el coeficiente de determinacin ajustado se reduce si las variables
independientes tienen poco poder explicativo y/o si los grados de
libertad son muy pequeos. Este estadstico es til para comparar
ecuaciones con diferentes nmeros de variables independientes, con
diferentes tamaos de muestra, o ambos.

Regresin con todos los posibles subconjuntos: Mtodo de


seleccin de variables en el modelo que considera todas las
Pg. 164

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

combinaciones posibles de las variables independientes. Por ejemplo


para cuatro variables, se estiman modelos para una, dos, tres y cuatro
variables, identificando el modelo con la mayor capacidad predictiva.

Eliminacin hacia atrs: Mtodo de seleccin de variables en el


modelo que inicia con todas las combinaciones posibles de las variables
independientes para ir eliminando las que no tienen una contribucin
significativa a la prediccin.

Coeficiente beta: Coeficientes estandarizados de la regresin que


permite una comparacin directa de su potencia relativa explicatoria de
la variable dependiente.

Coeficiente de determinacin (R2): Mide la proporcin de la varianza


de la variable dependiente alrededor de su media que es explicada por
las variables predictoras independientes. El coeficiente puede variar
entre 0 y 1. Entre mayor sea su valor es mejor la prediccin de la
variable dependiente.

Colinealidad: Expresin de la relacin entre dos (colinealidad) o entre


varias (multicolinealidad) variables independientes. Dos variables
independientes tienen colinealidad total si coeficiente de correlacin es 1
y no tienen colinealidad si coeficiente de correlacin es cero.

La

multicolinealidad se presenta cuando una variable independiente est


muy correlacionada con otras variables independientes.

Coeficiente de correlacin (r.): Coeficiente que indica la fuerza de la


asociacin entre dos variables medibles. El signo (+) o (-) indica la
direccin de la relacin. +1 o -1 indica una correlacin perfecta positiva
(cuando aumenta una variable, aumenta la otra) o negativa (inversa
cuando aumenta una variable, la otra disminuye) y 0 sin correlacin.

Grados de libertad: En una regresin simple se estiman dos


parmetros, la interseccin (b0) y el coeficiente de la regresin para la
variable

independiente

(b1).

Por

tanto

los

grados

de

libertad

proporcionan una medida de cmo se restringen los datos para alcanzar


un cierto nivel de prediccin (n-2). Si el nmero de grados de libertad es
pequeo, la prediccin resultante no puede generalizarse, esta ser ms
robusta con un valor alto de grados de libertad.

Pg. 165

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Variable ficticia: Es una variable independiente usada para contabilizar


el efecto que tienen diferentes niveles de una variable no medible al
predecir la variable dependiente. Para contabilizar los L niveles de una
variable independiente no medible, se requieren L-1 variables artificiales.
En el caso de Hombre Mujer se requiere una variable X con valores 0
y 1; para tres niveles se requerirn dos variables X1 y X2.

Adicin hacia delante: Mtodo de seleccin de variables en el modelo


que inicia sin las variables independientes para ir agregndolas con
base en su contribucin a la prediccin.

Homoestacidad: Descripcin de los datos para los cuales la varianza


de los trminos de error (e ) aparece constante sobre el rango de valores
de la variable independiente. Cuando los trminos de error tienen
varianza incremental o modulada, se dice que los datos tienen
Heteroestacidad.

Observacin influyente: Es una observacin que tiene una influencia


desproporcionada en uno o ms aspectos de los estimados de la
regresin, puede ser basada en valores extremos de las variables
independientes y dependiente o ambas.

Outlier: Es una observacin que tiene una diferencia significativa entre


el valor real de la variable dependiente y el valor de prediccin. Los
casos que son muy diferentes ya sea en sus variables independientes o
dependiente. Deben analizarse para poder eliminarlas.

Coeficiente de correlacin parcial: Valor que mide la fuerza de la


relacin entre la variable dependiente o criterio y una nica variable
independiente manteniendo constante los efectos de las otras variables
independientes. Es til para identificar la variable independiente con la
mayor capacidad predictiva incremental. Se le asocian los estadsticos
parciales de F y t as como su grfica de regresin parcial.

Potencia: Probabilidad de que se tenga una relacin significativa si


realmente existe. Complementa el nivel de significancia Alfa.

Error de prediccin: Diferencia entre los valores reales y estimados de


la variable dependiente para cada observacin en la muestra (residuos).

Pg. 166

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Estadstico PRESS: Medida de validacin obtenida al eliminar cada


observacin una a la vez y estimando su valor dependiente con el
modelo de regresin estimado con las observaciones remanentes.

Variable de Regresin (variate): Combinacin lineal de variables


independientes

ponderadas

usadas

para

predecir

la

variable

dependiente.

Error estndar: El valor t de un coeficiente de regresin se obtiene


cuando se divide el valor del coeficiente entre el error estndar.

Estimacin por pasos: Mtodo de seleccionar variables para inclusin


en el modelo de regresin que inicia seleccionando el mejor predictor de
la variable dependiente. Las variables independientes adicionales se
seleccionan con base de su potencia explicatorio incremental que
pueden agregar al modelo de regresin (o en base a sus coeficientes de
correlacin significativos estadsticamente). Tambin se pueden eliminar
variables independientes si su potencia predictiva se reduce a niveles no
significativos cuando se agrega otra variable independiente al modelo.

Residuo estudentizado: Para minimizar el efecto de un outlier simple,


se calcula la desviacin estndar del residuo para la observacin i de los
estimados de la regresin omitiendo la observacin i-sima.

Tolerancia: Es una medida de colinealidad y multicolinealidad, es:

TOLi 1 Ri2
*

Ri2 es el coeficiente de determinacin para la variable de prediccin i por

las otras variables independientes. Conforme disminuye el valor de la


tolerancia la variable es mejor estimada por las otras variables
independientes (colinealidad).

Factor de inflacin de varianza (VIF): es un indicador del efecto que


las otras variables independientes tienen en el error estndar de un
coeficiente de regresin. El factor de inflacin de varianza est
directamente relacionado al valor de la tolerancia (VIFi = 1 / TOLi).
Valores grandes de VIF tambin indican un alto grado de colinealidad o
multicolinealidad entre las variables independientes.

Pg. 167

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Frmulas:
La ecuacin de regresin simple es:
Y b0 b1V1

Donde:
bo = Trmino de intercepcin
b1 = coeficiente de la regresin.
Error de prediccin o residuo = diferencia entre valor real y estimado de la
variable dependiente.
El error estndar del estimado se determina como:
SEE

SSE
n2

Con SSE = Suma de cuadrados del error.


n = tamao de la muestra
El intervalo de confianza de prediccin se determina como:
IC Y t * SEE

La suma de cuadrados total es:


SST SSR SSE
n

i 1

i 1

i 1

( yi y ) 2 ( yi y i ) 2 ( y i y ) 2
y = promedio de todas las observaciones
yi = valor de la observacin individual i
y = valor estimado de la observacin i

El coeficiente de determinacin se calcula como sigue:


R2

SSR
SST

Para el caso de la regresin mltiple se tiene:


Y b0 b1V1 b2V2 e

Para probar la significancia de la regresin se utiliza el estadstico F:

SSR
F

SSE

dfr
dfe

Cada suma de cuadrados dividida entre sus grados de libertad representa la


varianza.

Pg. 168

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

DIAGNSTICO AVANZADO

ndice de condicin: Medicin de la cantidad de varianza asociada con un


Eigenvalor (valor caracterstico) de manera que un ndice grande indica un
alto grado de colinealidad.

Distancia de Cook (Di): Medida resumida de la influencia de una


observacin simple con base en los cambios totales en todos los dems
residuos cuando la observacin se excluye del proceso de estimacin. Los
valores mayores a 1 indican influencia significativa de la observacin en la
estimacin de los coeficientes de la regresin.

COVRATIO (razn de covarianza): Mide la influencia de una observacin


simple en conjunto completo de coeficientes de la regresin. Un valor
cercano a 1 indica poca influencia, si (COVRATIO 1) > 3 p/n (p es el
nmero de variables independientes +1 y n es el tamao de muestra), la
observacin se considera que tiene influencia.

Residuo excluido (deleted residual): Es el proceso de calcular residuos


en los cuales la influencia de cada una de las observaciones se excluye
cuando se calcula su residuo. Esto se logra al omitir la i-sima observacin
de la ecuacin de regresin usada para calcular el valor estimado Y.

DFBETA: Mide el cambio en un coeficiente de la regresin cuando una


observacin se omite del anlisis de la regresin, se establece en trminos
del coeficiente mismo, tambin se puede tener una versin estandarizada
SDBETA, donde sus valores son ajustados por sus errores estndar, se
definen cortes en 1 o 2 correspondientes a niveles de confianza de 0.10 y
0.05 respectivamente.

DFFIT: Mide el impacto de una observacin en el ajuste general del modelo,


con una versin estandarizada DFFIT. La mejor regla prctica es
calsificarclasificar como influenciables cualquier valor SDFFIT > 2 /
raizraz(p/n).

p es el nmero de variables independientes +1 y n es el

tamao de muestra.

Eigenvalor (valor caracterstico): Mide la cantidad de varianza contenida


en la matriz de correlacin de manera que la suma de los eigenvalores es
igual al nmero de variables. Tambin se conoce como raz latente o raz
caracterstica.

Pg. 169

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Matriz sombrero: Matriz que contiene valores para cada observacin en la


diagonal conocida como matriz sombrero, que representan el impacto de la
variable dependiente observada en su valor estimado por la regresin. Si
todas las observaciones tuvieran la misma influencia, tendran un valor de
p/n. Si una observacin no tiene influencia, su valor ser -1/n, y cuando un
valor domina valdr (n-1)/n. Los valores que exceden a 2p/n para muestra
grandes o 3p/n para muestras pequeas (n<= 30) son candidatos como
observaciones influyentes.

Punto palanca (leverage point): Una observacin que tiene un impacto


sustancial en los resultados de la regresin dadas sus diferencias con otras
observaciones en una o ms de las variables independientes. La medida
ms comn de estos puntos es el valor sombrero contenido en la matriz
sombrero.

Distancia de Malahanobis (D2): Medida de la singularidad de una


observacin simple con base en las diferencias entre los valores de la
observacin y los valores promedio para todos los otros casos

de las

variables independientes. La influencia en la regresin por la observacin es


diferente para una o ms variables predictoras, causando un corrimiento en
la ecuacin de regresin.

Outlier (punto aberrante o lejano): Es una observacin que tiene una


diferencia sustancial entre sus valores observados y estimados en la
variable

dependiente

(un

residuo

grande)

entre

sus

variables

independientes y y los de otras observaciones. El objetivo de identificarlos


es que pueden representar de manera inapropiada el comportamiento de la
poblacin.

Matriz de descomposicin varianza de los coeficientes de regresin:


Mtodo para determinar la contribucin relativa de cada uno de los
eigenvalores a cada uno de los coeficientes estimados. Si dos o ms
coeficientes estn muy asociados con un eigenvalor simple (ndice de
condicin)

indica

que

est

presente

un

nivel

inaceptable

de

multicolinealidad.

Residuo: Medida de la estimacin predictiva de una observacin simple,


calculado como la diferencia del valor observado y el valor estimado de la

Pg. 170

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

variable dependiente. Se asume que los residuos tienen media cero y


varianza constante. Tambin sirven para identificar outliers y observaciones
influenciables.

Residuos estandarizados: Reescalado de los residuos a una base comn


dividiendo cada uno de los residuos entre la desviacin estndar de los
residuos. De esta manera los residuos estandarizados tienen una media de
cero y una desviacin estndar de uno. Los outliers son identificados como
las observaciones que tienen residuos mayores a 1 o 2 para niveles de
confianza de 0.10 y 0.05 respectivamente.

Residuos estudentizados: Difieren del residuo estandarizado en la forma


de calcular la desviacin estndar. Para minimizar la influencia de un outlier
simple, la desviacin estndar utilizada para estandarizar el residuo i-simo
se calcula de los estimados de la regresin excluyendo la observacin isima. Esto se hace de manera repetitiva para cada una de las
observaciones, cada vez se excluye la observacin de los clculos.

Evaluado la multicolinealidad
Corrida con SPSS V10

Regression
Variables Entered/Removed(b)
Model
1

Variables Entered

Variables Removed Method

X7, X5, X6, X3, X2, X4, X1(a)

. Enter

a All requested variables entered.


b Dependent Variable: X9
Model Summary
Model
1

R
.879(a)

R Square Adjusted R Square Std. Error of the Estimate


.772

.755

a Predictors: (Constant), X7, X5, X6, X3, X2, X4, X1


ANOVA(b)

Pg. 171

4.4508

MTODOS ESTADSTICOS MULTIVARIADOS

Model

P. REYES / MARZO 2007

Sum of Squares df Mean Square

Regression

6177.812

1 Residual

1822.444 92

Total

8000.256 99

Sig.

882.545 44.552 .000(a)


19.809

a Predictors: (Constant), X7, X5, X6, X3, X2, X4, X1


b Dependent Variable: X9
Coefficients(a)
Unstandardized
Coefficients

Standardized
Coefficients

Collinearity
Statistics
t

Beta
Model

(Constant)

Sig.

Std. Error

-9.255

4.949

X1

1.956

2.045

X2

1.280

X3

Tolerance

VIF

-1.870

.065

.287

.957

.341

.027

36.445

2.155

.170

.594

.554

.030

33.176

3.270

.406

.507

8.057

.000

.627

1.596

X4

-3.937E-03

.671

.000

-.006

.995

.347

2.884

X5

4.600

4.012

.384

1.147

.255

.022

45.401

X6

1.230

.954

.106

1.290

.200

.370

2.701

X7

.426

.356

.075

1.198

.234

.629

1.589

a Dependent Variable: X9
Collinearity Diagnostics(a)
Variance Proportions
Dimension Eigenvalue
Model
1

Condition
Index

(Constant) X1

X2

X3

X4

X5

X6

X7

7.533

1.000

.00 .00 .00 .00 .00 .00 .00 .00

.251

5.474

.00 .00 .01 .01 .00 .00 .00 .01

.106

8.426

.00 .01 .01 .00 .01 .00 .04 .04

6.548E-02

10.726

.01 .00 .00 .04 .03 .00 .18 .09

2.463E-02

17.489

.01 .01 .01 .31 .00 .00 .00 .53

1.219E-02

24.861

.03 .00 .00 .07 .75 .00 .67 .05

Pg. 172

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

6.259E-03

34.692

.86 .00 .00 .52 .17 .00 .10 .28

8.354E-04

94.959

.09 .97 .97 .05 .04 .99 .01 .00

a Dependent Variable: X9

Faltan conceptos del captulo 4 y 4.

Pg. 173

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Ejemplo:
Familia

Tarjetas

1
2
3
4
5
6
7
8
Total

4
6
6
7
8
7
8
10

TamanoTam
ao
2
2
4
4
5
5
6
6

Ingreso
14
16
14
17
18
21
17
25

Las instrucciones de Minitab para correr el ejemplo son:


1
2

Cargar datos
en Minitab.

Stat > Regression > Regression.

En Response, seleccionar Tarjetas.

En Predictors, seleccionar TamanoTamao e Ingreso.

Click Graphs.

En Residuals for Plots, seleccionar Standardized.

7 En Residual Plots, seleccionar Individual Plots. Seleccionar Histogram


of residuals, Normal plot of residuals, y Residuals versus fits. Click OK.
8 Click Options. en Display, seleccionar PRESS y predicted R-square.
Click OK en cada uno de los cuadros de dilogo.
Los resultados se muestran a continuacin:

Pg. 174

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Normal Probability Plot of the Residuals


(response is Tarjetas)
99

95
90

Percent

80
70
60
50
40
30
20
10
5

-3

-2

-1
0
1
Standardized Residual

Regression Analysis: Tarjetas versus TamanoTamao, Ingreso


The regression equation is

Tarjetas = 0.48 + 0.632 TamanoTamao + 0.216 Ingreso


Predictor
Coef SE Coef
T
Constant
0.482
1.461 0.33
TamanoTamao
0.6322
0.2523
Ingreso
0.2158
0.1080 2.00
S = 0.780990

R-Sq = 86.1%

PRESS = 8.02177

P
0.755
2.51 0.054
0.102

R-Sq(adj) = 80.6%

R-Sq(pred) = 63.54%

Analysis of Variance
Source
Regression
Residual Error
Total
Source
DF
TamanoTamao
Ingreso
1

DF
2
5
7

SS
18.9503
3.0497
22.0000

MS
9.4751
0.6099

F
15.53

P
0.007

Seq SS
1 16.5143
2.4360

Interpretacin de resultados
Salida de sesin

El valor P en la tabla de ANOVA (0.000) muestra que el modelo


estmadoestimado por el procedimiento de regresin es significativo a un
alfa de 0.05, indicando que al menos un coeficiente es diferente de cero.

Pg. 175

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Los valores P de los coeficientes estimados para tamanotamao es de


0.054 indicando que es significativo a un nivel alfa de 0.054. Sugiriendo
que el modelo de regresin simple es adecuado.

El valor de R cuadrado indica que los predoctores explican el 87.4% de


la varianza en Tarjetas. La R cuadrada ajustada es 85.9%, que
representa la contribucin del nmero de predictores en el modelo.
Ambos valores indican que el ajuste es adecuado.

El valor pronosticdopronosticado R cuadrado es 78.96%, dado que es


parecido a R cuadrado y r cuadrado ajustado, el modelo no parece estar
sobreajustado y tiene una buena habilidad de prediccin

Las observaciones 4 y 22 se identifican como no usuales dado que el


valor estandarizado de los residuos es mayor a 2. Indicando puntos
aberantesaberrantes o outliers.

Salida grfica

El histograma de los residuos muestra un patrn consistente con la


distribucin normal. El histograma es ms efectivo para grupos de ms
de 50 observaciones. La grfica de probabilidad normal es ms fcil de
interpretar con pequeas muestras.

En la grfica normal tambin sobresalen los outliers 4 y 22.

La grfica de residuos contra valores de prediccin muestra que los


residuos son ms pequeos conforme conforme los valores ajustados se
incrementan, indicando que no tienen varianza constante.

Pg. 176

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Ejemplo con datos de Hatco


Hacer un estudio de correlacin entre las variables independientes:
1

Cargar datos en Minitab.

Stat > Basic statistics > Correlation

Variables X1 X7 X9 indicar Show P value

OK

Los resultados son los siguientes:


Correlations: X1, X2, X3, X4, X5, X6, X7, X9
X1
-0.349
0.000

X2

X3

0.476
0.000

-0.472
0.000

X4

0.050
0.618

0.272
0.006

-0.095
0.347

X5

0.612
0.000

0.513
0.000

0.064
0.524

0.299
0.003

X6

0.077
0.446

0.186
0.064

-0.015
0.880

0.788
0.000

0.241
0.016

X7

-0.483
0.000

0.470
0.000

-0.407
0.000

0.200
0.046

-0.055
0.586

0.177
0.078

X9

0.676
0.000

0.083
0.412

0.556
0.000

0.225
0.024

0.701
0.000

0.257
0.010

X2

X3

X4

X5

X6

X7

-0.192
0.055

Cell Contents: Pearson correlation


P-Value

La variable X5 (servicio en general) est ms correlacionado con la respuesta


X9 con r = 0.701. X1 tambin est correlacionada con la respuesta sin embargo
tiene correlacin con X5 por lo que el uso de ambas es cuestionable.
Las instrucciones de Minitab para correr el ejemplo son:
1

Cargar datos en Minitab.

Stat > Regression > Regression.

Pg. 177

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

En Response, seleccionar X9 (utilizacin del producto).

En Predictors, seleccionar X1 X7.

Click Graphs.

En Residuals for Plots, seleccionar Standardized.

7 En Residual Plots, seleccionar Individual Plots. Seleccionar Histogram


of residuals, Normal plot of residuals, y Residuals versus fits. Click OK.
Regression Analysis: X9 versus X1, X2, X3, X4, X5, X6, X7
The regression equation is
X9 = - 9.25 + 1.96 X1 + 1.28 X2 + 3.27 X3 - 0.004 X4 + 4.60 X5 + 1.23 X6
+ 0.426 X7
Predictor
Constant
X1
X2
X3
X4
X5
X6
X7

Coef
-9.255
1.956
1.280
3.2702
-0.0039
4.600
1.2305
0.4261

S = 4.45075

SE Coef
4.949
2.045
2.155
0.4059
0.6714
4.012
0.9537
0.3557

R-Sq = 77.2%

T
-1.87
0.96
0.59
8.06
-0.01
1.15
1.29
1.20

PRESS = 2144.13

P
0.065
0.341
0.554
0.000
0.995
0.255
0.200
0.234

R-Sq(adj) = 75.5%

R-Sq(pred) = 73.20%

Analysis of Variance
Source
Regression
Residual Error
Total
Source
X1
X2
X3
X4
X5
X6
X7

DF
1
1
1
1
1
1
1

DF
7
92
99

SS
6177.81
1822.44
8000.26

MS
882.54
19.81

F
44.55

P
0.000

Seq SS
3659.76
927.88
1424.10
80.48
18.20
38.97
28.43

Unusual Observations
Obs
7
11
14
22
55
100

X1
4.60
2.40
3.70
3.40
3.80
2.50

X9
46.000
32.000
38.000
35.000
39.000
33.000

Fit
58.734
41.365
47.833
34.870
33.433
43.721

SE Fit
1.379
1.014
1.098
2.711
2.712
1.049

Residual
-12.734
-9.365
-9.833
0.130
5.567
-10.721

St Resid
-3.01R
-2.16R
-2.28R
0.04 X
1.58 X
-2.48R

R denotes an observation with a large standardized residual.


X denotes an observation whose X value gives it large influence.

Pg. 178

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Normplot of Residuals for X9


Normal Probability Plot of the Residuals
(response is X9)
99.9
99

Percent

95
90
80
70
60
50
40
30
20
10
5
1
0.1

-3

-2

-1
0
1
Standardized Residual

Residuals Versus the Fitted Values


(response is X9)

Standardized Residual

-1

-2

-3
20

30

40
Fitted Value

50

Pg. 179

60

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

11. ANLISIS DE CORRESPONDENCIA

Pg. 180

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

11. Anlisis de correspondencia


A. Anlisis de correspondencia simple
El anlisis de correspondencia simple ayuda a explorar las relaciones en una
clasificacin de dos vas. Puede operar tambin en tres vas y cuatro vas dado
que pueden reducirse a tablas de dos vas. Este procedimiento descompone
una tabla de contingencia de manera similar a como el anlisis de
componentes principales descompone datos continuos multivariados. Se
realiza un anlisis eigen de los datos, y la variabilidad es dividida en
dimensiones relevantes y asociada con renglones y/o columnas.
El anlisis de correspondencia realiza un anlisis de componentes principales
ponderados en una tabla de contingencia. Si la tabla tiene r renglones y c
columnas, el nmero de dimensiones relevantes es el ms pequeo de (r-1) y
(c-1). Como con componentes principales, la variabilidad se divide, pero en
lugar de particionar la varianza total, el anlisis de correspondencia simple
particiona el estadstico c2 de Pearson (similar al de la prueba de asociacin).
Tradicionalmente, el anlisis de correspondencia usa c2/n, denominado inercia
total o inercia, en lugar de c2. Las inercias asociadas con todos los
componentes principales se suman hasta la inercia total. Idealmente, los
primeros uno, dos o tres componentes deben contener la inercia total.
Los subespacios dimensionales ms bajos se expanden por los componentes
principales. El primer eje principal se selecciona de manera que contenga la
mayor cantidad de inercia; el segundo eje principal se selecciona de manera
que contenga la mayor cantidad de la inercia remanente, etc. Los subespacios
son anidados, de modo que el mejor subes paci de una dimensin es un
subes paci del mejor subespacio de dos dimensiones, etc.
La coordenada principal para el perfil del rengln i y compnente (eje) k es la
coordenada de la proyeccin del perfil del rengln i en el componente k. Las
coordenadas del rengln estandarizado para el componente k son las

Pg. 181

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

coordenadas principales para el componente k dividido por la raz cuadrada de


la inercia k-sima.
De igual manera, la coordenada principal para el perfil de la columna j y el
componente k es la coordenada de la proyeccin del perfil de columna j en el
componente k. Las coordenadas estandarizadas de columna para el
componente k son las coordenadas de la columna principal para el componente
k dividido por la k-sima inercia.
La tabla de contingencia puede ser analizada en trminos de perfiles de
renglones y columnas. Un perfil de rengln es una lista proporciones de rengln
que se calculan de los nmeros de la tabla de contingencia. Especficamente,
el perfil del rengln i es (ni1/ni., ni2/ni.,.,nic/ni.). Un perfil de columna es una
lista de proporciones de columna, donde nij, es la frecuencia en el rengln i y la
columna j de la tabla y ni., es la suma de las frecuencias en el rengln i.
Especficamente, el perfil para la columna j es (n1j/n.j, n2j/n.,, , nrj/n.j), donde
n.j, es la suma de las frecuencias en la columna j.
Los dos anlisis son matemticamente equivalentes, el que se seleccione es
que sea ms natural para un anlisis dado. En general, es interesante estudiar
como difieren los perfiles de rengln o de columna uno de otro.
Los perfiles de rengln son vectores de longitud c y por tanto se encuentran en
un espacio dimensional de c-dimensiones (de manera similar, los perfiles de
columna se encuentran en un espacio r-dimensional).
Como esta dimensin es normalmente alta para permitir una interpretacin
fcil, se desea encontrar un espacio de menor dimensin (de preferencia no
ms de dos o tres) que se encuentre cercano a todos los perfiles de renglones
(o puntos de perfiles de columnas). Despus se pueden proyectar estos puntos
de los perfiles en el subespacio y estudiar las proyecciones. Si las
proyecciones son cercanas a los perfiles, no se pierde mucha informacin,
trabajando en dos o tres dimensiones permite estudiar los datos ms fcilmente
y, en particular, permite examinar las grficas. El proceso es similar a

Pg. 182

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

seleccionar un nmero pequeo de componentes principales para resumir la


variabilidad de los datos continuos.
Si d = el ms pequeo de (r-1) y (c-1), entonces los perfiles de rengln (o
perfiles equivalentes de columna) se encuentran en un subespacio ddimensional del espacio c-dimensional completo (o su equivalente rdimensional completo). De sta forma, hay a lo ms d componentes.

Ejemplo:
Del texto de M. J. Greenacre, Correspondence Analysis in Practice, by p.75. 796
investigadores fueron clasificados en diez disciplinas acadmicas y cinco
categoras de fondos, A es la categora ms alta, D es la categora ms baja y
E es categora sin fondeo. Las disciplinas son renglones y las categoras son
columnas. Se desea saber como las disciplinas se comparan unas con otras
respecto a las categoras de fondeo, se forma que se realiza un anlisis de
correspondencia con una orientacin a renglones.
Como informacin complementaria se incluye: un rengln para investigadores
de museos no incluida en el estudio y un rengln para matemticas y
estadstica.
Los datos colectados son los siguientes:
Archivo
Tabl.Mtw
CT1
3
1
6
3
10
3
1
0
2
2

CT2
19
2
25
15
22
11
6
12
5
11

CT3
39
13
49
41
47
25
14
34
11
37

CT4
14
1
21
35
9
15
5
17
4
8

CT5
10
12
29
26
26
34
11
23
7
20

RowNames
Geology
Biochemistry
Chemistry
Zoology
Physics
Engineering
Microbiology
Botany
Statistics
Mathematics

ColNames
A
B
C
D
E

Las instrucciones de Minitab son las siguientes:


1

Open worksheet EXH_TABL.MTW.

Pg. 183

RowSupp1
4
12
11
19
7

RowSupp2
4
16
48
12
27

RSNames
Museums
MathSci

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Stat > Multivariate > Simple Correspondence Analysis.

3 Seleccionar en Columns of a contingency table, CT1-CT5. En Row


names, seleccionar RowNames. En Column names, seleccionar ColNames.
4

Click Results y seleccionar Row profiles. Click OK.

5 Click Supp Data. En Supplementary Rows, indicar RowSupp1 RowSupp2.


En Row names, indicar RSNames. Click OK.
6 Click Graphs. Seleccionar Show supplementary points in all plots.
Seleccionar Symmetric plot showing rows only y Asymmetric row plot
showing rows and columns.
7

Click OK in each dialog box.

Los resultados se muestran a continuacin:


Simple Correspondence Analysis: CT1, CT2, CT3, CT4, CT5

Perfiles por rengln: Se muestra la proporcin de cada una de las categoras


de rengln por columna. As, de la clase de Geologa, 3.5% est en columna A,
22.4% en columna B, etc. La masa de la fila de Geologa, 0.107, es la
proporcin de todas las materias de Geologa en el conjunto de datos.
Row Profiles
Geology
Biochemistry
Chemistry
Zoology
Physics
Engineering
Microbiology
Botany
Statistics
Mathematics
Mass

A
0.035
0.034
0.046
0.025
0.088
0.034
0.027
0.000
0.069
0.026
0.039

B
0.224
0.069
0.192
0.125
0.193
0.125
0.162
0.140
0.172
0.141
0.161

C
0.459
0.448
0.377
0.342
0.412
0.284
0.378
0.395
0.379
0.474
0.389

D
0.165
0.034
0.162
0.292
0.079
0.170
0.135
0.198
0.138
0.103
0.162

E
0.118
0.414
0.223
0.217
0.228
0.386
0.297
0.267
0.241
0.256
0.249

Mass
0.107
0.036
0.163
0.151
0.143
0.111
0.046
0.108
0.036
0.098

Anlisis de la tabla de contingencia: se muestra la descomposicin de la


inercia total. Se muestra el resumen de la descomposicin de una tabla de
contingencia de 10 x 5 en 4 componentes. La columna denominada inercia
contiene el valor Chi cuadrada / n para cada componente. De la inercia total,
65.972 / 796 = 0.0829, 47.2% est contenida en el primer componente, 36.66%
por el segundo componente, etc. Aqu, 65.972 es el estadstico Chi cuadrada
que se debera obtener si se realizara la prueba Chi cuadrada de asociacin
con esta tabla de contingencia.

Pg. 184

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Analysis of Contingency Table


Axis
1
2
3
4
Total

Inertia
0.0391
0.0304
0.0109
0.0025
0.0829

Proportion
0.4720
0.3666
0.1311
0.0303

Cumulative
0.4720
0.8385
0.9697
1.0000

Histogram
******************************
***********************
********
*

Contribuciones de rengln: como no se especific el nmero de


componentes, se calculan dos.

La columna Quality, es la proporcin de la inercia de rengln


representada por los dos componentes. Los renglones Zoology y
Geology, con Quality de 0.928 y 0.916, respectivamente, estn mejor
representados entre los renglones por los dos componentes, mientras
que Math tiene la representacin ms dbil con 0.319.

La columna Mass tiene el mimo significado que en la tabla de perfiles de


Rengln la proporcin de la clase en el conjunto completo de datos.

La columna denominada Inert, es la proporcin en la que contribuye


cada rengln en la inercia total. As, Geology contribuye con 13.7% del
estadstico Chi cuadrado total.

Row Contributions
ID
1
2
3
4
5
6
7
8
9
10

Name
Geology
Biochemistry
Chemistry
Zoology
Physics
Engineering
Microbiology
Botany
Statistics
Mathematics

Qual
0.916
0.881
0.644
0.929
0.886
0.870
0.680
0.654
0.561
0.319

Mass
0.107
0.036
0.163
0.151
0.143
0.111
0.046
0.108
0.036
0.098

ID
1
2
3
4
5
6
7
8
9

Name
Geology
Biochemistry
Chemistry
Zoology
Physics
Engineering
Microbiology
Botany
Statistics

Component
Coord
Corr
-0.303 0.861
0.455 0.762
-0.073 0.510
-0.102 0.083
-0.027 0.006
0.292 0.749
0.110 0.671
0.039 0.029
-0.014 0.007

Inert
0.137
0.119
0.021
0.230
0.196
0.152
0.010
0.067
0.012
0.056

Component
Coord
Corr
-0.076 0.055
-0.180 0.119
-0.038 0.134
0.327 0.846
-0.316 0.880
0.117 0.121
-0.013 0.009
0.179 0.625
-0.125 0.554
-0.107 0.240

2
Contr
0.322
0.248
0.029
0.052
0.003
0.310
0.018
0.005
0.000

Pg. 185

1
Contr
0.016
0.030
0.006
0.413
0.365
0.039
0.000
0.088
0.014
0.029

MTODOS ESTADSTICOS MULTIVARIADOS


10

Mathematics

0.061

0.079

P. REYES / MARZO 2007

0.012

Renglones suplementarios: esta tabla se puede interpretar de manera similar


a la tabla de contribuciones por rengln.
Supplementary Rows
ID
1
2

Name
Museums
MathSci

Qual
0.556
0.559

Mass
0.067
0.134

Inert
0.353
0.041

Component
Coord
Corr
0.314 0.225
-0.112 0.493

1
Contr
0.168
0.043

Component
Coord
Corr
-0.381 0.331
0.041 0.066

2
Contr
0.318
0.007

Contribuciones de columna: aqu se muestra que dos componentes explican


la mayora de la variabilidad en las categoras de fondeo B, D, y E. Las
categoras de fondeo A, B, C y D contribuyen ms al componente 1, mientras
que la categora sin fondos E, contribuye ms al componente 2.
Column Contributions
ID
1
2
3
4
5

Name
A
B
C
D
E

Qual
0.587
0.816
0.465
0.968
0.990

Mass
0.039
0.161
0.389
0.162
0.249

Inert
0.187
0.110
0.094
0.347
0.262

Component
Coord
Corr
-0.478 0.574
-0.127 0.286
-0.083 0.341
0.390 0.859
0.032 0.012

1
Contr
0.228
0.067
0.068
0.632
0.006

Component
Coord
Corr
-0.072 0.013
-0.173 0.531
-0.050 0.124
-0.139 0.109
0.292 0.978

2
Contr
0.007
0.159
0.032
0.103
0.699

Grfica de Renglones: muestra las coordenadas principales de rengln. El


componente 1, que mejor explica Zoologa y Fsica, muestra dos clases
removidas desde el origen, pero con signo contrario. El componente 1 podr
ser pensado como contraste de las ciencias biolgicas y Botnica con la Fsica.
El componente 2 podra pensarse como contraste de Bioqumica e Ingeniera
con Geologa.

Pg. 186

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Row Plot
0.5

Biochemistry

0.4
Engineering

Component 2

0.3
0.2
0.1
Physics

0.0

Microbiology
Mathematics
MathSci
Statistics

Botany

Chemistry

Zoology

-0.1
-0.2
Geology

-0.3

Museums

-0.4
-0.4 -0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4 0.5
Component 1

Grfica asimtrica de renglones:

los renglones son escalados en

coordenadas principales y las columnas son escaladas en coordenadas


estndar. Entre las clases de fondeo, el Componente 1 contrasta los niveles de
fondeo, mientras que el componente 2 contrasta de los que se fondean (A a D)
contra los que no se fondean . Entre las disciplina, la fsica tiende a tener el
mayor nivel de fondeo y la Zoologa tiene el fondeo ms bajo. La Bioqumica
tiende a tener el punto medio del nivel de fondeo, pero es el ms alto entre los
investigadores sin fondeo. Los museos tienden a estar fondeados, pero en un
menor nivel que los investigadores acadmicos.

Asymmetric Row Plot


2

Component 2

Biochemistry
Engineering
Microbiology
Physics
MathSciBotany
Mathematics
Chemistry StatisticsZoology
C
Geology Museums

-1

-2

-3
-3

-2

-1
0
Component 1

Pg. 187

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

B. Anlisis de correspondencia mltiple


El anlisis de correspondencia mltiple extiende al anlisis de correspondencia
simple al caso de tres o ms variables categricas. El anlisis de
correspondencia mltiple realiza un anlisis de correspondencia simple en una
matriz de variables indicadoras donde cada columna de la matriz corresponde
a un nivel de variable categrica. En vez de tener una tabla de dos vas, la
tabla multi va se resume a una dimensin. Al moverse del procedimiento
simple al mltiple. Se gana informacin en un nmero potencial mayor de
variables, pero se puede perder informacin en como los renglones y las
columnas se relacionan unas con otras.

El anlisis de correspondencia mltiple descompone una matriz de variables


indicadoras formadas de todas las variables consideradas. No se parece al de
correspondencia simple, donde las columnas y renglones son de una variable,
aqu todas las clases de variables son contribuyentes de columnas.
El anlisis de correspondencia mltiple realiza un anlisis de componentes
principales ponderado de la matriz de variables indicadoras. Si el nmero de
categoras en las j columnas categricas son c1, c2, , cj, el nmero de
dimensiones relevantes es la suma de (ci-1), con i = 1, 2, ., j. Como en el
anlisis de correspondencia simple, el anlisis de correspondencia mltiple
particiona el estadstico Chi cuadrada de Pearson. A diferencia del anlisis de
correspondencia simple, no se pueden analizar ya sean los perfiles de rengln
o de columna hay solo perfiles de columnas --. Dado que no hay renglones,
este anlisis ofrece solo una grfica una grfica de coordenadas de
columnas.

Ejemplo:
Los accidentes de automvil se clasifican de acuerdo al tipo de accidente en:
colisin o volcadura; severidad del accidente (no severo y severo); si o no el
chofer fue expulsado; y el tamao del coche (pequeo o estndar). Se utiliza el

Pg. 188

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

anlisis de correspondencia mltiple para examinar como las categoras en


esta tabla de cuatro vas se relacionan unas con otras.
1

Open worksheet EXH_TABL.MTW.

Stat > Multivariate > Multiple Correspondence Analysis.

3 Seleccionar Categorical variables, e indicar CarWt DrEject AccType


AccSever.
4

En Category names, seleccionar AccNames.

Click Graphs. seleccionar Display column plot.

7 Click OK en cada uno de los cuadros de dilogo.


Los resultados se muestran a continuacin:
Multiple Correspondence Analysis: CarWt, DrEject, AccType, AccSever

Anlisis de la matriz indicadora: esta tabla da un resumen de la


descomposicin de las variables. La columna denominada Inercia es el valor de
la Chi cuadrada / n contenida por cada componente. De la inercia total de 1,
40.3%, 25.2%, 19.0% y, 15.5% son contenidas en los componentes primero al
cuarto respectivamente.
Analysis of Indicator Matrix
Axis
1
2
3
4
Total

Inertia
0.4032
0.2520
0.1899
0.1549
1.0000

Proportion
0.4032
0.2520
0.1899
0.1549

Cumulative
0.4032
0.6552
0.8451
1.0000

Histogram
******************************
******************
**************
***********

Contribuciones de columna: como no se especific el nmero de


componentes, se calculan dos.

La columna Quality, es la proporcin de la inercia de columna


representada por los dos componentes. Las categoras tamao de coche
(pequeo, estndar) con Qual = 0.965, mientras que las categoras de
expulsin son al menos representadas por Qual = 0.474. Cuando hay
solo dos categoras para cada clase, cada una es representada de

Pg. 189

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

manera similar por cualquier componente, pero esto puede no ser cierto
para ms de dos categoras.

La columna Mass tiene el mismo significado que en la tabla de perfiles


de Rengln la proporcin de la clase en el conjunto completo de datos.
En este ejemplo CarWt, DrEject, AccType, y AccServer se combinan
para una proporcin de 0.25.

La columna denominada Inert, es la proporcin en la que contribuye


cada columna en la inercia total. Las categoras coches pequeos,
expulsados, y volcaduras tienen la mayor inercia, sumando 61.4%, que
indica que estas categoras estn ms disociadas de las dems.

Column Contributions
ID
1
2
3
4
5
6
7
8

Name
Small
Standard
NoEject
Eject
Collis
Rollover
NoSevere
Severe

Qual
0.965
0.965
0.474
0.474
0.613
0.613
0.568
0.568

Mass
0.042
0.208
0.213
0.037
0.193
0.057
0.135
0.115

Inert
0.208
0.042
0.037
0.213
0.057
0.193
0.115
0.135

Component
Coord
Corr
0.381 0.030
-0.078 0.030
-0.284 0.472
1.659 0.472
-0.426 0.610
1.429 0.610
-0.652 0.502
0.769 0.502

1
Contr
0.015
0.003
0.043
0.250
0.087
0.291
0.143
0.168

Component
Coord
Corr
-2.139 0.936
0.437 0.936
-0.020 0.002
0.115 0.002
0.034 0.004
-0.113 0.004
-0.237 0.066
0.280 0.066

2
Contr
0.771
0.158
0.000
0.002
0.001
0.003
0.030
0.036

La informacin para los compoinentes es como sigue:

La columna denominada Coord da las coordenadas de la columna. Ejec.


Y Rollover tienen las coordenadas mayores para el componente 1 y
Small tiene la coordenada ms grande en valor absoluto para el
componente 2. El signo y su tamao relativo son tiles para interpretar
los componentes.

La columna Corr representa la contribucin del componente respectivo a


la inercia del rengln. Aqu, el Componente 1 contiene de 47 a 61% de la
inercia de las categoras de expulsin, tipo de colisin, y severidad del
accidente, pero explica solo el 30% de la inercia del tamao de coche.

Contr, la contribucin del rengln a la inercia del eje, muestra Ejec. Y


Rollover contribuyendo a la mayora del, con componente 1 (Contr =
0.250 y 0.291, respectivamente). El componente 2, por otra parte
Pg. 190

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

contiene el 93.6% de la inercia de la categora del tamao del coche con


Small contribuyendo con el 77.1% de la inercia del eje.
Grfica de columna: Como la contribucin para el Componente 1 indica, Ejec.
Y Rollover estn ms distantes del origen. Este componente constrasta Ejec. Y
Rollover y de alguna manera Severe y NoSevere. El Componente 2 separa
Small de las otras categoras. Sin embargo dos componentes pueden no ser
adecuados para explicar la variabilidad de esos datos.

Column Plot
2

Component 2

1
Standard

Severe

NoEject
Collis
NoSevere

Eject
Rollover

-1

-2

Small

-2

-1

0
Component 1

Pg. 191

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

12. ESCALADO MULTIDIMENSIONAL

Pg. 192

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

12. Escalado Multidimensional


El escalado multidimensional intenta encontrar la estructura de un conjunto de
medidas de distancias entre objetos o casos. Esto se logra al asignar
observaciones a localidades especficas en un espacio conceptual (de dos o
tres dimensiones) de tal manera que las distancias entre puntos en el espacio
se ajusten a las diferencias tan cerca como sea posible. En muchos casos, las
dimensiones de este espacio conceptual puede ser interpretado y usado
posteriormente para interpretar los datos. Si se han medido las variables
objetivamente, se puede utilizar el escalado multidimensional como una tcnica
de reduccin de datos. Se puede aplicar tambin a calificaciones subjetivas de
diferencias entre objetos o conceptos. Adicionalmente, el procedimiento puede
manejar

datos

no

similares

de

fuentes

mltiples,

como

diferentes

encuestadores o encuestados.
Por ejemplo, Cmo percibe la gente las relaciones entre diferentes coches? Si
se tienen datos de encuestas indicando calificaciones de similaridad entre
diferentes fabricantes y modelos de coches, el escalado multidimensional
puede

ser

utilizado

para

identificar

dimensiones

que

describan

las

percepciones de los clientes.


Se podra encontrar por ejemplo, que el precio y tamao de un vehculo define
un espacio de dos dimensiones, que contiene las similaridades reportadas por
los encuestados.
Construyendo un mapa de la matriz de distancias
El escalado multidimensional es una tcnica que est diseada para construir
un mapa mostrando las relaciones entre un nmero de objetos, dada slo una
tabla de distancias entre ellos. El mapa puede estar en una dimensin (si
caen en una lnea), en dos dimensiones (si los objetos se encuentran en un
plano), en tres dimensiones ( si los objetos pueden ser representados por
puntos en el espacio), o en un nmero mayor de dimensiones.
Por ejemplo, las distancias entre cuatro objetos A, B, C y D se tiene:

Pg. 193

MTODOS ESTADSTICOS MULTIVARIADOS

A
B
C
D

A
0
6
6
2.5

B
6
0
9.5
7.8

C
6
9.5
0
3.5

P. REYES / MARZO 2007

D
2.5
7.8
3.5
0

B
A

La distancia al mismo objeto es cero. El objeto puede ser reconstruido con


base en las distancias de la matriz.
Procedimiento para escalado multidimensional
El escalado multidimensional clsico inicia con una matriz de distancias entre n
objetos que tienen ij , la distancia del objeto i al objeto j, en el rengln i-simo
y la columna j-sima. El nmero de dimensiones t, para el mapeo de objetos es
fijo para una solucin en particular. Los pasos que se siguen en los programas
computacionales son los siguientes:
1. Una configuracin inicial es preparada para los n objetos en t dimensiones,
i.e., se asumen las coordenadas (x1, x2, , xt) para cada objeto en un espacio
dimensional t.
2. Se calculan las distancias euclidianas entre los individuos para la
configuracin. Sea dij la distancia entre individuos i y j.
3. Se hace una regresin de dij sobre ij, la ltima es la distancia entre
individuos i y j con base en los datos de entrada.
La regresin puede ser lineal, polinmica o monotnica. Por ejemplo una
regresin lineal asume que:
d ij a b ij

Pg. 194

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

La regresin monotnica asume que si varia delta puede incrementar de la dij o


mantenerse constante, sin establecerse una relacin entre las variables.
Las distancias obtenidas

dij a b ij

de la regresin

disparidades, que son las distancias ij

se denominan

escaladas para ajustar a la

configuracin de dij tan cerca como sea posible:


4. La bondad de ajuste entre las distancias de la configuracin y las
disparidades se mide con un estadstico adecuado, que puede ser el STRESS,
que es:

STRESS 1

(d

ij

dij ) 2 / dij

2 1/ 2

El trmino STRESS indica la amplitud a la cual la configuracin espacial de


puntos tiene que ser estresada para obtener los datos de distancias ij .
5. Las coordenadas (x1, x2, , xt) de cada objeto se cambia ligeramente para
reducir el estrs.
Los pasos 2 a 5 se repiten hasta que parece que el estrs no se puede reducir
ms. Como resultados del anlisis se tienen las coordenadas de los n
individuos en las t dimensiones. Estas coordenadas pueden utilizarse para
dibujar un mapa que muestre como se relacionan los individuos. Es deseable
encontrar una buena solucin en tres o menos dimensiones, para poder hacer
una representacin grfica adecuada.

Ejemplo:
Con base en un mapa de carreteras de una isla de Nueva Zelanda de 13
ciudades. Como las distancias no son proporcionales a las distancias
geogrficas no es posible recuperar exactamente el mapa de las carreteras.
Los datos son los siguientes:

Pg. 195

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Escalado multidimensional
Franza
Alejandra Balclutha Blenheim Christchurch Dunedin Josef

Te
Greymouth Invercargill Milford Nelson Queenstown anau

Timaru

Alejandra

100

485

284

126

233

347

138

248

563

56

173

197

Balclutha

100

478

276

50

493

402

89

213

537

156

138

177

Blenheim

485

478

201

427

327

214

567

691

73

494

615

300

Christchurch

284

276

201

226

247

158

365

489

267

305

414

99

Dunedin

126

50

427

226

354

352

139

263

493

192

188

127

Franza_Josef

233

493

327

247

354

114

380

416

300

228

366

313

Greymouth

347

402

214

158

352

114

493

555

187

341

480

225

Invercargill

138

89

567

365

139

380

493

174

632

118

99

266

Milford

248

213

691

489

263

416

555

174

756

178

75

377

Nelson

563

537

73

267

493

300

187

632

756

572

681

366

Queenstown

56

156

494

305

192

228

341

118

178

572

117

230

Te_anau

173

138

615

414

188

366

480

99

75

681

117

315

Timaru

197

177

300

99

127

313

225

266

377

366

230

315

Corrida con SPSS


1. Analyze > Scale > Multidimensional scaling
2. Pasar todas las variables (dimensions min 2 max 2)
3. Options: Group plots; Individual subject plots; Data Matriz; Model summary
4. OK
Los resultados son los siguientes:

Alscal
Alscal Procedure Options
Data OptionsNumber of Rows (Observations/Matrix).
Number of Columns (Variables) . . .
Number of Matrices
. . . . . .
Measurement Level . . . . . . .
Data Matrix Shape . . . . . . .
Type . . . . . . . . . . .
Approach to Ties . . . . . . .
Conditionality . . . . . . . .
Data Cutoff at . . . . . . . .
Model OptionsModel . . . . . .
Maximum Dimensionality
Minimum Dimensionality
Negative Weights . .

.
.
.
.

.
.
.
.

.
.
.
.

13
13
1
Ordinal
Symmetric
Dissimilarity
Leave Tied
Matrix
.000000

.
.
.
.

.
.
.
.

Euclid
2
2
Not Permitted

Output OptionsJob Option Header . . . . . .


Data Matrices . . . . . . .
Configurations and Transformations
Output Dataset . . . . . . .

.
.
.
.

Printed
Printed
Plotted
Not Created

Pg. 196

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Initial Stimulus Coordinates

Computed

Algorithmic OptionsMaximum Iterations


. .
Convergence Criterion
.
Minimum S-stress . . .
Missing Data Estimated by
Tiestore . . . . . .

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

30
.00100
.00500
Ulbounds
78

1
2
3
4
5
6
7
8
9
10
11
12
13

6
7
8
9
10
11
12
13

11
12
13

.
.
.
.
.

Raw (unscaled) Data for Subject 1


1
2
3
4
.000
100.000
.000
485.000
478.000
.000
284.000
276.000
201.000
.000
126.000
50.000
427.000
226.000
233.000
493.000
327.000
247.000
347.000
402.000
214.000
158.000
138.000
89.000
567.000
365.000
248.000
213.000
691.000
489.000
563.000
537.000
73.000
267.000
56.000
156.000
494.000
305.000
173.000
138.000
615.000
414.000
197.000
177.000
300.000
99.000

.000
354.000
352.000
139.000
263.000
493.000
192.000
188.000
127.000

10

.000
114.000
380.000
416.000
300.000
228.000
366.000
313.000

.000
493.000
555.000
187.000
341.000
480.000
225.000

.000
174.000
632.000
118.000
99.000
266.000

.000
756.000
178.000
75.000
377.000

.000
572.000
681.000
366.000

11

12

13

.000
117.000
230.000

.000
315.000

.000

Iteration history for the 2 dimensional solution (in squared


distances)
Young's S-stress formula 1 is used.
Iteration
S-stress
Improvement
1
2
3
4

.08605
.06010
.02596
.05795
.00214
.05730
.00066
Iterations stopped because
S-stress improvement is less than
.001000
Stress and squared correlation (RSQ) in distances
RSQ values are the proportion of variance of the scaled data
(disparities)
in the partition (row, matrix, or entire data) which
is accounted for by their corresponding distances.
Stress values are Kruskal's stress formula 1.
For matrix

Pg. 197

MTODOS ESTADSTICOS MULTIVARIADOS


Stress

.05316

RSQ =

P. REYES / MARZO 2007


.98624

Configuration derived in 2 dimensions


Stimulus Coordinates
Dimension
Stimulus
Number
1
2
3
4
5
6
7
8
9
10
11
12
13

Stimulus
Name
ALEJANDR
BALCLUTH
BLENHEIM
CHRISTCH
DUNEDIN
FRANZA
GREYMO
INVERCAR
MILFORD
NELSON
QUEENST
TE_ANAU
TIMARU

.7202
.8481
-1.9897
-.9345
.5307
-.6973
-1.3326
1.2799
1.8132
-2.3233
.8088
1.4641
-.1875

-.3136
.7719
.4399
.3452
.5790
-1.2456
-.5697
.3898
-.3440
.0714
-.4895
-.2811
.6461

Optimally scaled data (disparities) for subject


1
2
3
4
1
.000
2
.901
.000
3
2.793
2.793
.000
4
1.807
1.807
1.197
.000
5
.901
.297
2.597
1.533
6
1.533
2.793
2.112
1.533
7
2.112
2.535
1.347
.996
8
.982
.577
3.226
2.215
9
1.533
1.347
3.883
2.793
10
3.157
3.157
.432
1.533
11
.297
.996
2.949
1.941
12
.996
.982
3.528
2.535
13
1.197
1.029
1.941
.753
6
7
8
9
10
11
12
13

6
.000
.901
2.535
2.597
1.941
1.533
2.271
1.941

11
12
13

11
.000
.901
1.533

.000
2.793
3.157
1.180
2.112
2.793
1.533

.000
.996
3.617
.901
.753
1.533

12

13

.000
1.941

Pg. 198

.000

.000
4.157
1.029
.432
2.271

1
5

.000
2.199
2.189
.982
1.533
2.793
1.190
1.190
.901
10

.000
3.226
3.804
2.271

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Derived Stimulus Configuration


Euclidean distance model
1.0
timaru
blenheim

.5

balcluth
dunedin
invercar

christch

nelson
0.0

-.5

Dimension 2

te_anau
alejandr
milford
queenst

greymo

-1.0

franza

-1.5
-3

-2

-1

Dimension 1

Scatterplot of Linear Fit


Euclidean distance model
5

Distances

0
0

Disparities

Scatterplot of Nonlinear Fit


Euclidean distance model
5

Distances

0
0

100

200

300

400

500

600

700

Observations

Pg. 199

800

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Transformation Scatterplot
Euclidean distance model
5

Disparities

0
0

100

200

300

400

500

600

700

800

Observations

Ahora con Minitab:


1. Graph > Scatterplot > Simple
2. Y Variables Z2; X Variables Z1
3. Labels > Data labels > Use labels from column Ciudad
4. OK
Scatterplot of Z2 vs Z1
1.0
Balclutha
Timaru

0.5

Blenheim

Dunedin
Invercargill

Christchurch

Nelson

0.0
Te anau

Z2

Alejandra
Greymouth

-0.5

Milford

Queenstown

-1.0
Franza J osef

-1.5
-2

-1

0
Z1

Pg. 200

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Ejemplo HATCO:
Paso 1: Objetivos del mapeo perceptual
El propsito del estudio es explorar la imagen y competitividad de Hatco,
atendiendo las percepciones del mercado sobre Hatco y nueve competidores,
as como investigar preferencias, entre clientes potenciales.
Paso 2. Diseo del estudio de mapeo perceptual
Se hacen entrevistas con 18 gerentes medios de diferentes empresas
representantes de la base de clientes potenciales existente en el mercado. Se
colectaron tres tipos de datos: juicios de similaridad; calficacin de atributos de
las organizaciones; y preferencias de cada organizacin en diferentes
situaciones de compra.
Datos de similaridad
Los juicios de similaridad se realizaron con enfoque de comparacin de objetos
pareados. Los 45 pares de organizaciones [(10 x 9)/2] se presentaron a los
encuestados, quienes indicaron que tan similares eran en una escala de nueve
puntos, con 1 no similar y 9 muy similar, los valores deben ser
transformados ya que valores altos de similaridad indican mayor similitud, lo
opuesto a una distancia de similaridad.
Calificacin de atributos
Se obtuvieron calificaciones para los ocho atributos de cada organizacin,
incluyendo: calidad, orientacin de la direccin, calidad del servicio, rapidez de
entrega, nivel de precios, imagen de la fuerza de ventas, flexibilidad de precios,
e imagen de manufactura. En este caso, se pidi a cada encuestado
seleccionar la organizacin que mejor caracterizaba el atributo, podran ser
varias organizaciones.
Evaluacin de preferencias

Pg. 201

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Se evaluaron las preferencias de los encuestados ante tres diferentes


situaciones de compra: recompra repetitiva, recompra modificada, y nueva
situacin de compra. La calificacin fue de 1 para la organizacin ms
preferida, 2 para la siguiente en importancia, etc.
Paso 3. Supuestos en el mapeo perceptual
Los

supuestos

correspondencia)

del

MSD

tratan

(escalamiento
principalmente

mltiple)
con

la

CA (anlisis de
comparabilidad

representatividad de los objetos evaluados y de los encuestados. Por lo que


deben ser seleccionados cuidadosamente.
Pasos 4 y 5. Escalado multidimensional
Se especifica un anlisis composicional (MDS) y uno composicionla (CA) para
la construccin de los mapas preceptales, se inicia con el MDS.
Paso 4: Obtener resultados del MDS y evaluar el ajuste del modelo
Los 45 juicios de similaridad de los 18 encuestados se procesaron como
matrices separadas, y una matriz de promedios de valores se calcul para
ilustrar el patrn de similaridades. Los datos se muestran a continuacin:
Los datos son los siguientes:
EJEMPLO DE MDS Y CA
EMPRESA HATCO A
HATCO
0
6.61
A
6.61
0
B
6.61
6.61
C
2.33
2.61
D
2.56
2.56
E
4.06
2.39
F
2.5
3.5
G
2.33
2.39
H
2.44
4.94
I
6.17
6.94

B
6.61
6.61
0
3.44
4.11
2.17
4
3.72
6.61
2.83

C
2.33
2.61
3.44
0
6.94
4.06
2.22
2.67
2.5
2.5

D
2.56
2.56
4.11
6.94
0
2.39
2.17
2.61
7.06
2.5

E
4.06
2.39
2.17
4.06
2.39
0
4.06
3.67
5.61
3.5

F
2.5
3.5
4
2.22
2.17
4.06
0
2.28
2.83
6.94

Corrida con SPSS


1. Analyze > Scale > Multidimensional scaling
2. Pasar todas las variables

Pg. 202

G
2.33
2.39
3.72
2.67
2.61
3.67
2.28
0
2.56
2.44

H
2.44
4.94
6.61
2.5
7.06
5.61
2.83
2.56
0
2.39

I
6.17
6.94
2.83
2.5
2.5
3.5
6.94
2.44
2.39
0

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

3 Seleccionar Data are distances; Shape Square Symmetric

Continue

4. Model: Seleccionar Level of measurements Ordinal Dimensions Min 2 Max 2


4. Options: Group plots; Individual subject plots; Data Matrix; Model summary
4. OK
Los resultados son los siguientes:

Alscal

Alscal Procedure Options

Data OptionsNumber of Rows (Observations/Matrix).


Number of Columns (Variables) . . .
Number of Matrices
. . . . . .
Measurement Level . . . . . . .
Data Matrix Shape . . . . . . .
Type . . . . . . . . . . .
Approach to Ties . . . . . . .
Conditionality . . . . . . . .
Data Cutoff at . . . . . . . .

10
10
1
Ordinal
Symmetric
Dissimilarity
Leave Tied
Matrix
.000000

Model OptionsModel . . . . . .
Maximum Dimensionality
Minimum Dimensionality
Negative Weights . .

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

Euclid
2
2
Not Permitted

Job Option Header . . . . . .


Data Matrices . . . . . . .
Configurations and Transformations
Output Dataset . . . . . . .
Initial Stimulus Coordinates . .

.
.
.
.
.

Printed
Printed
Plotted
Not Created
Computed

.
.
.
.

30
.00100
.00500
Ulbounds

Output Options-

Algorithmic OptionsMaximum Iterations


. .
Convergence Criterion
.
Minimum S-stress . . .
Missing Data Estimated by

.
.
.
.

.
.
.
.

.
.
.
.

Pg. 203

MTODOS ESTADSTICOS MULTIVARIADOS


Tiestore .

P. REYES / MARZO 2007


.

45

Raw (unscaled) Data for Subject 1


1
1
2
3
4
5
6
7
8
9
10

.000
6.610
6.610
2.330
2.560
4.060
2.500
2.330
2.440
6.170
6

6
7
8
9
10

.000
4.060
3.670
5.610
3.500

2
.000
6.610
2.610
2.560
2.390
3.500
2.390
4.940
6.940
7
.000
2.280
2.830
6.940

.000
3.440
4.110
2.170
4.000
3.720
6.610
2.830

.000
6.940
4.060
2.220
2.670
2.500
2.500

.000
2.560
2.440

.000
2.390

.000
2.390
2.170
2.610
7.060
2.500
10

.000

>Warning # 14654
>The total number of parameters being estimated (the number of
stimulus
>coordinates plus the number of weights, if any) is large relative to
the
>number of data values in your data matrix. The results may not be
reliable
>since there may not be enough data to precisely estimate the values
of the
>parameters. You should reduce the number of parameters (e.g.
request
>fewer dimensions) or increase the number of observations.
>Number of parameters is 20.

Number of data values is 45

Iteration history for the 2 dimensional solution (in squared


distances)
Young's S-stress formula 1 is used.
Iteration
1
2
3
4
5
6

S-stress
.34762
.31655
.30447
.29330
.28544
.27995

Pg. 204

Improvement
.03107
.01208
.01116
.00787
.00549

MTODOS ESTADSTICOS MULTIVARIADOS


7
8

P. REYES / MARZO 2007

.27809
.27736

.00186
.00072

Iterations stopped because


S-stress improvement is less than

.001000

Stress and squared correlation (RSQ) in distances


RSQ values are the proportion of variance of the scaled data
(disparities)
in the partition (row, matrix, or entire data) which
is accounted for by their corresponding distances.
Stress values are Kruskal's stress formula 1.

Stress

For matrix
.21711
RSQ =

.65041

Configuration derived in 2 dimensions

Stimulus Coordinates
Dimension
Stimulus
Number
1
2
3
4
5
6
7
8
9
10

Stimulus
Name
HATCO
A
B
C
D
E
F
G
H
I

1.4421
-.7839
-.9662
.9408
-.7348
-1.6467
.8884
.0380
1.3800
-.5578

.4676
1.3555
-1.5220
-.5781
1.1899
-.0867
.9950
.1487
-.7134
-1.2565

Optimally scaled data (disparities) for subject


1
1
2
3
4
5
6
7
8

.000
2.793
2.793
1.445
1.616
2.793
1.572
1.445

2
.000
2.793
1.621
1.616
1.572
1.796
1.572

Pg. 205

.000
1.796
2.793
1.445
2.793
1.949

.000
2.793
2.793
1.445
1.621

1
5

.000
1.572
1.445
1.621

MTODOS ESTADSTICOS MULTIVARIADOS


9
10

1.572
2.793

2.793
2.793

6
6
7
8
9
10

P. REYES / MARZO 2007


2.793
1.621

.000
2.793
1.796
2.793
1.796

.000
1.445
1.621
2.793

.000
1.616
1.572

Derived Stimulus Configuration


Euclidean distance model
a
d

1.5

1.0

hatco

.5

g
e

0.0

Dimension 2

-.5
-1.0

i
b

-1.5
-2.0
-2.0

-1.5

-1.0

-.5

0.0

.5

1.0

1.5

Dimension 1

Scatterplot of Linear Fit


Euclidean distance model
3.5
3.0
2.5
2.0
1.5

Distances

1.0
.5
0.0
1.4

1.6

1.8

2.0

2.2

2.4

2.6

2.8

Disparities

Pg. 206

3.0

1.572
1.572
9

.000
1.572

2.845
1.572
10

.000

MTODOS ESTADSTICOS MULTIVARIADOS

P. REYES / MARZO 2007

Scatterplot of Nonlinear Fit


Euclidean distance model
3.5
3.0
2.5
2.0
1.5

Distances

1.0
.5
0.0
2

Observations

Transformation Scatterplot
Euclidean distance model
3.0
2.8
2.6
2.4
2.2

Disparities

2.0
1.8
1.6
1.4
2

Observations

Pg. 207

You might also like