Analisi Multivariado

7.
Análisis Discriminante
Técnica multivariante de clasificación de individuos en grupos sistemáticamente

distintos, utilizando también técnicas factoriales. Se parte de dos o más grupos
de objetos o individuos, de los que conocemos los valores de p variables.
Objetivo:
Explicar la pertenencia de cada individuo a un grupo (variable categórica) según

la variable aleatoria p-dimensional del objeto (variable explicativa).
Predecir a qué grupo pertenece un individuo nuevo, del que conocemos el valor
de la variable p dimensional clasificadora o explicativa.
Puede aplicarse para:
Describir: Explicar la diferencia entre los distintos tipos de objetos.

Hacer Inferencia: Contrastar diferencias significativas entre poblaciones.
Tomar de decisiones: Decidir donde clasificar un objeto.
1
SUPUESTOS
 Existen K poblaciones o grupos G1, G2,....Gk.
 Cada grupo está formado por n1, n2,...nk objetos: .
 Sobre cada objeto han sido medidas p variables x1, x2,.xp,
 Se quiere buscar una regla de decisión que permita asignar un objeto a

uno de los grupos partiendo de la información anterior.
 Los datos se presentan en matriz de n objetos pertenecientes a K

grupos, medidos por una variable aleatoria p dimensional y una
variable discreta que indica el grupo al que pertenece cada objeto.
2
CLASIFICACIÓN
Funciones discriminantes lineales de Fisher:
Permiten diferenciar los grupos para el proceso de clasificación. Son
combinación lineal de las P variables, interviniendo cada una con un peso
diferente que indica las que más discriminan. Problema descriptivo.
Funciones discriminantes canónicas:

Sirven para la predicción óptima del grupo a que pertenece un individuo.
Problema de inferencia.
MATRIZ DE DATOS
G X1 X2 .... Xp
1
1
.... DATOS
2
2
3
3
CLASIFICACIÓN CON DOS GRUPOS Y UNA
VARIABLE CLASIFICADORA, X
Problema:
Clasificar a cada individuo en el grupo correcto, según la variable clasificadora.
Gráficamente, podríamos representar las hipotéticas funciones de frecuencias de la
variable X para cada uno de los dos grupos. Las distribuciones de frecuencias y la
varianza son iguales, coincidiendo en todo menos en su media. Se pueden solapar:
pueden haber errores de clasificación.
GRÁFICO 1
Xi<C, clasificar al individuo i en grupo I.
Xi>C, clasificar al individuo i en grupo II
Los errores de clasificación están en :

•Área a la derecha de C : Casos del
grupo I donde Xi>C: casos del grupo I
mal clasificados en el grupo II.
•Área a la izquierda de C : Casos del
eI C eII X
grupo II donde Xi<C,: casos del grupo II
X I  X II mal clasificados en el grupo I.
Punto de corte discrimina nte : C 
2
4
CLASIFICACIÓN CON DOS GRUPOS Y UNA
VARIABLE CLASIFICADORA, X
Problema:
Clasificar a cada individuo en el grupo correcto, según la variable clasificadora.
Gráficamente, podríamos representar las hipotéticas funciones de frecuencias de la
variable X para cada uno de los dos grupos. Las distribuciones de frecuencias y la
varianza son iguales, coincidiendo en todo menos en su media. Se pueden solapar:
pueden haber errores de clasificación.
GRÁFICO 1
Xi<C, clasificar al individuo i en grupo I.
Xi>C, clasificar al individuo i en grupo II
Los errores de clasificación están en :

•Área a la derecha de C : Casos del
grupo I donde Xi>C: casos del grupo I
mal clasificados en el grupo II.
•Área a la izquierda de C : Casos del
eI C eII X
grupo II donde Xi<C,: casos del grupo II
X I  X II mal clasificados en el grupo I.
Punto de corte discrimina nte : C 
2
5
Caso:
Situación de las Comunidades Autónomas
españolas en cuanto a indicadores de bienestar
En el periódico “El País” del día 17 de enero de 2002 se publicó un resumen de un estudio
incluido en el Anuario social de España 2001 de la Caixa, elaborado por la Universidad
Autónoma de Madrid, sobre el mapa de bienestar de las provincias españolas para el año
2001, clasificándolas a partir de las 12 variables siguientes:
1 Renta 7 Condiciones de trabajo
2 Salud 8 Vivienda y equipamiento del hogar
3 Servicios sanitarios 9 Accesibilidad económica y seguridad vial
4 Nivel educativo y culturañ 10 Convivencia y participación social
5 Oferta educativa, cultura y ocio 11 Seguridad ciudadana
6 Empleo 12 Entorno natural y clima
El estudio establece una clasificación según el bienestar de las provincias. Queremos hacer
un estudio similar, pero considerando el mapa de las autonomías y los datos
correspondientes al Anuario social de España de 2004. Tras la aplicación de un análisis
cluster jerárquico a los indicadores según autonomía, conseguimos formar cuatro grupos.
6
DATOS
CC.AA Grupo p1 p2 p3 p4 p5 p6 p7 p8 p9 p10 p11 p12
Andalucía 1 2 6 4 4 3 3 5 6 6 5 5 5
Castilla-La Mancha 1 3 7 3 2 4 5 3 5 5 8 7 3
Extremadura 1 1 7 5 3 4 3 8 5 4 7 6 5
Murcia 1 3 3 3 4 3 7 9 7 9 6 5 3
Aragón 2 7 5 9 7 7 7 4 7 5 6 5 3
Castilla-León 2 5 6 6 6 7 5 5 5 4 7 7 4
La Rioja 2 8 6 4 7 6 8 5 6 5 6 6 5
Asturias 2 5 2 9 6 5 4 4 5 4 4 8 9
Canarias 2 5 5 6 7 6 5 6 4 9 4 6 8
Cantabria 2 6 7 8 9 6 6 3 6 5 5 8 9
Galicia 2 3 3 5 5 3 5 5 2 6 5 7 9
Valencia 2 5 4 6 5 4 6 6 6 8 5 4 6
Baleares 3 8 3 7 5 10 8 5 6 6 3 4 10
Cataluña 4 8 4 9 9 6 7 6 9 8 3 5 7
Madrid 4 9 7 9 9 5 7 10 9 10 4 4 3
Navarra 4 10 8 10 10 6 10 6 10 7 4 2 5
Euskadi 4 10 6 9 9 5 8 4 9 8 2 1 9
7
Objetivo y metodología del estudio
Objetivo:
Contrastar si la clasificación que realizamos de las
Comunidades Autónomas españolas es correcta,
dependiendo de las 12 variables consideradas.
Metodología:
La técnica adecuada es el Análisis Discriminante. En
él, la variable grupo de bienestar es la variable
dependiente, mientras que el resto son las variables
independientes que, previsiblemente, discriminan.
8
Obtención de las funciones discriminantes
Criterio:
Maximizar variabilidad entre grupos respecto a la de dentro de ellos.
Sea un eje definido por el vector unitario U, de dimensión p*1. La proyección del
individuo i-ésimo sobre él es el peso zi:
p
zi =  u j xij (i = 1,2,.....n )
j=1
Proyección de los n individuos: Vector Z (nx1), (Z=XU), función discriminante de
Fisher. Es una combinación lineal de las k variables explicativas originales.
Z  X1u1  X 2u 2  ......X n u n
Problema:Obtener los coeficientes de ponderación uj.
Hay que tener en cuenta que :

1. La matriz a diagonalizar no es simétrica: los vectores propios no son
necesariamente ortogonales.
2. El número de ejes discriminantes, F es como máximo el mínimo de [(K-1), p].
9
Métodos iterativos de selección de variables
Método de inclusión iterativa
En cada paso se selecciona la variable que más contribuye a la separación de
los grupos. El proceso se detiene si ninguna variable separa los grupos
significativamente más de lo que ya estaban.
Método de exclusión iterativa

Se incluyen todas las variables y en cada paso se elimina la que menos
contribuye a la separación de los grupos. El proceso se detiene cuando la
exclusión de cualquiera de las variables hace disminuir significativamente la
separación entre los grupos.
Método mixto de inclusión-exclusión: Stepwise

En cada etapa se evalúa la posibilidad de incluir o excluir una variable, según
criterios prefijados. Su aplicación requiere definir previamente una regla de
decisión, Landa de Wilks, cociente entre el determinante de la matriz de
variación dentro de los grupos y el de la matriz de variación total.
10
Stepwise
Con el landa de Wilks se calcula un estadístico F. Cuanto mayor sea F, más
significativa será la variable para la que se calcula. Hay que fijar:
F mínimo para entrar (F-min-to-enter).
F máximo para salir (Fmax-to-go) (F to enter > F de salida).
Nivel de tolerancia: Medida del grado de asociación lineal entre las variables
clasificadoras.
Si la tolerancia de la variable i es muy pequeña, significa que dicha variable está

muy correlacionada con el resto, lo que puede provocar problemas en la
estimación. Generalmente, se fija un nivel mínimo de tolerancia.
11
Cómo saber si los datos son apropiados
Si las poblaciones son normales, pero con matrices de covarianzas distintas, la
regla de clasificación óptima se obtiene con funciones lineales cuadráticas.
Excepto en el caso de dos variables, las funciones cuadráticas son difíciles de
obtener, por su complejidad analítica. Sin embargo, los resultados prácticos no
suelen diferir sustancialmente. Conviene, no obstante, contrastar la igualdad de
matrices de covarianzas.
Si las distribuciones de probabilidad poblacionales de los grupos son normales

multivariantes con matrices de covarianzas iguales, y se fijan probabilidades a
priori y costes idénticos para todos los grupos, la predicción con todas las
funciones lineales discriminantes coincide con la clasificación óptima obtenida
con la regla de decisión.
Cuando las poblaciones no son normales, las probabilidades o verosimilitud de

la muestra no se conocen, al no conocer la forma de la distribución
probabilística de cada grupo. En este caso, puede sustituirse el cociente de
verosimilitudes por el de distancias de Mahalanobis. Si las poblaciones son
normales, ambos coinciden.
12
Ventanas SPSS 1
Analizar Clasificar Análisis discriminante
En la variable de agrupación pondremos

la variable categórica que es la que
indica el grupo de pertenencia de cada
individuo en la matriz inicial. En nuestro
caso se han considerado cuatro grupos.
De 1 a 4
Pediremos las medias y los ANOVAS

univariados. Además, pediremos los
coeficientes de la función de Fisher, la
correlación y la covarianza intra-grupos.
13
Ventanas SPSS 2
Si elegimos usar método de

inclusión por pasos, debemos
definir el que deseamos y los
criterios. Utilizaremos la distancia
de Mahalanobis. Además,
indicaremos que el resultado
muestre un resumen de los pasos y
el valor de la F de Snedecor para
las distancias por parejas.
La distancia de Mahalanobis D² es una medida generalizada de distancia entre dos

grupos que tiene en cuenta la posición central (centro de gravedad) y las dispersiones
(matrices de productos cruzados o de covarianzas intragrupos) de los grupos.
Di2, j  ( xi  x j )DI,1II ( xi  x j )
DI,II: matriz de productos cruzados (matriz de covarianzas intragrupos).
Se asignará cada individuo al grupo para el que D² es menor.
14
Ventanas SPSS 3
Probabilidades previas:
Se puede elegir todos los grupos iguales o
calcular según tamaño de grupos.
Mostrar:
Resultados para cada grupo y tabla resumen.
Usar matriz de covarianzas intragrupos.
Gráficos de los grupos combinados.
15
Resultados: Estadísticos descriptivos
GRUPO 1 GRUPO 2 GRUPO 3 GRUPO 4 TOTAL
Índice
Media Desv. típ. CVP Media Desv. típ. CVP Media Media Desv. típ. CVP Media Desv. típ. CVP
Renta 2,25 0,957 0,426 5,5 1,512 0,275 8 9,25 0,957 0,104 5,765 2,796 0,485
Salud 5,75 1,893 0,329 4,75 1,669 0,351 3 6,25 1,708 0,273 5,235 1,786 0,341
Ss.sanitarios 3,75 0,957 0,255 6,625 1,847 0,279 7 9,25 0,500 0,054 6,588 2,347 0,356
N.educativo y
cultural 3,25 0,957 0,295 6,5 1,309 0,201 5 9,25 0,500 0,054 6,294 2,365 0,376
Of.educativa,
cultural/ocio 3,5 0,577 0,165 5,5 1,414 0,257 10 5,5 0,577 0,105 5,294 1,795 0,339
Empleo 4,5 1,915 0,426 5,75 1,282 0,223 8 8 1,414 0,177 6,118 1,900 0,311
Condiciones trabajo 6,25 2,754 0,441 4,75 1,035 0,218 5 6,5 2,517 0,387 5,529 1,940 0,351
Vivienda 5,75 0,957 0,167 5,125 1,553 0,303 6 9,25 0,500 0,054 6,294 2,054 0,326
Acces.ec.y
seguridad vial 6 2,160 0,360 5,75 1,832 0,319 6 8,25 1,258 0,153 6,412 1,938 0,302
Conv.y partic.social 6,5 1,291 0,199 5,25 1,035 0,197 3 3,25 0,957 0,295 4,941 1,600 0,324
Seguridad
ciudadana 5,75 0,957 0,167 6,375 1,408 0,221 4 3 1,826 0,609 5,294 1,929 0,364
Entorno natural y
clima 4 1,155 0,289 6,625 2,446 0,369 10 6 2,582 0,430 6,059 2,512 0,415
Nº CASOS 4 8 1 4 17
16
Pruebas de igualdad de medias de los grupos
Lambda
de Wilks F gl1 gl2 Sig. La lambda de Wilk oscila entre 0 y
Índice de renta ,172 20,872 3 13 ,000 1. Valores pequeños indican fuertes
Índice de salud ,764 1,340 3 13 ,304
Índice de servicios diferencias de grupo y los cercanos
sanitarios ,311 9,615 3 13 ,001
a 1 no diferencias de grupo.
Índice de nivel educativo y
cultural ,173 20,696 3 13 ,000
Índice de oferta educativa,

F es una proporción de variabilidad
cultural y de ocio ,311 9,623 3 13 ,001
entre-grupos y variabilidad intra-
Índice de empleo ,493 4,450 3 13 ,023
Índice decondiciones
grupos.
trabajo (calidad del
empleo) ,818 ,967 3 13 ,438
Variables con los menores valores
Índice de vivienda y
equipamiento del hogar ,302 10,029 3 13 ,001 de lambda: Nivel de instrucción,
Índice de accesibilidad
económica y seguridad
vial
vivienda, riqueza, servicios sanitarios
,703 1,833 3 13 ,191
y educación, cultura y ocio, Empleo y
Índice de convivencia y
participación social ,372 7,300 3 13 ,004 accesibilidad económico-comercial
Índice de seguridad
ciudadana ,447 5,355 3 13 ,013
con F significativos a menos de un
Índice de entorno natural
10%.
y clima ,653 2,307 3 13 ,125
Variables con niveles superiores de lambda:

Condiciones de trabajo, sanidad, convivencia y
participación social, entorno y clima y seguridad y
medio ambiente, que no muestran diferencias
significativas entre los grupos de bienestar, con
niveles de significación de la F superiores al 10%. 17
Matriz de correlaciones
Correlación 1 2 3 4 5 6 7 8 9 10
renta 1 0,38 -0,02 0,47 0,49 0,75 -0,24 0,74 -0,07 0,23
salud 0,38 1 0,02 0,37 0,52 0,15 -0,2 0,17 -0,34 0,52
Ss.Sanitarios -0,02 0,02 1 0,32 0,31 -0,26 -0,19 0,33 -0,38 -0,15
N.Educativo 0,47 0,37 0,32 1 0,44 0,31 -0,06 0,53 -0,01 -0,18
Oferta Educativa 0,49 0,52 0,31 0,44 1 0,19 -0,2 0,47 -0,4 0,48
Empleo 0,75 0,15 -0,26 0,31 0,19 1 0 0,57 0,16 0,31
Cond.Trabajo -0,24 -0,2 -0,19 -0,06 -0,2 0 1 0 0,55 0,05
Vivienda 0,74 0,17 0,33 0,53 0,47 0,57 0 1 0 0,11
Acc.Ec.y Seg.Vial -0,07 -0,34 -0,38 -0,01 -0,4 0,16 0,55 0 1 -0,38
Conv.y Part.Social 0,23 0,52 -0,15 -0,18 0,48 0,31 0,05 0,11 -0,38 1
Seg.Ciudadana -0,34 -0,05 0,11 0,04 0,15 -0,43 -0,08 -0,37 -0,34 0,19
Entorno y clima -0,44 -0,29 0,09 0,05 -0,45 -0,43 -0,35 -0,48 -0,05 -0,73
Las matrices intra-grupos combinadas muestran una matriz de covarianzas y una

matriz de correlaciones. Son diferentes de las matrices usuales donde todos los
casos son tratados como una muestra individual. Las covarianzas intra-grupos
combinadas se obtienen promediando las matrices de covarianzas separadas
para todos los grupos. Las correlaciones intra-grupos combinadas se calculan a
partir de las covarianzas y varianzas.
18
Variables introducidas/eliminadas en el análisis
Paso Introducidas Eliminadas Mín. D cuadrado
Estadístico Entre grupos F exacta
Estadístico gl1 gl2 Sig.
1 N.Educativo 1,887 2y3 1,677 1 13 0,218
2 Renta 10,223 2y4 12,582 2 12 0,001
3 Of.Educativa 10,530 1y2 7,920 3 11 0,004
4 Renta 7,905 2y4 9,729 2 12 0,003
5 Vivienda 15,903 2y4 11,961 3 11 0,001
6 Conv.y Part.Social 16,958 2y4 8,697 4 10 0,003
Distancia de Mahalanobis grande: Casos con valores extremos en una o más

variables independientes. En cada paso se introduce la variable que maximiza
la distancia de Mahalanobis entre los grupos más cercanos.
Paso 1: la variable que maximiza la distancia de Mahalanobis entre los dos
grupos más cercanos (2 y 3) es el Nivel educativo y cultural.
Paso 2: Renta entre los grupos 2 y 4.
Paso 3: Oferta educativa entre los grupos 1 y 2.
Paso 4: Se elimina la variable Renta, puesto el estadístico desciende respecto
a los anteriores entre los grupos 2 y 4.
Paso 5: Se introduce la variable Vivienda puesto que maximinza la distancia
entre los grupos 2 y 4 que son los más cercanos.
Paso 6: Convivencia y participación social entre los grupos 2 y 4. 19
Estadísticos para las variables en el análisis
F para Mín. D Entre
Paso Variables Tolerancia
eliminar cuadrado grupos
1 Nivel Educativo 1,000 20,696
2 Nivel Educativo ,783 4,547 ,945 3 y 4
Renta ,783 4,607 1,887 2 y 3
3 Nivel Educativo ,721 4,207 6,821 1 y 2
Renta ,687 2,678 7,905 2 y 4
Oferta Educativa ,704 6,495 10,223 2 y 4
4 Nivel Educativo ,802 20,726 ,000 2 y 4
Vivienda ,646 7,461 7,905 2 y 4
2
1 - ri
Vivienda ,643 6,778 8,560 2 y 4
Convivencia y ,574 5,761 15,903 2 y 4
participación social
Tolerancia: Proporción de la varianza de la variable que no es explicada por las otras
variables independientes. Se utiliza para determinar cuantas variables independientes
están linealmente relacionadas con las otras (multicolinealidad). Una variable con muy
baja tolerancia contribuye con poca información al modelo y puede causar problemas de
cálculo.
F para eliminar: Útil para describir qué ocurre si la variable es eliminada del modelo
presente. Es la misma que la F para entrar en la etapa anterior. Dependiendo del método
por pasos elegido, podemos ver otros estadísticos tales como la lambda de Wilks. 20
Número de variables en cada etapa
Número F exacta F aproximada
Lambda gl1 gl2 gl3
de
Paso Estadístico gl1 gl2 Sig. Estadístico gl1 gl2 Sig.
variables
1 1 ,173 1 3 13 20,696 3 13 ,000
2 2 ,080 2 3 13 10,102 6 24 ,000
3 3 ,029 3 3 13 9,816 9 26,922 ,000
4 2 ,050 2 3 13 13,847 6 24 ,000
5 3 ,017 3 3 13 13,142 9 26,922 ,000
6 4 ,006 4 3 13 13,121 12 26,749 ,000
Lambda: Contraste multivariante de significación. Contraste de hipótesis de

igualdad de medias entre los grupos para cada uno de los pasos. Oscila entre 0
y 1. Valores cercanos a 0: las medias de los grupos son diferentes. Valores
cercanos a 1: las medias de los grupos no son diferentes.
Lambda y sus grados de libertad son transformados en un estadístico F. Si el
valor de significación es pequeño (menor que 0,10) indica que las medias de los
grupos difieren. Si el valor de significación es grande (mayor que 0,10) indica
que las medias de los grupos no difieren.
Como el nivel de significación o área que deja a la derecha el estadístico es,
como máximo 0,012, a un nivel de significación del 5%, no se puede concluir
que las medias de los grupos sean iguales. Es decir, se rechaza la igualdad de
21
medias entre grupos de cada una de las variables incluidas en el análisis.
Comparaciones de grupos por pares:
Última etapa
Paso GRUPOS 1 2 3 4
1 F 9,200 17,478 13,471
Sig. ,002 ,000 ,000
2 F 9,200 14,243 8,697
Sig. ,002 ,000 ,003
6
3 F 17,478 14,243 16,082
Sig. ,000 ,000 ,000
4 F 13,471 8,697 16,082
Sig. ,000 ,003 ,000
Los dos grupos con mayores F y menores niveles de significación son los
que difieren más.
Los dos grupos con menores F y mayores niveles de significación son los
que difieren menos.
Si el valor de significación es pequeño, la diferencia entre los grupos es
significativa. Si el valor de significación es grande (mayor que el 5%)
entonces la diferencia entre los grupos no es significativa.
22
Funciones canónicas discriminantes
Función Autovalor % de varianza % acumulado Correlación canónica
1 7,007 48,1 48,1 ,935
2 5,255 36,1 84,3 ,917
3 2,291 15,7 100,0 ,834
Valor propio: Cociente entre la suma de cuadrados intra-grupos e Inter.-grupos. El mayor

valor propio corresponde al vector propio en la dirección de la máxima dispersión de las
medias de los grupos. El segundo, al vector propio en la dirección que tiene la siguiente
mayor dispersión, y así sucesivamente. La raíz cuadrada de cada valor propio proporciona
un índice de la longitud del correspondiente vector propio. Valores propios pequeños
explican muy poco de la dispersión total.
% de varianza: Evalúa la dispersión de cada variable canónica.
% acumulado: Porcentaje de la dispersión total explicada por las variables canónicas. Las
dos primeras variables canónicas explican el 100% de la dispersión total.
Correlación canónica: mide la asociación entre las puntuaciones discriminantes y los
grupos. Valores cercanos a 1 indican una fuerte correlación entre las puntuaciones
discriminantes y los grupos.
Número de variables canónicas: Cuando hay más de dos grupos, es k-1 (donde k es el
número de grupos) o p (el número de variables), el que sea menor de los dos. 23
Prueba de hipótesis igualdad de medias entre grupos
de las funciones
Contraste de las funciones Lambda de Wilks Chi-cuadrado gl Sig.

1 a la 3 ,006 61,260 12 ,000
2 a la 3 ,049 36,297 6 ,000
3 ,304 14,296 2 ,001
La lambda de Wilks varía entre 0 y 1. Valores cercanos a 0 indican que las medias de
los grupos son diferentes. Valores cercanos a 1 indican que las medias de los grupos
no son diferentes (igual a 1 indica que todas las medias son la misma).
Chi-cuadrado de la lambda de Wilks determina la significación. Si es pequeña (menor
que el 10%) indica que las medias de grupo difieren. Si es grande, indica que las
medias de los grupos no difieren.
24
Matriz de estructura
Función
1 2 3
Oferta Educativa -,548 ,139 ,088
Empleo (a) ,381 ,279 -,245
Servicios Sanitarios (a) -,325 ,286 -,184
Condiciones de Trabajo (a) ,298 -,014 -,032
Nivel Educativo -,120 ,937 ,159
Convivencia y participación social ,281 -,442 ,212
Renta (a) ,013 ,382 -,341
Vivienda ,019 ,508 -,646
Seguridad ciudadana (a) -,097 -,088 ,560
Salud (a) ,046 ,149 ,386
Entorno y clima (a) -,229 ,212 ,236
Accesibilidad económica y seguridad vial (a) ,171 ,163 -,205
Correlaciones intra-grupos de cada variable predictora con la función canónica.

Proporciona otra forma de estudiar la utilidad de cada variable en la función
discriminante. Para cada variable, en negrilla se marca su mayor correlación absoluta
con una de las funciones canónicas, ordenándose luego por tamaño de correlación.
Función 1: Oferta educativa, Empleo, Servicios sanitarios y Condiciones de trabajo.
Función 2: Nivel educativo, Convivencia y participación social y Renta.
Función 3: Vivienda, Seguridad ciudadana, Salud, Entorno y clima y Accesibilidad
económica y seguridad vial. 25
Coeficientes de funciones canónicas
Coeficientes Función Se utilizan para calcular las puntuaciones de la
Variable canónica 1 2 3 variable canónica en cada caso. Si las variables son
Nivel educativo ,542 ,957 ,864 medidas en unidades diferentes, la magnitud de un
Oferta educativa -1,410 -,283 ,021
coeficiente no estandarizado proporciona poca
Vivienda ,277 ,147 -1,173
Convivencia y Part. social 1,023 -,152 ,490 indicación de la contribución relativa de la variable a la
discriminación global.
Función Los coeficientes no tipificados de las funciones
1 2 3 4
canónicas discriminantes son estrictamente
Nivel educativo 4,573 7,679 -,603 8,604
Oferta educativa -4,335 -2,048 9,092 -3,400 proporcionales a los coeficientes tipificados de
Vivienda 2,544 -,132 ,522 2,756 dichas funciones para cada una de las
Convivencia y part.social 8,164 6,884 -2,091 5,632 variables. Si sustituimos los valores de las
(Constante) -35,138 -37,812 -45,214 -53,788 variables para cada una de las Autonomías,
obtendremos las puntuaciones discriminantes.
Función Medias de las variables canónicas por grupos. Las
GRUPOS 1 2 3 medias intra-grupos se calculan para cada variable
1 2,123 -2,494 -1,228 canónica. Funciones discriminantes canónicas no
2 -,127 -,052 1,402
tipificadas evaluadas en las medias de los grupos. La
3 -8,524 -2,096 -1,536
4 ,261 3,123 -1,191 estimación de la función de clasificación para las
Comunidades Autónomas del grupo 1 es
2,123G1  0.127G2  8.524G3  0.261G4 26
Estimación del grupo con los coeficientes de las
Funciones discriminantes lineales de Fisher
GRUPO DE PERTENENCIA
1 2 3 4
Nivel educativo 4,573 7,679 -,603 8,604
Oferta educativa -4,335 -2,048 9,092 -3,400
Vivienda 2,544 -,132 ,522 2,756
Convivencia y part.social 8,164 6,884 -2,091 5,632
(Constante) -35,138 -37,812 -45,214 -53,788
El programa SPSS no ofrece la función discriminante de Fisher, sino tantas

funciones como grupos se hayan considerado para los casos. A partir de
estas funciones se podría obtener la Función discriminante lineal de Fisher.
Con ellas se podrá predecir en qué grupo debe estar un individuo. Para ello,
habrá que sustituir en cada una de las funciones los valores originales de las
tres variables para cada una de las Comunidades Autónomas.
En nuestro caso, se clasificará la Comunidad Autónoma en aquel grupo cuyo
valor sea mayor en una de las cuatro funciones discriminantes anteriores.
27
Resultados
Grupo Grupo
Comunidad Función Discriminante
pronosticado inicial
Autónoma 1 2 3
Andalucía 1,76874 -1,46939 -1,55655 1 1
Castilla-La Mancha 2,11870 -4,01632 -,82647 1 1
Extremadura 1,66988 -2,99912 -,48748 1 1
Murcia 2,93504 -1,49257 -2,04129 1 1
Aragón -,66163 ,11811 ,40840 2 2
Castilla-León -,65555 -1,13349 1,94311 2 2
La Rioja ,38824 ,25586 1,32614 2 2
Asturias -,94784 -,20245 ,54859 2 2
Canarias -1,94436 ,30223 2,29563 2 2
Cantabria ,43552 2,14989 2,45621 2 2
Galicia 1,37935 -1,06135 2,98193 2 2
Valencia ,99360 -,84751 -,74635 1 2
Baleares -8,52374 -2,09642 -1,53590 3 3
Cataluña -,79022 2,78225 -1,25852 4 4
Madrid 1,42596 2,89681 -,82553 4 4
Navarra ,87219 3,63588 -,95218 4 4
Euskadi -,46390 3,17757 -1,72973 4 4
Con la función discriminante de Fisher todas las C.A. se clasifican en el mismo
grupo inicial, salvo Valencia, que se estaba en el segundo grupo y, según la
función discriminante de Fisher, hay que incluirla en el primer grupo. 28
Estadísticos de clasificación por casos
Puntuaciones
Grupo mayor 2º grupo mayor
Grupo discriminantes
Nº
real P(D>d/ P(G=g/ 2 2
casos Grupo D Grupo P(G=g|/D=d) D F. 1 F. 2 F. 3
G=g) D=d)
pronost
p gl
1 1 1 ,733 3 ,997 1,284 2 ,003 14,352 1,769 -1,469 -1,557
2 1 1 ,479 3 1,000 2,478 2 ,000 25,719 2,119 -4,016 -,826
3 1 1 ,799 3 ,999 1,008 2 ,001 15,480 1,670 -2,999 -,487
4 1 1 ,508 3 1,000 2,324 2 ,000 23,302 2,935 -1,493 -2,041
5 2 2 ,729 3 ,998 1,302 4 ,002 12,441 -,662 ,118 ,408
6 2 2 ,628 3 1,000 1,742 1 ,000 19,628 -,656 -1,133 1,943
7 2 2 ,947 3 ,999 ,366 4 ,000 14,576 ,388 ,256 1,326
8 2 2 ,700 3 ,999 1,425 4 ,000 15,549 -,948 -,202 ,549
9 2 2 ,238 3 1,000 4,229 4 ,000 24,981 -1,944 ,302 2,296
10 2 2 ,099 3 ,991 6,278 4 ,009 14,283 ,436 2,150 2,456
11 2 2 ,123 3 1,000 5,783 1 ,000 20,330 1,379 -1,061 2,982
12 2 1** ,239 3 ,609 4,220 2 ,389 6,501 ,994 -,848 -,746
13 3 3 1,000 3 1,000 ,000 2 ,000 83,320 -8,524 -2,096 -1,536
14 4 4 ,747 3 ,998 1,226 2 ,002 15,552 -,790 2,782 -1,259
15 4 4 ,673 3 ,999 1,542 2 ,001 16,068 1,426 2,897 -,826
16 4 4 ,875 3 1,000 ,694 2 ,000 20,141 ,872 3,636 -,952
17 4 4 ,845 3 1,000 ,818 2 ,000 20,352 -,464 3,178 -1,730
 Grupo real: el que se asignó a cada caso en la clasificación inicial.
 Grupo mayor: En el que debe estar incluido cada caso, según las funciones
discriminantes y con probabilidad a posteriori de pertenencia a él, P(G=g/ D=d), mayor,
(teorema de Bayes), utilizando la Distancia de Mahalanobis, D2, y la probabilidad
condicionada P(D>d/ G=g)
 Segundo grupo mayor: en cuanto al valor de la probabilidad a posteriori.
 Puntuaciones discriminantes: las obtenidas al sustituir los valores en las funciones
29
discriminantes canónicas.
Gráfico
Grupo 1:
Andalucía, Castilla-La Mancha,
Extremadura, Valencia y
Murcia.
Grupo 2:
Canarias, Aragón, Castilla-
León, Asturias, Cantabria,
Galicia y La Rioja.
Grupo 3:
Baleares
Grupo 4:
Cataluña, Madrid, Euskadi y
Navarra.
La única Comunidad Autónoma
reclasificada, pasándola del
grupo 2 al 1 Valencia.
30
Conclusiones
Las variables independientes que más discriminan
entre los cuatro grupos iniciales referidos al bienestar
de las autonomías son:
 Nivel educativo
 Oferta educativa
 Vivienda
 Convivencia y participación social
Con las funciones discriminantes obtenidas, todas

las comunidades autónomas se encuentran
clasificadas en los mismos grupos inicialmente
considerados, salvo Valencia que se había incluido
en el grupo 2 y, a partir del Análisis Discriminante,
parece mejor situada en el grupo 1. 31

Analisi Multivariado

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Analisi Multivariado

Uploaded by

Copyright:

Available Formats

7.

Técnica multivariante de clasificación de individuos en grupos sistemáticamente

Explicar la pertenencia de cada individuo a un grupo (variable categórica) según

Puede aplicarse para:

Describir: Explicar la diferencia entre los distintos tipos de objetos.

 Existen K poblaciones o grupos G1, G2,....Gk.

 Cada grupo está formado por n1, n2,...nk objetos: .

 Sobre cada objeto han sido medidas p variables x1, x2,.xp,

 Se quiere buscar una regla de decisión que permita asignar un objeto a

 Los datos se presentan en matriz de n objetos pertenecientes a K

Funciones discriminantes canónicas:

Los errores de clasificación están en :

Los errores de clasificación están en :

Problema:Obtener los coeficientes de ponderación uj.

Hay que tener en cuenta que :

Método de exclusión iterativa

Método mixto de inclusión-exclusión: Stepwise

F mínimo para entrar (F-min-to-enter).

F máximo para salir (Fmax-to-go) (F to enter > F de salida).

Si la tolerancia de la variable i es muy pequeña, significa que dicha variable está

Si las distribuciones de probabilidad poblacionales de los grupos son normales

Cuando las poblaciones no son normales, las probabilidades o verosimilitud de

En la variable de agrupación pondremos

Pediremos las medias y los ANOVAS

Si elegimos usar método de

La distancia de Mahalanobis D² es una medida generalizada de distancia entre dos

DI,II: matriz de productos cruzados (matriz de covarianzas intragrupos).

Se asignará cada individuo al grupo para el que D² es menor.

Índice de oferta educativa,

Variables con niveles superiores de lambda:

Las matrices intra-grupos combinadas muestran una matriz de covarianzas y una

Distancia de Mahalanobis grande: Casos con valores extremos en una o más

Lambda: Contraste multivariante de significación. Contraste de hipótesis de

Valor propio: Cociente entre la suma de cuadrados intra-grupos e Inter.-grupos. El mayor

Contraste de las funciones Lambda de Wilks Chi-cuadrado gl Sig.

Correlaciones intra-grupos de cada variable predictora con la función canónica.

El programa SPSS no ofrece la función discriminante de Fisher, sino tantas

Con las funciones discriminantes obtenidas, todas

You might also like