Professional Documents
Culture Documents
Análisis Discriminante
Objetivo:
1
SUPUESTOS
2
CLASIFICACIÓN
Funciones discriminantes lineales de Fisher:
Permiten diferenciar los grupos para el proceso de clasificación. Son
combinación lineal de las P variables, interviniendo cada una con un peso
diferente que indica las que más discriminan. Problema descriptivo.
MATRIZ DE DATOS
G X1 X2 .... Xp
1
1
.... DATOS
2
2
3
3
CLASIFICACIÓN CON DOS GRUPOS Y UNA
VARIABLE CLASIFICADORA, X
Problema:
Clasificar a cada individuo en el grupo correcto, según la variable clasificadora.
Gráficamente, podríamos representar las hipotéticas funciones de frecuencias de la
variable X para cada uno de los dos grupos. Las distribuciones de frecuencias y la
varianza son iguales, coincidiendo en todo menos en su media. Se pueden solapar:
pueden haber errores de clasificación.
GRÁFICO 1
Xi<C, clasificar al individuo i en grupo I.
Xi>C, clasificar al individuo i en grupo II
El estudio establece una clasificación según el bienestar de las provincias. Queremos hacer
un estudio similar, pero considerando el mapa de las autonomías y los datos
correspondientes al Anuario social de España de 2004. Tras la aplicación de un análisis
cluster jerárquico a los indicadores según autonomía, conseguimos formar cuatro grupos.
6
DATOS
CC.AA Grupo p1 p2 p3 p4 p5 p6 p7 p8 p9 p10 p11 p12
Andalucía 1 2 6 4 4 3 3 5 6 6 5 5 5
Castilla-La Mancha 1 3 7 3 2 4 5 3 5 5 8 7 3
Extremadura 1 1 7 5 3 4 3 8 5 4 7 6 5
Murcia 1 3 3 3 4 3 7 9 7 9 6 5 3
Aragón 2 7 5 9 7 7 7 4 7 5 6 5 3
Castilla-León 2 5 6 6 6 7 5 5 5 4 7 7 4
La Rioja 2 8 6 4 7 6 8 5 6 5 6 6 5
Asturias 2 5 2 9 6 5 4 4 5 4 4 8 9
Canarias 2 5 5 6 7 6 5 6 4 9 4 6 8
Cantabria 2 6 7 8 9 6 6 3 6 5 5 8 9
Galicia 2 3 3 5 5 3 5 5 2 6 5 7 9
Valencia 2 5 4 6 5 4 6 6 6 8 5 4 6
Baleares 3 8 3 7 5 10 8 5 6 6 3 4 10
Cataluña 4 8 4 9 9 6 7 6 9 8 3 5 7
Madrid 4 9 7 9 9 5 7 10 9 10 4 4 3
Navarra 4 10 8 10 10 6 10 6 10 7 4 2 5
Euskadi 4 10 6 9 9 5 8 4 9 8 2 1 9
7
Objetivo y metodología del estudio
Objetivo:
Contrastar si la clasificación que realizamos de las
Comunidades Autónomas españolas es correcta,
dependiendo de las 12 variables consideradas.
Metodología:
La técnica adecuada es el Análisis Discriminante. En
él, la variable grupo de bienestar es la variable
dependiente, mientras que el resto son las variables
independientes que, previsiblemente, discriminan.
8
Obtención de las funciones discriminantes
Criterio:
Maximizar variabilidad entre grupos respecto a la de dentro de ellos.
Sea un eje definido por el vector unitario U, de dimensión p*1. La proyección del
individuo i-ésimo sobre él es el peso zi:
p
zi = u j xij (i = 1,2,.....n )
j=1
Proyección de los n individuos: Vector Z (nx1), (Z=XU), función discriminante de
Fisher. Es una combinación lineal de las k variables explicativas originales.
Z X1u1 X 2u 2 ......X n u n
9
Métodos iterativos de selección de variables
Método de inclusión iterativa
En cada paso se selecciona la variable que más contribuye a la separación de
los grupos. El proceso se detiene si ninguna variable separa los grupos
significativamente más de lo que ya estaban.
10
Stepwise
Con el landa de Wilks se calcula un estadístico F. Cuanto mayor sea F, más
significativa será la variable para la que se calcula. Hay que fijar:
Nivel de tolerancia: Medida del grado de asociación lineal entre las variables
clasificadoras.
11
Cómo saber si los datos son apropiados
Si las poblaciones son normales, pero con matrices de covarianzas distintas, la
regla de clasificación óptima se obtiene con funciones lineales cuadráticas.
Excepto en el caso de dos variables, las funciones cuadráticas son difíciles de
obtener, por su complejidad analítica. Sin embargo, los resultados prácticos no
suelen diferir sustancialmente. Conviene, no obstante, contrastar la igualdad de
matrices de covarianzas.
12
Ventanas SPSS 1
Analizar Clasificar Análisis discriminante
De 1 a 4
13
Ventanas SPSS 2
Di2, j ( xi x j )DI,1II ( xi x j )
14
Ventanas SPSS 3
Probabilidades previas:
Se puede elegir todos los grupos iguales o
calcular según tamaño de grupos.
Mostrar:
Resultados para cada grupo y tabla resumen.
Usar matriz de covarianzas intragrupos.
Gráficos de los grupos combinados.
15
Resultados: Estadísticos descriptivos
GRUPO 1 GRUPO 2 GRUPO 3 GRUPO 4 TOTAL
Índice
Media Desv. típ. CVP Media Desv. típ. CVP Media Media Desv. típ. CVP Media Desv. típ. CVP
Renta 2,25 0,957 0,426 5,5 1,512 0,275 8 9,25 0,957 0,104 5,765 2,796 0,485
Salud 5,75 1,893 0,329 4,75 1,669 0,351 3 6,25 1,708 0,273 5,235 1,786 0,341
Ss.sanitarios 3,75 0,957 0,255 6,625 1,847 0,279 7 9,25 0,500 0,054 6,588 2,347 0,356
N.educativo y
cultural 3,25 0,957 0,295 6,5 1,309 0,201 5 9,25 0,500 0,054 6,294 2,365 0,376
Of.educativa,
cultural/ocio 3,5 0,577 0,165 5,5 1,414 0,257 10 5,5 0,577 0,105 5,294 1,795 0,339
Empleo 4,5 1,915 0,426 5,75 1,282 0,223 8 8 1,414 0,177 6,118 1,900 0,311
Condiciones trabajo 6,25 2,754 0,441 4,75 1,035 0,218 5 6,5 2,517 0,387 5,529 1,940 0,351
Vivienda 5,75 0,957 0,167 5,125 1,553 0,303 6 9,25 0,500 0,054 6,294 2,054 0,326
Acces.ec.y
seguridad vial 6 2,160 0,360 5,75 1,832 0,319 6 8,25 1,258 0,153 6,412 1,938 0,302
Conv.y partic.social 6,5 1,291 0,199 5,25 1,035 0,197 3 3,25 0,957 0,295 4,941 1,600 0,324
Seguridad
ciudadana 5,75 0,957 0,167 6,375 1,408 0,221 4 3 1,826 0,609 5,294 1,929 0,364
Entorno natural y
clima 4 1,155 0,289 6,625 2,446 0,369 10 6 2,582 0,430 6,059 2,512 0,415
Nº CASOS 4 8 1 4 17
16
Pruebas de igualdad de medias de los grupos
Lambda
de Wilks F gl1 gl2 Sig. La lambda de Wilk oscila entre 0 y
Índice de renta ,172 20,872 3 13 ,000 1. Valores pequeños indican fuertes
Índice de salud ,764 1,340 3 13 ,304
Índice de servicios diferencias de grupo y los cercanos
sanitarios ,311 9,615 3 13 ,001
a 1 no diferencias de grupo.
Índice de nivel educativo y
cultural ,173 20,696 3 13 ,000
18
Variables introducidas/eliminadas en el análisis
Paso Introducidas Eliminadas Mín. D cuadrado
Estadístico Entre grupos F exacta
Estadístico gl1 gl2 Sig.
1 N.Educativo 1,887 2y3 1,677 1 13 0,218
2 Renta 10,223 2y4 12,582 2 12 0,001
3 Of.Educativa 10,530 1y2 7,920 3 11 0,004
4 Renta 7,905 2y4 9,729 2 12 0,003
5 Vivienda 15,903 2y4 11,961 3 11 0,001
6 Conv.y Part.Social 16,958 2y4 8,697 4 10 0,003
Los dos grupos con mayores F y menores niveles de significación son los
que difieren más.
Los dos grupos con menores F y mayores niveles de significación son los
que difieren menos.
Si el valor de significación es pequeño, la diferencia entre los grupos es
significativa. Si el valor de significación es grande (mayor que el 5%)
entonces la diferencia entre los grupos no es significativa.
22
Funciones canónicas discriminantes
Función Autovalor % de varianza % acumulado Correlación canónica
1 7,007 48,1 48,1 ,935
2 5,255 36,1 84,3 ,917
3 2,291 15,7 100,0 ,834
La lambda de Wilks varía entre 0 y 1. Valores cercanos a 0 indican que las medias de
los grupos son diferentes. Valores cercanos a 1 indican que las medias de los grupos
no son diferentes (igual a 1 indica que todas las medias son la misma).
Chi-cuadrado de la lambda de Wilks determina la significación. Si es pequeña (menor
que el 10%) indica que las medias de grupo difieren. Si es grande, indica que las
medias de los grupos no difieren.
24
Matriz de estructura
Función
1 2 3
Oferta Educativa -,548 ,139 ,088
Empleo (a) ,381 ,279 -,245
Servicios Sanitarios (a) -,325 ,286 -,184
Condiciones de Trabajo (a) ,298 -,014 -,032
Nivel Educativo -,120 ,937 ,159
Convivencia y participación social ,281 -,442 ,212
Renta (a) ,013 ,382 -,341
Vivienda ,019 ,508 -,646
Seguridad ciudadana (a) -,097 -,088 ,560
Salud (a) ,046 ,149 ,386
Entorno y clima (a) -,229 ,212 ,236
Accesibilidad económica y seguridad vial (a) ,171 ,163 -,205
27
Resultados
Grupo Grupo
Comunidad Función Discriminante
pronosticado inicial
Autónoma 1 2 3
Andalucía 1,76874 -1,46939 -1,55655 1 1
Castilla-La Mancha 2,11870 -4,01632 -,82647 1 1
Extremadura 1,66988 -2,99912 -,48748 1 1
Murcia 2,93504 -1,49257 -2,04129 1 1
Aragón -,66163 ,11811 ,40840 2 2
Castilla-León -,65555 -1,13349 1,94311 2 2
La Rioja ,38824 ,25586 1,32614 2 2
Asturias -,94784 -,20245 ,54859 2 2
Canarias -1,94436 ,30223 2,29563 2 2
Cantabria ,43552 2,14989 2,45621 2 2
Galicia 1,37935 -1,06135 2,98193 2 2
Valencia ,99360 -,84751 -,74635 1 2
Baleares -8,52374 -2,09642 -1,53590 3 3
Cataluña -,79022 2,78225 -1,25852 4 4
Madrid 1,42596 2,89681 -,82553 4 4
Navarra ,87219 3,63588 -,95218 4 4
Euskadi -,46390 3,17757 -1,72973 4 4
Con la función discriminante de Fisher todas las C.A. se clasifican en el mismo
grupo inicial, salvo Valencia, que se estaba en el segundo grupo y, según la
función discriminante de Fisher, hay que incluirla en el primer grupo. 28
Estadísticos de clasificación por casos
Puntuaciones
Grupo mayor 2º grupo mayor
Grupo discriminantes
Nº
real P(D>d/ P(G=g/ 2 2
casos Grupo D Grupo P(G=g|/D=d) D F. 1 F. 2 F. 3
G=g) D=d)
pronost
p gl
1 1 1 ,733 3 ,997 1,284 2 ,003 14,352 1,769 -1,469 -1,557
2 1 1 ,479 3 1,000 2,478 2 ,000 25,719 2,119 -4,016 -,826
3 1 1 ,799 3 ,999 1,008 2 ,001 15,480 1,670 -2,999 -,487
4 1 1 ,508 3 1,000 2,324 2 ,000 23,302 2,935 -1,493 -2,041
5 2 2 ,729 3 ,998 1,302 4 ,002 12,441 -,662 ,118 ,408
6 2 2 ,628 3 1,000 1,742 1 ,000 19,628 -,656 -1,133 1,943
7 2 2 ,947 3 ,999 ,366 4 ,000 14,576 ,388 ,256 1,326
8 2 2 ,700 3 ,999 1,425 4 ,000 15,549 -,948 -,202 ,549
9 2 2 ,238 3 1,000 4,229 4 ,000 24,981 -1,944 ,302 2,296
10 2 2 ,099 3 ,991 6,278 4 ,009 14,283 ,436 2,150 2,456
11 2 2 ,123 3 1,000 5,783 1 ,000 20,330 1,379 -1,061 2,982
12 2 1** ,239 3 ,609 4,220 2 ,389 6,501 ,994 -,848 -,746
13 3 3 1,000 3 1,000 ,000 2 ,000 83,320 -8,524 -2,096 -1,536
14 4 4 ,747 3 ,998 1,226 2 ,002 15,552 -,790 2,782 -1,259
15 4 4 ,673 3 ,999 1,542 2 ,001 16,068 1,426 2,897 -,826
16 4 4 ,875 3 1,000 ,694 2 ,000 20,141 ,872 3,636 -,952
17 4 4 ,845 3 1,000 ,818 2 ,000 20,352 -,464 3,178 -1,730
Grupo real: el que se asignó a cada caso en la clasificación inicial.
Grupo mayor: En el que debe estar incluido cada caso, según las funciones
discriminantes y con probabilidad a posteriori de pertenencia a él, P(G=g/ D=d), mayor,
(teorema de Bayes), utilizando la Distancia de Mahalanobis, D2, y la probabilidad
condicionada P(D>d/ G=g)
Segundo grupo mayor: en cuanto al valor de la probabilidad a posteriori.
Puntuaciones discriminantes: las obtenidas al sustituir los valores en las funciones
29
discriminantes canónicas.
Gráfico
Grupo 1:
Andalucía, Castilla-La Mancha,
Extremadura, Valencia y
Murcia.
Grupo 2:
Canarias, Aragón, Castilla-
León, Asturias, Cantabria,
Galicia y La Rioja.
Grupo 3:
Baleares
Grupo 4:
Cataluña, Madrid, Euskadi y
Navarra.
La única Comunidad Autónoma
reclasificada, pasándola del
grupo 2 al 1 Valencia.
30
Conclusiones
Las variables independientes que más discriminan
entre los cuatro grupos iniciales referidos al bienestar
de las autonomías son:
Nivel educativo
Oferta educativa
Vivienda
Convivencia y participación social