You are on page 1of 24

Anlisis Discriminante

El Anlisis Discriminante es una tcnica estadstica multivariante cuya finalidad es analizar si existen diferencias significativas entre grupos de objetos respecto a un conjunto de variables medidas sobre los mismos para, en el caso de que existan, explicar en qu sentido se dan y proporcionar procedimientos de clasificacin sistemtica de nuevas observaciones de origen desconocido en uno de los grupos analizados. En esta leccin aprenderemos los pasos a seguir para llevar a cabo un Anlisis Discriminante.

Al realizar un anlisis Discriminante tenemos que tener en cuenta:

Plantear el problema a resolver por un Anlisis Discriminante Analizar si existen diferencias significativas entre los grupos Establecer el nmero y composicin de las dimensiones de discriminacin entre los grupos analizados Determinar qu variables clasificadoras explican la mayor parte de las diferencias observadas Construir procedimientos sistemticos de clasificacin de objetos de procedencia desconocida en los grupos analizados Evaluar la significacin estadstica y prctica de los resultados obtenidos en el proceso de clasificacin

1.- PLANTEAMIENTO DEL PROBLEMA Sea un conjunto de n objetos divididos en q grupos {Gi; i=1,...,q} de tamaos {ng;g=1,...,q} que constituyen una particin de la poblacin de la que dichos objetos proceden. Sea Y = (Y1,...,Y p)' un conjunto de variables numricas observadas sobre dichos objetos con el fin de utilizar dicha informacin para discriminar entre los q grupos anteriores. Mientras no se diga lo contrario, supondremos que las variables anteriores son cuantitativas. Los objetivos del Anlisis Discriminante pueden sintetizarse en dos: 1) Analizar si existen diferencias entre los grupos en cuanto a su comportamiento con respecto a las variables consideradas y averiguar en qu sentido se dan dichas diferencias 2) Elaborar procedimientos de clasificacin sistemtica de individuos de origen desconocido, en uno de los grupos analizados. Estos dos objetivos dan lugar a dos ramas dentro del Anlisis Discriminante: el Anlisis Discriminante Descriptivo y el Anlisis Discriminante Predictivo, respectivamente. En lo que sigue, analizaremos los pasos a seguir para llevar a cabo ambos tipos de anlisis, ilustrndolos con los dos siguientes ejemplos que muestran una aplicacin del Anlisis Discriminante al marketing basada en datos obtenidos del libro de Hair et al. (1999) y una aplicacin al anlisis econmico internacional, respectivamente.

Ejemplo 1 (Discriminacin con dos grupos) Una empresa est interesada en analizar la opinin de sus clientes con respecto a su labor comercial y de gestin. Para ello realiza una encuesta a una muestra de 100 de ellos en las que le pide que valoren su labor en los siguientes aspectos, haciendo una valoracin entre 0 y 10: Velocidad de Entrega (VENTREGA), Nivel de Precios (NIVPREC), Flexibilidad de Precios (FLEXPREC), Imagen de la Empresa (IMGEMPR), Servicio (SERVICIO), Imagen de Ventas (IMGVENTA) y Calidad de Producto (CALIDAD). Adems, tiene clasificados a sus clientes en dos grupos de acuerdo al tamao de la empresa en la que trabajan: Empresas Pequeas (TAMAO=1) y Empresas Grandes (TAMAO=2). El nmero de clientes pertenecientes a empresas pequeas es igual a 60 y el de empresas grandes es igual a 40. El objetivo del estudio es analizar si existen diferencias en cuanto a la percepcin de su labor empresarial entre los clientes de un grupo y del otro y, en caso de que existan, analizar en qu sentido se dan dichas diferencias. En este caso, por lo tanto, existen 7 variables clasificadoras (p=7) y dos grupos a discriminar (q=2). El tamao de la muestra es n=100 con n1 = 60 y n2 = 40. Ejemplo 2 (Discriminacin con 6 grupos) En este ejemplo analizamos una base de datos correspondiente a datos socio-econmicos de 109 pases del mundo del ao 1995. Dichos paises estn clasificados de acuerdo a 6 regiones econmicas: OCDE, Europa Oriental, Asia/Pacfico, Africa, Oriente Medio y Amrica Latina. Las variables analizadas son el porcentaje de habitantes en ciudades (URBANA), el aumento de la poblacin (INCR_POB), la tasa de natalidad (TASA_NAT), la tasa de mortalidad (TASA_MOR) y las transformaciones logartmicas de la poblacin (LOGPOB), la densidad (LOGDENS), la esperanza de vida femenina (LOGESPF) y masculina (LOGESPM), de la tasa de alfabetizacin (LOGALF), de la tasa de mortalidad infantil (LOGMINF), del cociente nacimientos/muertes (LOGNACDE), de la tasa de fertilidad (LOGFERT) y del PIB per cpita (LOGPIBCA). En este caso se tiene, por lo tanto, que q=6, p=13 y n=109. Adems, n1=21, n2 = 14, n3 = 17, n4=19, n5 = 17 y n6 = 21. El objetivo del estudio es analizar si existen diferencias entre las diversas regiones socioeconmicas y, en caso afirmativo, en qu sentido.

2. CLCULO DE LAS FUNCIONES DISCRIMINANTES La discriminacin entre los q grupos se realiza mediante el clculo de unas funciones matemticas denominadas funciones discriminantes. Existen varios procedimientos para calcularlas siendo el procedimiento de Fisher uno de los ms utilizados que es el que exponemos, a continuacin. 2.1 Procedimiento Discriminante de Fisher El procedimiento de Fisher toma como funciones discriminantes, combinaciones lineales de las variables clasificadoras de la forma:

D = u1Y1 + u2Y2 + ... + u pY p = uY Sean {d gk k=1,,ng; g=1,,q} los valores de la variable D en cada uno de los q grupos donde dgk denota el valor de D en la k-sima observacin del g-simo grupo.

d g = Sean

d
k =1

ng

gk

ng

; g = 1,..., q las medias muestrales de la variable D en cada uno de los q grupos y

d=
sea

d gk
g =1 k =1

q ng

la media de la variable D.

El procedimiento de Fisher determina el vector u que maximiza el cociente:

n g (d g - d )
q g =1

Variabilidad entre grupos = Variabilidad intra grupos

q -1
2 (d gk - d g ) q ng g =1 k =1

u' Bu u ' Wu

n -q
donde:

n-q q -1

W=

(y
g =1 k =1

nj

gk

- y g )( y gk - yg )

'

W
G g =1

G g =1

(y
g =1 k =1 ng Kgk k =1

ng

1gk

- y1g )

... ...

(y
g =1 k =1 G g =1

ng

...

(y

- y Kg )( y1gk - y1g ) ...

y y y ) ( ) 1gk 1g Kgk Kg ... ng 2 ( yKgk - yKg ) k =1

es la matriz de suma de cuadrados intra-grupos


G 2 ... n g (y1g - y1 ) g =1 ... ... G n g (y Kg - y K )(y1g - y1 ) ... g =1

g =1

n g (y1g - y1 )(y Kg - y K )
G

B=

n (y
g g =1

- y )( y g - y )

'

g =1

n g (y Kg - y K )
G

...

es la matriz de suma de cuadrados inter-grupos.

Se impone, adems, la condicin de normalizacion uWu = 1 La solucin viene dada por el vector propio u 1 de W-1 B asociado al mayor valor propio l1 de esta matriz. En general, si se quieren calcular r funciones discriminantes con varianza 1, y que sean incorreladas entre s, es decir, que verifiquen que uiWuj = dij ; i,j=1, ,r, se obtienen como soluciones los r vectores propios de W-1B asociados a los r mayores valores propios de esta matriz l1 lr > 0. A las funciones D i = uiY i=1,,r se les llama funciones discriminantes cannicas o funciones discriminantes de Fisher. Observacin Si r es el nmero de funciones discriminantes se tiene que WD = Ir y B D = diag(l1,,lr) donde WD y BD son las matrices W y B calculadas utilizando las puntuaciones discriminantes. Se sigue que:
i - di ) n g (d g q

li = g =1
i dg

; i=1,...,r

donde {

; g=1,..,q} son las puntuaciones medias de la i-sima funcin discriminante en los q grupos y

es la puntuacin media total. Por lo tanto, los valores propios {li ; i=1,...,r} miden el poder de discriminacin de la i-sima

funcin discriminante de forma que si li = 0 la funcin discriminante no tiene ningn poder discriminante. Dado que el rango de la matriz W-1B es a lo ms min{q-1,p} el nmero mximo de funciones discriminantes que se podrn calcular ser igual a min{q-1,p}. 2.2 Lambda de Wilks Es un estadstico que mide el poder discriminante de un conjunto de variables. Viene dada por

L=

W W+B=

min ( q -1,p ) ) i =1

(1 + li )

y toma valores entre 0 y 1 de forma que, cuanto ms cerca de 0 est, mayor es el poder discriminante de las variables consideradas y cuanto ms cerca de 1, menor es dicho poder. Este estadstico tiene una distribucin lambda de Wilks con p, q-1 y n-q grados de libertad si se verifica la hiptesis nula: Ho: Y/Gi ~ Np(m i,S ); i=1,...,q con m 1 = ... = m q H o: l1 = = l min{q-1,p} = 0

2.3 Correlacin cannica La i-sima correlacin cannica viene dada por:

CRi =

li 1 + l i i = 1,...,r

y mide, en trminos relativos, el poder discriminante de la i-esima funcin discriminante ya que es el porcentaje de la variacin total en dicha funcin que es explicada por las diferencias entre los grupos. Toma valores entre 0 y 1 de forma que, cuanto ms cerca de 1 est su valor, mayor es la potencia discriminante de la i-esima funcin discriminante. 2.4 Determinacin del nmero de funciones discriminantes El nmero de funciones discriminantes significativas se determina mediante un contraste de hiptesis secuencial. Si denotamos por k=nmero de funciones discriminantes significativas el proceso comienza con k=0. En el (k+1)-simo paso del algoritmo la hiptesis nula a contrastar es Ho: lk+1 = = lmin{G-1,p} = 0 y el estadstico de contraste viene dado por:

T=

p + q min {q -1,p} n -1 log (1 + l j ) 2 j=k +1

el cual se distribuye como una c2 (p-k)(q-k-1) si Ho es verdad. El p-valor asociado al contraste viene dado por:

P c2 ( p-k )( q -k -1) Tobs


donde Tobs es el valor observado de T.

El contraste para en el primer valor de k para el cual la hiptesis nula Ho se acepta.

Ejemplo1 (continuacin)
2 .046 1+ 2.046 = 0.82

En las tablas adjuntas se muestran los valores de l1 = 2.046 y de la correlacin cannica

obtenidos mediante el programa SPSS 9.0. As mismo, se muestra el resultado obtenido al aplicar el test de hiptesis secuencial utilizado para determinar el nmero de funciones discriminantes significativas. En este caso el nmero mximo de funciones discriminantes posibles es igual a min{2-1,7} = 1 por lo que slo ser necesario llevar a cabo un test de hiptesis.

La hiptesis nula ser Ho: l1 = 0 y el valor del estadstico T=105.244 correspondiente a una lambda de Wilks igual a 0.328. El p-valor es igual a P c 7 105 .244 =0.000 por lo que la funcin obtenida es
2

significativa y su poder discriminante es alto dado el elevado valor de la correlacin cannica. Resumen de las funciones cannicas discriminantes

Autovalores Correlacin cannica ,820

Funcin 1

Autovalor 2,046a

% de varianza 100,0

% acumulado 100,0

a. Se han empleado las 1 primeras funciones discriminantes cannicas en el anlisis.

Lambda de Wilks Contraste de las funciones 1 Lambda de Wilks ,328

Chi-cuadrado 105,244

gl 7

Sig. ,000

Ejemplo 2 (continuacin) En este caso el nmero de funciones discriminantes calculadas es igual a min{6-1,13}=5. En las tablas subsiguientes se muestran los valores propios, la correlacin cannica y el porcentaje de varianza de discriminacin y el porcentaje acumulado explicados por cada funcin discriminante, los cuales vienen dados

100
por

li

lj
100
y

lj
j=1

lj
j=1

j=1 5

respectivamente. Se observa, por ejemplo, que las 3 primeras funciones

discriminantes explican un 89.1% de la varianza de discriminacin. As mismo, en la siguiente tabla se realiza el contraste para la determinacin del nmero de funciones discriminantes significativas. As, por ejemplo, en el paso 3 se contrasta la hiptesis nula: Ho: l3 = l4 = l 5
2 En este caso T obs = 139.173 y el p-valor P c 33 139.173=0 y se rechazara la hiptesis nula. Se

observa que todas las funciones discriminantes son significativas. Resumen de las funciones cannicas discriminantes

Autovalores Correlacin cannica ,926 ,736 ,698 ,616 ,530

Funcin 1 2 3 4 5

Autovalor % de varianza 6,004a 65,7 1,182a 12,9 ,949a 10,4 ,610a 6,7 ,390a 4,3

% acumulado 65,7 78,7 89,1 95,7 100,0

a. Se han empleado las 5 primeras funciones discriminantes cannicas en el anlisis.

Lambda de Wilks Contraste de las funciones 1 a la 5 2 a la 5 3 a la 5 4 a la 5 5 Lambda de W ilks ,015 ,105 ,229 ,447 ,720

Chi-cuadrado 396,850 212,911 139,173 76,111 31,101

gl 65 48 33 20 9

Sig. ,000 ,000 ,000 ,000 ,000

3. INTERPRETACIN DE LOS RESULTADOS Los resultados obtenidos se interpretan desde dos pticas: - Significado de las dimensiones de discriminacin entre los grupos proporcionadas por las funciones discriminantes mediante el anlisis de la matriz de estructura y de la de los coeficientes estandarizados de las funciones discriminantes. - Anlisis del sentido de la discriminacin entre dichos grupos, es decir, averiguar qu grupos separa cada funcin discriminante y en qu sentido. Este anlisis se lleva a cabo mediante representaciones grficas del espacio de discriminacin as como de perfiles multivariantes correspondientes a cada grupo. 3.1 Matriz de estructura Es una matriz pxr que contiene, por filas, los coeficientes de correlacin de las funciones discriminantes con las variables originales. De esta forma es posible interpretar el significado de las mismas utilizando, para cada una de ellas, aqullas variables con las que est ms correlacionada. De cara a facilitar dicha interpretacin se suelen realizar rotaciones ortogonales del espacio de discriminacin similares a las utilizadas por el Anlisis Factorial. 3.2 Coeficientes estandarizados de las funciones discriminantes Vienen dados por la expresin: u* = F-1u

donde F =

diag(s1jj/ 2 )siendo s

jj

elemento de la diagonal de la matriz

S =W n -G .

A partir de ellos se puede

deducir la expresin matemtica de las funciones discriminantes en trminos de las variables originales estandarizadas. Estos coeficientes son poco fiables si existen problemas de multicolinealidad entre las variables clasificadoras. Ejemplo 1 (continuacin)

En las tablas subsiguientes se muestran los coeficientes estandarizados de la funcin discriminante estimada as como la matriz de estructura. La expresin mtemtica de dicha funcin vendr dada por: D = 0.466Zventrega + 0.084Znivprec +0.538Zflexprec-0.068Zimgempr -0.093Z servicio+0.295Z imgventa-0.6784Z calidad donde Zi indica la tipificacin de la variable i-sima.

Coeficientes estandarizados de las funciones discriminantes cannicas Funcin 1 ,466 ,084 ,538 -,068 -,093 ,295 -,684

Velocidad de Entrega Nivel de Precios Flexibilidad de Precios Imagen de la Empresa Servicio Imagen de las Ventas Calidad del Producto

Matriz de estructura Funcin 1 -,656 ,592 ,568 -,332 ,147 ,030 -,020

Calidad del Producto Flexibilidad de Precios Velocidad de Entrega Nivel de Precios Servicio Imagen de las Ventas Imagen de la Empresa

Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes cannicas tipificadas Variables ordenadas por el tamao de la correlacin con la funcin.

Analizando la matriz de estructura de la funcin discriminante se observa que dicha funcin realiza un contraste entre la Velocidad de Entrega y la Flexibilidad de Precios, por un lado, y la Calidad del Producto y el Nivel de Precios, por el otro, de forma que clientes con un valor de D positivo sern clientes con una tendencia a valorar por encima de la media a la labor de la empresa en aspectos ms especficos como rapidez y flexibilidad y a valorar por debajo aspectos ms genricos como son la calidad del producto y el nivel de precios. Lo contratrio ocurre con clientes con valores de D negativos.

La siguiente tabla contiene las puntuaciones medias

d i ;i=1,2 para cada grupo.

Funciones en los centroides de los grupos Funcin 1 1,156 -1,734

Tamao de la empresa Pequea Grande

Funciones discriminantes cannicas no tipificadas evaluadas en las medias de los grupos


y el grfico subsiguiente los diagramas de caja de dichas puntuaciones

Puntuaciones discriminantes de la funcin 1

97 98

-2

-4
N= 60 40

Pequea

Grande

Tamao de la empresa

Se observa que, las empresas pequeas, tienden a valorar mejor a la empresa en aspectos ms especficos como son la velocidad de entrega y flexibilidad de precios y, por el contrario, las empresas grandes tienden a valorar mejor los aspectos ms generales como son el nivel de precios y la calidad del producto ofrecido. Estos resultados se confirman al comparar los diagramas de caja de cada una de las variables en los dos grupos como se muestra en el grfico siguiente

12

10

6
99

53 99 57 100

82

4 Velocidad de Entrega 2 Nivel de Precios 0 -2


N= 60 60 60 60 40 40 40 40 74

Flex. de Precios Calidad del Producto

Pequea

Grande

Tamao de la empresa

Ejemplo 2 (continuacin) En la tabla subsiguiente se muestra la matriz de estructura de las funciones discriminantes tras aplicar una rotacin varimax. Se observa que la primera funcin discrimina en funcin del equilibrio demogrfico existente en cada pas, la segunda tiene que ver con aspectos relacionados con el crecimiento demogrfico del mismo, la tercera con su calidad de vida y la quinta con su tamao demogrfico. La cuarta funcin, cuyo poder discriminante no es muy alto, no ofrece una interpretacin tan clara aunque parece estar relacionado con el nivel de desarrollo econmico-cultural del pas debido a su mayor correlacin con PIBPCA, Habitantes en ciudades y tasa de alfabetizacin.

Matriz de estructura rotada Funcin 3 -,088 ,480 ,454 ,124 ,473 ,420 ,890* ,846* ,786* -,709* -,545* ,024 ,014

LOGNACDE Tasa de mortalidad (por 1.000 habitantes) Tasa de natalidad (por 1.000 habitantes) Aumento de la poblacin (% anual) LOGFERT LOGALF LOGESPF LOGESPM LOGMINF LOGPIBCA Habitantes en ciudades (%) LOGDENS LOGPOB

1 ,644* -,566* -,084 ,190 -,038 -,008 -,128 -,197 -,036 ,040 ,320 ,053 -,040

2 ,410 ,251 ,745* ,738* ,733* ,602* ,291 ,158 ,337 -,146 -,261 -,112 -,049

4 -,035 -,154 -,197 ,046 -,012 -,322 -,021 ,035 -,082 ,447 ,359 ,085 -,113

5 -,030 -,112 -,137 -,115 -,230 ,051 ,032 -,014 -,009 -,097 -,256 ,616* ,554*

Correlaciones intra-grupo combinadas y rotadas entre las variables discriminantes y las funciones cannicas discriminantes estandarizadas. Variables ordenadas por el tamao de la correlacin con la funcin. *. Mayor correlacin absoluta entre cada variable y cualquier funcin discriminante.

En el grfico siguiente se muestra el diagrama de cajas de las puntuaciones discriminantes estimadas para cada uno de los pases clasificados por regin econmica. Se observa que las dos primeras funciones discriminantes separan, esencialmente, a los pases de la OCDE y de la Europa Oriental del resto debido al mayor equilibrio demogrfico existente en las dos regiones anteriores por su baja natalidad y su baja mortalidad. La tercera funcin separa a los pases de la OCDE debido a su mayor nivel de vida que se traduce en una mayor esperanza de vida, un mayor PIB per cpita y un mayor porcentaje de hombres y mujeres viviendo en ciudades. La cuarta funcin discrimina, esencialmente a las regiones ms pobres y menos desarrolladas (Asia/Pacfico, Africa y Amrica Latina) frente a las ms ricas y menos desarrolladas (OCDE, Europa Oriental y Oriente Medio) La quinta funcin separa a los pases asiticos del resto debido a su mayor poblacin y su mayor densidad. Respecto a la cuarta no se ve un patrn claro de separacin.

4
China

Somalia Emiratos rabes

Marruecos

0
Islandia Nueva Zelanda Pases Bajos Bosnia

Afganistn Egipto Libia

PuntuacinD1 PuntuacinD2

-2
Israel China

PuntuacinD3 PuntuacinD4 PuntuacinD5

-4

Austria Finlandia Portugal

Japn

-6 OCDE Asia / Pacfico frica Oriente Medio Amrica Latina Europa Oriental

Regin econmica

La siguiente figura muestra los perfiles multivariantes de cada regin los cuales corroboran las interpretaciones anteriores.

1,50

1,00

0,50

OCDE Europa Oriental Asia / Pacfico


at al id a AL EN PI BC rP o PO

0,00
d ad S PF E F PM na bl B A F IN rb a lid ES D ES AC FE G M R T

frica Oriente Medio Amrica Latina

ta

In c

LO

LO

or

LO

LO

LO

LO

LO

-0,50

-1,00

-1,50

LO

LO

4.- SELECCIN DE VARIABLES CLASIFICADORAS El problema de seleccin de variables intenta responder a la pregunta Son necesarias todas las variables clasificadoras para discriminar? Para responderla existen, esencialmente, tres tipos de algoritmos: algoritmos de seleccin de variables hacia adelante, eliminacin hacia atrs y de regresin por pasos. Los algoritmos de seleccin hacia adelante comienzan eligiendo la variable que ms discrimina entre los q grupos. A continuacin seleccionan la segunda ms discriminante y as sucesivamente. Si de las variables que quedan por elegir ninguna discrimina de forma significativa entre los grupos analizados el algoritmo finaliza. Los algoritmos de eliminacin hacia detrs proceden de forma inversa a los anteriores. Se comienza suponiendo que todas las variables son necesarias para discriminar y se elimina la menos discriminante entre los grupos analizados y as sucesivamente. Si las variables no eliminadas discriminan significativamente entre los grupos analizados el algoritmo finaliza. Los algoritmos de regresin por pasos utilizan una combinacin de los dos algoritmos anteriores permitiendo la posibilidad de arrepentirse de decisiones tomadas con precipitacin bien sea eliminando del conjunto seleccionado una variable introducida en el conjunto de discriminacin en un paso anterior del algoritmo, bien sea introduciendo en dicho conjunto una variable eliminada con anterioridad. Para determinar qu variables entran y salen en cada paso de este tipo de algoritmos se utilizan diversos criterios de entrada y salida. Uno de los ms utilizados es el de la lambda de Wilks que es el que exponemos, a continuacin. Otros criterios pueden verse, por ejemplo, en el manual del SPSS 9.0. 4.1 Criterio de la lambda de Wilks Utiliza la lambda de Wilks para medir la potencia discriminante ganada/perdida al introducir/sacar una variable del conjunto de discriminacin. Sea Lq la lambda de Wilks basada en las q primeras variables. Para ver si es necesario incluir la variable Yq+1 en el conjunto de discriminacin se utiliza el estadstico
n - G - q L q - 1 G -1 L q +1 ~ F G-1,n-G-q

F=

si la variable Yq+1 no aporta informacin relevante al proceso de discriminacin entre los grupos. Un valor alto/bajo de F indica una prdida significativa/no significativa de informacin si la variable Yq+1 no es incluida/es incluida en el conjunto de discriminacin. Utilizando dicha variable es posible, por ejemplo, proporcionar un p-valor de entrada y otro de salida de forma que si el p-valor obtenido al introducir una variable en el conjunto de discriminacin, no es inferior al pvalor de entrada, la variable considerada no entra en dicho conjunto y si el p-valor obtenido al eliminarla del conjunto de discriminacin no es superior al de salida, la variable considerada no sale de dicho conjunto.

Ejemplo 1 (continuacin) En las tablas subsiguientes se muestran los resultados obtenidos al aplicar el algoritmo de seleccin de variables utilizado por SPSS 9.0. tomando como criterio de entrada un p-valor igual a 0.05 y como criterio de salida un p-valor igual a 0.10. Las variables seleccionadas son (por orden de seleccin) la calidad del producto, la flexibilidad de precios y la velocidad de entrega no siendo eliminada del conjunto de discriminacin, ninguna de las variables seleccionadas. Estadsticos por pasos
a,b,c,d Variables introducidas/eliminadas

Lambda de Wilks F exacta Paso 1 2 3 Introducidas Calidad del Producto Flexibilidad de Precios Velocidad de Entrega Estadstico ,532 ,388 ,341 gl1 1 2 3 gl2 1 1 1 gl3 98,000 98,000 98,000 Estadstico 86,200 76,552 61,879 gl1 1 2 3 gl2 98,000 97,000 96,000 Sig. ,000 ,000 ,000

En cada paso se introduce la variable que minimiza la lambda de Wilks global. a. El nmero mximo de pasos es 14. b. La significacin mxima de F para entrar es .05. c. La significacin mnima de F para salir es .10. d. El nivel de F, la tolerancia o el VIN son insuficientes para continuar los clculos.

Variables en el anlisis Sig. de F que eliminar ,000 ,000 ,000 ,000 ,000 ,000 Lambda de Wilks ,583 ,532 ,460 ,414 ,388

Paso 1 2 3

Calidad del Producto Calidad del Producto Flexibilidad de Precios Calidad del Producto Flexibilidad de Precios Velocidad de Entrega

Tolerancia 1,000 1,000 1,000 ,992 ,970 ,963

Variables no incluidas en el anlisis Tolerancia mn. 1,000 1,000 1,000 1,000 1,000 1,000 1,000 ,992 ,928 1,000 ,948 ,977 ,920 ,963 ,836 ,936 ,969 ,914 ,835 ,920 ,547 ,903 Sig. de F que introducir ,000 ,000 ,000 ,779 ,040 ,674 ,000 ,000 ,099 ,000 ,172 ,012 ,023 ,000 ,842 ,085 ,009 ,019 ,758 ,241 ,742 ,066 Lambda de Wilks ,602 ,816 ,583 ,999 ,958 ,998 ,532 ,414 ,517 ,388 ,522 ,498 ,504 ,341 ,388 ,376 ,361 ,366 ,341 ,336 ,340 ,329

Paso 0

Velocidad de Entrega Nivel de Precios Flexibilidad de Precios Imagen de la Empresa Servicio Imagen de las Ventas Calidad del Producto Velocidad de Entrega Nivel de Precios Flexibilidad de Precios Imagen de la Empresa Servicio Imagen de las Ventas Velocidad de Entrega Nivel de Precios Imagen de la Empresa Servicio Imagen de las Ventas Nivel de Precios Imagen de la Empresa Servicio Imagen de las Ventas

Tolerancia 1,000 1,000 1,000 1,000 1,000 1,000 1,000 ,992 ,928 1,000 ,948 ,977 ,920 ,963 ,836 ,936 ,969 ,914 ,835 ,920 ,550 ,903

Las tablas subsiguientes muestran los resultados obtenidos utilizando las variables seleccionadas. Se observa que los resultados obtenidos son esencialmente los mismos que los obtenidos utilizando todas las variables. Resumen de las funciones cannicas discriminantes

Autovalores Correlacin cannica ,812

Funcin 1

Autovalor % de varianza 1,934a 100,0

% acumulado 100,0

a. Se han empleado las 1 primeras funciones discriminantes cannicas en el anlisis.

Lambda de Wilks Contraste de las funciones 1 Lambda de Wilks ,341 Chi-cuadrado 103,860 gl 3 Sig. ,000

Coeficientes estandarizados de las funciones discriminantes cannicas Funcin 1 ,437 ,526 -,629

Velocidad de Entrega Flexibilidad de Precios Calidad del Producto

Matriz de estructura Funcin 1 -,674 ,609 ,584 -,378 -,193 -,163 ,120

Calidad del Producto Flexibilidad de Precios Velocidad de Entrega Nivel de Precios a Imagen de las Ventas a Imagen de la Empresa a Servicioa

Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes cannicas tipificadas Variables ordenadas por el tamao de la correlacin con la funcin. a. Esta variable no se emplea en el anlisis.
4.2 Inconvenientes de los procedimientos de seleccin de variables Conviene destacar los siguientes (ver Huberty (1989) para ms detalles). 1) 2) 3) 1) No tienen por qu llegar a la solucin ptima 2) Utilizan como criterios de seleccin, criterios de separacin de grupos y no de clasificacin 3) El nivel de significacin global es superior al establecido para entrar y sacar variables debido a la realizacin simultnea de varios test de hiptesis. 4. PROCEDIMIENTOS DE CLASIFICACIN Existen varios mtodos de clasificacin dependiendo del nmero de grupos a clasificar (dos o ms grupos), de las hiptesis hechas acerca del comportamiento de las variables en cada grupo (normalidad conjunta, homocedasticidad) as como del criterio utilizado para llevar a cabo dicha clasificacin. Uno de los criterios ms utilizados es el criterio Bayes que es el que expondremos, a continuacin, distinguiendo entre el caso de dos y ms de dos grupos, si la discriminacin se lleva a cabo bajo hiptesis de normalidad o no normalidad y/o bajo hiptesis de homo y heterocedasticidad.

4.1 Discriminacin de dos poblaciones normales homocedsticas Suponer que Y ~ Np(m i,S ) i=1,2 en cada uno de los grupos. Sea y el valor de las variables de clasificacin de una nueva observacin cuya pertenencia a uno de los dos grupos se desconoce. El criterio Bayes utiliza el teorema de Bayes para determinar a qu grupo pertenece. Para ello considera {pi = P[Gi] i=1,2} las probabilidades a priori de que la observacin considerada

pertenezca a cada grupo. Se suelen tomar pi = 0.5 i=1,2 si no se dispone de informacin previa o pi = i=1,2 si los tamaos muestrales de cada grupo reflejan la composicin de la poblacin analizada. Aplicando el teorema de Bayes se tiene que:

ni n

p f ( y) i i PG y = i p f ( y) + p f ( y) 11 2 2 ; i=1,2
donde fi(y) exp[-0.5 (y-m i)S -1(y-m i)] i=1,2 son las funciones de densidad de Y en cada uno de los grupos. La observacin y se asignar al grupo G 1 si: P[G1 | y] > P[G 2 | y ] p1 f1(y) > p2 f2(y)
p

[ ]

(y-m 1)S (y-m 1) < (y -m 2)S (y-m 2) - log

-1

-1

2 p 1
p

yS -1(m 2-m 1) < 0.5(m 1+m 2)S -1(m 2-m 1) - log Observaciones 1)

2 p 1

1) Si p1 = p2 el criterio Bayes asignar la observacin y al grupo cuya media, m i, est a menor distancia de Mahalanobis la cual viene dada por d(y,m i) = (y-m i)S -1(y-m i). Esta distancia tambin se utiliza para examinar la existencia de atpicos. Para ello se utiliza el hecho de que, bajo hiptesis de normalidad, Dobs= d - d i ' SD (d - di )~

-1

c2 k -1 donde

d = (d 1,...,dk)'

son las puntuaciones en las k

funciones

discriminantes de cada individuo y SD es su matriz de varianzas y covarianzas. Para evaluar si un punto es sospechoso de ser atpico se calcula el p-valor dado por:

P c2 k -1 D obs
2)

2) El criterio Bayes utiliza como funcin de clasificacin, la funcin lineal dada por yS -1(m 2-m 1) y

2 p establece como punto de corte entre los dos grupos 0.5(m 1+m 2)S (m 2-m 1) - log 1
-1

3)

3) Geomtricamente, el espacio p-dimensional de los objetos queda dividido en dos regiones separadas
p 2 p 1

por el hiperplano yS (m 2-m 1) = 0.5(m 1+m 2)S (m 2-m 1) - log 4) que la matriz de prdidas viene dada por: Asignado\Verdadero G1 G2 G1 0 c21

-1

-1

4) Si existe un coste asociado diferente a la asignacin incorrecta a cada uno de los grupos, de forma

G2 c12 0

se calculan las prdidas esperadas medias a posteriori: L(Asignar a G1/y ) = c12P[G2 | y] L(Asignar a G2/y ) = c21P[G1 | y] y se asigna la observacin y al grupo G1 si: L(Asignar a G1/y ) < L(Asignar a G2/y )

c 21p 2 y S (m 2-m 1) < 0.5(m 1+m 2)S (m 2-m 1) - log c12 p1


-1 -1

4.2 Discriminacin de dos poblaciones normales heterocedsticas Si Y ~ Np(m i,S i) i=1,2 en cada uno de los grupos con S1 S2 entonces las funciones de densidad de Y vendrn dadas por: fi(y) |S i|-1/2exp[-0.5(y-m i)S i-1(y-m i)] i=1,2 y se tendr que: P[G1/y ] > P[G2/y]

(y-m 1)S 1-1(y-m 1) - (y-m 2)S 2-1(y-m 2) < log

S 2 p1 S1 p 2

La funcin discriminante ser, por lo tanto, la forma cuadrtica (y-m 1)S 1-1(y-m 1) - (y-m 2)S 2-1(y-m 2) en lugar de ser una funcin lineal como en el caso anterior. Coviene hacer notar, sin embargo, que el criterio lineal especificado anteriormente es ms robusto que el criterio cuadrtico a la hiptesis de normalidad y es el que se suele utilizar habitualmente.

4.3 Discriminacin de q grupos Los criterios vistos con dos grupos se generalizan a ms de dos grupos de forma trivial. As, por ejemplo, suponer que Y ~ Np(m i,S ) i=1,,q en cada uno de los grupos Las funciones de densidad de Y vendrn dadas por: fi(y) exp[-0.5(y-m i)S -1(y-m i)] i=1,,q El criterio Bayes clasifica la observacin y en el grupo g si:

P[Gg/y ] = k =1,..., q P[Gk/y ]

max

y S -1m g - 0.5 m gS -1m g + log pg = k =1,...,q { yS -1m k - 0.5m kS -1m k+ log pk} Las funciones discriminantes son lineales y vienen dados por: yS -1m g - 0.5m gS -1m g + log pg g = 1,,q

max

Ejemplo 1 (continuacin) La siguiente tabla contiene los resultados obtenidos, para 10 clientes de la empresa, en el proceso de clasificacin aplicando el criterio Bayes con probabilidades a priori iguales para cada grupo y bajo hiptesis de homocedasticidad y normalidad. SPSS 9.0 (como muchos otros programas) calcula las probabilidades a posteriori de cada grupo para cada caso, as como la distancia de Mahalanobis. As, por ejemplo, para el caso 1, perteneciente al grupo 1, el grupo pronosticado utilizando todos los casos del anlisis es el grupo 1 debido a que P(G=1/D=d)=0.934 frente a P(G=2/D=d)=0.066. La distancia de Mahalanobis al centroide de este grupo es igual a 0.279 y el p-valor caso no es sospechoso de ser atpico.
2 P c1 0.279 =0.597 por lo que dicho

Estadsticos de clasificacin
Estadsticos por casos Puntuacio nes discrimin antes

Grupo mayor Distancia de Mahalanobis al cuadrado hasta el centroide ,279 ,105 ,026 ,142 1,444 ,055 ,084 ,344 ,239 ,925 7,754 8,818 6,201 4,371 5,176 3,935 8,819 11,559 6,124 5,640

Segundo grupo mayor Distancia de Mahalanobis al cuadrado hasta el centroide 5,580 10,330 9,309 6,314 2,852 7,057 10,109 12,088 5,767 14,837 12,533 18,822 15,245 10,252 6,168 10,688 18,606 23,228 11,241 19,622

Nmero de casos Original 1 2 3 4 5 6 7 8 9 10 a Validacin cruzada 1 2 3 4 5 6 7 8 9 10

Grupo real 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

Grupo pronosticado 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

P(D>d | G=g) p gl ,597 ,746 ,872 ,706 ,230 ,815 ,772 ,557 ,625 ,336 ,355 ,266 ,516 ,736 ,639 ,787 ,266 ,116 ,525 ,582

1 1 1 1 1 1 1 1 1 1 7 7 7 7 7 7 7 7 7 7

P(G=g | D=d) ,934 ,994 ,990 ,956 ,669 ,971 ,993 ,997 ,941 ,999 ,916 ,993 ,989 ,950 ,622 ,967 ,993 ,997 ,928 ,999

Grupo 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2

P(G=g | D=d) ,066 ,006 ,010 ,044 ,331 ,029 ,007 ,003 ,059 ,001 ,084 ,007 ,011 ,050 ,378 ,033 ,007 ,003 ,072 ,001

Funcin 1 ,628 1,480 1,317 ,779 -,045 ,922 1,445 1,743 ,667 2,118

Para los datos originales, la distancia de Mahalanobis al cuadrado se basa en funciones cannicas. Para los datos validados mediante validacin cruzada, la distancia de Mahalanobis al cuadrado se basa en observaciones. a. La validacin cruzada slo se aplica a los casos del anlisis. En la validacin cruzada, cada caso se clasifica mediante las funciones derivadas a partir del resto de los casos.

4.4 Homocedasticidad La homocedasticidad es una hiptesis que se utiliza en algunas de las tcnicas multivariantes (ANOVA, MANOVA, Anlisis Discriminante) y se refiere a suponer la igualdad de las matrices de varianzas y covarianzas de las variables analizadas en diversos grupos. El propsito de los test de homocedasticidad es contrastar la existencia de esta igualdad que, en muchas ocasiones, va ligada a una falta de normalidad de las variables analizadas. Para ello se suele utilizar el test M de Box. Este test toma como hiptesis nula la de homocedasticidad y como alternativa la de heterocedasticidad (desigualdad de matrices de varianzas y covarianzas), es decir: Ho: S1 = = S G vs H1: No todas S g son iguales El estadstico del test est construido a partir del estadstico:

g =1

n g -1

Sg
n-q 2

M=

Wg
donde Sg =

ng -1

; g = 1,,q y

S=

W
i =1

n-q

Observaciones 1) La hiptesis de normalidad es necesaria para los test de significacin de las funciones discriminantes. El efecto de la falta de normalidad sobre la regla de clasificacin es menor. Si no hay normalidad se aconseja utilizar otros procedimientos como, por ejemplo, la regresin logstica 2) La hiptesis de homocedasticidad afecta a la validez de los test de significacin y de la regla de clasificacin. La violacin de esta hiptesis puede producir graves desajustes si hay diferencias grandes entre el tamao de los grupos y si el nmero de variables es elevado Si hay normalidad conviene utilizar la regla de clasificacin cuadrtica especialmente si el tamao muestral es grande 3) Una posible solucin a los problemas de la falta de normalidad y homocedasticidad es llevar a cabo transformaciones de las variables. Las transformaciones ms utilizadas son las de Box-Cox que vienen dadas por (X+C)p con C, p ctes reales p0 y log(X+C) si p = 0. En general si la distribucin es muy asimtrica hacia la derecha se pueden intentar transformaciones del tipo anterior con p < 1 (las ms utilizadas son con p = 0.5 y la transformacin logartmica). Si lo es hacia la izquierda se aplica la transformacin a - X. Si la distribucin de los datos es muy leptocrtica (curtosis muy grande) se suelen utilizar valores de p< 0 (el ms utilizado es p = -1). Si es platicrtica entonces conviene utilizar valores de p > 1. Una forma empirica de determinar el valor de p ms apropiado son los grficos nivel-dispersin (Spread-versus-level-plot). Dichos grficos representan en abscisas un estimador robusto del logaritmo del nivel medio por grupos (en SPSS el logaritmo de la mediana) y en ordenadas un estimador robusto de la dispersin (en SPSS el logaritmo del rango intercuartlico) y estiman el coeficiente de regresin b mediante regresin lineal. A partir de b es posible deducir cul es el valor de p ms apropiado. 4.5 Discriminacin no paramtrica Si no hay normalidad conjunta existen varias opciones posibles: - Transformar las variables para conseguir normalidad - Llevar a cabo el anlisis con los rangos - Utilizar estimadores no paramtricos de fi(y) Si algunas de las variables clasificadoras no sean cuantitativas. En estos casos se suelen transformar a cuantitativas. La forma de llevar a cabo este paso depende del tipo de variable - Las variables binarias se transforman a 0-1 - Las variables ordinales se transforman en rangos Las variables nominales utilizan transformaciones basadas en sus distribuciones de frecuencias como, por ejemplo, la de Lancaster-Fisher descrito, por ejemplo, en Huberty (1994), Captulo 10. 5.- EVALUACIN DEL PROCEDIMIENTO DE CLASIFICACIN Se evaluan tres aspectos del mismo: su eficiencia, su significacin estadstica y su significacin prctica

5.1 Evaluacin de la eficiencia Para evaluar su eficiencia se construye la tabla de confusin que es una tabla de frecuencias cruzadas que refleja los resultados de aplicar dicho procedimiento a los casos observados. As, en el caso de la discriminacin de dos grupos dicha tabla sera de la forma: Grupo Predicho 1 Grupo Real 1 2 n11 n21 2 n12 n22

donde nij es el nmero de casos pertenecientes al grupo i y para los cuales el mecanismo de clasificacin ha predicho que pertenecen al grupo j. La proporcin de bien clasificados vendr dada por:

100

n 11 + n 22 n %

El proceso de evaluacin se puede llevar a cabo de varias formas. 3 de las ms utilizadas son las siguientes: - Con los casos utilizados en el anlisis - Dividiendo la muestra en dos partes: una para estimar las funciones discriminantes y otra para evaluarla - Utilizando, para cada caso, las funciones discriminantes estimadas mediante el resto de los casos El primer procedimiento no es muy aconsejable puesto que tiende a sobrevalorar el proceso de clasificacin. Suele funcionar bien si ming ng > 5p. El segundo procedimiento es aconsejable si n es suficientemente grande y funciona bien si ming n g > 3p tomando en torno a un 35% de la muestra para validar. En el resto de los casos se aconseja el tercer procedimiento. Otros procedimientos para evaluar el mecanismo de prediccin pueden verse en Huberty (1994) captulo 6. 5.2 Significacin estadstica Se evala comparando los resultados obtenidos con los que se obtendran aplicando un mecanismo aleatorio. Los dos mecanismos ms utilizados son el criterio de aleatoriedad proporcional, que clasifica de

n g ; g = 1,...q n y el de mxima aleatoriedad que clasifica todas las observaciones acuerdo a la distribucin
asignndolas al grupo de mayor tamao. Para comparar los resultados se utilizan estadsticos con distribucin aproximadamente normal bajo la hiptesis de que no existen diferencias. As, en el caso de que el criterio utilizado sea el del menanismo aleatorio.

(o g - e g ) n g
Zg =

e g (n g - e g )

para evaluar los resultados en cada grupo y

(o - e) n e(n - e) Z=
con para evaluar el proceso globalmente siendo: og = n gg nmero de clasificaciones correctas en el grupo g

n2 g eg = n el nmero esperado de dichas clasificaciones

o=

o
g =1

nmero de clasificaciones correctas

e=

e
g =1

el nmero de clasificaciones correctas esperadas

5.3 Significacin prctica An cuando un procedimiento sea significativamente mejor que un mecanismo aleatorio desde un punto estadstico, no tiene por qu ser mucho mejor desde un punto de vista prctico. Debido a esto es necesario medir el grado de mejora de la regla propuesta con respecto a la clasificacin debida al azar.

Para ello se utiliza el ndice I cuya expresin viene dada por:

o e n n e 1n x 100 si se evala al proceso globalmente I=

Ig =

og eg ng ng e 1- g ng

x 100 si se evala al proceso en el grupo g

Este ndice mide el procentaje de reduccin en el error que resultara si se utilizara la regla propuesta por el Anlisis Discriminante.

Ejemplo 1 (continuacin) La tabla subsiguiente muestra la tabla de confusin obtenida utilizando todos los casos del anlisis y el procedimiento de validacin cruzada. Se observa, en particular, que el procedimiento de clasificacin ha

funcionado correctamente en un 89% =

100

51 + 38 50 + 37 100 100 si el 100 de los casos originales y un 87%=

procedimiento seguido en la evaluacin de la eficiencia, ha sido el de validacin cruzada.

b,c Resultados de la clasificacin

Original

Recuento %

Validacin cruzadaa

Recuento %

Tamao de la empresa Pequea Grande Pequea Grande Pequea Grande Pequea Grande

Grupo de pertenencia pronosticado Pequea Grande 51 9 2 38 85,0 15,0 5,0 95,0 50 10 3 37 83,3 16,7 7,5 92,5

Total 60 40 100,0 100,0 60 40 100,0 100,0

a. La validacin cruzada slo se aplica a los casos del anlisis. En la validacin cruzada, cada caso se clasifica mediante las funciones derivadas a partir del resto de los casos. b. Clasificados correctamente el 89,0% de los casos agrupados originales. c. Clasificados correctamente el 87,0% de los casos agrupados validados mediante validacin cruzada.

En la siguiente tabla se evala la significacin estadstica y la significacin prctica de los resultados obtenidos comparando el procedimiento de clasificacin con el mecanismo aleatorio proporcional. Grupo Pequeas Grandes Global eg 36 16 52 Zg 3.69 6.78 7.01 p-valor 0.00 0.00 0.00 Ig 41.67 12.50 27.08

As, por ejemplo, e1 =

60

60 100 = 36 es el nmero esperado de xitos obtenidos en el grupo de

(50 - 36)
empresas pequeas mediante el mecanismo aleatorio proporcional y Z1 =

60 36 x 24 =3.69 y el p-valor es

60 - 50
P[Z3.69]=0.00. La significacin prctica ser igual a I1 = 60 - 36

100

= 41.67 por lo que nuestro mecanismo

mejora al azar en un 41.67% en las empresas pequeas. Se observa que todos los resultados son significativos aunque la mejora prctica, en cada uno de ellos no es excesivamente alta.

Resumen El Anlisis Discriminante es una tcnica estadstica multivariante con una finalidad doble: 1) 1) Un fin descriptivo consistente en analizar si existen diferencias entre una serie de grupos en los que se divide una poblacin, con respecto a un conjunto de variables y, en caso afirmativo, averiguar a qu se deben 2) 2) Un fin predictivo consistente en proporcionar procedimientos sistemticos de clasificacin de nuevas observaciones de origen desconocido en algunos de los grupos considerados. Para llevar a cabo un anlisis de este tipo se deben los siguientes pasos: 1) 2) 3) 4) 1) Plantear el problema a resolver 2) Analizar si existen diferencias significativas entre los grupos 3) Establecer el nmero y composicin de las dimensiones de discriminacin entre los grupos analizados 4) Evaluar los resultados obtenidos desde un punto de vista predictivo analizando la significacin estadstica y prctica del procedo de discriminacin Conviene hacer notar, finalmente, que el Anlisis Discriminante no es la nica tcnica estadstica implicada en el proceso de clasificacin de observaciones en grupos previamente fijados por el analista. Otra alternativa interesante viene dada por los modelos de regresin con variable dependiente cualitativa (de los que el Anlisis Discriminante podra considerarse un caso particular) como son, por ejemplo, los modelos de regresin logit y probit que son desarrollados en otras pginas Web de este portal. Bibliografa Como libro de consulta dedicado exclusivamente al Anlisis Discriminante y con un montn de referencias adicionales recomiendo: HUBERTY, C.J. (1994). Applied Discriminant Analysis. Wiley. Interscience Libros de Anlisis Multivariantes que contienen buenos captulos acerca del Anlisis Discriminante. Desde un punto de vista ms prctico: AFIFI, A.A. and CLARK, V. (1996) Computer-Aided Multivariate Analysis. Third Edition. Texts in Statistical Science. Chapman and Hall. EVERITT, B. And GRAHAM, D. (1991). Applied Multivariate Data Analysis. Arnold. HAIR, J., ANDERSON, R., TATHAM, R. y BLACK, W. (1999). Anlisis Multivariante. 5 Edicin. Prentice Hall. SHARMA, S. (1998). Applied Multivariate Techiques. John Wiley and Sons. URIEL, E. (1995). Anlisis de Datos: Series temporales y Anlisis Multivariante. Coleccin Plan Nuevo. Editorial AC. Desde un punto de vista ms matemtico: JOBSON, J.D. (1992) Applied Multivariate Data Analysis. Volume II: Categorical and Multivariate Methods. Springer-Verlag. MARDIA, K.V., KENT, J.T. y BIBBY, J.M. (1994). Multivariate Analysis. Academic Press. Enfocados hacia SPSS: FERRAN, M. (1997). SPSS para WINDOWS. Programacin y Anlisis Estadstico. Mc.Graw Hill. VISAUTA, B. (1998) Anlisis Estadstico con SPSS para WINDOWS (Vol II. Anlisis Multivariante). Mc-Graw Hill.