You are on page 1of 8

Medidas de disimilitud

Partimos de una matriz de informacin que contiene las observaciones de todas las variables sobre los diferentes elementos considerados (ver Tabla 1), y calculamos las diferencias entre dichos elementos mediante alguna de las medidas de disimilitud habituales: la distancia euclidiana (

( X rj X sj ) 2 ), su cuadrado, la distancia de City-Block ( X rj X sj ),


j =1 j =1

la de Mahalanobis, la de Minkowski, la de Tchebychef, etc. Todas ellas proporcionan ordenaciones muy similares de las distancias en casi todos los casos. Tabla 1 X2 X12 X22 ... XK2

Para clasificar los elementos en clusters utilizaremos algoritmos jerrquicos, que pueden ser acumulativos (se forman grupos haciendo clusters cada vez ms grandes) o disminutivos (partiendo de un solo grupo se separan los elementos en clusters cada vez ms pequeos). Entre los algoritmos jerrquicos acumulativos destacan los siguientes mtodos: Mtodo de las distancias mnimas: se busca la mayor semejanza entre los elementos o grupos ms cercanos. Mtodo de las distancias mximas: se calcula la mnima distancia entre los elementos ms alejados. Mtodo de las distancias medias: se calcula la media de las distancias entre elementos.

ww

w.

Algoritmos de clasificacin

at

em

at

ic a1

Elementos 1 2 ... K

X1 X11 X21 ... XK1

... ... ... ... ...

XJ X1J X2J ... XKJ

.c o

Presentacin de los resultados


Para representar la estructura jerrquica de la formacin de los conglomerados se utiliza el dendograma, un grfico que tiene forma de rbol invertido. As, a partir de los K elementos observados podemos identificar desde 1 hasta K clusters, segn el nmero de grupo que queramos obtener, sin ms que realizar la segmentacin horizontal adecuada. Es recomendable trabajar con datos estandarizados, para eliminar el efecto de la escala de medida, y as poder aplicar el anlisis sobre variables que presentan similares valores medios y desviaciones estndar, lo cual facilita la interpretacin.
ww w.

at

em

at

ic

a1

.c o

CASOS PRCTICOS CON SOFTWARE___________________________________


Calificaciones escolares
Vamos a utilizar los datos del archivo asignaturas.mtw, que recogen las calificaciones de los 15 alumnos de una clase en diversas asignaturas Stat Multivariate Cluster Observations...

ww

Tal y como podemos apreciar en los grficos siguientes, solicitaremos el anlisis con las variables estandarizadas, as como el dendograma (representado en funcin de las distancias).

w.

at

em

at

ic

a1

.c o

ww w.

M at em at ic a1
.c om

La salida que ofrece Minitab es la siguiente:


Hierarchical Cluster Analysis of Observations
Standardized Variables, Euclidean Distance, Single Linkage Amalgamation Steps Step Number of Similarity clusters level 1 14 88,47 2 13 87,54 3 12 82,03 4 11 80,93 5 10 77,12 6 9 75,35 7 8 75,34 8 7 72,74 9 6 71,89 10 5 71,85 11 4 64,00 12 3 63,87 13 2 59,97 14 1 59,21 Distance level 0,871 0,941 1,357 1,441 1,728 1,862 1,862 2,059 2,123 2,126 2,720 2,729 3,024 3,081 Clusters New Number of obs. joined cluster in new cluster 10 13 10 2 1 15 1 2 4 10 4 3 1 3 1 3 1 7 1 4 1 2 1 5 6 8 6 2 1 6 1 7 1 4 1 10 1 9 1 11 1 11 1 12 1 14 1 13 1 12 1 14 1 5 1 15

Donde s nos detendremos es en la interpretacin del dendograma:

2,05

1,03

0,00 1 15 3 7 2 6 8 4 10 13 9 11 14 12 5

ww w.

3,08

En el dendograma queda reflejada la formacin de los conglomerados, as como las distancias entre ellos. Se puede comprobar, por ejemplo, que la observacin ms distante al resto es la del alumno nmero 5, ya que es la ltima (mayor distancia) en incorporarse al cluster final, seguida de la 12 y la 14. Por el contrario, las observaciones ms cercanas entre s son la 10 y la 13, que forman el primer grupo (distancia ms prxima a 0), y la 1 y la 15, que forman el segundo.

at

Distance

Observations

em

at

ic

a1

.c

Aqu se nos muestra el proceso de creacin de cada cluster, pero no entraremos a analizarlo con detalle, ya que excede el nivel de esta asignatura.

om

El dendograma tambin nos sirve para saber la composicin de cada cluster en cada paso: por ejemplo, si quisiramos hacer una divisin en 5 conglomerados bastara con trazar la lnea azul y comprobaramos que las observaciones 5, 11, 12 y 14 quedaran aisladas (formando cada una de ellas un cluster de tamao 1), y el resto de observaciones formaran otro grupo. Sin embargo, si deseramos conocer la divisin en 8 conglomerados trazaramos la lnea roja, y obtendramos la siguiente distribucin: CLUSTER 1 2 3 4 5 6 7 8 OBSERVACIONES 1, 2, 3, 7, 15 6, 8 4, 10, 13 9 11 14 12 5

ww w.

at

em

at

ic a

1.c

om

Divisin en distritos de una ciudad


Procedemos anlogamente con el archivo entidades.mtw, que recoge datos relativos a los distritos de la ciudad de Valencia (Fuente: Anuario Estadstico de Valencia 1999). Las variables son las siguientes: NOMBRE (Nombre abreviado del distrito), SUPERFICIE (Superficie del distrito en m2), HABITANTES (Nmero de habitantes), TURISMOS (Nmero de turismos), VIVIENDAS (Nmero de viviendas), A E Industriales (Nmero de actividades econmicas industriales), ENTIDADES BANCARIAS y TIPO (1: Centro, 2: Pericentro, 3: Periferia). Obtenemos el dendograma que aparece ms abajo, y nos interesa responder a las siguientes preguntas: a) Cules son las dos observaciones ms similares entre s? b) Cules son las dos observaciones ms distintas al resto? c) Si realizamos una divisin en 4 grupos, qu observaciones contendra cada grupo? Y si la divisin fuera en 7 grupos? d) Qu se podra decir sobre la homogeneidad de los datos?

Distance
3,62

2,41

1,21

0,00
1 4 14 2 3 11 5 12 7 8 9 15 13 16 10 6 17 18 19

ww

w.

a) Las observaciones ms similares entre s son las que menor distancia presentan: en este caso, la 5 y la 12. b) La observacin ms distinta al resto es claramente la 19, ya que es la ltima que se incorpora al grupo, siendo su distancia a l la mayor; la siguiente es la 1. c) Realizando 4 conglomerados (lnea azul), uno de ellos contendra a la observacin 19, otro a la 1, otro a la 17 y la 18, y el resto de observaciones (2-16) formaran un grupo. Con 7 grupos (lnea roja), seis de ellos seran individuales (observaciones 1, 6, 10, 17, 18, 19) y todas las dems observaciones formaran el grupo restante.

d) Podemos considerar que en general los datos son bastante homogneos, ya que la mayora de
observaciones quedan a una distancia inferior a 2 del resto; sin embargo, hay algunas que se alejan mucho de las dems, como es el caso de la 1 y la 19.

at

em
Observations

at ic

a1

.c om

BIBLIOGRAFA
[1] [2] [3]

______________________________________________

Bar, J. y Alemany, R. (2000): Estadstica II. Ed. Fundaci per a la Universitat Oberta de Catalunya. Barcelona. Pea Snchez de Rivera, D. (1987): Estadstica. Modelos y Mtodos. Volumen 2. Alianza Editorial. Madrid. ISBN: 84-206-8110-5 Johnson, R. R. (1996): Elementary statistics. Belmont, etc. : Duxbury, cop

[4] Martn-Guzmn, P. (1991): Curso bsico de estadstica econmica. AC, DL. Madrid. ISBN: 84-7288-142-3

ENLACES
http://www.5campus.org/leccion/cluster

___________________________________

Leccin sobre Anlisis Cluster (Universidad de Zaragoza) www.ual.es/~freche/practicas/practica7/practica7.html

ww

w.

at

Modelos y tcnicas de anlisis de datos (Universidad de Vigo)

em

http://home-3.tiscali.nl/~xp117079/mtad/

at ic

Prctica sobre Anlisis Cluster (Universidad de Almera)

a1

.c om

You might also like