Clustering

Planificacin de Sistemas de Distribucin
Nombre: Kevin Paucar Crdova
Algoritmos de anlisis de grupo de datos
Anlisis de grupos o agrupamiento es la tarea de agrupar un conjunto de objetos de tal manera

que los miembros del mismo grupo (llamado clster) sean ms similares, en algn sentido u
otro.
El anlisis de grupos no es en s un algoritmo especfico, sino la tarea pendiente de solucin. Se

puede hacer el agrupamiento utilizando varios algoritmos que difieren significativamente en su
idea de qu constituye un grupo y cmo encontrarlos eficientemente.
Mtodos Jerrquicos
Los llamados mtodos jerrquicos tienen por objetivo agrupar clusters para formar uno nuevo
o bien separar alguno ya existente para dar origen a otros dos, de tal forma que, si
sucesivamente se va efectuando este proceso de aglomeracin o divisin, se minimice alguna
distancia o bien se maximice alguna medida de similitud.
- Estrategia de la distancia mnima o similitud mxima
En este mtodo se considera que la distancia o similitud entre dos clusters viene dada,
respectivamente, por la mnima distancia (o mxima similitud) entre sus componentes. As, si
tras efectuar la etapa K-sima, tenemos ya formados n K clusters, la distancia entre los clusters
Ci (con ni elementos) y Cj (con nj elementos) sera:
mientras que la similitud, si estuviramos empleando una medida de tal tipo, entre los dos
clusters sera:
Con ello, la estrategia seguida en el nivel K + 1 ser:
1. En el caso de emplear distancias, se unirn los clusters Ci y Cj si
2. En el caso de emplear similitudes, se unirn los clusters Ci y Cj si

donde, como es natural, se ha seguido la norma general de maximizar las similitudes o bien
minimizar las distancias.
- Estrategia de la distancia mxima o similitud mnima.
En este mtodo se considera que la distancia o similitud entre dos clusters hay que medirla
atendiendo a sus elementos ms dispares, o sea, la distancia o similitud entre clusters viene
dada, respectivamente, por la mxima distancia (o mnima similitud) entre sus
componentes. As pues, al igual que en la estrategia anterior, si estamos ya en la etapa K-
sima, y por lo tanto hay ya formados n K clusters, la distancia y similitud entre los clusters
Ci y Cj (con ni y nj elementos respectivamente), sern:
y con ello, la estrategia seguida en el siguiente nivel, K + 1, ser:
1. En el caso de emplear distancias, se unirn los clusters Ci y Cj si
2. En el caso de emplear similitudes, se unirn los clusters Ci y Cj si

- Estrategia de la distancia, o similitud, promedio no ponderada. (Weighted aritmethic
average)
En esta estrategia la distancia, o similitud, del clster Ci con el Cj se obtiene como la media
aritmtica entre la distancia, o similitud, de las componentes de dichos clusters. As, si el clster
Ci (con ni elementos) est compuesto, a su vez, por dos clusters Ci1 y Ci2 (con ni1 y ni2 elementos
respectivamente), y el clster Cj posee nj elementos, la distancia, o similitud, entre ellos se
calcula como
Notemos que en este mtodo no se tiene en cuenta el tamao de ninguno de los clusters
involucrados en el clculo, lo cual significa que concede igual importancia a la distancia d(Ci1 ,
Cj ) que a la distancia d(Ci2 , Cj ).
- Formula de recurrencia de Lance y Williams
A continuacin, vamos a exponer una expresin debida a Lance y Williams en 1967 que intenta
aglutinar varios mtodos anteriores bajo una misma frmula.
Concretamente la expresin proporciona la distancia entre un grupo K y otro grupo (I, J) formado
en una etapa anterior por la fusin de dos grupos. La frmula en cuestin es la siguiente
De esta manera el clculo de las distancias entre grupos usadas por otras tcnicas jerarquicas
son casos particulares de la expresin anterior, para una eleccin conveniente de los parmetros
I , J , y . Algunos de estos coeficientes han sido ya deducidos en la descripcin de los
mtodos.
- Amalgamiento simple
El mtodo del amalgamamiento simple determina que la distancia entre ambos clusters se
establece como la menor distancia existente entre los elementos de ambos clusters
Teniendo en cuenta la siguiente igualdad (de fcil comprobacin)
que corresponde a la expresin anterior con

- Amalgamiento completo
En las mismas hiptesis que en el caso anterior y usando la expresin
se tiene para el mtodo del amalgamamiento completo
que corresponde a la frmula de Lance y Williams con
Extrayendo los resultados obtenidos en apartados anteriores para otros procedimientos se

puede comprobar la validez de la frmula de recurrencia para dichos parmetros.
Concretamente:
Mtodos basados en distribuciones
El modelo de agrupamiento ms estrechamente relacionado a la estadstica es el modelo basado

en distribuciones. Los grupos pueden entonces fcilmente ser definidos como los objetos que
pertenecen ms probablemente a la misma distribucin. Una propiedad conveniente de esta
aproximacin es que esto se parece mucho a la manera en la que los conjuntos de datos
artificiales estn generados: por muestreos aleatorios de objetos de una distribucin.
Uno de los mtodos ms prominentes es conocido como modelo de mezcla Gaussiana (utilizado
en el algoritmo de expectation-maximization). Aqu, el conjunto de datos es normalmente
modelado con un nmero fijo (para evitar el sobreajuste) de distribuciones Gaussianas que est
inicializado aleatoriamente, y cuyos parmetros son iterativamente optimizados para clasificar
mejor al conjunto de datos. Esto converger a un ptimo local, mltiples corridas pueden
producir resultados diferentes. Para obtener un agrupamiento duro, los objetos son a menudo
entonces asignados a la distribucin Gaussiana con mayor probabilidad de pertenecer; para
agrupamiento suave, esto no es necesario.
Mtodos basados en densidades
En agrupamiento basado en densidad, los grupos estn definidos como reas de densidad ms
alta que en el resto del conjunto de datos. Objetos en reas esparcidas son conocidos como
ruido o puntos frontera.
El mtodo de agrupamiento ms popular conocido es DBSCAN. En contraste con muchos

mtodos ms nuevos, presenta un modelo de grupo bien definido llamado "densamente
alcanzable". Similar a agrupamiento basado en conectividad, est basado en conectar puntos
dentro de cierto umbral de distancia. Aun as, slo conecta aquellos puntos que satisfacen un
criterio de densidad, en la variante original definido como nmero mnimo de otros objetos
dentro de un radio dado. Un grupo consiste en objetos densamente conectados (los cules
pueden formar un grupo de una forma arbitraria, en contraste a muchos otros mtodos) ms
todos los objetos que estn dentro del rango de estos. Otra propiedad interesante de DBSCAN
es que su complejidad es bastante baja- requiere un nmero lineal de consultas de rango en la
base de datos - y que descubrir esencialmente los mismos resultados (es determinista para
ncleos y puntos de ruido, pero no para puntos de frontera) en cada corrida, por tanto, no hay
ninguna necesidad de correrlo varias veces.
Bibliografa
- Mtodos Jerrquicos de Anlisis Cluster disponible en:

http://www.ugr.es/~gallardo/pdf/cluster-3.pdf
- Anlisis de grupos, Disponible en:
https://es.wikipedia.org/wiki/An%C3%A1lisis_de_grupos#Agrupamiento_basado_en_
distribuciones

Clustering

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Clustering

Uploaded by

Copyright:

Available Formats

Planificacin de Sistemas de Distribucin

Nombre: Kevin Paucar Crdova

Algoritmos de anlisis de grupo de datos

Anlisis de grupos o agrupamiento es la tarea de agrupar un conjunto de objetos de tal manera

El anlisis de grupos no es en s un algoritmo especfico, sino la tarea pendiente de solucin. Se

- Estrategia de la distancia mnima o similitud mxima

Con ello, la estrategia seguida en el nivel K + 1 ser:

1. En el caso de emplear distancias, se unirn los clusters Ci y Cj si

2. En el caso de emplear similitudes, se unirn los clusters Ci y Cj si

- Estrategia de la distancia mxima o similitud mnima.

y con ello, la estrategia seguida en el siguiente nivel, K + 1, ser:

1. En el caso de emplear distancias, se unirn los clusters Ci y Cj si

2. En el caso de emplear similitudes, se unirn los clusters Ci y Cj si

- Formula de recurrencia de Lance y Williams

Teniendo en cuenta la siguiente igualdad (de fcil comprobacin)

que corresponde a la expresin anterior con

En las mismas hiptesis que en el caso anterior y usando la expresin

se tiene para el mtodo del amalgamamiento completo

que corresponde a la frmula de Lance y Williams con

Extrayendo los resultados obtenidos en apartados anteriores para otros procedimientos se

El modelo de agrupamiento ms estrechamente relacionado a la estadstica es el modelo basado

Mtodos basados en densidades

El mtodo de agrupamiento ms popular conocido es DBSCAN. En contraste con muchos

- Mtodos Jerrquicos de Anlisis Cluster disponible en:

You might also like