You are on page 1of 5

Planificacin de Sistemas de Distribucin

Nombre: Kevin Paucar Crdova

Algoritmos de anlisis de grupo de datos

Anlisis de grupos o agrupamiento es la tarea de agrupar un conjunto de objetos de tal manera


que los miembros del mismo grupo (llamado clster) sean ms similares, en algn sentido u
otro.

El anlisis de grupos no es en s un algoritmo especfico, sino la tarea pendiente de solucin. Se


puede hacer el agrupamiento utilizando varios algoritmos que difieren significativamente en su
idea de qu constituye un grupo y cmo encontrarlos eficientemente.

Mtodos Jerrquicos

Los llamados mtodos jerrquicos tienen por objetivo agrupar clusters para formar uno nuevo
o bien separar alguno ya existente para dar origen a otros dos, de tal forma que, si
sucesivamente se va efectuando este proceso de aglomeracin o divisin, se minimice alguna
distancia o bien se maximice alguna medida de similitud.

- Estrategia de la distancia mnima o similitud mxima

En este mtodo se considera que la distancia o similitud entre dos clusters viene dada,
respectivamente, por la mnima distancia (o mxima similitud) entre sus componentes. As, si
tras efectuar la etapa K-sima, tenemos ya formados n K clusters, la distancia entre los clusters
Ci (con ni elementos) y Cj (con nj elementos) sera:

mientras que la similitud, si estuviramos empleando una medida de tal tipo, entre los dos
clusters sera:

Con ello, la estrategia seguida en el nivel K + 1 ser:

1. En el caso de emplear distancias, se unirn los clusters Ci y Cj si

2. En el caso de emplear similitudes, se unirn los clusters Ci y Cj si


donde, como es natural, se ha seguido la norma general de maximizar las similitudes o bien
minimizar las distancias.

- Estrategia de la distancia mxima o similitud mnima.

En este mtodo se considera que la distancia o similitud entre dos clusters hay que medirla
atendiendo a sus elementos ms dispares, o sea, la distancia o similitud entre clusters viene
dada, respectivamente, por la mxima distancia (o mnima similitud) entre sus
componentes. As pues, al igual que en la estrategia anterior, si estamos ya en la etapa K-
sima, y por lo tanto hay ya formados n K clusters, la distancia y similitud entre los clusters
Ci y Cj (con ni y nj elementos respectivamente), sern:

y con ello, la estrategia seguida en el siguiente nivel, K + 1, ser:

1. En el caso de emplear distancias, se unirn los clusters Ci y Cj si

2. En el caso de emplear similitudes, se unirn los clusters Ci y Cj si


- Estrategia de la distancia, o similitud, promedio no ponderada. (Weighted aritmethic
average)

En esta estrategia la distancia, o similitud, del clster Ci con el Cj se obtiene como la media
aritmtica entre la distancia, o similitud, de las componentes de dichos clusters. As, si el clster
Ci (con ni elementos) est compuesto, a su vez, por dos clusters Ci1 y Ci2 (con ni1 y ni2 elementos
respectivamente), y el clster Cj posee nj elementos, la distancia, o similitud, entre ellos se
calcula como

Notemos que en este mtodo no se tiene en cuenta el tamao de ninguno de los clusters
involucrados en el clculo, lo cual significa que concede igual importancia a la distancia d(Ci1 ,
Cj ) que a la distancia d(Ci2 , Cj ).

- Formula de recurrencia de Lance y Williams

A continuacin, vamos a exponer una expresin debida a Lance y Williams en 1967 que intenta
aglutinar varios mtodos anteriores bajo una misma frmula.

Concretamente la expresin proporciona la distancia entre un grupo K y otro grupo (I, J) formado
en una etapa anterior por la fusin de dos grupos. La frmula en cuestin es la siguiente

De esta manera el clculo de las distancias entre grupos usadas por otras tcnicas jerarquicas
son casos particulares de la expresin anterior, para una eleccin conveniente de los parmetros
I , J , y . Algunos de estos coeficientes han sido ya deducidos en la descripcin de los
mtodos.

- Amalgamiento simple

El mtodo del amalgamamiento simple determina que la distancia entre ambos clusters se
establece como la menor distancia existente entre los elementos de ambos clusters

Teniendo en cuenta la siguiente igualdad (de fcil comprobacin)

que corresponde a la expresin anterior con


- Amalgamiento completo

En las mismas hiptesis que en el caso anterior y usando la expresin

se tiene para el mtodo del amalgamamiento completo

que corresponde a la frmula de Lance y Williams con

Extrayendo los resultados obtenidos en apartados anteriores para otros procedimientos se


puede comprobar la validez de la frmula de recurrencia para dichos parmetros.
Concretamente:
Mtodos basados en distribuciones

El modelo de agrupamiento ms estrechamente relacionado a la estadstica es el modelo basado


en distribuciones. Los grupos pueden entonces fcilmente ser definidos como los objetos que
pertenecen ms probablemente a la misma distribucin. Una propiedad conveniente de esta
aproximacin es que esto se parece mucho a la manera en la que los conjuntos de datos
artificiales estn generados: por muestreos aleatorios de objetos de una distribucin.

Uno de los mtodos ms prominentes es conocido como modelo de mezcla Gaussiana (utilizado
en el algoritmo de expectation-maximization). Aqu, el conjunto de datos es normalmente
modelado con un nmero fijo (para evitar el sobreajuste) de distribuciones Gaussianas que est
inicializado aleatoriamente, y cuyos parmetros son iterativamente optimizados para clasificar
mejor al conjunto de datos. Esto converger a un ptimo local, mltiples corridas pueden
producir resultados diferentes. Para obtener un agrupamiento duro, los objetos son a menudo
entonces asignados a la distribucin Gaussiana con mayor probabilidad de pertenecer; para
agrupamiento suave, esto no es necesario.

Mtodos basados en densidades

En agrupamiento basado en densidad, los grupos estn definidos como reas de densidad ms
alta que en el resto del conjunto de datos. Objetos en reas esparcidas son conocidos como
ruido o puntos frontera.

El mtodo de agrupamiento ms popular conocido es DBSCAN. En contraste con muchos


mtodos ms nuevos, presenta un modelo de grupo bien definido llamado "densamente
alcanzable". Similar a agrupamiento basado en conectividad, est basado en conectar puntos
dentro de cierto umbral de distancia. Aun as, slo conecta aquellos puntos que satisfacen un
criterio de densidad, en la variante original definido como nmero mnimo de otros objetos
dentro de un radio dado. Un grupo consiste en objetos densamente conectados (los cules
pueden formar un grupo de una forma arbitraria, en contraste a muchos otros mtodos) ms
todos los objetos que estn dentro del rango de estos. Otra propiedad interesante de DBSCAN
es que su complejidad es bastante baja- requiere un nmero lineal de consultas de rango en la
base de datos - y que descubrir esencialmente los mismos resultados (es determinista para
ncleos y puntos de ruido, pero no para puntos de frontera) en cada corrida, por tanto, no hay
ninguna necesidad de correrlo varias veces.

Bibliografa

- Mtodos Jerrquicos de Anlisis Cluster disponible en:


http://www.ugr.es/~gallardo/pdf/cluster-3.pdf
- Anlisis de grupos, Disponible en:
https://es.wikipedia.org/wiki/An%C3%A1lisis_de_grupos#Agrupamiento_basado_en_
distribuciones