You are on page 1of 31

AGRUPAMIENTO RELACIONAL Y REDES

INMUNOL

OGICAS ARTIFICIALES
JUAN CARLOS GALEANO HUERTAS
GRUPO DE INVESTIGACI

ON PROMENTE
FACULTAD DE INGENIER

IA DE SISTEMAS
FUNDACI

ON UNIVERSITARIA KONRAD LORENZ


2006

Indice general
1. Introduccion 2
2. Redes Inmunologicas Articiales 3
2.1. Teora de Red Inmunologica . . . . . . . . . . . . . . . . . . . . . 3
2.2. Un Modelo General de Red Inmunologica Articial . . . . . . . . 4
2.3. Modelos de Red Inmunologica Articial . . . . . . . . . . . . . . 7
2.3.1. La Rama de Hunt & Cooke . . . . . . . . . . . . . . . . . 8
2.3.2. La Rama de aiNet . . . . . . . . . . . . . . . . . . . . . . 10
2.3.3. Otros Modelos . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4. Comparacion entre Modelos . . . . . . . . . . . . . . . . . . . . . 12
3. Agrupamiento Relacional 16
3.1. Aprendizaje Relacional frente a Aprendizaje Basado en Caracte-
rsticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1.1. El Enfoque Tradicional en Aprendizaje de Maquina y Re-
conocimiento de Patrones . . . . . . . . . . . . . . . . . . 18
3.1.2. Por que Resulta

Util el Enfoque Relacional? . . . . . . . 18
3.2. Estado del Arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2.1. Denicion de Medidas de (Di)similitud . . . . . . . . . . . 19
3.2.2. Algoritmos de Aprendizaje . . . . . . . . . . . . . . . . . 20
3.2.2.1. Algoritmos Jerarquicos . . . . . . . . . . . . . . 21
3.2.2.2. Algoritmos Basados en Kernels . . . . . . . . . 21
3.2.2.3. Algoritmos Basados en Prototipos . . . . . . . . 22
3.2.2.4. Otras Estrategias . . . . . . . . . . . . . . . . . 22
3.3. Lneas de Investigacion y Problemas Abiertos . . . . . . . . . . . 23
4. Conclusiones y Trabajo Futuro 24
Bibliografa 26
1
Captulo 1
Introduccion
En este documento se presenta una revision de dos areas de investigacion en
cuanto a aprendizaje computacional: redes inmunologicas articiales, presenta-
da en el captulo 2 y aprendizaje relacional o basado en similitud, presentada
en el captulo 3. En cuanto a la primera, se presenta un modelo genera el cual
muestra los elementos esenciales de un modelo de red inmunologica articial y
revisa distintos modelos que se encuentran en la literatura con la gua del mo-
delo general presentado; tambien presenta una comparacion de esos modelos.
En cuanto a la segunda, se presenta una motivacion para considerar el paradig-
ma relacional basado en similitud, se realiza una comparacion entre este y el
paradigma tradicional basado en caractersticas y se muestran algunos modelos
relacionales de agrupamiento.
Este trabajo pretende dar informacion sobre la viabilidad de denir un mo-
delo de red inmunologica articial que se ajuste al paradigma relacional, as, en
el captulo 4 se presenta como conclusion un punto de contacto entre las dos
areas, indicando algunos aspectos para tener en cuenta al desarrollar un modelo
relacional de red inmunologica articial.
2
Captulo 2
Redes Inmunologicas
Articiales
1
Desde que Ishiguro publico el primer modelo computacional de red inmuno-
logica articial en 1994 [19], varios modelos han sido propuesto para solucionar
diferentes tipos de problemas tales como agrupamiento, analisis de datos y cla-
sicacion. En este momento, el campo de las redes inmunologicas articiales se
ha convertido en un area de investigacion bien establecida dentro del campo de
los sistemas inmunologicos articiales.
Aun cuando todos los modelos estan basados en la teora de red inmuno-
logica de Jerne [22], presentan diferencias en terminos de que mecanismos son
modelados, como son modelados, el tipo de representacion utilizada y la apli-
cacion objetivo. Este captulo tiene como objetivo hacer un analisis descriptivo
y comparativo de los modelos de red inmunologica articial mas relevantes que
han sido publicados hasta este momento. Los modelos han sido clasicados de
acuerdo a como algunos de ellos han evolucionado de los otros y se introduce un
modelo general de red inmunologica, el cual provee un marco conceptual para
discutir las similitudes y diferencias de los modelos revisados.
El resto del captulo esta organizado de la siguiente forma: la Seccion 2.1
presenta una revision de los principales conceptos y deniciones de la teora de
red inmunologica; la Seccion 2.2 introduce un modelo general de red inmuno-
logica articial; la Seccion 2.3 describe diferentes modelos de red inmunologica
articial tomando en cuenta su estructura, su dinamica y su meta-dinamica;
nalmente, la Seccion 2.4 presenta una comparacion entre los modelos.
2.1. Teora de Red Inmunologica
La teora de red inmunologica fue propuesta por Jerne [22] como una forma
de explicar las capacidades de memoria y aprendizaje exhibidas por el sistema
1
Este captulo corresponde a una version extendida de [20]
3
inmunologico. La principal hipotesis de esta teora dice que la memoria inmu-
nologica es mantenida por un conjunto de celulas B que interact uan unas con
otras, a un en la ausencia de antgenos extra nos. Estas interacciones pueden ser
de excitacion o de inhibicion. La produccion de un cierto anticuerpo (generada
por un antgeno externo) estimula / suprime la produccion de otros anticuerpos
que estimulan / suprimen la produccion de otros anticuerpos y as sucesiva-
mente [36]. Cabe notar que la palabra antgeno denota aquellas moleculas que
las celulas / moleculas del sistema inmunologico son capaces de reconocer, por
tanto es necesario diferenciar entre antgenos propios (anticuerpos) y antgenos
extra nos. De acuerdo con la notacion sugerida por Jerne [22], la porcion en la
supercie de un antgeno que puede ser reconocida por un anticuerpo se deno-
mina epitope, la porcion usada por un anticuerpo para reconocer antgenos se
denomina paratope, y el epitope de un anticuerpo (antgeno propio) se denomina
idiotope.
Algunos modelos de red inmunologica, basados en el trabajo de Jerne, han
sido desarrollado utilizando ecuaciones diferenciales para predecir la concen-
tracion de anticuerpos durante y despues de una respuesta inmunologica. Los
primeros modelos fueron propuestos por Jerne, Farmer et al., y Varela et al.,
ver un resumen en [9].
Un concepto importante para el modelamiento de redes inmunologicas fue
introducido por Perelson [36], el espacio de caractersticas (shape-space). Este
concepto considera las formas de los anticuerpos y los antgenos como puntos en
un espacio n-dimensional, el espacio de caractersticas, donde cada dimension
esta relacionada con alguna caracterstica principal involucrada en el proceso de
reconocimiento. Los anticuerpos reconocen aquellos antgenos que estan dentro
su alcance, el cual esta denido por una esfera con centro en el anticuerpo y con
un cierto radio de reconocimiento.
2.2. Un Modelo General de Red Inmunologica
Articial
Una red inmunologica articial es un modelo computacional bioinspirado
que utiliza ideas y conceptos de la teora de red inmunologica, principalmente
las interacciones entre celulas B (estimulacion y supresion), y los procesos de
clonacion y mutacion. En esta seccion, se presenta un modelo general de entre-
namiento para una red inmunologica articial, la cual reeja los pasos comunes
a los diferentes modelos encontrados en la literatura; tambien introduce una no-
tacion matematica que permite la comparacion entre tales modelo, este modelo
se presenta en la Figura 2.1. Otros algoritmos generales han sido descritos por
de Castro [7] y Garret [15].
El algoritmo recibe como entrada un conjunto de antgenos (representado
por el conjunto A), el cual debe ser presentado a la red, y retorna una red
inmunologica articial compuesta por un conjunto de celulas B y conexiones
entre ellas. Cabe notar, que algunos modelos de red inmunologica articial no
4
GAIN(A: conjunto de antgenos)
1: inicializacion:
1.1: asignar a B un conjunto inicial de celulas B
1.2: inicializar la estructura L de la red
2: repetir hasta encontrar un criterio de parada
2.1: presentacion de antgenos:
afinidad Antgeno/Celula B
2.1.1: calcular f
afinidad
(a, b) para todo a A y b B
estimulacion Antgeno/Celula B
2.1.2: calcular f
A
estimulacion
(a, b) para todo a A y b B
2.2: interaccion entre celulas B:
estimulacion/supresion Celula B/Celula B
2.2.1: calcular f
B
estimulacion
(b

, b) y f
B
supresion
(b

, b) para to-
do b, b

B
2.3: maduracion de la afinidad:
estimulacion total
2.3.1: calcular
F (b) :=

aA,b

B,b

=b

f
A
estimulacion
(a, b) +
f
B
estimulacion
(b

, b) + f
B
supresion
(b

, b)

, b B
2.3.2: crear f
clonacion
(b) clones de la celula B b y mutar-
los
2.3.3: calcular estimulacion para todas las nuevas celu-
las B
2.4 metadinamica:
borrar/crear celulas B y enlaces
2.4.1: actualizar la estructura L de la red
retornar red inmunologica
3: retornar (B, L)
Figura 2.1: Algoritmo general de red inmunologica articial
5
representan explcitamente el concepto de estructura de red.
El primer paso es crear un conjunto inicial de celulas B (representado por el
conjunto B). Algunos modelos utilizan un subconjunto del conjunto de antge-
nos y otros generar este conjunto inicial mediante un procedimiento aleatorio.
Despues de esto, se inicia un proceso iterativo comenzando con la presentacion
del conjunto de antgenos a la red. Para cada antgeno y cada celula B se calcula
el nivel de estimulacion. Esta medida se presenta mediante la funcion
f
A
estimulacion
: A B
En la mayora de los modelos, la estimulacion es una funcion de una medida
de anidad, la cual se dene en el espacio en el que las celulas B y los antgenos
se representan. En tal caso, la medida de estimulacion se dene como sigue
f
A
estimulacion
(a, b) := g (f
afinidad
(a, b)) ,
donde f
afinidad
: B A B A y g : . f
afinidad
mide la similitud
/ complementariedad entre elementos del espacio de caractersticas. En muchos
casos, f
afinidad
corresponde a una metrica o seudo-metrica en el espacio de
caractersticas. g calcula la cantidad de estimulacion producida por un antgeno
con una cierta anidad con una celula B.
En el siguiente paso, las celulas B interact uan unas con otras, lo cual se ve
reejado por el calculo de los efectos de estimulacion y supresion entre ellas.
Estos efectos, se representan mediante las funciones:
f
B
estimulacion
: B B
y
f
B
supresion
: B B
De manera similar a la estimulacion entre antgenos y celulas B, la estimu-
lacion (y supresion) entre celulas B puede ser calculada como una funcion de la
anidad entre ellas.
Una vez hecho esto, se calcula la estimulacion total F : B de las celulas
B sumando los efectos causados por las interacciones con el antgeno y la red.
F(b) =

aA
f
A
estimulacion
(a, b)
+

B,b

=b
f
B
estimulacion
(b

, b)
+

B,b

=b
f
B
supresion
(b

, b) , b B
Con base en la estimulacion total, algunas celulas B son seleccionadas y se
crean f
clonacion
(b) de cada una de ellas. Esas copias experimentan un proceso
de mutacion con una cierta tasa de mutacion. Algunos modelos interpretan tal
tasa como la probabilidad de que una celula B efectivamente sea mutada; otros
6
Figura 2.2:

Arbol genealogico de modelos de redes inmunologicas articiales:
cada modelo es una modicacion o esta basado en su padre.
modelos la interpretan como la proporcion de los atributos de la celula B que
sera cambiado.
En el paso de metadinamica, algunas celulas B in utiles son eliminadas de la
red y nuevas celulas son creadas aleatoriamente e incorporadas a la red.
Finalmente. cuando se alcanza un cierto criterio de parada, se retorna la red
en su estado actual.
2.3. Modelos de Red Inmunologica Articial
Muchos de los modelos de red inmunologica articial que han sido publicados
son variaciones de modelos previamente propuestos. Esto genera una relacion
de dependencia entre los modelos, la cual puede representarse por medio de un
arbol genealogico. Este arbol se presenta en la Figura 2.2. Todos los modelos
de red inmunologica articial en el primer nivel, se consideran versiones compu-
tacionales de los modelos de los de Jerne, Farmer y Varela, y Couthino, situados
en la raz del arbol. Aquellos modelos, han experimentado variaciones o han sido
inspiracion para los modelos que aparecen en los siguientes niveles.
Un modelo es una modicacion o esta basado en el modelo padre. Cada
rama del arbol sera descrita tomando en cuenta diferencias y similitudes en
7
terminos de estructura, dinamica y metadinamica [9], y la aplicacion original de
los modelos en esa rama. La estructura se reere a las interacciones entre los
elementos de la red; la dinamica se reere a los mecanismos empleados por la
red para adaptarse a s misma y al ambiente; y la metadinamica describe los
metodos para generar nuevos elementos para la red y para remover elementos
in utiles para ella [9].
2.3.1. La Rama de Hunt & Cooke
En 1996 Hunt y Cooke [17] propusieron una red inmunologica articial que
fue aplicada en tareas de reconocimiento de patrones en secuencias de ADN.
Este modelo considera el sistema inmunologico como una red de celulas B rela-
cionadas entre s por medio de su anidad y enemistad. Tales relaciones estan
basadas en distancias de Hamming de acuerdo con el trabajo de Farmer [13].
Todas las celulas B sufren clonacion y mutacion si el antgeno actual las estimula
lo suciente, es decir, si el nivel de estimulacion de las celulas es mayor que un
cierto umbral. El proceso de clonacion produce un n umero de copias exactas de
las celulas B, que depende del nivel de estimulacion. El proceso de mutacion esta
basado en una eleccion aleatoria entre tres tipos de tecnicas. Al nal de cada
iteracion, una subpoblacion de las celulas B menos estimuladas es removida de
la red y se genera, e incorpora a la red, el mismo porcentaje de nuevas celulas.
AINE (Articial Immune Network): Timmis et al. [42] propusieron en 2000
una red inmunologica articial que representa una adaptacion del modelo
de Hunt y Cooke para llevar a cabo tareas de analisis de datos. Las celu-
las B se relacionan unas con otras mediante estimulacion y supresion, lo
cual se asemeja las interacciones de anidad y enemistad del modelo de
Hunt y Cooke. Aquellas celulas cuyo nivel de estimulacion es mayor que
un umbral sufren un proceso de clonacion donde el n umero de copias es
proporcional a su nivel de estimulacion. El metodo de mutacion asigna una
probabilidad ja de mutacion para cada campo de los clones que deben ser
mutados. Este metodo corresponde a uno de los tres metodos de mutacion
empleado en el modelo de Hunt y Cooke. Al nal de cada iteracion, el 5 %
de las celulas B mas debiles, con nivel de estimulacion bajo, es removido
de la red. De acuerdo con la aplicacion a analisis de datos, la celulas B son
representadas como vectores de valor real en vez de cadenas de bits como
el modelo padre, y se introduce el umbral de anidad de la red (NAT, por
sus iniciales en ingles) como criterio de conexion entre celulas.
RLAIS (Resource Limited Articial Immune System): En 2001, Tim-
mis y Neal [41] modicaron el modelo AINE introduciendo el concepto de
Bola Articial de Reconocimiento (ARB, por sus iniciales en ingles). Una
ARB es una representacion de una familia (o tipo) de celulas B identicas,
en vez de ser una unica celula B. En el modelo, hay una pila de recursos
(celulas B) controlada de manera centralizada y las ARB compiten por la
asignacion de esos recursos. Las interacciones entre los elementos propios
8
y los procesos de clonacion y mutacion son similares a los de AINE, pero
al nivel de las ARB. A diferencia de AINE, aquellas ARB que no tienen
recursos son removidas de la red y el NAT depende del tiempo y se calcula
a partir del conjunto de antgenos disponible.
SSAIS (Self-Stabilising Articial Immune System): Este modelo, presen-
tado por Neal [34] en 2002, esta basado en RLAIS y se ha aplicado al
analisis continuo de datos que varan con el tiempo. La principal diferen-
cia entre SSAIS y RLAIS, es que el primero no tiene un nivel limitado de
recursos y cada ARB puede controlar su propio nivel de recursos (control
descentralizado). Adicionalmente, SSAIS no considera la supresion entre
celulas B en el calculo del nivel de estimulacion.
Meta-Stable Memory Immune Network: Siguiendo la lnea de AINE, Neal
[35] propuso una version modicada de SSAIS en 2003 para analisis de da-
tos, agrupamiento y memoria inmunologica articial. En este nuevo mo-
delo, cada ARB es estimulada por antgenos extra nos y por sus vecinas en
un espacio euclidiano como en SSAIS. La principal diferencia con SSAIS
es que el sistema emplea un proceso de clonacion como una respuesta pri-
maria solamente, la cual esta mediada por el NAT, pero no considera un
operador de mutacion. Todas las ARB con un nivel de recursos menor que
un umbral jo de mortalidad son removidas de la red.
Fractal Immune Network: A pesar de que este modelo, propuesto por Bentley
y Timmis [2] en 2004, no es una modicacion de RLAIS, utiliza el concep-
to de ARB y lo renombra como Espacio Fractal de Reconocimiento (FRS,
por sus iniciales en ingles). Aqu, se considera que las interacciones entre
elementos propios tienen lugar va citoquinas articiales. Las citoquinas
fractales estan representadas por un clon de FRS transmisores. La se nal es
recibida por un receptor fractal (un clon de FRS receptor) y se calcula su
distancia. Si tal distancia es menor que cierto umbral, el FRS transmisor se
estimula solo si es un FRS maduro. El algoritmo de red inmunologica esta
basado en SSAIS. Un FRS estimulado sufre clonacion, con un probabilidad
ja, creando una copia del FRS y esta copia es mezclada con el antgeno
siguiendo un proceso de mezcla de protenas fractales. Si no existe un FRS
estimulado, se crea uno en la posicion del antgeno como una respuesta
primaria, igual que en su modelo padre. La muerte celular depende de la
concentracion: en cada iteracion, la concentracion de un FRS es incremen-
tada de acuerdo con el nivel de estimulacion. Si la concentracion se hace
menor que un umbral de mortalidad, se remueve ese elemento de la red.
El nivel de estimulacion de todos los FRS en el sistema, sufre un proceso
de decaimiento que act ua junto con otras operaciones como mecanismo de
control de la poblacion.
Fuzzy AIS: En 2002, Nasraoui et al. [32] presentaron un modelo, basado en
RLAIS para desempe nar agrupamiento, denicion de perles web y mine-
ra web; introdujo el concepto de ARB difusa. Una ARB difusa dene un
9
conjunto difuso sobre el dominio del discurso que consiste en el conjunto
de datos de entrenamiento. Cada ARB difusa puede tener su propia es-
cala/radio de inuencia (similar al NAT). Otra diferencia con RLAIS es
que aquellas ARB cuya anidad es menor que un cierto umbral, se mez-
clan (operacion de cruce). Se consideran interacciones de estimulacion y
supresion tanto por antgenos como por ARB. Los operadores de clona-
cion y mutacion son aplicados sobre las celulas que permanecen despues
de remover aquellas ARB con nivel de recursos igual a cero. El proceso de
asignacion de recursos presenta modicaciones.
TECNO-STREAMS: En 2003, Nasraoui et al. [31], adaptaron el Fuzzy AIS
para desempe nar tareas de minera en ujos de datos. Los elementos pro-
pios se denominan Celulas B Ponderadas y Dinamicas (D-W-B-cell, por el
termino en ingles), los cuales denen zonas de inuencia sobre el espacio
de antgenos, como las ARB difusas. Sin embargo, dado que los datos tie-
nen un aspecto temporal, los datos actuales tienen un nivel de inuencia
mayor que los antiguos. El nivel de estimulacion decrece no solo con la dis-
tancia desde el centro, sino tambien con el tiempo transcurrido desde que
el antgeno fue presentado a la red inmunologica. La medida de anidad
entre las celulas se dene por medio de una funcion robusta de pondera-
cion/activacion la cual decrece con la distancia y el factor temporal de los
antgenos, haciendo que el sistema sea capaz de identicar ruido en los
datos. La estimulacion total que una D-W-B-cell ha percibido despues de
que cierto n umero de antgenos han sido presentados a la red, esta dada
por la densidad de la poblacion de antgenos alrededor de la celula y por
las interacciones con las vecinas. Este proceso se asemeja a la funcion de
estimulacion del Fuzzy AIS, pero considerando la medida modicada de
anidad. Con el n de que el n umero de interacciones en la red decrezca,
la red inmunologica se separa en subredes de manera que los antgenos
perturban solo una de tales subredes. La division de la red se lleva a cabo
por medio del algoritmo K-means.
2.3.2. La Rama de aiNet
En 2001, de Castro y Von Zuben [11] propusieron este modelo para tareas de
analisis de datos. El modelo genera una red de anticuerpos enlazados de acuerdo
a su anidad (distancia euclidiana). Se selecciona un subconjunto de anticuerpos
con la mayor anidad con un antgeno dado y son clonados proporcionalmente
al ese valor de anidad. Todos los clones generados son mutados de manera
inversamente proporcional a la anidad con el antgeno. Un porcentaje jo de
clones es seleccionado como anticuerpos de memoria.
Jerarqua de aiNets: de Castro y Timmis [10] propusieron en 2002 un criterio
de parada para el algoritmo aiNet basado en arboles de mnima expansion,
y desarrollaron una tecnica para crear una jerarqua de aiNets con el n de
encontrar no solo grupos principales sino tambien subgrupos. Esto se logra
10
al estructurar varias aiNets en una forma de arbol de tal manera que es
posible separar autom aticamente los grupos, y los subgrupos, encontrados
en los conjuntos de datos de entrenamiento.
opt-aiNet: de Castro y Timmis [8] propusieron en 2002 este modelo, como
una adaptacion de aiNet para optimizacion de funciones multimodales.
Las celulas de la red interact uan de acuerdo a su anidad y por medio
de un proceso de supresion que consiste en remover aquellas celulas cuya
anidad es menor que un cierto umbral. Todas las celulas de la red sufren
un proceso de clonacion que genera un n umero jo de copias, las cuales
sufren un proceso de mutacion proporcional a la aptitud del padre. Si
el error en la aptitud es signicativamente diferente al de al iteracion
previa, el sistema lleva a cabo un proceso de supresion y un porcentaje
jo de celulas es generado aleatoriamente e incorporado a la red. En caso
contrario, las celulas contin uan con los procesos de clonacion y mutacion
IPD aiNet: Alonso et al. [1] hicieron una modicacion de aiNet para mode-
lar un agente que juega el Dilema Iterado del Prisionero (IPD, por sus
iniciales en ingles). En este modelo, tanto antgenos cono celulas B esta
representados por estrategia del IPD, cada una de las cuales se conside-
ra como una forma en que el jugador decide que movimiento hara dadas
unas interacciones previas. Este agente inmunologico percibe la estrategia
del oponente e intenta encontrar una (la celula B mas estimulada), en la
memoria inmunologica, la cual le provee el pago mas alto al confrontar su
oponente. La principal modicacion hecha a aiNet esta en el mecanismo
de memoria: si una celula B se adiciona a la memoria, nunca se remueve.
2.3.3. Otros Modelos
En 1994, Ishiguro [19] implemento una red inmunologica articial y demostro
su potencial aplicacion a un sistema de adquisicion de caminado para un robot
de seis patas. Mitsumoto [30] extendio este trabajo al desarrollar un ambiente
con m ultiples robots. A pesar de la ecacia de estas iniciativas, las reglas de
interaccion entre anticuerpos se denen de una forma ad hoc. La eciencia de
este enfoque se restringe a sistemas de baja complejidad, los cuales pueden
describirse utilizando pocos anticuerpos [18].
Michelan Y Von Zuben: En 2002, Michelan y Von Zuben [29] presentaron
un modelo de red inmunologica articial para el control de un robot mo-
vil que desempe na tareas multiobjetivo. En este modelo, los anticuerpos
representan una accion que el robot debe ejecutar y los antgenos repre-
sentan el estado actual del robot. Modelan interacciones de estimulacion y
supresion entre anticuerpos. La dinamica de la red se lleva a cabo por ope-
radores de cruce y mutacion geneticos. Se utiliza un operador de seleccion
elitista en el algoritmo de entrenamiento. La muerte celular consiste en
seleccionar aquellos anticuerpos con una aptitud baja para reemplazarlos
por nuevos anticuerpos.
11
CLARINET: CLARINET [43] es un modelo para navegacion autonoma pro-
puesto por Vargas et al. en 2003. Es un sistema hbrido no parametrico
que combina sistemas clasicadores, algoritmos evolutivos y una red in-
munologica articial. Los sistemas clasicadores representan celulas B, las
cuales interact uan con otras por medio de funciones de estimulacion y su-
presion. El algoritmo de entrenamiento considera operadores de cruce y
mutacion de igual forma que en el modelo propuesto por Michelan et al.
[29].
Red Inmunologica Reactiva: En 2004, Luh y Lin [27] propusieron otro mo-
delo para navegacion autonoma. De manera usual, los antgenos represen-
tan estados del ambiente y los anticuerpos representan las direcciones que
el robot debe seguir. La estimulacion producida por antgenos se calcula
utilizando un enfoque de campo articial de potencial, el cual considera
una fuerza articial de atraccion entre el robot y el objetivo y una fuerza
virtual repulsiva entre el robot y los obstaculos. La estimulacion y la su-
presion causadas por anticuerpos esta relacionada con la diferencia entre
los angulos que denen las direcciones.
AISEC (Articial Immune System for E-mail Classication): El propo-
sito de este modelo es clasicar informacion interesante y no interesante
proveniente de la web. Las celulas B representan prototipos de mensajes
de correo electronico no interesantes y los antgenos representan mensajes
de correo entrante. Si una celula B es activada por un antgeno, el men-
saje asociado con ella es etiquetado como no interesante y se enva a una
ubicacion especial. Las interacciones de estimulacion y supresion se llevan
a cabo va el incremento o disminucion de un contador. Se lleva a cabo el
proceso de clonacion y una celula B puede morir por una de dos formas:
una es eliminar aquellas celulas que tienen en cero el contador de estimu-
lacion, y la otra es eliminar una celula B que hace una mala clasicacion
con base en retroalimentacion proveniente del usuario, es decir, cuando la
clasicacion hecha por la celula B no coincide con la hecha por el usuario.
Este modelo fue propuesto por Secker et al. [39] en 2003.
2.4. Comparacion entre Modelos
Esta seccion presenta un analisis comparativo de los modelos antes men-
cionados. El analisis enfatiza aspectos especcos de los modelos tales como
representacion de Celulas B y Antgenos, as como las medidas de anidad,
estimulacion y supresion.
La Tabla 2.1 muestra los esquemas de representacion utilizados por los dife-
rentes modelos. El esquema mas com un de representacion es la lista de atributos.
Dependiendo del espacio del problema, se utiliza una cadena de bits o un vector
de valores reales. Cada campo, en la lista, representa una caracterstica relevante
para el problema, de tal forma que un campo en una cadena de bits modela la
presencia o ausencia de la caracterstica particular, mientras que un campo en
12
Modelo B A
Hunt y Cooke {0, 1}
n
{0, 1}
n
AINE
n

n
RLAIS
n

n
SSAIS
n

n
Meta-Stable IN
n

n
Fractal IN
3
, Fractal
3
, Fractal
Fuzzy AIS
n

n
TECNO-STREAMS
n

n
N
aiNet
n

n
Jerarqua de aiNets
n

n
opt-aiNet
n

IPD-aiNet estrategia IPD estrategia IPD


Michelan y Von Zuben {0, 1}
n
S
accion
{0, 1}
n
CLARINET S
tag
{0, 1, #}
n
{0, 1}
n
S
tag
{0, 1}
n
Reactive IN
3

3
AISEC S
sbj
S
snd
S
sbj
S
snd
Cuadro 2.1: Esquemas de representacion para celulas B y antgenos: las princi-
pales opciones son la cadena de bits y el vector de valores reales. Otros modelos
utilizan representaciones m as complejas con el n de ajustarlas a la aplicacion
particular.
un vector real representa una cierta medida de la caracterstica. Las ramas de
Hunt y Cooke y aiNet adoptan esta representacion, a excepcion de los modelos
Fuzzy AIS y TECNO-STREAMS, donde los elementos del conjunto B contienen
un radio de cobertura adicional al vector de caractersticas.
La rama de Otros Modelos tiene representaciones mas complejas. Este grupo
contiene modelos creados para tareas de navegacion autonoma y clasicacion de
correo electronico. En los modelos de navegacion autonoma, como el de Miche-
lan y Von Zuben y CLARINET, los antgenos representan estados del robot
en el ambiente y las celulas B representan acciones que puede ejecutar el ro-
bot en forma de reglas que contienen una condicion que debe ser satisfecha
({0, 1}
n
, S
tag
{0, 1, #}
n
) y la accion correspondiente (S
accion
, {0, 1}
n
). En AI-
SEC, creado para clasicaci on de correo electronico, los antgenos representan
parejas asunto-remitente (S
sbj
S
snd
) de los mensajes que deben ser clasicados
, y las celulas B representan parejas asunto-remitente (S
sbj
S
snd
) de prototipos
de mensajes no interesantes.
Note que la mayora de los modelos no diferencian entre fenotipo y genotipo,
a excepcion de Fractal Immune Network, donde los fenotipos estan represen-
tados por tres valores reales, los cuales son transformados en genotipos repre-
sentados por fractales. Adicionalmente, los modelos utilizan el mismo tipo de
representacion para antgenos y celulas B a excepcion de TECNO-STREAMS,
que considera un factor temporal como parte de la representacion del antgeno; y
13
los modelos de navegacion autonoma, en donde los antgenos no tienen el factor
de accion en su representacion.
En los modelos, la medida de anidad esta basada en una medida de dis-
tancia en un cierto espacio que depende del problema. La denicion de una
medida de anidad genera implcitamente un espacio de formas (shape-space
en ingles). Como se muestra en la Tabla 2.2, las dos formas principales en que
se modela la anidad son: una funcion de la distancia de Hamming (D
H
) para
la representacion de cadena de bits, y una funcion de la distancia euclidiana
(D) para la representacion de vector real. Cabe anotar que algunos modelos no
presentan explcitamente una funcion de anidad, pero denen el mecanismo de
estimulacion directamente como D o como 1 D. En general, una celula B es
estimulada por un antgeno de manera proporcional a su anidad [36], el nivel
de estimulacion depende de la anidad y, adicionalmente, tal nivel de anidad
afecta los procesos de clonacion y mutacion.
Es posible clasicar los modelos, de acuerdo a las interacciones entre celu-
las que estos modelan, en dos grupos: aquellos que consideran interacciones de
estimulacion y supresion entre celulas B, y aquellos que consideran solo interac-
ciones de estimulacion. SSAIS, Meta-Stable Immune Network y Fractal Immune
Network conforman el ultimo grupo. Teniendo en cuenta los mecanismos de su-
presion, los modelos de la rama aiNet, modelan la supresion como un operador
de intercambio o muerte, mientras que los demas modelan la supresion como un
operador de estimulacion negativa.
Los efectos de estimulacion o supresion, experimentados por una celula B
cuando interact ua con otra celula B, tambien dependen de la anidad. Algunos
modelos consideran el efecto de estimulacion (y de supresion) como una fun-
cion de la anidad entre dos celulas B; otros interpretan la supresion como un
mecanismo de muerte celular, y otros no consideran tal efecto.
Los procesos de clonacion y mutacion constituyen el mecanismo principal de
actualizacion de la estructura de la red. De acuerdo con la teora inmunologica,
las celulas B sufren clonacion y mutacion si su estimulacion total es mayor que
un cierto umbral [36]. La mayora de los modelos utilizan esta idea, aunque hay
modelos que simplemente crean un n umero jo de copias de la celula estimu-
lada. En cuanto a mutacion, hay modelos que la llevan a cabo con una cierta
probabilidad y otros lo hacen siempre, pero consideran una razon (proporcion)
de mutacion que se calcula a partir de la medida de anidad o de la de estimu-
lacion. Como casos especiales, algunos modelos usan algoritmos geneticos (GA,
por sus iniciales en ingles) como un mecanismo de adaptacion de la estructura
de la red.
14
M
o
d
e
l
o
f
a
f
i
n
i
d
a
d
f
A
e
s
t
i
m
u
l
a
c
i
o
n
f
B
e
s
t
i
m
u
l
a
c
i
o
n
f
B
s
u
p
r
e
s
i
o
n
f
c
l
o
n
a
c
i
o
n
H
u
n
t
y
C
o
o
k
e

k
G
(
D
H

+
1
)
f
a
f
i
n
i
d
a
d
f
a
f
i
n
i
d
a
d
f
a
f
i
n
i
d
a
d
k
F
A
I
N
E
1

D
f
a
f
i
n
i
d
a
d
f
a
f
i
n
i
d
a
d
f
a
f
i
n
i
d
a
d

1
k
F
R
L
A
I
S
1

D
f
a
f
i
n
i
d
a
d
f
a
f
i
n
i
d
a
d
f
a
f
i
n
i
d
a
d

1
k
F
S
S
A
I
S
1

D
f
a
f
i
n
i
d
a
d
1
m
f
a
f
i
n
i
d
a
d

d
e
c
a
e
R
F
1
0

m
o
r
t
a
l
i
d
a
d
M
e
t
a
-
S
t
a
b
l
e
I
N
1

D
1
f
a
f
i
n
i
d
a
d
+
2
D
f
a
f
i
n
i
d
a
d
+
2
D
+
1

1
F
r
a
c
t
a
l
I
N
1

D
1
0
f
a
f
i
n
i
d
a
d

A
M
f
a
f
i
n
i
d
a
d
+
2
D
+
1

C
M

1
F
u
z
z
y
A
I
S
e
x
p

D
2

f
a
f
i
n
i
d
a
d

f
a
f
i
n
i
d
a
d

f
a
f
i
n
i
d
a
d

2
k
F
T
E
C
N
O
-
S
T
R
E
A
M
S
e
x
p

D
2
2

2
+
J

f
a
f
i
n
i
d
a
d

f
a
f
i
n
i
d
a
d

f
a
f
i
n
i
d
a
d

2
k
F
a
i
N
e
t
1
D

m
u
e
r
t
e
k
f
a
f
i
n
i
d
a
d
J
e
r
a
r
q
u

a
d
e
a
i
N
e
t
s
1
D

m
u
e
r
t
e
k
f
a
f
i
n
i
d
a
d
o
p
t
-
a
i
N
e
t
D
f
i
t
n
e
s
s

m
u
e
r
t
e
k
I
P
D
-
a
i
N
e
t
D
H

m
u
e
r
t
e
k
f
a
f
i
n
i
d
a
d
M
i
c
h
e
l
a
n
y
V
o
n
Z
u
b
e
n

k
G
(
D
H

+
1
)
f
a
f
i
n
i
d
a
d
f
a
f
i
n
i
d
a
d
f
a
f
i
n
i
d
a
d
G
A
C
L
A
R
I
N
E
T

k
G
(
D
H

+
1
)
f
a
f
i
n
i
d
a
d
f
a
f
i
n
i
d
a
d
f
a
f
i
n
i
d
a
d
G
A
R
e
a
c
t
i
v
e
I
N

f
o
b
j
e
t
i
v
o
+
f
o
b
s
t
a
c
u
l
o
c
o
s
(

j
)
c
o
s
(

i
)
k
F
A
I
S
E
C
p
a
l
a
b
r
a
s
|
b
s
h
o
r
t
|
s
c
o
n
t
a
d
o
r

c
e
l
u
l
a
B

c
e
l
u
l
a
M
s
c
o
n
t
a
d
o
r

k
F
C
u
a
d
r
o
2
.
2
:
M
o
d
e
l
o
s
p
a
r
a
l
a
s
m
e
d
i
d
a
s
d
e
a

n
i
d
a
d
,
e
s
t
i
m
u
l
a
c
i
o
n
y
s
u
p
r
e
s
i
o
n
y
p
a
r
a
e
l
p
r
o
c
e
s
o
d
e
c
l
o
n
a
c
i
o
n
:
l
a
m
a
y
o
r

a
d
e
l
a
s
m
e
d
i
d
a
s
e
s
t
a
n
b
a
s
a
d
a
s
e
n
l
a
n
o
c
i
o
n
d
e
d
i
s
t
a
n
c
i
a
y
e
l
n
u
m
e
r
o
d
e
c
l
o
n
e
s
c
r
e
a
d
o
e
s
,
e
n
g
e
n
e
r
a
l
,
p
r
o
p
o
r
c
i
o
n
a
l
a
l
n
i
v
e
l
d
e
e
s
t
i
m
u
l
a
c
i
o
n
d
e
l
a
c
e
l
u
l
a
B
.
L
a
s
c
e
l
d
a
s
v
a
c

a
s
i
n
d
i
c
a
n
q
u
e
l
a
f
u
n
c
i
o
n
c
o
r
r
e
s
p
o
n
d
i
e
n
t
e
n
o
e
s
i
m
p
l
e
m
e
n
t
a
d
a
p
o
r
e
l
m
o
d
e
l
o
.
15
Captulo 3
Agrupamiento Relacional
Los problemas de aprendizaje supervisado y no supervisado, pueden enten-
derse como problemas de clasicacion, de un conjunto de objetos de entrada,
con naturalezas un poco distintas: en el primero, se conoce el conjunto de eti-
quetas (clases) que pueden ser asignadas a los objetos y el problema consiste en
asignar la etiqueta adecuada a cada objeto; en el segundo, debe encontrase un
n umero razonable de etiquetas (grupos) en los que pueda ser dividido el conjun-
to total de objetos, de tal forma que un nuevo objeto pueda ser ubicado dentro
del grupo mas adecuado. El criterio general para asignar la etiqueta adecuada
a un nuevo objeto consiste en ubicar el conjunto de objetos que comparten una
misma etiqueta y que son mas parecidos al nuevo objeto. De forma similar, el
criterio general para encontrar el n umero razonable de grupos para dividir el
conjunto total de objetos, consiste en poner juntos aquellos objetos que sean
mas parecidos entre s, deniendo as los lmites entre los grupos.
Dentro de la literatura concerniente a las tecnicas de aprendizaje supervisado
y no supervisado, usualmente esta presente una nocion de distancia entre los
objetos del problema, la cual se construye frecuentemente sobre la base de un
espacio de caractersticas que describen a esos objetos. Puede notarse que esa
nocion de cercana modela, de una u otra forma, un grado de (di)similitud entre
los objetos del problema, que es utilizado como criterio para resolver el problema
de aprendizaje. Sin embargo, el concepto de similitud es mas general que el de
distancia ya que puede mostrarse que el primero no necesariamente satisface
ciertas propiedades del segundo. Mas a un, aunque parece natural describir los
objetos mediante caractersticas, esto no siempre resulta facil y en tal caso una
denicion de similitud en terminos de distancia en un espacio de caractersticas
no es posible. Los siguientes ejemplos pueden ayudar a aclarar esta armacion:
Considere el problema de identicar una persona: si alguien le pregunta
conoce usted a Eduardo?, y su respuesta es negativa, la persona intentara
ayudarle a recordar describiendo a Eduardo diciendo cosas tales como aquel
que mide mas o menos 1.65 m, tiene cabello liso y negro, piel trigue na, etc.,
es decir, la persona le dara un listado de caractersticas con el n de que usted
recuerde a Eduardo. A partir de esto, usted puede imaginarse un sistema que
16
contenga un conjunto de fotos de personas y le muestre aquellas que mas se
parecen a una que usted describe mediante caractersticas.
Ahora bien, considere el problema de identicar un olor: si alguien le pregun-
ta reconoce usted el perfume de Stella?, y de nuevo, su respuesta es negativa,
cual sera la estrategia utilizada por la persona para ayudarle a recordar?, se-
guramente intentara decir cosas tales como es un olor que esta entre naranja
y limon, se parece mas al de la naranja, pero no es exactamente naranja, es
decir, la persona le da un marco de referencia relativo a olores que usted cono-
ce y que son similares al del perfume de Stella. A partir de esto, suponga que
existe un sistema que es capaz de generar olores; si usted quiere que el sistema
reproduzca un olor particular, la forma quiza mas natural en que usted quisiera
dar las instrucciones sera en forma de expresiones tales como parecido al olor
de la naranja, parecido al olor del limon y mas parecido al olor de la naranja
que al del limon.
Desde el punto de vista computacional, los problemas antes planteados, pue-
den verse como problemas de clasicacion, pero de naturalezas un poco dife-
rentes: en el primero, usted recibe un conjunto de caractersticas o atributos
(caractersticas fsicas que tiene Eduardo) de un objeto y usted debe encontrar
(dentro del conjunto de sus recuerdos) el elemento que mejor se ajusta a la des-
cripcion para asignarle la etiqueta apropiada (Eduardo); en el segundo, usted
recibe un conjunto de elementos (naranja, limon) que se parecen en distintas
proporciones (mas a naranja que a limon) a un cierto objeto y usted debe en-
contrar (dentro del conjunto de sus recuerdos), el elemento que mejor se ajusta
a las descripcion para asignarle la etiqueta apropiada (perfume de Stella).
A partir de la discusion anterior, puede verse que el proceso de aprendizaje
esta soportado por una nocion de (di)similitud, en vez de por un conjunto de
caractersticas descriptoras. En este captulo, se pretende hacer una revision de
aquellas tecnicas de aprendizaje que se basan, en mayor proporcion, en una
nocion de (di)similitud en vez de hacerlo en un espacio de caractersticas; para
ello, se hablara del enfoque relacional (o basado en similitud) de aprendizaje para
referirse a la naturaleza de las primeras, y se hablara del enfoque tradicional para
referirse a la naturaleza de las segundas.
El captulo esta organizado de la siguiente forma: la Seccion 3.1 describe
de manera mas precisa las diferencias entre los enfoques basado en similitud y
basado en caractersticas; la Seccion 3.2 presenta una revision de algoritmos de
aprendizaje basados en similitud; y, nalmente, la Seccion 3.3 presenta algunas
lneas de investigacion y problemas que resultan de la aplicacion del enfoque
basado en similitud.
3.1. Aprendizaje Relacional frente a Aprendiza-
je Basado en Caractersticas
En el proceso de aprendizaje se consideran dos elementos basicos: un espacio
de entrada X que dene el dominio del problema y un algoritmo de aprendizaje
17
A. El objetivo de A es construir un modelo f de X a partir de una muestra
X
n
del espacio de entrada, donde n es el tama no de la muestra. El modelo f
no es mas que una funcion que asigna una etiqueta a cada objeto de X, para el
caso de aprendizaje supervisado; o divide a X en un cierto n umero de grupos,
para el caso de aprendizaje no supervisado, de tal forma que cada objeto de X
pertenezca a un grupo. De esta forma, la diferencia entre los enfoques basado en
caractersticas y basado en similitud radicara en la forma en que la informacion
contenida en X (posibles patrones) es transmitida a A para la construccion de
f.
3.1.1. El Enfoque Tradicional en Aprendizaje de Maquina
y Reconocimiento de Patrones
Como se dijo anteriormente, el enfoque tradicional se basa en la transforma-
cion del espacio X en un espacio de caractersticas F en el que cada objeto es
identicado mediante un vector de atributos (v
1
, ..., v
n
). Esta transformacion es
usualmente denominada representacion y puede denotarse mediante la funcion
: X F.
Dado que el proceso de aprendizaje esta soportado por una nocion de simi-
litud, sobre los elementos de X puede denirse una medida de similitud, que
denota el grado de semejanza entre cada par de objetos, tal funcion se denota
mediante d : X X . Sin embargo, en este caso, el algoritmo A toma como
entrada el espacio F y por tanto, es deseable que d tenga una medida correspon-
diente en F, tal medida se denota como d
F
: F F . Usualmente, d
F
es una
funcion de la distancia denida sobre F, y as, la correspondencia deseable debe
ser tal que d (x
i
, x
j
) d
F
((x
i
) , (x
j
)), donde el smbolo indica que puntos
en el espacio Fque esten cerca, deben ser imagenes de objetos en el espacio X
que sean similares.
Aunque se considere la denicion de la medida de similitud en X, tradicio-
nalmente el proceso consiste en denir directamente una funcion de (di)similitud
d
F
como una funcion de la distancia (metrica) entre vectores de F. Sin embargo,
el proceso de representacion no siempre es facil de realizar debido a la naturaleza
de los objetos en X y, por otro lado, la funcion d
F
, denida en terminos de dis-
tancia, no necesariamente preserva la nocion de similitud sobre X. Puede decirse
entonces que este enfoque considera la transformacion del espacio del problema
a un espacio de caractersticas, como paso previo para la denicion de similitud
[25]. La justicacion mas clara para este enfoque, es el soporte matematico con
que se cuenta al transformar X en un espacio euclidiano.
3.1.2. Por que Resulta

Util el Enfoque Relacional?
Una de las razones para considerar este enfoque es que el proceso de repre-
sentacion puede resultar, en ciertos dominios, difcil e incluso innatural. Esto
ocurre principalmente en problemas en los que los datos del problema no son
numericos y tienen una estructura compleja. Por ejemplo, en problemas de per-
sonalizacion web, los objetos del espacio X son sesiones web; una transformacion
18
posible es considerar F = {0, 1}
m
donde m es el n umero de paginas del sitio
web. De esta forma, cada elemento de F es un vector de m componentes, donde
cada componente esta asociada a una pagina, un 1 indica que la pagina fue
consultada en una sesion particular, y el 0 indica que no. Esta representacion,
tiene el problema de que m puede ser muy grande, dependiendo del tama no
del sitio [33]. Con esta representacion, el concepto de similitud entre sesiones
se limita a contabilizar el n umero de paginas en que las dos sesiones coinciden.
Sin embargo, tal contabilizacion, difcilmente puede dar informacion acerca del
contenido de las paginas y el orden en que fueron accedidas en cada una de
las sesiones, lo cual podra utilizarse para describir el comportamiento de los
usuarios que navegan a traves del sitio [38]. Dentro de los dominios con objetos
estructurados, se encuentran tambien los documentos XML si se quiere reali-
zar reconocimiento de diferentes fuentes con el mismo tipo de informacion [14].
Aqu, la medida de similitud debera reejar una semejanza en cuanto al tipo
de informacion descrita por dos documentos XML.
Otros casos en los que la extraccion de caractersticas resulta innatural son
los de las reglas de asociacion (minera de datos) [16] y datos que utilizan repre-
sentacion de primer orden [24]. Sobre las primeras, es deseable hacer un proceso
de agrupamiento, con el n de reducir el n umero de reglas dentro de un sistema,
sin embargo no parece natural extraer un conjunto de caractersticas del espa-
cio de las posibles reglas de tal forma que la medida de similitud entre reglas
corresponda a una distancia en tal espacio.
Un ejemplo mas en el que no parece natural la transformacion de X en F se
presenta en [4], en donde se plantea el problema de hacer clasicacion de olo-
res. En este caso, los autores argumentan la dicultad de representar los olores
mediante caractersticas, sin entrar en detalles, basicamente porque correspon-
de a la extraccion de caractersticas de compuestos qumicos con estructuras
heterogeneas y complejas.
3.2. Estado del Arte
Dentro de los trabajos del area, puede distinguirse dos grandes grupos: aque-
llos cuyo n ucleo de trabajo es la denicion de medidas de (di)similitud y aquellos
que se centran en el procedimiento de aprendizaje mediante la manipulacion de
una matriz de (di)similitud general. Vale la pena mencionar que aunque se mues-
tren estos dos grupos como conjuntos disjuntos, lo usual es encontrar trabajos
que aportan en ambas direcciones de tal manera que un autor propone un al-
goritmo con la denicion de una cierta medida de (di)similitud y el trabajo
es extendido presentando nuevos datos experimentales con nuevas medidas de
(di)similitud.
3.2.1. Denicion de Medidas de (Di)similitud
Como ya menciono, el proceso de agrupamiento esta basado principalmente
en la denicion de relaciones entre los objetos, usualmente medidas de cuan
19
semejantes o diferentes son. La exploracion en este grupo esta fuertemente re-
lacionada con la representacion de los objetos en el espacio de entrada y el
signicado que quiere darsele al concepto de semejanza. En areas como la mi-
nera web, donde el problema es aprender a partir de la informacion interesante
para los usuarios, es necesario denir medidas que capturen la similitud de in-
tereses entre usuarios, para esto, la forma mas simple es representar los intereses
de un usuario como el conjunto de paginas visitadas en una sesion [33], de tal
forma que dos usuarios tendran intereses similares si el conjunto interseccion
de las paginas visitadas es grande. Sin embargo, dado que usualmente se quie-
re clasicar los usuarios mediante la denicion de ciertos perles con el n de
hacer recomendaciones o personalizaciones en la navegacion, se hace necesario
agregarle a la medida de similitud informacion acerca de la estructura del sitio,
lo cual puede interpretarse como una categorizacion del sitio desde el punto de
vista del usuario que esta accediendo [33].
En [28], los autores plantean la estrategia de mejorar la calidad de las suge-
rencias realizadas por un sitio web al usuario en sesion, mediante el aprendizaje
de su comportamiento. Aseguran que el comportamiento no puede ser descu-
bierto unicamente con la informacion acerca de los intereses del usuario, sino
que es necesario obtener informacion acerca de el orden en que los recursos son
solicitados. As que, se hace necesaria una medida de (di)similitud que considere
la secuencia de paginas accedidas por el usuario [28].
El problema de agrupar y/o clasicar documentos es otro campo en el cual
la denicion de la medida de (di)similitud es crucial y no trivial. En este caso, la
forma natural de agrupar tales objetos es mediante alg un grado de sinonimia.
Tal enfoque es adoptado en [14] en el que se pretende agrupar documentos XML
mediante el signicado, el cual pretende ser extrado de la estructura particular
de tags.
Dentro de los trabajos en esta direccion, se encuentran [26], [37] en los cuales
el objeto de estudio es justamente la informacion capturada por las medidas de
similitud. Basicamente, pueden distinguirse dos grandes grupos de medidas: Eu-
clidianas y No Euclidianas. Dentro de las primeras, se argumenta la limitacion
de capturar solo estructuras esfericas mientras que las segundas pueden apor-
tar informacion relevante acerca de la estructura de los datos que las medidas
Euclidianas ignoran [26]. Dentro de esta categora de trabajos, es usual que se
hable, en forma general, de metricas y no metricas.
Otros trabajos no realizan una denicion propiamente dicha de la medida de
similitud, en vez de eso, utilizan un peque no conjunto de datos para los cuales
se conocen sus (di)similitudes, como conjunto de entrenamiento de un algoritmo
de aprendizaje, con el n de estimar la medida de similitud y a partir de ese
modelo aprendido, estimar los valores de similitud para los demas objetos en el
conjunto de entrenamiento. Estos trabajos se revisaran mas adelante.
3.2.2. Algoritmos de Aprendizaje
En esta subseccion, se describen las principales estrategias utilizadas para
realizar aprendizaje, ya sea supervisado o no supervisado, tomando como in-
20
formacion una matriz de (di)similitud. Dentro de este grupo se evidencia la
potencialidad de estos metodos dada por la independencia de la medida de si-
militud. Aqu, se supone que el algoritmo tiene acceso a la medida de similitud
entre cada par de objetos pero no a la forma de calcularla.
3.2.2.1. Algoritmos Jerarquicos
La estrategia mas utilizada dentro del area corresponde a los algoritmos
jerarquicos, tanto aglomerativos como divisivos (para una descripcion detallada
de estos mecanismos ver [21]). La diferencia principal entre estas dos estrategias
consiste en el punto de inicio. Mientras en los aglomerativos el punto de arranque
consiste en considerar N grupos, cada uno con un objeto y cada objeto en un
grupo, en los divisivos, el punto de arranque consiste en considerar un grupo,
el cual contiene a todos los objetos. En ambas estrategias, se construye un
arbol de jerarquas a partir de la medida de similitud (en los aglomerativos) o
disimilitud (en los divisivos) en el cual cada nodo representa un grupo, cada
uno con un cierto n umero de objetos, de tal forma que cada nivel en el arbol
representa un n umero distinto de grupos [21]. Notese que en ambas estrategias
existen dos puntos extremos: uno en el que cada objeto forma un grupo (hojas
del arbol), y otro en el que todos los objetos pertenecen a un unico grupo (raz
del arbol). El problema consiste entonces en encontrar el nivel en el arbol que
mejor describe la estructura de los datos. Por tanto, los trabajos en esta area
consisten justamente en denir criterios de seleccion de tal nivel. Dentro de estos
se encuentra los trabajos presentados en [12], [14], [16] y [33]
3.2.2.2. Algoritmos Basados en Kernels
1
Un gran grupo de trabajo que cuenta con gran interes en la comunidad aca-
demica es el de los metodos basados en kernels [23]. La idea principal de los
metodos basados en kernels es implementar algoritmos que desempe nen tareas
de aprendizaje de maquina (p.ej. agrupamiento) que reciben como entrada una
matriz cuyas celdas corresponden al producto punto (o producto interno) entre
cada par de elementos del conjunto de entrenamiento. Aunque el concepto de
producto punto supone una estructura vectorial del espacio, el concepto de ker-
nel permite aislar la representacion del conjunto de datos del espacio en el cual
el algoritmo trabaja.
El objetivo primordial de los metodos kernel es descubrir patrones, en general
no lineales, dentro de un cierto conjunto de datos como proyecciones al espacio
original de patrones lineales descubiertos en un espacio, en general de dimension
mayor.
El concepto central de estos metodos es el de funcion kernel: Una funcion
: X X es un kernel si (x, z) corresponde al producto punto entre los
vectores (x) y (z), donde () es una funcion que transforma el espacio de
entrada X en el espacio de caractersticas F, como se menciono anteriormente.
1
La informacion consignada en esta seccion ha sido tomada basicamente de [23] y [3]
21
Lo interesante y util de estos metodos es que no es necesario construir expl-
citamente el espacio F para obtener informacion del producto punto entre los
vectores que viven all; esto tiene la ventaja de no incrementar el costo compu-
tacional de calcular el producto punto en F que, en general, es de dimension
mayor que la de X. Otro punto importante es que no se requiere que X sea un
espacio vectorial, en vez de eso, puede denirse la funcion de similitud sobre X
y construir una funcion kernel correspondiente.
Notese que se dijo que la matriz que serva de entrada a los algoritmos
basados en kernels, contiene la informacion de los productos punto entre las
proyecciones al espacio F de los elementos del conjunto X, y durante toda la
discusion se ha hablado especcamente de una matriz de similitud; la razon, es
que las medidas de similitud puede ser denidas como funciones de distancia y
es posible construir un medida de distancia a partir del producto punto entre
dos vectores de la siguiente forma:
d (x, z) = x z
2
donde x z
2
es la norma de la diferencia entre los vectores x y z, donde la
norma de un vector se dene como
x
2
=

x, x
donde x, z denota el producto punto entre los vectores x y z.
3.2.2.3. Algoritmos Basados en Prototipos
El siguiente grupo a considerar es el llamado basado en prototipos. En este
caso, el objetivo es seleccionar un conjunto de objetos del conjunto de entrena-
miento, o generar uno a partir de ellos, que represente una version compacta
del conjunto de datos, los elementos de ese conjunto se denominan prototipos
[21]. En esta tecnica, el espacio de similitud se construye sobre los prototipos, es
decir, cada objeto en X
n
se representa por el vector (d
1
, . . . , d
k
) donde d
i
repre-
senta la medida de similitud del objeto con el prototipo i. De esta forma, cada
grupo es representado por un prototipo y el proceso de clasicacion consiste en
asignar un objeto a un grupo basado en el grado de similitud con los prototipos.
Para esto pueden adoptarse diferentes estrategias dependiendo de si cada objeto
puede pertenecer a un unico grupo (particion rgida) o si puede tenerse grados
de pertenencia (particion difusa) [5]. Dentro de estas estrategias se encuentran
tecnicas como la de los k vecinos mas cercanos (KNN, por sus iniciales en ingles),
k medias, k medoides con las correspondientes versiones difusas [21].
3.2.2.4. Otras Estrategias
Dentro de esta categora se encuentran trabajos como el de [40] en donde
se presenta una tecnica de agrupamiento que utiliza la matriz de similitud pa-
ra denir una Cadena de Markov donde cada objeto representa un estado y
algunas estructuras estables, cuya estabilidad depende de una distancia entre
22
distribuciones de probabilidad, emergen durante la ejecucion de la cadena. Otro
trabajo relevante para destacar en este grupo de trabajos es el presentado en [6]
en el cual se utiliza una estrategia supervisada para aprender la medida de disi-
militud entre los datos y entonces utilizar esa medida aprendida para entrenar
el algoritmo Fuzzy C-Means.
3.3. Lneas de Investigacion y Problemas Abier-
tos
Aunque el area de aprendizaje basado en similitud tiene aplicacion en mu-
chas areas facilitando la denicion del modelo, de la exposicion presentada,puede
verse que el trabajo apunta basicamente en tres direcciones: deniciones de me-
didas de (di)similitud, denicion de nuevos algoritmos cuyo desempe no depende
unicamente de la informaci on de la (di)similitud entre los objetos y adaptacion
de algoritmos al paradigma, esto es, hacer que estos algoritmos se desempe nen
independientemente de la representacion adoptada para el espacio de entrada.
Dentro de las preocupaciones dentro de los investigadores en el area se en-
cuentra por ejemplo el manejo de la dimensionalidad de los espacios de (di)similitud.
Ya que en aplicaciones reales, es usual que haya un n umero mayor de datos que
de dimensiones (para el caso de datos vectoriales), y en el enfoque directo, ca-
da objeto, es representado mediante su (di)similitud con cada uno de los demas
objetos, y entonces aplicar alg un algoritmo tradicional de clasicacion en ese
espacio, as que puede presentarse el problema conocido como la maldicion de
la dimensionalidad. Este problema se ha enfrentado mediante el uso de meto-
dos combinados con metodos basados en prototipos, en los que el espacio de
(di)similitud se construye sobre un n umero reducido de ejemplos, de tal forma
que la dimension de ese nuevo espacio resulta manejable.
Vale la pena mencionar que la participacion de metodos bioinspirados en esta
area es poco, solo se cuenta con el hecho de que ciertas medidas de (di)similitud
pueden ser aprendidas mediante el uso de redes neuronales [6]. Sin embargo, da-
da la estrategia general del paradigma de denir una relacion de (di)similitud,
hace natural pensar que ciertos modelos bioinspirados como los sistemas in-
munologicos articiales pueden representar un campo fertil para explotar esta
idea, ya que el elemento clave en tales modelos es el concepto de anidad o reco-
nocimiento entre celulas que usualmente ha sido representado como una funcion
de la distancia de elementos en espacios vectoriales.
23
Captulo 4
Conclusiones y Trabajo
Futuro
En este documento se presento una revision de las areas de redes inmunolo-
gicas articiales como tecnica de aprendizaje computacional, y de aprendizaje
relacional (o basado en similitud) como paradigma de aprendizaje computacio-
nal. Tal presentacion muestra los conceptos basicos utilizados por un modelo de
red inmunologica y las ideas basicas del paradigma relacional de aprendizaje.
Como tecnica de aprendizaje, una de las aplicaciones mas comunes de las
redes inmunologicas articiales es la de analisis de datos, especcamente el
agrupamiento de datos. La analoga consiste en suponer que los datos a analizar
son antgenos de tal forma que si tales datos presentan alg un patron de agrupa-
miento, los datos en un mismo grupo pueden considerarse antgenos parecidos y
por tanto, el sistema inmunologico articial creara familias de anticuerpos que
reconocen esos antgenos. Los anticuerpos creados, de acuerdo a la dinamica de
la red inmunologica, representaran una imagen interna del patron antigenico al
que fue expuesto el sistema, es decir, los datos a analizar.
En los modelos, uno de los conceptos centrales es el del espacio de formas
(shape space), ya que en ese espacio, el reconocimiento de un antgeno por parte
de un anticuerpo depende de la distancia, en ese espacio, de ambos elementos.
De esta forma, puede decirse que los modelos actuales de red inmunologica
articial pertenecen al enfoque tradicional de aprendizaje, ya que el primer
paso consiste en construir un espacio de formas para as denir un mecanismo
de reconocimiento, de manera mas especca, una medida de anidad entre
las celulas como una medida de distancia en ese espacio. Sin embargo, la idea
basica de reconocimiento esta mediada por complementariedad entre ellas, es
decir, un anticuerpo reconoce a un antgeno si este encaja (matches) en aquel
por su forma, y la anidad entre ambos depende de la calidad de ese encaje.
De esta manera se ve que el elemento clave en el reconocimiento, y por tanto
en la dinamica, en el sistema inmunologico, es la idea de complementariedad
y, especcamente, la de anidad. Desde el punto de vista computacional y de
24
ingeniera, para aplicar un modelo de red inmunologica articial a la solucion
de alg un problema, no es necesario extraer caractersticas de los objetos del
problema con el n de denir anidad como una medida de distancia en ese
espacio, sino que debe denirse una medida de anidad entre tales objetos sin
restringirla al uso de una representacion particular.
De la discusion anterior, se plantea la posibilidad de hacer, como trabajo
futuro, una equivalencia entre similitud y anidad para denir un modelo rela-
cional de red inmunologica articial. Intuitivamente, se ve que el operador que
resultara afectado con la adaptacion a este paradigma, es el de mutacion, ya
que tradicionalmente, una celula mutada corresponde con una celula muy pare-
cida a su padre, pero no igual, y que tiene potencialmente mayor anidad con el
antgeno que genero la respuesta inmunologica. Esto corresponde, en el enfoque
tradicional, a la creacion de una celula de las vecindades de la celula padre.
As, en el enfoque relacional, el operador de mutacion debera garantizar que
una celula mutada conserva un cierto grado de anidad con el antgeno actual,
independientemente de la representacion de las celulas. Esto debera recibir una
consideracion importante a la hora de denir el nuevo modelo.
25
Bibliografa
[1] O. M. Alonso, F. Nino, and M. Velez. A Robust Immune Based Approach
to the Iterated Prisoners Dilemma. In G. Nicosia, V. Cutello, P. J. Bentley,
and J. Timmis, editors, Proceeding of the Third Conference ICARIS, pages
290 301, Edinburg, UK, September 2004. Springer.
[2] P. J. Bentley and J. Timmis. A fractal immune network. In G. Nico-
sia, V. Cutello, P. J. Bentley, and J. Timmis, editors, Proceedings of the
Third Conference ICARIS, pages 133 145, Edinburg, UK, September
2004. Springer.
[3] Alexander J. Smola Bernhard Schilkopf. Learning with Kernels: Support
Vector Machines, Regularization, Optimization, and Beyond. The MIT
Press, 2001.
[4] Manuele Bicego. Odor classication using similarity-based representation.
Sensors and Actuators B: Chemical, 110(2):225230, October 2005.
[5] Manuele Bicego, Vittorio Murino, and Mario Figueiredo. Similarity-based
clustering of sequences using hidden markov models. Pattern Recognition,
37(12):22812291, 2004.
[6] Mario G.C.A. Cimino, Beatrice Lazzerini, and Francesco Marcelloni. A
novel approach to fuzzy clustering based on a dissimilarity relation expected
from data using a ts system. Pattern Recognition, 39:2077 2091, 2006.
[7] L. N. de Castro. Immune, swarm and evolutionary algorithms part i: Basic
models. In ICONIP Conference (International Conference on Neural In-
formation Processing). Workshop on Articial Immune Systems 3, pages
14641468, 2002.
[8] L. N. de Castro and J. Timmis. An Articial Immune Network for Mul-
timodal Optimisation. In Congress on Evolutionary Computation. Part of
the 2002 IEEE World Congress on Computational Intelligence, pages 699
704, Honolulu, Hawaii, USA, May 2002. IEEE.
[9] L. N. de Castro and J. Timmis. Articial Immune Systems: A New Compu-
tational Intelligence. Spriger-Verlag, 2002.
26
[10] L. N. de Castro and J. Timmis. Convergence and Hierarchy of aiNet:Basic
Ideas and Preliminary Results. In Proceedings of ICARIS (International
Conference on Articial Immune Systems), pages 231 240, University of
Kent at Canterbury, September 2002. University of Kent at Canterbury
Printing Unit.
[11] L. N. de Castro and F. J. V. Zuben. aiNet: An Articial Immune Network
for Data Analysis. In H. A. Abbas R. A. S. and Charles S. Newton, editors,
Data Mining: A Heuristic Approach, chapter XII, pages 231 259. Idea
Group Publishing, USA, 2001.
[12] Shlomo Dubnov, Ran El-Yaniv, Yoram Gdalyahu, Elad Schneidman, Naf-
tali Tishby, and Golan Yona. A new nonparametric pairwise clustering
algorithm based on iterative estimation of distance proles. Machine Lear-
ning, 47(1):3561, April 2002.
[13] J. D. Farmer, N. H. Packard, and A. S. Perelson. The immune system,
adaptation and machine learning. Physica, 22D:187 204, 1986.
[14] F. De Francesca, G. Gordano, R. Ortale, and A. Tagarelli. Distance-based
clustering of xml documents. In Luc De RaedtTakashi Washio, editor,
MGTS03, pages 7578. ECML/PKDD03 workshop proceedings, Septem-
ber 2003.
[15] S. Garret. A paratope is not an epitope: Implications for immune network
models and clonal selection. In E. Hart J. Timmis, P. Bentley, editor,
Proceedings of the Second International Conference on Articial Immune
Systems, pages 217228, Edinburgh, UK, September 2003. Springer.
[16] Gunjan K. Gupta, Alexander Strehl, and Joydeep Ghosh. Distance based
clustering of association rules. In Proceedings of the Articial Neural Net-
works in Engineering Conference (ANNIE), volume 9 of Intelligent Engi-
neering Systems Through Articial Neural Networks, pages 759764. ASME
Press, November 1999.
[17] J. E. Hunt and D. E. Cooke. Learning using an articial immune system.
ournal of Network and Computer Applications, 19:189 212, 1996.
[18] A. Ishiguro, T. Kondo, Y. Watanabe, Y. Shirai, and Y. Uchikawa. Immu-
noid: A Robot with a Decentralized Consensus-Making Mechanism Based
on the Immune System. In ICMAS Workshop on Immunity-Based Systems,
pages 82 92, December 1996.
[19] A Ishiguro and Uchikawa Y. A gait acquisition of six-legged robot using
immune networks. In Proceedings of the International Conference on Intelli-
gent Robotics and Systems (IROS94), volume 2, pages 10341041, Munich,
Germany, 1994.
27
[20] F. Gonzalez J. C. Galeano, A. Veloza-Suan. A comparative analysis of
articial immune network models. In Proceedings of the Genetic and Evo-
lutionary Computation Conference (GECCO), Washington DC, USA, June
2005. ACM Press.
[21] A. K. Jain, M. N. Murty, and P. J. Flynn. Data clustering: a review. ACM
Computing Surveys (CSUR), 31(3):264 323, September 1999.
[22] N. Jerne. Towards a network theory of the immune system. Ann. Immunol
(Inst. Pasteur), 125C:373389, 1974.
[23] Nello Cristianini John Shawe-Taylor. Kernel Methods for Pattern Analysis.
Cambridge University Press, 2004.
[24] Mathias Kirsten and Stefan Wrobel. Relational distance-based clustering.
In Fritz Wysotzki, Peter Geibel, and Christina Schadler, editors, Proc. Fa-
chgruppentreen Maschinelles Lernen (FGML-98), pages 119124, 10587
Berlin, 1998. Techn. Univ. Berlin, Technischer Bericht 98/11.
[25] Edwin M. Knorr, Raymond T. Ng, and Ruben H. Zamar. Robust space
transformations for distance-based operations. In Proceedings of the Se-
venth ACM International Conference on Knowledge Discovery and Data
Mining (SICKDD), pages 126135, 2001.
[26] Julian Laub, Volker Roth, Joachim M. Buhmann, and Klaus-Robert M u-
ller. On the information and representation of non-euclidean pairwise data.
Pattern Recognition, 39(10):18151826, October 2006.
[27] G.-C. Luh and W.-W. Liu. Reactive Immune Network Based Mobile Robot
Navigation. In G. Nicosia, V. Cutello, P. J. Bentley, and J. Timmis, editors,
Proceeding of the Third Conference ICARIS, pages 119 132. Springer,
2004.
[28] Giuseppe Manco, Riccardo Ortale, and Domenico Sacc`a. Similarity-based
clustering of web transactions. In Proceedings of the 2003 ACM symposium
on Applied computing, pages 1212 1216, New York, NY, USA, 2003. ACM
Press.
[29] R. Michelan and F. J. V. Zuben. Decentralized Control System for Auto-
nomous Navigation Based on an Evolved Articial Immune Network. In
Proceedings of the IEEE Congress on Evolutionary Computation, volume 2,
pages 1021 1026, Honolulu, HI, May 2002. IEEE.
[30] N. Mitsumoto, T. Fukuda, F. Arai, H. Tadashi, and T. Idogaki. Self-
Organizing Multiple Robotic System. In Proceedings of the IEEE Inter-
national Conference on Robotics and Automation, pages 1614 1619, Min-
neapolis, April 1996.
28
[31] O. Nasraoui, C. Cardona, C. Rojas, and F. Gonzalez. TECNO-STREAMS:
Tracking evolving clusters in noisy data streams with a scalable immune
system learning model. In Third IEEE International Conference on Data
Mining, Melbourne, FL, November 2003. IEEE.
[32] O. Nasraoui, F. Gonzalez, and D. Dasgupta. The fuzzy articial immune
system: Motivations, basic concepts and application to clustering and web
proling. In IEEE International Conference on Fuzzy Systems, pages 711
716, Hawaii, HI, May 2002. IEEE.
[33] Olfa Nasraoui, Hichem Frigui, Anupam Joshi, and Raghu Krishnapuram.
Mining web access logs using relational competitive fuzzy clustering. In
Proc. Eight International Fuzzy Systems Association World Congress - IF-
SA 99, August 1999.
[34] M. Neal. An articial immune system for continuous analysis of time-
varying data. In J. Timmis and P. J. Bentley, editors, Proceedings of the
1st International Conference on Articial Immune Systems (ICARIS), vo-
lume 1, pages 76 85, University of Kent at Canterbury, September 2002.
University of Kent at Canterbury Printing Unit.
[35] M. Neal. Meta-stable memory in an articial immune network. In J. Tim-
mis, P. Bentley, and E. Hart, editors, Proceedings of the Second Internatio-
nal Conference ICARIS, pages 168 180, Edinburg, UK, September 2003.
Springer.
[36] A. S. Perelson and G. Weisbach. Immunology for physicists. Reviews of
Modern Physics, 69(4):12191267, 1997.
[37] Jan Puzicha, Thomas Hofmann, and Joachim M. Buhmann. A theory of
proximity based clustering: structure detection by optimization. Pattern
Recognition, 33(4):617634, April 2000.
[38] T. A. Runkler and J. C. Bezdek. Web mining with relational clustering. In-
ternational Journal of Approximate Reasoning, 32(2-3):217236, February
2003.
[39] A. Secker, A. Freitas, and J. Timmis. AISEC: An Articial Immune System
for E-mail Classication. In R. Sarker, R. Reynolds, H. Abbass, T. Kay-
Chen, R. McKay, D. Essam, and T. Gedeon, editors, Proceedings of the
Congress on Evolutionary Computation, pages 131 139, Canberra. Aus-
tralia, December 2003. IEEE.
[40] Ben Taskar, Eran Segal, and Daphne Koller. Probabilistic classication and
clustering in relational data. In Proceeding of IJCAI-01, 17th International
Joint Conference on Articial Intelligence, 2001.
[41] J. Timmis and M. Neal. A resource limited articial immune system for
data analysis. Knowledge-Based Systems, 14:121 130, 2001.
29
[42] J. Timmis, M. Neal, and J. Hunt. An articial immune system for data
analysis. BioSystems, 55:143 150, 2000.
[43] P. A. Vargas, L. N. de Castro, R. Michelan, and F. J. V. Zuben. An Immu-
ne Learning Classier System for Autonomous Navigation. In J. Timmis,
P. Bentley, and E. Hart, editors, Proceedings of the Second International
Conference ICARIS, pages 69 80, Edinburg, UK, September 2003. Sprin-
ger.
30

You might also like