Professional Documents
Culture Documents
Universitat Jaume I
Tesis Doctoral
Presentada por:
Dirigida por:
Sin embargo, en el mundo real los cambios son constantes; y la forma tradicional en
que trabaja un clasificador no considera la modificacin paulatina del conocimiento que
ste posee, es decir, el clasificador es entrenado para reconocer un tipo de objetos de
inters, despus es probada su precisin y, finalmente, es puesto en produccin, hasta
que se tiene la necesidad de volver a entrenar al clasificador debido a que se ha perdido
la buena precisin de ste. Para tratar de resolver esta dificultad, en la dcada de los
aos 90 en diversos trabajos [Bensaid, 1996], [Castelli, 1995], [Nigam, 2000], surgen
los algoritmos parcialmente supervisados, los cuales representan un cierto compromiso
entre los algoritmos supervisados y los no supervisados, siendo capaces de emplear
tanto objetos etiquetados como no etiquetados en la fase de clasificacin de nuevos
objetos. Una propuesta de estos algoritmos son los algoritmos denominados de
Aprendizaje Continuo, los que se pueden definir como el conjunto de mtodos y
tcnicas que permiten a un sistema de Reconocimiento de Patrones la incorporacin de
nuevos conocimientos a lo largo de su funcionamiento, es decir, beneficiarse de la
experiencia adquirida durante la clasificacin de nuevas muestras.
Dentro de este contexto, la presente tesis presenta una nueva regla de clasificacin
basada en distancia, que tiene en cuenta la probabilidad de pertenencia a la clase de cada
uno de los vecinos ms cercanos a la muestra x, utilizando esta regla de clasificacin y,
el esquema de edicin de Wilson, presentamos un algoritmo de edicin estocstico e
implementamos una opcin de rechazo con esta caracterstica. La principal ventaja de
estos algoritmos es que los porcentajes de reduccin de la talla del conjunto de
entrenamiento son superiores a los esquemas de edicin tradicionales.
vi
Abstract
Supervised classification algorithms usually operate on the information provided by a
set of samples, a set of patterns, examples or training prototypes that are all considered
representatives of relevant classes and have a correct class label. Unsupervised
algorithms, unlike the previous ones, do not have a training set, and using clustering
algorithms, build the training set.
But, in the real world, changes are constant, and the traditional way in which a
classifier works does not consider the gradual modification of the knowledge that it
possesses, i.e., classifier is trained to recognize a kind of objects of interest, then it is
tested for accuracy and finally, it is put into production, until there is the need to re-train
the classifier because its performance has degraded. To address this difficulty, in the
decade of the 90s, there appear several works on supervised learning [Bensaid,1996],
[Castell, 1995], [Nigam, 2000], which represent a true trade-off between the supervised
and unsupervised algorithms, being able to use both labelled and unlabelled objects in
the phase of classification of new objects. Within this scenario, a proposal refers to the
Ongoing Learning, which can be defined as a set of methods and techniques that allow
the incorporation of new knowledge in the system, i.e., to benefit from the experience
stored during the classification of new samples.
Among the main advantages of using an ongoing learning system, we can mention
the following: the classifier is more robust because errors or omissions in the initial
training set can be corrected during the phase of classification, and also the system may
be able to adapt to changing environments.
Within this context, this Ph.D. Thesis presents a new distance-based classification
rule, which takes into account the probability of belonging to the class of each one of
the nearest neighbours of the sample x. By using this classification rule and the
Wilsons editing scheme, we present a new stochastic editing algorithm and implement
a reject option with this feature. The main advantage of these algorithms is that the
percentage of training set size reduction is superior to that of traditional editing
schemes.
Also in this work, with the aim of reducing the training set size, using a local density
function we develop stochastic condensing techniques, which will help us to control the
size of the training set. These algorithms have been compared with different reduction
techniques, obtaining successful results.
Finally, the main contribution of this Ph.D. Thesis is adressed to the design and
evaluation of an ongoing learning algorithm, which not only can learn from labelled
patterns, but also benefit from the experience obtained when classifying new unlabelled
objects. A basic goal of our algorithm is to make the ongoing learning process as
automatic as possible incorporating new examples in the training set after they have
been labelled by the system itself.
In the classification phase, we have used the stochastic rule above mentioned as the
central classifier within this algorithm. However, this procedure could deteriorate the
Abstract
performance of our system due to the inclusion in the training set of misclassified
objects. In order to minimize these errors, we employ different stochastic editing
algorithms to filter and discard those misclassified patterns and finally, to control the
size of the new training set, we use condensing schemes based on a local density
function to extract those samples that belong to regions of high density of objects in the
training set.
viii
Agradecimientos
Esta memoria de Tesis Doctoral no puede considerarse ms que el resultado de un arduo
trabajo que empez hace ahora cuatro aos, cuando un grupo de profesores de la
Universidad Jaumel I fueron a la ciudad de Santiago de Cuba y comenzaron a impartir
los cursos de Doctorado. Desde aquellos primeros das y hasta alcanzar este primer
objetivo, se han necesitado muchas horas de lectura y estudio, de anlisis, de diseo e
implementacin, de experimentacin y, finalmente, de redaccin. En este momento es
cuando realmente te das cuenta que son muchas las personas que, en mayor o menor
medida, han contribuido a la culminacin de esta tesis. Unas proporcionndote valiosas
sugerencias, ideas y crticas, otras ofrecindote su generoso apoyo moral.
De este modo, en primer lugar, deseara expresar mi ms sincero agradecimiento a
los directores de esta tesis, Jos Salvador Snchez Garreta y Filiberto Pla, que en primer
lugar sin conocerme accedieron a que trabajara con ellos en su lnea de investigacin.
Luego me han brindado una magnifica atencin tanto en el plano cientfico como
personal, y por haberme ayudado tambin a introducirme en este fascinante mundo de la
investigacin.
Tampoco debo olvidarme de una larga lista de personas que, sin ser conscientes de
ello, han conseguido despertar en m el inters por el Reconocimiento de Formas a
partir de sus excelentes artculos o de sus brillantes ponencias. Muchos han sido
referenciados en las pginas de cada captulo. A todos ellos se les debe mucho por sus
contribuciones a este campo que evoluciona tan vertiginosamente.
De igual manera, sera injusto por mi parte si no recordara aqu a los dems
compaeros del Departamento de Lenguajes y Sistemas Informtico de esta Universidad
porque, en cierto modo, tambin ellos han participado en mi formacin, no slo como
investigador, sino tambin como persona. En particular, debera mencionar a Pablo
Boronat, Ricardo Quirs, German Fabregat, Jos Sotoca, por todas las atenciones que
han tenido conmigo en las distintas estancias realizadas aqu en el departamento.
Quiero tambin escribir aqu unas palabras de cariosa gratitud para mi familia y, de
forma muy especial, para mis padres, aunque uno de ellos no est fisicamente conmigo,
ya que con su esfuerzo y trabajo han puesto todo su empeo para que yo hoy tenga aqu
el enorme privilegio de presentar esta tesis.
Finalmente, destacar el reconocimiento ms importante para la persona ms
importante de mi vida, mi esposa Damaris Pascual, a ella dedico por completo este
trabajo, debido a que constantemente me brind todo su apoyo para que consiguiera este
objetivo. A mis dos hijos Fernando y Dayami, todo mi amor y agradecimiento por
tolerarme pacientemente en los momentos en que hemos estado solos en la casa y los
que he faltado de la casa por estar aqu en la UJI. Mi esposa querida y mis hijos fueron
en realidad, mi inspiracin, mi estmulo, mi impulso, mi pasin y a ellos tres est
dedicado por completo este trabajo.
Prlogo
muestra que se desea clasificar. En otras palabras, a lo largo de esta memoria de Tesis
abordaremos un enfoque estocstico de clasificacin, que ser aplicado a los esquemas
de seleccin de prototipos y tambin abordaremos un esquema de aprendizaje continuo
utilizando tcnicas estocsticas. Con las alternativas aqu propuestas tratamos de superar
las deficiencias que acabamos de apuntar, as como las limitaciones inherentes a la
definicin de aquellas reglas de clasificacin y del conjunto de procedimientos que las
utilizan, debido bsicamente a la degradacin de la informacin disponible y a su
elevado coste computacional.
xii
ndice General
Captulo 1. Introduccin
1. Contexto.......................................................................................................................3
2. Motivacin y Objetivos Generales ..............................................................................7
3. Organizacin de la Memoria de la Tesis .....................................................................8
1. Introduccin...............................................................................................................11
2. Formulacin General de un Problema de Clasificacin ............................................12
2.1. Distancias o mtricas..........................................................................................13
3. Fundamentos Estadsticos .........................................................................................16
4. Clasificador Naive Baye............................................................................................18
5. Clasificadores no Parametricos .................................................................................19
5.1. Clasificador de Distancia Mnima......................................................................19
5.2. Regla del Vecino ms Cercano ..........................................................................20
5.3. Regla de los k vecinos ms cercanos..................................................................21
5.4. Regla k-NN con Rechazo ...................................................................................24
6. Clasificadores Basados en el Concepto de Vecindad Envolvente.............................25
6.1. Vecindad de Centride ms Prximo...................................................................27
6.2. Regla de Clasificacin k-NCN ...........................................................................29
6.3. Clasificacin por Grafos de Proximidad ............................................................30
1. Introduccin...............................................................................................................33
2. Algoritmos de Edicin...............................................................................................34
2.1. Taxonomas de los Algoritmos de Edicin ........................................................35
3. Algoritmo de Edicin de Wilson ...............................................................................37
3.1. Edicin Repetitiva ..............................................................................................38
3.2. Edicin con Rechazo ..........................................................................................39
ndice General
1. Introduccin...............................................................................................................55
2. Algoritmo Condensado de Hart.................................................................................56
2.1. Algoritmo de Condensado Reducido .................................................................57
3. Algoritmo Condensado de Tomek.............................................................................58
4. Condensado de Chen .................................................................................................59
5. Condensado Adaptativo. Mtodo por Cuantificacin Vectorial ( LVQ) ..................61
6. Algoritmo Subconjunto Selectivo .............................................................................64
7. Algoritmo Subconjunto Selectivo Modificado..........................................................67
1. Introduccin...............................................................................................................69
2. Modelos Generativos.................................................................................................70
3. Auto-Entrenamiento. (Self-training, bootstrapping) .................................................71
4. Co-Entrenamiento......................................................................................................71
5. Mquinas de Vector Soporte Semi-Supervisadas......................................................73
5.1. Regularizacin de la Informacin ......................................................................74
6. Mtodos basados en Grafos.......................................................................................74
6.1. Regularizacin por Grafo ...................................................................................75
7. Teora del Aprendizaje Computacional.....................................................................75
8. Algoritmo Parcialmente Supervisado Utilizando Tcnicas de Seleccin de
Prototipos...................................................................................................................76
Conclusiones. Introduccin y Fundamentos Tericos.....................................................78
xiv
ndice General
1. Introduccin...............................................................................................................83
2. Ventanas de Parzen....................................................................................................84
3. Regla de los k Vecinos ms Cercanos .......................................................................89
4. Regla de Clasificacin Estocstica ............................................................................90
5. Regla de Clasificacin Estocstica con Rechazo ......................................................94
6. Regla k-NCN Estimando las Probabilidades de Clases.............................................95
7. Resultados Experimentales Utilizando Reglas de Clasificacin Estocsticas...........96
7.1. Reglas de Clasificacin con Rechazo.................................................................99
8. Conclusiones............................................................................................................103
1. Introduccin.............................................................................................................105
2. Algoritmo de Edicin de Wilson Estocstico (Wilson-prob)..................................105
2.1. Algoritmo de Edicin Estimando probabilidades de Clases y Umbral ............107
3. Edicin Estocstica Utilizando la Regla k- NCN ......................................................109
4. Edicin Repetitiva Utilizando Probabilidades de Clases ........................................111
5. Resultados Experimentales con Reglas de Edicin Estocsticas ............................112
5.1. Esquema Estocstico de Wilson y Wilsoncn ...................................................112
5.2. Resultados Correspondientes a la Edicin Estocstica Repetitiva...................121
5.3. Esquema de Wilson y Wilsoncn con Reetiquetado..........................................123
5.4. Esquemas de Edicin por Particiones ..............................................................125
6. Conclusiones............................................................................................................126
1. Introduccin.............................................................................................................129
2. Algoritmos de Condensado Estimando Densidades Locales ..................................130
3. Resultados Experimentales con los Algoritmos de Condensado Basados en
Densidad ..................................................................................................................135
3.1. Algoritmos de Condensado Dens(R) y Dens(K) ..............................................135
3.2. Tcnicas de Reduccin de la Talla del Conjunto de Entrenamiento................139
4. Conclusiones............................................................................................................146
xv
ndice General
1. Introduccin.............................................................................................................149
2. Algoritmo de Aprendizaje Continuo Utilizando Probabilidades de Clase ..............150
3. Tcnicas de Condensado Utilizando Funciones de Densidad Aplicadas al
Aprendizaje Continuo..............................................................................................154
4. Resultados Experimentales de los Algoritmos de Aprendizaje Continuo...............156
4.1. Resultados Experimentales Incorporando Tcnicas de Condensado Basado en
Densidades Locales ..........................................................................................159
4.2. Comparacin de Algoritmos Referente al Control de la Talla del Conjunto de
Entrenamiento ..................................................................................................163
4.3. Control de la Talla del Conjunto de Entrenamiento en Cada Iteracin Utilizando
Dens(K2)- Variante 2 .......................................................................................165
4.4. Comparacin entre Ap-Dens(K2)-V1 y Ap-Dens(K2)-V2 ..............................168
5. Conclusiones............................................................................................................171
Anexos
Bibliografa
Referencias Bibliogrficas.............................................................................................187
xvi
ndice de Tabla
Tabla 1. Un breve sumario de las bases de datos utilizadas en los experimentos ...........97
Tabla 2. Porcentaje de clasificacin, desviacin tpica diferencias de porcentajes y
ranking comparando los clasificadores k-NN y k-NN-prob ............................................98
Tabla 3. Porcentaje de clasificacin, desviacin tpica porcentajes de muestras
rechazadas usando clasificadores con opciones de rechazo ..........................................100
Tabla 4. Porcentaje de clasificacin, desviacin tpica diferencias de porcentajes,
ranking y opciones de rechazo, utilizando los clasificadores k-NCN y k-NCN-prob ...101
Tabla 26. Divisin de las bases de datos utilizadas para realizar los experimentos......156
Tabla 27. Diferentes algoritmos de aprendizaje continuo .............................................157
xviii
ndice de Figuras
Figura 11. Comparacin de algoritmos de edicin en las bases de datos Balance, Cancer
y Diabetes ......................................................................................................................116
ndice de Figura
Figura 15. Grficas comparacin de algoritmos basados en densidad para las bases de
datos Australian, Balance, Cancer y Diabetes...............................................................137
Figura 16. Grficas comparacin de algoritmos basados en densidad para las bases de
datos Heart y Liver ........................................................................................................138
Figura 17. Comparacin de algoritmos basados en densidad para las bases de datos
Phoneme, Satimage, Texture e Iris................................................................................138
Figura 18. Comparacin de algoritmos basados en densidad para las bases de datos Led-
Creator y Wine...............................................................................................................139
Figura 19. Comparacin entre diferentes tcnicas para reducir la talla del conjunto de
entrenamiento ................................................................................................................142
Figura 20. Comparacin entre diferentes tcnicas para reducir la talla del conjunto de
entrenamiento ................................................................................................................143
Figura 21. Comparacin entre diferentes tcnicas para reducir la talla del conjunto de
entrenamiento ................................................................................................................143
Figura 22. Comparacin entre diferentes tcnicas para reducir la talla del conjunto de
entrenamiento ................................................................................................................144
Figura 23. Comparacin entre diferentes tcnicas para reducir la talla del conjunto de
entrenamiento ................................................................................................................145
Figura 24. Grficas donde se muestran los resultados de la Tabla de rangos
correspondiente a porcentajes de clasificacin y coeficiente de reduccin...................146
xx
ndice de Figura
xxi
Notacin
Conjunto de prototipos .....................................................................................................X
Prototipo i-simo del conjunto X ..................................................................................... xi
Talla del conjunto de prototipos ....................................................................................... N
Cantidad de bases de datos ...............................................................................................N
Conjunto de las clases de un problema.............................................................................
Nmero de clases............................................................................................................. M
Clase i .............................................................................................................................. wi
Etiqueta de clase asociada al prototipo i-simo................................................................ i
Espacio de Representacin ............................................................................................... E
Funcin distancia...............................................................................................................d
Regla de decisin o clasificacin ......................................................................................
Regla del vecino ms prximo ......................................................................................NN
Cantidad de algoritmos......................................................................................................k
Suma de ranking positivos.............................................................................................. R+
Suma de ranking negativo ............................................................................................... R-
Estimador Wilcoxon Signed Ranks Test ...........................................................................z
Estimador de Fredman.....................................................................................................FF
Valor o talla de la vecindad ...............................................................................................k
k-Vecindad ms prxima de la muestra x................................................................... Vk(x)
Regla de los k-vecinos ms cercanos..........................................................................k-NN
Regla de los (k,l)-vecinos ms prximos............................................................... (k,l)-NN
Regla de los (k,li)-vecinos ms prximos ............................................................. (k,li)-NN
Regla de los (k,m)-vecinos ms prximos ........................................................... (k,m)-NN
Regla de los (k,m,k)-vecinos ms prximos ....................................................(k,m,k)-NN
Grafos formados por el conjunto de nodos V y el conjunto de arcos.................. AG(V,A)
Grafo de Gabriel ............................................................................................................GG
Grafo de vecindad relativa.......................................................................................... RNG
Hiperesfera de influencia entre p y q.............................................................................p,q
Hiperluna de influencia entre p y q ...............................................................................p,q
Vecindad envolvente de Gabriel de la muestra x ................................................... VEG(x)
Vecindad envolvente relativa de la muestra x ........................................................ VER(x)
Regla de clasificacin estocstica...............................................................................k-prob
Opcin de rechazo estocstica.............................................................................. k-prob-umb
Variante de opcin de rechazo estocstica .......................................................k-prob-umb-var
Regla de clasificacin NCN estocstica .............................................................. k-NCN-prob
Opcin de rechazo NCN estocstica ..............................................................k-NCN-prob-umb
Variante de opcin de rechazo estocstica ................................................ k-NCN-prob-umb-var
Parte I
Introduccin y
Fundamentos Tericos
Captulo 1
Introduccin
1. Contexto
4
Introduccin
Entre los clasificadores estadsticos tambin suele haber dos grandes grupos. Por una
parte, clasificadores paramtricos son aplicados cuando es conocida la distribucin de
probabilidades de las clases, siendo el clasificador de Bayes su mximo representante.
El otro grupo est integrado por los mtodos de clasificacin no paramtricos, los cuales
son aplicados en problemas donde no se conoce la distribucin de probabilidades de
clases. Un especial inters dentro de este conjunto de clasificadores se le atribuye a los
que utilizan criterios de vecindad, debido a que poseen propiedades interesantes con
respecto a otros mtodos no paramtricos. La ms inmediata hace referencia a su
5
Captulo1
La regla del vecino ms cercano (Nearest Neighbour, NN) es uno de los algoritmos
no paramtricos ms extensamente estudiado en toda la literatura, la cual consiste en,
dado un conjunto de prototipos previamente etiquetados (conjunto de entrenamiento)
esta regla asigna un objeto a la clase del vecino ms cercano en el conjunto de
prototipos, en correspondencia a una medida de similaridad en el espacio de
caractersticas. Otro algoritmo tambin extensamente estudiado es la regla de los k-
vecinos ms cercanos (k-NN), la cual se puede resumir en que la clase asignada al
objeto ser la clase ms votada entre los k vecinos ms prximos del conjunto de
entrenamiento.
Sin embargo, en el mundo real los cambios son constantes; y la forma tradicional en
que trabaja un clasificador no considera la modificacin paulatina del conocimiento que
ste posee, es decir, el clasificador es entrenado para reconocer un tipo de objetos de
inters (clases), despus es probada su precisin y, finalmente, es puesto en produccin,
hasta que se tiene la necesidad de volver a entrenar al clasificador debido a que se ha
perdido la buena precisin de ste. Para tratar de resolver esta dificultad, en la dcada de
los aos 90 en diversos trabajos [Bensaid, 1996], [Castelli, 1995], [Nigam, 2000],
surgen los algoritmos parcialmente supervisados, los cuales representan un cierto
compromiso entre los algoritmos supervisados y los no supervisados, siendo capaces de
emplear tanto objetos etiquetados como no etiquetados en la fase de clasificacin de
nuevos objetos.
6
Introduccin
7
Captulo1
Ms concretamente, los objetivos perseguidos con la presente Tesis Doctoral son los
siguientes:
El Captulo 5 est dedicado al estado del arte sobre los algoritmos de aprendizaje
parcialmente supervisados, destacando aqu las diversas tendencias que existen en la
actualidad sobre el problema de cmo utilizar los objetos no etiquetados en la fase de
clasificacin.
8
Introduccin
9
Captulo 2
1. Introduccin
A partir de aqu, en este captulo, haremos una breve exposicin de las mtricas ms
utilizadas en toda la literatura dedicada a este tema. Posteriormente, se centrar en el
anlisis de los aspectos tericos ms relevantes para la mayor parte de los mtodos de
clasificacin no paramtricos basados en criterios de vecindad.
: E , (x) = i i =1, , M
Por tanto, el clasificador asigna una muestra a la clase o particin del espacio de
representacin E cuya funcin discriminante asociada Di(x), sea mayor. Debemos de
sealar que existen determinadas zonas del espacio en las que distintas funciones
discriminantes pueden tomar el mismo valor, es decir, particiones del espacio que
podran pertenecer con la misma probabilidad a ms de una clase. Estas zonas o
regiones indefinidas se denominan fronteras de decisin, correspondiendo a los casos
donde se cumple la siguiente igualdad:
Di(x) = Dj(x) j i i, j = 1, , M
Si asumimos que a cada punto xE le corresponde una verdadera clase, entonces una
regla de clasificacin puede fallar o acertar la verdadera categora de un determinado
12
Tcnicas de Clasificacin Basadas en Criterios de Vecindad
La geometra del espacio tridimensional en el que estamos sumergidos nos resulta muy
natural. Conceptos tales como distancia, longitud, ngulo, perpendicularidad son de uso
cotidiano. En matemticas, frecuentemente podemos agrupar ciertos objetos en espacios
abstractos y definir entre ellos relaciones semejantes a las existentes entre los puntos del
espacio ordinario. El paralelismo que se establece as entre los espacios abstractos y el
espacio Eucldeo nos permite visualizar y lograr un entendimiento ms profundo de
estos objetos.
Existen varias formas de determinar cundo dos objetos del espacio son parecidos
y cundo no. Entre ellas, estn las funciones de similaridad, las de disimilaridad, las
mtricas. En el Reconocimiento de Patrones, la distancia entre dos objetos cualesquiera
del espacio es una medida de cuan similares son de acuerdo a sus caractersticas. Por
tanto, sta debe ser escogida de forma tal que mientras ms parecidos sean los objetos
menor debe ser la distancia entre ellos y, por el contrario, los objetos muy lejanos deben
ser poco similares.
13
Captulo 2
(x (O ) x (O ))
n
2
d (Oi, Oj) = k i k j
k =1
donde Oi y Oj son los objetos para los cuales se desea calcular la distancia, n es el
nmero de caractersticas de los objetos del espacio y xk(Oi), xk(Oj) es el valor del
atributo k en los objetos Oi y Oj.
1 si x y
d ( x, y ) =
0 si x = y
Minkowsky:
1/ p
n p
d (Oi , O j ) = x k (Oi ) x k (O j )
k =1
Manhattan:
n
d (Oi , O j ) = x k (Oi ) x k (O j )
k =1
Chebychev:
14
Tcnicas de Clasificacin Basadas en Criterios de Vecindad
Camberra:
n xk (Oi ) xk (O j )
d (Oi , O j ) =
k =1 xk (Oi + xk (O j )
Funcin de Correlacin:
(x k (Oi ) k )( xk (O j ) k )
d (Oi , O j ) = k =1
n n
( xk (Oi ) k ) 2 ( xk (O j ) k ) 2
k =1 k =1
Distancia de Mahalanobis
1
d (Oi , O j ) = [det V ] n (Oi O j ) T V 1 (Oi O j )
2
N i, xi (O1) , c N i, xi ( O2 ), c
M
vdmi ( xi (O1 ), xi (O2 ) =
c =1 N i, x i ( O1 ) N i , xi (O2 )
15
Captulo 2
Es comn que los clasificadores tengan que enfrentarse a problemas en los que los
atributos de los objetos son heterogneos, es decir, estn descritos por ambos tipos de
valores (numricos y no numricos). En este tipo de problemas, es necesario emplear
una funcin heterognea de distancia, por ejemplo HVDM (Heterogeneous Value
Difference Metric) [Wilson. D, Martinez. T, 2000], mediante la cual es posible calcular
distancia entre objetos cuyos atributos son heterogneos. La funcin HVDM se define
de la siguiente forma:
n
HVDM (O1 , O2 ) = d
i =1
i
2
( xi (O1 ), xi (O2 ))
1 si xi (O1 ) xi (O 2 ) son atributos ausentes
di ( xi (O1 ), xi (O2 )) = vdmi ( xi (O1 ), xi (O2 ) ) si i no numrico
x (O ) x (O )
i 1 i 2
si i es numrico
4 i
Existen otras funciones que permiten calcular la distancia entre objetos descritos
tanto por atributos cuantitativos como cualitativos, las cuales aparecen en los trabajos de
[Stanfill, 1986], [Wilson. D, Martinez. T, 2000] y [Olvera, 2005].
3. Fundamentos Estadsticos
La teora de la probabilidad y los mtodos bayesianos son unas de las tcnicas que ms
se ha utilizado en problemas de inteligencia artificial y, por tanto, de aprendizaje
automtico. Como se indica en [Mitchell, 1997], son dos las razones por las que los
mtodos bayesianos son relevantes al aprendizaje automtico:
16
Tcnicas de Clasificacin Basadas en Criterios de Vecindad
P(O | h).P(h)
P (h | O) =
P(O)
donde, como podemos ver, lo que aparece son la probabilidad a priori de la hiptesis (h)
y de las observaciones (O) y las probabilidades condicionadas P(h|O) y P(O|h). A esta
ltima se le conoce como la verosimilitud de que la hiptesis h haya producido el
conjunto de observaciones O.
P( A1 , A2 , ..., An | C).P(C)
P (C | A1 , A2 , ..., An ) =
P( A1 , A2 , ..., An )
Evidentemente, si C tiene k posibles valores {c1, c2, , ck}, lo que nos interesa es
identificar el ms probable y devolverlo como resultado de la clasificacin. En el marco
bayesiano, la hiptesis ms plausible no es otra que aquella que tiene mxima
probabilidad a posteriori dados los atributos, y es conocida como la hiptesis mxima a
posteriori o hiptesis MAP (maximum a posteriori). As, la clase o valor a devolver
ser:
Por tanto, el teorema de Bayes nos facilita un mtodo sencillo y con una semntica
clara para resolver esta tarea. Sin embargo, este mtodo tiene un inconveniente, y es su
altsima complejidad computacional, debido a que necesitamos trabajar con
17
Captulo 2
El fundamento principal del clasificador Naive Bayes [Duda and Hart, 1973] es la
suposicin de que todos los atributos son independientes conocido el valor de la
variable clase. A pesar de que asumir esta suposicin en el clasificador Naive Bayes
(NB) es sin duda bastante fuerte y poco realista en la mayora de los casos, se trata de
uno de los clasificadores ms utilizados.
n( xi , Pa( xi ))
P( xi | Pa( xi )) =
n( Pa( xi ))
Es decir, el nmero de casos favorables dividido por el nmero de casos totales. Esta
tcnica se conoce como estimacin por mxima verosimilitud y tiene como desventaja
que necesita una muestra de gran tamao y que sobreajusta a los datos.
18
Tcnicas de Clasificacin Basadas en Criterios de Vecindad
1 ( X ) 2
P ( A i | c) = exp( )
2 2 2
5. Clasificadores no Paramtricos
Para poder aplicar esta regla de clasificacin, lo primero ser determinar de forma
adecuada un prototipo que represente a cada una de las M clases del problema. En esta
regla, este aspecto es el proceso ms importante, puesto que el mtodo empleado para
definir los representantes por clases va a influir directamente en los resultados de la
clasificacin.
Una vez determinado el conjunto de prototipos representantes para cada una de las
clases {Z1, Z2, , ZM}, la regla de clasificacin por distancia mnima DM puede
escribirse de la siguiente manera:
19
Captulo 2
20
Tcnicas de Clasificacin Basadas en Criterios de Vecindad
Cabe destacar que el anlisis asinttico de la regla NN presentado por [Snchez. J.S,
1998], permite afirmar que, al menos, la mitad de la informacin sobre la pertenencia de
un objeto a una cierta clase, se encuentra en su vecino ms prximo, resultado que no
depende de la mtrica utilizada para la determinacin del vecino ms prximo.
21
Captulo 2
Vk ( x) P
Vk ( x) = k
pV ( x), q P V ( x) d ( p, x) d (q, x)
k k
M
donde P = U
i =1
Pi
dk (x, Pi ) = k - Vk(x) Pi
k - NN ( x) = wi d ( x, Pi ) = min d k ( x, Pj )
j = 1, 2 , ..., M
Debemos sealar tambin que las fronteras de decisin continan siendo funciones
lineales a tramo puesto que, en cualquier caso, siempre corresponden a combinaciones
de funciones lineales.
22
Tcnicas de Clasificacin Basadas en Criterios de Vecindad
23
Captulo 2
modelacin del problema y la seleccin rigurosa del clasificador a emplear para darle
una solucin correcta al problema sobre el cual se est trabajando.
i si Vk (x) Pi l , i = 1, . .., M
(k,l) NN (x) =
0 si no (clasificacin rechazada)
A partir de esta primera aproximacin para la regla k-NN con Rechazo, es posible
establecer una mayor generalizacin de esta regla definiendo un umbral o tipo de
mayora distinto para cada una de las M distintas clases, li, dando lugar entonces a la
regla de los (k-li)-Vecinos ms Cercanos ((k-li)-NN).
i si Vk (x) Pi l i , i = 1,..., M
( k,li ) NN ( x) =
0 si no (clasificacin rechazada)
La segunda propuesta alternativa a la regla k-NN con Rechazo, basada en una idea
relativamente distinta de las descritas anteriormente, consiste en fijar un tipo de mayora
absoluta para el nmero de votos. En este caso, se rechazar la clasificacin de la
24
Tcnicas de Clasificacin Basadas en Criterios de Vecindad
i si (wi w j ) m i, j = 1, ..., M,
(k,m) NN (x) =
w
p =1
p k
si no (clasificacin rechazada)
0
donde wi, wj se refiere al nmero de votos alcanzado para las clases i , j entre los k
vecinos.
i
(k,m) NN (x) =
si (wi w j ) m i, j = 1, ..., M, w
p =1
p k
k NN (x) en otro caso
25
Captulo 2
pequeo), la aplicacin de esta regla podra entenderse como una solucin poco
apropiada, debido a los pobres resultados que pudieran obtener, es decir, a su baja tasa
de aciertos en el correspondiente proceso de clasificacin. Este problema tambin est
presente cuando el nmero de muestras de que se dispone puede considerarse pequeo
comparado con la dimensionalidad intrnseca del espacio de representacin, lo cual
corresponde a una situacin bastante habitual.
De hecho, en diversos artculos entre los que podemos mencionar a [Short, 1981] y
[Fukunaga, 1984], trataron la posibilidad de reducir el error de clasificacin asociado a
la regla de decisin k-NN en el caso finito mediante la seleccin de una mtrica
adecuada. En el primer artculo, se propone una distancia de carcter local entre cada
punto y la muestra en cuestin y, por tanto, las estimaciones para cada muestra
dependern de la regin del espacio de representacin donde se apliquen. En el segundo
artculo, se propone una distancia globalmente ptima de tipo cuadrtica, que depende
de los vecinos ms cercanos de todos los prototipos del conjunto de entrenamiento.
1. Criterio de distancia: Los vecinos deben estar tan cercanos a la nueva muestra
como sea posible.
2. Criterio de simetra: Los vecinos deben estar tan homogneamente distribuidos
alrededor de la muestra como sea posible.
La regla k-NN slo tiene en cuenta la primera de estas propiedades, por lo cual la
muestra podra no estar suficientemente rodeada por sus correspondientes vecinos, si los
prototipos del conjunto de entrenamiento no se encontraran distribuidos de manera
homognea en el espacio de representacin.
En esta direccin existen diferentes trabajos reportados en la literatura entre los que
podemos citar:
26
Tcnicas de Clasificacin Basadas en Criterios de Vecindad
2. [Toriwaki, 1988] propone un mtodo alternativo que permite buscar los vecinos
simtricos de un punto utilizando los diagramas de Voronoi, siendo su principal
inconveniente el alto costo computacional asociado al clculo del diagrama de
Voronoi.
3. [Chaudhuri, 1996] propone una nueva definicin de vecindad, en la cual utiliza
los criterios de distancia y simetra. Se trata de un mtodo sencillo, sin la
necesidad de definir parmetros externos. En este artculo, este nuevo concepto
de vecindad se utiliza como herramienta para la deteccin de los bordes dentro
de un conjunto de puntos.
4. [Sanchez, 1998] aplica este tipo de vecindad sobre problemas generales de
clasificacin, definiendo para ello un nuevo clasificador no paramtrico de
caractersticas similares a la regla k-NN.
Mtodo:
1- S X, T , j 0
2- Buscar en S el vecino ms cercano x1 al punto p
3- T T {x1}, S S - {x1}
4- Para cada punto xi S
Calcular el centroide ci de los puntos en T {xi}
5- Seleccionar el punto xi tal que la distancia entre ci y p sea mnima. En caso
de que exista ms de un xi que cumpla esta condicin seleccionar el ms
alejado al vecino tomado en la iteracin anterior.
T T {xi}, S S - {xi}; j j + 1
6- Si j < k, ir al Paso 4
7- Devolver T
27
Captulo 2
Cabe destacar que, como consecuencia del criterio de centroide que se est
utilizando, todos los vecinos k-NCN seleccionados se situaran alrededor del punto p, es
decir, de alguna forma se consigue que dicho punto quede rodeado por sus k vecinos.
28
Tcnicas de Clasificacin Basadas en Criterios de Vecindad
29
Captulo 2
1. VE1(x) = {(x, )}
2. VEk(x) = VEk-1(x) (xi, i) / d(x, c(xi, VEk-1(x))) d(x, c(xj, VEk-1(x)))
xi, x j X {VE k 1(x)}, i j
donde c(xi, VEk-1(x))Ck, denota al centroide entre los k-1 vecinos pertenecientes a
VEk-1(x) y el prototipo xi.
d k ( x, Pi ) = k VEk ( x) Pi
k NCN ( x) = i d k ( x, Pi ) = min d k ( x, Pi )
i = 1, ..., M
Al igual que como se hizo en la regla k-NN, las diferentes opciones de rechazo vistas
anteriormente pueden ser implementadas utilizando como clasificador la regla k-NCN,
persiguiendo los mismos objetivos, es decir, rechazar aquellas muestras para la cual no
se tenga una certeza de pertenecer a una determinada clase. En otras palabras, si
ninguna de las M clases alcanza una mayora prefijada de los votos, entonces esta
muestra ser rechazada.
30
Tcnicas de Clasificacin Basadas en Criterios de Vecindad
El concepto de vecindad de grafo podra definirse tanto para los GGs como los
RNGs, diciendo que dos puntos sern vecinos de grafos si entre ellos se puede definir
una cierta zona de influencia vaca, es decir, si existe una cierta regin que no contenga
ningn otro punto en su interior. En el caso del GG, la representacin geomtrica de
esta zona de influencia entre dos vecinos de grafos (denominados, en este caso, vecinos
de Gabriel) p y q corresponder a una hiperesfera diametral p, q de centro en el punto
medio entre ambos vecinos y de dimetro igual a la distancia entre ellos.
p + q d(p,q)
p, q = B ( , )
2 2
Dentro de este contexto, otro importante aspecto a tener en cuenta es que podemos
describir tambin una cierta regin envolvente del mismo modo que lo hacamos para
los vecinos de centroide ms prximo. As, para el caso del GG, la regin envolvente de
Gabriel para un punto p se podra definir como la unin de las correspondientes
hiperesferas de influencia entre dicho punto y la totalidad de sus vecinos.
Por tanto, siguiendo el esquema que presentamos cuando fue expuesta la regla de
clasificacin k-NCN, es posible utilizar la vecindad de Gabriel con el fin de obtener un
clasificador envolvente [Snchez, 1997a]. Sea G(V, A) el GG asociado a X, donde V=X
es el conjunto de vrtices y A el conjunto de arcos. Entonces, se podr definir la
vecindad envolvente de Gabriel para una muestra xE mediante la siguiente expresin:
31
Captulo 2
donde VEG de una muestra x estar formada por los prototipos que se encuentren dentro
de la regin envolvente de Gabriel correspondiente a dicha muestra x.
donde VER de una muestra x estar integrada por los prototipos contenidos en su regin
envolvente relativa.
32
Captulo 3
1. Introduccin
Entre las muchas propuestas para tratar este problema, cabe destacar las diversas
tcnicas que persiguen reducir la informacin. Tradicionalmente, en funcin de que
apliquemos una reduccin vertical u horizontal, estos mtodos pueden dividirse en dos
categoras: seleccin de caractersticas y seleccin de prototipos, centrndonos
particularmente en este ltimo aspecto a lo largo de la presentacin de este captulo.
2. Algoritmos de Edicin
34
Tcnicas de Filtrado de las Muestras de Aprendizaje
En este captulo, nos percataremos que la diferencia fundamental entre los diferentes
esquemas de edicin hace referencia al mtodo de estimacin de la probabilidad de
pertenecer a una cierta clase una determinada muestra. A continuacin, se hace una
exposicin detallada de los procedimientos de edicin ms interesantes propuestos en la
literatura consultada.
Una ventaja de este tipo de estrategia es que resulta ser ms rpida y consumir menos
recursos de almacenamiento durante el proceso de entrenamiento del clasificador en
comparacin a las estrategias no incrementales. La principal desventaja de la estrategia
35
Captulo 3
La principal ventaja de esta estrategia es que se obtiene una mayor reduccin del
conjunto de entrenamiento y normalmente, se logra una mayor precisin en la
clasificacin con respecto a la obtenida con la muestra original.
Una desventaja que presenta esta estrategia es que resulta ser computacionalmente
ms costosa con respecto al enfoque incremental, ya que, por ejemplo, para encontrar
similitud entre un objeto y el subconjunto S, la estrategia decremental lleva a acabo n
comparaciones (donde n=|S|), mientras que la estrategia incremental realiza menos
clculos (cero inicialmente y, posteriormente, slo una fraccin de |TS|).
36
Tcnicas de Filtrado de las Muestras de Aprendizaje
Estrategia por lotes. Esta es otra de las maneras en que puede llevarse a cabo el
proceso de edicin, la cual consiste en identificar y marcar aquellos objetos que no
satisfacen el criterio de seleccin, los cuales no sern considerados en el subconjunto S
y, finalmente, se eliminan tales objetos, es decir, no se elimina slo un objeto sino
grupos de estos. Al igual que la estrategia decremental, esta tcnica resulta ser costosa
desde el punto de vista computacional.
1. Incremento de la competencia.
2. Preservacin de la competencia.
3. Esquema hbrido.
Sea {X, } = {(x1, 1), (x2, 2), , (xN, N)} un conjunto de entrenamiento con N
prototipos y M posibles clases y, sea k el nmero de vecinos ms prximos a determinar
para cada prototipo. Entonces, podemos escribir el algoritmo de edicin de Wilson del
siguiente modo:
37
Captulo 3
Mtodo:
1- S X
2- Para cada prototipo xiX
2.1- Buscar los k-NN ms prximos de xi en X - {xi}
2.2- Si k-NN (xi) i entonces S S - {xi}
3- Devolver S
Mtodo:
1- S
2- Mientras |X| |S|
2.1- S X
2.2- Aplicar la Edicin de Wilson sobre el conjunto X
3- Devolver S
Desde el punto de vista terico, la aplicacin repetida del algoritmo de Wilson debe
mejorar los resultados obtenidos con el algoritmo original pero, en la prctica, el
algoritmo no mejora de manera significativa la efectividad de la clasificacin dado que
elimina muy pocos prototipos despus de la primera iteracin, por lo que finaliza al
cabo de muy pocas iteraciones.
38
Tcnicas de Filtrado de las Muestras de Aprendizaje
Mtodo:
1- S X
2- Para cada prototipo xi X
2.1- Buscar los k-NN vecinos de xi en X - {xi}
2.2- Si (k, l)-NN (xi) i 0, hacer S S - {xi}
2.3- Si (k, l)-NN (xi) i = 0 asignar a xi la clase de los prototipos
rechazados
3- Devolver S
El objetivo que se persigue con este algoritmo es descartar las muestras dudosas,
es decir, las que se encuentran prximas a las fronteras de decisin.
39
Captulo 3
Mtodo:
1- S X
2- Para cada prototipo xi X
2.1- Buscar los k-NN vecinos de xi en X - {xi}
2.2- Si (k, l)-NN (xi) i 0 asignar a xi la clase ms votada por sus k
vecinos ms prximos.
2.3- Si (k, l)-NN (xi) i = 0 hacer S S - {xi}
3- Devolver S
Debemos sealar que tanto en el algoritmo de edicin con rechazo propuesto por
[Tomek, 1976b] como en la edicin con reetiquetado [Koplowitz, 1981], se ha
empleado como regla de edicin la regla (k,l)-NN, pero en estos algoritmos tambin se
pueden emplear las diferentes variantes relativas a la opcin de rechazo que expusimos
en el captulo anterior de la presente memoria.
40
Tcnicas de Filtrado de las Muestras de Aprendizaje
m Nmero de particiones
Mtodo:
1- Hacer una particin aleatoria de X en m bloques T1, ,Tm
2- Para cada bloque Tj (j = 1, , m)
2.1- Para cada xi en Tj
2.1.1- Buscar los k-NN vecinos de xi en T((j+1) mod m)
2.1.2- Si k-NN (xi) i, hacer T T - {xi}
Al igual que se propuso una versin iterativa para la edicin de Wilson, tambin el
esquema basado en particiones permite la posibilidad de iterar el proceso de edicin un
determinado nmero de veces [Devijver, 1980], dando lugar al algoritmo Multiedit, el
cual consiste en repetir la edicin por particin pero utilizando la regla NN (k=1) para la
seleccin de los prototipos.
Algoritmo Multiedit
Mtodo:
1- t = 0
2- Repetir hasta que en las ltimas t iteraciones (t > f) no se produzca ninguna
eliminacin de prototipos del conjunto X.
2.1- Asignar a S el resultado de aplicar la Edicin por Particin sobre X
utilizando la regla NN.
2.2- Si no se ha producido ninguna nueva eliminacin en el paso 2.1
(|X| = |S|) hacer t = t + 1 e ir al Paso 2
41
Captulo 3
Es preciso sealar que la gran ventaja de la versin iterativa es que, para conjuntos
de entrenamiento finitos aunque suficientemente grandes, su comportamiento resulta ser
significativamente mejor debido al hecho de no presentar aquella dependencia del
parmetro k que s mostraba el algoritmo anteriormente mostrado.
Podemos sealar tambin que en problemas prcticos este algoritmo presenta las
siguientes limitantes.
Mtodo:
1- Hacer una particin aleatoria de X en m bloques T1, , Tm
2- Para cada bloque Tj (j = 1, , m)
2.1- Para cada xi en Tj
2.1.1- Buscar los k-NN vecinos de xi en Tj
42
Tcnicas de Filtrado de las Muestras de Aprendizaje
Siguiendo el mismo principio del esquema de edicin por Particin simple y del
algoritmo Multiedit, en el trabajo de [Ferri, 1992b] se propone un esquema repetitivo de
la aproximacin basada en estimacin por Validacin Cruzada presentada en el epgrafe
anterior.
Mtodo:
1- t = 0
2- Repetir hasta que en las ltimas t iteraciones (t > f) no se produzca
ninguna eliminacin de prototipos del conjunto X
2.1- Asignar a S el resultado de aplicar el Algoritmo de Edicin por
Validacin Cruzada sobre X utilizando la regla NN
2.2- Si no se ha producido ninguna eliminacin en el paso anterior
(|T| = |S|), hacer t = t + 1 e ir al Paso 2
2.3- Asignar a X el contenido de S y hacer t = 0
Dentro de los esquemas de edicin que hemos descrito a lo largo de este captulo, el
esquema de Wilson adems de ser la primera propuesta como mtodo para editar la
regla NN, constituye tambin una de las tcnicas ms sencillas y ms eficaces para
conseguir una relativa mejora en el comportamiento asociado a la regla de clasificacin
NN. Como ya se ha dicho anteriormente, este procedimiento consiste en eliminar del
conjunto de entrenamiento aquellos prototipos que resultan incorrectamente clasificados
a partir de la regla k-NN, utilizando leaving-one-out como mtodo de estimacin del
error.
43
Captulo 3
Sea {X, } = {(x1, 1), (x2, 2), , (xN, N)} un conjunto de entrenamiento con N
prototipos y M posibles clases distintas. Sea k el nmero de vecinos de centroide ms
prximo a determinar para cada prototipo. Entonces, el algoritmo de edicin propuesto
por [Snchez, 1997b], el cual recibe el nombre de Wilsoncn (k-NCN), podr escribirse
del siguiente modo:
Mtodo:
1- Inicializacin S X
2- Para cada prototipo xiX
2.1- Buscar los k vecinos de centroide ms prximo de xi en X - {xi}
2.2- Si k-NCN (xi) i, entonces S = S - {xi}
Como puede observarse, este algoritmo de edicin resultar tan simple y sencillo de
implementar como lo era el procedimiento de Wilson, puesto que la nica variacin que
se ha introducido corresponde al mtodo de clasificacin, en este caso, la regla k-NCN
44
Tcnicas de Filtrado de las Muestras de Aprendizaje
aplicada en el ltimo paso del algoritmo. Es importante tambin sealar que el coste
computacional asociado a este esquema de edicin, donde se tienen que calcular los k
vecinos de centroide ms prximo para una determinada muestra con un coste O(kN) y
puesto que ahora deberemos de repetir este proceso para cada uno de los N prototipos
del conjunto de entrenamiento, resultar ser O(kN2), es decir, similar al coste de la
edicin de Wilson.
1. La versin repetitiva del esquema de edicin por NCN, es decir, aquella que
consiste en editar el conjunto de entrenamiento utilizando la regla k-NCN hasta
que no se produzcan ms eliminaciones de prototipos.
2. Reetiquetar determinados prototipos en funcin de la zona del espacio de
representacin que ocupe, aplicando en este caso la regla k-NCN con Rechazo
en vez del esquema k-NCN. Cabe sealar que esta aproximacin tendr
exactamente los mismos inconvenientes que la propuesta de reetiquetado por la
regla k-NN con Rechazo [Koplowitz, 1981], es decir, la idea de asignar ciertos
prototipos a una clase distinta a la suya no resultar, en general, la ms
apropiada.
3. Utilizar la regla k-NCN con rechazo no slo para editar el conjunto de
prototipos, sino tambin en la clasificacin. A partir de esta aproximacin, un
conjunto de entrenamiento con M clases pasar a tener M+1 clases distintas de
igual manera que en [Tomek, 1976b].
4. Utilizar el esquema de edicin por Particin y, considerar como regla de edicin
la regla k-NCN, es decir, el mtodo de estimacin consistir en realizar una
particin aleatoria del conjunto de entrenamiento en m bloques disjuntos de
prototipos y, despus de enumerarlos, hacer una estimacin para cada bloque j,
utilizando el bloque ((j+1) mdulo m) para disear el clasificador.
45
Captulo 3
Sea {X, } = {(x1, 1), (x2, 2), , (xN, N)} un conjunto de entrenamiento con N
prototipos y M posibles clases distintas. Entonces el correspondiente algoritmo de
edicin por vecindad de grafo de 1er orden [Snchez, 1997c] podr escribirse del
siguiente modo:
Mtodo:
1- Inicializacin: S X
2- Para cada prototipo xiX
2.1- Buscar los vecinos de grafo de xi en X
2.2- Si GN (xi) i ( RN(xi) i ), hacer S S - {xi}
Este esquema general dar lugar a dos posibles procedimientos de edicin en funcin
del tipo de grafo de proximidad que utilicemos y, por tanto, de la regla de clasificacin
que apliquemos en el ltimo paso del algoritmo. Las diferencias entre estas dos
propuestas y los mtodos de Wilson y Wilsoncn, bsicamente se refieren a dos aspectos:
46
Tcnicas de Filtrado de las Muestras de Aprendizaje
Mtodo:
1- Inicializacin: S X
2- Para cada prototipo xiX
2.1- Buscar los vecinos de grafo de xi en X
2.2- Si GN (xi) i ( RN (xi) i)
2.2.1- Buscar los vecinos de grafos correspondientes a los vecinos de su
misma clase (i)
2.2.2- Si GN (xi) i ( RN (xi) i) con los vecinos de los pasos 2.1 y
2.2.1, hacer S S - {xi}
Siguiendo en esta misma lnea, por ejemplo, una pequea variacin con respecto a la
propuesta que acabamos de ver podra consistir en tomar la vecindad de segundo orden
para todos los prototipos, independientemente del resultado obtenido en la votacin
inicial con los vecinos de primer nivel. En cuanto al coste computacional de este nuevo
esquema, se puede decir que, bsicamente ser el mismo que para la edicin por
vecindad de grafo de 1er orden puesto que, como ya hemos apuntado, la principal carga
computacional asociada a este tipo de procedimiento viene determinada por la
construccin de la correspondiente estructura de grafo.
47
Captulo 3
Algoritmo IB1
Entrada: X Conjunto de entrenamiento a editar
Salida: S Conjunto editado
Mtodo:
Inicializacin S
Para cada objeto O de X hacer
1- Para cada objeto y en S hacer
Sim[y] = Calcular similaridad entre [O, y]
2- ymax = El objeto y de S con mayor similaridad con O
3- Si la clase(O) = clase(ymax) entonces la clasificacin es correcta y
3.1- S S{O}
3.2- De lo contrario clasificacin incorrecta
4- Devolver S
El algoritmo IB2 es idntico al algoritmo IB1, excepto que IB2 almacena los objetos
clasificados errneamente, pues es un mtodo de edicin cuya regla a seguir es
encontrar en la muestra original un subconjunto que contenga aquellos objetos que
fueron clasificados incorrectamente durante el proceso. El algoritmo IB2 resulta ser
sensible al ruido, pues en base a la regla que sigue, almacena objetos ruidosos, ya que,
por su naturaleza, este tipo de objetos suele clasificarse de manera incorrecta. Es
importante sealar, que este algoritmo tiene mucha similitud con el algoritmo de Hart
que expondremos en el prximo captulo. El algoritmo IB3 analiza los resultados de
clasificacin antes de eliminar un objeto ruidoso, mantiene un registro de cmo se
clasifica con los objetos que se van almacenando y elimina aquellos con los cuales,
estadsticamente, se ven afectados los resultados de la clasificacin. Los algoritmos IB4
e IB5 son extensiones de IB3, ya que, para cada clase, determinan un conjunto de pesos
que sern asignados a los atributos de los objetos para fines de clculo de similitudes.
Definicin: Aquellos ejemplos que tienen a P como uno sus k vecinos ms cercanos son
llamados asociados de P y se denotan mediante la expresin P. A1,,a , donde a es el
nmero de asociados de P.
48
Tcnicas de Filtrado de las Muestras de Aprendizaje
Algoritmo DROP1
Mtodo:
1- Sea S = X
2- Para cada objeto P in S
2.1- Encontrar los k+1 vecinos ms cercanos de P en S
2.2- Adicionar P a cada una de las listas de sus vecinos asociados
3- Para cada objeto P en S
3.1- Sea with = nmero de asociados de P clasificados correctamente con
P como un vecino
3.2- Sea without = nmero de asociados de P clasificados correctamente
sin P
3.3- Si without with
3.3.1- Eliminar a P de S
3.3.2- Para cada asociado A de P
3.3.2.1- Eliminar a P de la lista de vecinos ms cercanos de A
3.3.2.2- Encontrar un nuevo vecino ms cercano para A
3.3.2.3- Adicionar A a la nueva lista de vecinos asociados
3.3.3- Para cada vecino W de P
3.3.3.1- Eliminar a P de la lista de asociados de W
3.4- Fin del ciclo
4- Retornar subconjunto S
Este algoritmo comienza construyendo, para cada ejemplo, tanto una lista de vecinos
ms cercanos como una lista de asociados. Entonces, cada ejemplo en S se elimina si su
eliminacin no afecta el resultado de la clasificacin del resto de los ejemplos en S.
49
Captulo 3
Cerca de la frontera, la eliminacin de algunos ejemplos puede causar que otros sean
mal clasificados porque la mayora de sus vecinos pueden ser enemigos. Por tanto, este
algoritmo tiende a almacenar puntos borde no ruidosos. En caso lmite, existe una
coleccin de ejemplos borde tales que la mayora de los k vecinos ms cercanos de cada
uno de estos ejemplos est en la clase correcta.
Mtodo:
50
Tcnicas de Filtrado de las Muestras de Aprendizaje
Otro de los algoritmos de edicin que aparece con frecuencia citado en la bibliografa es
la tcnica de Edicin Generalizada, el cual fue propuesto por [Koplowitz, J. y Brown,
T.A, 1978]. Este algoritmo no slo elimina algunos patrones, sino tambin corrige la
etiqueta de otros.
Mtodo:
1- Para cada xiX, buscar sus k-NN en X - {xi}
1.1- Si al menos k de esos k-NN pertenecen a la misma clase, asignarle a xi
esa etiqueta
1.2- En caso contrario, eliminar xi del conjunto X
51
Captulo 3
El mtodo de edicin que presentan [Olvera, J.A, Martinez, J.F, 2005] consiste en
adaptar la idea de la bsqueda secuencial hacia atrs (BSS) propuesta por [Devijver, P.
A. y Kittler, J, 1982], para la seleccin de objetos. A este mtodo de edicin adaptado le
denominaron Backward Sequential Edition (BSE).
Mtodo
1- Sea S=X
2- BestEval = Classfier (S)
3- Repetir
3.1- WorstP = Ninguno
3.2- Para cada objeto P en S
3.2.1- S= S - {P}
3.2.2- Si Classfier (S) BestEval entonces
WorstP = P
BestEval = Classfier (S)
3.2.3- Si WorstP Ninguno entonces
3.2.3- S = S - {WorstP}
4- Hasta que WorstP = = Ninguno S = =
52
Tcnicas de Filtrado de las Muestras de Aprendizaje
5- Devolver S
Utilizando el algoritmo BSE anteriormente descrito, [Olvera, J.A, Martinez, J.F, 2005]
proponen dos algoritmos de edicin para reducir el tiempo de ejecucin de BSE, sin una
reduccin significativa en el porcentaje de clasificacin. Los esquemas que estos autores
propusieron estn basados en dos etapas:
El primer esquema que muestran [Olvera, J.A, Martinez, J.F, 2005] en su trabajo
consiste en aplicar los algoritmos Wilson y BSE, es decir, aplicar el algoritmo de
edicin de Wilson como filtro de ruido y, despus, editar el subconjunto con el
algoritmo BSE. Este esquema supone que hay objetos ruidosos en el conjunto de
entrenamiento, los cuales pueden ser eliminados en el paso de preprocesamiento. Si no
hay objetos ruidosos, el esquema se convierte en el mtodo BSE.
El segundo esquema propuesto es utilizar los algoritmos DROP y BSE. Est basado
en editar una muestra editada debido a que despus de editar una muestra es posible que
algunos objetos en el conjunto editado no contribuyan al porcentaje en el proceso de
clasificacin, debido a que otros objetos en el conjunto editado pueden generalizar su
descripcin. En otras palabras, este esquema consiste en editar una muestra editada para
incrementar el porcentaje de clasificacin. El esquema usa los algoritmos DROP3-
DROP5 en el paso de preprocesamiento y, posteriormente utiliza el algoritmo BSE para
editar la muestra editada.
Es importante sealar que [Olvera, J.A, Martinez, J.F, 2005] utilizaron en los
experimentos la funcin Heterogeneous Value Difference Metric (HVDM), [Wilson,
D.R., Martnez T.R, 2000] para calcular la distancia entre dos objetos, la cual permite
trabajar con datos mezclados, pudindose definir la misma de la siguiente manera:
53
Captulo 3
n
HVDM (x, y)= d
a =1
2
a ( xa , ya )
1 si x y desconocidos
d a ( x, y ) = vdma ( x, y ) si a es nominal
x- y
si a es un nmero
4 a
2
M N N
vdma ( x, y ) = a , x , c a , y , c
c =1 N a , x N a , y
54
Captulo 4
1. Introduccin
Uno de los aspectos singularmente negativos asociados a las distintas reglas NN radica
en la necesidad de disponer de un elevado nmero de prototipos con el fin de obtener
unos resultados similares a los proporcionados a partir del anlisis asinttico. Sin
embargo, este hecho determinar obviamente que el correspondiente proceso de
bsqueda de los k vecinos ms prximos sea computacionalmente demasiado costoso,
lo cual podra significar la imposibilidad de utilizar estos esquemas de clasificacin para
ciertos problemas reales.
Con el objetivo de poder aplicar las distintas reglas basadas en criterios de vecindad
expuestas en el primer captulo de este trabajo, adems de los diversos algoritmos
eficientes que se describen en la literatura, una alternativa evidente para acelerar el
clculo del vecino ms prximo consiste en disminuir el nmero de prototipos en el
conjunto de entrenamiento, pero sin originar un incremento del correspondiente error de
clasificacin.
Mtodo:
1- Inicializacin: R X
2- Sea S conjunto formado inicialmente por un prototipo por clase
3- Repetir
3.1- Para cada prototipo xiR hacer
3.1.1- Si xi es mal clasificado utilizando la regla NN y los objetos
del conjunto S entonces hacer
R = R - {xi}
S = S{xi}
56
Tcnicas de Reduccin del Conjunto de Entrenamiento
57
Captulo 4
Mtodo:
1- Inicializacin S , T X
2- Condensado de Hart sobre el conjunto T
3- Para cada prototipo siS (conjunto resultante del paso anterior)
3.1- Eliminar si del conjunto S
3.2- Para cada prototipo xiX
3.2.1- Buscar el vecino ms prximo de xi en S
3.2.2- Si NN (xi) i reasignar si al conjunto S e ir al Paso3
4- Devolver S
Con esta propuesta podemos afirmar que, en la mayora de los casos, se obtendr un
conjunto condensado de menor talla que con el algoritmo de Hart, aunque las
diferencias suelen ser muy poco significativas. Sin embargo, en este caso tampoco ser
posible asegurar que dicho conjunto condensado vaya a corresponder al conjunto
consistente minimal. Por otra parte, en cuanto al comportamiento en el proceso de
clasificacin, esta propuesta generalmente no mejorar el resultado obtenido con el
condensado de Hart.
58
Tcnicas de Reduccin del Conjunto de Entrenamiento
Mtodo:
1- Inicializacin: S ; C
2- Mientras se eliminen prototipos de X o X
2.1- Para cada prototipo xiX hacer
2.1.1- Buscar el vecino ms prximo de xi en S
2.1.2- Si NN (xi) i
2.1.2.1- Si xiC, eliminar xi de C y X, y pasarlo a S. Ir al
Paso 2.1
2.1.2.2- Buscar el vecino ms prximo z de xi en S C
2.1.2.3- Si NN (xi) i eliminar z de C y X, y pasarlo a S. Ir
al Paso 2.1
2.1.2.4- Buscar el vecino ms prximo z de xi entre los
prototipos de X de clase distinta de xi.
2.1.2.5- Asignar z a C
2.1.2.6- Buscar el vecino ms prximo v de z entre los
prototipos de su misma clase que est ms cerca de
xi que de z
2.1.2.7- Eliminar v de X y asignarlo a S
Este mtodo presenta una serie de aspectos negativos que limitarn su capacidad de
aplicacin a problemas reales, entre los que podemos sealar:
59
Captulo 4
Mtodo:
1- Inicializacin:
nc 1; i 1; C(i) X ; D X
2- Buscar los dos prototipos ms alejados, p1 y p2 en el conjunto D
3- Mientras nc < nd
3.1- Dividir el conjunto D en D1 y D2 segn el criterio:
D1 = {xD / d(x, p1) d (x, p2)}
D2 = {x D / d(x, p2) < d (x, p1)}
3.2- nc nc + 1; C(i) D1; C(nc ) D2
3.3- Separar los subconjuntos de prototipos pertenecientes a ms de una
clase y aquellos pertenecientes a una nica clase
I1 = {i / C(i) contiene puntos de clases distintas}
I2 = {i / i nc}- I1
3.4- Si I1 entonces I = I1 de lo contrario I = I2
3.5- Para cada C(i) , iI hacer
3.5.1- Buscar los dos prototipos ms alejados q1(i ) y q2(i )
3.6- Buscar el subconjunto C(j) con mayor dimetro, hacer
d(q1(j ), q2( j)) = max [d(q1(i), q2(i)], iI
3.7- D C(j); p1 q1(j); p2 q2(j)
4- Para cada C(i), i = 1, 2, , nd
4.1- Buscar los centros de gravedad G(i)
5- Para cada G(i)
60
Tcnicas de Reduccin del Conjunto de Entrenamiento
Las principales ventajas que aporta este procedimiento respecto al resto de los
algoritmos de condensado se pueden resumir de la siguiente manera:
Para obtener el mismo objetivo que aquella aplicacin combinada de los mtodos de
edicin y condensado, existe un grupo de tcnicas para la seleccin de prototipos basada
en los denominados mapas de caractersticas auto-organizativos, (SOM Self
Organizing Maps) [Kohonen, 1990a], que consistirn bsicamente en la definicin de
una localizacin de prototipos en el espacio de representacin que aproxime de manera
ptima las distribuciones de probabilidad de cada clase. Estos procedimientos
alternativos, en general conocidos como mtodos de condensado adaptativo se basarn
en la generacin de nuevos prototipos [Marin, 1991], mediante la modificacin o el
ajuste de la localizacin de un nmero limitado de prototipos [Kohonen, 1990a], [Yau,
1991], [Laaksonen, 1996] a partir de un determinado conjunto de entrenamiento.
61
Captulo 4
A partir del mtodo LVQ original (que generalmente recibe el nombre de LVQ1), se
han propuesto tres posibles variantes [Kohonen, 1990b] que consisten, bsicamente, en
sendas modificaciones sobre el criterio para decidir la aplicacin del factor de
correccin, con la finalidad fundamental de conseguir una mayor aproximacin de las
fronteras de decisin resultantes a las obtenidas mediante el clasificador terico de
Bayes.
62
Tcnicas de Reduccin del Conjunto de Entrenamiento
1. Que de los dos prototipos ms cercanos, uno de ellos es de la misma clase que
x(t) y el otro no.
2. El vector de entrada x(t) esta situado en una ventana situada alrededor del
punto medio entre mi(t) y mj(t), es decir, x(t) se encontrar dentro de una ventana
de dimensin relativa si se verifica que:
63
Captulo 4
i (t 1)
donde i (t ) = , y el signo del denominador es: positivo si la siguiente
1 i (t 1)
expresin cumple, (clase (mi(t)) = clase (x(t)) y, negativo si (clase (mi(t)) clase (x(t)).
1. T es consistente.
64
Tcnicas de Reduccin del Conjunto de Entrenamiento
65
Captulo 4
R, Ferri, F.J., Sanchez, J.S, 2005] presentan el algoritmo para obtener el subconjunto
selectivo de una manera descriptiva, el cual describimos a continuacin.
Sj: conjunto de prototipos con respecto a los cuales xj es un vecino relacionado, a este
conjunto se le llama vecindad relacionada inversa de xj.
Mtodo:
1- Para cada xjC tal que i: Yi = {xj} hacer
SS SS {xj}; C C-{xj}; S Sj
2- Para todo xjC tal que k: Sj Sk hacer
C C -{xj}
3- Para todo xi S tal que k: Yk Yi hacer
S S-{xi}
4- Si S = entonces retornar SS
Si hay cambios en S y C durante los pasos 1-3 regresar al paso 1
5- Calcular una cota inferior Mj sobre el nmero de prototipos que son
necesarios para completar la solucin si cada xj en C est puesto en SS
Sea Mj el tamao del subconjunto mnimo Z de C tal que
Sk S j = S S j . Sea M = min j (M j )
k :xk Z
5.1- Repetir
5.1.1- Para todo xjC tal que Mj = M hacer
SS SELECTIVE (S-Sj, C-{xj}, SS {xj})
Si SS = SS + M entonces devolver SS
Si no SS = SS + M + 1 entonces guardar SS como SS
5.1.2- Si hay una solucin guardada entonces retornar SS
Si no hacer M M + 1
5.2- Hasta que M >S
66
Tcnicas de Reduccin del Conjunto de Entrenamiento
Diferentes trabajos, entre los que podemos citar [Cervern,V, Ferri,J, 2001],
[Dasaraty, B.V, 1994] y [Kuncheva, L.I, 1999], intentar obtener subconjuntos
consistentes minimales pero usando la propiedad selectiva.
67
Captulo 4
Mtodo
1- Mientras C hacer // mientras que permanezcan candidatos
2- Sea xj = arg min ( Dk ) // tomar el siguiente mejor de acuerdo a Dk
xk C
3- C C-{xj}
4- Si Sj S entonces // si hay algn nuevo prototipo que satisfaga
// la propiedad selectiva aceptarlo
5- MSS MSS{xj} // y actualizar S
6- S S - Sj
7- Retornar MSS
68
Captulo 5
1. Introduccin
En la decada de los aos 90, aparecen una serie de trabajos, entre los que podemos
mencionar [Castelli,V, Cover,T.M, 1995], [Bensaid, A.M, Hall, J.C, 1996] y [Blue,A,
Charla, S, 2001], donde aparece un paradigma conceptual relacionado con el
aprendizaje supervisado y no supervisado. Estos autores en sus trabajos usaban (de
manera general) un nmero pequeo de objetos clasificados y, a su vez, tambin tenan
en cuenta un conjunto de objetos no clasificados que ambos eran empleados para
clasificar nuevos objetos. Este tipo de aprendizaje recibe el nombre en la literatura
cientfica de aprendizaje semi-supervisado (o parcialmente supervisado). El aprendizaje
semi-supervisado trata este problema usando una cantidad grande de datos sin etiqueta,
junto con un conjunto (probablemente pequeo) de datos etiquetados, para construir
Captulo 5
En este captulo, haremos un recorrido por el estado del arte de algunos de los
trabajos citados en la literatura que pertenecen al grupo de algoritmos de clasificacin y
aprendizaje semi-supervisados.
2. Modelos Generativos
Otro trabajo que debemos destacar fue presentado por [Nigam, 2000], en su artculo
aplica el algoritmo EM (Expectation Maximization) propuesto por [Dempster, Laird y
Rubin, 1977] sobre mixturas multimodales en tareas de clasificacin de textos,
demostrando que los porcentajes de clasificacin resultaban ser superiores que cuando
los clasificadores eran entrenados solamente utilizando un conjunto de entrenamiento;
[Baluja, 1998] utiliza el algoritmo EM en una tarea de discriminacin de la orientacin
de una cara; [Fujino, 2005] extiende modelos de mixturas generativos, en los cuales
incluye un trmino correccin del sesgo y un entrenamiento discriminativo utilizando
el principio de mxima entropa.
Debemos sealar que si el modelo de mixtura empleado es correcto, los datos sin
etiqueta pueden garantizar una mejora de la exactitud del clasificador, hecho este
comprobado en los trabajos presentados por [Castelli, Cover, 1995], [Castelli, Cover,
1996] y [Ratsaby, Venkatesh, 1995]. Sin embargo, si el modelo de mixtura empleado es
incorrecto, los datos sin etiqueta pueden afectar realmente la exactitud del clasificador.
Este aspecto ha sido observado por mltiples investigadores, entre los que podemos
mencionar [Cozman, 2003], el cual en su artculo da una derivacin formal de cmo
esto puede suceder. Por lo antes mencionado, es muy importante construir
cuidadosamente el modelo de mixtura de forma tal que refleje el problema que se
pretende resolver. Por ejemplo, en la clasificacin de textos, un tema puede contener
varios subtemas, y ser mejor modelarlo mediante mixturas multimodales mltiples y
no utilizando un modelo de mixturas simples.
70
Aprendizaje Parcialmente Supervisado
mixturas, utilizando una componente por clase. En esta etapa, los datos no etiquetados
pueden ser incorporados empleando el EM. Sin embargo, en lugar de usar directamente
el modelo generativo para la clasificacin, cada ejemplo no etiquetado se convierte en
un vector de longitud fija, que se emplea en un clasificador discriminativo como puede
ser SVM (Suport Vector Machine), el cual empricamente proporciona una alta eficacia.
4. Co-Entrenamiento
Otro trabajo que aparece citado en este contexto es el algoritmo (Co-training) propuesto
por [Blue, Mitchell, 1998] y [Mitchell, 1999]. En su trabajo, los autores asumen que los
rasgos pueden dividirse en dos conjuntos condicionalmente independientes dadas las
clases y que cada subconjunto es suficiente para entrenar un clasificador. Igual que para
el bootstrapping, se dispone de dos conjuntos, uno de datos etiquetados L y otro de
datos no etiquetados U.
71
Captulo 5
Co-training hace suposiciones fuertes sobre la divisin de rasgos, por lo que luego se
hacen intentos para relajar stas. [Goldman, Shou, 2000] usaron dos clasificadores de
diferentes tipos, pero ambos toman el conjunto de rasgos completo, y esencialmente
usan puntos con alto nivel de confiabilidad del conjunto de entrenamiento identificados
mediante un conjunto de pruebas estadsticas para ensear al otro y viceversa.
72
Aprendizaje Parcialmente Supervisado
73
Captulo 5
El TSVM se puede ver como SVM con un trmino de regularizacin adicional sobre
los datos no etiquetados. [Chapelle y Zien, 2005] proponen SVM la cual aproxima la
funcin de prdida con una funcin gaussiana y ejecuta bsqueda de gradiente en el
espacio original. [Sindhwani, 2006] usa un enfoque determinstico que comienza en un
problema fcil y gradualmente lo deforma al objetivo TSVM. En una forma similar,
[Chapelle, 2006a] usa un enfoque que tambin comienza minimizando una funcin
objetivo convexa sencilla, y gradualmente la deforma al objetivo TSVM (con gausianas
en lugar de utilizar la funcin de prdida), utilizando la solucin de las iteraciones
previas para inicializar las siguientes. [Collobert, 2006] optimiza el TSVM directamente
usando un procedimiento de optimizacin aproximado conocido como procedimiento
cncavo-convexo. La clave es notar que la funcin de prdida es la suma de una funcin
convexa y una funcin cncava, sustituyendo la funcin cncava con una cota superior
lineal, se ejecuta una minimizacin convexa para producir una cota superior de la
funcin de prdida. Esto se repite hasta que se alcanza un mnimo local. Los autores
proporcionan un tiempo de ejecucin menor de TSVM con el procedimiento cncavo-
convexo.
Los mtodos semi-supervisados basados en grafos definen un grafo donde los nodos son
ejemplos etiquetados y no etiquetados de la base de datos, y las aristas (deben de estar
pesadas) reflejan la semejanza de los ejemplos. Estos mtodos usualmente asumen
suavidad de las etiquetas sobre el grafo. Los mtodos basados en grafos son no
paramtricos, son discriminatorios y semi-supervisados por naturaleza.
74
Aprendizaje Parcialmente Supervisado
Muchos de los mtodos basados en grafos pueden verse como un mtodo para estimar
una funcin f sobre el grafo que satisfaga dos condiciones al mismo tiempo.
[Leskes, 2005] presenta una generalizacin de la cota del error para el aprendizaje
semi-supervisado con mltiples clasificadores, una extensin del co-training. El autor
demuestra que si los algoritmos de aprendizaje mltiples se fuerzan para producir
hiptesis similares dado el mismo conjunto de entrenamiento y tales hiptesis todava
tienen bajo error de entrenamiento, entonces la generalizacin de la cota del error se
reduce. Los datos no etiquetados se utilizan para determinar el convenio entre hiptesis.
El autor en su artculo propone un nuevo algoritmo Agreement-Boost para implementar
el procedimiento descrito.
[Balcan, Blue, 2005] proponen un modelo estilo PAC para aprendizaje semi-
supervisado. ste es el primer modelo PAC que explica cundo los datos no etiquetados
deben ayudar (note que el modelo clsico de PAC no puede incorporar datos no
etiquetados). Los autores definen una cantidad interesante: la compatibilidad de una
hiptesis (la distribucin de datos no etiquetados). Por ejemplo, en SVM, un hiperplano
que corta a travs de regiones de alta densidad debera tener baja compatibilidad,
mientras que uno que va a lo largo de huecos regiones de baja densidad tendra alta
compatibilidad. La funcin de compatibilidad se define de manera ms general, la
75
Captulo 5
76
Aprendizaje Parcialmente Supervisado
Figura 10. Esquema general del Aprendizaje Continuo [Jurez. M, Barandela.R, 2001].
77
Captulo 5
Podemos sealar que las etapas que fueron mencionadas anteriormente se refieren a:
78
Aprendizaje Parcialmente Supervisado
Los dos puntos que se acaban de relacionar en el prrafo anterior van a significar los
objetivos bsicos de los siguientes captulos. Por una parte, se definir una nueva regla
79
Captulo 5
80
Parte II
Aportaciones y
Anlisis Comparativo
Captulo 6
1. Introduccin
Las fronteras de decisin (asociadas a cada clase) son los lmites de separacin entre
las diferentes regiones obtenidas. A la hora de tomar una decisin para clasificar cada
objeto en las M clases (C1, C2,. . .,CM) en que se divide el espacio de representacin, se
intenta que el error cometido al realizar esta clasificacin sea mnimo. Para ello, ser
til usar la mxima informacin posible asociada a los objetos, extrada a partir de
observaciones de los mismos. Concretamente, si se conoce la probabilidad a posteriori
de que un objeto x pertenezca a una clase, se decide escoger aquella que presente el
mayor valor:
En este captulo, definiremos una nueva regla de clasificacin estocstica que tenga
en cuenta el criterio de vecindad seleccionado y, adems, la probabilidad de pertenencia
a la clase de cada uno de los vecinos ms cercanos a la muestra que se desea clasificar.
Tambin definiremos una opcin de rechazo de manera similar a como se hizo en el
Captulo 2 de esta memoria.
2. Ventanas de Parzen
Las tcnicas fundamentales para determinar una funcin de densidad parten del hecho
de que la probabilidad P de que cierto punto x pertenezca a una regin R viene dada por:
84
Reglas de Clasificacin Estocsticas
P = P( x R) = p( x)dx
R
(2.1)
n
Pk = P( X = k ) = P k (1 P) n k
k
k
k = E{X } = nP P = (2.2)
n
P = p ( x)dx p ( x) dx = p ( x) VR (2.3)
R R
k
p ( x) V R =
n
85
Captulo 6
k
p( x)
nVR
kn
pn (x) = (2.4)
n Vn
Vn 0 cuando n
kn cuando n
kn
0 cuando n
n
La primera condicin nos asegura que el valor P/V converger a p(x) bajo la
suposicin de que la regin se encoge uniformemente y p es continua en x, la segunda
condicin, que solo tiene sentido si p(x) 0, nos asegura que la razn frecuencia
converge en probabilidad a la probabilidad P. La tercera condicin es claramente
necesaria para que pn(x) converja. O sea, el nmero de muestras debe ser elevado, la
regin R pequea y la cantidad de muestras que caigan en la regin R que sea
suficientemente grande.
Hay dos maneras de obtener sucesiones de regiones que satisfagan estas condiciones.
La primera de ellas es encoger una regin inicial, especificando el volumen como una
funcin de n, por ejemplo, Vn=1/ n , donde se debe demostrar entonces que las
variables aleatorias kn y kn/n se comportan segn lo expuesto anteriormente y, que por
tanto, pn(x) tiende a p(x). ste es el mtodo de Ventanas de Parzen. La segunda manera
de obtener sucesiones de regiones consiste en especificar kn como una funcin de n,
como por ejemplo, kn= n ; aqu, el volumen crece hasta que encierra kn muestras
vecinas de x. ste es el mtodo de estimacin de los kn vecinos ms cercanos. Ambos
mtodos efectivamente convergen, aunque es difcil hacer suposiciones relacionadas
con su comportamiento para una cantidad finita de muestras.
86
Reglas de Clasificacin Estocsticas
1 si u j 1 j = 1, ...., d
(u ) = 2
0 en otro caso
x - xi
O sea, (u) define un hiper-cubo unidad con centro en el origen y, es igual
hn
a la unidad si xi cae dentro del hiper-cubo de volumen Vn con centro en x y es cero en
cualquier otro caso. El nmero de muestras en ese hiper-cubo es por tanto:
n
x xi
k n = (2.5)
i =1 hn
1 n 1 x xi
p n ( x) =
n i =1 Vn hn
Por otro lado, ms que limitarnos a definir slo funciones ventana hiper-cubos,
podemos emplear otras funciones ventana de una clase ms general. Para que el
estimado sea realmente una funcin de densidad, es decir, que sea una funcin no
negativa y su integral igual a 1, se debe de cumplir que:
1. ( z ) 0
2. ( z ) dz =1
R
Luego, si mantenemos la relacin Vn= hnd , entonces pn(x) tambin satisface las dos
condiciones de funcin de densidad.
87
Captulo 6
1 x
n ( x) =
Vn hn
1 n
pn (x) = ( x xi )
n i =1
88
Reglas de Clasificacin Estocsticas
Una solucin al problema de la mejor funcin ventana es hacer el volumen una funcin
de las muestras de entrenamiento, ms que una funcin que depende del nmero de
muestras. Por ejemplo, para estimar p de n muestras de entrenamiento o prototipos, se
puede construir una celda con centro en x que crezca hasta que encierre dentro kn
prototipos, donde kn es alguna funcin de n; estas muestras son los kn vecinos ms
cercanos a x. Si la densidad es alta cerca de x, la celda ser relativamente pequea, lo
cual lleva a una buena resolucin, mientras que si la densidad es baja, la celda crecer
lentamente pero se detendr cuando se llegue a una zona de alta densidad. Como puede
verse, kn juega un papel fundamental al igual que hn en el mtodo de Ventanas de
Parzen.
k
p(x)
nV(x)
k
para que converja hay que asegurar que lim =0.
n n
Supongamos que encontramos entre los k vecinos de x (en V(x)) ki muestras de clase
wi y que el nmero total de muestras de la clase wi es ni. Entonces, podemos estimar la
densidad condicional de la clase wi por:
ki
p (x/wi ) =
niV(x)
ni
p (wi ) =
n
89
Captulo 6
construye una funcin de densidad. Es un mtodo que requiere almacenar todas las
muestras de aprendizaje y definir una funcin distancia, la cual depende de cada
problema en concreto.
En esta seccin, presentaremos una nueva regla de clasificacin que emplea un enfoque
difuso y estocstico, mezclado con la regla de clasificacin de los k vecinos ms
cercanos. El objetivo de dicha regla es su empleo en problemas de aprendizaje
parcialmente supervisado, especficamente en problemas de aprendizaje contnuo, por lo
que es necesario de una regla de clasificacin que tenga en cuenta la naturaleza
cambiante de los procesos de aprendizaje semi-supervisados en los que tendremos datos
etiquetados y datos sin etiquetar. Por tanto, adems de la votacin de los vecinos ms
cercanos o de la posibilidad de obtener la funcin de densidad de probabilidad de las
clases, sera interesante tener la probabilidad de pertenencia de los vecinos a cada clase,
pues los objetos sin etiquetar se irn etiquetando y, luego, sern empleados para
etiquetar otros nuevos, o sea, la idea es hacer una clasificacin dependiente del grado de
pertenencia de los vecinos ms cercanos de cada muestra a etiquetar.
La idea de este enfoque que mostraremos es usar las etiquetas de los vecinos ms
cercanos de la muestra a clasificar, pero unas etiquetas difusas, es decir, de acuerdo a un
grado de pertenencia a dicha clase, cada vecino aportar al proceso de etiquetar el nuevo
objeto, por lo que podemos considerar una superposicin de las probabilidades de
pertenencia de los vecinos a la clase en cuestin, o sea, nos planteamos la idea de que a
la hora de calcular el grado de pertenencia del nuevo objeto x, se haga en la forma
siguiente:
k
pi (x) = pi (x j )
j =1
A su vez, si ponderamos cada uno de los sumandos con el inverso de las distancias
de x a sus vecinos ms cercanos, no slo tenemos en cuenta cuntos vecinos se estn
considerando y sus probabilidades de pertenencia a la clase, sino tambin cun cerca
estn dichos vecinos de la muestra x, pues si los k vecinos estn muy cerca de x, es
lgico que pertenezcan a la misma clase y con una probabilidad alta, o sea, que si los
vecinos tienen una alta probabilidad de pertenecer a la clase i y adems x y sus vecinos
estn muy cercanos, el inverso de la distancia dar valores altos y, por tanto, la
probabilidad de pertenencia de x a esa clase ser alta. Entonces, la frmula que a
continuacin explicaremos tendr la forma:
90
Reglas de Clasificacin Estocsticas
k
pi (x) = j pi (x j )
j =1
donde
1
j = siendo > 0
+ d(x, x j )
Ya hemos visto antes que, para etiquetar objetos empleando ejemplos, necesitamos
las probabilidades a posteriori. En el caso del mtodo de Ventanas de Parzen, primero
hace falta estimar las funciones de densidad de probabilidad de cada clase y luego, con
el empleo de la frmula de Bayes, se obtienen las probabilidades a posteriori. En el otro
caso, para la regla de los k vecinos ms cercanos, no es necesario estimar esta funcin
de densidad, este paso no se considera y la regla de clasificacin se obtiene slo en
dependencia de una estrategia de votacin.
k
1
Pi (x) = pij
j =1 ( + d(x, x j ))
91
Captulo 6
M
pi (x) = Pi (x) P (x)
r =1
r
M M M
Pi (x) 1
1. pi (x) = M
= M P (r) = 1
i
i =1 i =1
Pr (x)
r =1
Pr (x)
r =1
i =1
[ ]
k
1
Pi (x) Ph (x)
j =1 + d(x, x j )
pi (x j ) + ph (x j )
3. pi (x) + ph (x) = M + M = M
Pr (x) Pr (x)
r =1 r =1
Pr (x) r =1
Estas tres propiedades demuestran que la funcin p(x) es una probabilidad definida
sobre el espacio de sucesos S = {w1, w2, , wM}.
Una vez que tenemos modelado el problema de la funcin mediante la cual vamos
asignar a la muestra x una etiqueta difusa, pasamos a exponer la regla de clasificacin.
Para nosotros, la muestra x puede pertenecer a cada una de las clases, pero con un grado
de verosimilitud.
92
Reglas de Clasificacin Estocsticas
sino tambin las distancias de los vecinos ms cercanos a la muestra x, de modo que los
vecinos ms cercanos sern determinantes en el proceso de clasificacin.
1 si y Ci
pi ( y ) =
0 si y Ci
Pi (x)
pi (x) = M
P(x)
i =1
i
donde
1
si xi Ci
Pi (x) = + d(x, xi )
0 en otro caso
1 si x1 Ci
pi (x) =
0 en otro caso
Esto significa que para el caso duro y un solo vecino ms cercano esta regla coincide
ntegramente con la regla del vecino ms cercano.
93
Captulo 6
De igual modo que ocurra con la regla de decisin de Bayes, as como tambin con las
regla k-NN y k-NCN, cabe la posibilidad de no clasificar aquellas muestras para las
cuales no se obtenga una cierta garanta de que la clasificacin obtenida sea la correcta.
En la tcnica anteriormente explicada, la decisin de clasificacin se producir cuando
la probabilidad de pertenencia del objeto a alguna de las posibles clases reciba el mayor
valor, pero, si el valor de la probabilidad mxima no es lo suficientemente alto, es
lgico dudar de etiquetar el objeto en esa clase, por lo que, la muestra debe ser
rechazada.
wi si pi = arg mx ( p j ( x )) pi >
k prob umb ( x ) = j
w0 en otro caso
En esta regla se introduce una nueva clase w0, la cual representa a las muestras
rechazadas, es decir, aquellas muestras que su mayor valor de probabilidad no supera el
umbral previamente definido.
94
Reglas de Clasificacin Estocsticas
w0 en otro caso
M
pi (x) = Pi (x) P (x)
j =1
j
k
1
Pi (x) = pij
j =1 ( + d(x, x j ))
95
Captulo 6
wi si pi = mx( p j ( x )) pi >
k NCN prob umb ( x ) = j
w0 en otro caso
En esta regla, de manera similar, se introduce una nueva clase w0 que representa a las
muestras rechazadas, es decir aquellas muestras que su mayor valor de probabilidad no
supera el umbral predefinido.
Tambin en este caso, se puede lograr un balance entre las clases introduciendo un
umbral diferente, i para cada una de las clases del espacio. Con lo cual pudiramos
definir una opcin de rechazo basada en la k-prob-umb en la forma siguiente:
De este modo, en esta seccin, mostraremos los resultados obtenidos por los
diferentes algoritmos de clasificacin estocsticos presentados en las secciones
anteriormente explicadas. Para satisfacer est objetivo utilizamos 14 bases de datos
reales y sintticas tomadas del repositorio UCI Machine Learning Database Repository
[Merz, 1996]. Las principales caractersticas de estas bases de datos en cuanto a
cantidad de objetos, nmero de clases y cantidad de rasgos se muestran en el Apendice
A que aparece en la presente memoria de Tesis Doctoral. La tabla que a continuacin se
presenta hace un resumen de todas estas caractersticas.
96
Reglas de Clasificacin Estocsticas
97
Captulo 6
Una forma de validar los resultados que hemos presentado es aplicarle a los mismos
un test estadstico. Para ello, incluiremos los resultados obtenidos valindonos de
Wilcoxon Signed-Ranks Test (Wilcoxon, 1945), el cual es un mtodo no paramtrico
para comparar dos clasificadores. En el mismo, vamos a considerar como hiptesis nula
H0, que los algoritmos k-NN y k-NN-prob son equivalentes. Para aplicar este test
necesitamos utilizar las siguientes expresiones analticas:
1
R+ = ranking(d ) + 2 ranking(d ) = 86
di >0
i
di =0
i
1
R = ranking(d ) + 2 ranking(d ) = 19
di <0
i
di =0
i
T = min( R + , R - ) = 19
98
Reglas de Clasificacin Estocsticas
Otra dato con el que podemos validar estos resultados es utilizando el estimador:
1
T - N( N + 1)
z= 4
1
N( N + 1)(2 N + 1)
24
1 1
19 14(15) 19 7 (15)
z= 4 = 2 = 2.10
1 1
14(15)(29) 7 (15) (29)
24 12
Valindonos del resultado antes calculado, podemos rechazar la hiptesis nula, por lo
cual la diferencia entre los dos clasificadores es significativa. Este estimador tambin
confirma el resultado obtenido por el test de Wilcoxon.
Debido a los resultados obtenidos, podemos decir que al tener en cuenta no slo la
distancia a la muestra, sino tambin la probabilidad de pertenencia a la clase de los
vecinos ms cercanos, mejoramos los porcentajes de clasificacin en la mayora de las
bases de datos sobre las cuales realizamos los experimentos. Esto hace pensar que esta
regla de clasificacin estocstica pudiera ser de gran utilidad en problemas de
clasificacin difusa, donde no necesariamente los objetos tuvieran una probabilidad de
pertenencia a la clase de 0 y 1.
99
Captulo 6
100
Reglas de Clasificacin Estocsticas
101
Captulo 6
pertenencia de los objetos a su clase, considerando en este caso solo =0.6 el valor del
umbral. Como se puede apreciar en la tercera y cuarta columnas de la tabla, se muestran
los porcentajes de clasificacin referentes a las reglas k-NCN y k-NCN-prob, en negrita
enfatizamos en cada una de las bases de datos los mejores porcentajes de clasificacin.
La quinta columna incluye la diferencia entre el porcentaje de la regla k-NCN-prob y k-
NCN. La sexta columna muestra el ranking de estos porcentajes. En las bases de datos
Australian, Cancer, Heart, Ionospere y Wine, la regla k-NCN es superior a la regla k-
NCN-prob en 1.49% de clasificacin correcta como promedio. En las restantes nueve
bases de datos la regla k-NCN-prob supera en 1.92% de clasificacin correcta a la regla
k-NCN. Con estos resultados, pudiramos pensar que la regla de clasificacin k-NCN-
prob es superior, pero antes de afirmar esto, aplicaremos el test estadstico Wilcoxon
Signed-Ranks Test que presentamos cuando analizamos los resultados de la Tabla 2,
ahora para estos dos clasificadores obtenemos los siguientes valores:
1
R+ = ranking(d ) + 2 ranking(d ) = 64
di >0
i
di =0
i
1
R = ranking(d ) + 2 ranking(d ) = 40
di <0
i
di =0
i
T = min( R + , R - ) = 40
En este caso, la diferencia entre los dos clasificadores no parece significativa, ya que
el valor de T no es menor o igual que 21, por lo cual no podemos rechazar la hiptesis
nula. Si calculamos con el valor de T obtenido el estimador z antes definido, obtenemos
que z= -0.78, por lo cual tampoco es posible rechazar la hiptesis nula.
102
Reglas de Clasificacin Estocsticas
8. Conclusiones
En este captulo, hemos, definido una nueva regla de clasificacin estocstica que
tiene en cuenta el criterio de vecindad seleccionado y, adems, la probabilidad de
pertenencia a la clase de cada uno de los vecinos ms cercanos a la muestra que se desea
clasificar. Se defini tambin una opcin de rechazo estocstica para la regla de
clasificacin anteriormente mencionada.
De manera general, en los experimentos hemos comparado la regla k-NN con la regla
k-NN-prob sobre un conjunto de bases de datos, y valindonos del test estadstico de
(Wilcoxon Signed-Ranks) comprobamos que los resultados que obtuvimos con nuestra
propuesta correspondiente a porcentajes de clasificacin son superiores a los que se
obtienen considerando la regla k-NN. Un experimento similar fue realizado con las
reglas k-NCN y k-NCN-prob arrojando como resultado que las diferencias entre estas
dos tcnicas de clasificacin no parece ser estadsticamente significativas. Tambin, se
implementaron las opciones de rechazo para cada una de las reglas de clasificacin,
obtenindose como resultado que las propuestas estocsticas tienen un mejor porcentaje
de clasificacin sobre cada una de las bases datos, as como tambin los porcentajes de
reduccin obtenidos son superiores, sin que esto disminuya el porcentaje de
clasificacin.
103
Captulo 7
1. Introduccin
k
1
Pi ( x) = pij
j =1 ( + d ( x, x j ))
M
pi (x) = Pi (x) P (x)
j =1
j
P (x)
j =1
j
106
Algoritmos de Edicin Estocsticos
preciso sealar tambin, que la talla de los conjuntos editados mediante este algoritmo
es inferior a la talla de otros esquemas de edicin presentes en la bibliografa
consultada, aspecto de gran utilidad para posteriores aplicaciones de este tipo de
esquema en problemas de clasificacin semi-supervisada.
Utilizando la regla k-prob y basado en la edicin de Wilson, en [Vzquez, 2005] se
propone el algoritmo Wilson-prob, el cual puede escribirse de la siguiente forma:
Algoritmo Wilson-prob
Mtodo:
1- S X
2- Para cada prototipo xiX
2.1- Buscar los k-NN de xi en X - {xi}
2.2- Si k- prob (xi) i, entonces S = S - {xi}
3- Devolver S
107
Captulo 7
i si pi = mx ( p j ( x )) pi >
k prob umb ( x ) = j
0 en otro caso
En esta regla, se introduce una nueva clase 0, la cual representa a las muestras
rechazadas, es decir, aquellas muestras que su mayor valor de probabilidad no supera el
umbral , previamente establecido por el usuario.
Algoritmo Wilson-prob-umb
Mtodo:
1- S X
2- Para cada prototipo xiX
2.1- Buscar los k-NN de xi en X - {xi}
2.2- Si k prob umb ( xi ) i pj j = 1,, M, hacer S S - {xi}
3- Devolver S
i si i = pi i , i = 1, ..., M i = mx ( j ) i > 0
k prob umb var ( x) = j
0 en otro caso
108
Algoritmos de Edicin Estocsticos
Algoritmo Wilson-prob-umb-var
Mtodo:
1- S
2- Para cada prototipo xiX
2.1- Buscar los k-NN de xi en X - {xi}
2.2- Si k- prob-umb-var (xi, ) = i entonces S = S {xi}
3- Devolver S
A pesar de los buenos resultados que generalmente pueden ser obtenidos con la
aplicacin de la edicin de Wilson, este mtodo hereda algunos de los importantes
inconvenientes ya sealados para el clasificador k-NN, el anormal comportamiento del
esquema de Wilson y, en general, de la mayora de los procedimientos de edicin
basados en la regla k-NN para determinados problemas. Podra entenderse, en parte,
como una consecuencia de la finitud de las muestras que dan lugar a vecindades
relativamente grandes, situacin que de alguna manera pudiera resolverse con la
utilizacin de mtricas envolventes.
El algoritmo de edicin que aqu vamos a proponer consistir, bsicamente, en
aplicar las reglas de clasificacin envolventes que presentamos en el Captulo 2 y
109
Captulo 7
i si pi = mx ( p j ( x )) pi >
k NCN prob umb ( x ) = j
0 en otro caso
i si i = pi i , i = 1, ... , M ; i = mx ( j ) i > 0
k NCNprobumbvar (x) = j
0 en otro caso
Utilizando como regla de edicin la regla k-NCN pero teniendo en cuenta adems la
probabilidad de pertenencia a la clase de cada uno de los vecinos de centroide ms
cercano, podemos mencionar una variante del algoritmo Wilsoncn que describimos a
continuacin:
Mtodo:
1- S
2- Para cada prototipo xiX
2.1- Buscar los k-NCN de xi en X - {xi}
2.2- Si k-NCN-prob (xi) = i entonces S = S {xi}
110
Algoritmos de Edicin Estocsticos
3- Devolver
De forma similar, podemos escribir los algoritmos de edicin que emplean como
regla de edicin las opciones de rechazo k-NCN-prob-umb y k-NCN-prob-umb-var mencionadas
anteriormente.
Como se puede apreciar en este epgrafe, estos esquemas de edicin resultan
tambin esquemas muy sencillos de implementar como lo era el procedimiento de
Wilson, puesto que las nicas variaciones introducidas corresponden al mtodo de
clasificacin (en este caso, las reglas k-NCN-prob , k-NCN-prob-umb , k-NCN-prob-umb-var) que
son aplicadas en el ltimo paso de cada uno de los algoritmos, as como la estimacin
de las probabilidades en cada uno de los casos. Por otra parte, en cuanto al costo
computacional asociado a este esquema, podemos sealar que el clculo de los k
vecinos de centroide ms prximo para una determinada muestra representaba un coste
O(kN), puesto que ahora deberemos repetir este proceso para cada uno de los N
prototipos del conjunto de entrenamiento, resultar ser O(kN2), y este valor es igual al
coste computacional del mtodo de edicin de Wilson.
Mtodo:
1- S
2- Mientras XS
2.1- Pasar el contenido actual de X a S: S X
2.2- Aplicar Edicin de Wilson sobre el conjunto X
3- Devolver S
111
Captulo 7
Mtodo:
1- S
2- Mientras X S
2.1- Pasar el contenido actual de X a S: S X
2.2- Aplicar algoritmo de edicin estimando las probabilidades de clase
sobre el conjunto X
3- Devolver S
112
Algoritmos de Edicin Estocsticos
113
Captulo 7
diferencia entre los valores obtenidos por el clasificador NN y los diferentes algoritmos
de edicin no son estadsticamente significativos. Observando estos resultados, parece
bastante difcil de inferir cualquier conclusin debido a las diferencias tan pequeas
obtenidas entre los distintos algoritmos de edicin en relacin con los porcentajes de
clasificacin.
1 N j
Rj = ri
N i =1
12 N k 2 k (k + 1) 2
2F = R j
k (k + 1) j=1 4
( N 1) 2F
FF =
N(k 1) 2F
donde FF se distribuye siguiendo una distribucin de Fisher con k-1 y (k-1)(N-1) grados
de libertad. La tabla de valores crticos de la distribucin de Fisher puede encontrarse en
cualquier libro de Estadstica.
Ahora bien, si calculamos el valor critico de una distribucin de Fisher, para un nivel
de confianza =0.05, con 8 algoritmos, 14 bases de datos, y con grados de libertad
(k-1) = 7 y (k-1)*(N-1) = 7*13 = 91, el valor critico de F(7,91) es 2.11. Calculando
entonces los estimadores de Friedman con los datos que se muestran en la Tabla 6,
tenemos que 2F = 8.52 y FF = 1.23. Evidentemente, nos percatamos que FF = 1.23 <
2.11 = F(7,91), por lo cual, no es posible rechazar la hiptesis nula, es decir, los
114
Algoritmos de Edicin Estocsticos
algoritmos que hemos comparado son equivalentes. En otras palabras, tienen el mismo
comportamiento en cuanto a porcentaje de clasificacin en el proceso de edicin.
115
Captulo 7
Utilizando ahora los datos que se muestran en la Tabla 7, podemos calcular el valor
critico de la distribucin de Fisher para un nivel de confianza =0.05, con 7 algoritmos,
14 bases de datos y grados de libertad (k-1) = 6 y (k-1)*(N-1) = 6*13 = 78. El valor
critico de F(6,78) es 2.21. Calculando entonces los estimadores de Friedman, con los
datos que se muestran en la Tabla 7, tenemos que 2F = 69.15 y FF = 60.53. En este
caso podemos ver que FF = 60.53 > 2.21= F(6,78), por lo cual es posible rechazar la
hiptesis nula, es decir, los algoritmos que hemos comparado no son equivalentes. En
otras palabras, el porcentaje de reduccin de los algoritmos estocsticos que utilizan la
opcin de rechazo estocstica, as como el algoritmo Multiedit tienen los mejores
porcentajes de reduccin de la talla del conjunto de entrenamiento. Un aspecto que
tambin podemos destacar es que el coste computacional del algoritmo Multiedit es
superior al coste que tienen los algoritmos estocsticos con rechazo.
Balance
50 NN
Wilson
40
R educci n%
Holdout
30 MultiE m=3
20 MultE m=4
MultE m=5
10
Wil-prob
0 Wil-prob-u u=0.6
70 75 80 85 90 95 Wil-prob-u u=0.7
Cancer Diabetes
9 80 NN
8 NN 70
7 Wilson
R ed u ccin (% )
Wilson 60
Reduccin%
6 Holdout Holdout
50
5 MultiE m=3 MultE m=3
40
4 MultiE m=4 MultE m=4
30
3 MultiE m=5
20 MultE m=5
2 Wil-prob
1 10 Wil-prob
Wil-prob-u u=0.6
0 0 Wil-prob-u u=0.6
Wil-prob-u u=0.7
95 96 97 98 64 66 68 70 72 74 76 Wil-prob-u u=0.7
Wil-prob-u u=0.8
Clasificacin Correcta% Clasificacin Correcta (%) Wil-prob-u u=0.8
116
Algoritmos de Edicin Estocsticos
German Satimage
70
NN 30 NN
60 Wilson
25 Wilson
R ed u ccin (% )
Holdout
50 Holdout
Reduccin%
MultiE m=3 20
40 MultiE m=4 MultiE m=3
15
MultiE m=5
30 MultiE m=4
Wil-prob 10
20 MultiE m=5
Wil-prob-u u=0.6
5
10 Wil-prob-u u=0.7 Wil-prob
Wil-prob-u u=0.8 0 Wil-prob-u u=0.6
0
70 75 80 85 90 Wil-prob-u u=0.7
64 66 68 70 72
Clasificacin Correcta% Clasificacin Correcta(%) Wil-prob-u u=0.8
117
Captulo 7
NN Wils. Hold
W-prob- Mult.
Wilson-prob-umb W-prop
umb-var 0.6 0.7 0.8
Cancer %cla 95.60 96.19 96.63 96.63 96.34 96.62 96.48 96.63 96.78
%red 3.44 4.28 7.43 3.36 2.48 4.09 5.49 7.68
Liver %cla 65.79 70.70 70.40 68.67 68.67 66.64 68.97 69.55 68.95
%red 32.89 37.10 27.89 27.89 36.95 45.94 61.37 67.82
Glass %cla 71.40 67.62 66.03 58.63 66.16 62.07 63.97 62.29 62.31
%red 28.50 46.14 61.21 36.68 35.40 20.32 50.58 58.17
Heart %cla 58.16 67.00 67.34 66.64 66.26 67.34 65.17 65.12 64.78
%red 34.44 38.70 69.25 28.51 36.57 40.09 53.61 65.09
Vehicle %cla 64.41 60.26 63.22 52.81 62.16 59.78 61.32 61.08 59.67
%red 36.08 39.83 66.66 20.41 34.46 43.17 46.01 58.86
Wine %cla 73.04 70.90 75.24 72.42 69.69 67.53 69.74 69.20 69.20
%red 34.97 30.75 45.50 14.60 25.41 33.28 35.67 41.43
Ionosp %cla 83.46 82.02 82.31 69.58 81.74 81.53 81.74 80.89 80.64
%red 16.66 14.52 34.11 18.01 11.70 18.01 24.21 25.21
Texture %cla 98.96 98.63 98.56 94.62 98.74 98.54 98.49 98.29 98.32
%red 1.34 3.69 15.31 1.01 1.45 1.50 3.17 3.06
Balance %cla 79.20 85.11 85.62 86.41 84.96 82.08 86.73 88.50 89.13
%red 14.80 14.52 37.04 10.76 21.67 24.40 32.08 38.40
Australian %cla 65.67 69.27 70.72 68.99 69.56 69.58 69.70 68.39 68.54
%red 31.88 36.88 59.52 25.90 24.40 37.02 50.76 57.53
German %cla 64.81 70.40 72.00 70.00 70.70 70.60 71.10 70.50 70.50
%red 30.50 32.27 54.72 26.90 27.30 39.62 52.72 60.00
Phoneme %cla 70.26 73.53 74.29 75.35 73.42 72.29 73.44 74.02 73.99
%red 10.56 16.07 37.43 11.98 12.17 17.26 24.36 29.15
Satimage %cla 83.62 83.29 83.32 82.35 83.09 83.02 83.18 83.24 83.50
%red 9.43 10.19 24.51 9.25 8.44 15.61 19.22 23.90
Diabetes %cla 67.32 73.70 73.69 71.09 74.35 69.92 74.60 74.48 74.74
%red 26.36 44.40 55.76 21.09 32.19 37.33 45.47 54.91
Tabla 8. Porcentajes de clasificacin y reduccin del conjunto de entrenamiento, usando diferentes
algoritmos de edicin.
Cancer Balance
100 90
NN NN
88 Wilson
Wilson
Porcentaje de Clasificacin
98
Porcentaje de Clasificacin
Holdout 86 Holdout
Multiedit Multiedit
96 84
Wilson-prob Wilson-prob
Wil-prob-umb-var 82 Wil-prob-umb-var
94 Wil-prob-u u=0.6 Wil-prob-u u=0.6
80
Wil-prob-u=0.7 Wil-prob-u u=0.7
Wil-prob-u u=0.8 78
92 Wil-prob-u u=0.8
76
90 74
1
1
Algoritmos Algoritmos
118
Algoritmos de Edicin Estocsticos
Satimage Diabetes
85 NN 76 NN
P orcen taje de C lasificacin
82 Wil-prob-umb-var 68 Wil-prob-umb-var
Wil-prob-u u=0.6 Wil-prob-u u=0.6
66
81 Wil-prob-u u=0.7 Wil-prob-u u=0.7
Wil-prob-u u=0.8
64 Wil-prob-u=0.8
80 62
1 1
Algoritmos Algoritmos
119
Captulo 7
Con los datos de la Tabla 10, calculamos el valor critico de la distribucin de Fisher,
para un nivel de confianza =0.05, con 6 algoritmos, 14 bases de datos y con grados de
libertad (k-1) = 5 y (k-1)(N-1) = 5*13 = 65. El valor critico de F(5,65) es 2.24.
Calculando entonces los estimadores de Friedman, tenemos que 2F = 6.36 y FF= 1.29.
Evidentemente, nos percatamos tambin que FF= 1.29 < 2.24= F(5,65), por lo cual no es
posible rechazar la hiptesis nula, es decir, los algoritmos que hemos comparado son
equivalentes: tienen el mismo comportamiento en cuanto a porcentaje de clasificacin
en el proceso de edicin.
120
Algoritmos de Edicin Estocsticos
por lo que, es posible rechazar la hiptesis nula, es decir, los algoritmos que hemos
comparado no son equivalentes: el porcentaje de reduccin de los algoritmos
estocsticos que utilizan la opcin de rechazo estocstica tienen los mejores porcentajes
de reduccin de la talla del conjunto de entrenamiento.
121
Captulo 7
122
Algoritmos de Edicin Estocsticos
Los algoritmos de edicin que utilizan el mtodo de Reetiquetado son otra variante de la
idea clsica de edicin teniendo en cuenta el esquema de Wilson. En la Tabla 13, se
muestran los resultados obtenidos al aplicar los algoritmos de edicin con reetiquetado
y sus variantes, teniendo en cuenta la probabilidad de pertenencia a la clase de los
objetos.
Como podemos apreciar en la Tabla 14, en la edicin con reetiquetado utilizando las
probabilidades de pertenencia a cada una de las clases se obtienen resultados superiores
a la edicin con reetiquetado clsica, pues en ocho de las 12 bases de datos la
clasificacin fue superior, apreciando de esta manera que con el esquema de
reetiquedado estocstico se obtienen buenos porcentajes de clasificacin. Adems, en
las bases de datos donde no se alcanz un resultado superior, los valores obtenidos
fueron muy parecidos a los alcanzados por el mtodo de reetiquetado utilizando el
algoritmo de Wilson. Tambin los porcentajes de reduccin de la talla del conjunto de
entrenamiento en los esquemas estocsticos alcanzan mejores resultados en todas las
bases de datos.
123
Captulo 7
Wilson Wilson-Reetiquetado-prob
Reetiquetado 0.6 0.7 0.8
Cancer %cla 96.04 96.04 96.48 96.19
%red 0.00 1.86 3.22 5.89
Liver %cla 66.40 68.12 68.39 64.62
%red 0.00 20.86 43.48 57.89
Glass %cla 65.00 63.97 65.54 63.66
%red 5.94 26.77 42.06 51.97
Heart %cla 64.76 68.50 69.59 67.74
%red 0.00 15.09 36.01 54.07
Vehicle %cla 59.31 59.18 57.66 56.95
%red 9.24 28.22 46.19 56.65
Wine %cla 68.06 63.61 63.59 65.88
%red 1.26 13.90 24.14 38.62
Ionosphere %cla 79.82 79.65 79.65 79.65
%red 0.00 4.53 8.54 15.04
Texture %cla 98.00 98.29 98.14 98.31
%red 0.24 1.01 2.56 3.25
Balance %cla 78.25 65.29 79.20 83.04
%red 3.24 8.23 27.72 29.76
Phoneme %cla 72.55 73.20 73.27 73.47
%red 0.00 6.10 14.82 19.87
Satimage %cla 81.25 82.32 82.52 82.51
%red 0.82 5.92 11.21 15.42
Diabetes %cla 71.87 70.31 70.44 71.09
%red 0.00 16.30 33.30 46.42
Tabla 14. Resultados de los algoritmos de edicin con reetiquetado (Wilson).
Wilsoncn- Wilsoncn-Reetiquetado-prob
Reetiquetado
0.6 0.7 0.8
Cancer %cla 95.75 95.60 95.75 96.33
%red 0.00 2.05 4.53 7.17
Liver %cla 65.50 66.40 66.41 63.78
%red 0.00 19.05 39.05 58.11
Glass %cla 63.17 65.42 63.15 59.92
%red 13.32 29.42 46.48 58.99
Heart %cla 66.21 69.62 71.14 67.44
%red 0.00 18.15 36.10 54.34
Vehicle %cla 63.43 61.19 60.60 59.31
%red 12.76 26.39 41.87 56.26
Wine %cla 68.03 65.29 64.74 65.83
%red 2.95 14.46 25.00 37.91
Ionosphere %cla 81.70 81.19 81.70 81.88
%red 0.00 6.23 10.08 20.94
Texture %cla 98.49 98.56 98.09 98.07
%red 0.89 1.56 6.68 7.85
Balance %cla 79.83 69.75 85.94 87.38
%red 5.08 12.83 31.87 33.99
Phoneme %cla 72.88 73.59 73.01 73.27
%red 0.00 6.90 17.09 24.16
Satimage %cla 83.28 82.93 83.19 82.76
%red 2.61 7.07 13.04 19.53
Diabetes %cla 73.31 70.70 71.61 73.30
%red 0.00 15.26 30.50 44.62
Tabla 15. Resultados de los algoritmos de edicin con reetiquetado (Wilsoncn).
124
Algoritmos de Edicin Estocsticos
125
Captulo 7
6. Conclusiones
Los resultados experimentales que hemos mostrado en este captulo pueden dividirse
en dos grupos: aquellos mtodos de edicin que utilizan la regla k-NN y los mtodos
que utilizan esquemas basados en el concepto NCN. En los primeros experimentos se
hace un anlisis entre algoritmos clsicos de edicin y los algoritmos que en su regla de
edicin estiman la probabilidad de perteneca a una determinada clase para aceptar o
eliminar la muestra del conjunto de entrenamiento. No obstante, se ha podido observar
que las diferencias en cuanto a porcentaje de clasificacin, sobre las diferentes bases de
datos utilizadas en los experimentos, no son significativas. Este hecho lo hemos podido
corroborar mediante la utilizacin del test estadstico de Friedman, el cual nos permiti
observar que referente a porcentajes de clasificacin estos algoritmos se pueden
considerar similares.
Sin embargo, en estos mismos experimentos, haba un detalle que s nos llamaba la
atencin, el cual se refiere a la reduccin de la talla del conjunto de entrenamiento: los
algoritmos con esquemas estocsticos de edicin presentaban porcentajes de reduccin
de la talla del conjunto de entrenamiento superior a los mtodos clsicos con los cuales
nos comparamos. Para corroborar este hecho, aplicamos nuevamente el test Estadstico
de Friedman, el cual verific que, en cuanto a porcentaje de reduccin de la talla del
conjunto de entrenamiento, estos algoritmos no son similares, obteniendo nuestras
propuestas los mejores resultados. Debemos tambin sealar que el algoritmo Multiedit
obtiene muy buenos resultados en cuanto a reduccin, pero su coste computacional es
superior al de los algoritmos que hemos propuesto en este captulo.
126
Algoritmos de Edicin Estocsticos
127
Captulo 8
1. Introduccin
La aplicacin de las reglas de clasificacin por vecindad tiene como limitaciones ciertas
restricciones de convergencia y el coste computacional asociado a su aplicacin. Es
necesario comentar que las reglas 1-NN y k-NN son equiparables en cuanto al coste
computacional: en el caso de k>1, se crea una estructura auxiliar que mantenga
ordenados los k vecinos ms cercanos hasta ese momento y, como es conocido, dado el
valor del parmetro k, ser necesario explorar todo el conjunto de referencia. Esto
significa que el coste de la bsqueda depende linealmente del nmero de prototipos
presentes en la base de datos. Adicionalmente, debemos considerar el espacio de
almacenamiento requerido: puesto que debemos consultar todos los prototipos, el
requerimiento de espacio es O(Nd), donde N es el nmero de prototipos y d la
dimensin.
Si, adems, consideramos que los mejores resultados se obtienen cuando el conjunto
de entrenamiento es grande, la aplicacin prctica de las reglas k-NN ser muy costosa e
inaplicable si el conjunto de entrenamiento es muy grande y de alta dimensionalidad. De
aqu, se deduce que los dos factores que determinan el coste computacional de las reglas
k-NN son la dimensin y el tamao del conjunto de entrenamiento, por lo que es
necesario desarrollar tcnicas para suavizar las limitaciones antes mencionadas. En
cuanto al problema relacionado con la dimensin del espacio, existe todo un conjunto
de tcnicas de reduccin de la dimensionalidad, conocidas bajo el nombre de Seleccin
de Caractersticas.
Aunque las tcnicas de edicin dan como resultado una cierta reduccin del conjunto
de entrenamiento, su objetivo fundamental es aumentar la tasa de aciertos de la regla
1-NN mediante la eliminacin de muestras errneamente etiquetadas y atpicas. En
consecuencia, la reduccin que proporcionan estos algoritmos pueden ser muy poca
significativa. Por el contrario, las tcnicas de condensado persiguen, fundamentalmente,
una reduccin importante de la talla del conjunto de entrenamiento.
Captulo 8
Para satisfacer este objetivo, se emplea un criterio de densidad de modo tal que estos
objetos pertenezcan a zonas de alta densidad y, por tanto, deberan ser buenos
representantes de las clases a las cuales ellos pertenecen. La idea principal de estos
algoritmos es definir una funcin de densidad local para determinar los objetos
pertenecientes a la zona de mayor densidad y, luego de etiquetar todos los objetos,
seleccionar de cada grupo obtenido los puntos de mayor densidad.
Como hemos venido trabajando a lo largo de esta memoria de Tesis Doctoral, en esta
seccin tambin trabajaremos con diferentes criterios de vecindad, as como tambin
130
Tcnicas de Condensado Basadas en Densidad Local
d 2(x, xi )
p(x) =
x i VR (x)
exp (
R2
)
El proceso se inicia sin tener en cuenta las etiquetas de los objetos en el conjunto de
entrenamiento TS, es decir, comenzamos suponiendo que cada objeto del TS pertenece
a un grupo unitario. Por tanto, inicialmente habr tantos conjuntos unitarios como
objetos en el TS. Luego, a cada objeto se le asigna una etiqueta diferente que
denotaremos por L1, , LN (donde N es el cardinal del conjunto de entrenamiento), es
decir, habr tantas etiquetas como objetos en el TS.
El siguiente paso de este algoritmo consiste en determinar para cada objeto xTS:
1- Su vecindad de radio R.
2- El valor de la funcin de densidad p(x) en el punto x.
3- El objeto px de mayor densidad dentro de la vecindad VR(x).
131
Captulo 8
Al final de ese proceso, tendremos por tanto s grupos (s < N). Tomamos entonces, de
cada uno de los grupos formados, el objeto de mayor densidad y, finalmente, el
conjunto condensado estar formado por s objetos etiquetados con su etiqueta original,
es decir, la etiqueta que tenan originalmente estos objetos en el conjunto de
entrenamiento, quedando formado el conjunto condensado por los siguientes objetos
{(x1, 1), (x2, 2), , (xs, s}.
Condensado Dens(R)
Entrada: X Conjunto de entrenamiento
Radio: R Radio de la vecindad
Salida: S Conjunto Condensado
Mtodo.
1- Inicio: Asignar a cada objeto x un grupo unitario
2- Para cada xX.
2.1- Calcular la vecindad de x, VR(x)
2.2- Calcular la funcin de densidad local p(x)
3- Para cada xX
3.1- Hallar en VR(x) el objeto y tal que se cumpla que
p(y) = max p(xi )
x i VR ( x )
3.2- Mover a todos los objetos del grupo de x para el grupo del objeto y
si y x
4- Hallar en cada grupo formado en el paso anterior el punto de mayor
densidad
5- Formar el conjunto condensado con esos puntos etiquetados segn
etiquetas originales en el TS
La idea intuitiva de este algoritmo es que los objetos seleccionados de esta manera,
como son los de mayor densidad, pertenecen a zonas de alta densidad en el conjunto de
entrenamiento por lo que pueden ser empleados para clasificar otros objetos utilizando
diversos criterios de vecindad.
132
Tcnicas de Condensado Basadas en Densidad Local
k
1 1 si xi C j
p(x) = pij donde pij = , donde Cj es la etiqueta del objeto x
i =1 + d(x, xi ) 0 si xi C j
en el conjunto de entrenamiento, es decir,
1
p(x) =
xi C j + d(x, xi )
Condensado Dens(K)
Entrada: X Conjunto de entrenamiento
k Nmero de vecinos
Salida S Conjunto Condensado
Mtodo.
1- Inicio: Asignar a cada objeto x un grupo unitario
2- Para cada xX hacer
2.1- Hallar sus k vecinos ms cercanos
1
2.2- Calcular el valor de p(x) en la expresin p(x) =
xi C j + d(x, xi )
3.2- Si se cumple que p(xj) > p(x) entonces mover a todos los objetos de la
misma clase que el objeto x para la clase del objeto xj
4- Hallar en cada grupo del paso anterior el punto donde la funcin p(x)
alcance el mayor valor
5- Formar el conjunto condensado con los puntos de la base de datos con las
etiquetas originales
133
Captulo 8
Adems, en el caso de pocos vecinos, puede suceder que los grupos obtenidos sean
muy pequeos y, por tanto, la reduccin de la talla sera baja. Por otra parte, puede
suceder que en el conjunto condensado no haya representantes de todas las clases. Para
evitar esto, ejecutaremos el algoritmo anterior dentro de cada clase, de modo que para
cada clase se puedan seleccionar puntos de alta densidad y tambin, para mover un
objeto hacia la clase de uno de sus vecinos, pondremos la condicin de que la densidad
del vecino sea mayor o igual que la densidad del objeto.
Condensado Dens(K2)
Entrada: X Conjunto de entrenamiento
k: Nmero de vecinos
Salida S Conjunto Condensado
Mtodo.
1- Inicio: Asignar a cada objeto x un grupo unitario
2- Para cada clase Cj hacer
2.1- Para cada xCj hacer
2.1.1- Hallar sus k vecinos ms cercanos en Cj
2.1.2- Calcular el valor de p(x) en la expresin
1
p( x) =
xi C j + d ( x, xi )
2.2.2- Si se cumple que p(xj) p(x) entonces mover a todos los objetos
de la misma clase que x para la clase de xj
2.3- Hallar en cada grupo obtenido en el paso anterior el punto donde la
funcin p(x) alcance el mayor valor
3- Formar el conjunto condensado con todos los puntos obtenidos para cada una
de las clases originales con su etiqueta original
134
Tcnicas de Condensado Basadas en Densidad Local
En los experimentos aqu realizados, utilizamos como mtodo de estimacin del error el
mtodo de validacin cruzada, considerando 10 particiones aleatorias de cada una de las
bases de datos, tomando en las mismas el 90% de los objetos para formar los diferentes
conjuntos de entrenamiento TS y el 10% de los objetos para formar los conjuntos de
prueba. Posteriormente, cada conjunto de entrenamiento fue condensado con los
algoritmos propuestos y con el algoritmo de condensado de Hart, con un algoritmo en el
que se selecciona de manera aleatoriamente el 2% de las muestras de entrenamiento y
con la regla de clasificacin NN.
135
Captulo 8
Como se puede apreciar el condensado Dens(K) casi siempre tiene los mejores
porcentajes de clasificacin correcta, excepto en el caso de las base de datos Satimage y
Wine para las que el condensado Dens(R) tiene el mayor porcentaje de clasificacin.
Porcentajes
Hart Random Dens(R) Dens(K) NN
Australian 75.22 62.04 66.22 66.50 64.35
Balance 74.88 66.43 76.31 84.02 82.23
Cancer 92.67 94.89 96.63 96.98 95.07
Diabetes 65.76 67.58 70.69 74.57 73.56
Heart 68.15 57.05 64.81 65.01 62.22
Liver 56.8 55.07 59.69 65.48 65.57
Phoneme 83.16 69.03 84.08 85.75 88.95
Satimage 81.54 78.75 82.21 81.82 81.62
Texture 94.91 88.65 95.56 96.76 95.96
Iris 90 89.54 90.66 99.89 94
Led-Creator 64.9 62.29 60.32 62.70 73.4
Wine 69.21 69.32 71.00 69.34 69.43
Vehicle 68.2 67.89 60.05 59.65 68.76
Vowel 84.35 81.28 85.32 86.21 84.98
Tabla 18 Porcentajes de clasificacin con algoritmos de condensado basados en densidad.
En la Tabla 19, mostramos el valor del coeficiente de reduccin para cada uno de los
algoritmos empleados. Es importante sealar que el condensado aleatorio siempre
reduce un 98% de los objetos, pues solamente se selecciona el 2% de la muestra en cada
conjunto, por lo cual en esta tabla ese indicador no es relevante. Hemos denotado en
cursiva el algoritmo que ha obtenido el mejor coeficiente de reduccin en cada base de
datos. De las 14 bases de datos, en ocho de ella Dens(R) presenta el mejor coeficiente de
reduccin, mientras que en las restantes bases Dens(K) obtiene los mejores resultados.
Por lo antes visto, podemos decir que, en cuanto a reduccin de la talla del conjunto de
entrenamiento, ambos algoritmos son muy similares ya que las diferencias podemos
decir que no son estadsticamente significativas.
136
Tcnicas de Condensado Basadas en Densidad Local
Coef. red
Hart Random Dens(R) Dens(K)
Australian 71.76 98.00 98.13 86.00
Balance 75.22 98.00 95.16 98.4
Cancer 91.85 98.00 98.91 94.49
Diabetes 63.11 98.00 90.62 96.58
Heart 71.32 98.00 90.45 89.90
Liver 59.13 98.00 94.68 89.79
Phoneme 79.72 98.00 84.49 86.52
Satimage 96.35 98.00 97.00 91.92
Texture 86.68 98.00 89.67 87.24
Iris 87.26 98.00 93.55 87.4
Led-Creator 64.21 98.00 92.34 98.89
Wine 94.27 98.00 95.45 96.48
Vehicle 62.18 98.00 86.02 86.07
Vowel 85.26 98.00 87.56 86.36
Tabla 19. Coeficiente de reduccin con algoritmos de condensado basados en densidad.
Australian Balance
100 100
80 80 Porcentaje de
Porcentaje de
clasificacin clasificacin
60 60
Coeficiente de Coeficiente de
40 reduccin 40 reduccin
20 20
1 2 3 4 5 1 2 3 4 5
Algoritmos Algoritmos
Cancer Diabetes
100 100
80 80
Porcentaje de Porcentaje de
clasificacin clasificacin
60 60
Coeficiente de Coeficiente de
40 reduccin 40 reduccin
20 20
1 2 3 4 5 1 2 3 4 5
Algoritmos Algoritmos
Figura 15. Comparacin de algoritmos basados en densidad para las bases de datos Australian,
Balance, Cancer, y Diabetes.
137
Captulo 8
Heart Liver
100 100
80 80 Porcentaje de
Porcentaje de
clasificacin clasificacin
60 60
Coeficiente de Coeficiente de
40 reduccin 40 reduccin
20 20
1 2 3 4 5 1 2 3 4 5
Algoritmos Algoritmos
Figura 16. Comparacin de algoritmos basados en densidad para las bases de datos Heart y Liver.
Phoneme Satimage
100 100
80 80 Porcentaje de
Porcentaje de
clasificacin clasificacin
60 60
Coeficiente de Coeficiente de
40 reduccin 40 reduccin
20 20
1 2 3 4 5 1 2 3 4 5
Algoritmos Algoritmos
Texture Iris
120 100
100
Porcentaje de 80
Pocentaje de
80 clasificacin clasificacin
60
60 Coeficiente de Coeficiente de
reduccin 40 reduccin
40
20 20
1 2 3 4 5 1 2 3 4 5
Algoritmos Algoritmos
Figura 17. Comparacin de algoritmos basados en densidad para las bases de datos Phoneme,
Satimage, Texture,e Iris.
138
Tcnicas de Condensado Basadas en Densidad Local
Led-Creator Wine
100 100
80 Porcentaje de 80 Porcentaje de
clasificacin clasificacin
60 60
Coeficiente de Coeficiente de
40 reduccin 40 reduccin
20 20
1 2 3 4 5 1 2 3 4 5
Algoritmos Algoritmos
Figura 18. Comparacin de algoritmos basados en densidad para las bases de datos Led-Creator y
Wine.
Con el objetivo de reducir la talla del conjunto de entrenamiento con vista a disminuir la
carga computacional asociada a las diferentes reglas de clasificacin, en el trabajo de
[Wilson y Martinez, 2000] se proporciona toda una coleccin de algoritmos propuestos
en diversos trabajos. Aqu en este epgrafe, vamos a evaluar el tercer algoritmo de
condensado propuesto en el presente captulo, Dens(K2), con algunos de los esquemas
utilizados en dicho artculo.
139
Captulo 8
En las Tablas 20-22, se puede apreciar que las bases de datos Iris, Led-Creator y
Cancer tienen el mayor porcentaje de clasificacin correcta con el algoritmo Dens(K2) y
la base de datos Liver no tiene el mayor porcentaje para nuestro algoritmo pero, slo es
superado por el algoritmo de clasificacin k-NN y por los algoritmos de edicin Drop2
y Drop5. Para las bases Phoneme y Vowel, nuestro algoritmo est entre los primeros 9
lugares, pero igualmente los algoritmos que superan sus porcentajes son k-NN y All-k-
NN, Drop2-Drop5, ENN (Wilson) y RENN (Wilson Repetitivo). Solo Australian y
Vehicle son superadas por el algoritmo de Hart.
Por medio, de las Tablas 23-25, mostramos los resultados relativos al porcentaje de
reduccin de la talla del conjunto de entrenamiento.
140
Tcnicas de Condensado Basadas en Densidad Local
En las Tablas 23-25 puede observarse que, para la base de datos Led-Creator nuestro
algoritmo alcanz el mayor porcentaje de reduccin, mientras que para las bases de
datos Balance, Diabetes, Liver, Vehicle y Vowel tenemos el tercer mejor porcentaje,
slo superado por los algoritmos Elgrow y Explore. Sin embargo, estos dos algoritmos
tienen porcentajes de clasificacin correcta bastante bajos comparados con el resto de
141
Captulo 8
los algoritmos. Para las bases de datos Heart y Australian, Dens(K2) ocupa el cuarto y
quinto mejor porcentaje de reduccin, respectivamente. Para las bases de datos
Phoneme e Iris, estn en sptimo lugar y Cancer, en el dcimo. En todos los casos, la
reduccin es de ms del 80% de los objetos de la base de datos, por lo que
consideramos que como algoritmo de reduccin de talla del conjunto de entrenamiento
obtiene buenos resultados.
En la base Australian, observamos que nuestro algoritmo est entre los que ms
porcentaje de reduccin obtiene en Balance, logramos tener un buen porcentaje de
clasificacin correcta, aunque respecto a la reduccin no alcanzamos los primeros
lugares. En Diabetes, hay un comportamiento favorable en ambos sentidos, tanto en
porcentaje de clasificacin como en porcentaje de reduccin.
Cond-Estocstico Cond-Estocstico
Australian k-NN
Australian
CNN
CNN SNN
100 SNN 100
IB2
IB2 IB3
Porcentaje de clasificacin
90 90
IB3
Coeficiente de reduccin
DEL
DEL 80
80 Drop1
Drop1 70
70 Drop2
Drop2
60 Drop3
Drop3
60 Drop4
Drop4 50
Drop5
50 Drop5
40 ENN
ENN
40 30 RENN
RENN
All-k-NN All-k-NN
30 20
Elgrow Elgrow
20 10 Explore
Explore
1 ELH 1 ELH
Cond-Estocstico Cond-Estocstico
Balance k-NN
Balance
CNN
CNN SNN
100 SNN 100 IB2
IB2 IB3
P o rcen ta je d e cla sifica ci n
90 90
C o e fi c i e n te d e re d u c c i n
IB3 DEL
DEL 80
80 Drop1
Drop1 70 Drop2
70 Drop2
60 Drop3
Drop3
60 Drop4
Drop4 50
Drop5
50 Drop5 40 ENN
ENN
40 30 RENN
RENN
All-k-NN
All-k-NN 20
30 Elgrow
Elgrow
10 Explore
20 Explore
1 ELH 1 ELH
Figura19. Comparacin entre diferentes tcnicas para reducir la talla del conjunto de
entrenamiento.
142
Tcnicas de Condensado Basadas en Densidad Local
Cond-Estocstico Cond-Estocstico
Diabetes Diabetes
k-NN CNN
CNN SNN
90 100
SNN IB2
IB2 90 IB3
80
Porcentaje de clasificacin
IB3
C oeficiente de reduccin
DEL
DEL 80
70 Drop1
Drop1
70 Drop2
60 Drop2
Drop3
Drop3
60 Drop4
50 Drop4
Drop5
Drop5 50
40 ENN
ENN
40 RENN
RENN
30 All-k-NN All-k-NN
30
Elgrow Elgrow
20
Explore 20 Explore
1 ELH 1 ELH
Figura 20. Comparacin entre diferentes tcnicas para reducir la talla del conjunto de
entrenamiento.
k-NN CNN
90 CNN 100 SNN
SNN IB2
90
80 IB2 IB3
IB3 DEL
80
Porcentaje de clasificacin
DEL
Coeficiente reduccin
70 Drop1
Drop1 70
Drop2
60 Drop2
60 Drop3
Drop3
Drop4
Drop4 50
50 Drop5
Drop5
40 ENN
ENN
40
RENN
RENN 30
All-k-NN
All-kNN
30
20 Elgrow
Elgrow
Explore Explore
20 10
ELH ELH
1 1
Figura 21. Comparacin entre diferentes tcnicas para reducir la talla del conjunto de
entrenamiento.
143
Captulo 8
Coeficiente de reduccin
80
DEL
Drop1
60
Drop1
70 Drop2
Drop2
Drop3
Drop3 60
Drop4
Drop4
Drop5
Drop5 50
50 ENN
ENN
40 RENN
RENN
All-k-NN
All-k-NN
30
Elgrow Elgrow
Explore Explore
20
40
1 ELH 1 ELH
Coeficiente de Reduccin
DEL
DEL
80
Drop1
60 Drop1
70 Drop2
Drop2
Drop3
50 Drop3 60 Drop4
Drop4
Drop5
Drop5 50
40 ENN
ENN
40 RENN
RENN
30 All-k-NN
All-k-NN 30
Elgrow
Elgrow
Explore 20 Explore
20
1 ELH 1 ELH
Figura 22. Comparacin entre diferentes tcnicas para reducir la talla del conjunto de
entrenamiento.
144
Tcnicas de Condensado Basadas en Densidad Local
IB3
DEL
C oeficiente de R educcin
80
DEL 70 Drop1
Drop1
70 Drop2
60
Drop2
Drop3
60 Drop3 50
Drop4
Drop4
40 Drop5
50 Drop5
30 ENN
ENN
40 REN
RENN
20
All-k-NN All-k-NN
30
10 Elgrow
Elgrow
20 Explore 0 Explore
1 ELH 1 ELH
IB3
C oeficien te d e red u ccin
80 DEL
DEL
70 Drop1
Drop1 70
Drop2
60 Drop2
60 Drop3
Drop3
Drop4
50 Drop4 50
Drop5
Drop5
40 ENN
40 ENN
RENN 30 RENN
All-k-NN All-k-NN
30
20
Elgrow Elgrow
20 Explore 10 Explore
1 ELH 1 ELH
Figura 23. Comparacin entre diferentes tcnicas para reducir la talla del conjunto de
entrenamiento.
Pese a las tablas mostradas y las figuras presentadas, hemos tambin hecho un
grfico de rango entre todos estos algoritmos, como un elemento ms para comparar
ests tcnicas de reduccin de la talla del conjunto de entrenamiento.
145
Captulo 8
18 18
Cond Estocstico Cond Estocstico
k-NN k-NN
16 16
CNN CNN
SNN SNN
14 14
IB2 IB2
IB3 IB3
12 12
DEL DEL
Algoritmos
Algoritmos
Drop1 Drop1
10 10
Drop2 Drop2
Drop3 Drop3
8 8
Drop4 Drop4
Drop5 Drop5
6 6
ENN ENN
RENN RENN
4 4
All-k-NN All-k-NN
Elgrow Elgrow
2 2
Explore Explore
ELH ELH
0 0
1 1
Figura 24. Comparacin entre diferentes tcnicas para reducir la talla del conjunto de
entrenamiento.
Como se puede apreciar, el algoritmo Dens(K2), el cual hemos comprado con todos
los algoritmos que aparecen en el artculo de [Wilson y Martinez, 2000], ocupo la
octava posicin entre los 18 algoritmos usados. Aunque no est en las primeras
posiciones, debemos sealar que aqu aparecen algoritmos netamente de edicin, como
el de Wilson, y otros de clasificacin, como la regla k-NN, por lo cual consideramos que
est algoritmo de condensado que utiliza una funcin de densidad para seleccionar
aquellos objetos de zonas que tienen un alta densidad de objetos tiene un valor tanto
terico como prctico en problemas donde se estime la funcin de densidad de clases.
4. Conclusiones
146
Tcnicas de Condensado Basadas en Densidad Local
147
Captulo 9
1. Introduccin
Una de las definiciones que se han dado para describir la IA la sita dentro de una
disciplina que tiene que ver con la ciencia de la computacin, que corresponde al
esfuerzo por parte de gran cantidad de cientficos que durante los ltimos treinta aos
han realizado con el fin de dotar a las computadoras de inteligencia. A partir de esta
definicin, encontramos que una tcnica de IA es aquella que se utiliza con el fin de
lograr que un determinado programa se comporte de forma inteligente, sin pretender
tener en cuenta la "forma de razonamiento" empleada para lograr ese comportamiento.
Sin embargo, es preciso sealar que existen dos enfoques dentro de la IA; el primero
de ellos esta concebido como el intento por desarrollar una tecnologa capaz de proveer
Captulo 9
150
Filtrado de la Muestra de Entrenamiento en Aprendizaje Parcialmente Supervisado
151
Captulo 9
La adaptacin del clasificador a las nuevas condiciones en este esquema est dada
por la posibilidad de adicionar nuevas muestras al conocimiento; lo que hace que no
todas las muestras sean clasificadas con un mismo conocimiento, sino que ste es
actualizado en cada iteracin del algoritmo. El hecho de poder modificar las
probabilidades de pertenencia de los objetos a las distintas clases del problema permite
al clasificador irse adaptando a las condiciones del medio en que tiene que
desempearse a medida que le permite corregir posibles errores que pudieran haberse
cometido a la hora de estimar dichas probabilidades.
152
Filtrado de la Muestra de Entrenamiento en Aprendizaje Parcialmente Supervisado
153
Captulo 9
proceso. Tengamos presente que la idea de este mtodo es poder exigir un umbral
menos riguroso para las clases menos representadas en el espacio. Pudiera pensarse en
establecer un conjunto de umbrales diferentes cada vez que es necesario editar, pero
esto es sencillamente inaceptable debido a que estimar los umbrales es una tarea
demasiado costosa y rompera con la automaticidad del proceso, lo cual es uno de los
objetivos del presente trabajo. Por ello, la solucin aqu propuesta es estimar en cada
paso el umbral para la clase i mediante la expresin:
Los esquemas de aprendizaje continuo que hemos presentado en este trabajo tienen el
inconveniente que el conocimiento actual crece rpidamente debido a la incorporacin
constante de objetos que van siendo clasificados por los diferentes clasificadores, por lo
cual es necesario introducir algn mecanismo de condensado que reduzca la talla del
conocimiento actual sin que esto afecte a la fase de clasificacin. Los algoritmos de
condensado que empleamos para dar respuesta a este objetivo utilizan un criterio de
densidad de modo tal que los objetos seleccionados en el conjunto condensado
pertenezcan a zonas de alta densidad y, por tanto, deben ser buenos representantes de las
clases a las cuales ellos pertenecen.
154
Filtrado de la Muestra de Entrenamiento en Aprendizaje Parcialmente Supervisado
155
Captulo 9
156
Filtrado de la Muestra de Entrenamiento en Aprendizaje Parcialmente Supervisado
Cancer Heart
68
P o r c e n ta je d e c la sific a c i n
100
P o r cen t a j e d e c la sif ica c i n
66
98 64
Algoritmo I Algoritmo I
62
96 Algoritmo II 60 Algoritmo II
94 Algoritmo III 58 Algoritmo III
56
Algoritmo IV Algoritmo IV
92 54
52
90 50
1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8
Iteraciones Iteraciones
Figura 28. Resultados de los algoritmos con las bases Cancer y Heart.
157
Captulo 9
Diabetes German
P o r c e n ta je d e c la sific a c i n
P o r c e n ta je d e c la sific a c i n
74 74
72 72
Algoritmo I Algoritmo I
70 Algoritmo II Algoritmo II
70
68 Algoritmo III Algoritmo III
Algoritmo IV 68 Algoritmo IV
66
64 66
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 11 12 13
Iteraciones Iteraciones
Phoneme Satimage
P o r c e n ta je d e c la sific a c c i n
P o r c e n ta je d e c la s ific a c i n
88 82
80
86
Algoritmo I 78 Algoritmo I
84 Algoritmo II 76 Algoritmo II
74
82 Algoritmo III 72 Algoritmo III
Algoritmo IV 70 Algoritmo IV
80
68
78 66
1 3 5 7 9 11 13 15 17 19 21 23 25 27 1 3 5 7 9 11 13 15 17 19 21 23 25 27
Iteraciones Iteraciones
Australian
P orcen taje d e clasificacin
70
68
Algoritmo I
66 Algoritmo II
64 Algoritmo III
Algoritmo IV
62
60
1 2 3 4 5 6 7 8 9
Iteraciones
Figura 29. Resultados de los algoritmos con las bases Diabetes, German, Phoneme, Satimage y
Australian.
158
Filtrado de la Muestra de Entrenamiento en Aprendizaje Parcialmente Supervisado
Hasta ahora, todos los esquemas de aprendizaje continuo que hemos presentado van
incorporando muestras al conjunto de entrenamiento clasificadas por los diferentes
clasificadores pero, como sabemos, el incremento de las muestras pudiera afectar en
cierta medida a la carga computacional del proceso, con el fin de dar una posible
solucin a este inconveniente, en los grficos que a continuacin ilustraremos, hemos
tenido en cuenta el control de los elementos del conocimiento actual, es decir,
controlamos el tamao del conjunto de entrenamiento valindonos del algoritmo
Dens(K) explicado en el captulo anterior, el cual utiliza una funcin de densidad como
una medida para ubicar aquellos objetos que se encuentran en zonas de alta densidad.
En este esquema, slo hemos llevado a cabo los experimentos con una propuesta de
algoritmo de aprendizaje continuo, donde hemos seleccionado como algoritmo de
edicin de las muestras de entrenamiento el algoritmo Wilson-prob, como regla de
clasificacin k-NN-prob y como algoritmo de condensado Dens(K).
159
Captulo 9
Para obtener los resultados que ahora presentamos, repetimos los experimentos 10
veces, o sea, repetimos tanto el algoritmo de aprendizaje continuo como la curva de
aprendizaje 10 veces en cada base de datos y, calculamos el promedio de los porcentajes
de cada una de las etapas antes sealadas. Las bases de datos se dividieron en lotes de
acuerdo a la cantidad de objetos de cada una, por lo que para realizar los experimentos
disponemos de una cantidad de conjuntos tra en funcin de la cantidad de objetos de
cada base de datos. En cada uno de los grficos, los nmeros que se indican en el eje
horizontal corresponden a los conjuntos tra, tra1, tra2, etc; en los grficos, hemos
utilizado la notacin iteraciones, la cual corresponde al nmero de particiones en cada
base de datos, ya que el algoritmo se repite en cada conjunto tra-i. En el eje vertical, se
observa el porcentaje de clasificacin correcta despes de haber realizado el proceso en
la etapa correspondiente.
Para las bases de datos de la Figura 30, se observa una tendencia al crecimiento de la
curva del proceso de aprendizaje continuo propuesto, lo que significa que a pesar de
haber partido de un conjunto de entrenamiento pequeo, en las etapas siguientes hay un
crecimiento del porcentaje de clasificacin correcta, es decir, que los objetos que no
estaban etiquetados y que han sido etiquetados segn este proceso han elevado la
calidad del conjunto de entrenamiento inicial adems, el condensado no ha deteriorado
la calidad del mismo. Puede observarse tambin que casi siempre la curva de
aprendizaje continuo obtenida con nuestro algoritmo est por encima de la curva de
aprendizaje slo en Liver la segunda etapa tiene un valor mayor en el porcentaje para la
curva de aprendizaje, es decir, que los conjuntos de entrenamiento obtenidos como
resultado del proceso de aprendizaje continuo tienen una calidad superior a los
conjuntos de entrenamiento obtenidos segn el esquema de la curva de aprendizaje.
160
Filtrado de la Muestra de Entrenamiento en Aprendizaje Parcialmente Supervisado
Australian Cancer
70 100
68
Aprendizaje 98 Aprendizaje
66
Continuo Continuo
64 Curva de Curva de
Aprendizaje 96 Aprendizaje
62
60 94
1 2 3 4 5 6 1 2 3 4 5 6
Iteraciones Iteraciones
Diabetes Heart
P o r c e n ta je d e c la s ific a c i n
70
P o r c e nta je de c la sific a c i n
74
72 68
70 Aprendizaje Aprendizaje
66
68 Continuo Continuo
66 Curva de 64 Curva de
Aprendizaje Aprendizaje
64
62
62
60 60
1 2 3 4 5 6 7 1 2 3 4 5
Iteraciones Iteraciones
Liver
66
Po rcenta je de c la sifica ci n
64
Aprendizaje
62
Continuo
60 Curva de
Aprendizaje
58
56
1 2 3 4 5
Iteraciones
Figura 30. Resultado del aprendizaje continuo utilizando algoritmo de condensado Dens(K).
161
Captulo 9
Phoneme Satimage
93 92
P o rcentaje d e clasificaci n
P orcentaje de clasificaci n
91
90
89
87 Aprendizaje 88 Aprendizaje
85 Continuo Continuo
86
83 Curva de Curva de
81 Aprendizaje 84 Aprendizaje
79
82
77
75 80
1 3 5 7 9 11 13 15 17 19 1 3 5 7 9 11 13 15 17 19
Iteraciones Iteraciones
Texture
100
Porcentaje de clasificacin
98
96
Aprendizaje
94 Continuo
92 Curva de
90 Aprendizaje
88
86
1 3 5 7 9 11 13 15
Iteraciones
Figura 31. Resultado del aprendizaje continuo utilizando algoritmo de condensado Dens(K).
Para las bases de datos Phoneme, Satimage y Texture, por tener mayor cantidad de
objetos, dividimos en una cantidad mayor de lotes segn se puede ver en los nmeros
del eje horizontal de los grficos correspondientes y el condensado se efectu cada
cinco iteraciones del algoritmo.
162
Filtrado de la Muestra de Entrenamiento en Aprendizaje Parcialmente Supervisado
Liver
P orcentaje de clasificacin
66
64 Ap-Dens(K)
62
Ap-Dens(K2)
60
58 Ap-Edicin
56
Curva de
1 2 3 4 5
Aprendizaje
Iteraciones
163
Captulo 9
Por ltimo, analizando la Figura 35, en la cual tenemos los resultados para Satimage
y Texture, observamos que los algoritmos de aprendizaje continuo tienen un
comportamiento similar, siendo muy escasas las diferencia entre ellos. En cualquier
caso para Texture, el esquema Ap-Edicin es el que logra tener los mejores resultados
de forma generalizada.
Australian Cancer
70 100
P o r c e n ta je d e c la sific a c i n
P o r c e n ta je d e c la s ific a c i n
Ap-Dens(K) Ap-Dens(K)
68 99
Ap-Dens(K2) 98 Ap-Dens(K2)
66
97
64 Ap-Edicin Ap-Edicin
96
Curva de
62 Curva de 95
Aprendizaje
Aprendizaje
60 94
1 2 3 4 5 6 1 2 3 4 5 6
Iteraciones Iteraciones
Diabetes Heart
P o r c e n ta je d e c la sific a c i n
74
P o r ce n ta je d e c la sifica ci n
74
72 72
Ap-Dens(K) Ap-Dens(K)
70 70
68 68
Ap-Dens(K2) Ap-Dens(K2)
66 66
64 Ap-Edicin 64 Ap-Edicin
62 62
60 Curva de 60 Curva de
1 2 3 4 5 6 7 Aprendizaje 1 2 3 4 5 Aprendizaje
Iteraciones Iteraciones
164
Filtrado de la Muestra de Entrenamiento en Aprendizaje Parcialmente Supervisado
Phoneme
93
P orcentaje de clasificacin
91
89 Ap-Dens(K)
87
85 Ap-Dens(K2)
83
81 Ap-Edicin
79
77 Curva de
75 Aprendizaje
1 3 5 7 9 11 13 15 17 19
Iteraciones
Satimage Texture
P orcen taje d e clasificacin
90 98
Ap-Dens(K) Ap-Dens(K)
96
88
94
86 Ap-Dens(K2) Ap-Dens(K2)
92
84
Ap-Edicin 90 Ap-Edicin
82 88
80 Curva de 86 Curva de
1 3 5 7 9 11 13 15 17 19 Aprendizaje 1 3 5 7 9 11 13 15 Aprendizaje
Iteraciones Iteraciones
A modo de resumen, hemos querido saber cmo influye controlar la talla del
conjunto de entrenamiento, es decir, luego de incorporar al conocimiento todas las
muestras que han sido clasificadas y posteriormente filtradas, es lgico que este
conocimiento aumente a mediada que el proceso se va ejecutando varias veces. Para
tener un control de la talla del conocimiento, hemos aplicado un algoritmo de
condensado con el objetivo de reducir el coste computacional asociado a la regla de
clasificacin. Con los experimentos, comprobamos que disminuir la talla del conjunto
de entrenamiento usando una funcin de densidad nos permite quedarnos en el conjunto
de entrenamiento con muestras que representan de manera adecuada la distribucin de
las clases representadas en el conjunto de entrenamiento.
165
Captulo 9
Segn expresa el algoritmo, ahora para cada conjunto tra-i, realizamos tres
operaciones simultaneamente: clasificar, editar y condensar. El resultado de este ltimo
paso es incorporado al conocimiento base, de modo que el CB va creciendo muy
discretamente. Los grficos que mostramos a continuacin son los resultados de los
experimentos realizados empleando este algoritmo de aprendizaje.
Australian Heart
70 70
P o r c e n ta je d e c la s ific a c i n
P o r c e n ta je d e c la sific a c i n
68 68
Aprendizaje Aprendizaje
66 66
Continuo Continuo
64 Curva de 64 Curva de
Aprendizaje Aprendizaje
62 62
60 60
1 2 3 4 5 6 1 2 3 4 5
Iteraciones Iteraciones
Figura 36. Resultado del aprendizaje continuo (variante 2) utilizando condensado Dens(K2).
166
Filtrado de la Muestra de Entrenamiento en Aprendizaje Parcialmente Supervisado
con el proceso de aprendizaje se mantienen por encima del porcentaje inicial. Para la
base de datos Liver se observa un comportamiento irregular durante el proceso de
aprendizaje, aunque termina con un porcentaje muy cercano al inicial, en los pasos
intermedios hay un descenso del porcentaje de clasificacin.
Cancer Diabetes
P o r c e n ta je d e c la s ific a c i n
100 74
P o r c e n ta je d e c la s ific a c i n
72
98 Aprendizaje 70
Aprendizaje
Continuo 68 Continuo
Curva de 66 Curva de
96
Aprendizaje 64 Aprendizaje
62
94 60
1 2 3 4 5 6 1 2 3 4 5 6 7
Iteraciones Iteraciones
Liver
66
P orcen taje d e clasificacin
64
62 Aprendizaje
Continuo
60
Curva de
58 Aprendizaje
56
54
1 2 3 4 5
Iteraciones
Figura 37. Resultado del aprendizaje continuo (variante 2) utilizando condensado Dens(K2).
167
Captulo 9
93 92
P o r c e n ta je d e c la s ific a c i n
91
90
89
87 Aprendizaje 88 Aprendizaje
85 Continuo Continuo
86
83 Curva de Curva de
81 Aprendizaje 84 Aprendizaje
79
77 82
75 80
1 3 5 7 9 11 13 15 17 19 1 3 5 7 9 11 13 15 17 19
Iteraciones Iteraciones
Texture
P orcentaje de clasificacin
100
98
96
Aprendizaje
94 Continuo
92 Curva de
90 Aprendizaje
88
86
1 3 5 7 9 11 13 15
Iteraciones
A modo de resumen de estos experimentos, podemos decir que con esta propuesta
perseguimos dos objetivos: primero, no modificamos constantemente el conocimiento
inicial debido a que las muestras de ese conocimiento permanecern a lo largo del
proceso en el conjunto de entrenamiento y segundo, aadimos al conocimiento slo
aquellas muestras que han pasado por los dos filtros (edicin y condensado). Esto nos
permitir en cada paso adicionar al conocimiento muy pocas muestras, manteniendo de
este modo la distribucin inicial del proceso. Con este esquema, hemos tenido un mejor
resultado en las bases de datos de mayor tamao que en los procesos anteriores.
En este epigrafe, para que se vean bien las diferencias entre los dos algoritmos de
aprendizaje continuo empleando el algoritmo Dens(K2) mostramos una serie de
experimentos con los algoritmos siguientes:
168
Filtrado de la Muestra de Entrenamiento en Aprendizaje Parcialmente Supervisado
Australian Cancer
70 100
P o r ce nta je de c la sific a c i n
Po rcenta je de cla sifica ci n
68 Ap-Dens(K2)-V1 Ap-Dens(K2)-V1
98
66
Ap-Dens(K2)-V2 Ap-Dens(K2)-V2
64
96
Curva de Curva de
62 Aprendizaje Aprendizaje
60 94
1 2 3 4 5 6 1 2 3 4 5 6
Iteraciones Iteraciones
Diabetes Heart
74 70
P o r c e n ta je d e c la sific a c i n
C l a s i fi c a c i n c o r r e c ta (% )
72
Ap-Dens(K2)-V1 68 Ap-Dens(K2)-V1
70
68 66
Ap-Dens(K2)-V2 Ap-Dens(K2)-V2
66 64
64 Curva de Curva de
Aprendizaje 62 Aprendizaje
62
60 60
1 2 3 4 5 6 7 1 2 3 4 5
Iteraciones Iteraciones
Para la base de datos Diabetes (Figura 40), an cuando los conjuntos resultantes son
mejores que el conjunto de entrenamiento inicial, el comportamiento, en general, es
creciente con la variante segunda, pero a niveles inferiores que para la primera variante.
Para la base de datos Heart, tambin la curva de aprendizaje continuo crece con ambos
mtodos de aprendizaje, pero los porcentajes de clasificacin correcta de la variante
primera son superiores que los de la segunda variante.
169
Captulo 9
Liver Phoneme
P o r c e n ta je d e c la sific a c i n
66 93
P o rc e n ta j e d e c la s i fic a c i n
91
64
Ap-Dens(K2)-V1 89 Ap-Dens(K2)-V1
62 87
60
Ap-Dens(K2)-V2 85 Ap-Dens(K2)-V2
83
58 Curva de 81
Curva de
Aprendizaje 79
56 Aprendizaje
77
54 75
1 2 3 4 5 1 3 5 7 9 11 13 15 17 19
Iteraciones Iteraciones
Satimage Texture
P o r c e n t a j e d e c la s if ic a c i n
92
P o r c e n ta je d e c la sific a c i n
100
90 98
Ap-Dens(K2)-V1 Ap-Dens(K2)-V1
96
88
86 Ap-Dens(K2)-V2 94 Ap-Dens(K2)-V2
92
84
Curva de 90 Curva de
82 Aprendizaje 88 Aprendizaje
80 86
1 3 5 7 9 11 13 15 17 19 1 3 5 7 9 11 13 15
Iteraciones Iteraciones
La Figura 42 muestra que, para las bases de datos Satimage y Texture, es mejor
emplear la segunda variante, pues no se produce un deterioro de la calidad del conjunto
de aprendizaje. Como se ve bien en los grficos, para el primer mtodo (cuando se
modifica el conjunto inicial), en los primeros pasos hay un crecimiento del porcentaje
de clasificacin correcta pero, posteriormente desciende y, aunque siempre trata de
recuperarse nuevamente por tramos, la tendencia es a decrecer. Sin embargo, al probar
170
Filtrado de la Muestra de Entrenamiento en Aprendizaje Parcialmente Supervisado
la segunda variante, se ve que la tendencia es a crecer, por lo que este mtodo en esta
base de datos proporciona mejores resultados.
5. Conclusiones
171
Captulo 9
172
Parte III
Conclusiones y
Lneas Futura
Captulo 10
Conclusiones Finales
1. Principales Aportaciones
En tercer lugar, siguiendo esta misma estrategia estocstica, tambin se han diseado
algoritmos de condensado que se apoyan en una medida de densidad local, logrando con
los mismos buenos resultados tanto en la reduccin de la talla del conjunto de
entrenamiento como en porcentajes de clasificacin, comparndolos con otros
algoritmos que aparecen en la literatura.
descartar aquellos objetos que su probabilidad de pertenencia a la clase sea muy baja, o
no supere un umbral previamente definido. Tambin en este algoritmo, valindonos de
esquemas estocsticos de condensado, controlamos el tamao de las muestras con el
objetivo de que el costo del algoritmo se mantenga en un margen previamente
establecido.
A continuacin, haremos un rpido recorrido por los captulos que han significado
algn tipo de aportacin en los campos previamente mencionados, comentando en cada
caso los principales resultados obtenidos a partir del correspondiente anlisis emprico.
176
Conclusiones Finales
De los diferentes resultados obtenidos a partir del trabajo de Tesis Doctoral, han
podido surgir varias publicaciones, tanto en forma de artculos en revistas nacionales e
internacionales como comunicaciones en congresos. A continuacin, enumeramos las
que se han originado hasta este momento.
177
Captulo 10
2. Posibles Extensiones
Una posible extensin de este trabajo es considerar datos mezclados, es decir, que los
rasgos mediante los cuales son descritos los objetos sean tanto cuantitativos como
cualitativos. En otras palabras, que el espacio de representacin de los objetos no tenga
estructura mtrica y donde pueda haber ausencia de informacin en algunas de las
caractersticas a considerar en los objetos. En este tipo de espacio, tendra mucho inters
desarrollar reglas de clasificacin y esquemas de seleccin de prototipos estocsticos.
178
Conclusiones Finales
179
Anexo A
A.1. Australian
A.2. Balance
Esta base de datos esta compuesta por 625 prototipos, cada uno de los cuales esta
descrito mediante 4 caractersticas y divididos en 3 clases. Esta base de datos simula
una balanza en la cual adems de poder variar los pesos de izquierda a derecha tambin
puede variar la distancia de cada uno de los brazos de la balanza al centro de la misma.
Debido a esto es que tiene 4 caractersticas. Cada clase viene definida por la posibilidad
de que la balanza este equilibrada, hacia la derecha o hacia la izquierda.
Anexo A
A.3. Cancer
Esta base de datos como su nombre lo indica ha sido obtenida de pacientes que
presentan tumoraciones en el Hospital Universitario de Wisconsin. Se compone de un
total de 683 pacientes (prototipos) con diversas tumoraciones, clasificando los mismos
en dos clases, pacientes con tumores benignos o pacientes con tumores malignos. Para
representar cada paciente se utilizaron se utilizaron 9 caractersticas, las cuales son las
siguientes: Clump Thickness, Uniformity of Cell Size, Uniformity of Cell Shape,
Marginal Adhesion, Single Epithelial Cell Size, Bare Nuclei, Bland Chromatin, Normal
Nucleoli y Mitoses.
A.4. Diabetes
Esta base de datos pretende predecir la diabetes. Para ello de cada individuo se
conocen 8 caractersticas, entre las que podemos mencionar: edad, presin arterial,
ndice de masa corporal, etc. La misma posee 768 individuos descritos mediante los 8
rasgos antes mencionados, agrupados los mismos en dos clases.
A.5. German
De forma similar a la base de datos Australia los prototipos de esta base son datos de
todo tipo de cliente de un banco. La tarea consiste en inferir si se les ha de conceder un
crdito o no. Se compone la misma de 1000 prototipos con 20 caractersticas (7
numricas, 13 categricas) aunque los autores tambin disponen de una versin
totalmente numrica (variables continuas) de 24 caractersticas, esta ltima es la que ha
sido utilizada en los experimentos. Los prototipos se distribuyen en dos clases.
A.6. Glass
182
Anexo A
A.7. Heart
Similar a la base Cancer aqu se muestran 270 pacientes (prototipos) que padecen o
no una determinada cardiopata. Cada prototipo es representado mediante 13
caractersticas tanto continuas como discretas. Las muestras se distribuyen en dos clases
dependiendo o no si padecen una enfermedad del corazn.
A.8. Ionosphere
Estos datos corresponden a los resultados de radar recopilados por antenas de alta
frecuencia que apuntan a la ionosfera. La tarea consiste en clasificar las seales de
retorno en dos clases: optima si la seal muestra evidencia de algn tipo de estructura
en la ionosfera y mala si no lo hace. Para eso, se disponen de 34 caractersticas que
representan el tiempo y nmero de 17 pulsos.
A.9. Liver
A.10. Phoneme
La presente base de datos est formada por vocales tomadas a partir de 1.809 slabas
aisladas (por ejemplo, /ar/,/gen/, /list/,/bult/, ), de manera que el objetivo central de
este problema ser distinguir entre las vocales nasales y las vocales orales, por lo cual la
base de datos constar de dos clase. Cada vocal se encuentra caracterizada por cinco
atributos correspondiente a la amplitud de los cinco primeros armnicos normalizada
por la energa total. Se tomaron observaciones para cada slaba en tres instantes
distintos, correspondiente el momento de mxima energa total y, a 8 mseg antes y
despus de alcanzar dicho valor mximo. A partir de las 5.427 representaciones
obtenidas mediante este procedimiento, se eliminaron las 23 muestras para las que las
amplitudes de los cincos primeros armnicos eran nula, resultando un conjunto final con
5.404 muestras disponibles.
183
Anexo A
A.11. Satimage
Esta base de datos fue generada a partir de las imgenes captadas mediante el
scanner multi-espectral de un satlite Landsat, con el objetivo de analizar el
comportamiento de diferentes mtodos de clasificacin basados en redes neuronales y
clasificadores estadsticos sobre datos procedentes de diversas reas industriales.
A.11. Texture
A.12. Vehicle
A.13. Vowel
Esta base esta formada por 528 datos. Los datos constan de 10 caractersticas
continuas y se dividen en 11 clases y se divide en 11 clases. El problema est
equilibrado siendo la probabilidad a priori de cada clase la misma.
184
Anexo A
A.14. Wine
185
Referencias Bibliogrficas
[Aha, 1992] Aha, D.W., Tolerating noisy irrelevant and novel attributes in
instance-based learning algorithms, International Journal of
Man-Machine Studies, 36, pp 267 - 287 (1992).
[Balcan, 2005] Balcan, M., Blum, A. and Yang, K., Co-training and
expansion: Towards bridging theory and practice. In L.K.
Saul, Y. Weiss and L. Bottou (Eds), Advances in neural
information processing systems 17. Cambridge, MA: MIT
Press.
[Barandela, 2001] Barandela, R., Cortes, N. and Palacios, A., The nearest
neighbor rule and the reduction of the training simples size,
Proceeding of the 9th Spanish Symposium on Pattern
Recognition and Image Analysis, vol I, pp 103 - 108, (2001).
[Barandela, 2005] Barandela, R., Ferri, F.J. and Sanchez, J.S., Decision
boundary preserving prototype selection for nearest neighbour
classification, International Jornal of Pattern Recognition and
Artificial Intelligence, vol 19, Nmero 6, pp 787 - 806,
(2005).
[Bensaid, 1996] Bensaid, A.M., Hall, L.O., Bezdek, J.C. and Clarke, L.P.,
Partially supervised clustering for image segmentation, Patter
Recognition 29, pp 859 - 871, (1996).
[Blum, 1998] Blum, A. and Mitchell, T., Combining labeled and unlabeled
data with co-training. COLT: Proceeding of the Workshop on
Computational Learning Theory.
[Blum, 2001] Blum, A. and Chawla, S., Learning from labelled and
unlabeled data using graph mincuts, In Proc. 18th. Int. Conf on
Machine Learning, pp 19 - 26, (2001).
[Breukelen, 1997] Breukelen, Van M., Duin, R.P.W. and D.M.J., Tax,
Combining classifier for the recognition of handwritten digits,
In Proc. Of the 1st International Workshop on Statistical
Techniques in Pattern Recognition, pp 13 - 18, (1997).
[Cervern, 2001] Cervern, V. and Ferri, F.J., Another move toward the
minimum consistent subset: A tabu search approach to the
condensed nearest neighbour rule, IEEE Trans. Syst. Man
Cybern. Part B 31(3), pp 408 - 413, (2201).
[Chapelle, 2006] Chapelle, O., Chi, M. and Zien, A., A continuation method for
semi-supervised SVMs. ICML.06, 23rd International
Conference on Machine Learning. Pittsburgh, USA.
188
Referencias Bibliogrficas
[Chen, 1996] Chen, C.H and Jzwik, A., A sample set condensation
algorithm for the class sensitive artificial neural network,
Pattern Recognition Letters, N17, pp 819 - 823, (1996).
[Collobert, 2006] Collobert, R., Weston, J. and Bottou, L., Trading convexity
for scalability. ICML06, 23rd International Conference on
Machine Learning. Pittsburgh, USA.
[Cover, 1997] Cover, T.M and Hart, P.E., Nearest neighbour pattern
classification, IEEE Trans. On Information Theory IT - 13,
pp 21 - 27, (1967).
189
Referencias Bibliogrficas
[Dempster, 1977] Dempster, A., Laird, N. and Rubin, D., Maximum likelihood
from incomplete data via the EM algorithm. Journal of the
Royal Statistical Society, Series B, (1997).
[Devijver, 1980] Devijver, P.A. and Kittler, J., On the edited nearest
neighbour rule, In Proc. Of the 5th International Conference
on Pattern Recognition pp 72 - 80, (1980).
[Duda, 1973] Duda, R.O. and Hart, P.E., Pattern Classification, and Scene
Analysis. John Wiley & Sons, New York, (1973).
[Ferri, 1992a] Ferri, F.J. and Vidal, E., Small sample size effects in the use
of editing techniques, In Proc. Of the 11th. International
Conference on Pattern Recognition, pp 607 - 610, (1992).
[Ferri, 1992b] Ferri, F.J. and Vidal, E., Comparison of several editing and
condensing techniques for colour image segmentation and
object location, In Pattern Recognition and Image Analysis,
Series in Machine Perception and Artificial Intelligence,
World Scientific (1992).
[Ferri, 1999] Ferri, F.J., Albert, J.V.and Vidal, E., Considerations about
sample size sensitive of a family of edited nearest-
neighbour rules, IEEE Trans. on Sytems. Man, and
Cybernetics Part B. Cybernetics 29, pp 667 - 672, (1999).
190
Referencias Bibliogrficas
[Gabriel, 1969] Gabriel, K.R. and Sokal, R.R., A new statistical approach to
geographic variation analysis, Systematic Zoology 18, pp
259 - 278, (1969).
[Gates, 1972] Gates, G.W., The reduced nearest neighbour rule, IEEE
Trans. on Information Theory IT-18, pp 431 - 433, (1972).
[Hart, 1968] Hart, P.E., The condensed nearest neighbor rule, IEEE Trans.
on Information Theory IT-14, pp 515 - 516, (1968).
[Hellman, 1970] Hellman, M., The nearest neighbour classification rules with
a reject option, IEEE Trans. on Systems, Man and
Cybernetics SMC-6, pp 179 - 185, (1970).
[Ho, 1994] Ho, T.K., Hull J.J. and Srihari., Decision combination in
multiple classifier system, IEEE Trans. on Pattern Analysis
and Machine Intelligence PAMI-16, pp 66 - 75, (1994).
[Holub, 2005] Holub, A., Welling, M. and Perona, P., Exploting unlabelled
data for hybrid object classification. Workshop in Inter
Class Transfer. NIPS 2005.
[Jones, 2005] Jones, R., Learning to extract entities from labelled and
unlabeled text. (Technical Report CMU-LTI-05-191).
Carnegic Mellon University. Doctoral Dissertation.
191
Referencias Bibliogrficas
[Kohonen, 1990a] Kohonen, T., The self-organizing map, Proc. Of the IEEE
78, pg 1464 - 1480, (1990).
[Kuncheva, 1995] Kuncheva, L.I., Editing for the k-nearest neighbors rule by a
genetic algorithm, Pattern Recognition Letters 16, pp 809 -
814 (1995).
[Kuncheva, 1999] Kuncheva, L.I. and Jain L.C., Nearest neighbour classifier:
simultaneous editing and feature selection, Patt.
Recognition. Letter 20, pp 1149 - 1156, (1999).
[Maeireizo, 2004] Maeireizo, B., Litman, D. and Hwa, R., O-training for
predicting emotions with spoken dialogue data. The
Companion Proceeding of the 42nd Annual Meeting of the
Association for Computational Linguistics (ACL) (2004).
192
Referencias Bibliogrficas
[Merz, 1996] Merz. C.J. and Murphy, P.M., UCI Repository of Machine
Learning Databases, University of California Irvine, (1996).
[Mollineda, 2002] Mollineda. R.A., Ferri, F.J. and Vidal, E., An efficient
prototype merging strategy for the condensed 1-NN rule
through class-conditional hierarchical clustering, Pattern
Recognition 35, pp 2771 - 2782, (2002).
[Nigam, 2000] Nigam, K. and Ghani, R., Analyzing the effective and
applicability of co-training. Ninth International Conference
on Information and knowledge management, pp 86 - 93,
(2000).
[Olvera, 2005] Olvera, J.A. and Martinez, F.T., Edition schemes based on
BSE, Lectura Note in Computer Science, Progress in Pattern
Recognition Image Analysis and Applications, 10th
Iberoamerican Congress on Pattern Recognition, CIARP, pp
360 - 368, (2005).
[Penrod, 1977] Penrod, C.S. and Wagner, T.J., Another look at the edited
nearest neighbour rule, IEEE Trans. on Systems, Man and
Cybernetics SMC-7, pp 92 - 94, (1997).
[Riloff, 2003] Riloff, E., Wiebe, J. and Wilson, T., Learning subjective
nouns using extraction pattern bootstrapping. Proceeding of
the Seventh Conference on Natural Language Learning
(CONLL) (2003).
[Ritter, 1975] Ritter, G.L., Woodruff, H.B., Lowry, S.R. and Isenhur, T.L.,
An algorithm for selective nearest neighbour decision rule,
IEEE Trans. Inform. Th. 21(6), pp 665 - 669, (1975).
193
Referencias Bibliogrficas
[Snchez, 1997a] Snchez, J.S., Pla, F. and Ferri, F.J., On the use of
neighbourhood-based non-parametric classifier, Pattern
Recognition Letters, (1997).
[Snchez, 1997b] Snchez, J.S., Pla, F. and Ferri, F. J., Using the nearest
centroid neighbourhood concept for editing purposes, In
Proc.VII Symposium National de Reconocimiento de
Formas y Anlisis de Imgen 1, pp 175 - 180, (1997).
[Snchez, 1997c] Snchez, J. S., Pla, F. and Ferri, F. J., Prototype selection for
the nearest neighbour rule through proximity graphs, Pattern
Recognition Letters 18, pp 507 - 513, (1997).
[Snchez, 1997d] Snchez, J.S., Pla, F. and Ferri, F. J., On the equivalency
between decisiontree classifiers and the nearest neighbour
rule, In Proc.7a. Conferencia de la Asociacin Espaola para
la Inteligencia Artificial, pp197 - 206, (1997).
[Snchez, 2003] Snchez, J. S., Barandela, R., Marqus, A. I., Alejo, R. and
Badenas, J., Analysis of new techniques to obtain quality
training sets, Pattern Recognition Letters, Vol. 24, Nmero
7, pp 1015 - 1022, (2003).
[Short, 1981] Short, R.D. and Fukunaga, K., The optimal distance
measure for nearest neighbour classification, IEEE Trans.
on Information Theory IT-27, pp 622 - 627, (1981).
[Sindhwani, 2006] Sindhwani, V. and Niyogi, P., Large scale semi supervised
linear SVMs, SIGIR (2006).
194
Referencias Bibliogrficas
[Tomek, 1976] Tomek, I., Two modification of CNN, IEEE Trans. Syst.
Man Cybern. 7(2), pg 769 - 772, (1976).
[Tomek, 1976a] Tomek, I., An experiment with the edit nearest neighbour
rule, IEEE Tans. on Systems, Man and Cybernetics SMC-6,
pp 448 - 452, (1976).
[Tomek, 1976b] Tomek, I., A generalization of the k-NN rule, IEEE Tans.
On Systems Man and Cybernetics SMC-6, pp 121 - 126,
(1976).
[Toriwaki, 1988] Toriwaki, J.I and Yokoi, S., Voronoi and related neighbors
on digitized two dimensional spaces with application to
texture analysis, In Computational Morphology. G.T.
Toussaint (ed), Elsevier Science, North-Holland,
Amsterdam, pp 207 - 228, (1988).
[Tou, 1974] Tou, J.T. and Gnzlez, R.C., Patter Recognition Principles.
Addinson Wesley, Reading, Massachusetts (1974).
195
Referencias Bibliogrficas
[Wilson, 2000] Wilson, D.R. and T.R. Martinez, Reduction techniques for
instance based learning algorithms, Mach Learn 38, pp 257 -
286, (2000).
[Zhou, 2005b] Zhou, Z. and Li, M., Tri-training exploiting unlabeled data
using three classifiers. IEEE Transactions on Knowledge
and data Engineering, 17, pp 1529 - 1541, (2005).
196