You are on page 1of 220

Departament de Llenguatges I Sistemas Informtics

Universitat Jaume I

Algoritmos de Aprendizaje Continuo Mediante


Seleccin de Prototipos para Clasificadores Basados en
Distancias

Tesis Doctoral

Presentada por:

Fernando Daniel Vzquez Mesa

Dirigida por:

Dr. J. Salvador Snchez Garreta


Dr. Filiberto Pla Baon

Castelln, Febrero de 2008


El mundo del hombre contemporaneo se
funda sobre los resultados de la ciencia: el
dato reemplaza al mito, la teora a la
fantasa, la prediccin a la profeca.
Mario Bunge.
Resumen

Los algoritmos de clasificacin supervisada operan usualmente sobre la informacin


suministrada por un conjunto de muestras, un conjunto de patrones, ejemplos o
prototipos de entrenamiento que se consideran representantes todos de clases relevantes
y los mismos poseen una etiqueta de clase correcta. Los algoritmos no supervisados a
diferencia de los anteriores, no disponen del conjunto de entrenamiento y, valindose de
algoritmos de agrupamiento, construyen el conjunto de entrenamiento.

Sin embargo, en el mundo real los cambios son constantes; y la forma tradicional en
que trabaja un clasificador no considera la modificacin paulatina del conocimiento que
ste posee, es decir, el clasificador es entrenado para reconocer un tipo de objetos de
inters, despus es probada su precisin y, finalmente, es puesto en produccin, hasta
que se tiene la necesidad de volver a entrenar al clasificador debido a que se ha perdido
la buena precisin de ste. Para tratar de resolver esta dificultad, en la dcada de los
aos 90 en diversos trabajos [Bensaid, 1996], [Castelli, 1995], [Nigam, 2000], surgen
los algoritmos parcialmente supervisados, los cuales representan un cierto compromiso
entre los algoritmos supervisados y los no supervisados, siendo capaces de emplear
tanto objetos etiquetados como no etiquetados en la fase de clasificacin de nuevos
objetos. Una propuesta de estos algoritmos son los algoritmos denominados de
Aprendizaje Continuo, los que se pueden definir como el conjunto de mtodos y
tcnicas que permiten a un sistema de Reconocimiento de Patrones la incorporacin de
nuevos conocimientos a lo largo de su funcionamiento, es decir, beneficiarse de la
experiencia adquirida durante la clasificacin de nuevas muestras.

Entre algunas de las principales ventajas de utilizar un sistema de aprendizaje


continuo podemos mencionar las siguientes: el clasificador es ms robusto porque los
errores u omisiones en el conjunto de entrenamiento inicial pueden ser corregidos
durante la fase de clasificacin (o funcionamiento real del sistema), el sistema puede ser
capaz de adaptarse a entornos cambiantes.

Dentro de este contexto, la presente tesis presenta una nueva regla de clasificacin
basada en distancia, que tiene en cuenta la probabilidad de pertenencia a la clase de cada
uno de los vecinos ms cercanos a la muestra x, utilizando esta regla de clasificacin y,
el esquema de edicin de Wilson, presentamos un algoritmo de edicin estocstico e
implementamos una opcin de rechazo con esta caracterstica. La principal ventaja de
estos algoritmos es que los porcentajes de reduccin de la talla del conjunto de
entrenamiento son superiores a los esquemas de edicin tradicionales.

Tambin en este trabajo con el objetivo de reducir la talla del conjunto de


entrenamiento, valindonos de una funcin de densidad local hemos desarrollamos
tcnicas de condensado estocstico, que nos servirn para controlar la talla del conjunto
de entrenamiento, estos algoritmos han sido comparado con diferentes tcnicas de
Resumen

reduccin de la talla del conjunto de entrenamiento, obteniendo resultados


satisfactorios.

Finalmente, la mayor contribucin de esta tesis, esta dirigida al diseo y la


evaluacin de un algoritmo de aprendizaje continuo, que no solamente pueda aprender
con objetos etiquetados, sino tambin beneficiarse de la experiencia obtenida cuando
clasifica nuevos objetos no etiquetados. Una meta bsica de nuestro algoritmo es hacer
el procedimiento de aprendizaje continuo tan automtico como sea posible incorporando
nuevos ejemplos en el conjunto de entrenamiento despus que han sido etiquetados por
el propio sistema.

En la fase de clasificacin, hemos utilizado la regla estocstica antes mencionada,


como clasificador central dentro de este algoritmo. Sin embargo, este procedimiento
pudiera deteriorar la ejecucin de nuestro sistema por la inclusin en el conjunto de
entrenamiento de objetos mal clasificados. Con el objetivo de minimizar estos errores
empleamos diferentes algoritmos de edicin estocsticos para filtrar y descartar aquellos
patrones mal clasificados y, por ltimo para controlar la talla del conjunto de
entrenamiento, son empleado los esquemas de condensado que utilizan una funcin de
densidad local para extraer aquellas muestras que pertenezcan a zonas de alta densidad
de objetos en el conjunto de entrenamiento.

vi
Abstract
Supervised classification algorithms usually operate on the information provided by a
set of samples, a set of patterns, examples or training prototypes that are all considered
representatives of relevant classes and have a correct class label. Unsupervised
algorithms, unlike the previous ones, do not have a training set, and using clustering
algorithms, build the training set.
But, in the real world, changes are constant, and the traditional way in which a
classifier works does not consider the gradual modification of the knowledge that it
possesses, i.e., classifier is trained to recognize a kind of objects of interest, then it is
tested for accuracy and finally, it is put into production, until there is the need to re-train
the classifier because its performance has degraded. To address this difficulty, in the
decade of the 90s, there appear several works on supervised learning [Bensaid,1996],
[Castell, 1995], [Nigam, 2000], which represent a true trade-off between the supervised
and unsupervised algorithms, being able to use both labelled and unlabelled objects in
the phase of classification of new objects. Within this scenario, a proposal refers to the
Ongoing Learning, which can be defined as a set of methods and techniques that allow
the incorporation of new knowledge in the system, i.e., to benefit from the experience
stored during the classification of new samples.
Among the main advantages of using an ongoing learning system, we can mention
the following: the classifier is more robust because errors or omissions in the initial
training set can be corrected during the phase of classification, and also the system may
be able to adapt to changing environments.
Within this context, this Ph.D. Thesis presents a new distance-based classification
rule, which takes into account the probability of belonging to the class of each one of
the nearest neighbours of the sample x. By using this classification rule and the
Wilsons editing scheme, we present a new stochastic editing algorithm and implement
a reject option with this feature. The main advantage of these algorithms is that the
percentage of training set size reduction is superior to that of traditional editing
schemes.
Also in this work, with the aim of reducing the training set size, using a local density
function we develop stochastic condensing techniques, which will help us to control the
size of the training set. These algorithms have been compared with different reduction
techniques, obtaining successful results.
Finally, the main contribution of this Ph.D. Thesis is adressed to the design and
evaluation of an ongoing learning algorithm, which not only can learn from labelled
patterns, but also benefit from the experience obtained when classifying new unlabelled
objects. A basic goal of our algorithm is to make the ongoing learning process as
automatic as possible incorporating new examples in the training set after they have
been labelled by the system itself.
In the classification phase, we have used the stochastic rule above mentioned as the
central classifier within this algorithm. However, this procedure could deteriorate the
Abstract

performance of our system due to the inclusion in the training set of misclassified
objects. In order to minimize these errors, we employ different stochastic editing
algorithms to filter and discard those misclassified patterns and finally, to control the
size of the new training set, we use condensing schemes based on a local density
function to extract those samples that belong to regions of high density of objects in the
training set.

viii
Agradecimientos
Esta memoria de Tesis Doctoral no puede considerarse ms que el resultado de un arduo
trabajo que empez hace ahora cuatro aos, cuando un grupo de profesores de la
Universidad Jaumel I fueron a la ciudad de Santiago de Cuba y comenzaron a impartir
los cursos de Doctorado. Desde aquellos primeros das y hasta alcanzar este primer
objetivo, se han necesitado muchas horas de lectura y estudio, de anlisis, de diseo e
implementacin, de experimentacin y, finalmente, de redaccin. En este momento es
cuando realmente te das cuenta que son muchas las personas que, en mayor o menor
medida, han contribuido a la culminacin de esta tesis. Unas proporcionndote valiosas
sugerencias, ideas y crticas, otras ofrecindote su generoso apoyo moral.
De este modo, en primer lugar, deseara expresar mi ms sincero agradecimiento a
los directores de esta tesis, Jos Salvador Snchez Garreta y Filiberto Pla, que en primer
lugar sin conocerme accedieron a que trabajara con ellos en su lnea de investigacin.
Luego me han brindado una magnifica atencin tanto en el plano cientfico como
personal, y por haberme ayudado tambin a introducirme en este fascinante mundo de la
investigacin.
Tampoco debo olvidarme de una larga lista de personas que, sin ser conscientes de
ello, han conseguido despertar en m el inters por el Reconocimiento de Formas a
partir de sus excelentes artculos o de sus brillantes ponencias. Muchos han sido
referenciados en las pginas de cada captulo. A todos ellos se les debe mucho por sus
contribuciones a este campo que evoluciona tan vertiginosamente.
De igual manera, sera injusto por mi parte si no recordara aqu a los dems
compaeros del Departamento de Lenguajes y Sistemas Informtico de esta Universidad
porque, en cierto modo, tambin ellos han participado en mi formacin, no slo como
investigador, sino tambin como persona. En particular, debera mencionar a Pablo
Boronat, Ricardo Quirs, German Fabregat, Jos Sotoca, por todas las atenciones que
han tenido conmigo en las distintas estancias realizadas aqu en el departamento.
Quiero tambin escribir aqu unas palabras de cariosa gratitud para mi familia y, de
forma muy especial, para mis padres, aunque uno de ellos no est fisicamente conmigo,
ya que con su esfuerzo y trabajo han puesto todo su empeo para que yo hoy tenga aqu
el enorme privilegio de presentar esta tesis.
Finalmente, destacar el reconocimiento ms importante para la persona ms
importante de mi vida, mi esposa Damaris Pascual, a ella dedico por completo este
trabajo, debido a que constantemente me brind todo su apoyo para que consiguiera este
objetivo. A mis dos hijos Fernando y Dayami, todo mi amor y agradecimiento por
tolerarme pacientemente en los momentos en que hemos estado solos en la casa y los
que he faltado de la casa por estar aqu en la UJI. Mi esposa querida y mis hijos fueron
en realidad, mi inspiracin, mi estmulo, mi impulso, mi pasin y a ellos tres est
dedicado por completo este trabajo.
Prlogo

Un aspecto importante de la actividad humana lo constituye el continuo inters por el


diseo y desarrollo de herramientas y mquinas (entendidas en su sentido ms amplio)
con la finalidad de disminuir el esfuerzo fsico y/o realizar procesos ms rpidos y
mejores. Una orientacin de ello, la primera, histricamente se refleja en el desarrollo
de ingenios capaces de posibilitar, reducir o eliminar el esfuerzo en tareas de naturaleza
fsica. La otra orientacin, cualitativamente diferente, es la que se refiere a las mquinas
capaces de procesar informacin.

Los niveles de desarrollo de las sociedades, fundamentalmente en la segunda mitad


del siglo pasado, han conllevado a una explosin en el crecimiento de la cantidad de
informacin generada. Debido a esto, diversos sectores econmicos comenzaron a
mostrar un inters cada vez mayor hacia la manipulacin automatizada de la
informacin, surgiendo de esta manera una rama de la ciencia que es la Informtica,
entendida como la disciplina del tratamiento y la representacin automatizada de la
informacin.

Por la naturaleza de su contenido, el presente trabajo se enmarca dentro de lo que, en


general, se denomina Reconocimiento de Formas o Patrones y ms concretamente, se
centra en el estudio, anlisis y desarrollo de un conjunto de mtodos no paramticos de
clasificacin y aprendizaje supervisado y semi-supervisado. A pesar de ello, podemos
decir que dada la gran diversidad de disciplinas que, de algn modo, intervienen en
todos estos procedimientos, tambin cabra la posibilidad de considerar esta tesis como
un trabajo perteneciente a la disciplina de Inteligencia Artificial.

En particular, esta memoria de Tesis Doctoral incide directamente sobre un conjunto


de tcnicas de clasificacin y aprendizaje basadas en criterios de vecindad sobre
espacios mtricos. En este sentido, la regla del Vecino ms Prximo constituye el
ejemplo ms representativo dentro de esta categora de procedimientos, debido a su
excelente comportamiento terico en el caso asinttico, y tambin a la sencillez de
implementacin y aplicacin, lo que la convierte en un instrumento de gran popularidad
dentro de un contexto genrico de Reconocimiento de Formas. Sin embargo, debemos
sealar tambin que estos esquemas presentan una serie de inconvenientes, derivados
bsicamente de la prdida de efectividad a medida que la cantidad y la calidad de la
informacin que utilizan disminuyen, as como de la complejidad temporal que su
aplicacin puede suponer. Debido a este inconveniente, algunos investigadores llegan
incluso a presentarla como una regla de clasificacin inferior a otras aproximaciones no
paramtricas basadas en desarrollos ms complejos.

A lo largo del presente trabajo, introduciremos un conjunto de mtodos alternativos a


los esquemas clsicos basados en criterios de vecindad, con el objetivo fundamental de
aprovechar no solo la mtrica definida en la vecindad seleccionada, sino adems tener
en cuenta la probabilidad de pertenencia a la clase de los vecinos ms prximos a la
Prlogo

muestra que se desea clasificar. En otras palabras, a lo largo de esta memoria de Tesis
abordaremos un enfoque estocstico de clasificacin, que ser aplicado a los esquemas
de seleccin de prototipos y tambin abordaremos un esquema de aprendizaje continuo
utilizando tcnicas estocsticas. Con las alternativas aqu propuestas tratamos de superar
las deficiencias que acabamos de apuntar, as como las limitaciones inherentes a la
definicin de aquellas reglas de clasificacin y del conjunto de procedimientos que las
utilizan, debido bsicamente a la degradacin de la informacin disponible y a su
elevado coste computacional.

Es importante sealar tambin que, adems de representar una labor de bsqueda y


recopilacin sobre las diferentes reglas de clasificacin basadas en criterios de vecindad
y de un considerable nmero de esquemas de edicin y condensado, esta tesis pretende
fijar un punto de partida para el establecimiento de una serie de conceptos, reglas y
procedimientos con el fin de alcanzar los objetivos bsicos previamente enunciados. Por
ltimo, cabe aadir que los diferentes esquemas presentados en cada uno de los
apartados sern empricamente comparados con las principales tcnicas convencionales,
en aras de evaluar y valorar las ventajas e inconvenientes del comportamiento exhibido
por cada uno de ellos.

La presente memoria de Tesis Doctoral se presenta estructurada en tres mdulos


principales. El primero de ellos estar destinado, ntegramente, a la introduccin de los
fundamentos tericos, necesarios para disponer de una visin global sobre el problema
que vamos a tratar. En la segunda parte, se encuentran las aportaciones de este trabajo,
tanto en lo referente a la definicin de los nuevos conceptos, mtodos y algoritmos, as
como la experimentacin y los resultados obtenidos por cada uno de los mtodos que
aqu hemos desarrollado. Por ltimo, la tercera parte de la memoria recoger las
principales conclusiones que se pueden extraer de los resultados mostrados, as como
las posibles extensiones a considerar en trabajos futuros.

xii
ndice General

Parte I. Introduccin y Fundamentos


Tericos

Captulo 1. Introduccin

1. Contexto.......................................................................................................................3
2. Motivacin y Objetivos Generales ..............................................................................7
3. Organizacin de la Memoria de la Tesis .....................................................................8

Captulo 2. Tcnicas de Clasificacin basadas en Criterios de Vecindad

1. Introduccin...............................................................................................................11
2. Formulacin General de un Problema de Clasificacin ............................................12
2.1. Distancias o mtricas..........................................................................................13
3. Fundamentos Estadsticos .........................................................................................16
4. Clasificador Naive Baye............................................................................................18
5. Clasificadores no Parametricos .................................................................................19
5.1. Clasificador de Distancia Mnima......................................................................19
5.2. Regla del Vecino ms Cercano ..........................................................................20
5.3. Regla de los k vecinos ms cercanos..................................................................21
5.4. Regla k-NN con Rechazo ...................................................................................24
6. Clasificadores Basados en el Concepto de Vecindad Envolvente.............................25
6.1. Vecindad de Centride ms Prximo...................................................................27
6.2. Regla de Clasificacin k-NCN ...........................................................................29
6.3. Clasificacin por Grafos de Proximidad ............................................................30

Captulo 3. Tcnicas de Filtrado de las Muestras de Aprendizaje

1. Introduccin...............................................................................................................33
2. Algoritmos de Edicin...............................................................................................34
2.1. Taxonomas de los Algoritmos de Edicin ........................................................35
3. Algoritmo de Edicin de Wilson ...............................................................................37
3.1. Edicin Repetitiva ..............................................................................................38
3.2. Edicin con Rechazo ..........................................................................................39
ndice General

3.3. Edicin con Reetiquetado...................................................................................39


4. Edicin por Particin .................................................................................................40
4.1. Algoritmo Multiedicin......................................................................................41
4.2. Edicin por Validacin Cruzada ........................................................................42
4.3. Multiedicin por Validacin Cruzada ................................................................43
5. Edicin por Vecindad de Centroide ms Prximo ....................................................43
6. Edicin Basada en Grafos de Proximidad .................................................................45
7. Algoritmos de Edicin Basados en Instancias...........................................................47
8. Algoritmo DROP (Decremental Reduction Optimization Procedure)......................48
9. Algoritmo ICF (Iterative Case Filtering)..................................................................50
10. Algoritmo de Edicin Generalizada ..........................................................................51
11. Algoritmo BSE (Backward Sequential Edition .........................................................52
12. Esquemas que Utilizan el Algoritmo BS...................................................................53

Captulo 4. Tcnicas de Reduccin del Conjunto de Entrenamiento

1. Introduccin...............................................................................................................55
2. Algoritmo Condensado de Hart.................................................................................56
2.1. Algoritmo de Condensado Reducido .................................................................57
3. Algoritmo Condensado de Tomek.............................................................................58
4. Condensado de Chen .................................................................................................59
5. Condensado Adaptativo. Mtodo por Cuantificacin Vectorial ( LVQ) ..................61
6. Algoritmo Subconjunto Selectivo .............................................................................64
7. Algoritmo Subconjunto Selectivo Modificado..........................................................67

Captulo 5. Aprendizaje Parcialmente Supervisado

1. Introduccin...............................................................................................................69
2. Modelos Generativos.................................................................................................70
3. Auto-Entrenamiento. (Self-training, bootstrapping) .................................................71
4. Co-Entrenamiento......................................................................................................71
5. Mquinas de Vector Soporte Semi-Supervisadas......................................................73
5.1. Regularizacin de la Informacin ......................................................................74
6. Mtodos basados en Grafos.......................................................................................74
6.1. Regularizacin por Grafo ...................................................................................75
7. Teora del Aprendizaje Computacional.....................................................................75
8. Algoritmo Parcialmente Supervisado Utilizando Tcnicas de Seleccin de
Prototipos...................................................................................................................76
Conclusiones. Introduccin y Fundamentos Tericos.....................................................78

xiv
ndice General

Parte II. Aportaciones y Anlisis


Comparativo

Captulo 6. Reglas de Clasificacin Estocsticas

1. Introduccin...............................................................................................................83
2. Ventanas de Parzen....................................................................................................84
3. Regla de los k Vecinos ms Cercanos .......................................................................89
4. Regla de Clasificacin Estocstica ............................................................................90
5. Regla de Clasificacin Estocstica con Rechazo ......................................................94
6. Regla k-NCN Estimando las Probabilidades de Clases.............................................95
7. Resultados Experimentales Utilizando Reglas de Clasificacin Estocsticas...........96
7.1. Reglas de Clasificacin con Rechazo.................................................................99
8. Conclusiones............................................................................................................103

Captulo 7. Algoritmos de Edicin Estocsticos

1. Introduccin.............................................................................................................105
2. Algoritmo de Edicin de Wilson Estocstico (Wilson-prob)..................................105
2.1. Algoritmo de Edicin Estimando probabilidades de Clases y Umbral ............107
3. Edicin Estocstica Utilizando la Regla k- NCN ......................................................109
4. Edicin Repetitiva Utilizando Probabilidades de Clases ........................................111
5. Resultados Experimentales con Reglas de Edicin Estocsticas ............................112
5.1. Esquema Estocstico de Wilson y Wilsoncn ...................................................112
5.2. Resultados Correspondientes a la Edicin Estocstica Repetitiva...................121
5.3. Esquema de Wilson y Wilsoncn con Reetiquetado..........................................123
5.4. Esquemas de Edicin por Particiones ..............................................................125
6. Conclusiones............................................................................................................126

Captulo 8. Tcnicas de Condensado Basadas en Densidad Local

1. Introduccin.............................................................................................................129
2. Algoritmos de Condensado Estimando Densidades Locales ..................................130
3. Resultados Experimentales con los Algoritmos de Condensado Basados en
Densidad ..................................................................................................................135
3.1. Algoritmos de Condensado Dens(R) y Dens(K) ..............................................135
3.2. Tcnicas de Reduccin de la Talla del Conjunto de Entrenamiento................139
4. Conclusiones............................................................................................................146

xv
ndice General

Captulo 9. Filtrado de la Muestra de Entrenamiento en Aprendizaje


Parcialmente Supervisado

1. Introduccin.............................................................................................................149
2. Algoritmo de Aprendizaje Continuo Utilizando Probabilidades de Clase ..............150
3. Tcnicas de Condensado Utilizando Funciones de Densidad Aplicadas al
Aprendizaje Continuo..............................................................................................154
4. Resultados Experimentales de los Algoritmos de Aprendizaje Continuo...............156
4.1. Resultados Experimentales Incorporando Tcnicas de Condensado Basado en
Densidades Locales ..........................................................................................159
4.2. Comparacin de Algoritmos Referente al Control de la Talla del Conjunto de
Entrenamiento ..................................................................................................163
4.3. Control de la Talla del Conjunto de Entrenamiento en Cada Iteracin Utilizando
Dens(K2)- Variante 2 .......................................................................................165
4.4. Comparacin entre Ap-Dens(K2)-V1 y Ap-Dens(K2)-V2 ..............................168
5. Conclusiones............................................................................................................171

Parte III. Conclusiones y Lneas Futuras

Captulo 10. Conclusiones Finales

1. Principales Aportaciones .........................................................................................177


2. Posibles Extensiones ...............................................................................................178

Anexos

A. Descripcin de las Bases de Datos Utilizadas en los Experimentos ........................181

Bibliografa

Referencias Bibliogrficas.............................................................................................187

xvi
ndice de Tabla

Tablas del Captulo 6

Tabla 1. Un breve sumario de las bases de datos utilizadas en los experimentos ...........97
Tabla 2. Porcentaje de clasificacin, desviacin tpica diferencias de porcentajes y
ranking comparando los clasificadores k-NN y k-NN-prob ............................................98
Tabla 3. Porcentaje de clasificacin, desviacin tpica porcentajes de muestras
rechazadas usando clasificadores con opciones de rechazo ..........................................100
Tabla 4. Porcentaje de clasificacin, desviacin tpica diferencias de porcentajes,
ranking y opciones de rechazo, utilizando los clasificadores k-NCN y k-NCN-prob ...101

Tablas del Captulo 7

Tabla 5. Porcentaje de clasificacin y reduccin del conjunto de entrenamiento usando


diferentes algoritmos de edicin....................................................................................113
Tabla 6. Test de Friedman correspondiente a porcentaje de clasificacin ....................115
Tabla 7. Test de Friedman correspondiente a reduccin de la talla del conjunto de
entrenamiento ................................................................................................................115
Tabla 8. Porcentajes de clasificacin y reduccin del conjunto de entrenamiento, usando
diferentes algoritmos de edicin....................................................................................118
Tabla 9.Porcentajes de clasificacin y reduccin del conjunto de entrenamiento, usando
diferentes algoritmos de edicin con regla de edicin k-NCN, k-NCN-prob, k-NCN-
prob-umb-var y k-NCN-prob-umb ................................................................................119
Tabla 10. Test de Friedman correspondiente a porcentajes de clasificacin.................120
Tabla 11. Test de Friedman correspondiente a reduccin de la talla del conjunto de
entrenamiento ................................................................................................................121
Tabla 12. Resultado del esquema repetitivo de Wilson ................................................122
Tabla 13. Resultado del esquema repetitivo de Wilsoncn.............................................123
Tabla 14. Resultado de los algoritmos de edicin con reetiquetado (Wilson) ..............124
Tabla 15. Resultado de los algoritmos de edicin con reetiquetado (Wilsoncn) ..........124
Tabla 16. Resultado de la comparacin entre esquemas por particin y sus esquemas
estocsticos ....................................................................................................................125

Tablas del Captulo 8

Tabla 17. Porcentaje de clasificacin con algoritmo condensado Dens(R)...................135


ndice de Tabla

Tabla 18. Porcentaje de clasificacin con algoritmos de condensado basados en


densidad .........................................................................................................................136
Tabla 19. Coeficiente de reduccin utilizando algoritmos de condensado basados en
densidad .........................................................................................................................137
Tabla 20. Porcentaje de clasificacin utilizando tcnicas de reduccin........................139
Tabla 21. Porcentaje de clasificacin utilizando tcnicas de reduccin........................140
Tabla 22. Porcentaje de clasificacin utilizando tcnicas de reduccin........................140
Tabla 23. Porcentaje de reduccin utilizando tcnicas de condensado .........................141
Tabla 24. Porcentaje de reduccin utilizando tcnicas de condensado .........................141
Tabla 25. Porcentaje de reduccin utilizando tcnicas de condensado .........................141

Tablas del Captulo 9

Tabla 26. Divisin de las bases de datos utilizadas para realizar los experimentos......156
Tabla 27. Diferentes algoritmos de aprendizaje continuo .............................................157

xviii
ndice de Figuras

Figuras del Captulo 1

Figura 1. Elementos de un sistema de Reconocimiento de Patrones.................................4


Figura 2. Diseo de un sistema de Reconocimiento de Patrones ......................................5

Figuras del Captulo 2

Figura 3. Desempeo de la regla k-NN ...........................................................................23


Figura 4. Comparacin entre diferentes clasificadores ...................................................23
Figura 5. Ejemplo del concepto NCN .............................................................................29

Figuras del Captulo 3

Figura 6. Clasificacin k-NN usando el conjunto completo y editado............................35


Figura 7. Estrategia de edicin incremental ....................................................................36
Figura 8. Estrategia de edicin decremental....................................................................36

Figuras del Captulo 4

Figura 9. Metodologa de esquema LVQ ........................................................................64

Figuras del Captulo 5

Figura 10. Esquema general de aprendizaje continuo .....................................................77

Figuras del Captulo 7

Figura 11. Comparacin de algoritmos de edicin en las bases de datos Balance, Cancer
y Diabetes ......................................................................................................................116
ndice de Figura

Figura 12. Comparacin de algoritmos de edicin en las bases de datos German y


Satimage ........................................................................................................................117
Figura 13.Grficas correspondientes a resultados de la Tabla 8 ...................................118
Figura 14. Grficas correspondientes a resultados de la Tabla 8 ..................................119

Figuras del Captulo 8

Figura 15. Grficas comparacin de algoritmos basados en densidad para las bases de
datos Australian, Balance, Cancer y Diabetes...............................................................137
Figura 16. Grficas comparacin de algoritmos basados en densidad para las bases de
datos Heart y Liver ........................................................................................................138
Figura 17. Comparacin de algoritmos basados en densidad para las bases de datos
Phoneme, Satimage, Texture e Iris................................................................................138
Figura 18. Comparacin de algoritmos basados en densidad para las bases de datos Led-
Creator y Wine...............................................................................................................139
Figura 19. Comparacin entre diferentes tcnicas para reducir la talla del conjunto de
entrenamiento ................................................................................................................142
Figura 20. Comparacin entre diferentes tcnicas para reducir la talla del conjunto de
entrenamiento ................................................................................................................143
Figura 21. Comparacin entre diferentes tcnicas para reducir la talla del conjunto de
entrenamiento ................................................................................................................143
Figura 22. Comparacin entre diferentes tcnicas para reducir la talla del conjunto de
entrenamiento ................................................................................................................144
Figura 23. Comparacin entre diferentes tcnicas para reducir la talla del conjunto de
entrenamiento ................................................................................................................145
Figura 24. Grficas donde se muestran los resultados de la Tabla de rangos
correspondiente a porcentajes de clasificacin y coeficiente de reduccin...................146

Figuras del Captulo 9

Figura 25. Esquema de aprendizaje continuo utilizando probabilidades de clases .......152


Figura 26. Algoritmos de clasificacin y edicin utilizados .........................................153
Figura 27. Esquema de aprendizaje continuo utilizando condensado por densidades ..155
Figura 28. Resultado de los algoritmos con las bases datos Cancer y Heart.................157
Figura 29. Resultados de los algoritmos con las bases Diabetes, German, Phoneme,
Satimage y Australian....................................................................................................158
Figura 30. Resultado del aprendizaje continuo utilizando algoritmo de condensado
Dens(K)..........................................................................................................................161
Figura 31. Resultado del aprendizaje continuo utilizando algoritmo de condensado
Dens(K)..........................................................................................................................162
Figura 32. Resultado de comparar Ap-Dens(K), Ap-Dens(K2), Ap-Edicin..................163
Figura 33. Resultado de comparar Ap-Dens(K), Ap-Dens(K2), Ap-Edicin..................164
Figura 34. Resultado de comparar Ap-Dens(K), Ap-Dens(K2), Ap-Edicin..................165
Figura 35. Resultado de comparar Ap-Dens(K), Ap-Dens(K2), Ap-Edicin..................165

xx
ndice de Figura

Figura 36. Resultado del aprendizaje continuo (variante 2) utilizando condensado


Dens(K2)........................................................................................................................166
Figura 37. Resultado del aprendizaje continuo (variante 2) utilizando condensado
Dens(K2)........................................................................................................................167
Figura 38. Resultado del aprendizaje continuo (variante 2) utilizando condensado
Dens(K2)........................................................................................................................168
Figura 39. Resultados de comparar los algoritmos de aprendizaje continuo Ap-
Dens(K2)-V1 y Ap-Dens(K2)-V2 ..................................................................................169
Figura 40. Resultados de comparar los algoritmos de aprendizaje continuo Ap-
Dens(K2)-V1 y Ap-Dens(K2)-V2 ..................................................................................169
Figura 41. Resultados de comparar los algoritmos de aprendizaje continuo Ap-
Dens(K2)-V1 y Ap-Dens(K2)-V2 ..................................................................................170
Figura 42 Resultados de comparar los algoritmos de aprendizaje continuo Ap-Dens(K2)-
V1 y Ap-Dens(K2)-V2 ...................................................................................................170

xxi
Notacin
Conjunto de prototipos .....................................................................................................X
Prototipo i-simo del conjunto X ..................................................................................... xi
Talla del conjunto de prototipos ....................................................................................... N
Cantidad de bases de datos ...............................................................................................N
Conjunto de las clases de un problema.............................................................................
Nmero de clases............................................................................................................. M
Clase i .............................................................................................................................. wi
Etiqueta de clase asociada al prototipo i-simo................................................................ i
Espacio de Representacin ............................................................................................... E
Funcin distancia...............................................................................................................d
Regla de decisin o clasificacin ......................................................................................
Regla del vecino ms prximo ......................................................................................NN
Cantidad de algoritmos......................................................................................................k
Suma de ranking positivos.............................................................................................. R+
Suma de ranking negativo ............................................................................................... R-
Estimador Wilcoxon Signed Ranks Test ...........................................................................z
Estimador de Fredman.....................................................................................................FF
Valor o talla de la vecindad ...............................................................................................k
k-Vecindad ms prxima de la muestra x................................................................... Vk(x)
Regla de los k-vecinos ms cercanos..........................................................................k-NN
Regla de los (k,l)-vecinos ms prximos............................................................... (k,l)-NN
Regla de los (k,li)-vecinos ms prximos ............................................................. (k,li)-NN
Regla de los (k,m)-vecinos ms prximos ........................................................... (k,m)-NN
Regla de los (k,m,k)-vecinos ms prximos ....................................................(k,m,k)-NN
Grafos formados por el conjunto de nodos V y el conjunto de arcos.................. AG(V,A)
Grafo de Gabriel ............................................................................................................GG
Grafo de vecindad relativa.......................................................................................... RNG
Hiperesfera de influencia entre p y q.............................................................................p,q
Hiperluna de influencia entre p y q ...............................................................................p,q
Vecindad envolvente de Gabriel de la muestra x ................................................... VEG(x)
Vecindad envolvente relativa de la muestra x ........................................................ VER(x)
Regla de clasificacin estocstica...............................................................................k-prob
Opcin de rechazo estocstica.............................................................................. k-prob-umb
Variante de opcin de rechazo estocstica .......................................................k-prob-umb-var
Regla de clasificacin NCN estocstica .............................................................. k-NCN-prob
Opcin de rechazo NCN estocstica ..............................................................k-NCN-prob-umb
Variante de opcin de rechazo estocstica ................................................ k-NCN-prob-umb-var
Parte I

Introduccin y

Fundamentos Tericos
Captulo 1

Introduccin

1. Contexto

Siguiendo la definicin de Watanabe [Wat, 1985], un patrn es una entidad a la que se


le puede dar un nombre y que est representada por un conjunto de propiedades
medibles (mesurables) y las relaciones entre ellas (vector de caractersticas). Por
ejemplo, un patrn puede ser una seal sonora y su vector de caractersticas, el conjunto
de coeficientes espectrales extrados de ella (espectrograma). Otro ejemplo podra ser
una imagen de una cara humana de las cuales se extrae el vector de caractersticas
formado por un conjunto de valores numricos calculados a partir de la misma. El
reconocimiento automtico, descripcin, clasificacin y agrupamiento de patrones son
actividades importantes en una gran variedad de disciplinas cientficas, como biologa,
psicologa, medicina, geologa, visin por computador, inteligencia artificial,
teledeteccin, entre otras.

En el Reconocimiento de Patrones, a pesar de ser una zona del conocimiento


relativamente joven, apenas unos 45 aos, su carcter interdisciplinario hace que este
problema tenga una alta complejidad. A lo largo de este tiempo, muchas ciencias han
participado en el desarrollo exitoso de herramientas con el fin de solucionar dismiles
problemas prcticos y tericos dentro del Reconocimiento de Patrones. Pudiramos
definir entonces al Reconocimiento de Patrones [J.R. Shulcloper, 2002] como la zona
del conocimiento (de carcter interdisciplinario) que se ocupa del desarrollo de
teoras, mtodos, tcnicas y dispositivos computacionales para la realizacin de
procesos ingenieriles, computacionales y/o matemticos, relacionados con objetos
fsicos y/o abstractos, que tienen el propsito de extraer la informacin que le permita
establecer propiedades y/o vnculos de o entre conjuntos de dichos objetos sobre la
base de los cuales se realiza una tarea de identificacin o clasificacin.

El hecho de que existan muchas disciplinas que utilizan el Reconocimiento de


Patrones, hace que no sea nada fcil encontrar un paradigma aplicable a todas ellas. El
ms utilizado, por su generalidad, es el paradigma de la clasificacin. Segn ste, un
sistema de reconocimiento de patrones consta de tres etapas [Duda. H, 1973]: en la
primera, se obtiene una representacin del objeto como resultado de un conjunto de
mediciones; en la segunda, denominada extraccin de caractersticas, se realiza un
proceso interpretativo cuyo resultado se considera como una nueva representacin del
objeto en la que se extrae informacin relevante sobre el mismo; la tercera etapa es la
clasificacin propiamente dicha o proceso de identificacin. En cualquier problema de
reconocimiento es adems importante una fase de adquisicin de conocimiento,
Captulo1

denominada aprendizaje o entrenamiento. En esta fase se parte de muestras controladas


(de clasificacin conocida) para establecer los modelos requeridos para el diseo del
clasificador y/o los parmetros de estos modelos.

Figura 1. Elementos de un sistema de Reconocimiento de Patrones.

Dentro del Reconocimiento de Patrones podemos sealar tres grandes grupos. El


primero se refiere al Reconocimiento Sintctico, en el que se buscan las relaciones
estructurales que guardan los objetos en estudio, es decir, busca la cantidad de
informacin que una muestra x1 tiene sobre otra muestra x2, y el metalenguaje con el
que este ltimo pudo ser capaz de descubrirlo. Para ello, hace uso de descriptores
sintcticos con la ayuda de la teora de los lenguajes formales [Fuyama, 1982]. Entre las
aplicaciones, dentro de este paradigma, podemos mencionar el anlisis de secuencias de
protenas, as como tambin biosecuencias de ADN para evaluar la eficacia de alfabetos
reducidos de aminocidos, correspondientes estas investigaciones al campo de la
biologa molecular.

La segunda vertiente que existe dentro del Reconocimiento de Patrones es el


Reconocimiento Lgico Combinatorio. Este enfoque se basa en la idea de que la
modelacin del problema debe ser lo ms cercana posible a la realidad del mismo, sin
hacer suposiciones que carezcan de fundamento. Uno de los aspectos esenciales de este
tipo de enfoque es que las caractersticas utilizadas para describir a los objetos de
estudio deben ser tratadas cuidadosamente. Debemos sealar que para realizar el
reconocimiento, se auxilian de formalismos matemticos, que le permiten derivar
nuevos conocimientos a partir de conocimientos existentes.

El ltimo grupo en el cual se divide el Reconocimiento de Patrones es el


Reconocimiento Estadstico de Formas, el cual es una disciplina cientfica donde un

4
Introduccin

patrn se representa por un vector numrico de dimensin n. De esta forma, un patrn


es un punto en un espacio n-dimensional (de caractersticas). Un algoritmo de
Reconocimiento Estadstico de Formas (REF) funciona de dos maneras diferentes:
entrenamiento y reconocimiento. En el modo de entrenamiento, se disea el extractor de
caractersticas para representar los patrones de entrada y se entrena al clasificador con
un conjunto de datos de entrenamiento previamente definidos de forma que el nmero
de patrones mal identificados se minimice. En el modo de reconocimiento, el
clasificador ya entrenado toma como entrada el vector de caractersticas de un patrn
desconocido y lo asigna a una de las clases o categoras segn el conocimiento
adquirido previamente en el modo de entrenamiento.

Las diferentes estrategias que aparecen al disear un sistema de REF se muestran en


el siguiente esquema.

Figura2. Diseo de un sistema de Reconocimiento Estadstico de Patrones.

Entre los clasificadores estadsticos tambin suele haber dos grandes grupos. Por una
parte, clasificadores paramtricos son aplicados cuando es conocida la distribucin de
probabilidades de las clases, siendo el clasificador de Bayes su mximo representante.
El otro grupo est integrado por los mtodos de clasificacin no paramtricos, los cuales
son aplicados en problemas donde no se conoce la distribucin de probabilidades de
clases. Un especial inters dentro de este conjunto de clasificadores se le atribuye a los
que utilizan criterios de vecindad, debido a que poseen propiedades interesantes con
respecto a otros mtodos no paramtricos. La ms inmediata hace referencia a su

5
Captulo1

simplicidad conceptual, la clasificacin de un nuevo punto en el espacio de


representacin se puede estimar en funcin de la distribucin local de los patrones en el
conjunto de entrenamiento que se encuentran en un entorno suficientemente pequeo de
aquel punto.

La regla del vecino ms cercano (Nearest Neighbour, NN) es uno de los algoritmos
no paramtricos ms extensamente estudiado en toda la literatura, la cual consiste en,
dado un conjunto de prototipos previamente etiquetados (conjunto de entrenamiento)
esta regla asigna un objeto a la clase del vecino ms cercano en el conjunto de
prototipos, en correspondencia a una medida de similaridad en el espacio de
caractersticas. Otro algoritmo tambin extensamente estudiado es la regla de los k-
vecinos ms cercanos (k-NN), la cual se puede resumir en que la clase asignada al
objeto ser la clase ms votada entre los k vecinos ms prximos del conjunto de
entrenamiento.

Otro aspecto a destacar en los algoritmos dedicados al Reconocimiento de Patrones


es que para clasificar a los objetos, en dependencia de las diferentes maneras en que
utilizan la informacin suministrada, suelen dividirse en dos grandes grupos: algoritmos
supervisados y algoritmos no supervisados.

Los algoritmos de clasificacin supervisada operan usualmente sobre la informacin


suministrada por un conjunto de muestras, un conjunto de patrones, ejemplos o
prototipos de entrenamiento que son asumidos como representantes todos de clases
relevantes y los mismos poseen una etiqueta de clase correcta. Los algoritmos no
supervisados a diferencia de los anteriores, no van a disponer del conjunto de
entrenamiento y, valindose de algoritmos de agrupamiento (cluster), construyen el
conjunto de entrenamiento (TS).

Sin embargo, en el mundo real los cambios son constantes; y la forma tradicional en
que trabaja un clasificador no considera la modificacin paulatina del conocimiento que
ste posee, es decir, el clasificador es entrenado para reconocer un tipo de objetos de
inters (clases), despus es probada su precisin y, finalmente, es puesto en produccin,
hasta que se tiene la necesidad de volver a entrenar al clasificador debido a que se ha
perdido la buena precisin de ste. Para tratar de resolver esta dificultad, en la dcada de
los aos 90 en diversos trabajos [Bensaid, 1996], [Castelli, 1995], [Nigam, 2000],
surgen los algoritmos parcialmente supervisados, los cuales representan un cierto
compromiso entre los algoritmos supervisados y los no supervisados, siendo capaces de
emplear tanto objetos etiquetados como no etiquetados en la fase de clasificacin de
nuevos objetos.

Una propuesta de estos algoritmos son los algoritmos denominados de Aprendizaje


Continuo, los que se pueden definir como el conjunto de mtodos y tcnicas que
permiten a un sistema de Reconocimiento de Patrones la incorporacin de nuevos
conocimientos a lo largo de su funcionamiento, es decir, beneficiarse de la experiencia
adquirida durante la clasificacin de nuevas muestras.

Entre algunas de las principales ventajas de utilizar un sistema de aprendizaje


continuo podemos mencionar las siguientes:

6
Introduccin

El clasificador es ms robusto porque los errores u omisiones en el conjunto de


entrenamiento inicial pueden ser corregidos durante la fase de clasificacin (o
funcionamiento real del sistema).
El sistema puede ser capaz de adaptarse a entornos cambiantes o dinmicos.

Bsicamente, los mtodos o las tcnicas que se requieren en un proceso de


Aprendizaje Continuo pueden enmarcarse dentro de las cuatro categoras siguientes:

1. Clasificadores con opcin de rechazo, para la deteccin de nuevas clases.


2. Algoritmos de edicin o filtrado, para la eliminacin de los prototipos de
entrenamiento errneamente etiquetados.
3. Algoritmos de condensado o reduccin de la talla del conjunto de
entrenamiento, para la eliminacin de prototipos superfluos o innecesarios para
la posterior clasificacin de nuevas muestras.
4. Algoritmos de agrupamiento o clustering, para la definicin de las regiones
pertenecientes a las clases nuevas.

La presente Tesis Doctoral se enmarca dentro del Reconocimiento de Formas o


Patrones (Pattern Recognition), todo el trabajo de investigacin que ha precedido a esta
tesis se ha llevado a cabo dentro del Grupo de Visin por Computador de la Universidad
Jaume I de Castelln, formado en Diciembre de 1993 y actualmente dirigido por el Dr.
Filiberto Pla.

2. Motivacin y Objetivos Generales

El objetivo de esta Tesis Doctoral, es el diseo de un sistema de aprendizaje continuo en


el marco de las tcnicas de clasificacin y aprendizaje basadas en criterios de vecindad.
Para satisfacer este objetivo, fue necesario hacer referencia, concretamente, a las
tcnicas de clasificacin y aprendizaje basadas en criterios de vecindad (regla de los k
vecinos ms cercanos). Estos mtodos han significado, a lo largo de su historia, el punto
de referencia para el desarrollo de cualquier otro sistema de clasificacin. La gran
aceptacin de este conjunto de reglas se debe, no solo a su sencillez de implementacin
y aplicacin, sino tambin a su excelente comportamiento terico en el caso asinttico.
No obstante, debemos sealar que estas aproximaciones no paramtricas pueden llegar a
sufrir un considerable deterioro en su efectividad a medida que la cantidad de
informacin disminuye.

Como consecuencia de la existencia de todos estos inconvenientes pero, al mismo


tiempo, tambin sin olvidarnos de los muchos aspectos positivos de estas tcnicas, se
marc como finalidad prioritaria de esta Tesis Doctoral, el diseo y la implementacin
de un sistema de Aprendizaje Continuo, capaz de corregir el etiquetado errneo de
prototipos, y controlar el tamao del conjunto de entrenamiento. Para ello, sera
necesario analizar diferentes algoritmos de clasificacin, de edicin, de condensado
existentes en la literatura de Reconocimiento de Patrones, as como proponer nuevas
tcnicas y estrategias para cada uno de estos grupos.

7
Captulo1

Ms concretamente, los objetivos perseguidos con la presente Tesis Doctoral son los
siguientes:

1. Definir una nueva regla de clasificacin estocstica donde no solo se tuviera en


cuenta la distancia del objeto a sus vecinos ms cercanos, sino adems la
probabilidad de pertenencia a la clase de cada uno de los vecinos.
2. Utilizar este nuevo esquema de clasificacin para diseo, implementacin y
validacin de algoritmos estocsticos de Edicin y Condensado.
3. Incorporacin de opciones de edicin y filtrado estocsticos de la muestra de
entrenamiento en el sistema de Aprendizaje Continuo.
4. Control del tamao del conjunto de entrenamiento resultante mediante la
aplicacin de tcnicas de condensado estocstico.

Por ltimo, aunque en s mismo no llegara a constituir un objetivo esencial, podemos


aadir que esta tesis contiene tambin un apartado de revisin y recopilacin sobre los
diferentes mtodos de clasificacin y aprendizaje por criterios de vecindad, as como
tambin una amplia base de datos con los resultados de los diferentes experimentos que
aqu se han llevado a cabo.

3. Organizacin de la Memoria de Tesis

A partir de los objetivos establecidos en la seccin anterior, hemos estructurado la


presente memoria de tesis en dos partes principales, cada una de las cuales se encuentra
organizada en una serie de captulos. As, una primera parte se dedica a la presentacin
de los fundamentos tericos sobre los que se basar la totalidad de la tesis. La segunda
parte se refiere a las aportaciones efectivas de este trabajo, en consonancia con los
objetivos previamente marcados. En la tercera parte, podemos encontrar las
conclusiones globales y las posibles lneas de investigacin futuras. Por ltimo, la
bibliografa utilizada a lo largo de la tesis y los anexos se presenta al final de esta
memoria.

En el Captulo 2, se hace una introduccin general sobre los conceptos bsicos


utilizados en el campo del Reconocimiento de Formas, haciendo hincapi
fundamentalmente en los diferentes clasificadores no paramtricos basados en criterios
de vecindad que sern utilizados a los largo de todo el trabajo.

Los Captulos 3 y 4 contienen la revisin bibliogrfica de diversos esquemas de


filtrado de las muestras de entrenamiento, as como tambin de reduccin de la talla del
conjunto de entrenamiento para la regla del vecino ms prximo presente en la
literatura, sealndose las ventajas y deficiencias de cada uno de ellos.

El Captulo 5 est dedicado al estado del arte sobre los algoritmos de aprendizaje
parcialmente supervisados, destacando aqu las diversas tendencias que existen en la
actualidad sobre el problema de cmo utilizar los objetos no etiquetados en la fase de
clasificacin.

8
Introduccin

En el Captulo 6, se expone la regla de clasificacin estocstica presentada en este


trabajo, as como tambin las correspondientes opciones de rechazo de esta regla de
clasificacin. Este captulo contiene, adems, los experimentos que permiten evaluar la
efectividad de esta nueva regla de clasificacin sobre un conjunto de bases de datos
reales y sintticas tomadas del repositorio UCI.

En los Captulos 7 y 8, se realiza una presentacin de los procedimientos de edicin


y condensado estocsticos obtenidos a partir de la probabilidad de pertenencia a la clase
de cada uno de los vecinos ms prximos a la muestra. Del mismo modo, se valida su
comportamiento mediante un exhaustivo anlisis emprico sobre las diferentes bases de
datos sintticas y reales utilizadas a lo largo del trabajo.

En el Captulo 9, se hace una propuesta de un algoritmo de Aprendizaje Continuo,


donde de una manera armnica, se pretende integrar las diferentes tcnicas estocsticas
propuestas a lo largo de todo el trabajo. En este esquema, se utilizan de manera
automtica los objetos no etiquetados con el fin de ir mejorando continuamente el
conjunto de entrenamiento y, a su vez, controlar la talla del mismo de manera que el
costo computacional del algoritmo no crezca considerablemente.

Finalmente, el Captulo 10 recoge las conclusiones generales referente a la totalidad


de la tesis y pone de manifiesto sus principales aportaciones en el campo del
Reconocimiento de Formas. Para acabar, se examinan las diversas posibilidades de
extensin sobre el trabajo ya realizado, y se apuntan las direcciones que podran tomar
las futuras lneas de investigacin.

9
Captulo 2

Tcnicas de Clasificacin Basadas en


Criterios de Vecindad

1. Introduccin

Entre los diferentes clasificadores estadsticos no paramtricos, cabe destacar las


aproximaciones basadas en criterios de vecindad. Bajo esta ptica, los esquemas de
clasificacin nicamente exigirn la definicin de una cierta medida de disimilitud entre
los distintos elementos del espacio de representacin, es decir, que ste sea mtrico (o,
pseudo-mtrico).

La principal ventaja que presenta la clasificacin basada en criterios de vecindad


respecto a otros mtodos no paramtricos, es su simplicidad conceptual, que podra
resumirse del siguiente modo: la clasificacin de un nuevo punto del espacio de
representacin se puede estimar en funcin de la clasificacin conocida de los puntos
dentro de un entorno suficientemente pequeo de aquel punto. Es importante sealar
que la mtrica del espacio de representacin a la que nos referamos en el prrafo
anterior es necesaria, precisamente para definir aquel entorno del punto a clasificar.

En general, cualquier problema de clasificacin abordado con un enfoque basado en


criterios de vecindad se podr caracterizar del siguiente modo:

1. Se dispone de un conjunto de N prototipos (o muestras preclasificadas) en un


espacio de representacin E, llamado conjunto de entrenamiento o diseo, y que
escribiremos como {X, }= {(x1, 1), (x2, 2), , (xN, N)} donde i hace
referencia a la clase verdadera de la muestra xi entre las M posibles clases del
problema.
2. Tenemos que clasificar una nueva muestra, x, estadsticamente independiente del
conjunto {X, }.
3. No hay ninguna informacin adicional acerca de la distribucin de los
parmetros estadsticos asociados al conjunto de entrenamiento.
4. Existe alguna mtrica entre las distintas muestras disponibles definidas en el
espacio de representacin E.

Siguiendo estas premisas, obviamente deberemos asumir la absoluta correccin de la


tcnica empleada para asignar una etiqueta de clase a cada uno de los prototipos del
conjunto de entrenamiento, puesto que de este aspecto depender fundamentalmente la
efectividad de cualquiera de los clasificadores que posteriormente se estudiarn. No
Captulo 2

obstante, en la prctica, esta suposicin no siempre ser totalmente cierta de manera


que, en la mayora de los casos, se requerir de la aplicacin de algn proceso previo a
la clasificacin que, de algn modo, elimine del conjunto de entrenamiento todos los
prototipos errneamente etiquetados.

A partir de aqu, en este captulo, haremos una breve exposicin de las mtricas ms
utilizadas en toda la literatura dedicada a este tema. Posteriormente, se centrar en el
anlisis de los aspectos tericos ms relevantes para la mayor parte de los mtodos de
clasificacin no paramtricos basados en criterios de vecindad.

2. Formulacin General de un Problema de Clasificacin

Sea E el espacio de representacin de un determinado problema de clasificacin, en el


cual se tienen M clases, = {1, 2, , }, de manera que formen una particin de
E. Disponemos adems de N prototipos (o muestras pre-clasificadas) pertenecientes al
espacio, que tomaremos como conjunto de entrenamiento (TS), el cual representaremos
por:

TS = {X, } = {(x1, 1), (x2, 2), , (x, )}

El problema consistir en dado una nueva muestra x de E, estadsticamente


independiente del conjunto {X, }, la cual puede estar contenida en cualquiera de las M
clases, determinar a qu clase del espacio pertenece. Este procedimiento es conocido
como Regla de Clasificacin o Clasificador y se representa como:

: E , (x) = i i =1, , M

Existen distintas alternativas para expresar un determinado clasificador . Una de las


representaciones ser en trminos de un conjunto de funciones discriminantes, Di(x),
i = 1, , M, es decir, una por cada clase en el espacio E [Duda, 1973]. En este caso, el
clasificador se puede expresar de la siguiente manera:

(x) = i Di(x) > Dj(x) j i i, j = 1, , M

Por tanto, el clasificador asigna una muestra a la clase o particin del espacio de
representacin E cuya funcin discriminante asociada Di(x), sea mayor. Debemos de
sealar que existen determinadas zonas del espacio en las que distintas funciones
discriminantes pueden tomar el mismo valor, es decir, particiones del espacio que
podran pertenecer con la misma probabilidad a ms de una clase. Estas zonas o
regiones indefinidas se denominan fronteras de decisin, correspondiendo a los casos
donde se cumple la siguiente igualdad:

Di(x) = Dj(x) j i i, j = 1, , M

Si asumimos que a cada punto xE le corresponde una verdadera clase, entonces una
regla de clasificacin puede fallar o acertar la verdadera categora de un determinado

12
Tcnicas de Clasificacin Basadas en Criterios de Vecindad

nmero de puntos en el espacio E. La teora de la decisin pretende la definicin de


reglas de clasificacin que acierten la verdadera clase del mayor nmero posible de
puntos, en otras palabras, reglas de clasificacin que muestren un comportamiento tan
efectivo como sea posible.

Por otra parte, el coste computacional asociado a una determinada regla de


clasificacin constituye tambin, un aspecto de gran relevancia, desde el punto de vista
de su aplicacin. Cualquier clasificador deber cumplir que sea computacionalmente
abordable, tanto en trminos temporales como espaciales.

Los clasificadores basados en criterios de vecindad basan su efectividad en la


distribucin de los prototipos del conjunto de entrenamiento en el espacio y en cuan
alejados estn estos de la muestra x. Es por ello que es preciso definir alguna mtrica d
entre los objetos de E, mediante la cual podamos asignarle a la muestra x, una clase
determinada.

2.1. Distancias o Mtricas

La geometra del espacio tridimensional en el que estamos sumergidos nos resulta muy
natural. Conceptos tales como distancia, longitud, ngulo, perpendicularidad son de uso
cotidiano. En matemticas, frecuentemente podemos agrupar ciertos objetos en espacios
abstractos y definir entre ellos relaciones semejantes a las existentes entre los puntos del
espacio ordinario. El paralelismo que se establece as entre los espacios abstractos y el
espacio Eucldeo nos permite visualizar y lograr un entendimiento ms profundo de
estos objetos.

En algunas aplicaciones, la formulacin ms simple que puede considerarse es el de


asumir que el espacio sobre el cual trabajamos tiene estructura de espacio mtrico. Un
espacio mtrico es un conjunto de puntos en el que est definida la nocin de distancia
entre puntos. Podemos usar la funcin distancia o mtrica para definir conceptos
fundamentales del anlisis matemtico, tales como lmite de una funcin, convergencia,
continuidad, diferenciabilidad y compacidad entre otros. A su vez, es un concepto
fundamental dentro del Reconocimiento de Patrones.

Existen varias formas de determinar cundo dos objetos del espacio son parecidos
y cundo no. Entre ellas, estn las funciones de similaridad, las de disimilaridad, las
mtricas. En el Reconocimiento de Patrones, la distancia entre dos objetos cualesquiera
del espacio es una medida de cuan similares son de acuerdo a sus caractersticas. Por
tanto, sta debe ser escogida de forma tal que mientras ms parecidos sean los objetos
menor debe ser la distancia entre ellos y, por el contrario, los objetos muy lejanos deben
ser poco similares.

Definicin: Un espacio mtrico es un par (E, d) donde E es un conjunto (E ), d es


una funcin d: ExE +, llamada distancia o mtrica, si la misma satisface los
siguientes axiomas:

13
Captulo 2

a) d(x, y) 0 x, yE, y d(x, y) = 0 si y solo si x = y


b) d(x, y) = d(y, x) x, y E (simetra)
c) d(x ,z) d(x, y) + d(y, z) x, y, zE (desigualdad triangular)

La mtrica ms frecuentemente utilizada en toda la literatura es la mtrica Eucldea,


la cual se define mediante la siguiente expresin:

(x (O ) x (O ))
n
2
d (Oi, Oj) = k i k j
k =1

donde Oi y Oj son los objetos para los cuales se desea calcular la distancia, n es el
nmero de caractersticas de los objetos del espacio y xk(Oi), xk(Oj) es el valor del
atributo k en los objetos Oi y Oj.

Existen otras mtricas reportadas en la literatura y utilizadas en diversos problemas


entre las que podemos mencionar las siguientes.

Mtrica discreta. Dado un conjunto E , definimos la mtrica discreta d(.,.) sobre


el conjunto E de la siguiente manera:

1 si x y
d ( x, y ) =
0 si x = y

Si tomamos el conjunto E = n, sobre este espacio podemos definir varias mtricas


que a continuacin mencionamos:

Minkowsky:

1/ p
n p

d (Oi , O j ) = x k (Oi ) x k (O j )
k =1

Manhattan:

n
d (Oi , O j ) = x k (Oi ) x k (O j )
k =1

Chebychev:

d (Oi , O j ) = max x k (Oi ) x k (O j )


1 k n

14
Tcnicas de Clasificacin Basadas en Criterios de Vecindad

Camberra:

n xk (Oi ) xk (O j )
d (Oi , O j ) =
k =1 xk (Oi + xk (O j )

Funcin de Correlacin:

(x k (Oi ) k )( xk (O j ) k )
d (Oi , O j ) = k =1
n n

( xk (Oi ) k ) 2 ( xk (O j ) k ) 2
k =1 k =1

donde k es el valor promedio para el atributo k en el conjunto de entrenamiento.

Distancia de Mahalanobis

La distancia de Mahalanobis (1936) es una medida, cuya utilidad radica en que es


una forma de determinar la similitud entre dos variables aleatorias multidimensionales.
Se diferencia de la distancia Eucldea, en que tiene en cuenta la correlacin entre las
variables aleatorias.

Formalmente, la distancia de Mahalanobis entre dos variables aleatorias con la


misma distribucin de probabilidad, se define por medio de la siguiente expresin:

1
d (Oi , O j ) = [det V ] n (Oi O j ) T V 1 (Oi O j )

donde V es la matriz de covarianzas de A1, , An, Aj es el vector de valores para el


atributo j en el conjunto de entrenamiento.

Funcin VDM (Value Difference Metric)

En la literatura, se han propuesto diversas funciones para calcular la distancia entre


atributos no numricos. Por ejemplo, una de estas funciones es la funcin VDM (Value
Difference Metric) propuesta en [Wilson. D, Martinez. T, 2000], con la cual la similitud
entre dos valores xi(O1), xi(O2) del atributo i con respecto a los objetos O1, O2 viene
dada por la siguiente expresin:

2
N i, xi (O1) , c N i, xi ( O2 ), c
M
vdmi ( xi (O1 ), xi (O2 ) =

c =1 N i, x i ( O1 ) N i , xi (O2 )

donde N i , xi ( O1 ) es el nmero de veces (en el conjunto de entrenamiento) que el atributo i


tiene el valor xi(O1), N i , xi (O1 ),c es el nmero de veces que el atributo i tiene el valor xi(O1)
en la clase c, y M es el nmero total de clases.

15
Captulo 2

Funcin HVDM (Heterogeneus Value Difference Metric)

Es comn que los clasificadores tengan que enfrentarse a problemas en los que los
atributos de los objetos son heterogneos, es decir, estn descritos por ambos tipos de
valores (numricos y no numricos). En este tipo de problemas, es necesario emplear
una funcin heterognea de distancia, por ejemplo HVDM (Heterogeneous Value
Difference Metric) [Wilson. D, Martinez. T, 2000], mediante la cual es posible calcular
distancia entre objetos cuyos atributos son heterogneos. La funcin HVDM se define
de la siguiente forma:

n
HVDM (O1 , O2 ) = d
i =1
i
2
( xi (O1 ), xi (O2 ))

donde la funcin d i ( xi (O1 ), xi (O2 )) es la distancia entre los objetos O1 y O2 para el


atributo i y la misma se define mediante la siguiente expresin:



1 si xi (O1 ) xi (O 2 ) son atributos ausentes

di ( xi (O1 ), xi (O2 )) = vdmi ( xi (O1 ), xi (O2 ) ) si i no numrico
x (O ) x (O )
i 1 i 2
si i es numrico
4 i

donde vdmi ( xi (O1 ), xi (O2 )) es la funcin descrita anteriormente y, i es la desviacin


estndar correspondiente al atributo i (en el conjunto de entrenamiento).

Existen otras funciones que permiten calcular la distancia entre objetos descritos
tanto por atributos cuantitativos como cualitativos, las cuales aparecen en los trabajos de
[Stanfill, 1986], [Wilson. D, Martinez. T, 2000] y [Olvera, 2005].

3. Fundamentos Estadsticos

La teora de la probabilidad y los mtodos bayesianos son unas de las tcnicas que ms
se ha utilizado en problemas de inteligencia artificial y, por tanto, de aprendizaje
automtico. Como se indica en [Mitchell, 1997], son dos las razones por las que los
mtodos bayesianos son relevantes al aprendizaje automtico:

1. Son un mtodo prctico para realizar inferencias a partir de los datos,


induciendo modelos probabilsticos que despus sern usados para razonar
(formular hiptesis) sobre nuevos valores observados. Adems, permiten
calcular de forma explcita la probabilidad asociada a cada una de las hiptesis
posibles, lo que constituye una gran ventaja sobre otras tcnicas.
2. Facilitan un marco de trabajo til para la comprensin y anlisis de numerosas
tcnicas de aprendizaje que no trabajan explcitamente con probabilidades.

16
Tcnicas de Clasificacin Basadas en Criterios de Vecindad

En teora de la probabilidad, el teorema de Bayes es la regla bsica para realizar


inferencias. As, el teorema de Bayes nos permite actualizar la creencia que tenemos en
un suceso o conjunto de sucesos a la luz de nuevos datos u observaciones. Es decir, nos
permite pasar de la probabilidad a priori P(suceso) a la probabilidad a posteriori
P(suceso\observaciones). La probabilidad a priori puede verse como la probabilidad
inicial, la que fijamos sin saber nada ms. La probabilidad a posteriori es la que
obtendramos tras conocer cierta informacin, por tanto, puede verse como un
refinamiento de nuestro conocimiento.

Teniendo en cuenta estos conceptos, el teorema de Bayes viene representado por la


siguiente expresin:

P(O | h).P(h)
P (h | O) =
P(O)

donde, como podemos ver, lo que aparece son la probabilidad a priori de la hiptesis (h)
y de las observaciones (O) y las probabilidades condicionadas P(h|O) y P(O|h). A esta
ltima se le conoce como la verosimilitud de que la hiptesis h haya producido el
conjunto de observaciones O.

Centrndonos en el problema de la clasificacin, con una variable clase (C) y un


conjunto de variables predictoras o atributos {A1, A2, ..., An}, el teorema de Bayes tendr
la siguiente forma:

P( A1 , A2 , ..., An | C).P(C)
P (C | A1 , A2 , ..., An ) =
P( A1 , A2 , ..., An )

Evidentemente, si C tiene k posibles valores {c1, c2, , ck}, lo que nos interesa es
identificar el ms probable y devolverlo como resultado de la clasificacin. En el marco
bayesiano, la hiptesis ms plausible no es otra que aquella que tiene mxima
probabilidad a posteriori dados los atributos, y es conocida como la hiptesis mxima a
posteriori o hiptesis MAP (maximum a posteriori). As, la clase o valor a devolver
ser:

p( A1 , ..., An | c). p(c)


c MAP = arg max p(c | A1 , ..., An ) = arg max
cc cc p( A1 , ..., An )
c MAP = arg max p( A1 , ..., An | c). p(c)
cc

donde c representa el conjunto de valores que puede tomar la variable C. Es preciso


sealar que en el ltimo paso se ha eliminado la divisin debido a que el divisor sera el
mismo para todas las categoras.

Por tanto, el teorema de Bayes nos facilita un mtodo sencillo y con una semntica
clara para resolver esta tarea. Sin embargo, este mtodo tiene un inconveniente, y es su
altsima complejidad computacional, debido a que necesitamos trabajar con

17
Captulo 2

distribuciones de probabilidad que involucran muchas variables, hacindolas en la


mayora de los casos inmanejables.

4. Clasificador Naive Bayes

El fundamento principal del clasificador Naive Bayes [Duda and Hart, 1973] es la
suposicin de que todos los atributos son independientes conocido el valor de la
variable clase. A pesar de que asumir esta suposicin en el clasificador Naive Bayes
(NB) es sin duda bastante fuerte y poco realista en la mayora de los casos, se trata de
uno de los clasificadores ms utilizados.

La hiptesis de independencia asumida por el clasificador NB da lugar a un modelo


grfico probabilstico en el que existe un nico nodo raz (la clase), y en el que todos los
atributos son nodos hojas que tienen como nico padre a la variable clase.

Debido a la hiptesis de independencia usada en el clasificador NB, la expresin para


obtener la hiptesis queda como sigue:

c MAP = arg max p( A1 , ..., An | c) p(c) = arg max p(c) p ( Ai | c)


cc cc i=1

Es decir, la tabla de probabilidades P(A1, , An|c) ha sido factorizada como el


producto de n tablas que slo involucran dos variables. Por tanto, los parmetros que
tenemos que estimar son P(Ai|c) para cada atributo y la probabilidad a priori de la
variable clase P(c). Veamos cmo hacerlo dependiendo de que el atributo Ai sea
discreto o continuo.

Atributos discretos: En este caso la estimacin de la probabilidad condicional se basa


en las frecuencias de aparicin que obtendremos en la base de datos. As, si denotamos
por n(xi, Pa(xi)) al nmero de registros de la base de datos en que la variable Xi toma el
valor xi y los padres de xi (Pa(Xi)) toman la configuracin denotada por Pa(xi)), entonces
la forma ms simple de estimar P(xi|Pa(xi)) es mediante la expresin:

n( xi , Pa( xi ))
P( xi | Pa( xi )) =
n( Pa( xi ))

Es decir, el nmero de casos favorables dividido por el nmero de casos totales. Esta
tcnica se conoce como estimacin por mxima verosimilitud y tiene como desventaja
que necesita una muestra de gran tamao y que sobreajusta a los datos.

Atributos continuos: En este caso, el clasificador NB supone que el atributo en


cuestin sigue una distribucin normal; por tanto, lo nico que tenemos que calcular (a
partir de la base de datos) es la medida y la desviacin tpica condicionadas a cada
valor de la variable clase.

18
Tcnicas de Clasificacin Basadas en Criterios de Vecindad

1 ( X ) 2
P ( A i | c) = exp( )
2 2 2

Evidentemente, esta estimacin tiene el inconveniente de que los datos no siempre


siguen una distribucin normal.

5. Clasificadores no Paramtricos

Entre los clasificadores estadsticos no paramtricos que vamos a presentar en este


epgrafe, cabe destacar las aproximaciones basadas en criterios de vecindad, sobre las
cuales se centra bsicamente el presente trabajo. Siguiendo este enfoque, los esquemas
de clasificacin que expondremos en este captulo nicamente exigirn la definicin de
una cierta medida de similitud entre los distintos elementos del espacio de
representacin, en general el espacio de representacin con el cual trabajamos tiene
estructura de espacio mtrico.

La principal ventaja que tiene la clasificacin basada en criterio de vecindad respecto


a otros mtodos no paramtricos, es precisamente su simplicidad conceptual, es decir, la
clasificacin de un nuevo punto del espacio de representacin se puede estimar en
funcin de la clasificacin conocida de los puntos dentro de un entorno lo
suficientemente pequeo de aquel punto. Debemos destacar que la estructura mtrica
del espacio de representacin que sealamos en el prrafo anterior es necesaria,
precisamente, para poder definir el entorno del punto a clasificar.

5.1. Clasificador de Distancia Mnima

Para poder aplicar esta regla de clasificacin, lo primero ser determinar de forma
adecuada un prototipo que represente a cada una de las M clases del problema. En esta
regla, este aspecto es el proceso ms importante, puesto que el mtodo empleado para
definir los representantes por clases va a influir directamente en los resultados de la
clasificacin.

Entre las tcnicas ms empleadas para determinar un prototipo representativo para


cada clase tenemos las siguientes:

1. Determinar el prototipo ms centrado dentro de la clase.


2. Encontrar el prototipo medio de la clase.
3. Seleccionar aleatoriamente un prototipo de la clase.

Una vez determinado el conjunto de prototipos representantes para cada una de las
clases {Z1, Z2, , ZM}, la regla de clasificacin por distancia mnima DM puede
escribirse de la siguiente manera:

19
Captulo 2

DM ( x) = i d ( x, Zi ) < d ( x, Z j ) j i, i, j = {1, 2, ..., M }

donde la expresin d(,) representa la mtrica seleccionada en el espacio de


representacin E. En este caso, el clasificador asignar la muestra x a la clase del
representante Zi ms cercano a l, (es decir, cuya distancia sea mnima).

Este es un clasificador sencillo e intuitivamente claro. Una de sus ventajas ms


evidentes reside en el hecho de que el nmero de funciones discriminantes lineales ser
siempre fijo e igual al nmero de clases, adems de la simplicidad inherente en el caso
de estas funciones. Sin embargo, la estrategia de representar cada clase por un nico
prototipo condicionar, en gran medida, la efectividad de esta regla. Es preciso sealar,
que el criterio de distancia mnima no resultar apropiado para aquellos casos en que
alguna de las clases se encuentre definida mediante una distribucin de probabilidad de
tipo multimodal o no determinista (es decir, siempre que exista ms de un agrupamiento
o clustering para una determinada clase).

Cabe destacar tambin que al clasificador de distancia mnima le corresponden


fronteras de decisin lineales a intervalos, lo cual significa que las fronteras de decisin
entre dos clases separan el espacio de representacin en dos zonas distintas, cada una de
ellas incluyendo una de las dos clases (en realidad, su prototipo representativo).
Adems, el lugar geomtrico de la recta correspondiente a la frontera de decisin entre
dos clases corresponde a la mediatriz del segmento que une los representantes de ambas
clases.

5.2. Regla del Vecino ms Cercano

Uno de los clasificadores no paramtricos ms difundido en toda la literatura cientfica


es la regla del vecino ms cercano (Nearest Neighbour, NN), la idea fundamental sobre
la que se apoya esta regla es que muestras de una misma clase se encontrarn
probablemente prximas en el espacio de representacin. Resulta evidente, pues, que
esta regla constituye una simple generalizacin del clasificador de distancia mnima
visto en la seccin anterior.

Dados, el conjunto {X, } = {( x1 , 1 ), ( x2 , 2 ), ..., ( xN , N )}, que consta de N


prototipos, y una nueva muestra x, de la que se desconoce su etiqueta de clase. Sea
( x ' , ' ){X, }, el prototipo ms prximo a la muestra x (obviamente ' ), entonces
la regla NN se podr escribir valindonos de la siguiente expresin:

NN (x) = ' d ( x, x ' ) = min d ( x, xi )


i = 1, 2 , ..., N

donde d(,) representa la mtrica seleccionada para el espacio de representacin. En este


caso, el clasificador asignar la muestra x a la clase del prototipo de {X, } ms
cercano a l segn la mtrica d(,) definida para el espacio de representacin.

20
Tcnicas de Clasificacin Basadas en Criterios de Vecindad

La principal ventaja de este clasificador respecto al de distancia mnima radica en


que, para clasificar una muestra nueva, se tienen en cuenta todos los prototipos del
conjunto de entrenamiento en lugar de considerar solamente un nico representante por
clase. Lgicamente, la clasificacin ser mucho menos crtica que cuando solo se tena
una sola muestra como representante de la clase. Ahora la efectividad del clasificador
vendr condicionada por la disponibilidad de un conjunto de prototipos correctamente
etiquetados lo suficientemente grande. Sin embargo, esta condicin hace que su
aplicacin se vea limitada en aplicaciones reales por el coste computacional, en cuanto a
tiempo y espacio, al tener gran cantidad de prototipos en memoria y tener que
recorrerlos todos para determinar cul es el ms cercano a una determinada muestra a
clasificar. No obstante, la existencia de una amplia variedad de algoritmos eficientes
para la bsqueda del vecino ms prximo, los cuales pueden verse en el trabajo de
[Moreno. F, 2004], as como de diversos procedimientos para reducir de forma
controlada la talla del conjunto de entrenamiento, dan una solucin a este inconveniente
prctico.

Cabe destacar que el anlisis asinttico de la regla NN presentado por [Snchez. J.S,
1998], permite afirmar que, al menos, la mitad de la informacin sobre la pertenencia de
un objeto a una cierta clase, se encuentra en su vecino ms prximo, resultado que no
depende de la mtrica utilizada para la determinacin del vecino ms prximo.

5.3. Regla de los k Vecinos ms Cercanos

Con la aplicacin de la regla NN, al intervenir solamente el primer vecino ms prximo


a una muestra, es lgico pensar que no se est aprovechando de forma eficiente toda la
informacin que se podra extraer del conjunto de entrenamiento. Con el objetivo de
suplir esta aparente dificultad surge una extensin o mejora de la regla de clasificacin
NN, la cual consistir en la modificacin de la tcnica empleada para decidir la clase a
la que pertenece una determinada muestra, utilizando no slo su vecino ms prximo,
sino tambin un cierto nmero de prototipos (k) que se encuentren en un entorno lo
suficientemente prximo a dicha muestra. As, si disponemos de un conjunto de
prototipos Pj = {Pj,i / i = 1, 2, , Nj} por cada clase, basaremos la clasificacin de la
muestra x en sus k prototipos ms prximos.

Teniendo en cuenta la idea planteada anteriormente, a partir de un cierto conjunto de


entrenamiento {X, } = {( x1 , 1 ), ( x2 , 2 ), , ( xN , N )} podemos de manera muy
simple, definir la vecindad Vk(x) de una muestra xE como aquel conjunto de prototipos
que satisface las siguientes condiciones:

21
Captulo 2

Vk ( x) P

Vk ( x) = k
pV ( x), q P V ( x) d ( p, x) d (q, x)
k k

M
donde P = U
i =1
Pi

Si ahora definimos una nueva distancia entre un punto y un conjunto de prototipos


como:

dk (x, Pi ) = k - Vk(x) Pi

podremos definir la regla de clasificacin de los k-Vecinos ms Cercanos (k-NN) como

k - NN ( x) = wi d ( x, Pi ) = min d k ( x, Pj )
j = 1, 2 , ..., M

Podemos sealar que el significado de la expresin anterior no es ms, que la clase


asignada a la muestra x ser la clase ms votada entre los k vecinos ms prximos del
conjunto de entrenamiento. Generalmente, en problemas prcticos donde se aplica esta
regla de clasificacin, se acostumbra a tomar un nmero k impar de vecinos para evitar
posibles empates. No obstante, los posibles casos de empates entre las distintas clases se
resuelven decidiendo aleatoriamente la clasificacin de la muestra entre las clases
empatadas; otra manera de resolver este problema es asignando a la muestra la clase del
primer vecino o calculando la media de las distancias de los vecinos de cada clase.

Debemos sealar tambin que las fronteras de decisin continan siendo funciones
lineales a tramo puesto que, en cualquier caso, siempre corresponden a combinaciones
de funciones lineales.

En la Figura 3, ilustramos de forma grfica el funcionamiento de esta regla de


clasificacin. En ella, tenemos representadas 25 muestras pertenecientes a dos clases
distintas: la clase 2 est formada por 16 crculos y la clase 1 formada por 9 cuadrados.
En este ejemplo, hemos seleccionado cinco vecinos, es decir, (k = 5). De los 5 vecinos
ms cercanos a la muestra x, representada en el grfico por una cruz, dos de ellos
pertenecen a la clase 1 y tres de ellos a la clase 2. Por tanto, la regla 5-NN asignar la
muestra x a la clase 2. Es importante sealar que si hubisemos utilizado como regla de
clasificacin la regla NN, la muestra x sera asignada a la clase 1, ya que el vecino ms
cercano de la muestra x pertenece a la clase 1.

22
Tcnicas de Clasificacin Basadas en Criterios de Vecindad

Figura 3. Desempeo de la regla k-NN.

A continuacin, valindonos de la Figura 4, donde aparecen representados los


clasificadores de distancia mnima, vecino ms cercano y los k vecinos ms cercanos,
haremos algunos comentarios importantes a tener en cuenta.

Figura4. Comparacin entre diferentes clasificadores.

En este grfico, aparecen representadas 3 clases sealadas por las letras A, B y C. En


la primera grfica, se muestra el clasificador k-NN considerando 7 vecinos, observamos
como la muestra y es clasificada en la clase C por tener entre sus 7 vecinos ms
cercanos, tres vecinos que pertenecen a la clase C, es decir, la votacin de esta clase
supera a la votacin de las dos restantes. En la segunda grfica, se muestra el
comportamiento del clasificador NN, asignndose en este caso la muestra y a la clase A,
ya que en esta clase se encuentra el vecino ms cercano. La ltima grfica muestra el
clasificador por distancia mnima, donde la muestra y es asignada a la clase B. Como se
puede apreciar, la muestra y es clasificada por los diferentes clasificadores a clases
distintas, por lo cual es preciso sealar la importancia que tiene una adecuada

23
Captulo 2

modelacin del problema y la seleccin rigurosa del clasificador a emplear para darle
una solucin correcta al problema sobre el cual se est trabajando.

5.4. Regla k-NN con Rechazo

El objetivo central de esta regla de clasificacin consiste en la posibilidad de no


clasificar aquellas muestras para las cuales no se obtenga una cierta seguridad de que la
clasificacin obtenida para la muestra sea la correcta. Con la estrategia que se propone,
la decisin de clasificar se producir slo cuando alguna de las posibles clases reciba un
nmero de votos por encima de un determinado umbral previamente establecido, es
decir, si el resultado de la votacin no da lugar a una cierta mayora (conocida como
mayora cualificada) en algunas de las clases, la muestra ser rechazada. Otro de los
objetivos que se persigue con esta estrategia es aumentar la efectividad de la regla de
clasificacin k-NN, descartando para ello la clasificacin de ciertas muestras que se
encuentren prximas a las fronteras de decisin, es decir, donde existe un mayor riesgo
de error.

Una primera propuesta para alcanzar el objetivo anteriormente expresado consiste en


definir un entero positivo l, tal que [k/2] < l < k, como valor umbral para la mayora en
la votacin entre los k vecinos ms cercanos. Se define la regla de los (k, l)- Vecinos
ms Cercanos ((k, l)- NN) [Hellman, 1970] como:

i si Vk (x) Pi l , i = 1, . .., M
(k,l) NN (x) =
0 si no (clasificacin rechazada)

donde la etiqueta w0 se utiliza, generalmente, para identificar la opcin de rechazo (es


decir, la nueva clase asociada a las muestras rechazadas). Por lo tanto, nuestro problema
pasa a tener ahora M +1 clases diferentes.

A partir de esta primera aproximacin para la regla k-NN con Rechazo, es posible
establecer una mayor generalizacin de esta regla definiendo un umbral o tipo de
mayora distinto para cada una de las M distintas clases, li, dando lugar entonces a la
regla de los (k-li)-Vecinos ms Cercanos ((k-li)-NN).

i si Vk (x) Pi l i , i = 1,..., M
( k,li ) NN ( x) =
0 si no (clasificacin rechazada)

En este caso, la decisin de la clasificacin se tomara nicamente cuando la mayora


obtenida se encontrase por encima del umbral establecido especficamente para la clase
que haya resultado ms votada.

La segunda propuesta alternativa a la regla k-NN con Rechazo, basada en una idea
relativamente distinta de las descritas anteriormente, consiste en fijar un tipo de mayora
absoluta para el nmero de votos. En este caso, se rechazar la clasificacin de la

24
Tcnicas de Clasificacin Basadas en Criterios de Vecindad

muestra si ninguna de las clases votadas supera al resto en un determinado nmero de


votos, denominado umbral absoluto.

Sea m 1 (en el caso m = 1 corresponde a la regla k-NN sin rechazo), entero


positivo, un umbral para la mayora absoluta en el nmero de votos entre los k vecinos
ms cercanos, entonces se puede definir la regla (k, m)-Vecinos ms Cercanos [Luk,
1986] mediante la siguiente expresin:

i si (wi w j ) m i, j = 1, ..., M,
(k,m) NN (x) =
w
p =1
p k
si no (clasificacin rechazada)
0

donde wi, wj se refiere al nmero de votos alcanzado para las clases i , j entre los k
vecinos.

Es preciso sealar que la utilizacin de este tipo de mayora absoluta proporciona a la


regla k-NN un mayor grado de seguridad o certeza sobre la estimacin de la clase de las
muestras correspondientes al conjunto de prueba. Sin embargo, podemos sealar
tambin que esta regla de decisin requerir la utilizacin de un valor bastante elevado
para el nmero de vecinos (k) ya que de lo contrario, se alcanzara el umbral absoluto
slo en muy pocos casos y, por tanto, un considerable nmero de muestras resultaran
rechazadas durante el proceso de clasificacin.

Debido a lo anteriormente expuesto, [Luk, 1986] en su artculo propone una posible


solucin para reducir aquel importante nmero de muestras rechazadas. Su estrategia
consisti en definir una cierta cooperacin o decisin compartida entre las reglas (k, m)-
NN y k-NN para las muestras que pudiesen ser inicialmente rechazadas. De este modo,
la correspondiente regla (k,m,k)-NN, se podra expresar mediante la siguiente
expresin:

i
(k,m) NN (x) =
si (wi w j ) m i, j = 1, ..., M, w
p =1
p k

k NN (x) en otro caso

6. Clasificadores Basados en el Concepto de Vecindad Envolvente

Se ha comentado en los epgrafes anteriormente expuestos que la regla k-NN presenta


un excelente comportamiento asinttico en cuanto al error de clasificacin. Sin
embargo, cuando el nmero de prototipos disponibles en el conjunto de entrenamiento
no puede considerarse como suficientemente grande, los resultados de dicho
clasificador tienden, en general, a sufrir un importante deterioro en el proceso de
clasificacin. Consecuentemente, para determinados problemas reales (es decir, con un
nmero finito de muestras e incluso, en muchas ocasiones, un nmero relativamente

25
Captulo 2

pequeo), la aplicacin de esta regla podra entenderse como una solucin poco
apropiada, debido a los pobres resultados que pudieran obtener, es decir, a su baja tasa
de aciertos en el correspondiente proceso de clasificacin. Este problema tambin est
presente cuando el nmero de muestras de que se dispone puede considerarse pequeo
comparado con la dimensionalidad intrnseca del espacio de representacin, lo cual
corresponde a una situacin bastante habitual.

Esta prdida en la efectividad asociada a la regla k-NN y, en general, a la mayor


parte de los clasificadores basados en criterios de vecindad puede fundamentarse en el
hecho de que, bajo las condiciones prcticas que se han descrito en el prrafo anterior,
la informacin obtenida a partir de estos esquemas puede llegar a resultar insuficiente o
inadecuada para estimar de forma correcta la clase de las nuevas muestras. En este
sentido, puesto que las estimaciones de estos clasificadores se basan exclusivamente en
aspectos de proximidad, considerada sta como la mnima distancia Eucldea de una
muestra a un determinado nmero (k) de prototipos, se estar ignorando de esta manera
cualquier otro tipo de informacin que pudiera contener ciertas propiedades relativas a
la distribucin geomtrica o espacial de las muestras.

De hecho, en diversos artculos entre los que podemos mencionar a [Short, 1981] y
[Fukunaga, 1984], trataron la posibilidad de reducir el error de clasificacin asociado a
la regla de decisin k-NN en el caso finito mediante la seleccin de una mtrica
adecuada. En el primer artculo, se propone una distancia de carcter local entre cada
punto y la muestra en cuestin y, por tanto, las estimaciones para cada muestra
dependern de la regin del espacio de representacin donde se apliquen. En el segundo
artculo, se propone una distancia globalmente ptima de tipo cuadrtica, que depende
de los vecinos ms cercanos de todos los prototipos del conjunto de entrenamiento.

Como hemos sealado anteriormente, el concepto de vecindad es esencial para todos


los clasificadores no paramtricos que se apoyan en el mismo. En este sentido, una
apropiada definicin de vecindad debera satisfacer dos condiciones o criterios
suplementarios:

1. Criterio de distancia: Los vecinos deben estar tan cercanos a la nueva muestra
como sea posible.
2. Criterio de simetra: Los vecinos deben estar tan homogneamente distribuidos
alrededor de la muestra como sea posible.

La regla k-NN slo tiene en cuenta la primera de estas propiedades, por lo cual la
muestra podra no estar suficientemente rodeada por sus correspondientes vecinos, si los
prototipos del conjunto de entrenamiento no se encontraran distribuidos de manera
homognea en el espacio de representacin.

En esta direccin existen diferentes trabajos reportados en la literatura entre los que
podemos citar:

1. [OCallaghan, 1975], en su artculo, propone el uso dos parmetros y , el


primero corresponde a una distancia fijada a priori y el segundo corresponde a la
direccin.

26
Tcnicas de Clasificacin Basadas en Criterios de Vecindad

2. [Toriwaki, 1988] propone un mtodo alternativo que permite buscar los vecinos
simtricos de un punto utilizando los diagramas de Voronoi, siendo su principal
inconveniente el alto costo computacional asociado al clculo del diagrama de
Voronoi.
3. [Chaudhuri, 1996] propone una nueva definicin de vecindad, en la cual utiliza
los criterios de distancia y simetra. Se trata de un mtodo sencillo, sin la
necesidad de definir parmetros externos. En este artculo, este nuevo concepto
de vecindad se utiliza como herramienta para la deteccin de los bordes dentro
de un conjunto de puntos.
4. [Sanchez, 1998] aplica este tipo de vecindad sobre problemas generales de
clasificacin, definiendo para ello un nuevo clasificador no paramtrico de
caractersticas similares a la regla k-NN.

6.1. Vecindad de Centroide ms Prximo

La vecindad de centroide ms prximo a un punto puede ser determinada siguiendo un


mtodo sencillo, [Chaudhuri, 1996], en el que el primer vecino de un punto p se
corresponde con su vecino ms prximo, mientras que los sucesivos vecinos se tomarn
de manera que minimicen la distancia entre p y el centroide de todos los vecinos
seleccionados hasta el momento. As, si calculamos el k-simo vecino a partir de los k-1
vecinos previamente elegidos por el principio de centroide ms prximo, conseguiremos
cumplir con los criterios de distancia y simetra. En realidad, la condicin de distancia
se satisface por el hecho de tomar el vecino ms prximo como el punto de partida para
el clculo de los posteriores k-1 vecinos.

Algoritmo para la bsqueda de los k vecinos de centroide ms prximo (k-NCN)

Entrada: k Nmero de vecinos a determinar


X Conjunto de prototipos
p Muestra a la cual se le calcular su vecindad NCN
Salida: T Conjunto de los k-vecinos NCN

Mtodo:
1- S X, T , j 0
2- Buscar en S el vecino ms cercano x1 al punto p
3- T T {x1}, S S - {x1}
4- Para cada punto xi S
Calcular el centroide ci de los puntos en T {xi}
5- Seleccionar el punto xi tal que la distancia entre ci y p sea mnima. En caso
de que exista ms de un xi que cumpla esta condicin seleccionar el ms
alejado al vecino tomado en la iteracin anterior.
T T {xi}, S S - {xi}; j j + 1
6- Si j < k, ir al Paso 4
7- Devolver T

27
Captulo 2

Cabe destacar que, como consecuencia del criterio de centroide que se est
utilizando, todos los vecinos k-NCN seleccionados se situaran alrededor del punto p, es
decir, de alguna forma se consigue que dicho punto quede rodeado por sus k vecinos.

Valindonos del algoritmo de clculo de los k-NCN, podramos sealar algunas


caractersticas, en cierto modo positivas, para este concepto:

1. El primer vecino de centroide ms prximo coincide siempre con el vecino ms


cercano.
2. El criterio de distancia prevalece sobre el de simetra, debido a la secuencialidad
del algoritmo.
3. El mtodo es incremental.
4. La vecindad de Centroide ms Cercano (NCN) es mayor que la vecindad
convencional, pero resulta mucho ms homognea (es decir, los vecinos se
encuentran ms repartidos alrededor de la muestra en cuestin).

El ejemplo que mostraremos en la Figura 4 nos permitir comparar el clculo de los


vecinos k-NCN para un cierto punto p con respecto a la bsqueda de sus k-vecinos ms
cercanos. En el ejemplo, se puede apreciar que el primer vecino de centroide ms
cercano de p, representado por el nmero 1, coincide con su vecino ms cercano. El
segundo vecino de centroide ms cercano, que denotamos como 2, ya no se corresponde
con el segundo vecino ms cercano, que en este caso, sera el punto marcado como b. El
algoritmo, en realidad, intenta tomar un punto en la direccin opuesta (y de igual
distancia) a la del primer vecino con respecto al punto p, con el fin de minimizar la
distancia del centroide a dicho punto. De igual manera, los siguientes vecinos de
centroide ms cercano del punto p seran 3 y 4, mientras que c y d haran referencia a
los sucesivos vecinos ms cercanos. En la figura, el crculo de lneas discontinuas
representa la vecindad inducida por los 4 vecinos ms cercanos, mientras que el crculo
descrito por la lnea de trazo contnuo representa la vecindad inducida por los 4 vecinos
de centroide ms cercano.

En cuanto al coste computacional asociado a la bsqueda de los vecinos k-NCN para


una cierta muestra sobre un conjunto de N puntos, se puede decir que el clculo de un
vecino requiriere como mximo el cmputo de N centroides y N distancias, as como la
realizacin de N comparaciones para encontrar la mnima de estas distancias. Por tanto,
los vecinos correspondientes a un punto podrn calcularse con un coste temporal de
O(kN).

28
Tcnicas de Clasificacin Basadas en Criterios de Vecindad

Figura 5. Ejemplo del concepto NCN.

Para finalizar, podramos aadir que, en vez de utilizar el criterio de centroide ms


prximo, resultara igualmente posible obtener este mismo tipo de vecindad envolvente
a partir de la mediana ms prxima [Chaudhuri, 1996]. En este caso, la mediana de un
conjunto de N puntos X, se puede definir como el punto cuyas coordenadas
corresponden a las medianas de las respectivas coordenadas de los puntos en X. Del
mismo modo, podra generalizarse la definicin de la mediana tomando el punto ms
centrado en X.

6.2. Regla de Clasificacin k-NCN

En este epgrafe, mostramos una regla de clasificacin no paramtrica basada en la


definicin de NCN y cuya finalidad se centra, fundamentalmente, en la estimacin de la
clase de una nueva muestra, teniendo en cuenta no slo los aspectos de proximidad
(criterio de distancia), sino tambin los relacionados con la distribucin homognea de
los prototipos (criterio de simetra).

Utilizando el esquema para calcular los k-vecinos de centroide ms prximos (k-


NCN) visto anteriormente, [Snchez, 1997a] propone un nuevo esquema de
clasificacin, el cual recibe el nombre de regla de los k-Vecinos de Centroide ms
Prximo (k-NCN).

Supongamos que contamos con un conjunto formado por N prototipos pertenecientes


a M clases distintas, {X, } = {(x1, 1), (x2, 2), , (xN, N)}, y sea (x, ) el vecino ms
prximo de una muestra xE. Definamos Ck como el conjunto de los centroides de
grupos de k prototipos formados por x y cualesquiera k-1 prototipos restantes de X.
Entonces, se podr definir la vecindad envolvente por medio del concepto NCN, la cual

29
Captulo 2

denotaremos VEk(x), como el conjunto de prototipos que satisfacen las siguientes


propiedades:

1. VE1(x) = {(x, )}
2. VEk(x) = VEk-1(x) (xi, i) / d(x, c(xi, VEk-1(x))) d(x, c(xj, VEk-1(x)))
xi, x j X {VE k 1(x)}, i j
donde c(xi, VEk-1(x))Ck, denota al centroide entre los k-1 vecinos pertenecientes a
VEk-1(x) y el prototipo xi.

Si ahora definimos una nueva distancia entre un punto x y el conjunto de los


prototipos de la clase i, Pi = {Pij / j = 1, , Ni}, como:

d k ( x, Pi ) = k VEk ( x) Pi

entonces, la regla de clasificacin k-NCN quedara representada como:

k NCN ( x) = i d k ( x, Pi ) = min d k ( x, Pi )
i = 1, ..., M

El significado de la expresin anterior consistir en que la clase asignada a la


muestra x corresponder a la clase ms votada entre los k prototipos de centroide ms
prximo. En problemas prcticos, al igual que ocurra con la regla de clasificacin k-
NN, deberamos considerar un nmero impar de vecinos con el fin de evitar posibles
empates. En este caso, una va de solucin de esta dificultad sera decidiendo
aleatoriamente la clasificacin de la muestra entre las clases ms votadas. Otra solucin
consiste en asignarlo a la clase del primer vecino, o calculando la media de las
distancias correspondientes a los vecinos de cada clase.

Al igual que como se hizo en la regla k-NN, las diferentes opciones de rechazo vistas
anteriormente pueden ser implementadas utilizando como clasificador la regla k-NCN,
persiguiendo los mismos objetivos, es decir, rechazar aquellas muestras para la cual no
se tenga una certeza de pertenecer a una determinada clase. En otras palabras, si
ninguna de las M clases alcanza una mayora prefijada de los votos, entonces esta
muestra ser rechazada.

Tambin podramos alcanzar una mayor generalizacin definiendo un umbral


distinto para cada una de las clases. Adems la alternativa propuesta en [Luk, 1986],
que consiste en fijar una mayora absoluta en el nmero de votos necesarios para
clasificar una muestra como perteneciente a una determinada clase, tambin podra
aplicarse al caso de la regla k-NCN.

6.3. Clasificacin por Grafos de Proximidad

En esta seccin, vamos a presentar dos nuevas reglas de clasificacin no paramtricas


basadas en la vecindad envolvente. En este caso, la correspondiente relacin de

30
Tcnicas de Clasificacin Basadas en Criterios de Vecindad

vecindad envolvente vendr determinada por la informacin que podamos extraer a


partir de algunos grafos de proximidad, especficamente los grafos de Gabriel (GG) y
grafos de Vecindad Relativa (RNG).

El concepto de vecindad de grafo podra definirse tanto para los GGs como los
RNGs, diciendo que dos puntos sern vecinos de grafos si entre ellos se puede definir
una cierta zona de influencia vaca, es decir, si existe una cierta regin que no contenga
ningn otro punto en su interior. En el caso del GG, la representacin geomtrica de
esta zona de influencia entre dos vecinos de grafos (denominados, en este caso, vecinos
de Gabriel) p y q corresponder a una hiperesfera diametral p, q de centro en el punto
medio entre ambos vecinos y de dimetro igual a la distancia entre ellos.

p + q d(p,q)
p, q = B ( , )
2 2

De forma anloga, para el caso del RNG, la representacin geomtrica de la


vecindad relativa entre dos puntos, p y q, se fundamenta en la definicin de una
hiperluna, p, q formada por la interseccin entre dos hiperesferas, cuyos centros se
sitan sobre ambos vecinos y cuyos radios corresponden a la distancia entre ellos.

p, q= B (p, d(p, q)) B (q, d(p, q))

Tanto la vecindad de Gabriel como la vecindad relativa para una determinada


muestra se definen como la unin de todos sus vecinos. Resulta evidente que stos
presentan tambin una cierta relacin de vecindad que satisface los axiomas de distancia
y simetra impuestos en el concepto general de vecindad envolvente. En este caso, los
sucesivos vecinos se distribuirn alrededor de la muestra como consecuencia de la
particular definicin utilizada para cada una de esas estructuras de proximidad, es decir,
obtenemos directamente una distribucin, ms o menos simtrica, alrededor de las
muestras a partir de la propia restriccin de las zonas de influencia asociadas a ambos
grafos.

Dentro de este contexto, otro importante aspecto a tener en cuenta es que podemos
describir tambin una cierta regin envolvente del mismo modo que lo hacamos para
los vecinos de centroide ms prximo. As, para el caso del GG, la regin envolvente de
Gabriel para un punto p se podra definir como la unin de las correspondientes
hiperesferas de influencia entre dicho punto y la totalidad de sus vecinos.

Anlogamente, en el caso del RNG, la regin envolvente relativa para un cierto


punto p se podra definir como la unin de las sucesivas hiperlunas de influencia entre p
y sus vecinos relativos.

Por tanto, siguiendo el esquema que presentamos cuando fue expuesta la regla de
clasificacin k-NCN, es posible utilizar la vecindad de Gabriel con el fin de obtener un
clasificador envolvente [Snchez, 1997a]. Sea G(V, A) el GG asociado a X, donde V=X
es el conjunto de vrtices y A el conjunto de arcos. Entonces, se podr definir la
vecindad envolvente de Gabriel para una muestra xE mediante la siguiente expresin:

31
Captulo 2

VEG = {yV: (x, y) A}

donde VEG de una muestra x estar formada por los prototipos que se encuentren dentro
de la regin envolvente de Gabriel correspondiente a dicha muestra x.

Ahora, si consideramos m = VGE(x) y definimos Pj = {Pj,i / i = 1, , Nj} como el


conjunto de prototipos de la clase j, y se define una nueva distancia entre un punto x y
un conjunto de prototipos Pi como:

d(x, Pi) = m - VEG(x) Pi

podremos entonces representar la correspondiente regla de clasificacin de los vecinos


de Gabriel (Gabriel Neighbours, GN) como:

GN(x) = wi d(x, Pi) = min d(x, Pi)


i =1, ..., M

Trasladando las expresiones que acabamos de representar para el GG al caso de la


vecindad relativa, se puede obtener una nueva regla de clasificacin envolvente anloga
al clasificador GN [Snchez, 1997]. Sea G(V, A) el RNG asociado a X, donde V=X es
el conjunto de vrtices y A el conjunto de arcos en el grafo. De este modo, la vecindad
envolvente relativa de una determinada muestra x, VER(x) se puede definir como el
conjunto dado por medio de la siguiente expresin:

VER(x) = {yV / (x, y) A}

donde VER de una muestra x estar integrada por los prototipos contenidos en su regin
envolvente relativa.

Sea r = VGE(x), si se define una nueva distancia entre un punto x y un conjunto de


prototipos Pi, como:

d(x, Pi) = r - VER(x) Pi

podremos entonces representar la correspondiente regla de clasificacin de los vecinos


relativos (Relative Neighbours, RN) como:

RN(x) = wi d(x, Pi) = min d(x, Pi)


i =1, ..., M

32
Captulo 3

Tcnicas de Filtrado de las Muestras de


Aprendizaje

1. Introduccin

Actualmente, en muchas aplicaciones reales (biometra, categorizacin de textos,


bsqueda en bases de datos multimedia, reconocimiento de imgenes multiespectrales,
etc.), el tamao de los conjuntos o bases de datos resulta tan extremadamente grande
que muchos sistemas sufren dificultades relacionadas con el tiempo de ejecucin y los
requerimientos de almacenamiento. Bajo estas condiciones, procesar la informacin
disponible puede llegar a convertirse en una tarea compleja y problemtica. Este
inconveniente se convierte especialmente dramtico en el caso de utilizar algn
algoritmo de aprendizaje basado en distancias, tal como en el caso de la regla del vecino
ms cercano.

Entre las muchas propuestas para tratar este problema, cabe destacar las diversas
tcnicas que persiguen reducir la informacin. Tradicionalmente, en funcin de que
apliquemos una reduccin vertical u horizontal, estos mtodos pueden dividirse en dos
categoras: seleccin de caractersticas y seleccin de prototipos, centrndonos
particularmente en este ltimo aspecto a lo largo de la presentacin de este captulo.

Bajo el nombre genrico de seleccin de prototipos para la regla k-NN se encuentran


agrupados todo un conjunto de procesos previos a la aplicacin de los esquemas de
clasificacin, cuya finalidad general ser la seleccin de un subconjunto representativo
del conjunto de entrenamiento inicial para la posterior aplicacin de la regla NN,
utilizando slo los prototipos seleccionados. Bsicamente, se trata de aumentar la
eficiencia del clasificador y, al mismo tiempo, reducir suficientemente la talla del
conjunto de prototipos con el fin de aliviar en cierta medida la importante carga
computacional asociada a este tipo de clasificadores.

De forma generalizada, suele considerarse una clasificacin de las tcnicas de


seleccin de prototipos en funcin del objetivo perseguido con su aplicacin [Devijver,
1982], dividindose las mismas en dos grandes: edicin o filtrado y condensado.

Los algoritmos de edicin intentan eliminar del conjunto de entrenamiento aquellos


prototipos errneamente etiquetados y, al mismo tiempo, limpiar los posibles
solapamientos entre regiones de clase distintas, es decir, su objetivo principal es lograr
agrupamientos compactos y homogneos; en el caso del vecino ms cercano, la regla de
Captulo 3

clasificacin resultante se conoce como regla NN editada [Devijver, 1982]. El segundo


grupo de procedimientos pertenecientes a la seleccin de prototipos est integrado por
los algoritmos de condensado, los cuales persiguen como objetivo central, seleccionar
un subconjunto de prototipos que proporcione un comportamiento para la regla NN
similar al obtenido utilizando la totalidad del conjunto de entrenamiento. De este modo,
la regla de clasificacin resultante se denomina regla NN condensada [Devijver, 1982].

Este captulo se centrar en las tcnicas de seleccin de prototipos sobre entornos de


aprendizaje no paramtrico, haciendo nfasis en los algoritmos de edicin. Para ello,
comenzaremos dando una visin general del problema para, posteriormente, pasar a
presentar las diferentes soluciones a partir de una sencilla clasificacin de los mtodos
ms habitualmente utilizados. Esta categorizacin de las tcnicas de seleccin de
prototipos nos permitir distinguir entre mtodos de simple seleccin y mtodos de
generacin o abstraccin de prototipos. A continuacin, se har un recorrido por
algunos de los ms conocidos algoritmos pertenecientes a cada categora, as como otros
esquemas menos populares que han aparecido recientemente.

2. Algoritmos de Edicin

Al iniciar el proceso de entrenamiento de un clasificador, debemos de disponer de un


conjunto de entrenamiento donde la totalidad de los prototipos se encuentren
correctamente etiquetados pero, en muchas aplicaciones prcticas, este conjunto de
entrenamiento puede incluir un cierto nmero de prototipos errneos o incorrectamente
etiquetados que, obviamente, darn lugar a unas tasas de error muy superiores a las
esperadas. Las tcnicas de edicin tienden, precisamente, a obtener un conjunto de
prototipos distribuidos en grupos compactos o clusters, y al mismo tiempo, a eliminar
los prototipos que se encuentran en alguna regin de una clase distinta a la suya (estos
prototipos en la literatura cientfica reciben el nombre de outliers).

Podemos sealar tambin, que la aplicacin de los algoritmos de edicin es


importante no slo como herramienta para disminuir el error de la clasificacin asociado
a las distintas reglas NN, sino tambin para llevar acabo cualquier proceso posterior que
pudiese beneficiarse de un conjunto de entrenamiento con unas fronteras de decisin
sencillas. La idea comn a todos los esquemas de edicin consistir en descartar
prototipos que se encuentren en la regin correspondiente a alguna clase distinta a la
suya, prototipos cuya probabilidad de pertenencia a su clase se vea superada por la
probabilidad de pertenencia a alguna otra clase diferente de la suya.

En la Figura 6, mostramos un esquema funcional de la clasificacin por la regla k-


NN tomando como conjunto de referencia a un conjunto editado (S) y al conjunto de
entrenamiento (TS). Denotamos mediante S el conjunto de prototipos editado,
construido a partir del TS mediante algn mtodo de edicin. Mediante R nos referimos
al conjunto de referencia (donde se realiza la bsqueda del vecino ms cercano). El
conjunto X que aparece representado en la figura no es ms que el conjunto de prueba
con el cual se validan los porcentajes de clasificacin.

34
Tcnicas de Filtrado de las Muestras de Aprendizaje

Figura 6. Clasificacin k-NN usando el conjunto completo y editado.

En este captulo, nos percataremos que la diferencia fundamental entre los diferentes
esquemas de edicin hace referencia al mtodo de estimacin de la probabilidad de
pertenecer a una cierta clase una determinada muestra. A continuacin, se hace una
exposicin detallada de los procedimientos de edicin ms interesantes propuestos en la
literatura consultada.

2.1. Taxonomas de los Algoritmos de Edicin

En el trabajo de [Wilson, D.R y Martnez, T.R, 2000], se presenta una clasificacin de


los mtodos de edicin, siguiendo tres distintas estrategias o direcciones: incremental,
decremental o por lotes.

Estrategia incremental. En este tipo de estrategia (Figura 7), se parte de un


conjunto vaco S y en cada paso se aade a S el objeto que satisface el criterio de
seleccin de objetos empleado. En esta estrategia, el orden en que se presentan los
objetos en el conjunto es importante, ya que la probabilidad de que los primeros objetos
sean incluidos en S es mayor que la de los ltimos. Es decir, cuando los ltimos objetos
se presentan, pueden ya estar representados por algunos de los primeros. En este
sentido, puede verse daada la precisin en la clasificacin si los ltimos objetos
representan una mayor generalizacin que los primeros. Es por esta razn que, en la
estrategia incremental, los objetos se presentan en un orden aleatorio, ya que por
definicin, un mtodo incremental debe ser capaz de seleccionar objetos sin necesidad
de que stos se presenten primero.

Una ventaja de este tipo de estrategia es que resulta ser ms rpida y consumir menos
recursos de almacenamiento durante el proceso de entrenamiento del clasificador en
comparacin a las estrategias no incrementales. La principal desventaja de la estrategia

35
Captulo 3

incremental es, como se ha mencionado anteriormente, que es sensible al orden en que


se presentan los objetos y, adems, las primeras decisiones estn basadas en muy poca
informacin y, por tanto, estas decisiones son propensas a errar en la clasificacin. Por
esta razn, algunos mtodos incrementales realizan una fase denominada de grupo
inicial, que consiste en partir de un determinado nmero de objetos en el conjunto S y
despus aplicar la estrategia propuesta.

Figura 7. Estrategia de edicin incremental.

Estrategia decremental. Esta estrategia (Figura 8), comienza considerando S=TS y,


en cada paso, se determina el objeto a eliminar de S de acuerdo al criterio de seleccin
del objeto. Tambin en esta estrategia es importante el orden en que los objetos se
presentan pero, a diferencia de las tcnicas incrementales, todos los objetos
parcialmente almacenados estn disponibles en todo momento para examinar cul de
ellos resulta conveniente eliminar.

Figura 8. Estrategia de edicin decremental.

La principal ventaja de esta estrategia es que se obtiene una mayor reduccin del
conjunto de entrenamiento y normalmente, se logra una mayor precisin en la
clasificacin con respecto a la obtenida con la muestra original.

Una desventaja que presenta esta estrategia es que resulta ser computacionalmente
ms costosa con respecto al enfoque incremental, ya que, por ejemplo, para encontrar
similitud entre un objeto y el subconjunto S, la estrategia decremental lleva a acabo n
comparaciones (donde n=|S|), mientras que la estrategia incremental realiza menos
clculos (cero inicialmente y, posteriormente, slo una fraccin de |TS|).

36
Tcnicas de Filtrado de las Muestras de Aprendizaje

Estrategia por lotes. Esta es otra de las maneras en que puede llevarse a cabo el
proceso de edicin, la cual consiste en identificar y marcar aquellos objetos que no
satisfacen el criterio de seleccin, los cuales no sern considerados en el subconjunto S
y, finalmente, se eliminan tales objetos, es decir, no se elimina slo un objeto sino
grupos de estos. Al igual que la estrategia decremental, esta tcnica resulta ser costosa
desde el punto de vista computacional.

Tambin, en base al efecto que causa la eliminacin de los objetos, [Brighton. H,


Mellish. C, 2002] suelen dividir los mtodos de edicin en tres esquemas:

1. Incremento de la competencia.
2. Preservacin de la competencia.
3. Esquema hbrido.

El primer esquema est enfocado a descartar aquellos objetos cuya eliminacin da


lugar a un incremento de la precisin en los resultados de clasificacin. Normalmente
esta tcnica elimina objetos considerados como ruido. La segunda propuesta elimina
objetos superfluos, es decir, aquellos objetos cuya eliminacin no provoca un
decremento en la precisin de los resultados de clasificacin. Por ltimo, el esquema
hbrido se deriva de los dos esquemas anteriores y se encarga de abordar ambos
problemas simultneamente.

3. Algoritmo de Edicin de Wilson

El algoritmo de Edicin de Wilson [Wilson, 1972] es el primer mtodo de edicin


propuesto en la literatura cientfica con el objetivo de limpiar o filtrar el conjunto de
entrenamiento para las reglas NN mediante la eliminacin de prototipos errneamente
etiquetados. El fundamento terico propuesto por Wilson en su algoritmo es el
siguiente: si un prototipo resulta mal clasificado a partir de la regla k-NN, ser
eliminado del conjunto de entrenamiento. Es importante sealar que mediante este
proceso se utilizarn todos los prototipos del conjunto de entrenamiento con excepcin
del que se est considerando en cada momento para determinar los k vecinos ms
prximos, es decir, el mtodo de estimacin del error empleado en este algoritmo
corresponder al mtodo leaving-one-out.

Sea {X, } = {(x1, 1), (x2, 2), , (xN, N)} un conjunto de entrenamiento con N
prototipos y M posibles clases y, sea k el nmero de vecinos ms prximos a determinar
para cada prototipo. Entonces, podemos escribir el algoritmo de edicin de Wilson del
siguiente modo:

Algoritmo Edicin de Wilson (X, k)

Entrada: X Conjunto de entrenamiento a editar


k Cantidad de vecinos
Salida: S Conjunto editado

37
Captulo 3

Mtodo:
1- S X
2- Para cada prototipo xiX
2.1- Buscar los k-NN ms prximos de xi en X - {xi}
2.2- Si k-NN (xi) i entonces S S - {xi}
3- Devolver S

Como puede apreciarse, este esquema de edicin resulta sumamente sencillo de


implementar y es fcilmente comprensible. Adems, el comportamiento expuesto para
la regla k-NN puede claramente extenderse para el caso de la edicin de Wilson, puesto
que la correccin de los prototipos se estima a partir de dicha regla de clasificacin. Por
otra parte, el coste computacional para este procedimiento de edicin es de O(N2), lo
cual hace que para ciertos problemas prcticos donde se cuente con conjuntos de
entrenamiento relativamente grandes su aplicacin se puede ver limitada.

3.1. Edicin Repetitiva

Apoyndose en el esquema de edicin de Wilson, [Tomek, 1976a] presenta un esquema


iterativo con el objetivo de obtener conjuntos an ms compactos y homogneos a los
encontrados por el algoritmo de Wilson.

Algoritmo Edicin Repetitiva (X, k)

Entrada: X Conjunto de entrenamiento a editar


k Cantidad de vecinos
Salida: S Conjunto editado

Mtodo:
1- S
2- Mientras |X| |S|
2.1- S X
2.2- Aplicar la Edicin de Wilson sobre el conjunto X
3- Devolver S

Desde el punto de vista terico, la aplicacin repetida del algoritmo de Wilson debe
mejorar los resultados obtenidos con el algoritmo original pero, en la prctica, el
algoritmo no mejora de manera significativa la efectividad de la clasificacin dado que
elimina muy pocos prototipos despus de la primera iteracin, por lo que finaliza al
cabo de muy pocas iteraciones.

38
Tcnicas de Filtrado de las Muestras de Aprendizaje

3.2. Edicin con Rechazo

Basndonos en unos criterios muy similares a los considerados en el algoritmo anterior,


se puede obtener un esquema alternativo en el que la regla k-NN con rechazo vista en el
captulo anterior, se utilizar, no slo en el proceso de edicin, sino tambin en la
clasificacin de nuevas muestras [Tomek, 1976b]. Mediante este procedimiento, un
conjunto de entrenamiento con M posibles clases se convertir en un conjunto editado
con M+1 clases distintas (incluyendo la clase correspondiente a los prototipos
rechazados o clase 0) y, por consiguiente, el posterior proceso de clasificacin deber
realizarse teniendo en cuenta que se trata de un nuevo problema, ahora de M+1 clases.

Algoritmo Edicin con Rechazo (X, k, l)

Entrada: X Conjunto de entrenamiento a editar


k Cantidad de vecinos
l Umbral para la regla k-NN con Rechazo
Salida: S Conjunto editado

Mtodo:
1- S X
2- Para cada prototipo xi X
2.1- Buscar los k-NN vecinos de xi en X - {xi}
2.2- Si (k, l)-NN (xi) i 0, hacer S S - {xi}
2.3- Si (k, l)-NN (xi) i = 0 asignar a xi la clase de los prototipos
rechazados
3- Devolver S

El objetivo que se persigue con este algoritmo es descartar las muestras dudosas,
es decir, las que se encuentran prximas a las fronteras de decisin.

3.3. Edicin con Reetiquetado

El procedimiento de este algoritmo se basa en reetiquetar determinados prototipos en


funcin de la zona del espacio de representacin en la que se encuentran [Koplowitz,
1981] utilizando para ello la regla k-NN con Rechazo. No obstante, la idea de asignar
prototipos a una clase distinta a la suya no parece, en general, apropiada y, por tanto,
para ciertos problemas, este procedimiento no podr aplicarse de forma correcta.

Algoritmo Edicin con Reetiquetado

Entrada: X Conjunto de entrenamiento a editar


k Cantidad de vecinos

39
Captulo 3

l Umbral para la regla k-NN con Rechazo


Salida: S Conjunto editado

Mtodo:
1- S X
2- Para cada prototipo xi X
2.1- Buscar los k-NN vecinos de xi en X - {xi}
2.2- Si (k, l)-NN (xi) i 0 asignar a xi la clase ms votada por sus k
vecinos ms prximos.
2.3- Si (k, l)-NN (xi) i = 0 hacer S S - {xi}
3- Devolver S

Debemos sealar que tanto en el algoritmo de edicin con rechazo propuesto por
[Tomek, 1976b] como en la edicin con reetiquetado [Koplowitz, 1981], se ha
empleado como regla de edicin la regla (k,l)-NN, pero en estos algoritmos tambin se
pueden emplear las diferentes variantes relativas a la opcin de rechazo que expusimos
en el captulo anterior de la presente memoria.

4. Edicin por Particin

En el caso del algoritmo de Wilson, resulta incorrecto considerar que la estimacin


realizada sobre cada uno de los prototipos del conjunto de entrenamiento sea
estadsticamente independiente, por lo tanto, no ser posible llevar a cabo el anlisis del
comportamiento asinttico para la correspondiente regla NN editada [Penrod, 1977].
Con el fin de resolver esta dificultad, [Devijver, 1980] propone un nuevo algoritmo de
edicin basado en el esquema de Wilson, pero cambiando el mtodo de estimacin de la
pertenencia de un prototipo a su clase.

En este nuevo esquema de edicin, el mtodo de estimacin consistir en realizar una


particin del conjunto de entrenamiento en m bloques disjuntos de prototipos y, despus
de enumerarlos, hacer una estimacin para cada bloque j, utilizando el bloque ((j+1)
mdulo m) para disear el clasificador. A partir de este procedimiento, ser posible
considerar que las funciones de diseo y evaluacin preserven aquella independencia
estadstica (siempre que m>2) de la que carecan precisamente las propuestas anteriores.

Teniendo en cuentas las modificaciones sealadas en el prrafo anterior sobre el


esquema de Wilson, el algoritmo de edicin basado en particiones se puede resumir de
la siguiente manera.

Algoritmo Edicin por Particiones (Holdout)

Entrada: X Conjunto de entrenamiento a editar


k Cantidad de vecinos

40
Tcnicas de Filtrado de las Muestras de Aprendizaje

m Nmero de particiones

Mtodo:
1- Hacer una particin aleatoria de X en m bloques T1, ,Tm
2- Para cada bloque Tj (j = 1, , m)
2.1- Para cada xi en Tj
2.1.1- Buscar los k-NN vecinos de xi en T((j+1) mod m)
2.1.2- Si k-NN (xi) i, hacer T T - {xi}

Se ha demostrado en [Devijver, 1982] que este esquema de edicin por particin


presenta un comportamiento asinttico ptimo. El coste computacional del mtodo,
considerando que el nmero de distancias a calcular est en funcin del nmero de
bloques m, ser O(N2/m). Podemos comentar adems, que dado que la particin del
conjunto a editar se hace de manera aleatoria, puede darse el caso de que algunos de los
conjuntos de prototipos obtenidos mediante esta particin aleatoria no sean lo
suficientemente representativos del conjunto inicial, por lo cual debemos sugerir que las
particiones que se hagan tengan presente la distribucin de los prototipos en el conjunto
de entrenamiento inicial.

4.1. Algoritmo Multiedicin

Al igual que se propuso una versin iterativa para la edicin de Wilson, tambin el
esquema basado en particiones permite la posibilidad de iterar el proceso de edicin un
determinado nmero de veces [Devijver, 1980], dando lugar al algoritmo Multiedit, el
cual consiste en repetir la edicin por particin pero utilizando la regla NN (k=1) para la
seleccin de los prototipos.

Algoritmo Multiedit

Entrada: X Conjunto de entrenamiento a editar


f Nmero de iteraciones consecutivas sin que se produzcan
eliminaciones
m Nmero de particiones

Mtodo:
1- t = 0
2- Repetir hasta que en las ltimas t iteraciones (t > f) no se produzca ninguna
eliminacin de prototipos del conjunto X.
2.1- Asignar a S el resultado de aplicar la Edicin por Particin sobre X
utilizando la regla NN.
2.2- Si no se ha producido ninguna nueva eliminacin en el paso 2.1
(|X| = |S|) hacer t = t + 1 e ir al Paso 2

41
Captulo 3

2.3- Asignar a X el contenido de S y hacer t = 0

Es preciso sealar que la gran ventaja de la versin iterativa es que, para conjuntos
de entrenamiento finitos aunque suficientemente grandes, su comportamiento resulta ser
significativamente mejor debido al hecho de no presentar aquella dependencia del
parmetro k que s mostraba el algoritmo anteriormente mostrado.

Podemos sealar tambin que en problemas prcticos este algoritmo presenta las
siguientes limitantes.

El comportamiento para las alternativas de edicin basadas en particiones


empeora a medida que disminuye la talla del correspondiente conjunto de
entrenamiento.
Esta degradacin de la efectividad ser tanto ms importante a medida que el
nmero de bloques por particin sea mayor. En la prctica, para el caso de
conjuntos de entrenamiento relativamente pequeos, el algoritmo de edicin de
Wilson funciona considerablemente mejor que el algoritmo Multiedit.

4.2. Edicin por Validacin Cruzada

La principal desventaja para la edicin de Wilson resida en la falta de independencia


estadstica (debido al mtodo de estimacin del error empleado, leaving-one-out). Por
otro lado, el comportamiento incorrecto de los modelos basados en particiones
aplicados sobre conjuntos pequeos se deba, fundamentalmente, a los errores en la
estimacin. Con el objetivo de eliminar las dificultades antes mencionadas, [Ferri,
1992b] propone un nuevo algoritmo de edicin el que consiste en utilizar un mtodo de
estimacin del error que, teniendo en cuenta la independencia estadstica, aproveche
tambin todos los prototipos de que se dispone en el conjunto de entrenamiento. Por
ello, se propone utilizar el estimador por Validacin Cruzada, dentro de un esquema de
particin.

Algoritmo Edicin por Validacin Cruzada

Entrada: X Conjunto de entrenamiento a editar


k Cantidad de vecinos
m Nmero de particiones

Mtodo:
1- Hacer una particin aleatoria de X en m bloques T1, , Tm
2- Para cada bloque Tj (j = 1, , m)
2.1- Para cada xi en Tj
2.1.1- Buscar los k-NN vecinos de xi en Tj

42
Tcnicas de Filtrado de las Muestras de Aprendizaje

2.1.2- Si k-NN (xi) i, hacer X X - {xi}

4.3. Multiedicin por Validacin Cruzada

Siguiendo el mismo principio del esquema de edicin por Particin simple y del
algoritmo Multiedit, en el trabajo de [Ferri, 1992b] se propone un esquema repetitivo de
la aproximacin basada en estimacin por Validacin Cruzada presentada en el epgrafe
anterior.

Algoritmo Multiedit por Validacin Cruzada

Entrada: X Conjunto de entrenamiento a editar


f Nmero de iteraciones sin que se produzcan eliminaciones
m Nmero de particiones

Mtodo:
1- t = 0
2- Repetir hasta que en las ltimas t iteraciones (t > f) no se produzca
ninguna eliminacin de prototipos del conjunto X
2.1- Asignar a S el resultado de aplicar el Algoritmo de Edicin por
Validacin Cruzada sobre X utilizando la regla NN
2.2- Si no se ha producido ninguna eliminacin en el paso anterior
(|T| = |S|), hacer t = t + 1 e ir al Paso 2
2.3- Asignar a X el contenido de S y hacer t = 0

5. Edicin por Vecindad de Centroide ms Prximo

Dentro de los esquemas de edicin que hemos descrito a lo largo de este captulo, el
esquema de Wilson adems de ser la primera propuesta como mtodo para editar la
regla NN, constituye tambin una de las tcnicas ms sencillas y ms eficaces para
conseguir una relativa mejora en el comportamiento asociado a la regla de clasificacin
NN. Como ya se ha dicho anteriormente, este procedimiento consiste en eliminar del
conjunto de entrenamiento aquellos prototipos que resultan incorrectamente clasificados
a partir de la regla k-NN, utilizando leaving-one-out como mtodo de estimacin del
error.

A pesar de los buenos resultados que generalmente podremos obtener con la


aplicacin de la edicin de Wilson, este mtodo hereda algunos de los importantes
inconvenientes ya apuntados para el clasificador k-NN en el caso finito. El anormal
comportamiento del esquema de Wilson y, en general, de la mayora de los

43
Captulo 3

procedimientos de edicin basados en la regla k-NN para determinados problemas,


podra entenderse, en parte, como una consecuencia de la finitud de las muestras que
dan lugar a vecindades relativamente grandes.

En principio, todos los algoritmos de edicin son capaces de localizar correctamente


los prototipos que, sin pertenecer al conjunto de los puntos frontera, se encuentran en
alguna clase distinta a la suya. Sin embargo, cuando esos mismos esquemas deben de
enfrentarse con los prototipos de la frontera, pueden llegar a tener grandes dificultades
para detectar a los verdaderos outliers y no descartar prototipos correctamente
etiquetados. Esto es debido a que la regla de decisin que estos algoritmos emplean
considera una definicin de vecindad exclusivamente en trminos de distancia,
olvidndose por completo del criterio de simetra.

Por lo antes expuesto, [Snchez, 1997b] propone el algoritmo de edicin k-NCN, el


cual consistir bsicamente en aplicar las reglas de clasificacin envolvente, presentadas
en el captulo anterior y utilizar leaving-one out como mtodo de estimacin del error.
De manera general, puesto que el algoritmo de Wilson consigue buenos resultados de
edicin y, por otra parte, los esquemas envolventes de clasificacin superan en mayor o
menor medida a la regla k-NN, entonces lo que se pretende es lograr un esquema de
edicin que se beneficie de las principales ventajas de ambos, es decir, considerar la
edicin de prototipos para la regla NN en trminos tanto de proximidad como de
distribucin espacial, obteniendo de este modo una informacin ms precisa que nos
pueda permitir ajustar las decisiones sobre los puntos fronteras.

Sea {X, } = {(x1, 1), (x2, 2), , (xN, N)} un conjunto de entrenamiento con N
prototipos y M posibles clases distintas. Sea k el nmero de vecinos de centroide ms
prximo a determinar para cada prototipo. Entonces, el algoritmo de edicin propuesto
por [Snchez, 1997b], el cual recibe el nombre de Wilsoncn (k-NCN), podr escribirse
del siguiente modo:

Algoritmo Wilsoncn (k-NCN)

Entrada: X Conjunto de entrenamiento a editar


k Cantidad de vecinos
Salida: S Conjunto editado

Mtodo:
1- Inicializacin S X
2- Para cada prototipo xiX
2.1- Buscar los k vecinos de centroide ms prximo de xi en X - {xi}
2.2- Si k-NCN (xi) i, entonces S = S - {xi}

Como puede observarse, este algoritmo de edicin resultar tan simple y sencillo de
implementar como lo era el procedimiento de Wilson, puesto que la nica variacin que
se ha introducido corresponde al mtodo de clasificacin, en este caso, la regla k-NCN

44
Tcnicas de Filtrado de las Muestras de Aprendizaje

aplicada en el ltimo paso del algoritmo. Es importante tambin sealar que el coste
computacional asociado a este esquema de edicin, donde se tienen que calcular los k
vecinos de centroide ms prximo para una determinada muestra con un coste O(kN) y
puesto que ahora deberemos de repetir este proceso para cada uno de los N prototipos
del conjunto de entrenamiento, resultar ser O(kN2), es decir, similar al coste de la
edicin de Wilson.

Es preciso hacer algunos comentarios sobre el algoritmo k-NCN, ya que sobre el


mismo se pueden definir diversas extensiones similares a las que presentamos para el
algoritmo de edicin de Wilson. En concreto, se podran implementar las siguientes
variantes:

1. La versin repetitiva del esquema de edicin por NCN, es decir, aquella que
consiste en editar el conjunto de entrenamiento utilizando la regla k-NCN hasta
que no se produzcan ms eliminaciones de prototipos.
2. Reetiquetar determinados prototipos en funcin de la zona del espacio de
representacin que ocupe, aplicando en este caso la regla k-NCN con Rechazo
en vez del esquema k-NCN. Cabe sealar que esta aproximacin tendr
exactamente los mismos inconvenientes que la propuesta de reetiquetado por la
regla k-NN con Rechazo [Koplowitz, 1981], es decir, la idea de asignar ciertos
prototipos a una clase distinta a la suya no resultar, en general, la ms
apropiada.
3. Utilizar la regla k-NCN con rechazo no slo para editar el conjunto de
prototipos, sino tambin en la clasificacin. A partir de esta aproximacin, un
conjunto de entrenamiento con M clases pasar a tener M+1 clases distintas de
igual manera que en [Tomek, 1976b].
4. Utilizar el esquema de edicin por Particin y, considerar como regla de edicin
la regla k-NCN, es decir, el mtodo de estimacin consistir en realizar una
particin aleatoria del conjunto de entrenamiento en m bloques disjuntos de
prototipos y, despus de enumerarlos, hacer una estimacin para cada bloque j,
utilizando el bloque ((j+1) mdulo m) para disear el clasificador.

6. Edicin Basada en Grafos de Proximidad

En el captulo anterior, conjuntamente con la regla de decisin k-NCN, se presentaba


tambin la aplicacin de otros dos mtodos de clasificacin envolventes definidos a
partir de una cierta relacin de vecindad derivada de determinados tipos de grafos de
proximidad, el GG y el RNG [Snchez, 1997a].

A continuacin, expondremos un esquema de edicin basado en el concepto de


vecindad de grafo. Estos algoritmos tomarn como base el mtodo de edicin de
Wilson, el mtodo leaving-one-out ser utilizado como mtodo de estimacin del error
y slo ser modificado el procedimiento para decidir qu prototipos deben ser
eliminados del conjunto de entrenamiento.

45
Captulo 3

Un primer algoritmo de edicin por grafos de proximidad consistir en calcular los


vecinos de grafos para cada uno de los prototipos y, a continuacin, eliminar del
conjunto de entrenamiento aquellos prototipos cuya vecindad no pertenezca
mayoritariamente a su misma clase. Esta propuesta de edicin utilizar las reglas de
clasificacin GN y RG para estimar los prototipos errneamente etiquetados.

Sea {X, } = {(x1, 1), (x2, 2), , (xN, N)} un conjunto de entrenamiento con N
prototipos y M posibles clases distintas. Entonces el correspondiente algoritmo de
edicin por vecindad de grafo de 1er orden [Snchez, 1997c] podr escribirse del
siguiente modo:

Algoritmo I Edicin por Vecindad de Grafo

Entrada: X Conjunto de entrenamiento a editar


Salida: S Conjunto editado

Mtodo:
1- Inicializacin: S X
2- Para cada prototipo xiX
2.1- Buscar los vecinos de grafo de xi en X
2.2- Si GN (xi) i ( RN(xi) i ), hacer S S - {xi}

Este esquema general dar lugar a dos posibles procedimientos de edicin en funcin
del tipo de grafo de proximidad que utilicemos y, por tanto, de la regla de clasificacin
que apliquemos en el ltimo paso del algoritmo. Las diferencias entre estas dos
propuestas y los mtodos de Wilson y Wilsoncn, bsicamente se refieren a dos aspectos:

1. En los algoritmos de grafos de proximidad, no se establece ningn parmetro k,


puesto que el nmero de vecinos de grafo vara para cada prototipo del conjunto
de entrenamiento y no constituye una propiedad que deba fijar el usuario.
2. El coste computacional a estos esquemas de edicin viene determinado,
fundamentalmente, por la elevada carga computacional que requiere en gran
medida la construccin de las estructuras geomtricas.

A partir de la idea general de utilizar determinados grafos de proximidad para editar


un conjunto de entrenamiento, es posible definir diversas extensiones con el objetivo de
aprovechar de manera eficiente la informacin local de los objetos en las vecindades de
grafo. Una modificacin de los algoritmos anteriormente descritos consistir en tener en
cuenta no slo los vecinos de grafos de cada prototipo, sino tambin los vecinos
correspondientes a los vecinos de su misma clase. El objetivo de esta alternativa es
disponer de ms informacin para ajustar las decisiones y, de este modo, asegurar la
deteccin de ouliers fundamentalmente en las proximidades a las fronteras entre clases.
Al mismo tiempo, al tener en cuenta no slo los vecinos de grafo sino tambin los
vecinos de su misma clase, esto permite descubrir la posible existencia de pequeos
ncleos de prototipos errneamente etiquetados dentro del agrupamiento general de
alguna clase.

46
Tcnicas de Filtrado de las Muestras de Aprendizaje

Por consiguiente, teniendo en cuenta la idea anteriormente expuesta, podemos


describir otro algoritmo de edicin presentado por [Snchez, 1997c] el cual incluye las
modificaciones al procedimiento anterior.

Algoritmo II Edicin por Vecindad de Grafo

Entrada: X Conjunto de entrenamiento a editar


Salida: S Conjunto editado

Mtodo:
1- Inicializacin: S X
2- Para cada prototipo xiX
2.1- Buscar los vecinos de grafo de xi en X
2.2- Si GN (xi) i ( RN (xi) i)
2.2.1- Buscar los vecinos de grafos correspondientes a los vecinos de su
misma clase (i)
2.2.2- Si GN (xi) i ( RN (xi) i) con los vecinos de los pasos 2.1 y
2.2.1, hacer S S - {xi}

Siguiendo en esta misma lnea, por ejemplo, una pequea variacin con respecto a la
propuesta que acabamos de ver podra consistir en tomar la vecindad de segundo orden
para todos los prototipos, independientemente del resultado obtenido en la votacin
inicial con los vecinos de primer nivel. En cuanto al coste computacional de este nuevo
esquema, se puede decir que, bsicamente ser el mismo que para la edicin por
vecindad de grafo de 1er orden puesto que, como ya hemos apuntado, la principal carga
computacional asociada a este tipo de procedimiento viene determinada por la
construccin de la correspondiente estructura de grafo.

7. Algoritmos de Edicin Basados en Instancias

Una serie de mtodos de edicin incremental basados en instancias (ejemplos)


denominados IB2, IB3, IB4 e IB5 son propuestos en [Aha, D.W, Albert, D. 1991] y
[Aha, D.W, 1992]. Estos mtodos emplean como base el algoritmo IB1, el cul no es un
mtodo de edicin, ya que es una tcnica para determinar si la clasificacin de un nuevo
objeto O es correcta o incorrecta. La manera en que se determina la clasificacin es
encontrando en el conjunto de entrenamiento al objeto ms parecido a O y, si sus
correspondientes clases difieren, entonces se dice que la clasificacin de O es
incorrecta.

A continuacin presentamos el algoritmo IB1 propuesto en el artculo anteriormente


citado:

47
Captulo 3

Algoritmo IB1
Entrada: X Conjunto de entrenamiento a editar
Salida: S Conjunto editado

Mtodo:
Inicializacin S
Para cada objeto O de X hacer
1- Para cada objeto y en S hacer
Sim[y] = Calcular similaridad entre [O, y]
2- ymax = El objeto y de S con mayor similaridad con O
3- Si la clase(O) = clase(ymax) entonces la clasificacin es correcta y
3.1- S S{O}
3.2- De lo contrario clasificacin incorrecta
4- Devolver S

El algoritmo IB2 es idntico al algoritmo IB1, excepto que IB2 almacena los objetos
clasificados errneamente, pues es un mtodo de edicin cuya regla a seguir es
encontrar en la muestra original un subconjunto que contenga aquellos objetos que
fueron clasificados incorrectamente durante el proceso. El algoritmo IB2 resulta ser
sensible al ruido, pues en base a la regla que sigue, almacena objetos ruidosos, ya que,
por su naturaleza, este tipo de objetos suele clasificarse de manera incorrecta. Es
importante sealar, que este algoritmo tiene mucha similitud con el algoritmo de Hart
que expondremos en el prximo captulo. El algoritmo IB3 analiza los resultados de
clasificacin antes de eliminar un objeto ruidoso, mantiene un registro de cmo se
clasifica con los objetos que se van almacenando y elimina aquellos con los cuales,
estadsticamente, se ven afectados los resultados de la clasificacin. Los algoritmos IB4
e IB5 son extensiones de IB3, ya que, para cada clase, determinan un conjunto de pesos
que sern asignados a los atributos de los objetos para fines de clculo de similitudes.

8. Algoritmos DROP (Decremental Reduction Optimization Procedure)

En el trabajo de [Wilson, D.R. y Martnez, T.R, 2000], se proponen los mtodos


decrementales DROP (Decremental Reduction Optimization Procedure). Estos mtodos
basan su regla de seleccin en trminos del concepto de socio y de asociado.

Definicin: Sea X , el socio de un objeto P que pertenece al conjunto X, es aqul


objeto que tiene a P como uno de sus k vecinos ms cercanos.

Definicin: Aquellos ejemplos que tienen a P como uno sus k vecinos ms cercanos son
llamados asociados de P y se denotan mediante la expresin P. A1,,a , donde a es el
nmero de asociados de P.

48
Tcnicas de Filtrado de las Muestras de Aprendizaje

El algoritmo DROP1 elimina un objeto P de S si sus socios en S se clasifican


correctamente sin P, es decir, bajo este criterio, la ausencia de P no afecta los resultados
de la clasificacin.

El algoritmo DROP2 propuesto en este artculo verifica el efecto que causa la


eliminacin del objeto en los objetos de la muestra original, es decir, DROP2 elimina al
objeto P de S si los socios que P tiene en TS se clasifican correctamente sin P. Los
algoritmos DROP3 y DROP4 aplican un filtrado de ruido (similar al algoritmo de
Wilson) antes de comenzar el proceso de edicin. La diferencia entre ambos es el
criterio empleado en la etapa de filtrado, ya que DROP4 antes de eliminar el objeto
ruidoso, verifica el impacto de clasificacin provocado al no considerar tal objeto para
determinar si ser o no eliminado. Finalmente, el mtodo DROP5 modifica al algoritmo
DROP2 de tal manera que comienza por eliminar objetos que se encuentran cerca de los
enemigos ms cercanos (objetos cercanos con distinta clase).

El algoritmo Drop1 puede ser formalmente descrito de la manera siguiente:

Algoritmo DROP1

Entrada: X Conjunto de entrenamiento a editar


Salida: S Conjunto editado

Mtodo:
1- Sea S = X
2- Para cada objeto P in S
2.1- Encontrar los k+1 vecinos ms cercanos de P en S
2.2- Adicionar P a cada una de las listas de sus vecinos asociados
3- Para cada objeto P en S
3.1- Sea with = nmero de asociados de P clasificados correctamente con
P como un vecino
3.2- Sea without = nmero de asociados de P clasificados correctamente
sin P
3.3- Si without with
3.3.1- Eliminar a P de S
3.3.2- Para cada asociado A de P
3.3.2.1- Eliminar a P de la lista de vecinos ms cercanos de A
3.3.2.2- Encontrar un nuevo vecino ms cercano para A
3.3.2.3- Adicionar A a la nueva lista de vecinos asociados
3.3.3- Para cada vecino W de P
3.3.3.1- Eliminar a P de la lista de asociados de W
3.4- Fin del ciclo
4- Retornar subconjunto S

Este algoritmo comienza construyendo, para cada ejemplo, tanto una lista de vecinos
ms cercanos como una lista de asociados. Entonces, cada ejemplo en S se elimina si su
eliminacin no afecta el resultado de la clasificacin del resto de los ejemplos en S.

49
Captulo 3

Cuando un ejemplo P se elimina, todos sus asociados deben eliminar a P de su lista de


vecinos ms cercanos y entonces deben encontrar un nuevo vecino ms cercano tal que
sigan teniendo k+1 vecinos en su lista. Cuando ellos encuentran un nuevo vecino W,
ellos tambin se adicionan a la lista de asociados de W as que siempre, cada ejemplo
tiene que actualizar su lista de vecinos y de asociados.

Este algoritmo elimina ejemplos ruidosos porque un ejemplo ruidoso P usualmente


tiene socios principalmente de clase diferente a la suya y tales socios deben ser,
probablemente, bien clasificados sin P. El algoritmo DROP1 tambin elimina ejemplos
en el centro de los grupos porque no hay socios cerca de sus enemigos y, por tanto,
continan siendo bien clasificados sin P.

Cerca de la frontera, la eliminacin de algunos ejemplos puede causar que otros sean
mal clasificados porque la mayora de sus vecinos pueden ser enemigos. Por tanto, este
algoritmo tiende a almacenar puntos borde no ruidosos. En caso lmite, existe una
coleccin de ejemplos borde tales que la mayora de los k vecinos ms cercanos de cada
uno de estos ejemplos est en la clase correcta.

9. Algoritmo ICF (Iterative Case Filtering)

En el trabajo [Brighton, H. y Mellish, C, 2002], se propone el mtodo de Edicin ICF


(Iterative Case Filtering), cuya regla de seleccin por lotes se basa en la definicin de
los conjuntos: alcance y cobertura del objeto P, los cuales, de manera anloga, se
refieren al vecindario y conjunto de socios, respectivamente. La regla de seleccin
propuesta en este algoritmo es la siguiente: eliminar aquellos objetos tales que el
tamao de alcance es mayor que el de cobertura, lo cual quiere decir que un objeto P
ser eliminado cuando mediante otros objetos se generaliza la informacin que pudiera
proporcionar este objeto. Como etapa inicial, el algoritmo ICF filtra la muestra
empleando el algoritmo de edicin de Wilson.

El algoritmo ICF puede ser formalmente descrito de la manera siguiente:

Algoritmo ICF (Iterative Case Filtering)

Entrada: X Conjunto de entrenamiento a editar


Salida: S Conjunto editado

Mtodo:

// Ejecutar el algoritmo de Edicin de Wilson


1- Para todo PX hacer
1.1- Si P es clasificado incorrectamente por sus k-vecinos ms cercanos
entonces
1.2- Marcar a P para eliminarlo
2- Para todo PX hacer

50
Tcnicas de Filtrado de las Muestras de Aprendizaje

2.1- Si P fue marcado para ser eliminado, entonces X=X - {P}


3- Repetir
4- Para todo PX hacer
4.1- Calcular alcance (P)
4.2- Calcular cobertura (P)
5- Progress = False
6- Para todo PX hacer
6.1- Si alcance (P) > cobertura (P) entonces
6.1.1- Marcar a P para eliminarlo
6.1.2- Progress = True
7- Para todo PX hacer
7.1- Si P fue marcado para ser eliminado hacer X = X - {P}
8- Hasta que no haya ms eliminaciones en el conjunto X
9- Devolver X

10. Algoritmo de Edicin Generalizada

Otro de los algoritmos de edicin que aparece con frecuencia citado en la bibliografa es
la tcnica de Edicin Generalizada, el cual fue propuesto por [Koplowitz, J. y Brown,
T.A, 1978]. Este algoritmo no slo elimina algunos patrones, sino tambin corrige la
etiqueta de otros.

Una breve representacin del algoritmo de edicin generalizada se puede ver a


continuacin:

Algoritmo: Edicin Generalizada

Entrada: X Conjunto de entrenamiento a editar


Parmetros k y k, tal que (k + 1)/2 k k
Salida: S Conjunto editado

Mtodo:
1- Para cada xiX, buscar sus k-NN en X - {xi}
1.1- Si al menos k de esos k-NN pertenecen a la misma clase, asignarle a xi
esa etiqueta
1.2- En caso contrario, eliminar xi del conjunto X

51
Captulo 3

11. Algoritmo BSE (Backward Sequential Edition)

En un conjunto de entrenamiento X, suele ocurrir que algunos de los objetos de X no


aportan informacin relevante para la clasificacin, por lo que es necesario identificar y
descartar tales objetos, es decir, realizar una edicin o seleccin de objetos, lo cual es un
problema de bsqueda que consiste en encontrar el subconjunto de objetos ptimo para
el entrenamiento del clasificador.

Debido a que el espacio de subconjuntos de un total de d objetos es de tamao 2d, los


algoritmos para la seleccin de objetos suelen evitar emplear las tcnicas exhaustivas, es
decir, aquellas con las cuales se analizan las 2d posibilidades, lo que representa un alto
costo computacional, ya que ste resulta ser exponencial (O(2d)). Una de las tcnicas no
exhaustivas es la bsqueda secuencial, cuyo orden de complejidad es polinomial
(O(d2)).

El mtodo de edicin que presentan [Olvera, J.A, Martinez, J.F, 2005] consiste en
adaptar la idea de la bsqueda secuencial hacia atrs (BSS) propuesta por [Devijver, P.
A. y Kittler, J, 1982], para la seleccin de objetos. A este mtodo de edicin adaptado le
denominaron Backward Sequential Edition (BSE).

El mtodo propuesto BSE es una tcnica decremental no exhaustiva para la seleccin


de objetos, el cual en cada paso descarta o elimina el objeto que menos informacin
aporta en la calidad del subconjunto parcial. Para evaluar los subconjuntos parciales a lo
largo del proceso se emplea un clasificador. La funcin Classfier(P) devuelve como
resultado el porcentaje de clasificacin correcta con dicho clasificador empleando a P
como conjunto de entrenamiento.

Algoritmo BSE (Backward Sequencial Edition)

Entrada: X Conjunto de entrenamiento a editar


Salida: S Conjunto editado

Mtodo
1- Sea S=X
2- BestEval = Classfier (S)
3- Repetir
3.1- WorstP = Ninguno
3.2- Para cada objeto P en S
3.2.1- S= S - {P}
3.2.2- Si Classfier (S) BestEval entonces
WorstP = P
BestEval = Classfier (S)
3.2.3- Si WorstP Ninguno entonces
3.2.3- S = S - {WorstP}
4- Hasta que WorstP = = Ninguno S = =

52
Tcnicas de Filtrado de las Muestras de Aprendizaje

5- Devolver S

12. Esquemas que Utilizan el Algoritmo BSE

Utilizando el algoritmo BSE anteriormente descrito, [Olvera, J.A, Martinez, J.F, 2005]
proponen dos algoritmos de edicin para reducir el tiempo de ejecucin de BSE, sin una
reduccin significativa en el porcentaje de clasificacin. Los esquemas que estos autores
propusieron estn basados en dos etapas:

1. Un preproceso con el objetivo de detectar y descartar objetos ruidosos que son


innecesarios para la clasificacin, de esta manera, el tamao del conjunto de
entrenamiento original es reducido.
2. Se edita la muestra resultante para incrementar el porcentaje de clasificacin.

En el paso de preprocesamiento, el esquema propuesto usa un mtodo para filtrar el


ruido (eliminar objetos ruidosos) o un mtodo de edicin para eliminar los objetos
superfluos. En el paso de edicin, es utilizado el algoritmo BSE, pues este algoritmo
reduce el nmero de objetos significativamente incrementando el porcentaje de
clasificacin.

El primer esquema que muestran [Olvera, J.A, Martinez, J.F, 2005] en su trabajo
consiste en aplicar los algoritmos Wilson y BSE, es decir, aplicar el algoritmo de
edicin de Wilson como filtro de ruido y, despus, editar el subconjunto con el
algoritmo BSE. Este esquema supone que hay objetos ruidosos en el conjunto de
entrenamiento, los cuales pueden ser eliminados en el paso de preprocesamiento. Si no
hay objetos ruidosos, el esquema se convierte en el mtodo BSE.

El segundo esquema propuesto es utilizar los algoritmos DROP y BSE. Est basado
en editar una muestra editada debido a que despus de editar una muestra es posible que
algunos objetos en el conjunto editado no contribuyan al porcentaje en el proceso de
clasificacin, debido a que otros objetos en el conjunto editado pueden generalizar su
descripcin. En otras palabras, este esquema consiste en editar una muestra editada para
incrementar el porcentaje de clasificacin. El esquema usa los algoritmos DROP3-
DROP5 en el paso de preprocesamiento y, posteriormente utiliza el algoritmo BSE para
editar la muestra editada.

Es importante sealar que [Olvera, J.A, Martinez, J.F, 2005] utilizaron en los
experimentos la funcin Heterogeneous Value Difference Metric (HVDM), [Wilson,
D.R., Martnez T.R, 2000] para calcular la distancia entre dos objetos, la cual permite
trabajar con datos mezclados, pudindose definir la misma de la siguiente manera:

53
Captulo 3

n
HVDM (x, y)= d
a =1
2
a ( xa , ya )

donde da(x,y) es la distancia para el rasgo a y la misma se puede definir de la siguiente


forma:



1 si x y desconocidos

d a ( x, y ) = vdma ( x, y ) si a es nominal
x- y
si a es un nmero
4 a

donde a es la desviacin standard de los valores para el rasgo a y vdma(x, y) se define


mediante la expresin:

2
M N N
vdma ( x, y ) = a , x , c a , y , c

c =1 N a , x N a , y

donde Na,x es el nmero de veces que el rasgo a toma el valor x en el conjunto de


entrenamiento, Na,x,c es el nmero de veces que el rasgo a toma el valor x en la clase c,
y M es el nmero de clases.

54
Captulo 4

Tcnicas de Reduccin del Conjunto de


Entrenamiento

1. Introduccin

Uno de los aspectos singularmente negativos asociados a las distintas reglas NN radica
en la necesidad de disponer de un elevado nmero de prototipos con el fin de obtener
unos resultados similares a los proporcionados a partir del anlisis asinttico. Sin
embargo, este hecho determinar obviamente que el correspondiente proceso de
bsqueda de los k vecinos ms prximos sea computacionalmente demasiado costoso,
lo cual podra significar la imposibilidad de utilizar estos esquemas de clasificacin para
ciertos problemas reales.

Con el objetivo de poder aplicar las distintas reglas basadas en criterios de vecindad
expuestas en el primer captulo de este trabajo, adems de los diversos algoritmos
eficientes que se describen en la literatura, una alternativa evidente para acelerar el
clculo del vecino ms prximo consiste en disminuir el nmero de prototipos en el
conjunto de entrenamiento, pero sin originar un incremento del correspondiente error de
clasificacin.

De forma general, el objetivo para cualquier procedimiento de condensado consistir


en descartar del conjunto de entrenamiento todos aquellos prototipos que no influyan
explcitamente en la obtencin de un resultado de clasificacin igual o muy similar al
obtenido utilizando la totalidad del conjunto de prototipos. La principal diferencia entre
los distintos esquemas de condensado se centra en el mtodo empleado para estimar
correctamente qu prototipos son necesarios y cules no lo son.

La familia de tcnicas de condensado se divide a su vez en esquemas de seleccin y


de reemplazo, dependiendo de la forma en la cual obtienen los prototipos del conjunto
condensado. Los algoritmos que pertenecen al primer grupo seleccionan puntos del
conjunto original, dando lugar a un conjunto reducido que es subconjunto, generalmente
propio de ste. En el caso de las tcnicas con estrategia de reemplazo, los prototipos
miembros del conjunto condensado son construidos a partir de los puntos del
conjunto original mediante el uso de una funcin de transformacin, por lo tanto estos
prototipos creados no coinciden necesariamente con los puntos originales.
Captulo 4

A lo largo de este captulo, se expondrn los algoritmos de condensado ms


representativos que se han difundido en la literatura cientfica dedicada a esta temtica,
exponiendo sus ventajas as como las deficiencias que los mismos presentan.

2. Algoritmo Condensado de Hart

El algoritmo de Hart [Hart, 1968] es considerado en la literatura como la primera


propuesta formal de condensado para la regla NN. Un elemento terico importante
presente en este algoritmo es el concepto de consistencia respecto al conjunto de
entrenamiento.

Definicin: Sea X un conjunto y consideremos SX, decimos que el subconjunto


S es consistente respecto al conjunto X si, al utilizar al subconjunto S como conjunto de
aprendizaje, se puede clasificar correctamente a todo el conjunto X.

A partir de esta definicin de consistencia, si consideramos al conjunto X como


conjunto de entrenamiento, un conjunto condensado deber cumplir las propiedades de
ser reducido y consistente. El algoritmo de Hart es un mtodo incremental el cual
consiste en encontrar de entre los elementos del TS un subconjunto S tal que cada
objeto del TS sea ms cercano o parecido a los objetos de S de la misma clase que a los
que tienen distinta clase. Este subconjunto S es utilizado para clasificar correctamente
todos los objetos en el TS. Adems, se asume que el conjunto TS es consistente, es
decir, que dentro de ste no existen dos objetos cuyos atributos sean idnticos y
correspondan a clases distintas. Este mtodo comienza seleccionando de manera
aleatoria un objeto correspondiente a cada una de las distintas clases y estos objetos se
aaden a S, el cual inicialmente es un conjunto vaco. Posteriormente, cada objeto en el
TS es clasificado empleando nicamente los objetos de S; cuando un objeto es
clasificado errneamente, entonces ste se aade a S para garantizar que ser clasificado
correctamente. El proceso se repite hasta que no existan objetos en el TS que sean
clasificados de manera errnea.

Algoritmo Condensado de Hart (CNN)

Entrada: X Conjunto de entrenamiento


Salida: S Conjunto Condensado

Mtodo:
1- Inicializacin: R X
2- Sea S conjunto formado inicialmente por un prototipo por clase
3- Repetir
3.1- Para cada prototipo xiR hacer
3.1.1- Si xi es mal clasificado utilizando la regla NN y los objetos
del conjunto S entonces hacer
R = R - {xi}
S = S{xi}

56
Tcnicas de Reduccin del Conjunto de Entrenamiento

4- Hasta que no haya cambios en R R =


5- Devolver S

Como se puede observar, el esquema de condensado de Hart elimina del conjunto de


entrenamiento aquellos prototipos que no resultan necesarios para la correcta
clasificacin del resto de puntos mediante la regla NN. La justificacin de este mtodo
se basa en la idea de que si un punto es incorrectamente clasificado, se deber
probablemente al hecho de encontrarse prximo a la frontera de decisin y, por tanto, no
debera ser descartado del conjunto de entrenamiento.

Este algoritmo es muy sencillo de implementar y rpido (su coste computacional es


lineal con la talla de X en cada iteracin); en la prctica, se obtiene un conjunto
consistente despus de muy pocas iteraciones. Por otra parte, cabe destacar que la talla
del conjunto condensado resulta, en la mayora de los casos, considerablemente pequea
comparada con el tamao del conjunto original, siempre y cuando ste haya sido
previamente editado con el fin de evitar los posibles solapamientos entre regiones de
clases distintas.

Es necesario comentar algunos aspectos negativos respecto a este mtodo de


condensado:

1. Cabe mencionar el hecho de que no ser posible afirmar que el conjunto


resultante de la aplicacin del algoritmo corresponda realmente al conjunto
consistente de menor talla posible; de hecho, en funcin del orden de los
prototipos en el conjunto inicial, se podrn obtener distintos conjuntos
condensados (todos ellos sern consistentes y, sin embargo, la talla de cada uno
de los conjuntos resultantes podr ser diferente).
2. Esta tcnica es sensible al ruido, ya que objetos ruidosos suelen ser clasificados
errneamente por sus vecinos y, de esta manera, los objetos ruidosos se anexan
al conjunto condensado S.
3. No se logra una reduccin considerable de la muestra, ya que los objetos
ruidosos son innecesarios pero an siguen presentes en el conjunto condensado.
4. El efecto negativo que el subconjunto resultante causa en los resultados de
clasificacin, debido a que los objetos ruidosos no aportan informacin relevante
al clasificador.

2.1. Algoritmo de Condensado Reducido

En el trabajo de [Gates, 1972], se realiza una extensin decremental del algoritmo de


condensado de Hart. En este trabajo, se propone un procedimiento de condensado
alternativo con el fin de eliminar de un conjunto consistente, obtenido a partir del
anterior algoritmo de Hart, aquellos prototipos que no resulten necesarios para mantener
la propiedad de consistencia.

57
Captulo 4

Algoritmo Condensado Reducido (RNN)

Entrada: X Conjunto de entrenamiento


Salida: S Conjunto Condensado

Mtodo:
1- Inicializacin S , T X
2- Condensado de Hart sobre el conjunto T
3- Para cada prototipo siS (conjunto resultante del paso anterior)
3.1- Eliminar si del conjunto S
3.2- Para cada prototipo xiX
3.2.1- Buscar el vecino ms prximo de xi en S
3.2.2- Si NN (xi) i reasignar si al conjunto S e ir al Paso3
4- Devolver S

Con esta propuesta podemos afirmar que, en la mayora de los casos, se obtendr un
conjunto condensado de menor talla que con el algoritmo de Hart, aunque las
diferencias suelen ser muy poco significativas. Sin embargo, en este caso tampoco ser
posible asegurar que dicho conjunto condensado vaya a corresponder al conjunto
consistente minimal. Por otra parte, en cuanto al comportamiento en el proceso de
clasificacin, esta propuesta generalmente no mejorar el resultado obtenido con el
condensado de Hart.

3. Algoritmo Condensado de Tomek

En [Tomek, 1976c], se argumenta que el mtodo de condensado de Hart (CNN), as


como el condensado reducido propuesto por [Gates, 1972] (RNN), todava mantienen
demasiados puntos que no se encuentran prximos a las fronteras de decisin, debido al
orden aleatorio en la seleccin de los prototipos. La consecuencia de esto sera la
obtencin de conjuntos errneos, en el sentido de que se incluiran ciertos prototipos
que inicialmente no se encontraban prximos a las fronteras de decisin y, sin embargo
se eliminaban otros que no lo estaban.

Con el propsito de resolver la dificultad expuesta anteriormente, [Tomek, 1976c]


presenta una modificacin sobre el algoritmo original de condensado de Hart, la cual
consiste en definir una apropiada estrategia de seleccin, en vez de utilizar una
estrategia aleatoria. Para ello, se propone seleccionar un subconjunto CX,
correspondiente a los denominados puntos fronteras o prototipos ms prximos a la
frontera de decisin. Para este fin, se establece la siguiente propiedad: un prototipo
formar parte del conjunto C si es vecino ms prximo de algn elemento de clase
distinta en el conjunto inicial.

58
Tcnicas de Reduccin del Conjunto de Entrenamiento

Algoritmo Condensado de Tomek (X)

Entrada: X Conjunto de entrenamiento


Salida: S Conjunto Condensado

Mtodo:
1- Inicializacin: S ; C
2- Mientras se eliminen prototipos de X o X
2.1- Para cada prototipo xiX hacer
2.1.1- Buscar el vecino ms prximo de xi en S
2.1.2- Si NN (xi) i
2.1.2.1- Si xiC, eliminar xi de C y X, y pasarlo a S. Ir al
Paso 2.1
2.1.2.2- Buscar el vecino ms prximo z de xi en S C
2.1.2.3- Si NN (xi) i eliminar z de C y X, y pasarlo a S. Ir
al Paso 2.1
2.1.2.4- Buscar el vecino ms prximo z de xi entre los
prototipos de X de clase distinta de xi.
2.1.2.5- Asignar z a C
2.1.2.6- Buscar el vecino ms prximo v de z entre los
prototipos de su misma clase que est ms cerca de
xi que de z
2.1.2.7- Eliminar v de X y asignarlo a S

Este mtodo presenta una serie de aspectos negativos que limitarn su capacidad de
aplicacin a problemas reales, entre los que podemos sealar:

1. El coste computacional asociado a este algoritmo de condensado es O(N3).


2. El conjunto de puntos frontera resultante, C, no es consistente con respecto al
conjunto de entrenamiento X; en el artculo de [Toussaint, 1994], mediante un
sencillo contraejemplo, se demuestra la afirmacin anterior.

4. Algoritmo Condensado de Chen

Los mtodos de condensado anteriormente mencionados tienen en comn el hecho de


no poder establecer de antemano el nmero de prototipos a seleccionar, es decir, en
ningn caso permitirn controlar el tamao del subconjunto resultante de la aplicacin
del algoritmo de condensado, lo cual podra resultar interesante para determinados
problemas donde lo fundamental ser tanto los requerimientos computacionales como la
efectividad del clasificador. Con este fin, [Chen, 1996] propone un sencillo esquema de
condensado que aporta la posibilidad de controlar la talla del conjunto resultante.

59
Captulo 4

Bsicamente, la estrategia del algoritmo consistir en dividir el conjunto inicial en


sucesivos subconjuntos de prototipos utilizando para ello la definicin de dimetro de
un conjunto:

Definicin: Sea A un conjunto, llamamos dimetro del conjunto A al valor


calculado de la siguiente manera. (A) = {supremo d(xi, xj) , xi, xjA i j }.

Posteriormente, cada uno de los subconjuntos resultantes se remplazar por su centro


de gravedad y se le asignar la etiqueta de clase correspondiente a la de la mayora de
sus prototipos. Este proceso iterativo deber repetirse hasta alcanzar el nmero de
muestras previamente establecido.

Sea nd N el tamao del subconjunto reducido que deberemos obtener a partir de un


conjunto de entrenamiento inicial formado por N prototipos, entonces podr escribirse
el correspondiente esquema de condensado con control sobre la talla del conjunto
resultante de la siguiente forma:

Algoritmo Condensado de Chen (X, nd)

Entrada: X Conjunto de entrenamiento


Salida: S Conjunto Condensado

Mtodo:
1- Inicializacin:
nc 1; i 1; C(i) X ; D X
2- Buscar los dos prototipos ms alejados, p1 y p2 en el conjunto D
3- Mientras nc < nd
3.1- Dividir el conjunto D en D1 y D2 segn el criterio:
D1 = {xD / d(x, p1) d (x, p2)}
D2 = {x D / d(x, p2) < d (x, p1)}
3.2- nc nc + 1; C(i) D1; C(nc ) D2
3.3- Separar los subconjuntos de prototipos pertenecientes a ms de una
clase y aquellos pertenecientes a una nica clase
I1 = {i / C(i) contiene puntos de clases distintas}
I2 = {i / i nc}- I1
3.4- Si I1 entonces I = I1 de lo contrario I = I2
3.5- Para cada C(i) , iI hacer
3.5.1- Buscar los dos prototipos ms alejados q1(i ) y q2(i )
3.6- Buscar el subconjunto C(j) con mayor dimetro, hacer
d(q1(j ), q2( j)) = max [d(q1(i), q2(i)], iI
3.7- D C(j); p1 q1(j); p2 q2(j)
4- Para cada C(i), i = 1, 2, , nd
4.1- Buscar los centros de gravedad G(i)
5- Para cada G(i)

60
Tcnicas de Reduccin del Conjunto de Entrenamiento

5.1- Asignar G(i) a la clase ms representada en el correspondiente


subconjunto C(i)

Las principales ventajas que aporta este procedimiento respecto al resto de los
algoritmos de condensado se pueden resumir de la siguiente manera:

1. Debido a que es posible establecer la talla del conjunto resultante, se podr


tambin controlar, en cierta medida, la efectividad asociada al clasificador a
partir de la eliminacin de un mayor o menor nmero de prototipos.
2. Mediante la aplicacin de este modelo, se pretende encontrar un adecuado
equilibrio entre las correspondientes necesidades computacionales y la
efectividad requerida en el proceso de clasificacin para cada problema
especifico.

5. Condensado Adaptativo. Mtodo por Cuantificacin Vectorial


(LVQ)

La aplicacin de los esquemas de condensado sobre un conjunto de entrenamiento slo


tendr sentido cuando previamente se hayan eliminado los posibles solapamientos entre
regiones de distintas clases mediante algn procedimiento de edicin, es decir, cuando
las fronteras inducidas por la regla NN constituyan realmente una correcta
aproximacin de las fronteras de decisin asociadas al clasificador de Bayes. Por
consiguiente, parece evidente la necesidad de aplicar conjuntamente los esquemas de
edicin y condensado con el fin de obtener correctamente un conjunto reducido de
prototipos.

Para obtener el mismo objetivo que aquella aplicacin combinada de los mtodos de
edicin y condensado, existe un grupo de tcnicas para la seleccin de prototipos basada
en los denominados mapas de caractersticas auto-organizativos, (SOM Self
Organizing Maps) [Kohonen, 1990a], que consistirn bsicamente en la definicin de
una localizacin de prototipos en el espacio de representacin que aproxime de manera
ptima las distribuciones de probabilidad de cada clase. Estos procedimientos
alternativos, en general conocidos como mtodos de condensado adaptativo se basarn
en la generacin de nuevos prototipos [Marin, 1991], mediante la modificacin o el
ajuste de la localizacin de un nmero limitado de prototipos [Kohonen, 1990a], [Yau,
1991], [Laaksonen, 1996] a partir de un determinado conjunto de entrenamiento.

Concretamente, presentaremos en este epgrafe los mtodos LVQ (Learning Vector


Quantization) o aprendizaje por cuantificacin vectorial, propuestos por [Kohonen,
1990a], los cuales constituyen una de las aproximaciones ms ampliamente utilizadas
en la prctica, debido fundamentalmente a su simplicidad conceptual y a un excelente
comportamiento sobre la mayora de los problemas reales. Tambin veremos en esta
seccin una variante, el algoritmo DSM (Decision Surface Mapping) o construccin de
superficies de decisin, propuesto por [Geva , Sitte, 1991].

61
Captulo 4

La diferencia fundamental de estos mtodos con los mtodos de edicin y


condensado que conocemos es que el conjunto resultante no tiene porqu ser un
subconjunto del conjunto inicial. Adems, usan un nmero fijo (predeterminado) de
prototipos para aproximar las funciones de densidad de probabilidad (LVQ) o para
aproximar las fronteras de decisin (DSM). Las caractersticas ms relevantes de estos
mtodos son la sencillez de las heursticas empleadas y la rapidez de clculo. El
inconveniente surge a la hora de establecer los valores adecuados de los parmetros.

El aprendizaje por cuantificacin vectorial (LVQ) consistir en comparar cada


prototipo con su vecino ms prximo para, posteriormente, aplicar un factor de
recompensa o castigo (denominado, factor de correccin, 0< <1) segn coincidan o
no las clases de ambos. Este factor de recompensa o castigo se puede interpretar como
acercar el vecino seleccionado en la misma direccin del prototipo o alejarlo en
direccin opuesta, respectivamente, es decir:

mi(t +1) = mi(t) + (t)(x(t) - mi(t)) Factor de recompensa.

mi(t +1) = mi(t) - (t)(x(t) - mi(t)) Factor de castigo.

donde xi(t) y mi(t) se refieren al vector de entrada y al prototipo ms prximo en la


iteracin t respectivamente y, las expresiones anteriores se pueden interpretar de la
siguiente manera:

Factor de recompensa: si la clase del prototipo de referencia ms cercano, mi(t),


coincide con la del patrn de aprendizaje, x(t), entonces mi(t) se acerca a x(t).
Factor de castigo: en otro caso, mi(t) se aleja de x(t).

En cualquier caso, la direccin de la correccin est determinada por el vector


x(t) - mi(t) y el valor del desplazamiento depende de la funcin (t).

La conclusin ms importante que debemos tener en cuenta sobre el aprendizaje por


LVQ es que este algoritmo tiende a mover los prototipos hacia prototipos de aprendizaje
de su misma clase y a alejarlos de los de otra clase. De esta manera, aproxima las
funciones de densidad de probabilidad de las clases, o, recprocamente, reduce la
densidad de los prototipos alrededor de las fronteras de decisin entre clases.

A partir del mtodo LVQ original (que generalmente recibe el nombre de LVQ1), se
han propuesto tres posibles variantes [Kohonen, 1990b] que consisten, bsicamente, en
sendas modificaciones sobre el criterio para decidir la aplicacin del factor de
correccin, con la finalidad fundamental de conseguir una mayor aproximacin de las
fronteras de decisin resultantes a las obtenidas mediante el clasificador terico de
Bayes.

La primera alternativa (conocida como LVQ2.1) consiste en mover simultneamente


los dos prototipos ms prximos a la muestra x, uno perteneciente a su misma clase y el
otro correspondiente a cualquier otra clase, es decir, dada la muestra x(t), se modifican
dos prototipos, mi(t) y mj(t), si verifican:

62
Tcnicas de Reduccin del Conjunto de Entrenamiento

1. Que de los dos prototipos ms cercanos, uno de ellos es de la misma clase que
x(t) y el otro no.
2. El vector de entrada x(t) esta situado en una ventana situada alrededor del
punto medio entre mi(t) y mj(t), es decir, x(t) se encontrar dentro de una ventana
de dimensin relativa si se verifica que:

d (mi (t ), x(t )) d (m j (t ), x(t )) 1 w


min , >
d (m (t ), x(t )) d (m (t ), x(t )) 1 + w
j i

donde w es el ancho relativo de la ventana. La correccin LVQ2.1 se aplica de la


siguiente manera:

mi(t+1) mi(t) + (t)[x(t) - mi(t)] Factor de recompensa a mi(t)

mj(t+1) mj(t) - (t)[x(t) - mj(t)] Factor de castigo a mj(t)

La segunda variante del mtodo LVQ (denominada LVQ3), en realidad, puede


entenderse como un cierto modelo hbrido de los dos esquemas anteriormente descritos,
LVQ1 y LVQ2.1, puesto que consistir en aplicar un determinado factor de correccin
sobre los prototipos incluso cuando el vector de entrada x(t) resulte correctamente
clasificado.

La estrategia de correccin es la siguiente: dado un prototipo de aprendizaje x(t),


sean mi(t) y mj(t) los dos prototipos ms cercanos a x(t).

1. Si uno de ellos es de la misma clase que x(t) y el otro no y x(t) est en la


ventana, entonces se aplica LVQ2.1.
2. Si los dos son de la misma clase que x(t), se premia a ambos.

mi(t+1) mi(t) + (t)[x(t) - mi(t)]

mj(t+1) mj(t) + (t)[x(t) - mj(t)]

donde toma valores entre 0.1 y 0.5.

La tercera modificacin sobre el mtodo LVQ inicial (denominada LVQ1 con


velocidad de aprendizaje ptima u OLVQ1) consistir en definir un factor de correccin
o velocidad de aprendizaje 0<i<1, distinto para cada mi. A este mtodo le
correspondern las siguientes ecuaciones:

63
Captulo 4

mi(t +1) = mi(t) + i(t)[x(t) - mi(t)] Factor de recompensa

mi(t +1) = mi(t) - i(t)[x(t) - mi(t)] Factor de castigo

i (t 1)
donde i (t ) = , y el signo del denominador es: positivo si la siguiente
1 i (t 1)
expresin cumple, (clase (mi(t)) = clase (x(t)) y, negativo si (clase (mi(t)) clase (x(t)).

Parece difcil establecer a priori qu estrategia de correccin LVQ es la ms


apropiada para un problema dado. Diversos autores, no obstante, apuntan que los
resultados obtenidos por las diversas estrategias LVQ son muy similares. As, lo ms
sensato es emplear, como regla general, la estrategia que requiere el ajuste de menos
parmetros.

A modo de conclusin, considerando que el objetivo final es la clasificacin 1-NN


que usa como referencia el conjunto resultante del aprendizaje por LVQ, se propone la
siguiente metodologa esquematizada en el diagrama de la Figura 9: aplicar inicialmente
OLVQ-1 hasta su convergencia y LVQ-1 (preferiblemente) LVQ-3 sobre el conjunto
de prototipos resultante, con un valor de r moderado, siendo r el nmero de pasos de
aprendizaje.

Figura 9. Metodologa de esquemas LVQ.

6. Algoritmo Subconjunto Selectivo

En el trabajo de [Ritter, G.L, Woodruff, 1975], se extiende la idea del algoritmo de


condensado de Hart introduciendo una condicin ms fuerte que la condicin de
consistencia, con el objetivo de buscar aquellos prototipos en un orden independiente y
de una manera ms conveniente. Para satisfacer este objetivo, introduce la definicin de
subconjunto selectivo (SS).

Definicin: Un subconjunto T del conjunto de entrenamiento es un subconjunto


selectivo (SS), si satisface las siguientes condiciones:

1. T es consistente.

64
Tcnicas de Reduccin del Conjunto de Entrenamiento

2. Todos los prototipos en el conjunto de entrenamiento original estn ms


cercanos a un vecino selectivo (un miembro de SS) de la misma clase que a
cualquier prototipo de una clase diferente en el TS.

Esta segunda condicin recibe el nombre de propiedad selectiva, siendo la misma la


principal diferencia entre el condensado y el subconjunto selectivo. La definicin de
consistencia de Hart (condicin 1) podra formularse exactamente como condicin 2 de
la manera siguiente.

Definicin: Todos los prototipos en el conjunto de entrenamiento original deben de


estar ms cercanos a un vecino condensado (un miembro del subconjunto condensado
CS) de la misma clase que a cualquier prototipo de una clase diferente en CS.

Un hecho interesante que representa otra diferencia notable con respecto a la


consistencia de Hart, es que se pueden seleccionar prototipos para el subconjunto
selectivo (o no) independientemente en cada clase. Esto es porque la propiedad selectiva
se refiere solamente al enemigo ms cercano, el cual no necesita ser otro miembro del
subconjunto selectivo. Por consiguiente, la bsqueda del enemigo ms cercano es
independiente de los prototipos selectivos de clases diferentes.

Definicin: El enemigo ms cercano de xi es el patrn de entrenamiento y que se ha


encontrado como el vecino ms cercano de xi cuando consideramos solo aquellos
patrones de entrenamiento de clases diferentes a la de xi.

Este concepto ha sido extensamente usado en la literatura con diferentes nombres


como Nearest Unlike Neighbor (NUN), Nearest Neighbor from the Opposite class
(NNO).

En el trabajo de [Ritter, G.L, Woodruff, 1975], tambin se definen los siguientes


conceptos:

Definicin: Un prototipo xj es un vecino relacionado con otro prototipo xi ambos de la


misma clase, si xj es ms cercano a xi que el enemigo ms cercano de xi.

Definicin: La vecindad relativa de xi es el conjunto de todos los vecinos relacionados


con xi, la cual es representada mediante Yi.

Definicin: El subconjunto selectivo mnimo ser el subconjunto ms pequeo del


conjunto de entrenamiento, el cual contiene al menos un miembro de Yi para cada
prototipo xi en el conjunto de entrenamiento.

Aunque Ritter en su artculo establece la importancia de seleccionar patrones


cercanos a las fronteras de decisin, la mejor aproximacin a estos lmites no se
garantiza en su procedimiento debido a esta tercera definicin. Para conseguir este
subconjunto selectivo minimal, Ritter propuso un algoritmo backtracking, el cual
sistemticamente busca posibles soluciones de una manera dirigida. Este es un
algoritmo extenso y complejo (en memoria y tiempo de ejecucin) aunque [Barandela,

65
Captulo 4

R, Ferri, F.J., Sanchez, J.S, 2005] presentan el algoritmo para obtener el subconjunto
selectivo de una manera descriptiva, el cual describimos a continuacin.

Es necesario introducir algunas notaciones especficas, tales como:

C: conjunto de candidatos, que en el algoritmo inicialmente es considerado el


conjunto de entrenamiento TS, del cual se toman los prototipos para construir el
subconjunto selectivo SS.

S: conjunto de prototipos que tiene que cumplir la propiedad selectiva. Inicialmente,


como SS = , al conjunto S se le asigna el TS (la meta es que todos los prototipos en el
TS deben cumplir la propiedad selectiva al final con el conjunto resultante SS).

Sj: conjunto de prototipos con respecto a los cuales xj es un vecino relacionado, a este
conjunto se le llama vecindad relacionada inversa de xj.

Algoritmo para calcular el subconjunto selectivo (SS)

SELECTIVE (S, C, SS) retorna subconjunto de C

Mtodo:
1- Para cada xjC tal que i: Yi = {xj} hacer
SS SS {xj}; C C-{xj}; S Sj
2- Para todo xjC tal que k: Sj Sk hacer
C C -{xj}
3- Para todo xi S tal que k: Yk Yi hacer
S S-{xi}
4- Si S = entonces retornar SS
Si hay cambios en S y C durante los pasos 1-3 regresar al paso 1
5- Calcular una cota inferior Mj sobre el nmero de prototipos que son
necesarios para completar la solucin si cada xj en C est puesto en SS
Sea Mj el tamao del subconjunto mnimo Z de C tal que
Sk S j = S S j . Sea M = min j (M j )
k :xk Z

5.1- Repetir
5.1.1- Para todo xjC tal que Mj = M hacer
SS SELECTIVE (S-Sj, C-{xj}, SS {xj})
Si SS = SS + M entonces devolver SS
Si no SS = SS + M + 1 entonces guardar SS como SS
5.1.2- Si hay una solucin guardada entonces retornar SS
Si no hacer M M + 1
5.2- Hasta que M >S

Aunque no hay ninguna prueba, es bastante probable que el algoritmo de Ritter


realmente obtenga un subconjunto selectivo mnimo como solucin porque realmente

66
Tcnicas de Reduccin del Conjunto de Entrenamiento

realiza una bsqueda exhaustiva implcita. De hecho, se ha demostrado [Wilfong,G,


1992] que el problema de seleccionar el subconjunto selectivo mnimo es un problema
NP-completo.

No obstante, es necesario hacer algunos comentarios sobre el algoritmo antes


descrito. En diversos problemas prcticos, la propiedad de minimalidad no brinda
buenos resultados en general, es decir, un subconjunto de prototipos ligeramente ms
grande (selectivo o no) puede representar al conjunto original con ms precisin, es
decir, puede representar de manera ms precisa las fronteras de decisin. Adems, si se
selecciona un adecuado mtodo de reduccin del tamao de las muestras, se puede
considerar tambin la disminucin de requerimientos de almacenamiento y exactitud de
la clasificacin con el subconjunto reducido obtenido.

Diferentes trabajos, entre los que podemos citar [Cervern,V, Ferri,J, 2001],
[Dasaraty, B.V, 1994] y [Kuncheva, L.I, 1999], intentar obtener subconjuntos
consistentes minimales pero usando la propiedad selectiva.

7. Algoritmo Subconjunto Selectivo Modificado

Una modificacin al algoritmo Subconjunto Selectivo propuesto por Ritter es explicada


en el trabajo de [Barandela., R, Ferri, F.J, Sanchez, J.S, 2005], proponiendo el algoritmo
Subconjunto Selectivo Modificado. Los autores introducen una modificacin en la
definicin de subconjunto selectivo, utilizan las definiciones de vecino relacionado y de
vecindad relativa propuestas por Ritter, pero sustituyendo la definicin de subconjunto
selectivo mnimo por la siguiente:

Definicin: El Subconjunto Selectivo Modificado (MSS) se define como un


subconjunto del conjunto de entrenamiento TS que contiene, para todo xi del TS, aquel
elemento de Yi que es ms cercano a otra clase que a la de xi (es decir, el ms cercano a
su enemigo ms cercano).

El propsito principal de esta modificacin es fortalecer la condicin para el


subconjunto reducido con el objetivo de lograr una mejor aproximacin de las fronteras
de decisin. Tambin, de esta manera, es posible introducir un algoritmo voraz que
intenta obtener prototipos selectivos de forma tal que se da la preferencia a patrones de
entrenamiento que estn cerca de la frontera de decisin NN original. Este algoritmo
constituye una alternativa eficiente del subconjunto selectivo de Ritter y es usualmente
capaz de seleccionar mejores prototipos (ms cerca de las fronteras). Ideas similares han
sido usadas por [Gorda, K.C, Krishna, G, 1979] y [Tomek, I, 1976] para obtener
subconjuntos consistentes. El criterio usado aqu para medir la cercana a la frontera es
la distancia a su enemigo ms cercano. Usando esta medida es posible definir el mejor
subconjunto selectivo como uno que contenga al mejor vecino relacionado para cada
prototipo en el TS. En este contexto, mejor significa menor distancia a su enemigo ms
cercano.

67
Captulo 4

El algoritmo propuesto selecciona prototipos del conjunto de entrenamiento original


de acuerdo a esta medida y actualiza los conjuntos S y C. Los conjuntos S y C son aqu
empleados con el mismo significado que en la seccin anterior. El conjunto SS de la
seccin anterior es sustituido ahora por el conjunto MSS. En este algoritmo se utiliza Dj
para referirse a la distancia entre xj y su enemigo ms cercano. La implementacin del
algoritmo es mucho ms sencilla, puesto que no hay necesidad de calcular vecindad
relativa o mantener una matriz en memoria. Es importante sealar que tanto el algoritmo
subconjunto selectivo, como subconjunto selectivo modificado son aplicados a cada
clase separadamente. Consecuentemente, el valor n en el algoritmo se refiere al nmero
de prototipos en una clase particular.

Algoritmo calculo del subconjunto selectivo modificado (MSS)

MSELECTIVE (S, C, MSS) retorna subconjunto de S

Mtodo
1- Mientras C hacer // mientras que permanezcan candidatos
2- Sea xj = arg min ( Dk ) // tomar el siguiente mejor de acuerdo a Dk
xk C

3- C C-{xj}
4- Si Sj S entonces // si hay algn nuevo prototipo que satisfaga
// la propiedad selectiva aceptarlo
5- MSS MSS{xj} // y actualizar S
6- S S - Sj
7- Retornar MSS

Este algoritmo hace uso de un algoritmo de ordenamiento de prototipos para una


implementacin eficiente del mismo, el cual puede verse en el artculo de [Barandela.,
R, Ferri, F.J, Sanchez, J.S, 2005].

68
Captulo 5

Aprendizaje Parcialmente Supervisado

1. Introduccin

En el contexto del Reconocimiento de Patrones, los sistemas de clasificacin


supervisados ocupan un lugar muy importante, los cuales dependen de una muestra de
entrenamiento que sea lo suficientemente representativa del problema que se pretende
resolver. Este conjunto de entrenamiento debe ser preparado por un experto humano,
que elige un conjunto de objetos representativos y los atributos que logren distinguirlos.
Este proceso es muy complicado y costoso adems no en todos los casos es siempre
posible lograr este conjunto de entrenamiento. En un esquema de clasificacin
supervisado tradicional, si el entorno donde el clasificador ha sido entrenado sufre
algunas variaciones, o si llegan a surgir nuevas clases no consideradas en el TS, se
requerir que el clasificador sea nuevamente entrenado, por lo cual se har necesario
recurrir nuevamente al experto humano para que reconstruya el TS, situacin que en
muchos casos resulta sumamente problemtica por la dificultad y el costo que ello
implica. Lo que s resulta mucho ms fcil en la prctica, es obtener muestras no
etiquetadas, por lo cual se hace necesario disear mtodos de aprendizaje que permitan
utilizar tanto muestras etiquetadas como no etiquetadas.

Utilizando el clasificador NN, existen algunas lneas de investigacin que se siguen


sobre el tema de adaptacin del clasificador. En el trabajo de [Dasarathy, B.V, 1994], se
propone un sistema con la capacidad de adaptarse en ambientes parcialmente
supervisados, en el cual se emplea la regla NN como clasificador central y tcnicas para
evitar el crecimiento indiscriminado del TS, o bien, para evitar que el TS se degrade.
Pero en el mtodo que se propone se supone la presencia constante de un experto
humano, quien estar supervisando en todo momento los objetos que sern
incorporados, a fin de corroborar la decisin tomada por el sistema.

En la decada de los aos 90, aparecen una serie de trabajos, entre los que podemos
mencionar [Castelli,V, Cover,T.M, 1995], [Bensaid, A.M, Hall, J.C, 1996] y [Blue,A,
Charla, S, 2001], donde aparece un paradigma conceptual relacionado con el
aprendizaje supervisado y no supervisado. Estos autores en sus trabajos usaban (de
manera general) un nmero pequeo de objetos clasificados y, a su vez, tambin tenan
en cuenta un conjunto de objetos no clasificados que ambos eran empleados para
clasificar nuevos objetos. Este tipo de aprendizaje recibe el nombre en la literatura
cientfica de aprendizaje semi-supervisado (o parcialmente supervisado). El aprendizaje
semi-supervisado trata este problema usando una cantidad grande de datos sin etiqueta,
junto con un conjunto (probablemente pequeo) de datos etiquetados, para construir
Captulo 5

clasificadores mejores. Su principal ventaja es que requiere menos esfuerzo humano y


da una exactitud ms alta, por lo cual tiene gran inters en el mbito cientfico tanto en
aspectos tericos como prcticos.

En este captulo, haremos un recorrido por el estado del arte de algunos de los
trabajos citados en la literatura que pertenecen al grupo de algoritmos de clasificacin y
aprendizaje semi-supervisados.

2. Modelos Generativos

Los modelos generativos son quizs los mtodos de aprendizaje semi-supervisado ms


antiguos referenciados en la literatura consultada. En los mismos, se asume un modelo
p(x, y) = p(y)p(x|y), donde p(x|y) es una distribucin de mixturas conocida, por ejemplo
modelos de mixtura gaussiana. Con una gran cantidad de datos sin etiqueta, los
componentes de mixtura pueden ser identificados; entonces, necesitamos solamente un
ejemplo etiquetado por componente para determinar completamente la distribucin de
mixturas.

Otro trabajo que debemos destacar fue presentado por [Nigam, 2000], en su artculo
aplica el algoritmo EM (Expectation Maximization) propuesto por [Dempster, Laird y
Rubin, 1977] sobre mixturas multimodales en tareas de clasificacin de textos,
demostrando que los porcentajes de clasificacin resultaban ser superiores que cuando
los clasificadores eran entrenados solamente utilizando un conjunto de entrenamiento;
[Baluja, 1998] utiliza el algoritmo EM en una tarea de discriminacin de la orientacin
de una cara; [Fujino, 2005] extiende modelos de mixturas generativos, en los cuales
incluye un trmino correccin del sesgo y un entrenamiento discriminativo utilizando
el principio de mxima entropa.

Debemos sealar que si el modelo de mixtura empleado es correcto, los datos sin
etiqueta pueden garantizar una mejora de la exactitud del clasificador, hecho este
comprobado en los trabajos presentados por [Castelli, Cover, 1995], [Castelli, Cover,
1996] y [Ratsaby, Venkatesh, 1995]. Sin embargo, si el modelo de mixtura empleado es
incorrecto, los datos sin etiqueta pueden afectar realmente la exactitud del clasificador.
Este aspecto ha sido observado por mltiples investigadores, entre los que podemos
mencionar [Cozman, 2003], el cual en su artculo da una derivacin formal de cmo
esto puede suceder. Por lo antes mencionado, es muy importante construir
cuidadosamente el modelo de mixtura de forma tal que refleje el problema que se
pretende resolver. Por ejemplo, en la clasificacin de textos, un tema puede contener
varios subtemas, y ser mejor modelarlo mediante mixturas multimodales mltiples y
no utilizando un modelo de mixturas simples.

Otro enfoque dentro del aprendizaje semi-supervisado utilizando los modelos


generativos es convertir los datos en una representacin de rasgos determinada por el
modelo generativo. La nueva representacin de rasgos es entonces entrenada por un
clasificador discriminatorio estndar. En el artculo de [Holub, 2005], se utiliz este
enfoque para la clasificacin de imgenes, primero se entren un modelo generativo de

70
Aprendizaje Parcialmente Supervisado

mixturas, utilizando una componente por clase. En esta etapa, los datos no etiquetados
pueden ser incorporados empleando el EM. Sin embargo, en lugar de usar directamente
el modelo generativo para la clasificacin, cada ejemplo no etiquetado se convierte en
un vector de longitud fija, que se emplea en un clasificador discriminativo como puede
ser SVM (Suport Vector Machine), el cual empricamente proporciona una alta eficacia.

3. Auto-Entrenamiento. (Self-training, Bootstrapping)

El auto-entrenamiento (Self-training, bootstrapping) es una tcnica comnmente


empleada para el aprendizaje semi-supervisado. El trmino bootstrapping o self-trainig
se refiere a un problema en el que se tiene dos conjuntos, uno pequeo de datos
etiquetados L (Labeled, objetos etiquetados) y otro grande de datos no etiquetados U
(Unlabeled, objetos no etiquetados) y la tarea consiste en inducir un clasificador; el
clasificador primero se entrena con los datos etiquetados y luego se usa para clasificar
los datos no etiquetados. Los datos de U que resulten ms confiables, junto con las
etiquetas asignadas por el clasificador, se adicionan al conjunto de entrenamiento L y se
eliminan del conjunto U. El clasificador es re-entrenado y se repite nuevamente el
proceso. Debemos resear que el clasificador usa sus propias predicciones para auto-
ensearse. Como uno puede darse cuenta, un error de clasificacin se auto-refuerza
pues, si se introducen objetos mal clasificados en el conjunto L, el error aumentar a
medida que el proceso contina. Algunos algoritmos tratan de evitar esto no
aprendiendo de puntos no etiquetados si la confiabilidad de la prediccin cae por debajo
de un umbral predefinido.

El auto-entrenamiento se ha aplicado a varias tareas de procesamiento del lenguaje


natural [Yarowsky, 1995] usa self-training para la desambiguacin del sentido de una
palabra, por ejemplo, el poder decidir si la palabra planta significa un organismo vivo
o una fbrica en un determinado contexto dado. [Riloff, 2003] lo utiliza para identificar
sustantivos subjetivos. [Maeireizo, 2004] clasifica dilogos como emocionales o no-
emocionales con un procedimiento que emplea dos clasificadores. Adems, self-training
tambin ha sido aplicado al anlisis y a la traduccin automtica de textos. [Rosenberg,
2005] aplica el auto-entrenamiento a los sistemas de deteccin de objetos en imgenes y
se demuestra que, con las tcnica semi-supervisadas, se obtienen buenos resultados.

4. Co-Entrenamiento

Otro trabajo que aparece citado en este contexto es el algoritmo (Co-training) propuesto
por [Blue, Mitchell, 1998] y [Mitchell, 1999]. En su trabajo, los autores asumen que los
rasgos pueden dividirse en dos conjuntos condicionalmente independientes dadas las
clases y que cada subconjunto es suficiente para entrenar un clasificador. Igual que para
el bootstrapping, se dispone de dos conjuntos, uno de datos etiquetados L y otro de
datos no etiquetados U.

71
Captulo 5

Inicialmente, el conjunto de datos etiquetados L es dividido en dos subconjuntos A y


B, condicionalmente independientes dadas las clases, posteriormente dos clasificadores
por separado C1 y C2 se entrenan con los datos etiquetados sobre los dos subconjuntos
de rasgos A y B respectivamente, es decir, el clasificador C1 es entrenado con los
objetos empleando los rasgos de A y el clasificador C2 es entrenado con los objetos
empleando los rasgos de B. Luego, cada clasificador por separado emplea el conjunto
entrenado para etiquetar los elementos de U. En el siguiente paso, cada clasificador le
pasa al otro los ejemplos de U que consideren bien clasificados, es decir, ambos
clasificadores parten del mismo conjunto de entrenamiento L, pero en cada iteracin el
clasificador C1 clasifica los objetos de U y los que considere bien etiquetados los
incorpora al conjunto de entrenamiento del clasificador C2 y a su vez C2 etiqueta a los
objetos de U y los que se considere bien etiquetados se le incorporan al conjunto de
entrenamiento del clasificador C1 para la prxima iteracin. Este proceso se repite hasta
que se cumpla alguna condicin de parada.

Otro aspecto que debemos mencionar en el algoritmo co-training es la necesidad de


que los objetos que formen los subconjuntos de caractersticas, es decir, A y B sean lo
suficientemente buenos, de modo que se pueda confiar en las etiquetas de cada uno de
los objetos que han sido clasificados, para que los datos de alta confiabilidad para un
clasificador lo sean tambin para el otro.

[Nigam, Ghani, 2000] realizan experimentos empricos para comparar el co-training


con los modelos generativos de mixturas y el algoritmo EM. Los resultados obtenidos
muestran que co-training obtiene buenos resultados si la suposicin de independencia
condicional se cumple. Adems, es mejor probabilsticamente etiquetar el conjunto U
entero, en vez de algunos puntos de mayor confiabilidad. Este paradigma recibe el
nombre de Co-EM. Finalmente, si no hay una divisin natural del conjunto de rasgos,
los autores crean una divisin artificial poniendo aleatoriamente los rasgos en dos
subconjuntos y muestran que co-training empleando una divisin artificial de los rasgos
obtiene resultados satisfactorios, aunque son superiores los resultados que se obtienen
cuando se logra hacer una divisin de los datos de manera adecuada. [Jones, 2005]
utiliz el co-training, el Co-EM y otro mtodo relacionado para extraer informacin de
textos.

Co-training hace suposiciones fuertes sobre la divisin de rasgos, por lo que luego se
hacen intentos para relajar stas. [Goldman, Shou, 2000] usaron dos clasificadores de
diferentes tipos, pero ambos toman el conjunto de rasgos completo, y esencialmente
usan puntos con alto nivel de confiabilidad del conjunto de entrenamiento identificados
mediante un conjunto de pruebas estadsticas para ensear al otro y viceversa.

Ms tarde, [Zhou, Goldman 2004] propusieron un algoritmo denominado Co-


aprendizaje Democrtico. En el mismo, se emplea un conjunto de clasificadores con
diferentes reglas de clasificacin que se entrenan separadamente sobre el conjunto
completo de datos etiquetados, luego de la fase de entrenamiento se hacen las
predicciones sobre los datos no etiquetados. Si la mayora de los clasificadores
concuerda confiablemente sobre la clase de una muestra no etiquetada xu, esa
clasificacin se usa como la etiqueta de xu. Entonces, xu con su etiqueta se adiciona al
conjunto de entrenamiento. Luego, todos los clasificadores son re-entrenados sobre el

72
Aprendizaje Parcialmente Supervisado

conjunto de entrenamiento actualizado. La prediccin final se hace con una variante de


voto mayoritario pesado entre todos los clasificadores.

Similarmente, [Zhou, Li 2005b] proponen un tri-entrenamiento que usa tres


clasificadores. Si dos de ellos concuerdan sobre la clasificacin de un objeto no
etiquetado, la clasificacin se usa para entrenar al tercer clasificador. Este enfoque evita
la necesidad de explcitamente medir la confiabilidad de las etiquetas de cualquier
clasificador. Esto puede aplicarse a conjuntos de datos con un mismo conjunto de
rasgos o a diferentes tipos de clasificadores. En el trabajo de [Balcan, 2005b], fue
relajada la suposicin de independencia condicional con una condicin ms dbil y
justifican el procedimiento co-training iterativo ms generalmente, podemos definir
ejemplos de aprendizaje que utilizan un convenio entre diferentes clasificadores, co-
training se puede ver como un caso especial con dos clasificadores y un algoritmo
especfico que refuerce el convenio.

5. Mquina de Vector Soporte Semi-supervisada

Las Mquinas de Vector Soporte semi-supervisadas (Transductive Suport Vector


Machines, TSVMs) construyen la conexin entre la funcin de densidad de probabilidad
p(x) y la frontera de decisin discriminativa, no poniendo la frontera en regiones de alta
densidad. Las TSVMs constituyen una extensin de las Mquinas de Vector Soporte
estndar con datos no etiquetados. Una SVM estndar solamente utiliza datos
etiquetados, y la meta es encontrar una frontera lineal de margen mximo en el espacio
de Hilbert donde el ncleo est definido. En una TSVMs, los datos sin etiqueta tambin
se utilizan. La meta es encontrar una etiqueta para los datos no etiquetados, de modo
que la frontera lineal alcance el margen mximo tanto en los datos etiquetados
originales como en los datos no etiquetados (ahora etiquetados). La frontera de decisin
tiene el menor error de generalizacin en los datos sin etiqueta [Vapnik, 1998],
intuitivamente, los datos no etiquetados llevan la frontera lineal fuera de regiones
densas.

Sin embargo, encontrar la solucin exacta utilizando una TSVMs es un problema


NP-completo. Un mayor esfuerzo se ha centrado en la utilizacin de algoritmos
eficientes de aproximacin, entre los que podemos sealar los que se presentan en los
trabajos de [Bennett y Demiriz, 1999], [Demirez y Bennett, 2000], [Fung y
Mangasarian, 1999].

[Xu y Schuurmans, 2005] presentan un mtodo de entrenamiento basado en


programacin semi-definida que aplica tambin SVM no supervisado. En el caso de
clasificacin binaria simple, el objetivo de encontrar un buen etiquetado para datos no
etiquetados se formula como encontrar una matriz M semi-definida positiva cuyo
significado es la relajacin continua de la matriz producto exterior del vector de
etiquetas, y el objetivo de SVM se expresa como la programacin semi-definida sobre
M.

73
Captulo 5

El TSVM se puede ver como SVM con un trmino de regularizacin adicional sobre
los datos no etiquetados. [Chapelle y Zien, 2005] proponen SVM la cual aproxima la
funcin de prdida con una funcin gaussiana y ejecuta bsqueda de gradiente en el
espacio original. [Sindhwani, 2006] usa un enfoque determinstico que comienza en un
problema fcil y gradualmente lo deforma al objetivo TSVM. En una forma similar,
[Chapelle, 2006a] usa un enfoque que tambin comienza minimizando una funcin
objetivo convexa sencilla, y gradualmente la deforma al objetivo TSVM (con gausianas
en lugar de utilizar la funcin de prdida), utilizando la solucin de las iteraciones
previas para inicializar las siguientes. [Collobert, 2006] optimiza el TSVM directamente
usando un procedimiento de optimizacin aproximado conocido como procedimiento
cncavo-convexo. La clave es notar que la funcin de prdida es la suma de una funcin
convexa y una funcin cncava, sustituyendo la funcin cncava con una cota superior
lineal, se ejecuta una minimizacin convexa para producir una cota superior de la
funcin de prdida. Esto se repite hasta que se alcanza un mnimo local. Los autores
proporcionan un tiempo de ejecucin menor de TSVM con el procedimiento cncavo-
convexo.

5.1. Regularizacin de la Informacin

[Szummer, Jaakkola, 2002] proponen un marco de regularizacin de la informacin


para controlar las etiquetas condicionales p(y|x) por p(x), donde p(x) se puede estimar
por datos no etiquedos. La idea es que las etiquetas no deberan cambiar demasiado en
regiones donde p(x) es alta. Los autores utilizan la informacin mutua I(x; y) entre x e y
como una medida de la complejidad de la etiqueta. I(x; y) es pequea cuando las
etiquetas son homogneas y grande cuando las etiquetas varan. Esto motiva la
minimizacin del producto de la densidad p(x) en una regin con I(x; y) (normalizada
por el trmino varianza). La minimizacin se realiza sobre regiones de mltiples
solapamientos que cubren el espacio de los datos.

Esta teora es desarrollada ms tarde cuando [Corduneanu, Jaakkola, 2003],


[Corduneanu, Jaakkola 2005] extienden el trabajo formulando el aprendizaje semi-
supervisado como un problema de comunicacin. La regularizacin se expresa como la
proporcin de informacin que de nuevo obtiene condicionales complejas p(y|x) en
regiones con alto p(x). El problema se convierte en encontrar el p(y|x) nico que
minimiza la prdida regularizada en datos etiquetados. Los autores en su artculo
exponen un algoritmo de propagacin local.

6. Mtodos Basados en Grafos

Los mtodos semi-supervisados basados en grafos definen un grafo donde los nodos son
ejemplos etiquetados y no etiquetados de la base de datos, y las aristas (deben de estar
pesadas) reflejan la semejanza de los ejemplos. Estos mtodos usualmente asumen
suavidad de las etiquetas sobre el grafo. Los mtodos basados en grafos son no
paramtricos, son discriminatorios y semi-supervisados por naturaleza.

74
Aprendizaje Parcialmente Supervisado

6.1. Regularizacin por Grafo

Muchos de los mtodos basados en grafos pueden verse como un mtodo para estimar
una funcin f sobre el grafo que satisfaga dos condiciones al mismo tiempo.

1. Debera estar cerca de las etiquetas dadas yL en los nodos etiquetados.


2. Debera ser suave sobre el grafo completo.

Este se puede expresar en un marco de la regularizacin donde el primer trmino es


una funcin de prdida y el segundo trmino es un regularizador. Varios mtodos
basados en grafos son similares, difiriendo en la seleccin de la funcin de prdida y el
regularizador.

7. Teora del Aprendizaje Computacional

En este captulo, nos hemos centrado en varios algoritmos de aprendizaje semi-


supervisado. La teora de aprender semi-supervisadamente se ha mencionado
ocasionalmente en la literatura. Sin embargo, no era hasta hace muy poco tiempo que la
comunidad de cmputo comenz a prestar ms atencin a este interesante problema.

[Leskes, 2005] presenta una generalizacin de la cota del error para el aprendizaje
semi-supervisado con mltiples clasificadores, una extensin del co-training. El autor
demuestra que si los algoritmos de aprendizaje mltiples se fuerzan para producir
hiptesis similares dado el mismo conjunto de entrenamiento y tales hiptesis todava
tienen bajo error de entrenamiento, entonces la generalizacin de la cota del error se
reduce. Los datos no etiquetados se utilizan para determinar el convenio entre hiptesis.
El autor en su artculo propone un nuevo algoritmo Agreement-Boost para implementar
el procedimiento descrito.

[Kaariainen, 2005] presenta otra generalizacin de la cota del error para el


aprendizaje semi-supervisado. La idea es que la funcin objetivo est en el espacio de
representacin. Si una hiptesis est en el espacio de representacin (revelado por datos
etiquetados) y est cerca del resto de las hiptesis en el espacio de representacin
(revelado por datos no etiquetados), entonces tiene que estar cerca de la funcin
objetivo. La cercana se define como acuerdo de la clasificacin, y puede ser
aproximado usando datos no etiquetados. Esta idea se construye en la seleccin de
modelo basado en mtricas.

[Balcan, Blue, 2005] proponen un modelo estilo PAC para aprendizaje semi-
supervisado. ste es el primer modelo PAC que explica cundo los datos no etiquetados
deben ayudar (note que el modelo clsico de PAC no puede incorporar datos no
etiquetados). Los autores definen una cantidad interesante: la compatibilidad de una
hiptesis (la distribucin de datos no etiquetados). Por ejemplo, en SVM, un hiperplano
que corta a travs de regiones de alta densidad debera tener baja compatibilidad,
mientras que uno que va a lo largo de huecos regiones de baja densidad tendra alta
compatibilidad. La funcin de compatibilidad se define de manera ms general, la

75
Captulo 5

intuicin de los resultados es la siguiente: asumiendo a priori que la funcin objetivo


tiene alta compatibilidad con datos no etiquetados. Entonces, si una hiptesis tiene error
de entrenamiento cero (estilo estndar de PAC) y alta compatibilidad, la teora da el
nmero de datos etiquetados y no etiquetados para garantizar que la hiptesis sea buena,
el nmero de datos etiquetados necesarios puede ser relativamente pequeo.

8. Algoritmo Parcialmente Supervisado utilizando tcnicas de


Seleccin de Prototipos

Dentro del Aprendizaje Parcialmente Supervisado se encuentran los algoritmos de


Aprendizaje Continuo. En sntesis, estos sistemas tratan de aprender no nicamente a
partir de los objetos etiquetados en el conjunto de entrenamiento, sino tambin
beneficiarse de la experiencia obtenida cuando clasifican nuevos objetos no etiquetados.
Este tipo de aprendizaje persigue los siguientes objetivos:

1. Que el clasificador sea ms robusto porque los errores u omisiones en el


conjunto de entrenamiento pueden ser corregidos.
2. Que el sistema sea capaz de adaptarse a posibles cambios que puedan surgir en
el entorno sobre el cual se desempea.

Una meta bsica de los algoritmos de aprendizaje continuo es hacer el procedimiento


de aprendizaje semi-supervisado tan automtico como sea posible, incorporando nuevos
ejemplos en el conjunto de entrenamiento despus de haber sido etiquetados por el
propio sistema. Estas caractersticas presentes en estos tipos de algoritmos hace que los
investigadores se tengan que enfrentar a dos problemas concretos:

1. Que la muestra de entrenamiento incremente su tamao indefinidamente,


afectando as al costo computacional que se requerir para clasificar un nuevo
objeto.
2. La muestra de entrenamiento puede degradarse progresivamente por la
incorporacin de objetos errneamente clasificados al conjunto de entrenamiento
que constantemente se va modificando.

Utilizando NN como regla de clasificacin, [Jurez, M, Barandela, R, 2001]


proponen una metodologa general de un algoritmo de Aprendizaje Continuo, la cual se
ilustra en la Figura 10 que mostraremos a continuacin, donde se puede observar que
existen bsicamente 4 etapas que se repetirn a lo largo del proceso que a continuacin
describiremos:

1. Cargar el conjunto de entrenamiento inicial TS, al que opcionalmente se le


somete a un proceso de depuracin para detectar patrones ruidosos, y una
posible oportunidad de reducir el conjunto de entrenamiento, eligiendo un
conjunto representativo para evitar que ste sea demasiado grande y provoque
mucha carga computacional al inicio del proceso de aprendizaje continuo.
2. Comenzar el proceso de clasificacin utilizando el conjunto de entrenamiento
obtenido del paso anterior, contabilizar los aciertos obtenidos al clasificar el lote

76
Aprendizaje Parcialmente Supervisado

de patrones. Adems, en esta etapa, se decide a qu clase sern asignados dichos


objetos.
3. Una vez que los objetos han sido clasificados, se someten estos objetos a un
proceso de filtrado (opcin de rechazo), en la que se tomar la decisin acerca
de si los patrones se encuentran cerca del rea de representacin de la clase a la
que se incorporarn. El procedimiento aqu descrito no considera la creacin de
nuevas clases, pues los objetos rechazados pueden ser miembros de nuevas
clases. Justo en esta etapa se produce la adaptacin del conocimiento del
clasificador, producto de los nuevos elementos que fueron incorporados.
4. Ya con el conjunto de elementos aceptados, se incorporan al conjunto de
entrenamiento TS, obtenindose de esta manera un nuevo conjunto de
entrenamiento.
5. Someter el nuevo TS a un segundo proceso de filtrado (proceso de depuracin),
con la finalidad de que los patrones que hayan sido incorporados como producto
de una mala decisin de la opcin de rechazo puedan ser ahora desacartados. En
esta etapa, se tendr la posibilidad de reasignar aquellos patrones que fueron
agregados a otra clase que no le corresponda o incluso eliminarlos en caso de
ser necesario. En esta etapa, se busca eliminar patrones que hayan sido
incorporados errneamente en otra clase a la que no pertenecen. Si se requiere
aplicar reduccin al nuevo TS depurado, ir al paso 6, sino ir al paso2.
6. Aplicar reduccin al TS, ir al paso 2.

Figura 10. Esquema general del Aprendizaje Continuo [Jurez. M, Barandela.R, 2001].

77
Captulo 5

Podemos sealar que las etapas que fueron mencionadas anteriormente se refieren a:

1. Depurar y reducir el conjunto de entrenamiento inicial con el objetivo de


eliminar patrones errneamente clasificados.
2. Etapa de clasificacin (por lotes) con el TS inicial.
3. Filtrado de las muestras anteriormente clasificadas.
4. Actualizar el TS con las muestras clasificadas y regresar posteriormente a la
primera fase.

No obstante, en la propuesta hecha con el esquema de [Jurez, M, Barandela, R,


2001], al utilizar como clasificador central NN, en los esquemas de seleccin de
prototipos que utiliz en las diferentes fases de su metodologa, no tuvo un cuenta a los
vecinos que rodean la muestra que es clasificada y posteriormente incorporada en el
nuevo conjunto de entrenamiento, es decir, se puede tener en cuenta en dicha
metodologa no slo la regla de clasificacin NN sino tambin las reglas k-NN y k-NCN
y tambin combinaciones de diferentes reglas de clasificacin.

Tambin, en este trabajo, no se tiene en cuenta la estructura estadstica de las clases,


es decir, no hay un modelo de las funciones de densidad de probabilidad. Como es
conocido, existe la aproximacin paramtrica en el aprendizaje supervisado, o sea, si se
conoce la estructura estadstica de las clases, el aprendizaje se reduce a estimar los
parmetros que determinan la funcin de densidad de probabilidad; pero en general,
esto no se conoce, por lo que es necesario estimarlas, para tener en cuenta las
probabilidades de pertenencia a la clase de cada uno de los vecinos en las diferentes
fases de su algoritmo pues el objetivo final es etiquetar un patrn x empleando la
informacin suministrada por los vecinos de x para inferir el valor de la funcin de
densidad.

En el Captulo 9, abordaremos un esquema de aprendizaje continuo similar al


propuesto en [Jurez. M, Barandela.R, 2001] tratando de resolver los sealamientos
anteriores, es decir, consideramos los esquemas de clasificacin y de seleccin de
prototipos estocsticos que sern presentados en los Captulos 7 y 8.

Conclusiones. Introduccin y Fundamentos Tericos

En la primera parte de esta memoria de Tesis Doctoral, hemos llevado a cabo un


recorrido por los principales aspectos de la clasificacin, primero desde una perspectiva
general y, luego centrndonos en criterios de vecindad. De este modo, en el Captulo 2
se han introducido conceptos bsicos del Reconocimiento Estadstico de Formas o
Patrones, as como algunos fundamentos estadsticos necesarios para comprender de
manera general un problema de clasificacin. En este mismo captulo, se han presentado
las principales reglas de clasificacin basadas en criterios de vecindad, poniendo nfasis
en los clasificadores k-NN y k-NCN. Como se ha podido apreciar, estas reglas de
decisin tienen una gran simplicidad conceptual y, adems, su implementacin resulta
sumamente sencilla. Sin embargo, debemos destacar dos aspectos negativos para estos
clasificadores: su elevado coste computacional y su perdida de efectividad a medida que

78
Aprendizaje Parcialmente Supervisado

disminuye el nmero de prototipos disponible en un conjunto de entrenamiento (perdida


que puede verse an ms acentuada cuando la dimensionalidad intrnseca del espacio de
representacin resulta considerablemente elevada comparada con la talla del conjunto
de entrenamiento).

Con el objetivo de aliviar la correspondiente carga computacional asociada a las


reglas de clasificacin antes descritas, los Captulos 3 y 4 se han dedicado a exponer una
serie de tcnicas de aprendizaje globalmente denominadas Seleccin de Prototipos.
Especficamente, en el Captulo 3, se muestra una serie de algoritmos referenciados en
la literatura cientfica, los cuales persiguen como objetivo central que las fronteras
inducidas por las reglas de edicin constituyan una correcta aproximacin a las fronteras
de decisin asociadas al clasificador ptimo de Bayes. En general, los esquemas de
edicin presentados a lo largo de todo el captulo tienden a obtener un conjunto de
prototipos distribuidos en agrupamientos compactos y, al mismo tiempo, a eliminar los
prototipos que se encuentran en alguna regin de una clase distinta a la suya (prototipos
que habitualmente reciben el nombre de outlier). No obstante, debemos decir que la
efectividad de estos algoritmos de edicin empeora a medida que disminuye la talla del
conjunto de entrenamiento, de igual modo que ocurra con el clasificador k-NN (de
hecho muchos de los algoritmos de edicin que presentamos se basan en la utilizacin
de esta regla de clasificacin).

Las tcnicas descritas en el Captulo 4 se centran en la seleccin de un subconjunto


de entrenamiento para intentar acelerar la aplicacin de la regla a partir de una simple
reduccin de la talla del conjunto de entrenamiento, pero sin que ello implique un
excesivo deterioro en la efectividad asociada al clasificador. A lo largo de todo el
captulo, hemos explicado diversos algoritmos de condensado, as como las ventajas que
tienen los mismos y las deficiencias que tambin presentan.

A travs de este estudio sobre los diversos mtodos de clasificacin y aprendizaje


basados en criterios de vecindad, podemos sealar algunas conclusiones de especial
inters para el contenido de los prximos captulos. En primer lugar, debemos de
enfatizar la dificultad que presenta la regla k-NN para conseguir un comportamiento
adecuado sobre problemas con un conjunto de entrenamiento de talla finita. Se ha
podido comprobar que se trata de un clasificador ptimo en el caso terico, sin
embargo, su efectividad llega a ser tanto peor cuanto menor es el nmero de prototipos
en el conjunto de entrenamiento. Por el contrario, si aumentamos el nmero de
prototipos en el conjunto de entrenamiento, estaremos incrementando todava ms el
elevado coste computacional asociado a estas reglas de clasificacin. Obviamente, este
inconveniente constituye una limitacin importante para un gran nmero de
aplicaciones reales, en las que no siempre ser posible disponer de una elevada cantidad
de muestras para disear correctamente el clasificador. Otro aspecto que debemos
sealar aqu es que ninguna de las reglas de clasificacin presentadas tienen en cuenta la
distribucin de las probabilidades de pertenencia a la clase de los vecinos ms cercanos
a la muestra que se desea clasificar, es decir, no tienen en cuenta la estimacin de estas
probabilidades a la hora de asignar la muestra a una determinada clase.

Los dos puntos que se acaban de relacionar en el prrafo anterior van a significar los
objetivos bsicos de los siguientes captulos. Por una parte, se definir una nueva regla

79
Captulo 5

de clasificacin estocstica que, adems de tener en cuenta la cercana de los objetos a


la muestra, estime la probabilidad de pertenencia de esta muestra a las clases. De forma
similar, se introducirn criterios de rechazo para la regla de clasificacin estocstica
definida.

A lo largo del Captulo 5, hemos desarrollado un estado del arte de tcnicas no


supervisas, explicando las principales caractersticas de las mismas. Tambin aqu
hemos comentado una metodologa de Aprendizaje Continuo que utiliza diversos
esquemas de Seleccin de Prototipos, la cual servir de punto de partida para desarrollar
posteriormente, en el Captulo 9 un esquema similar de Aprendizaje Continuo que
involucre las tcnicas estocsticas presentadas en los Capitulo 7 y 8.

80
Parte II

Aportaciones y

Anlisis Comparativo
Captulo 6

Reglas de Clasificacin Estocsticas

1. Introduccin

En los ltimos aos el reconocimiento de patrones ha adquirido cierta popularidad


gracias a la automatizacin de las soluciones a muchos problemas de la vida real. El
hecho de que existan muchas disciplinas que utilizan el reconocimiento de patrones,
hace que no sea nada fcil encontrar un paradigma aplicable a todas ellas. El ms
utilizado, por su generalidad, es el paradigma de la clasificacin, el cual se puede
formular a partir de funciones discriminantes, tambin llamadas funciones de decisin.
Estas funciones se definen de forma que permitan dividir en clases el espacio de
representacin al cual pertenecen los diferentes objetos.

Las fronteras de decisin (asociadas a cada clase) son los lmites de separacin entre
las diferentes regiones obtenidas. A la hora de tomar una decisin para clasificar cada
objeto en las M clases (C1, C2,. . .,CM) en que se divide el espacio de representacin, se
intenta que el error cometido al realizar esta clasificacin sea mnimo. Para ello, ser
til usar la mxima informacin posible asociada a los objetos, extrada a partir de
observaciones de los mismos. Concretamente, si se conoce la probabilidad a posteriori
de que un objeto x pertenezca a una clase, se decide escoger aquella que presente el
mayor valor:

p(ci /x) > p(cj /x) 1 j M i j xCi

Este criterio constituye la regla de decisin de Bayes de error mnimo, en la cual se


basan la mayora de los mtodos de clasificacin pertenecientes al reconocimiento
estadstico de formas. Sin embargo, la probabilidad a posteriori de que un objeto
pertenezca a una clase determinada no es un dato del que se suela disponer en la
mayora de los casos. Segn el uso que se haga del conocimiento de la naturaleza de las
funciones a estimar, se puede distinguir entre mtodos de clasificacin paramtricos y
mtodos no paramtricos. En los mtodos de clasificacin paramtricos se supone el
conocimiento de la estructura estadstica de las clases y se modelan mediante funciones
de densidad conocidas; en el caso no paramtrico, no se conoce a priori la forma
funcional de las funciones de densidad y se trata de estimar sta, pues la nica
informacin disponible es la suministrada por un conjunto de prototipos. Para este
ltimo grupo, se ha propuesto una gran variedad de funciones discriminantes que dan
lugar a diferentes tipos de clasificadores.
Captulo 6

El objetivo final de todo proceso de clasificacin es etiquetar un patrn x; una de las


maneras en que se puede hacer esto es diseando buenas reglas de clasificacin
asumiendo correctamente distribuciones de probabilidad para cada clase. Estos mtodos
paramtricos han sido ampliamente estudiados, los cuales solucionan el problema al
suponer distribuciones conocidas y que se ajusten a la naturaleza de los problemas
particulares. Lamentablemente tenemos que decir, en general, que es difcil sustentar los
supuestos paramtricos, motivo por cual, el estudio de mtodos de clasificacin no
paramtricos recibe gran atencin. El problema se convierte entonces en realizar
estimaciones eficientes de las funciones de densidad para cada clase, a partir de un
conjunto de prototipos.

Existen varios mtodos no paramtricos que se pueden emplear en distribuciones


arbitrarias y sin suposiciones acerca de la forma funcional de la funcin de densidad
p(x/wj). Uno de ellos es el Mtodo de Ventanas de Parzen, el cual consiste en estimar la
funcin de densidad de un conjunto de patrones o muestras; si estos estimados son
satisfactorios, entonces podemos sustituirlos en la funcin de densidad verdadera
cuando diseamos el clasificador. Otro procedimiento para estimar directamente las
probabilidades a posteriori p(wj/x) est cercanamente relacionado con el diseo no
paramtrico de procedimientos tales como la regla de los k vecinos ms cercanos, la
cual se desva de la bsqueda de la funcin de densidad y va directamente a la
construccin de las funciones de decisin. Finalmente, existen mtodos no paramtricos
que transforman el espacio de rasgos con la esperanza de aplicar los mtodos
paramtricos en el espacio transformado. Estos mtodos de anlisis discriminante
incluyen el discriminante lineal de Fisher, el cual constituye un eslabn importante entre
las tcnicas paramtricas y las tcnicas adaptativas.

Debemos comentar que todas las reglas de clasificacin expuestas en el segundo


captulo de esta memoria de Tesis Doctoral no tienen en cuenta la distribucin de
probabilidades de pertenencia a la clase de cada uno de los vecinos, es decir, estas
reglas de clasificacin slo tienen en cuenta la distancia del objeto a clasificar a sus
vecinos ms cercanos, siguiendo un determinado criterio de vecindad, pero en ningn
caso se estima en esa vecindad la probabilidad de pertenencia a la clase de cada uno de
estos vecinos.

En este captulo, definiremos una nueva regla de clasificacin estocstica que tenga
en cuenta el criterio de vecindad seleccionado y, adems, la probabilidad de pertenencia
a la clase de cada uno de los vecinos ms cercanos a la muestra que se desea clasificar.
Tambin definiremos una opcin de rechazo de manera similar a como se hizo en el
Captulo 2 de esta memoria.

2. Ventanas de Parzen

Las tcnicas fundamentales para determinar una funcin de densidad parten del hecho
de que la probabilidad P de que cierto punto x pertenezca a una regin R viene dada por:

84
Reglas de Clasificacin Estocsticas

P = P( x R) = p( x)dx
R
(2.1)

Luego, P es una versin promediada o suavizada de la funcin de densidad p(x) y


nosotros podemos estimar este valor suavizado de p estimando la probabilidad P.
Supongamos que disponemos de n observaciones x1, x2, , xn independientes e
idnticamente distribuidas (i.i.d.), seleccionadas de acuerdo a la ley de probabilidad
p(x). La variable aleatoria X igual al nmero de muestras que pertenecen a R tiene una
distribucin binomial, por lo que la probabilidad de que k de las n muestras caigan en la
regin R vendr dada por la expresin:

n
Pk = P( X = k ) = P k (1 P) n k
k

y el valor esperado para k ser:

k
k = E{X } = nP P = (2.2)
n

Luego, la probabilidad de que haya k muestras en un volumen dado, donde P es la


probabilidad promedio es una funcin de k y, a medida que n crece, ese valor se
n
acerca ms al verdadero valor de P. Adems, esta distribucin binomial alcanza el
mximo alrededor de la media, por lo que se considera que el valor k es un buen
n
estimador de la probabilidad P y de la funcin de densidad suavizada.

Esta estimacin es ms exacta cuando n es grande. Si ahora se asume que p(x) es


continua y R es tan pequea que p(x) no vara apreciablemente en su interior entonces:

P = p ( x)dx p ( x) dx = p ( x) VR (2.3)
R R

donde x es un punto dentro de R y VR es el volumen encerrado en la regin R (en 1D


longitud, en 2D rea, 3D volumen, etc).

Combinando las expresiones 2.2 y 2.3 descritas anteriormente obtenemos:

k
p ( x) V R =
n

por tanto, podemos considerar que:

85
Captulo 6

k
p( x)
nVR

La expresin anterior nos sirve para estimar la funcin de densidad de probabilidad.


Si nosotros deseamos ms que un valor aproximado, el verdadero valor de p(x) debemos
hacer tender VR a cero. Sin embargo, si fijamos el nmero de muestras y hacemos tender
VR a cero, la regin se har muy pequea y encerrar, por tanto, muy pocas muestras,
por lo que p(x) 0 si, por ejemplo, una o ms muestras coinciden con x, el estimado
tender a infinito, lo cual es igualmente ineficaz.

Desde un punto de vista prctico, el nmero de muestras es siempre limitado, luego


el volumen no puede ser demasiado pequeo. Para resolver las limitaciones
anteriormente mencionadas, se puede emplear el siguiente mtodo para determinar la
densidad en x: supongamos que formamos una sucesin de regiones R1, R2, . que
contienen a x, la primera con una muestra, la segunda con dos y as sucesivamente; sea
Vn el volumen de Rn, kn el nmero de muestras que caen en Rn y pn(x) el n-simo
estimado de p(x), es decir:

kn
pn (x) = (2.4)
n Vn

para que pn(x) converja a p(x) deben satisfacerse tres condiciones:

Vn 0 cuando n
kn cuando n
kn
0 cuando n
n

La primera condicin nos asegura que el valor P/V converger a p(x) bajo la
suposicin de que la regin se encoge uniformemente y p es continua en x, la segunda
condicin, que solo tiene sentido si p(x) 0, nos asegura que la razn frecuencia
converge en probabilidad a la probabilidad P. La tercera condicin es claramente
necesaria para que pn(x) converja. O sea, el nmero de muestras debe ser elevado, la
regin R pequea y la cantidad de muestras que caigan en la regin R que sea
suficientemente grande.

Hay dos maneras de obtener sucesiones de regiones que satisfagan estas condiciones.
La primera de ellas es encoger una regin inicial, especificando el volumen como una
funcin de n, por ejemplo, Vn=1/ n , donde se debe demostrar entonces que las
variables aleatorias kn y kn/n se comportan segn lo expuesto anteriormente y, que por
tanto, pn(x) tiende a p(x). ste es el mtodo de Ventanas de Parzen. La segunda manera
de obtener sucesiones de regiones consiste en especificar kn como una funcin de n,
como por ejemplo, kn= n ; aqu, el volumen crece hasta que encierra kn muestras
vecinas de x. ste es el mtodo de estimacin de los kn vecinos ms cercanos. Ambos
mtodos efectivamente convergen, aunque es difcil hacer suposiciones relacionadas
con su comportamiento para una cantidad finita de muestras.

86
Reglas de Clasificacin Estocsticas

El enfoque de Ventanas de Parzen para estimar densidades asume que la regin Rn es


un hiper-cubo d-dimensional; si hn es la longitud de una arista de Rn, entonces su
volumen es igual a hnd , por lo cual, podemos entonces obtener una expresin analtica
para el valor kn, el cual corresponder al nmero de muestras que caen en Rn, definiendo
la siguiente funcin ventana:

1 si u j 1 j = 1, ...., d
(u ) = 2
0 en otro caso

x - xi
O sea, (u) define un hiper-cubo unidad con centro en el origen y, es igual
hn
a la unidad si xi cae dentro del hiper-cubo de volumen Vn con centro en x y es cero en
cualquier otro caso. El nmero de muestras en ese hiper-cubo es por tanto:

n
x xi
k n = (2.5)
i =1 hn

y cuando se sustituye 2.5 en 2.4 se obtiene el siguiente estimado:

1 n 1 x xi
p n ( x) =
n i =1 Vn hn

que sugiere un enfoque ms general para estimar funciones de densidad.

Por otro lado, ms que limitarnos a definir slo funciones ventana hiper-cubos,
podemos emplear otras funciones ventana de una clase ms general. Para que el
estimado sea realmente una funcin de densidad, es decir, que sea una funcin no
negativa y su integral igual a 1, se debe de cumplir que:

1. ( z ) 0
2. ( z ) dz =1
R

Luego, si mantenemos la relacin Vn= hnd , entonces pn(x) tambin satisface las dos
condiciones de funcin de densidad.

Examinemos ahora el efecto que tiene hn (llamado parmetro de suavizado, ancho de


banda o ancho de la ventana) sobre pn(x).

Si definimos la funcin n (x) mediante la siguiente expresin:

87
Captulo 6

1 x
n ( x) =
Vn hn

podemos escribir pn(x) mediante el promedio

1 n
pn (x) = ( x xi )
n i =1

Si hn es muy grande, pn(x) es la superposicin de n funciones que cambian


lentamente y es un estimado muy suave de p(x). Por otro lado, si hn es muy pequeo, el
valor mximo de ( x xi ) es grande y se alcanza cerca de xi. En este caso, pn(x) es la
superposicin de n pulsos afilados con centro en las muestras y se obtiene un estimado
de la densidad verdadera ruidoso y errtico. En la prctica, tenemos que buscar algn
compromiso aceptable ya que el nmero de muestras de entrenamiento es siempre
limitado y no podemos afectar el nmero de muestras de entrenamiento disponibles. En
este caso, se puede seleccionar h1 y despus se hace hn = h1 , pero la seleccin de h1
n
puede ser problemtico.

Para garantizar la convergencia de los estimados por Ventanas de Parzen, se


establecen condiciones sobre la funcin de densidad desconocida, la funcin ventana
(x) y el ancho de la ventana hn, entre ellas. En otras palabras, para garantizar la
convergencia de los estimados por Ventanas de Parzen, la funcin de densidad debe ser
continua, la funcin ventana debe ser acotada, es decir, una funcin de densidad, y sus
valores deben ser despreciables en el infinito, es decir, Vn 0 y nVn cuando n.

Con un nmero ilimitado de muestras de entrenamiento es posible hacer que Vn se


aproxime a cero y que pn(x) converja. Por convergencia se entiende, en este caso, a la
convergencia en media cuadrtica, es decir:

lim E[ pn (x)] = p(x)


n

lim Var[ pn (x)] = 0


n

Eso significa que se desea obtener estimados correctos sobre el promedio y la


varianza dentro de esos estimados debe ser despreciable cuando el nmero de muestras
tiende a infinito, el valor esperado se toma con respecto a la sucesin de muestras de
entrenamiento.

En resumen, en el mtodo de ventanas de Parzen para clasificar un patrn nuevo x se


selecciona la clase con ms datos (ponderados) en la ventana centrada en xi, con la
estimacin de la funcin de densidad. Es un mtodo computacionalmente costoso, pues
requiere el almacenamiento de todas las muestras y la evaluacin de n funciones kernel.

88
Reglas de Clasificacin Estocsticas

3. Regla de los k Vecinos ms Cercanos

Una solucin al problema de la mejor funcin ventana es hacer el volumen una funcin
de las muestras de entrenamiento, ms que una funcin que depende del nmero de
muestras. Por ejemplo, para estimar p de n muestras de entrenamiento o prototipos, se
puede construir una celda con centro en x que crezca hasta que encierre dentro kn
prototipos, donde kn es alguna funcin de n; estas muestras son los kn vecinos ms
cercanos a x. Si la densidad es alta cerca de x, la celda ser relativamente pequea, lo
cual lleva a una buena resolucin, mientras que si la densidad es baja, la celda crecer
lentamente pero se detendr cuando se llegue a una zona de alta densidad. Como puede
verse, kn juega un papel fundamental al igual que hn en el mtodo de Ventanas de
Parzen.

Sea n el nmero de muestras, M el nmero de clases y V(x) el volumen alrededor de


x que contiene k muestras, como hemos visto antes,

k
p(x)
nV(x)

k
para que converja hay que asegurar que lim =0.
n n

Supongamos que encontramos entre los k vecinos de x (en V(x)) ki muestras de clase
wi y que el nmero total de muestras de la clase wi es ni. Entonces, podemos estimar la
densidad condicional de la clase wi por:

ki
p (x/wi ) =
niV(x)

y la probabilidad a priori valindonos de la expresin

ni
p (wi ) =
n

Usando estos estimados, la regla de clasificacin asigna la muestra x a la clase wi si


p (wi /x) > p (w j /x) para todo j = 1,, M.

Aplicando el teorema de Bayes, lo anterior significa que la regla de clasificacin


asigna x a la clase wi si ki k j para todo j =1, , M. O sea, la regla de decisin asigna x
a la clase ms votada entre sus k vecinos ms cercanos. Para k = 1, esta es la regla del
vecino ms cercano.

En resumen, en la regla k-NN se busca la ventana que contenga k vecinos alrededor


de x y se clasifica a x en la clase con ms vecinos en esa ventana. Por tanto, la regla de
clasificacin determina directamente la clase a la que pertenece x, o sea, nunca

89
Captulo 6

construye una funcin de densidad. Es un mtodo que requiere almacenar todas las
muestras de aprendizaje y definir una funcin distancia, la cual depende de cada
problema en concreto.

4. Regla de Clasificacin Estocstica

En esta seccin, presentaremos una nueva regla de clasificacin que emplea un enfoque
difuso y estocstico, mezclado con la regla de clasificacin de los k vecinos ms
cercanos. El objetivo de dicha regla es su empleo en problemas de aprendizaje
parcialmente supervisado, especficamente en problemas de aprendizaje contnuo, por lo
que es necesario de una regla de clasificacin que tenga en cuenta la naturaleza
cambiante de los procesos de aprendizaje semi-supervisados en los que tendremos datos
etiquetados y datos sin etiquetar. Por tanto, adems de la votacin de los vecinos ms
cercanos o de la posibilidad de obtener la funcin de densidad de probabilidad de las
clases, sera interesante tener la probabilidad de pertenencia de los vecinos a cada clase,
pues los objetos sin etiquetar se irn etiquetando y, luego, sern empleados para
etiquetar otros nuevos, o sea, la idea es hacer una clasificacin dependiente del grado de
pertenencia de los vecinos ms cercanos de cada muestra a etiquetar.

La idea de este enfoque que mostraremos es usar las etiquetas de los vecinos ms
cercanos de la muestra a clasificar, pero unas etiquetas difusas, es decir, de acuerdo a un
grado de pertenencia a dicha clase, cada vecino aportar al proceso de etiquetar el nuevo
objeto, por lo que podemos considerar una superposicin de las probabilidades de
pertenencia de los vecinos a la clase en cuestin, o sea, nos planteamos la idea de que a
la hora de calcular el grado de pertenencia del nuevo objeto x, se haga en la forma
siguiente:

k
pi (x) = pi (x j )
j =1

donde i =1, , M; xj, j =1, , k son los k vecinos ms cercanos de x y M el nmero de


clases.

A su vez, si ponderamos cada uno de los sumandos con el inverso de las distancias
de x a sus vecinos ms cercanos, no slo tenemos en cuenta cuntos vecinos se estn
considerando y sus probabilidades de pertenencia a la clase, sino tambin cun cerca
estn dichos vecinos de la muestra x, pues si los k vecinos estn muy cerca de x, es
lgico que pertenezcan a la misma clase y con una probabilidad alta, o sea, que si los
vecinos tienen una alta probabilidad de pertenecer a la clase i y adems x y sus vecinos
estn muy cercanos, el inverso de la distancia dar valores altos y, por tanto, la
probabilidad de pertenencia de x a esa clase ser alta. Entonces, la frmula que a
continuacin explicaremos tendr la forma:

90
Reglas de Clasificacin Estocsticas

k
pi (x) = j pi (x j )
j =1

donde

1
j = siendo > 0
+ d(x, x j )

pues si tomamos el inverso de la distancia solamente, en la prctica puede suceder que


se anule el denominador.

El objetivo de esa frmula es obtener la probabilidad de pertenencia a la clase i


(i =1, , M) del objeto a clasificar x, como la suma de las probabilidades de pertenencia
a la clase i, de cada uno de los vecinos, ponderada por el inverso de la distancia, donde
cada una de las pi(xj) podemos considerarlas como las probabilidades a posteriori
p(wi/xj), o sea, si tenemos las probabilidades a posteriori de los vecinos, podemos
intentar calcular o estimar las probabilidades a posteriori del objeto x.

Ya hemos visto antes que, para etiquetar objetos empleando ejemplos, necesitamos
las probabilidades a posteriori. En el caso del mtodo de Ventanas de Parzen, primero
hace falta estimar las funciones de densidad de probabilidad de cada clase y luego, con
el empleo de la frmula de Bayes, se obtienen las probabilidades a posteriori. En el otro
caso, para la regla de los k vecinos ms cercanos, no es necesario estimar esta funcin
de densidad, este paso no se considera y la regla de clasificacin se obtiene slo en
dependencia de una estrategia de votacin.

La estrategia que nosotros proponemos, presentada en [Vzquez, 2005], tambin


evita el paso de determinar las funciones de densidad de las clases, ya que se obtienen
funciones que se pueden considerar como las probabilidades a posteriori directamente,
pero como puede verse, en la frmula anterior es necesario normalizar para obtener una
funcin que podamos considerar como una probabilidad a posteriori. Para satisfacer este
objetivo, lo primero que hacemos es, dada una muestra x, definimos la funcin no
negativa:

k
1
Pi (x) = pij
j =1 ( + d(x, x j ))

donde pij = pi (x j ) denota la probabilidad a posteriori de que el j-simo vecino ms


cercano xj pertenezca a la clase i, es un valor mayor que cero.

Posteriormente, valindonos de la expresin:

91
Captulo 6

M
pi (x) = Pi (x) P (x)
r =1
r

donde hemos normalizado la funcin Pi(x), podemos obtener la probabilidad de que la


muestra x pertenezca a la clase i.

Veamos las propiedades de esa funcin, para cada x fijo, pi ( x) = p ( wi / x) se puede


considerar como una distribucin condicional de la variable aleatoria W con valores
w1, w2, , wM, pues, para x fijo, cumple las siguientes condiciones:

M M M
Pi (x) 1
1. pi (x) = M
= M P (r) = 1
i
i =1 i =1
Pr (x)
r =1
Pr (x)
r =1
i =1

Lo que equivale a que la probabilidad del suceso cierto es uno.


2. Se cumple que 0 pi (x) 1
Esta propiedad nos asegura que la probabilidad de ocurrencia de cualquiera de los
sucesos pertenece al intervalo cerrado [0,1] .

[ ]
k
1
Pi (x) Ph (x)

j =1 + d(x, x j )
pi (x j ) + ph (x j )
3. pi (x) + ph (x) = M + M = M

Pr (x) Pr (x)
r =1 r =1
Pr (x) r =1

Con lo anterior, demostramos que la funcin p(x) definida anteriormente satisface la


propiedad de aditividad.

Estas tres propiedades demuestran que la funcin p(x) es una probabilidad definida
sobre el espacio de sucesos S = {w1, w2, , wM}.

Una vez que tenemos modelado el problema de la funcin mediante la cual vamos
asignar a la muestra x una etiqueta difusa, pasamos a exponer la regla de clasificacin.
Para nosotros, la muestra x puede pertenecer a cada una de las clases, pero con un grado
de verosimilitud.

Primeramente, en el proceso de clasificacin puro, o sea, si queremos etiquetar al


objeto x, consideramos, como es usual, que x pertenece a la clase de mayor
probabilidad. Entonces, la regla de clasificacin estocstica puede ser definida mediante
la siguiente expresin:

k - prob (x) = wi si pi (x) = arg max( p j (x))


j

El significado de la expresin anterior no es ms que la muestra x ser asignada a


aquella clase que mayor probabilidad tenga, donde no slo se ha tenido en cuenta el
aporte de las probabilidades de pertenencia a cada una de las clases de estos vecinos,

92
Reglas de Clasificacin Estocsticas

sino tambin las distancias de los vecinos ms cercanos a la muestra x, de modo que los
vecinos ms cercanos sern determinantes en el proceso de clasificacin.

Como el objetivo ser emplear luego esta regla en el proceso de aprendizaje, es


importante guardar las probabilidades de pertenencia de x a cada clase, pues ser lo ms
importante para clasificar a los nuevos objetos que van llegando, no las etiquetas en s,
que es lo que queramos obtener con esta nueva regla, pues es necesario sealar que los
valores de las probabilidades a posteriori pueden ir cambiando en un proceso iterativo
para medir la influencia de los vecinos sobre x, adems de la distancia entre ellos.

Como otra cuestin interesante, se puede observar que si consideramos un enfoque


de clasificacin dura, podemos partir del hecho de que las probabilidades a posteriori
para cada uno de los objetos de la base de datos son:

1 si y Ci
pi ( y ) =
0 si y Ci

por tanto, si construimos para cada objeto en la base de datos un vector de


probabilidades a posteriori ( p1(y), p2 (y), ..., pM (y) ) , ser un vector binario igual a 1 en
la coordenada correspondiente a la clase a la que y pertenece y ser cero para el resto de
las coordenadas. Luego, a la hora de clasificar un objeto nuevo, segn la regla antes
descrita, si por ejemplo tomamos solo un vecino, la probabilidad de pertenencia de x a
cada una de las clases ser:

Pi (x)
pi (x) = M

P(x)
i =1
i

donde

1
si xi Ci
Pi (x) = + d(x, xi )
0 en otro caso

Como estamos hablando de la clasificacin dura, x1 pertenece a slo una de las


clases, por tanto Pi(x) ser diferente de cero slo para una de las clases. Luego, la
sumatoria del denominador ser igual a Pi(x) para la i correspondiente a la clase de x1, y
por tanto:

1 si x1 Ci
pi (x) =
0 en otro caso

Esto significa que para el caso duro y un solo vecino ms cercano esta regla coincide
ntegramente con la regla del vecino ms cercano.

93
Captulo 6

Debemos sealar tambin que, en problemas prcticos, es conveniente tomar siempre


un nmero impar de vecinos para evitar posibles empates. No obstante, de producirse
empates en el proceso de clasificacin, se seguirn las mismas estrategias ya
mencionadas en el Captulo 2 de esta memoria de tesis.

5. Regla de Clasificacin Estocstica con Rechazo

De igual modo que ocurra con la regla de decisin de Bayes, as como tambin con las
regla k-NN y k-NCN, cabe la posibilidad de no clasificar aquellas muestras para las
cuales no se obtenga una cierta garanta de que la clasificacin obtenida sea la correcta.
En la tcnica anteriormente explicada, la decisin de clasificacin se producir cuando
la probabilidad de pertenencia del objeto a alguna de las posibles clases reciba el mayor
valor, pero, si el valor de la probabilidad mxima no es lo suficientemente alto, es
lgico dudar de etiquetar el objeto en esa clase, por lo que, la muestra debe ser
rechazada.

La opcin de rechazo estocstica considerada en este epgrafe consiste en introducir


un umbral 0<<1 en la regla de clasificacin, con el objetivo de eliminar aquellas
muestras cuya probabilidad de pertenecer a la clase asignada no es significativa. Con
este mtodo, estamos eliminando muestras del conjunto de entrenamiento que estn en
la frontera de decisin, donde las probabilidades condicionales de clase se solapan y se
confunden. Esta estrategia, presentada en [Vzquez, 2005], puede escribirse como:

wi si pi = arg mx ( p j ( x )) pi >
k prob umb ( x ) = j

w0 en otro caso

En esta regla se introduce una nueva clase w0, la cual representa a las muestras
rechazadas, es decir, aquellas muestras que su mayor valor de probabilidad no supera el
umbral previamente definido.

Como no todas las clases estn igualmente representadas en el conjunto de


entrenamiento, es lgico pensar que al clasificar una nueva muestra, las clases con
mayor cantidad de prototipos tienen mayores posibilidades que aquellas clases que
cuentan con un nmero menor de prototipos para competir. Es por ello que se puede
lograr un balance entre las clases, introduciendo un umbral diferente, i, para cada una
de las clases del espacio. Con lo cual pudiramos definir una opcin de rechazo basada
en la regla de clasificacin k-prob-umb en la forma siguiente:

94
Reglas de Clasificacin Estocsticas

wi si i = pi i , i =1, ..., M j = arg mx( j ) i > 0



k prob umb var ( x) = 1 j M

w0 en otro caso

6. Regla k-NCN Estimando las Probabilidades de Clases

Como ya hemos comentado anteriormente, el concepto de NCN ha venido aplicndose


como herramienta para la resolucin de una serie de problemas dentro del campo de la
representacin de puntos [Chaudhuri, 1996], mostrando una cierta superioridad con
respecto a los resultados obtenidos mediante la utilizacin de un concepto de vecindad
convencional, es decir, a partir de los vecinos ms prximos. En esta seccin, se
introduce una nueva regla de clasificacin no paramtrica basada en esta definicin de
NCN y cuya finalidad se centra, fundamentalmente, en la estimacin de la clase de una
nueva muestra, teniendo en cuenta no slo los aspectos de proximidad (criterio de
distancia), sino tambin los relacionados con la distribucin homognea de los
prototipos (criterio de simetra) y, adems, en la estimacin de la probabilidad de
pertenencia a la clase de los vecinos ms cercanos a la muestra a clasificar.

El nuevo esquema de clasificacin que proponemos aqu se basa tambin en la idea


general de estimar la clase de una muestra a partir de la votacin de un determinado
nmero de vecinos, teniendo en cuenta la probabilidad de pertenencia a la clase de cada
uno de estos vecinos, pero utilizando una mtrica alternativa que permita analizar la
distribucin de los prototipos alrededor de aquella muestra.

De una manera similar a la descrita en el epgrafe 4, donde explicamos la regla de


clasificacin k-NN-prob, podemos definir ahora la regla de clasificacin k-NCN-prob(x),
en la cual, para determinar la probabilidad de pertenencia del objeto x a la clase i
utilizaramos las mismas expresiones antes descritas:

M
pi (x) = Pi (x) P (x)
j =1
j

donde los Pj(x) se calculan segn la frmula:

k
1
Pi (x) = pij
j =1 ( + d(x, x j ))

En la cual, xj representa el j-simo vecino de centroide ms cercano al objeto x y p ij


representa la probabilidad de que el j-simo vecino pertenezca a la clase i.

Una vez determinada la probabilidad de clases pi de la muestra se define de forma


anloga la regla de clasificacin mediante la expresin:

95
Captulo 6

k-NCN-prob (x) = wi si pi (x) = arg max( p j (x))


j

Anlogamente al caso anterior, se puede introducir una opcin de rechazo en la regla


de clasificacin estocstica anterior, introduciendo un umbral 0<<1, con el objetivo de
eliminar aquellas muestras cuya probabilidad de pertenecer a la clase asignada no es
significativa:

wi si pi = mx( p j ( x )) pi >
k NCN prob umb ( x ) = j

w0 en otro caso

En esta regla, de manera similar, se introduce una nueva clase w0 que representa a las
muestras rechazadas, es decir aquellas muestras que su mayor valor de probabilidad no
supera el umbral predefinido.

Tambin en este caso, se puede lograr un balance entre las clases introduciendo un
umbral diferente, i para cada una de las clases del espacio. Con lo cual pudiramos
definir una opcin de rechazo basada en la k-prob-umb en la forma siguiente:

wi si i = pi i , i = 1, ..., M i = mx( j ) i > 0


k NCNprobumb var (x) = j
w
0 en otro caso

7. Resultados Experimentales Utilizando Reglas de Clasificacin


Estocsticas

En el estudio comparativo que vamos a presentar en este epgrafe, un aspecto de


esencial relevancia se centra en el formato de los experimentos que se realizaron. As,
por ejemplo, el mtodo que se emplee para la estimacin del error de clasificacin
determinar el significado de los resultados en su justa medida, es decir, permitir
conocer el grado de independencia entre las tareas de diseo y clasificacin. En
consecuencia, parece evidente la importancia real de establecer a priori un formato y
unos criterios adecuados para la realizacin de los experimentos, lo cual, por otra parte,
permitir disponer de un conjunto de referencia para comparar los resultados.

De este modo, en esta seccin, mostraremos los resultados obtenidos por los
diferentes algoritmos de clasificacin estocsticos presentados en las secciones
anteriormente explicadas. Para satisfacer est objetivo utilizamos 14 bases de datos
reales y sintticas tomadas del repositorio UCI Machine Learning Database Repository
[Merz, 1996]. Las principales caractersticas de estas bases de datos en cuanto a
cantidad de objetos, nmero de clases y cantidad de rasgos se muestran en el Apendice
A que aparece en la presente memoria de Tesis Doctoral. La tabla que a continuacin se
presenta hace un resumen de todas estas caractersticas.

96
Reglas de Clasificacin Estocsticas

Nombre No. No. No.


clases rasgos objetos
Australian 2 42 690
Balance 3 4 625
Cancer 2 9 683
German 2 24 1002
Glass 6 9 214
Heart 2 13 270
Ionosphere 2 34 352
Liver 2 6 345
Phoneme 2 5 5404
Satimage 6 36 6453
Texture 11 40 5500
Vehicle 4 18 846
Vowel 11 10 528
Wine 3 13 178
Tabla 1. Un breve sumario de las bases de datos experimentales.

En los experimentos realizados utilizamos como mtodo de estimacin del error el


mtodo de validacin cruzada, considerando 5 particiones aleatorias de cada una de las
bases de datos, tomando en las mismas el 80% de los objetos para formar los diferentes
conjuntos de entrenamiento TS y el 20% de los objetos para formar los conjuntos de
prueba. Posteriormente, cada conjunto de entrenamiento fue clasificado con las
diferentes reglas de clasificacin propuestas en este captulo, as como utilizando el
clasificador 1-NN. En todos los experimentos, hemos considerado =1 en las reglas de
clasificacin estocsticas.

En la Tabla 2, aparecen los resultados experimentales (porcentajes de clasificacin,


desviacin tpica, diferencia de los porcentajes y el ranking), usando los algoritmos de
clasificacin k-NN, k-NN-prob, sobre las 14 bases de datos, los resultados fueron
obtenidos sobre las 5 particiones consideradas y consideramos en todos los casos el
mejor valor del parmetro k (debemos sealar que los valores asignados al parmetro k
fueron 3, 5, 7, 9, 11) para cada una de las bases de datos consideradas en nuestros
experimentos.

La tercera y cuarta columna de esta tabla hacen referencia a las reglas de


clasificacin k-NN y k-NN-prob destacamos en negrita el mejor mtodo de clasificacin
en trmino de porcentajes de clasificacin para cada una de las bases de datos que
hemos considerado. La quinta columna muestra la diferencia entre los porcentajes de la
regla k-NN y k-NN-prob. Por ltimo, la sexta columna muestra el ranking de estos
porcentajes. Es importante sealar que en slo tres bases de datos, Australian, Heart y
Phoneme, la regla de clasificacin k-NN supera a nuestra propuesta en un porcentaje de
clasificacin igual a 1.24% como promedio. No obstante, en once bases de datos, el
algoritmo k-NN-prob es superior a la regla k-NN. Sin embargo, en las bases de datos
Balance, Glass, Liver, Vehicle, Wine y Vowel, el porcentaje de clasificacin de nuestra
propuesta obtiene una mejora de 3.35%. En el resto de las bases de datos, tambin se
puede apreciar que el porcentaje de clasificacin utilizando la regla k-NN-prob es
superior al que es obtenido cuando se utiliza la regla de clasificacin k-NN.

97
Captulo 6

Base k-NN k-NN-prob Diferencia Ranking

Australian % clasificacin 70.13 66.95 -3.18 11


desviacin 2.88 3.42
Balance % clasificacin 84.66 86.41 +1.75 10
desviacin 3.90 2.73
Cancer % clasificacin 96.77 96.93 +0.16 3
desviacin 2.16 2.07
German % clasificacin 71.51 71.70 +0.19 4
desviacin 3.10 2.56
Glass % clasificacin 62.99 68.88 +5.89 13
desviacin 7.39 10.34
Heart % clasificacin 68.45 67.94 -0.51 7
desviacin 5.52 5.04
Ionosphere % clasificacin 82.31 82.59 +0.28 5
desviacin 3.97 4.09
Liver % clasificacin 68.41 69.00 0.59 8
desviacin 5.58 3.44
Phoneme % clasificacin 74.14 74.10 -0.04 1
desviacin 7.71 8.40
Satimage % clasificacin 83.01 83.50 +0.49 6
desviacin 13.20 13.03
Texture % clasificacin 98.74 98.81 +0.07 2
desviacin 0.37 0.42
Vehicle % clasificacin 62.27 65.93 +3.66 12
desviacin 2.54 2.77
Wine % clasificacin 67.47 73.63 +6.16 14
desviacin 4.07 5.50
Vowel % clasificacin 93.23 94 +0.77 9
desviacin 3.83 3.45
Tabla 2. Porcentaje de clasificacin, desviacin tpica, diferencias de porcentajes y ranking.

Una forma de validar los resultados que hemos presentado es aplicarle a los mismos
un test estadstico. Para ello, incluiremos los resultados obtenidos valindonos de
Wilcoxon Signed-Ranks Test (Wilcoxon, 1945), el cual es un mtodo no paramtrico
para comparar dos clasificadores. En el mismo, vamos a considerar como hiptesis nula
H0, que los algoritmos k-NN y k-NN-prob son equivalentes. Para aplicar este test
necesitamos utilizar las siguientes expresiones analticas:

1
R+ = ranking(d ) + 2 ranking(d ) = 86
di >0
i
di =0
i

1
R = ranking(d ) + 2 ranking(d ) = 19
di <0
i
di =0
i

T = min( R + , R - ) = 19

En las expresiones que acabamos de mostrar di representa la diferencia entre los


porcentajes de k-NN-prob y k-NN. Evidentemente, representamos con signo (+) si k-
NN-prob es superior a k-NN y con signo (-) si k-NN es superior a k-NN-prob. Las
expresiones R+ y R- representan las sumas del ranking de estas diferencias. De acuerdo a

98
Reglas de Clasificacin Estocsticas

la tabla de valores crticos de exactitud para el test de Wilcoxon para un nivel de


confianza =0.05 y N=14 bases de datos, la diferencia entre los clasificadores es
significativa y, por lo tanto se rechaza la hiptesis nula, si el valor de T es menor o igual
que 21. En nuestro caso, el valor obtenido utilizando las expresiones anteriores es de 19,
por lo cual es rechazada la hiptesis nula, lo cual debe de interpretarse como que los
algoritmos que hemos comparado no son equivalentes bajo el nivel de confianza
previamente definido.

Otra dato con el que podemos validar estos resultados es utilizando el estimador:

1
T - N( N + 1)
z= 4
1
N( N + 1)(2 N + 1)
24

Propuesto en el artculo de [Demsar, 2006], el mismo representa aproximadamente


una distribucin normal y, para un nivel de confianza =0.05 y N=14 bases de datos, la
hiptesis nula puede ser rechazada si z es un valor menor que -1.96. En nuestro caso:

1 1
19 14(15) 19 7 (15)
z= 4 = 2 = 2.10
1 1
14(15)(29) 7 (15) (29)
24 12

Valindonos del resultado antes calculado, podemos rechazar la hiptesis nula, por lo
cual la diferencia entre los dos clasificadores es significativa. Este estimador tambin
confirma el resultado obtenido por el test de Wilcoxon.

Debido a los resultados obtenidos, podemos decir que al tener en cuenta no slo la
distancia a la muestra, sino tambin la probabilidad de pertenencia a la clase de los
vecinos ms cercanos, mejoramos los porcentajes de clasificacin en la mayora de las
bases de datos sobre las cuales realizamos los experimentos. Esto hace pensar que esta
regla de clasificacin estocstica pudiera ser de gran utilidad en problemas de
clasificacin difusa, donde no necesariamente los objetos tuvieran una probabilidad de
pertenencia a la clase de 0 y 1.

7.1. Regla de Clasificacin con Rechazo

En la Tabla 3, aparecen los resultados correspondientes a las reglas de clasificacin con


opcin de rechazo. En los experimentos realizados con la regla k-NN-prob-umb hemos
considerado =0.6 y =0.7 como el valor del umbral y en el caso de la regla k-NN, la
opcin de rechazo implementada consisti en definir un entero positivo l = [k/2]+1 de
manera que, si el nmero de vecinos ms cercanos a la muestra no logra superar este
valor, la muestra es rechazada.

99
Captulo 6

Base k-NN k-NN-prob k-NN- k-NN- k-NN


prob- prob- rechazo
umb 0.6 umb 0.7
Australian % clasificacin 70.13 66.95 70.13 74.83 70.13
desviacin 2.88 3.42 4.09 4.40 2.88
% rechazadas - - 15.93 34.48 0
Balance % clasificacin 84.66 86.41 96.92 99.23 91.54
desviacin 3.90 2.73 2.25 0.69 2.28
% rechazadas - - 26.16 37.74 13.27
Cancer % clasificacin 96.77 96.93 97.16 97.69 96.77
desviacin 2.16 2.07 1.47 1.12 2.16
% rechazadas - - 1.31 3.94 0
German % clasificacin 71.51 71.70 76.17 80.23 71.51
desviacin 3.10 2.56 2.72 3.38 3.10
% rechazadas - - 20.78 40.59 0
Glass % clasificacin 62.99 68.88 76.55 84.50 71.46
desviacin 7.39 10.34 11.11 8.96 10.68
% rechazadas - - 28.08 41.11 23.91
Heart % clasificacin 68.45 67.94 69.87 70.89 68.45
desviacin 5.52 5.04 2.49 5.49 5.52
% rechazadas - - 22.54 41.75 0
Ionosphere % clasificacin 82.31 82.59 84.6 85.77 82.31
desviacin 3.97 4.09 5.6 6.42 3.97
% rechazadas - - 6.52 10.78 0
Liver % clasificacin 68.41 69.00 71.91 79.63 68.41
desviacin 5.58 3.44 5.45 5.75 5.58
% rechazadas - - 23.7 46.61 0
Phoneme % clasificacin 74.14 74.10 76.83 78.88 74.14
desviacin 7.71 8.40 7.91 8.03 7.71
% rechazadas - - 14.28 23.35 0
Satimage % clasificacin 83.01 83.50 87.13 89.21 84.35
desviacin 13.20 13.03 13.19 12.70 14.10
% rechazadas - - 8.22 15.28 2.73
Texture % clasificacin 98.74 98.81 99.13 99.69 98.83
desviacin 0.37 0.42 0.35 0.07 0.43
% rechazadas - - 0.78 0.87 0.09
Vehicle % clasificacin 62.27 65.93 78.76 81.58 71.19
desviacin 2.54 2.77 4.1 4.40 4.44
% rechazadas - - 42.55 46.57 21.75
Wine % clasificacin 67.47 73.63 79.91 83.97 73.44
desviacin 4.07 5.50 8.02 2.38 5.47
% rechazadas - - 22.49 50.96 12.89
Vowel % clasificacin 93.23 94 96.08 99.35 93.95
desviacin 3.83 3.45 2.72 0.96 4.04
% rechazadas - - 2.94 9.35 0.76
Tabla 3. Porcentaje de clasificacin, desviacin tpica y porcentaje de muestras rechazadas, usando
diferentes reglas de clasificacin.

Como se puede observar, aparecen en cursiva y negrita los mejores porcentajes de


clasificacin. En cada una de las bases de datos, la opcin de rechazo que proponemos
en nuestro trabajo supera a la opcin de rechazo implementada en la regla k-NN.
Tambin sealamos en cursivas los porcentajes de muestras rechazadas, donde con
nuestra propuesta siempre logramos rechazar un nmero considerable de muestras, sin
que esto disminuya el porcentaje de clasificacin. Es importante sealar tambin que, en
las bases de datos que cuentan con slo dos clases, la opcin de rechazo implementada
para la regla k-NN no logra rechazar elementos en el proceso de clasificacin, sin

100
Reglas de Clasificacin Estocsticas

embargo nuestra propuesta elimina siempre objetos que su distribucin de probabilidad


sea inferior al umbral seleccionado. Tambin se observa en la Tabla que, a medida que
el umbral se incrementa el porcentaje de clasificacin de la regla k-NN-prob aumenta,
as como tambin el porcentaje de muestras rechazadas por el clasificador.

Base k-NCN k-NCN- Diferencia Ranking k-NCN- k-NCN


prob prob- rechazo
umb 0.6
Australian % clasificacin 71.45 68.55 -2.86 12 72.02 71.45
desviacin 3.98 3.67 2.75 3.98
% rechazadas - - 2.54 -
Balance % clasificacin 86.22 86.74 +0.52 5 98.83 94.35
desviacin 4.14 4.44 1.16 2.21
% rechazadas - - 28.13 13.89
Cancer % clasificacin 96.63 95.90 -0.73 6 96.85 96.63
desviacin 1.51 2.34 2.03 1.51
% rechazadas - - 1.75 -
German % clasificacin 74.70 75.70 +1.00 8 77.29 74.70
desviacin 2.64 2.30 1.10 2.66
% rechazadas - - 19.38 -
Glass % clasificacin 65.41 71.11 +5.7 13 82.46 75.10
desviacin 9.16 8.48 13.62 11.40
% rechazadas - 40.30 31.34
Heart % clasificacin 68.92 68.81 -0.11 1.5 70.07 68.92
desviacin 5.04 4.68 3.91 5.04
% rechazadas - 18.08 -
Ionosphere % clasificacin 94.29 92.27 -2.02 11 94.54 94.29
desviacin 1.78 4.16 3.94 1.78
% rechazadas - 9.11 -
Liver % clasificacin 72.72 73.54 +0.82 7 78.10 72.72
desviacin 5.15 5.03 7.37 5.15
% rechazadas - 23.75 -
Phoneme % clasificacin 75.05 75.34 +0.29 4 78.43 75.05
desviacin 8.37 8.08 9.10 8.37
% rechazadas - 14.02 -
Satimage % clasificacin 83.45 85.21 +1.73 9.5 89.64 87.66
desviacin 13.72 13.56 11.96 11.96
% rechazadas - - 12.31 8.01
Texture % clasificacin 99.36 99.54 +0.18 3 99.96 99.76
desviacin 0.17 0.17 0.05 0.13
% rechazadas - 4.03 1.43
Vehicle % clasificacin 69.73 69.84 +0.11 1.5 82.79 81.80
desviacin 1.99 2.79 1.39 1.99
% rechazadas - 36.18 23.29
Wine % clasificacin 75.38 73.65 -1.73 9.5 81.79 81.40
desviacin 7.65 6.72 8.26 6.42
% rechazadas - 20.28 11.70
Vowel % clasificacin 90.52 96.99 +6.47 14 99.45 96.92
desviacin 4.58 2.28 0.75 1.23
% rechazadas - 33.31 17.85
Tabla 4. Porcentaje de clasificacin, desviacin tpica y porcentaje de muestras rechazadas, usando
diferentes reglas de clasificacin.

En la Tabla 4, aparecen los resultados experimentales utilizando como clasificadores


k-NCN y k-NCN-prob, as como tambin la opcin de rechazo para la regla k-NCN, y la
opcin de rechazo propuesta cuando tenemos en cuenta las probabilidades de

101
Captulo 6

pertenencia de los objetos a su clase, considerando en este caso solo =0.6 el valor del
umbral. Como se puede apreciar en la tercera y cuarta columnas de la tabla, se muestran
los porcentajes de clasificacin referentes a las reglas k-NCN y k-NCN-prob, en negrita
enfatizamos en cada una de las bases de datos los mejores porcentajes de clasificacin.
La quinta columna incluye la diferencia entre el porcentaje de la regla k-NCN-prob y k-
NCN. La sexta columna muestra el ranking de estos porcentajes. En las bases de datos
Australian, Cancer, Heart, Ionospere y Wine, la regla k-NCN es superior a la regla k-
NCN-prob en 1.49% de clasificacin correcta como promedio. En las restantes nueve
bases de datos la regla k-NCN-prob supera en 1.92% de clasificacin correcta a la regla
k-NCN. Con estos resultados, pudiramos pensar que la regla de clasificacin k-NCN-
prob es superior, pero antes de afirmar esto, aplicaremos el test estadstico Wilcoxon
Signed-Ranks Test que presentamos cuando analizamos los resultados de la Tabla 2,
ahora para estos dos clasificadores obtenemos los siguientes valores:

1
R+ = ranking(d ) + 2 ranking(d ) = 64
di >0
i
di =0
i

1
R = ranking(d ) + 2 ranking(d ) = 40
di <0
i
di =0
i

T = min( R + , R - ) = 40

En este caso, la diferencia entre los dos clasificadores no parece significativa, ya que
el valor de T no es menor o igual que 21, por lo cual no podemos rechazar la hiptesis
nula. Si calculamos con el valor de T obtenido el estimador z antes definido, obtenemos
que z= -0.78, por lo cual tampoco es posible rechazar la hiptesis nula.

Luego si solo hubiramos considerados solamente los porcentajes de clasificacin de


los dos clasificadores, hubisemos afirmado que k-NCN-prob es superior, ya que tienen
mejores resultados en un nmero mayor de bases de datos. En las dos restantes
columnas de esta tabla, aparecen los resultados correspondientes a las opciones de
rechazo, enfatizando en negrita y cursiva los mejores porcentajes de clasificacin.
Como se observa, la opcin de rechazo considerando el umbral =0.6 supera en todas
las bases de datos a la opcin de rechazo de la regla k-NCN. En esta tabla, no hemos
incluido los resultados obtenidos cuando consideramos =0.7, ya que se obtiene un
comportamiento similar a los obtenidos en la Tabla 2, es decir, si incrementamos el
valor del umbral de rechazo, los porcentajes de clasificacin mejoran y el porcentaje de
muestras rechazadas lgicamente tambin aumenta. En estos experimentos, hemos
utilizado la misma opcin de rechazo que comentamos anteriormente, adems hemos
sealado tambin en cursiva el porcentaje de reduccin del conjunto de entrenamiento
y, en todas las bases de datos, nuestra propuesta logra mejores resultados, destacando
que en bases de datos donde slo hay dos clases nuestra opcin de rechazo elimina
objetos que no superan el umbral definido, sin embargo con la otra propuesta no es
posible descartar objetos en la clasificacin.

102
Reglas de Clasificacin Estocsticas

8. Conclusiones

En este captulo, hemos presentado varios mtodos no paramtricos que se pueden


emplear en distribuciones arbitrarias y sin suposicin acerca de la forma funcional de la
funcin de densidad p(x/wj). El Mtodo de Ventanas de Parzen estima la funcin de
densidad de un conjunto de patrones o muestras; si estos estimados son satisfactorios,
entonces podemos sustituirlos en la funcin de densidad verdadera cuando diseamos el
clasificador. Otro procedimiento para estimar directamente las probabilidades a
posteriori p(wj, x) est estrechamente vinculado con el diseo no paramtrico de
procedimientos tales como la regla de los k vecinos ms cercanos, la cual se desva de la
bsqueda de la funcin de densidad y va directamente a la construccin de las fronteras
de decisin.

En este captulo, hemos, definido una nueva regla de clasificacin estocstica que
tiene en cuenta el criterio de vecindad seleccionado y, adems, la probabilidad de
pertenencia a la clase de cada uno de los vecinos ms cercanos a la muestra que se desea
clasificar. Se defini tambin una opcin de rechazo estocstica para la regla de
clasificacin anteriormente mencionada.

Diferentes experimentos sobre 14 bases de datos reales y sintticas, tomadas del


repositorio UCI Machine Learning Database Repository [Merz, 1996], avalan la regla
estocstica aqu presentada. En los experimentos realizados utilizamos como mtodo de
estimacin del error el mtodo de validacin cruzada, considerando 5 particiones
aleatorias de cada una de las bases de datos, tomando en las mismas el 80% de los
objetos para formar los diferentes conjuntos de entrenamiento TS y el 20% de los
objetos para formar los conjuntos de prueba.

De manera general, en los experimentos hemos comparado la regla k-NN con la regla
k-NN-prob sobre un conjunto de bases de datos, y valindonos del test estadstico de
(Wilcoxon Signed-Ranks) comprobamos que los resultados que obtuvimos con nuestra
propuesta correspondiente a porcentajes de clasificacin son superiores a los que se
obtienen considerando la regla k-NN. Un experimento similar fue realizado con las
reglas k-NCN y k-NCN-prob arrojando como resultado que las diferencias entre estas
dos tcnicas de clasificacin no parece ser estadsticamente significativas. Tambin, se
implementaron las opciones de rechazo para cada una de las reglas de clasificacin,
obtenindose como resultado que las propuestas estocsticas tienen un mejor porcentaje
de clasificacin sobre cada una de las bases datos, as como tambin los porcentajes de
reduccin obtenidos son superiores, sin que esto disminuya el porcentaje de
clasificacin.

103
Captulo 7

Algoritmos de Edicin Estocsticos

1. Introduccin

Como es conocido, en muchas aplicaciones prcticas, el conjunto de entrenamiento


puede incluir un cierto nmero de prototipos errneos o incorrectamente etiquetados
que, obviamente, darn lugar a unas tasas de error muy superiores a las esperadas. Las
tcnicas de edicin tienden, precisamente, a obtener un conjunto de prototipos
distribuidos en grupos compactos o clusters y, al mismo tiempo, a eliminar los
prototipos que se encuentran en alguna regin de una clase distinta a la suya,
denominados outliers.

La aplicacin de los procedimientos de edicin resultar interesante no slo como


herramienta para disminuir el error de clasificacin asociado a las distintas reglas NN,
sino tambin para llevar a cabo cualquier proceso posterior que pudiese beneficiarse de
un conjunto de entrenamiento con unas fronteras de decisin sencillas.
La idea que comparten todos los esquemas de edicin consistir en descartar
prototipos que se encuentren en la regin correspondiente a alguna clase distinta a la
suya, es decir, prototipos cuya probabilidad de pertenencia a su clase se vea superada
por la probabilidad de pertenencia a alguna otra clase.
En este captulo expondremos una serie de mtodos de edicin que utilizarn como
regla de edicin esquemas basados en los clasificadores k-NN y k-NCN. En los mismos,
el esquema de votacin empleado por las diferentes reglas es sustituido por medio de la
estimacin de la probabilidad de pertenencia de una muestra a las clases presentes en el
conjunto de entrenamiento, teniendo en cuenta las probabilidades de pertenencia a
dichas clases de cada uno de los vecinos que rodean a la muestra segn el criterio de
vecindad seleccionado.

2. Algoritmo de Edicin de Wilson Estocstico (Wilson-prob)

Todos los algoritmos de edicin descritos en el Captulo 3 de la presente memoria,


utilizan como regla de edicin esquemas basados en diferentes criterios de vecindad. En
esta seccin, sustituimos el esquema de decisin de la regla k-NN, por la estimacin de
la probabilidad de pertenencia de una muestra a las clases presentes en el conjunto de
entrenamiento.
Captulo 7

La idea de este enfoque se dirige a usar la regla de clasificacin descrita en el


Captulo 6, basada en la informacin local de una muestra, igual que la regla k-NN, pero
considerando las probabilidades de pertenencia a las clases de cada uno de los objetos
en la vecindad de un punto. Para estimar los valores de las distribuciones, empleamos la
distancia entre la muestra y los prototipos ms cercanos, as como las probabilidades de
pertenencia a las clases de los prototipos ms prximos, debido a que lo ms probable
es que la muestra pertenezca a la misma clase de sus prototipos ms cercanos.
Para lograr el objetivo sealado anteriormente, definimos para cada clase i la
funcin no negativa siguiente:

k
1
Pi ( x) = pij
j =1 ( + d ( x, x j ))

donde pij denota la probabilidad de que el j-simo vecino ms cercano xj pertenezca a


la clase i. En esta funcin, la probabilidad pij es pesada por el inverso de la distancia del
objeto x al vecino xj, tal como expusimos en el captulo anterior, y hemos asignado =1.

Posteriormente, definimos la probabilidad de que el objeto x pertenezca a la clase i


mediante la expresin:

M
pi (x) = Pi (x) P (x)
j =1
j

El significado de la expresin anterior establece que la probabilidad de que una


muestra x pertenezca a la clase i es igual al promedio pesado de las probabilidades de
que sus k vecinos ms cercanos pertenezcan a esa clase normalizado mediante la
expresin:

P (x)
j =1
j

La clase i que es asignada a la muestra x se estima por la siguiente regla de decisin:

k-prob (x) = i; i / pi (x) = max( p j (x))


j

Mediante la regla de clasificacin k-prob, proponemos el siguiente algoritmo de


edicin, aplicando un esquema similar al presentado en el algoritmo de Wilson: si la
clase asignada por la regla de decisin anteriormente descrita no coincide con la
etiqueta de clase de la muestra, sta es eliminada del conjunto de entrenamiento. Con
este algoritmo de edicin se obtienen conjuntos editados que presentan muy buenos
porcentajes de clasificacin, ya que eliminan del conjunto de entrenamiento aquellos
objetos tales que la etiqueta asignada segn la distribucin de probabilidades no
coincida con la etiqueta de su clase correspondiente, logrando de esta manera formar
grupos compactos y homogneos con altos porcentajes de pertenencia a la clase. Es

106
Algoritmos de Edicin Estocsticos

preciso sealar tambin, que la talla de los conjuntos editados mediante este algoritmo
es inferior a la talla de otros esquemas de edicin presentes en la bibliografa
consultada, aspecto de gran utilidad para posteriores aplicaciones de este tipo de
esquema en problemas de clasificacin semi-supervisada.
Utilizando la regla k-prob y basado en la edicin de Wilson, en [Vzquez, 2005] se
propone el algoritmo Wilson-prob, el cual puede escribirse de la siguiente forma:

Algoritmo Wilson-prob

Entrada: X Conjunto de entrenamiento a editar


k Cantidad de vecinos
Salida: S Conjunto editado

Mtodo:
1- S X
2- Para cada prototipo xiX
2.1- Buscar los k-NN de xi en X - {xi}
2.2- Si k- prob (xi) i, entonces S = S - {xi}
3- Devolver S

Como puede apreciarse, este esquema de edicin resulta sumamente sencillo de


implementar y es fcilmente comprensible Este esquema permite utilizar la distribucin
de probabilidad de los prototipos del conjunto de entrenamiento TS, as como tambin,
utilizar la cercana de los prototipos a la muestra, ya que la correlacin de los prototipos
se estima a partir de la regla de clasificacin k-prob Por otra parte, el coste
computacional para este procedimiento de edicin es de O(N2), idntico al del algoritmo
de edicin de Wilson, por lo que pudiera ocasionar ciertas dificultades en problemas
prcticos con conjuntos de entrenamiento relativamente grandes.

2.1. Algoritmo de Edicin Estimando Probabilidades de Clases y


Umbral

Una variante del algoritmo anteriormente descrito consiste en la introduccin de un


umbral 0<<1 en la regla de clasificacin. El objetivo central de esta modificacin es
eliminar aquellos objetos cuya probabilidad de pertenencia a la clase asignada por la
regla de clasificacin no es significativa. Con esta propuesta, estamos eliminando
muestras del conjunto de entrenamiento que se encuentran en la frontera de decisin,
donde las probabilidades condicionales de las clases se solapan y pueden tender a
confusin, para obtener conjuntos editados cuyas muestras tienen una alta probabilidad
de pertenecer a la clase asignada en el conjunto de entrenamiento. En sentido general,
con esta propuesta, se logra obtener conjuntos compactos y homogneos.

107
Captulo 7

La regla de clasificacin estocstica con umbral fue presentada en [Vzquez, 2005]


y la misma se puede escribir de la siguiente manera:

i si pi = mx ( p j ( x )) pi >
k prob umb ( x ) = j

0 en otro caso

En esta regla, se introduce una nueva clase 0, la cual representa a las muestras
rechazadas, es decir, aquellas muestras que su mayor valor de probabilidad no supera el
umbral , previamente establecido por el usuario.

Algoritmo Wilson-prob-umb

Entrada: X Conjunto de entrenamiento a editar


k Cantidad de vecinos
Umbral de probabilidad

Salida: S Conjunto editado

Mtodo:
1- S X
2- Para cada prototipo xiX
2.1- Buscar los k-NN de xi en X - {xi}
2.2- Si k prob umb ( xi ) i pj j = 1,, M, hacer S S - {xi}
3- Devolver S

Como no todas las clases estn igualmente representadas en el conjunto de


entrenamiento, es lgico pensar que, al clasificar una nueva muestra, las clases con
mayor cantidad de prototipos tienen mayores posibilidades que aquellas clases que
cuentan con un nmero menor de prototipos para competir. Por esta razn, para lograr
un cierto balance entre las clases, proponemos tambin utilizar un umbral diferente, i,
para cada una de las clases del conjunto de entrenamiento. Para esto, definimos una
nueva regla de clasificacin [Fonseca, Vzquez, 2006] basada en la regla k-prob-umb
anteriormente descrita, de la forma siguiente:

i si i = pi i , i = 1, ..., M i = mx ( j ) i > 0
k prob umb var ( x) = j

0 en otro caso

Esta regla asigna al objeto x la etiqueta i si la diferencia entre pi y i es la mayor y,


adems, se cumple que pi > i. Si ninguna de las clases cumple con la condicin
anterior, la muestra x es rechazada.

108
Algoritmos de Edicin Estocsticos

Utilizando la regla de clasificacin k-prob-umb-var y, siguiendo un esquema de edicin


de Wilson, proponemos un algoritmo de edicin en el cual es preciso definir un umbral
para cada una de las clases del problema. Claramente, puede resultar difcil determinar
los valores ptimos para los mismos. Es preciso tener en cuenta a la hora de seleccionar
los umbrales que a las clases menos representadas en el TS se les debe exigir un menor
umbral comparado con las clases ms representadas. Con el objetivo de que la seleccin
de estos valores de umbral para cada clase sea calculada de manera automtica, una
opcin puede ser tomar como umbral i el cociente entre el nmero de prototipos del
conjunto TS pertenecientes a la clase i sobre el cardinal del conjunto TS. Esta variante
libera al diseador de la responsabilidad de determinar los valores de i, mientras que
establece para cada clase un valor umbral acorde con su representacin en el TS.
El coste computacional para este procedimiento de edicin es de O(N2), idntico al
del algoritmo de edicin de Wilson. El algoritmo Wilson-prob-umb-var puede ser
descrito de la siguiente manera:

Algoritmo Wilson-prob-umb-var

Entrada: X Conjunto de entrenamiento a editar


k Cantidad de vecinos
Vector de umbrales de probabilidad por clases

Salida: S Conjunto editado

Mtodo:
1- S
2- Para cada prototipo xiX
2.1- Buscar los k-NN de xi en X - {xi}
2.2- Si k- prob-umb-var (xi, ) = i entonces S = S {xi}
3- Devolver S

3. Edicin Estocstica Utilizando la Regla k-NCN-prob

A pesar de los buenos resultados que generalmente pueden ser obtenidos con la
aplicacin de la edicin de Wilson, este mtodo hereda algunos de los importantes
inconvenientes ya sealados para el clasificador k-NN, el anormal comportamiento del
esquema de Wilson y, en general, de la mayora de los procedimientos de edicin
basados en la regla k-NN para determinados problemas. Podra entenderse, en parte,
como una consecuencia de la finitud de las muestras que dan lugar a vecindades
relativamente grandes, situacin que de alguna manera pudiera resolverse con la
utilizacin de mtricas envolventes.
El algoritmo de edicin que aqu vamos a proponer consistir, bsicamente, en
aplicar las reglas de clasificacin envolventes que presentamos en el Captulo 2 y

109
Captulo 7

utilizar el mtodo de estimacin leaving-one-out. En sntesis, puesto que el mtodo de


Wilson consigue generalmente buenos resultados de edicin y, por otra parte, los
esquemas envolventes de clasificacin superan, en mayor o menor medida, a la regla k-
NN, lo que se pretende es obtener un nuevo procedimiento de edicin que se beneficie
de las ventajas antes sealadas y, adems, tenga en cuenta las probabilidades de
pertenencia a las clases de cada uno de los vecinos en la vecindad envolvente a la cual
estos pertenecen.

De una manera similar a la descrita en el epgrafe anterior, podra definirse la regla


de clasificacin k-NCN-prob (x), en la cual debemos determinar primero las probabilidades
pi(x) de pertenencia del objeto x a la clase i (i = 1, , M), pero en lugar de calcular los k
vecinos ms cercanos, buscamos los k vecinos de centroide ms cercano.

Ahora, definimos de forma anloga la regla mediante la expresin:

k-NCN-prob (x) = wi si pi (x) = max( p j (x))


j

Basados en las mismas ideas utilizadas en el epgrafe anterior, podemos definir


diferentes opciones de rechazo, k-NCN-prob-umb y k-NCN-prob-umb-var mediante las
expresiones siguientes:

i si pi = mx ( p j ( x )) pi >
k NCN prob umb ( x ) = j

0 en otro caso

i si i = pi i , i = 1, ... , M ; i = mx ( j ) i > 0
k NCNprobumbvar (x) = j

0 en otro caso

Utilizando como regla de edicin la regla k-NCN pero teniendo en cuenta adems la
probabilidad de pertenencia a la clase de cada uno de los vecinos de centroide ms
cercano, podemos mencionar una variante del algoritmo Wilsoncn que describimos a
continuacin:

Algoritmo Edicin de Wilsoncn-prob

Entrada: X Conjunto de entrenamiento a editar


k Cantidad de vecinos

Salida: S Conjunto editado

Mtodo:
1- S
2- Para cada prototipo xiX
2.1- Buscar los k-NCN de xi en X - {xi}
2.2- Si k-NCN-prob (xi) = i entonces S = S {xi}

110
Algoritmos de Edicin Estocsticos

3- Devolver

De forma similar, podemos escribir los algoritmos de edicin que emplean como
regla de edicin las opciones de rechazo k-NCN-prob-umb y k-NCN-prob-umb-var mencionadas
anteriormente.
Como se puede apreciar en este epgrafe, estos esquemas de edicin resultan
tambin esquemas muy sencillos de implementar como lo era el procedimiento de
Wilson, puesto que las nicas variaciones introducidas corresponden al mtodo de
clasificacin (en este caso, las reglas k-NCN-prob , k-NCN-prob-umb , k-NCN-prob-umb-var) que
son aplicadas en el ltimo paso de cada uno de los algoritmos, as como la estimacin
de las probabilidades en cada uno de los casos. Por otra parte, en cuanto al costo
computacional asociado a este esquema, podemos sealar que el clculo de los k
vecinos de centroide ms prximo para una determinada muestra representaba un coste
O(kN), puesto que ahora deberemos repetir este proceso para cada uno de los N
prototipos del conjunto de entrenamiento, resultar ser O(kN2), y este valor es igual al
coste computacional del mtodo de edicin de Wilson.

4. Edicin Repetitiva Utilizando Probabilidades de Clases

Puestos que los algoritmos de edicin, en sentido general, proporcionan un conjunto de


prototipos organizados en grupos ms o menos compactos y homogneos, cabra
esperar que la repeticin de este procedimiento fuese capaz de potenciar an ms dicho
efecto. De hecho, este argumento fue esgrimido por [Tomek, 1976a], al proponer el
siguiente algoritmo de edicin.

Algoritmo de Edicin Repetitivo

Entrada: X Conjunto de entrenamiento a editar


k Cantidad de vecinos

Salida: S Conjunto editado

Mtodo:
1- S
2- Mientras XS
2.1- Pasar el contenido actual de X a S: S X
2.2- Aplicar Edicin de Wilson sobre el conjunto X
3- Devolver S

111
Captulo 7

Esta es la idea fundamental de los algoritmos presentados en [Vzquez, 2006], es


decir, aplicar de forma repetitiva todos los algoritmos de edicin cuya regla de edicin
tenga en cuenta a los vecinos ms cercanos, o los vecinos de centroide ms cercanos y,
adems, estime la probabilidad de pertenencia a la clase de estos vecinos. De manera
general, estos algoritmos se pudieran escribir de la siguiente manera:

Algoritmo de Edicin Repetitivo

Entrada: X Conjunto de entrenamiento a editar


k Cantidad de vecinos

Salida: S Conjunto editado

Mtodo:
1- S
2- Mientras X S
2.1- Pasar el contenido actual de X a S: S X
2.2- Aplicar algoritmo de edicin estimando las probabilidades de clase
sobre el conjunto X
3- Devolver S

En el trabajo citado anteriormente, fueron implementadas las variantes repetitivas de


los algoritmos: Wilson-prob, Wilson-prob-umb, Wilsoncn-prob.

5. Resultados Experimentales con Reglas de Edicin Estocsticas

5.1. Esquema Estocstico de Wilson y Wilsoncn

En esta seccin, mostramos los resultados experimentales obtenidos utilizando los


algoritmos de edicin descritos en los epgrafes anteriores. Para ello, se han utilizado 14
bases de datos reales y sintticas tomadas del repositorio UCI Machine Learning
Database Repository, las principales caractersticas de estas bases de datos aparecen
detalladas en el Apndice A.
En los experimentos realizados, utilizamos como mtodo de estimacin del error el
mtodo de validacin cruzada, considerando 5 particiones aleatorias de cada una de las
bases de datos, tomando en las mismas el 80% de los objetos para formar los diferentes
conjuntos de entrenamiento (TS) y el 20% de los objetos para formar los conjuntos de
prueba. Posteriormente, cada conjunto de entrenamiento fue editado utilizando
diferentes algoritmos, entre los que podemos mencionar: el algoritmo de Wilson,
Holdout, algoritmo Multiedit, Wilson-prob y Wilson-prob-umb. El paso siguiente fue
utilizar el clasificador 1-NN y los conjuntos de prueba anteriormente obtenidos para

112
Algoritmos de Edicin Estocsticos

calcular los porcentajes de clasificacin, la desviacin tpica y la reduccin del conjunto


de entrenamiento en cada una de las bases de datos. Hemos incluido tambin el test
estadstico de Friedman, el cual es un mtodo no paramtrico que nos servir para
validar los resultados obtenidos.
En la Tabla 5, se muestran los resultados experimentales (porcentaje de
clasificacin, y reduccin de la talla del conjunto de entrenamiento) utilizando
diferentes algoritmos de edicin: algoritmo de edicin de Wilson, Holdout, Multiedit,
Wilson-prob y Wilson-prob-umb considerando diferentes valores del umbral. En la
misma, hemos sealado en negrita el algoritmo de edicin que mejor porcentaje de
clasificacin ha obtenido para cada base de datos, en cursiva enfatizamos tambin el
algoritmo que ha alcanzado el mejor porcentaje de reduccin de la talla del conjunto de
entrenamiento para cada base de datos. Los resultados correspondientes al clasificador
NN tambin han sido incluidos en esta tabla para establecer una lnea base de
comparacin entre los diferentes algoritmos.
NN Wils. Hold. Mult. W-prob Wilson-prob-umb
0.6 0.7 0.8
Cancer %cla 95.60 96.19 96.63 96.63 96.34 96.48 96.63 96.78
%red 3.44 4.28 7.43 3.36 4.09 5.49 7.68
Liver %cla 65.79 70.70 70.40 59.49 68.67 68.97 69.55 68.95
%red 32.89 37.10 75.79 27.89 45.94 61.37 67.82
Glass %cla 71.40 67.62 66.03 58.63 66.16 63.97 62.29 62.31
%red 28.50 46.14 61.21 36.68 20.32 50.58 58.17
Heart %cla 58.16 67.00 67.34 66.64 66.26 65.17 65.12 64.78
%red 34.44 38.70 69.25 28.51 40.09 53.61 65.09
Vehicle %cla 64.41 60.26 63.22 52.81 62.16 61.32 61.08 59.67
%red 36.08 39.83 66.66 20.41 43.17 46.01 58.86
Wine %cla 73.04 70.90 75.24 72.42 69.69 69.74 69.20 69.20
%red 34.97 30.75 45.50 14.60 33.28 35.67 41.43
Ionosphere %cla 83.46 82.02 82.31 69.58 81.74 81.74 80.89 80.64
%red 16.66 14.52 34.11 18.01 18.01 24.21 25.21
Texture %cla 98.96 98.63 98.56 94.62 98.74 98.49 98.29 98.32
%red 1.34 3.69 15.31 1.01 1.50 3.17 3.06
Balance %cla 79.20 85.11 85.62 86.41 84.96 86.73 88.50 89.13
%red 14.80 14.52 37.04 10.76 24.40 32.08 38.40
Australian %cla 65.67 69.27 70.72 68.99 69.56 69.70 68.39 68.54
%red 31.88 36.88 59.52 25.90 37.02 50.76 57.53
German %cla 64.81 70.40 72.00 70.00 70.70 71.10 70.50 70.50
%red 30.50 32.27 54.72 26.90 39.62 52.72 60.00
Phoneme %cla 70.26 73.53 74.29 75.35 73.42 73.44 74.02 73.99
%red 10.56 16.07 37.43 11.98 17.26 24.36 29.15
Satimage %cla 83.62 83.29 83.32 82.35 83.09 83.18 83.24 83.50
%red 9.43 10.19 24.51 9.25 15.61 19.22 23.90
Diabetes %cla 67.32 73.70 73.69 71.09 74.35 74.60 74.48 74.74
%red 26.36 44.40 55.76 21.09 37.33 45.47 54.91
Tabla 5. Porcentajes de clasificacin y reduccin del conjunto de entrenamiento, usando diferentes
algoritmos de edicin.

El primer resultado que queremos comentar es que los algoritmos de edicin


estocsticos propuestos en esta memoria alcanzan porcentajes de clasificacin similares
o superiores a los que se obtienen con los algoritmos clsicos de edicin. Otro aspecto a
tener en cuenta es que el clasificador NN ha obtenido los mejores resultados en cinco
bases de datos de las 14 que consideramos en los experimentos presentados, pero la

113
Captulo 7

diferencia entre los valores obtenidos por el clasificador NN y los diferentes algoritmos
de edicin no son estadsticamente significativos. Observando estos resultados, parece
bastante difcil de inferir cualquier conclusin debido a las diferencias tan pequeas
obtenidas entre los distintos algoritmos de edicin en relacin con los porcentajes de
clasificacin.

Por la razn antes mencionada, en la Tabla 6 presentamos los resultados


correspondientes al Test de Friedman (Friedman, 1940). Este es un mtodo no
paramtrico para medir si diferentes algoritmos obtienen resultados equivalentes. El test
de Fredman calcula para cada algoritmo su rango sobre cada una de las bases de datos
de la siguiente forma: el algoritmo que obtenga el mejor porcentaje de clasificacin
tendr rango 1 y as sucesivamente; de haber dos algoritmos con iguales porcentajes de
clasificacin sobre una misma base de datos, por ejemplo, si los algoritmos que
ocuparan los rangos 4 y 5 tienen iguales porcentajes de clasificacin, entones sacamos
un promedio entre sus rangos y el rango que le asignamos a cada algoritmo en este caso
sera de 4.5. Luego de haber confeccionado la tabla de rangos (Tabla 6), pasamos a
calcular:

1 N j
Rj = ri
N i =1

En la expresin anterior, ri j representa el rango del j-simo algoritmo (1 < j < k,


siendo k > 2 el nmero de algoritmos que se estn comparando), sobre la base de datos
i-sima (1 < i < N) donde N es el nmero de bases de datos. Luego, R j es el promedio
de los rangos correspondiente al j-simo algoritmo. El test de Friedman considera como
hiptesis nula H0 que todos los algoritmos son equivalentes y que sus rangos Rj son
todos iguales. Posteriormente, utilizando los estimadores de Friedman, descritos
mediante las expresiones:

12 N k 2 k (k + 1) 2
2F = R j
k (k + 1) j=1 4

( N 1) 2F
FF =
N(k 1) 2F

donde FF se distribuye siguiendo una distribucin de Fisher con k-1 y (k-1)(N-1) grados
de libertad. La tabla de valores crticos de la distribucin de Fisher puede encontrarse en
cualquier libro de Estadstica.

Ahora bien, si calculamos el valor critico de una distribucin de Fisher, para un nivel
de confianza =0.05, con 8 algoritmos, 14 bases de datos, y con grados de libertad
(k-1) = 7 y (k-1)*(N-1) = 7*13 = 91, el valor critico de F(7,91) es 2.11. Calculando
entonces los estimadores de Friedman con los datos que se muestran en la Tabla 6,
tenemos que 2F = 8.52 y FF = 1.23. Evidentemente, nos percatamos que FF = 1.23 <
2.11 = F(7,91), por lo cual, no es posible rechazar la hiptesis nula, es decir, los

114
Algoritmos de Edicin Estocsticos

algoritmos que hemos comparado son equivalentes. En otras palabras, tienen el mismo
comportamiento en cuanto a porcentaje de clasificacin en el proceso de edicin.

NN Wils. Hold. Mult. W-prob Wilson-prob-umb


0.6 0.7 0.8
Cancer rango 5 8 3 3 7 6 3 1
Liver rango 7 1 2 8 6 4 3 5
Glass rango 1 2 4 8 3 5 7 6
Heart rango 8 2 1 3 4 5 6 7
Vehicle rango 1 6 2 8 3 4 5 7
Wine rango 2 4 1 3 6 5 7.5 7.5
Ionosphere rango 1 3 2 8 4.5 4.5 6 7
Texture rango 1 3 5 4 2 6 8 7
Balance rango 8 6 5 4 7 3 2 1
Australian rango 8 4 1 5 3 2 7 6
German rango 8 6 1 7 3 2 4.5 4.5
Phoneme rango 8 5 2 1 7 6 3 4
Satimage rango 1 5 4 3 8 7 6 2
Diabetes rango 8 5 6 7 4 2 3 1
Promedio Rj 4.78 4.28 2.78 5.14 4.82 4.39 5.07 4.71
Tabla 6. Test de Friedman correspondiente a porcentajes de clasificacin.

Wils. Hold. Mult. W-prob Wilson-prob-umb


0.6 0.7 0.8
Cancer rango 6 4 2 7 5 3 1
Liver rango 6 5 1 7 4 3 2
Glass rango 6 4 1 5 7 3 2
Heart rango 6 5 1 7 4 3 2
Vehicle rango 6 5 1 7 4 3 2
Wine rango 4 6 1 7 5 3 2
Ionosphere rango 6 7 1 4.5 4.5 3 2
Texture rango 5 2 1 7 5 3 4
Balance rango 5 6 2 7 4 3 1
Australian rango 6 5 1 7 4 3 2
German rango 6 5 2 7 4 3 1
Phoneme rango 7 5 1 6 4 3 2
Satimage rango 6 5 1 7 4 3 2
Diabetes rango 6 4 2 7 5 3 1
Promedio Rj 5.78 4.85 1.28 6.60 4.53 3 1.85
Tabla 7. Test de Friedman correspondiente a reduccin de la talla del conjunto de entrenamiento.

Sin embargo, examinemos otro factor de especial inters en la Tabla 5, el cual se


refiere a la reduccin del tamao del conjunto de entrenamiento. Despus de haber sido
editado este conjunto, se puede observar que los algoritmos de edicin Multiedit y los
Wilson-prob-umb propuestos logran los porcentajes de reduccin ms altos en todos los
casos, resultado este que provoca una disminucin de la carga computacional en la fase
de clasificacin. Para corroborar la afirmacin anterior, utilicemos nuevamente el test
de Friedman, donde volveremos a tomar como hiptesis nula H0 que todos los
algoritmos son equivalentes y con rangos idnticos.

115
Captulo 7

Utilizando ahora los datos que se muestran en la Tabla 7, podemos calcular el valor
critico de la distribucin de Fisher para un nivel de confianza =0.05, con 7 algoritmos,
14 bases de datos y grados de libertad (k-1) = 6 y (k-1)*(N-1) = 6*13 = 78. El valor
critico de F(6,78) es 2.21. Calculando entonces los estimadores de Friedman, con los
datos que se muestran en la Tabla 7, tenemos que 2F = 69.15 y FF = 60.53. En este
caso podemos ver que FF = 60.53 > 2.21= F(6,78), por lo cual es posible rechazar la
hiptesis nula, es decir, los algoritmos que hemos comparado no son equivalentes. En
otras palabras, el porcentaje de reduccin de los algoritmos estocsticos que utilizan la
opcin de rechazo estocstica, as como el algoritmo Multiedit tienen los mejores
porcentajes de reduccin de la talla del conjunto de entrenamiento. Un aspecto que
tambin podemos destacar es que el coste computacional del algoritmo Multiedit es
superior al coste que tienen los algoritmos estocsticos con rechazo.

A continuacin, mostramos algunas grficas, donde se pueden apreciar los


porcentajes de clasificacin y reduccin de la talla del conjunto de entrenamiento.

Balance

50 NN
Wilson
40
R educci n%

Holdout
30 MultiE m=3
20 MultE m=4
MultE m=5
10
Wil-prob
0 Wil-prob-u u=0.6
70 75 80 85 90 95 Wil-prob-u u=0.7

Clasificacin Correcta% Wil-prob-u u=0.8

Cancer Diabetes

9 80 NN
8 NN 70
7 Wilson
R ed u ccin (% )

Wilson 60
Reduccin%

6 Holdout Holdout
50
5 MultiE m=3 MultE m=3
40
4 MultiE m=4 MultE m=4
30
3 MultiE m=5
20 MultE m=5
2 Wil-prob
1 10 Wil-prob
Wil-prob-u u=0.6
0 0 Wil-prob-u u=0.6
Wil-prob-u u=0.7
95 96 97 98 64 66 68 70 72 74 76 Wil-prob-u u=0.7
Wil-prob-u u=0.8
Clasificacin Correcta% Clasificacin Correcta (%) Wil-prob-u u=0.8

Figura 11. Bases de datos Balance, Cancer y Diabetes.

En las grficas mostradas, el porcentaje de reduccin del algoritmo Wilson-prob-


umb con = 0.8 es superado slo por Multiedit para m = 4 y 5. Sin embargo, el
porcentaje de clasificacin correcta para nuestro algoritmo es superior al de todos los
algoritmos. Sabemos adems que el coste computacional del algoritmo Multiedit es
superior al coste computacional de los algoritmos estocsticos propuesto, por lo que se
obtienen buenos resultados teniendo en cuenta tanto los porcentajes de clasificacin
como la reduccin de la talla del conjunto.

116
Algoritmos de Edicin Estocsticos

En la tercera grfica, de la Figura 11 mostramos los resultados que obtuvimos para la


base de datos Diabetes, donde Multiedit para m = 3 y m = 4 es el nico que supera el
porcentaje de reduccin de nuestro algoritmo e igualmente nuestro algoritmo para
= 0,8 es el que ms alto porcentaje de clasificacin correcta alcanza.

En el caso de la base de datos Satimage, los porcentajes de clasificacin de los


algoritmos son muy similares. En cuanto al porcentaje de reduccin, los que mejores
resultados brindan son Multiedit en los casos de m = 5 y m = 4, as como tambin el
algoritmo Wil-prob-umb tomando el umbral = 0,8. En la base German, se puede
observar que el porcentaje de reduccin, cuando tomamos el umbral = 0.8, fue
superior al del resto de los algoritmos y, el porcentaje de clasificacin correcta tambin
obtiene un buen resultado pues slo es superado por el algoritmo Multiedit y Wil-prob-
umb tomando el umbral valor = 0,6 observndose tambin que la diferencia entre
ellos en cuanto a porcentajes de clasificacin no es significativa.

German Satimage

70
NN 30 NN
60 Wilson
25 Wilson
R ed u ccin (% )

Holdout
50 Holdout
Reduccin%

MultiE m=3 20
40 MultiE m=4 MultiE m=3
15
MultiE m=5
30 MultiE m=4
Wil-prob 10
20 MultiE m=5
Wil-prob-u u=0.6
5
10 Wil-prob-u u=0.7 Wil-prob
Wil-prob-u u=0.8 0 Wil-prob-u u=0.6
0
70 75 80 85 90 Wil-prob-u u=0.7
64 66 68 70 72
Clasificacin Correcta% Clasificacin Correcta(%) Wil-prob-u u=0.8

Figura12. Base de datos German y Satimage.

En la Tabla 8, mostramos los resultados obtenidos al emplear el algoritmo de


edicin Wilson-prob-umb-var, donde se puede apreciar que los resultados obtenidos con
este algoritmo son muy similares a los obtenidos con los algoritmos descritos en la
Tabla 5. Es importante sealar que la inclusin de la probabilidad de clases en los
algoritmos no implica un aumento de la complejidad algortmica de los mismos.
Sin embargo, examinemos otro factor de especial inters en la Tabla 8, el cual se
referiere a la reduccin del tamao del conjunto de entrenamiento despes de haber sido
editado este conjunto. Se puede observar que los algoritmos de edicin Multiedit,
Wilson-prob-umb-var y los Wilson-prob-umb propuestos logran los porcentajes de
reduccin ms altos en todos los casos, resultado este que provoca una disminucin de
la carga computacional en la fase de clasificacin. A continuacin, mostramos algunos
grficos donde se puede apreciar los resultados de la tabla anterior especficamente
correspondiente a porcentajes de clasificacin.

117
Captulo 7

NN Wils. Hold
W-prob- Mult.
Wilson-prob-umb W-prop
umb-var 0.6 0.7 0.8
Cancer %cla 95.60 96.19 96.63 96.63 96.34 96.62 96.48 96.63 96.78
%red 3.44 4.28 7.43 3.36 2.48 4.09 5.49 7.68
Liver %cla 65.79 70.70 70.40 68.67 68.67 66.64 68.97 69.55 68.95
%red 32.89 37.10 27.89 27.89 36.95 45.94 61.37 67.82
Glass %cla 71.40 67.62 66.03 58.63 66.16 62.07 63.97 62.29 62.31
%red 28.50 46.14 61.21 36.68 35.40 20.32 50.58 58.17
Heart %cla 58.16 67.00 67.34 66.64 66.26 67.34 65.17 65.12 64.78
%red 34.44 38.70 69.25 28.51 36.57 40.09 53.61 65.09
Vehicle %cla 64.41 60.26 63.22 52.81 62.16 59.78 61.32 61.08 59.67
%red 36.08 39.83 66.66 20.41 34.46 43.17 46.01 58.86
Wine %cla 73.04 70.90 75.24 72.42 69.69 67.53 69.74 69.20 69.20
%red 34.97 30.75 45.50 14.60 25.41 33.28 35.67 41.43
Ionosp %cla 83.46 82.02 82.31 69.58 81.74 81.53 81.74 80.89 80.64
%red 16.66 14.52 34.11 18.01 11.70 18.01 24.21 25.21
Texture %cla 98.96 98.63 98.56 94.62 98.74 98.54 98.49 98.29 98.32
%red 1.34 3.69 15.31 1.01 1.45 1.50 3.17 3.06
Balance %cla 79.20 85.11 85.62 86.41 84.96 82.08 86.73 88.50 89.13
%red 14.80 14.52 37.04 10.76 21.67 24.40 32.08 38.40
Australian %cla 65.67 69.27 70.72 68.99 69.56 69.58 69.70 68.39 68.54
%red 31.88 36.88 59.52 25.90 24.40 37.02 50.76 57.53
German %cla 64.81 70.40 72.00 70.00 70.70 70.60 71.10 70.50 70.50
%red 30.50 32.27 54.72 26.90 27.30 39.62 52.72 60.00
Phoneme %cla 70.26 73.53 74.29 75.35 73.42 72.29 73.44 74.02 73.99
%red 10.56 16.07 37.43 11.98 12.17 17.26 24.36 29.15
Satimage %cla 83.62 83.29 83.32 82.35 83.09 83.02 83.18 83.24 83.50
%red 9.43 10.19 24.51 9.25 8.44 15.61 19.22 23.90
Diabetes %cla 67.32 73.70 73.69 71.09 74.35 69.92 74.60 74.48 74.74
%red 26.36 44.40 55.76 21.09 32.19 37.33 45.47 54.91
Tabla 8. Porcentajes de clasificacin y reduccin del conjunto de entrenamiento, usando diferentes
algoritmos de edicin.

Cancer Balance

100 90
NN NN
88 Wilson
Wilson
Porcentaje de Clasificacin

98
Porcentaje de Clasificacin

Holdout 86 Holdout

Multiedit Multiedit
96 84
Wilson-prob Wilson-prob
Wil-prob-umb-var 82 Wil-prob-umb-var
94 Wil-prob-u u=0.6 Wil-prob-u u=0.6
80
Wil-prob-u=0.7 Wil-prob-u u=0.7
Wil-prob-u u=0.8 78
92 Wil-prob-u u=0.8
76
90 74
1
1

Algoritmos Algoritmos

Figura 13. Grficos correspondientes a resultados de la Tabla 8.

118
Algoritmos de Edicin Estocsticos

Satimage Diabetes

85 NN 76 NN
P orcen taje de C lasificacin

P orcen taje d e C lasificacin


Wilson Wilson
74
84 Holdout Holdout
72
Multiedit Multiedit
83 70
Wilson-prob Wilson-prob

82 Wil-prob-umb-var 68 Wil-prob-umb-var
Wil-prob-u u=0.6 Wil-prob-u u=0.6
66
81 Wil-prob-u u=0.7 Wil-prob-u u=0.7
Wil-prob-u u=0.8
64 Wil-prob-u=0.8
80 62
1 1

Algoritmos Algoritmos

Figura 14. Grficos correspondientes a resultados de la Tabla 8.

Haciendo un anlisis similar al realizado con los algoritmos de edicin estocsticos


relacionados con la regla k-NN, presentamos en la Tabla 9, una comparacin entre el
algoritmo Wilsoncn y los algoritmos estocsticos que tienen como regla de edicin el
criterio de Vecindad de Centroide ms Prximo.

Wilsoncn Wilsoncn Wilsoncn Wilsoncn-prob-umb


prob umb-var
0.6 0.7 0.8
Cancer %cla 95.60 95.75 95.75 96.19 96.34 96.63
%red 3.11 3.07 3.07 4.43 6.18 8.34
Liver %cla 71.03 68.97 66.33 69.27 70.76 69.26
%red 32.32 34.92 37.09 45.36 56.66 70.00
Glass %cla 66.84 65.82 62.49 63.32 63.73 60.45
%red 32.48 29.09 32.95 44.62 53.97 62.03
Heart %cla 67.72 66.97 68.10 68.47 67.37 65.93
%red 33.97 35.46 36.75 46.47 56.48 67.77
Vehicle %cla 59.91 59.90 59.78 59.32 58.94 57.76
%red 29.69 31.79 31.70 43.53 51.95 61.31
Wine %cla 69.80 68.06 69.20 68.07 67.53 68.03
%red 26.81 25.01 23.74 31.74 37.07 44.79
Ionosphere %cla 83.76 82.73 83.76 82.39 82.39 82.22
%red 6.58 8.03 6.15 11.70 13.93 23.50
Texture %cla 98.74 98.83 98.83 98.58 98.11 98.07
%red 0.71 0.60 0.60 1.77 6.71 7.86
Balance %cla 82.73 83.84 81.13 84.32 88.01 88.34
%red 14.87 13.87 21.19 20.11 32.15 34.12
Vowel %cla 63.93 62.62 62.62 62.51 60.27 58.84
%red 7.39 3.55 3.55 12.75 20.32 38.15
Iris %cla 94.58 94.58 94.58 95.00 95.00 94.58
%red 3.52 3.52 3.52 4.70 8.82 9.80
Phoneme %cla 73.16 73.10 71.40 73.38 73.16 73.49
%red 9.90 9.92 12.56 13.18 20.97 26.50
Satimage %cla 83.69 83.42 83.38 83.33 83.33 82.94
%red 7.42 6.89 6.97 11.01 15.34 20.83
Diabetes %cla 72.91 71.48 70.57 72.13 73.18 74.74
%red 26.53 28.38 31.51 36.84 45.96 55.07
Tabla 9. Porcentajes de clasificacin y reduccin del conjunto de entrenamiento, usando diferentes
algoritmos de edicin.

119
Captulo 7

De los resultados mostrados en la Tabla 9, podemos concluir que el Wilsoncn es de


manera general el algoritmo que obtiene mejores porcentajes de clasificacin. Esto se
debe a que la regla de clasificacin k-NCN es un clasificador que presenta muy buenos
resultados, como hemos comentado anteriormente. El algoritmo Wilsoncn y su versin
estocstica presentan resultados similares en cuanto a porcentajes de clasificacin, ya
que la mayor diferencia entre ellos es de apenas un 2.06%. Por ello, tambin le
aplicaremos a estos algoritmos el test de Friedman, siendo como en los casos anteriores
la hiptesis nula H0 que los algoritmos son equivalentes y que tienen iguales rangos.

Con los datos de la Tabla 10, calculamos el valor critico de la distribucin de Fisher,
para un nivel de confianza =0.05, con 6 algoritmos, 14 bases de datos y con grados de
libertad (k-1) = 5 y (k-1)(N-1) = 5*13 = 65. El valor critico de F(5,65) es 2.24.
Calculando entonces los estimadores de Friedman, tenemos que 2F = 6.36 y FF= 1.29.
Evidentemente, nos percatamos tambin que FF= 1.29 < 2.24= F(5,65), por lo cual no es
posible rechazar la hiptesis nula, es decir, los algoritmos que hemos comparado son
equivalentes: tienen el mismo comportamiento en cuanto a porcentaje de clasificacin
en el proceso de edicin.

Wilsoncn Wilsoncn Wilsoncn Wilsoncn-prob-umb


prob umb-var
0.6 0.7 0.8
Cancer rango 6 4.5 4.5 3 2 1
Liver rango 1 5 6 3 2 4
Glass rango 1 2 5 4 3 6
Heart rango 3 5 2 1 4 6
Vehicle rango 1 2 3 4 5 6
Wine rango 1 4 2 3 6 5
Ionosphere rango 1.5 3 1.5 4.5 4.5 6
Texture rango 3 1.5 1.5 4 5 6
Balance rango 5 4 6 3 2 1
Vowel rango 1 2.5 2.5 4 5 6
Iris rango 4.5 4.5 4.5 1.5 1.5 4.5
Phoneme rango 3.5 5 6 2 3.5 1
Satimage rango 1 2 3 4.5 4.5 6
Diabetes rango 3 5 6 4 2 1
Promedio Rj 2.53 3.57 3.82 3.25 3.57 4.25
Tabla 10. Test de Friedman correspondiente a porcentajes de clasificacin.

Otro aspecto importante a tener en cuenta es que, al introducir umbrales en los


algoritmos estocsticos, stos superan al algoritmo de Wilsoncn en la reduccin de la
talla del conjunto de entrenamiento. Es fcil notar que el algoritmo Wilsoncn-prob-umb
utilizando como valor del umbral = 0.8 es el que ms reduce la talla del conjunto de
entrenamiento.

Aplicando nuevamente, el test de Friedman, utilizando ahora los datos que se


muestran en la Tabla 11, podemos calcular el valor critico de la distribucin de Fisher
para un nivel de confianza =0.05, con 6 algoritmos, 14 bases de datos y grados de
libertad (k-1) = 5 y (k-1)(N-1) = 5*13 = 65. Calculando entonces los estimadores de
Friedman, tenemos que 2F = 60.88 y FF = 86.78. Luego, FF = 86.78 > 2.24= F(6,78),

120
Algoritmos de Edicin Estocsticos

por lo que, es posible rechazar la hiptesis nula, es decir, los algoritmos que hemos
comparado no son equivalentes: el porcentaje de reduccin de los algoritmos
estocsticos que utilizan la opcin de rechazo estocstica tienen los mejores porcentajes
de reduccin de la talla del conjunto de entrenamiento.

Wilsoncn Wilsoncn Wilsoncn Wilsoncn-prob-umb


prob umb-var
0.6 0.7 0.8
Cancer rango 4 5.5 5.5 3 2 1
Liver rango 6 5 4 3 2 1
Glass rango 5 6 4 3 2 1
Heart rango 6 5 4 3 2 1
Vehicle rango 6 4 5 3 2 1
Wine rango 4 5 6 3 2 1
Ionosphere rango 5 4 6 3 2 1
Texture rango 4 5.5 5.5 3 2 1
Balance rango 5 6 3 4 2 1
Vowel rango 4 5.5 5.5 3 2 1
Iris rango 5 5 5 3 2 1
Phoneme rango 5.5 5.5 4 3 2 1
Satimage rango 4 6 5 3 2 1
Diabetes rango 6 5 4 3 2 1
Promedio Rj 4.96 5.21 4.75 3.07 2 1
Tabla 11. Test de Friedman correspondiente a reduccin de la talla del conjunto de entrenamiento.

5.2. Resultados Correspondientes a la Edicin Estocstica Repetitiva

En el caso de los esquemas repetitivos para los algoritmos Wilson-prob y Wilsoncn-


prob se implementaron dos variantes, una en la que las probabilidades de pertenencia de
los objetos a las clases son modificadas en cada iteracin y la otra en que los prototipos
conservan sus probabilidades iniciales durante todo el proceso de edicin.
En la Tabla 12, hemos incluido los resultados relativos al esquema repetitivo de
edicin de Wilson, as como tambin los correspondientes a los algoritmos estocsticos.
Como se puede observar, en los algoritmos Wilson-rep, Wilson-prob-rep y la variante
que mantiene las probabilidades de pertenencia de los objetos a las clases presentan
resultados muy similares en cuanto a porcentajes de clasificacin. En la tabla, hemos
querido comparar precisamente los esquemas repetitivos de la edicin de Wilson,
destacando en negrita aquellos algoritmos que han logrado mejores resultados (no
hemos tenido en cuenta los porcentajes de la regla NN), pues el objetivo que
perseguimos con la tabla anterior es mostrar los esquemas repetitivos.
Como ha venido sucediendo en todos los experimentos que hemos expuestos hasta
ahora, se puede apreciar tambin que los esquemas repetitivos estocsticos obtienen los
mejores resultados en cuanto a reduccin de la talla del conjunto de entrenamiento.
Otro aspecto que pudiramos sealar en esta Tabla 12 es que si comparamos al
algoritmo Wilson-prob-rep con el algoritmo Wilson-prob-rep manteniendo las
probabilidades de pertenencia a las clases, podemos ver que en nueve de las 12 bases de

121
Captulo 7

datos se obtuvieron mejores resultados al modificar estas probabilidades de pertenencia


a las clases de los objetos.

NN Wilson. Wilson- W-prob W-prob-rep W-prob-


rep rep-mant
prob-inic
Cancer %cla 95.60 96.19 96.19 96.34 96.48 96.19
%red 3.44 3.80 3.36 4.24 3.84
Liver %cla 65.79 70.70 69.83 68.67 68.66 66.93
%red 32.89 40.21 27.89 45.00 39.85
Glass %cla 71.40 67.62 60.88 66.16 70.30 62.63
%red 28.50 40.99 36.68 41.72 39.01
Heart %cla 58.16 67.00 67.00 66.26 65.92 68.43
%red 34.44 40.55 28.51 43.79 40.19
Vehicle %cla 64.41 60.26 58.24 62.16 55.88 58.36
%red 36.08 45.56 20.41 50.73 42.23
Wine %cla 73.04 70.90 67.47 69.69 68.61 68.63
%red 34.97 34.11 14.60 33.98 27.52
Ionosp %cla 83.46 82.02 80.51 81.74 81.15 80.51
%red 16.66 17.18 18.01 33.04 17.18
Texture %cla 98.96 98.63 98.38 98.74 98.74 98.32
%red 1.34 1.78 1.01 2.65 1.74
Balance %cla 79.20 85.11 83.21 84.96 84.80 83.83
%red 14.80 16.19 10.76 14.84 14.99
Phoneme %cla 70.26 73.53 73.53 73.42 73.70 73.53
%red 10.56 12.72 11.98 15.99 12.73
Satimage %cla 83.62 83.29 82.8 83.09 82.91 82.84
%red 9.43 10.70 9.25 12.86 10.43
Diabetes %cla 67.32 73.70 75.26 74.35 75.39 73.70
%red 26.36 33.20 21.09 36.78 31.86
Tabla 12. Resultados del esquema repetitivo de Wilson.

Es fcil notar en la Tabla 13 que si utilizamos como regla de edicin la Vecindad de


Centroide ms Prximo, los algoritmos de Wilsoncn y Wilsoncn-rep obtienen resultados
muy similares en cuanto a porcentajes de clasificacin los porcentajes de clasificacin
que obtienen los esquemas estocsticos no superan a los alcanzados por los otros
mtodos, pero si nos fijamos en el porcentaje de reduccin de la talla del conjunto de
entrenamiento, en todos los casos el algoritmo Wilsoncn-prob-rep obtiene los mejores
porcentajes en la reduccin del tamao del conjunto de entrenamiento, resultado que
avala el hecho de que estos mtodos alcanzan valores de clasificacin similares a los
mtodos tradicionales, pero obtienen reducciones considerables en la talla del conjunto
de entrenamiento.

122
Algoritmos de Edicin Estocsticos

Wilsoncn Wilsoncn- Wilsoncn- Wilsoncn- Wilsoncn-


rep prob prob-rep prob-rep
Mant. prob.
Iniciales
Cancer %cla 95.60 95.89 96.04 96.33 96.04
%red 3.11 3.33 3.07 4.02 3.36
Liver %cla 71.03 69.58 68.97 67.51 68.09
%red 32.32 38.76 34.92 46.00 39.05
Glass %cla 66.84 63.30 65.82 60.43 65.10
%red 32.48 41.70 29.09 44.97 36.68
Heart %cla 67.72 67.70 66.97 66.57 66.55
%red 33.97 42.87 35.46 43.70 40.37
Vehicle %cla 59.91 61.09 59.90 56.37 60.50
%red 29.69 41.99 31.79 49.97 39.18
Wine %cla 69.80 71.31 68.06 70.31 68.63
%red 26.81 33.14 25.01 30.61 27.53
Ionosphere %cla 83.76 82.90 82.73 74.01 81.88
%red 6.58 8.54 8.03 27.94 12.82
Texture %cla 98.74 98.69 98.83 96.13 98.69
%red 0.71 0.87 0.60 39.62 0.79
Balance %cla 82.73 84.96 83.84 84.96 84.48
%red 14.87 15.83 13.87 14.31 14.39
Phoneme %cla 73.16 73.81 73.10 74.12 73.75
%red 9.90 13.15 9.92 27.15 12.86
Satimage %cla 83.69 83.28 83.42 80.61 83.81
%red 7.42 10.08 6.89 17.55 8.70
Diabetes %cla 72.91 74.87 71.48 75.26 72.26
%red 26.53 32.58 28.38 37.98 32.32
Tabla 13. Resultados del esquema repetitivo de Wilsoncn.

5.3. Esquemas de Wilson y Wilsoncn con Reetiquetado

Los algoritmos de edicin que utilizan el mtodo de Reetiquetado son otra variante de la
idea clsica de edicin teniendo en cuenta el esquema de Wilson. En la Tabla 13, se
muestran los resultados obtenidos al aplicar los algoritmos de edicin con reetiquetado
y sus variantes, teniendo en cuenta la probabilidad de pertenencia a la clase de los
objetos.
Como podemos apreciar en la Tabla 14, en la edicin con reetiquetado utilizando las
probabilidades de pertenencia a cada una de las clases se obtienen resultados superiores
a la edicin con reetiquetado clsica, pues en ocho de las 12 bases de datos la
clasificacin fue superior, apreciando de esta manera que con el esquema de
reetiquedado estocstico se obtienen buenos porcentajes de clasificacin. Adems, en
las bases de datos donde no se alcanz un resultado superior, los valores obtenidos
fueron muy parecidos a los alcanzados por el mtodo de reetiquetado utilizando el
algoritmo de Wilson. Tambin los porcentajes de reduccin de la talla del conjunto de
entrenamiento en los esquemas estocsticos alcanzan mejores resultados en todas las
bases de datos.

123
Captulo 7

Wilson Wilson-Reetiquetado-prob
Reetiquetado 0.6 0.7 0.8
Cancer %cla 96.04 96.04 96.48 96.19
%red 0.00 1.86 3.22 5.89
Liver %cla 66.40 68.12 68.39 64.62
%red 0.00 20.86 43.48 57.89
Glass %cla 65.00 63.97 65.54 63.66
%red 5.94 26.77 42.06 51.97
Heart %cla 64.76 68.50 69.59 67.74
%red 0.00 15.09 36.01 54.07
Vehicle %cla 59.31 59.18 57.66 56.95
%red 9.24 28.22 46.19 56.65
Wine %cla 68.06 63.61 63.59 65.88
%red 1.26 13.90 24.14 38.62
Ionosphere %cla 79.82 79.65 79.65 79.65
%red 0.00 4.53 8.54 15.04
Texture %cla 98.00 98.29 98.14 98.31
%red 0.24 1.01 2.56 3.25
Balance %cla 78.25 65.29 79.20 83.04
%red 3.24 8.23 27.72 29.76
Phoneme %cla 72.55 73.20 73.27 73.47
%red 0.00 6.10 14.82 19.87
Satimage %cla 81.25 82.32 82.52 82.51
%red 0.82 5.92 11.21 15.42
Diabetes %cla 71.87 70.31 70.44 71.09
%red 0.00 16.30 33.30 46.42
Tabla 14. Resultados de los algoritmos de edicin con reetiquetado (Wilson).

Wilsoncn- Wilsoncn-Reetiquetado-prob
Reetiquetado
0.6 0.7 0.8
Cancer %cla 95.75 95.60 95.75 96.33
%red 0.00 2.05 4.53 7.17
Liver %cla 65.50 66.40 66.41 63.78
%red 0.00 19.05 39.05 58.11
Glass %cla 63.17 65.42 63.15 59.92
%red 13.32 29.42 46.48 58.99
Heart %cla 66.21 69.62 71.14 67.44
%red 0.00 18.15 36.10 54.34
Vehicle %cla 63.43 61.19 60.60 59.31
%red 12.76 26.39 41.87 56.26
Wine %cla 68.03 65.29 64.74 65.83
%red 2.95 14.46 25.00 37.91
Ionosphere %cla 81.70 81.19 81.70 81.88
%red 0.00 6.23 10.08 20.94
Texture %cla 98.49 98.56 98.09 98.07
%red 0.89 1.56 6.68 7.85
Balance %cla 79.83 69.75 85.94 87.38
%red 5.08 12.83 31.87 33.99
Phoneme %cla 72.88 73.59 73.01 73.27
%red 0.00 6.90 17.09 24.16
Satimage %cla 83.28 82.93 83.19 82.76
%red 2.61 7.07 13.04 19.53
Diabetes %cla 73.31 70.70 71.61 73.30
%red 0.00 15.26 30.50 44.62
Tabla 15. Resultados de los algoritmos de edicin con reetiquetado (Wilsoncn).

124
Algoritmos de Edicin Estocsticos

Se puede realizar un anlisis parecido al anterior (Tabla 15) considerando como


regla de edicin la regla k-NCN y utilizando esquemas de reetiquetado en ambos
sentidos, obtenindose resultados similares a los comentados en el prrafo anterior.

5.4. Esquemas de Edicin por Particiones Estocsticos

Utilizando el esquema estocstico presentado a lo largo de todos los experimentos que


hemos paulatinamente mostrado, para concluir haremos uso de los algoritmos de
edicin que utilizan como mtodo de estimacin realizar una particin del conjunto de
entrenamiento en m bloques disjuntos de prototipos y, despus de numerarlos hacer una
estimacin para cada bloque j utilizando el bloque ((j+1)mdulo m). En la Tabla 16
presentamos el algoritmo Holdout y sus variantes estocsticas, tanto utilizando como
regla de edicin k-NN que k-NCN.
Holdout Holdout-prob Holdout Holdout
k-NCN k-NCN-prob
Cancer %cla 96.34 96.34 95.90 96.34
%red 3.91 3.99 3.22 3.77
Liver %cla 67.56 65.81 68.14 66.67
%red 37.61 38.26 36.16 38.41
Glass %cla 64.22 64.13 66.85 65.94
%red 41.24 38.44 38.65 35.86
Heart %cla 62.96 65.52 67.38 67.03
%red 36.66 38.15 37.50 37.59
Vehicle %cla 59.91 59.90 63.33 63.34
%red 40.75 39.63 35.19 35.16
Wine %cla 69.06 66.88 73.03 66.93
%red 29.65 27.52 26.97 28.09
Ionosphere %cla 81.02 81.70 82.56 82.22
%red 20.51 20.17 10.68 11.11
Texture %cla 98.40 98.54 98.65 98.49
%red 3.16 3.10 1.92 1.64
Balance %cla 81.29 83.06 82.09 83.53
%red 15.63 14.35 12.72 12.99
Phoneme %cla 72.97 73.23 73.62 73.73
%red 14.37 14.23 13.44 13.20
Satimage %cla 83.30 83.32 83.77 83.86
%red 10.56 9.75 9.12 8.61
Diabetes %cla 72.65 72.26 73.17 72.52
%red 28.87 29.26 27.63 28.71
Tabla 16. Resultados de la comparacin entre esquemas por particin y sus correspondientes
esquemas estocsticos.

Como puede observarse, los algoritmos de edicin estocstica presentan de forma


general resultados similares al algoritmo Holdout, aunque presentan un mejor
porcentaje de clasificacin los algoritmos Holdout-k-NCN y Holdout-k-NCN-prob.
Tambin se puede ver que la reduccin de la talla del conjunto de entrenamiento del
algoritmo Holdout supera, en general a los esquemas estocsticos aqu presentados.

125
Captulo 7

6. Conclusiones

En este Captulo 7, hemos presentado un conjunto de alternativas para la seleccin de


prototipos, haciendo hincapi fundamentalmente en las tcnicas de edicin a partir de
estimar las probabilidades de pertenencia a la clase de los objetos, valindonos en
sentido general de las reglas de clasificacin estocsticas definidas en el Captulo 6 de
esta memoria. Estas nuevas aproximaciones tratan de superar los principales
inconvenientes asociados a los mtodos convencionales de edicin que se producen en
determinadas situaciones prcticas como, por ejemplo, disponer de un insuficiente
nmero de prototipos en el conjunto de entrenamiento frente a una elevada
dimensionalidad del espacio de representacin.

Los resultados experimentales que hemos mostrado en este captulo pueden dividirse
en dos grupos: aquellos mtodos de edicin que utilizan la regla k-NN y los mtodos
que utilizan esquemas basados en el concepto NCN. En los primeros experimentos se
hace un anlisis entre algoritmos clsicos de edicin y los algoritmos que en su regla de
edicin estiman la probabilidad de perteneca a una determinada clase para aceptar o
eliminar la muestra del conjunto de entrenamiento. No obstante, se ha podido observar
que las diferencias en cuanto a porcentaje de clasificacin, sobre las diferentes bases de
datos utilizadas en los experimentos, no son significativas. Este hecho lo hemos podido
corroborar mediante la utilizacin del test estadstico de Friedman, el cual nos permiti
observar que referente a porcentajes de clasificacin estos algoritmos se pueden
considerar similares.

Sin embargo, en estos mismos experimentos, haba un detalle que s nos llamaba la
atencin, el cual se refiere a la reduccin de la talla del conjunto de entrenamiento: los
algoritmos con esquemas estocsticos de edicin presentaban porcentajes de reduccin
de la talla del conjunto de entrenamiento superior a los mtodos clsicos con los cuales
nos comparamos. Para corroborar este hecho, aplicamos nuevamente el test Estadstico
de Friedman, el cual verific que, en cuanto a porcentaje de reduccin de la talla del
conjunto de entrenamiento, estos algoritmos no son similares, obteniendo nuestras
propuestas los mejores resultados. Debemos tambin sealar que el algoritmo Multiedit
obtiene muy buenos resultados en cuanto a reduccin, pero su coste computacional es
superior al de los algoritmos que hemos propuesto en este captulo.

Los algoritmos de edicin que utilizan esquemas basados en el concepto NCN, as


como tambin las propuestas estocsticas aqu presentadas tienen un comportamiento
muy similar, es decir, en cuanto a porcentajes de clasificacin las diferencias son muy
pequeas, pero los porcentajes de reduccin de la talla del conjunto de entrenamiento
son superiores con nuestras propuestas.

Estos resultados sern posteriormente utilizados en esquemas de aprendizaje semi-


supervisado. Como se ha podido apreciar en los experimentos presentados, los
esquemas estocsticos permitirn obtener buenos porcentajes de clasificacin, ya que
estos esquemas de edicin dan lugar a conjuntos compactos y homogneamente
distribuidos y adems, el porcentaje de reduccin de la talla del conjunto de
entrenamiento es superior al de los esquemas tradicionales, aspecto este de gran

126
Algoritmos de Edicin Estocsticos

importancia pues disminuye la carga computacional asociada tanta a la regla k-NN


como a la regla de vecindad envolvente k-NCN.

127
Captulo 8

Tcnicas de Condensado Basadas en


Densidad Local

1. Introduccin

La aplicacin de las reglas de clasificacin por vecindad tiene como limitaciones ciertas
restricciones de convergencia y el coste computacional asociado a su aplicacin. Es
necesario comentar que las reglas 1-NN y k-NN son equiparables en cuanto al coste
computacional: en el caso de k>1, se crea una estructura auxiliar que mantenga
ordenados los k vecinos ms cercanos hasta ese momento y, como es conocido, dado el
valor del parmetro k, ser necesario explorar todo el conjunto de referencia. Esto
significa que el coste de la bsqueda depende linealmente del nmero de prototipos
presentes en la base de datos. Adicionalmente, debemos considerar el espacio de
almacenamiento requerido: puesto que debemos consultar todos los prototipos, el
requerimiento de espacio es O(Nd), donde N es el nmero de prototipos y d la
dimensin.

Si, adems, consideramos que los mejores resultados se obtienen cuando el conjunto
de entrenamiento es grande, la aplicacin prctica de las reglas k-NN ser muy costosa e
inaplicable si el conjunto de entrenamiento es muy grande y de alta dimensionalidad. De
aqu, se deduce que los dos factores que determinan el coste computacional de las reglas
k-NN son la dimensin y el tamao del conjunto de entrenamiento, por lo que es
necesario desarrollar tcnicas para suavizar las limitaciones antes mencionadas. En
cuanto al problema relacionado con la dimensin del espacio, existe todo un conjunto
de tcnicas de reduccin de la dimensionalidad, conocidas bajo el nombre de Seleccin
de Caractersticas.

Referente al problema de la reduccin de la talla del conjunto de entrenamiento, se


emplean los algoritmos de Condensado, los cuales tratan de obtener un conjunto
reducido que tenga las mismas propiedades que el conjunto original, para aplicar luego
la regla 1-NN con vista a clasificar nuevos patrones.

Aunque las tcnicas de edicin dan como resultado una cierta reduccin del conjunto
de entrenamiento, su objetivo fundamental es aumentar la tasa de aciertos de la regla
1-NN mediante la eliminacin de muestras errneamente etiquetadas y atpicas. En
consecuencia, la reduccin que proporcionan estos algoritmos pueden ser muy poca
significativa. Por el contrario, las tcnicas de condensado persiguen, fundamentalmente,
una reduccin importante de la talla del conjunto de entrenamiento.
Captulo 8

El objetivo de cualquier procedimiento de condensado consistir en descartar del TS


aquellos prototipos que no influyan explcitamente en la obtencin de un resultado de
clasificacin igual o muy similar al obtenido utilizando la totalidad del conjunto de
prototipos. Entre los mtodos expuestos en el Captulo 4 de esta memoria de Tesis,
algunos necesitan una adecuada representacin de los patrones en un espacio vectorial y
dependen directamente del orden en el que se encuentran los patrones en el TS, o
requieren de una medida de distancia entre los patrones. Sin embargo, existen otros que
slo hacen uso de las medidas de distancias, sin importar el orden de los datos en el TS.

El algoritmo de [Hart, 1968] es uno de los algoritmos de condensado ms estudiados


y aplicados a diversos problemas prcticos. En l, se busca un subconjunto de patrones
a partir de los patrones del TS, de tal forma que este subconjunto sea consistente (CS)
con el TS original, es decir, todos los patrones del TS original sern clasificados
correctamente por los objetos que formen el subconjunto consistente CS cuando se
aplique la regla NN.

Siguiendo la idea propuesta por Hart, hemos desarrollado dos algoritmos de


condensado, los cuales siguen la estrategia de buscar un subconjunto reducido de
objetos a partir de los patrones del TS, capaces de clasificar correctamente a la mayora
de los objetos de la poblacin en estudio.

Para satisfacer este objetivo, se emplea un criterio de densidad de modo tal que estos
objetos pertenezcan a zonas de alta densidad y, por tanto, deberan ser buenos
representantes de las clases a las cuales ellos pertenecen. La idea principal de estos
algoritmos es definir una funcin de densidad local para determinar los objetos
pertenecientes a la zona de mayor densidad y, luego de etiquetar todos los objetos,
seleccionar de cada grupo obtenido los puntos de mayor densidad.

2. Algoritmos de Condensado Estimando Densidades Locales

Idealmente, antes de disear un sistema de Reconocimiento de Patrones, debemos


estudiar el proceso de formacin de estos patrones. En teora, si entendemos las
diferencias entre patrones de distintas clases, podremos representar cada una de las
clases mediante un conjunto reducido de medidas que podran ser usadas para el
proceso de clasificacin. En general, si disponemos en el conjunto de entrenamiento de
muchas clases, este estudio no es factible.

A lo sumo, podremos arriesgar hiptesis sobre cul es la informacin ms relevante a


ser incluida en la representacin de los patrones. De esta manera, la opcin que nos
queda es aplicar tcnicas de seleccin de prototipos, para seleccionar subconjuntos de
patrones con caractersticas discriminantes, mediante los cuales sea posible
posteriormente llevar a cabo un proceso de clasificacin.

Como hemos venido trabajando a lo largo de esta memoria de Tesis Doctoral, en esta
seccin tambin trabajaremos con diferentes criterios de vecindad, as como tambin

130
Tcnicas de Condensado Basadas en Densidad Local

necesitaremos el concepto de densidad local de un objeto, los cuales expondremos


explcitamente a continuacin.

Definicin: Llamamos vecindad de radio R del punto xX al conjunto de objetos:

VR(x) = {yX / d(x, y) R}

Definicin: Dado R>0 y la vecindad VR(x) de radio R, para cada xX llamamos


densidad local en el punto x al valor que se obtiene de evaluar la siguiente funcin:

d 2(x, xi )
p(x) =
x i VR (x)
exp (
R2
)

donde d es una funcin de distancia definida sobre X.

El algoritmo que a continuacin vamos a explicar, el cual hemos llamado Dens(R),


tendr en cuenta la densidad de las muestras en cada una de las clases, as como tambin
el radio de la vecindad que estemos utilizando. Consideremos que los objetos con los
cuales vamos a trabajar pertenecen a un espacio Eucldeo, se dispone de un conjunto de
N prototipos (o muestras pre-clasificadas) en un espacio de representacin E,
habitualmente llamado conjunto de entrenamiento o diseo y, que escribiremos como
{X, } = {(x1, 1), (x2, 2), , (xn, n)}, donde i hace referencia a la clase verdadera de
la muestra xi entre las M posibles clases del problema.

El proceso se inicia sin tener en cuenta las etiquetas de los objetos en el conjunto de
entrenamiento TS, es decir, comenzamos suponiendo que cada objeto del TS pertenece
a un grupo unitario. Por tanto, inicialmente habr tantos conjuntos unitarios como
objetos en el TS. Luego, a cada objeto se le asigna una etiqueta diferente que
denotaremos por L1, , LN (donde N es el cardinal del conjunto de entrenamiento), es
decir, habr tantas etiquetas como objetos en el TS.

El siguiente paso de este algoritmo consiste en determinar para cada objeto xTS:

1- Su vecindad de radio R.
2- El valor de la funcin de densidad p(x) en el punto x.
3- El objeto px de mayor densidad dentro de la vecindad VR(x).

Posteriormente, para cada x si px es diferente de x movemos a x y, a todos los de su


grupo para el grupo de px, o sea, si la etiqueta de x es Li y la de px es Lj cambiamos a
todos los puntos de etiqueta Li y le asignamos etiqueta Lj, quedando finalmente las
etiquetas: Li1 , Li2 ,..., Li s naturalmente, inicialmente como los grupos son unitarios solo se
mueve un punto si ste pertenece a un grupo unitario pero a medida que los grupos van
creciendo, se van cambiando todos los objetos de un grupo hacia el grupo del objeto tal
que pertenezca a una de las vecindades de esos puntos y que su densidad sea mayor.

131
Captulo 8

Al final de ese proceso, tendremos por tanto s grupos (s < N). Tomamos entonces, de
cada uno de los grupos formados, el objeto de mayor densidad y, finalmente, el
conjunto condensado estar formado por s objetos etiquetados con su etiqueta original,
es decir, la etiqueta que tenan originalmente estos objetos en el conjunto de
entrenamiento, quedando formado el conjunto condensado por los siguientes objetos
{(x1, 1), (x2, 2), , (xs, s}.

El algoritmo de condensado Dens(R) puede ser resumido de la siguiente manera:

Condensado Dens(R)
Entrada: X Conjunto de entrenamiento
Radio: R Radio de la vecindad
Salida: S Conjunto Condensado

Mtodo.
1- Inicio: Asignar a cada objeto x un grupo unitario
2- Para cada xX.
2.1- Calcular la vecindad de x, VR(x)
2.2- Calcular la funcin de densidad local p(x)
3- Para cada xX
3.1- Hallar en VR(x) el objeto y tal que se cumpla que
p(y) = max p(xi )
x i VR ( x )

3.2- Mover a todos los objetos del grupo de x para el grupo del objeto y
si y x
4- Hallar en cada grupo formado en el paso anterior el punto de mayor
densidad
5- Formar el conjunto condensado con esos puntos etiquetados segn
etiquetas originales en el TS

La idea intuitiva de este algoritmo es que los objetos seleccionados de esta manera,
como son los de mayor densidad, pertenecen a zonas de alta densidad en el conjunto de
entrenamiento por lo que pueden ser empleados para clasificar otros objetos utilizando
diversos criterios de vecindad.

Sin embargo, en este algoritmo, es necesario utilizar un parmetro que es el radio de


la vecindad. Como el clculo del radio ptimo para solucionar un problema prctico
resulta bastante complejo, para suplir este inconveniente buscamos una funcin para
determinar la densidad local en cada punto.

132
Tcnicas de Condensado Basadas en Densidad Local

Teniendo en cuenta la puntualizacin anterior y el hecho de querer emplear una


funcin relacionada con la funcin de probabilidad que hemos utilizado en los
algoritmos de clasificacin y de edicin estocsticos propuestos en esta memoria,
presentamos el algoritmo Dens(K), en el cual sustituimos la vecindad de los puntos
xX, de modo tal que en lugar de hallar la vecindad VR(x) de radio R descrita
anteriormente, hallemos la vecindad de sus k vecinos ms cercanos y, en lugar de la
funcin de densidad, hallemos para cada x el valor de la funcin.

k
1 1 si xi C j
p(x) = pij donde pij = , donde Cj es la etiqueta del objeto x
i =1 + d(x, xi ) 0 si xi C j
en el conjunto de entrenamiento, es decir,

1
p(x) =
xi C j + d(x, xi )

El algoritmo de condensado Dens(K) puede ser resumido de la siguiente manera:

Condensado Dens(K)
Entrada: X Conjunto de entrenamiento
k Nmero de vecinos
Salida S Conjunto Condensado
Mtodo.
1- Inicio: Asignar a cada objeto x un grupo unitario
2- Para cada xX hacer
2.1- Hallar sus k vecinos ms cercanos
1
2.2- Calcular el valor de p(x) en la expresin p(x) =
xi C j + d(x, xi )

3- Para cada xX hacer


3.1- Hallar entre sus k vecinos el xj tal que p(xj) = mx p(xi )
i = 1, ..., k

3.2- Si se cumple que p(xj) > p(x) entonces mover a todos los objetos de la
misma clase que el objeto x para la clase del objeto xj
4- Hallar en cada grupo del paso anterior el punto donde la funcin p(x)
alcance el mayor valor
5- Formar el conjunto condensado con los puntos de la base de datos con las
etiquetas originales

133
Captulo 8

Adems, en el caso de pocos vecinos, puede suceder que los grupos obtenidos sean
muy pequeos y, por tanto, la reduccin de la talla sera baja. Por otra parte, puede
suceder que en el conjunto condensado no haya representantes de todas las clases. Para
evitar esto, ejecutaremos el algoritmo anterior dentro de cada clase, de modo que para
cada clase se puedan seleccionar puntos de alta densidad y tambin, para mover un
objeto hacia la clase de uno de sus vecinos, pondremos la condicin de que la densidad
del vecino sea mayor o igual que la densidad del objeto.

El algoritmo de condensado Dens(K2) puede ser resumido de la siguiente manera:

Condensado Dens(K2)
Entrada: X Conjunto de entrenamiento
k: Nmero de vecinos
Salida S Conjunto Condensado

Mtodo.
1- Inicio: Asignar a cada objeto x un grupo unitario
2- Para cada clase Cj hacer
2.1- Para cada xCj hacer
2.1.1- Hallar sus k vecinos ms cercanos en Cj
2.1.2- Calcular el valor de p(x) en la expresin
1
p( x) =
xi C j + d ( x, xi )

2.2- Para cada xCj hacer


2.2.1- Hallar entre sus k vecinos el xj tal que p(xj) = mx p( xi )
i = 1, ..., k

2.2.2- Si se cumple que p(xj) p(x) entonces mover a todos los objetos
de la misma clase que x para la clase de xj
2.3- Hallar en cada grupo obtenido en el paso anterior el punto donde la
funcin p(x) alcance el mayor valor
3- Formar el conjunto condensado con todos los puntos obtenidos para cada una
de las clases originales con su etiqueta original

134
Tcnicas de Condensado Basadas en Densidad Local

3. Resultados Experimentales con los Algoritmos de Condensado


Basados en Densidad

En esta seccin, mostraremos los resultados de los diferentes algoritmos de condensado


presentados anteriormente. Para ello utilizamos 14 bases de datos reales y sintticas
tomadas del repositorio UCI Machine Learning Database Repository. Tal como ya
hemos indicado anteriormente, las principales caractersticas de estas bases de datos en
cuanto a cantidad de objetos, nmero de clases y cantidad de rasgos se muestran
detalladas en el Apndice A

3.1 Algoritmos de Condensado Dens(R) y Dens(K)

En los experimentos aqu realizados, utilizamos como mtodo de estimacin del error el
mtodo de validacin cruzada, considerando 10 particiones aleatorias de cada una de las
bases de datos, tomando en las mismas el 90% de los objetos para formar los diferentes
conjuntos de entrenamiento TS y el 10% de los objetos para formar los conjuntos de
prueba. Posteriormente, cada conjunto de entrenamiento fue condensado con los
algoritmos propuestos y con el algoritmo de condensado de Hart, con un algoritmo en el
que se selecciona de manera aleatoriamente el 2% de las muestras de entrenamiento y
con la regla de clasificacin NN.

La tabla siguiente muestra el porcentaje de clasificacin correcta, el radio


seleccionado (de manera heurstica) para el cual hemos obtenido el mejor resultado y el
coeficiente de reduccin de la talla del conjunto de entrenamiento del algoritmo
Dens(R) sobre las 14 bases de datos; estos resultados son los promedios de los
porcentajes de las 10 particiones.

Australian Balance Cancer Diabetes Heart


Radio 3 1 7 10 10
Porcentaje 66.22 76.31 96.63 70.69 64.81
Coef-Red 93.18 95.16 98.91 90.62 90.45
Liver Phoneme Satimage Texture Iris
Radio 15 0.1 25 0.2 0.6
Porcentaje 59.69 84.08 83.82 95.56 90.66
Coef-Red 94.68 84.49 97.00 89.67 93.55
Led-Creator Wine Vehicle Vowel
Radio 0.1 42 19 9
Porcentaje 60.32 71.00 60.05 85.32
Coef-Red 92.34 95.44 86.52 87.56
Tabla 17 Porcentajes de clasificacin con algoritmo de condensado Dens(R).

Como se aprecia, en la Tabla 18 proporcionamos los resultados obtenidos con el


algoritmo de Hart, el condensado Aleatorio, los condensado Dens(R) y Dens(K) y la
regla de clasificacin NN. En la primera columna, aparece el resultado correspondiente
al algoritmo de condensado de Hart, en la segunda columna hemos considerado el
algoritmo de condensado aleatorio (este experimento se repite 100 veces) y luego

135
Captulo 8

sacamos el promedio de los porcentajes de clasificacin correcta de cada una de estas


100 evaluaciones.

En la tercera y cuarta columna, se muestran los resultados de los algoritmos de


condensado Dens(R) y Dens(K) que aqu presentamos. Es preciso sealar que en los
experimentos con el algoritmo Dens(K), al parmetro k le asignamos valores 3, 5, 7, 9,
11. Para seleccionar los resultados que a continuacin mostramos, tomamos el valor de
k para el cual el conjunto condensado clasific mejor al conjunto de entrenamiento,
luego clasificamos al conjunto de prueba con ese valor de k y esos son los resultados
que aqu se observan. En la quinta columna, tomamos el conjunto de entrenamiento y
clasificamos el conjunto de prueba con la regla NN y el porcentaje que se muestra, igual
que en los anteriores casos, es el promedio de los porcentajes de cada una de las
particiones. Destacamos en negrita el algoritmo que mejores porcentajes obtiene sobre
cada base de datos.

Como se puede apreciar el condensado Dens(K) casi siempre tiene los mejores
porcentajes de clasificacin correcta, excepto en el caso de las base de datos Satimage y
Wine para las que el condensado Dens(R) tiene el mayor porcentaje de clasificacin.

Porcentajes
Hart Random Dens(R) Dens(K) NN
Australian 75.22 62.04 66.22 66.50 64.35
Balance 74.88 66.43 76.31 84.02 82.23
Cancer 92.67 94.89 96.63 96.98 95.07
Diabetes 65.76 67.58 70.69 74.57 73.56
Heart 68.15 57.05 64.81 65.01 62.22
Liver 56.8 55.07 59.69 65.48 65.57
Phoneme 83.16 69.03 84.08 85.75 88.95
Satimage 81.54 78.75 82.21 81.82 81.62
Texture 94.91 88.65 95.56 96.76 95.96
Iris 90 89.54 90.66 99.89 94
Led-Creator 64.9 62.29 60.32 62.70 73.4
Wine 69.21 69.32 71.00 69.34 69.43
Vehicle 68.2 67.89 60.05 59.65 68.76
Vowel 84.35 81.28 85.32 86.21 84.98
Tabla 18 Porcentajes de clasificacin con algoritmos de condensado basados en densidad.

En la Tabla 19, mostramos el valor del coeficiente de reduccin para cada uno de los
algoritmos empleados. Es importante sealar que el condensado aleatorio siempre
reduce un 98% de los objetos, pues solamente se selecciona el 2% de la muestra en cada
conjunto, por lo cual en esta tabla ese indicador no es relevante. Hemos denotado en
cursiva el algoritmo que ha obtenido el mejor coeficiente de reduccin en cada base de
datos. De las 14 bases de datos, en ocho de ella Dens(R) presenta el mejor coeficiente de
reduccin, mientras que en las restantes bases Dens(K) obtiene los mejores resultados.
Por lo antes visto, podemos decir que, en cuanto a reduccin de la talla del conjunto de
entrenamiento, ambos algoritmos son muy similares ya que las diferencias podemos
decir que no son estadsticamente significativas.

136
Tcnicas de Condensado Basadas en Densidad Local

Coef. red
Hart Random Dens(R) Dens(K)
Australian 71.76 98.00 98.13 86.00
Balance 75.22 98.00 95.16 98.4
Cancer 91.85 98.00 98.91 94.49
Diabetes 63.11 98.00 90.62 96.58
Heart 71.32 98.00 90.45 89.90
Liver 59.13 98.00 94.68 89.79
Phoneme 79.72 98.00 84.49 86.52
Satimage 96.35 98.00 97.00 91.92
Texture 86.68 98.00 89.67 87.24
Iris 87.26 98.00 93.55 87.4
Led-Creator 64.21 98.00 92.34 98.89
Wine 94.27 98.00 95.45 96.48
Vehicle 62.18 98.00 86.02 86.07
Vowel 85.26 98.00 87.56 86.36
Tabla 19. Coeficiente de reduccin con algoritmos de condensado basados en densidad.

Con el objetivo de que se puedan evaluar ms fcilmente los resultados, mostramos


grficos en los que aparece el porcentaje de clasificacin correcta y el porcentaje de
reduccin de la talla del conjunto de entrenamiento para cada base de datos, para
comparar los algoritmos en cuanto a estos dos parmetros.

Australian Balance

100 100

80 80 Porcentaje de
Porcentaje de
clasificacin clasificacin
60 60
Coeficiente de Coeficiente de
40 reduccin 40 reduccin

20 20
1 2 3 4 5 1 2 3 4 5
Algoritmos Algoritmos

Cancer Diabetes

100 100

80 80
Porcentaje de Porcentaje de
clasificacin clasificacin
60 60
Coeficiente de Coeficiente de
40 reduccin 40 reduccin

20 20
1 2 3 4 5 1 2 3 4 5
Algoritmos Algoritmos

Figura 15. Comparacin de algoritmos basados en densidad para las bases de datos Australian,
Balance, Cancer, y Diabetes.

137
Captulo 8

Heart Liver

100 100

80 80 Porcentaje de
Porcentaje de
clasificacin clasificacin
60 60
Coeficiente de Coeficiente de
40 reduccin 40 reduccin

20 20
1 2 3 4 5 1 2 3 4 5
Algoritmos Algoritmos

Figura 16. Comparacin de algoritmos basados en densidad para las bases de datos Heart y Liver.

Adems, los nmeros en el eje X corresponden a cada uno de los algoritmos en el


mismo orden en que aparecen en las tablas anteriores.

Phoneme Satimage

100 100

80 80 Porcentaje de
Porcentaje de
clasificacin clasificacin
60 60
Coeficiente de Coeficiente de
40 reduccin 40 reduccin

20 20
1 2 3 4 5 1 2 3 4 5
Algoritmos Algoritmos

Texture Iris

120 100
100
Porcentaje de 80
Pocentaje de
80 clasificacin clasificacin
60
60 Coeficiente de Coeficiente de
reduccin 40 reduccin
40
20 20
1 2 3 4 5 1 2 3 4 5
Algoritmos Algoritmos

Figura 17. Comparacin de algoritmos basados en densidad para las bases de datos Phoneme,
Satimage, Texture,e Iris.

138
Tcnicas de Condensado Basadas en Densidad Local

Led-Creator Wine

100 100

80 Porcentaje de 80 Porcentaje de
clasificacin clasificacin
60 60
Coeficiente de Coeficiente de
40 reduccin 40 reduccin

20 20
1 2 3 4 5 1 2 3 4 5
Algoritmos Algoritmos

Figura 18. Comparacin de algoritmos basados en densidad para las bases de datos Led-Creator y
Wine.

3.2 Tcnicas de Reduccin de la Talla del Conjunto de Entrenamiento

Con el objetivo de reducir la talla del conjunto de entrenamiento con vista a disminuir la
carga computacional asociada a las diferentes reglas de clasificacin, en el trabajo de
[Wilson y Martinez, 2000] se proporciona toda una coleccin de algoritmos propuestos
en diversos trabajos. Aqu en este epgrafe, vamos a evaluar el tercer algoritmo de
condensado propuesto en el presente captulo, Dens(K2), con algunos de los esquemas
utilizados en dicho artculo.

En los experimentos realizados, utilizamos como mtodo de estimacin del error el


mtodo de validacin cruzada, considerando 10 particiones aleatorias de cada una de las
bases de datos que aparecen en las Tablas 20, 21 y 22.

Dens(K2) k-NN CNN SNN IB2 IB3


Australian 69.83 84.35 75.22 77.1 75.36 77.54
Balance 88.95 82.23 74.88 69.44 74.25 75.05
Cancer 97.22 97.07 92.67 94 92.38 97.07
Diabetes 72.91 73.56 65.76 67.97 65.76 69.4
Heart 65.18 82.22 68.15 76.3 68.15 81.85
Liver 63.51 65.57 56.8 57.71 56.8 57.93
Phoneme 86.02 88.95 83.16 82.59 83.12 80.51
Vehicle 60.42 71.76 68.2 67.74 68.2 67.26
Iris 96.67 94 90 83 90 91.33
Vowel 89.56 96.57 86.72 78.56 87.48 88.43
Led-Creator 73.66 73.4 64.9 71.8 64.6 70.9
Wine 72.63 94.93 92.65 96.05 92.65 93.76
Tabla 20. Porcentajes de clasificacin.

139
Captulo 8

DEL Drop1 Drop2 Drop3 Drop4 Drop5


Australian 79.86 79.13 81.59 82.9 82.17 83.33
Balance 83.84 83.68 84.96 87.68 87.52 89.12
Cancer 95.47 96.05 96.04 96.48 96.63 96.34
Diabetes 72 70.96 73.18 75.14 72.79 73.05
Heart 81.85 78.52 80 82.22 82.22 82.22
Liver 58.2 59.66 66.68 60.56 62.03 67.22
Phoneme 83.92 83.01 87.14 86.29 87.1 86.71
Vehicle 69.87 64.79 69.74 67.15 68.09 70.11
Iris 92.67 89.33 94.67 94.67 94.67 94
Vowel 92.99 88.98 91.64 89.56 90.89 92.98
Led-Creator 71.5 69.1 72.2 71.4 71.7 72.6
Wine 95.49 91.05 93.79 94.93 94.93 96.08
Tabla 21. Porcentajes de clasificacin.

ENN RENN All-k-NN Elgrow Explore ELH


Australian 82.75 82.75 82.9 64.49 80.14 77.97
Balance 88.64 88.64 89.12 70.4 85.59 78.41
Cancer 96.78 96.64 96.93 94.15 97.22 95.31
Diabetes 75.39 75.91 74.88 67.84 74.23 67.06
Heart 82.22 82.59 82.59 56.3 81.48 77.04
Liver 61.12 58.77 60.24 56.74 57.31 59.69
Phoneme 87.14 86.73 87.27 76.92 77.52 82.11
vehicle 71.17 69.87 70.45 57.1 59.11 66.91
Iris 95.33 95.33 95.33 88.67 95.33 92
Vowel 92.4 91.27 93.55 50.2 60.07 89.39
Led-Creator 72.1 72 71.8 70.4 72.5 72
Wine 94.93 94.93 94.93 81.47 81.47 81.47
Tabla 22. Porcentajes de clasificacin.

En las Tablas 20-22, se puede apreciar que las bases de datos Iris, Led-Creator y
Cancer tienen el mayor porcentaje de clasificacin correcta con el algoritmo Dens(K2) y
la base de datos Liver no tiene el mayor porcentaje para nuestro algoritmo pero, slo es
superado por el algoritmo de clasificacin k-NN y por los algoritmos de edicin Drop2
y Drop5. Para las bases Phoneme y Vowel, nuestro algoritmo est entre los primeros 9
lugares, pero igualmente los algoritmos que superan sus porcentajes son k-NN y All-k-
NN, Drop2-Drop5, ENN (Wilson) y RENN (Wilson Repetitivo). Solo Australian y
Vehicle son superadas por el algoritmo de Hart.

Adems, tomamos los conjuntos de entrenamiento con que realizamos los


experimentos y los empleamos para clasificar los conjuntos de prueba y todos los
conjuntos condensados obtenidos por nuestro algoritmo tienen un porcentaje de
clasificacin correcta mayor que si empleamos las bases de datos completas (sin
condensar o sin editar), excepto para la base de datos Vowel, lo que prueba que el
conjunto condensado Dens(K2) obtiene buenos resultados y se puede emplear para
etiquetar nuevos objetos en lugar de la base de datos completa.

Por medio, de las Tablas 23-25, mostramos los resultados relativos al porcentaje de
reduccin de la talla del conjunto de entrenamiento.

140
Tcnicas de Condensado Basadas en Densidad Local

Dens(K2) k-NN CNN SNN IB2 IB3


Australian 86 0 71.76 67.05 71.61 89.57
Balance 98.4 0 75.22 65.88 74.99 79.23
Cancer 94.49 0 91.85 91.48 91.85 96.4
Diabetes 96.58 0 63.11 57.05 63.11 89.73
Heart 89.96 0 71.32 66.34 71.32 88.15
Liver 89.79 0 59.13 47.41 59.13 89.34
Phoneme 86 0 79.72 79.95 79.95 94.59
Vehicle 86.07 0 62.18 56.71 62.18 71.21
Iris 87.4 0 87.26 85.93 87.26 77.93
Vowel 81.19 0 69.95 80.03 70.29 63.11
led-Creator 83.94 0 64.21 7.22 64.29 77.13
Wine 84.14 0 85.7 85.77 85.7 84.08
Tabla 23. Porcentajes de reduccin.

DEL Drop1 Drop2 Drop3 Drop4 Drop5


Australian 89.26 82.77 75.17 82.75 78.79 79.87
Balance 82.86 86.76 76.5 82.31 82.08 89.39
Cancer 98.06 97.41 93.52 96.73 96.03 96
Diabetes 87.67 79.88 71.74 83.19 78.08 78.24
Heart 92.96 88.11 77.32 85.76 84.2 84.86
Liver 61.32 72.72 62.19 74.84 67.76 68.95
Phoneme 93.75 86.01 79.46 84.75 82.82 84.25
Vehicle 66.99 76.31 68.14 76.73 72.06 73.79
Iris 90.37 88.3 82.44 85.41 85.26 87.93
Vowel 63.93 56.86 53.22 55.18 54.29 57.39
Led-Creator 86.01 87.76 85.76 88.13 86.47 87.4
Wine 91.51 91.45 84.77 84.08 84.08 90.01
Tabla 24. Porcentajes de reduccin.

ENN RENN All-k-NN Elgrow Explore ELH


Australian 15.78 17.28 22.96 99.68 99.68 82.66
Balance 13.83 13.9 24.2 99.54 99.54 67.4
Cancer 3.14 3.51 5.35 99.67 99.67 97.98
Diabetes 23.63 25.48 35.39 99.71 99.71 79.38
Heart 16.79 18.07 26.75 99.35 99.18 84.9
Liver 31.85 36.87 47.66 99.45 99.56 53.01
Phoneme 10.2 11.27 13.37 99.3 99.3 87.56
Vehicle 26.23 30.47 35.21 98.2 97.91 61.33
Iris 5.26 5.33 6.22 97.7 97.78 89.41
Vowel 3.43 4.06 3.3 95.31 92.93 63.57
Led-Creator 26.12 27.14 27.93 98.47 98.16 85.28
Wine 4.43 4.43 5.24 98.07 98.44 92.2
Tabla 25. Porcentajes de reduccin.

En las Tablas 23-25 puede observarse que, para la base de datos Led-Creator nuestro
algoritmo alcanz el mayor porcentaje de reduccin, mientras que para las bases de
datos Balance, Diabetes, Liver, Vehicle y Vowel tenemos el tercer mejor porcentaje,
slo superado por los algoritmos Elgrow y Explore. Sin embargo, estos dos algoritmos
tienen porcentajes de clasificacin correcta bastante bajos comparados con el resto de

141
Captulo 8

los algoritmos. Para las bases de datos Heart y Australian, Dens(K2) ocupa el cuarto y
quinto mejor porcentaje de reduccin, respectivamente. Para las bases de datos
Phoneme e Iris, estn en sptimo lugar y Cancer, en el dcimo. En todos los casos, la
reduccin es de ms del 80% de los objetos de la base de datos, por lo que
consideramos que como algoritmo de reduccin de talla del conjunto de entrenamiento
obtiene buenos resultados.

A continuacin, presentamos los resultados que aparecen en las tablas en varias


grficas para que se pueda apreciar mejor los algoritmos que hemos comparado en este
experimento.

En la base Australian, observamos que nuestro algoritmo est entre los que ms
porcentaje de reduccin obtiene en Balance, logramos tener un buen porcentaje de
clasificacin correcta, aunque respecto a la reduccin no alcanzamos los primeros
lugares. En Diabetes, hay un comportamiento favorable en ambos sentidos, tanto en
porcentaje de clasificacin como en porcentaje de reduccin.

Cond-Estocstico Cond-Estocstico
Australian k-NN
Australian
CNN
CNN SNN
100 SNN 100
IB2
IB2 IB3
Porcentaje de clasificacin

90 90
IB3
Coeficiente de reduccin

DEL
DEL 80
80 Drop1
Drop1 70
70 Drop2
Drop2
60 Drop3
Drop3
60 Drop4
Drop4 50
Drop5
50 Drop5
40 ENN
ENN
40 30 RENN
RENN
All-k-NN All-k-NN
30 20
Elgrow Elgrow
20 10 Explore
Explore
1 ELH 1 ELH

Cond-Estocstico Cond-Estocstico
Balance k-NN
Balance
CNN
CNN SNN
100 SNN 100 IB2
IB2 IB3
P o rcen ta je d e cla sifica ci n

90 90
C o e fi c i e n te d e re d u c c i n

IB3 DEL
DEL 80
80 Drop1
Drop1 70 Drop2
70 Drop2
60 Drop3
Drop3
60 Drop4
Drop4 50
Drop5
50 Drop5 40 ENN
ENN
40 30 RENN
RENN
All-k-NN
All-k-NN 20
30 Elgrow
Elgrow
10 Explore
20 Explore
1 ELH 1 ELH

Figura19. Comparacin entre diferentes tcnicas para reducir la talla del conjunto de
entrenamiento.

142
Tcnicas de Condensado Basadas en Densidad Local

Cond-Estocstico Cond-Estocstico
Diabetes Diabetes
k-NN CNN
CNN SNN
90 100
SNN IB2
IB2 90 IB3
80
Porcentaje de clasificacin

IB3

C oeficiente de reduccin
DEL
DEL 80
70 Drop1
Drop1
70 Drop2
60 Drop2
Drop3
Drop3
60 Drop4
50 Drop4
Drop5
Drop5 50
40 ENN
ENN
40 RENN
RENN
30 All-k-NN All-k-NN
30
Elgrow Elgrow
20
Explore 20 Explore
1 ELH 1 ELH

Figura 20. Comparacin entre diferentes tcnicas para reducir la talla del conjunto de
entrenamiento.

En la base Heart, tenemos un resultado discreto en cuanto a clasificacin pero


bastante bueno respecto a reduccin, en Liver, ocupa una tercera posicin en cuanto a la
reduccin de la talla y slo es superado en el porcentaje de clasificacin correcta por
tres de los algoritmos en Vehicle, ocupamos el tercer lugar en porcentaje de reduccin,
slo superados por los algoritmos Elgrow y Explore.

Heart Cond-Estocstico Heart Cond-Estocstico

k-NN CNN
90 CNN 100 SNN
SNN IB2
90
80 IB2 IB3
IB3 DEL
80
Porcentaje de clasificacin

DEL
Coeficiente reduccin

70 Drop1
Drop1 70
Drop2
60 Drop2
60 Drop3
Drop3
Drop4
Drop4 50
50 Drop5
Drop5
40 ENN
ENN
40
RENN
RENN 30
All-k-NN
All-kNN
30
20 Elgrow
Elgrow
Explore Explore
20 10
ELH ELH
1 1

Figura 21. Comparacin entre diferentes tcnicas para reducir la talla del conjunto de
entrenamiento.

143
Captulo 8

Liver Cond Estocstico Liver Cond-Estocstico


k-NN CNN
70 CNN 100 SNN
SNN IB2
IB2
90
IB3
IB3
DEL
Porcentaje de clasificacin

Coeficiente de reduccin
80
DEL
Drop1
60
Drop1
70 Drop2
Drop2
Drop3
Drop3 60
Drop4
Drop4
Drop5
Drop5 50
50 ENN
ENN
40 RENN
RENN
All-k-NN
All-k-NN
30
Elgrow Elgrow

Explore Explore
20
40
1 ELH 1 ELH

Cond-Estocstico Vehicle Cond Estocstico


Vehicle
k-NN CNN
CNN SNN
80 100
SNN IB2
IB2 90 IB3
70
IB3
Porcentaje de clasificacin

Coeficiente de Reduccin

DEL
DEL
80
Drop1
60 Drop1
70 Drop2
Drop2
Drop3
50 Drop3 60 Drop4
Drop4
Drop5
Drop5 50
40 ENN
ENN
40 RENN
RENN
30 All-k-NN
All-k-NN 30
Elgrow
Elgrow
Explore 20 Explore
20
1 ELH 1 ELH

Figura 22. Comparacin entre diferentes tcnicas para reducir la talla del conjunto de
entrenamiento.

En la base Phoneme, el porcentaje de clasificacin no se diferencia mucho de los


algoritmos que mejores resultados alcanzan, ocurriendo algo similar con la reduccin de
la talla del conjunto de entrenamiento. En Iris, tenemos el mejor porcentaje de
clasificacin y, en la reduccin, las diferencias no son significativas. En la base Led-
Creator, tenemos tambin el mejor porcentaje de clasificacin y ocupamos los primeros
lugares en porcentajes de reduccin de la talla del conjunto de entrenamiento.

144
Tcnicas de Condensado Basadas en Densidad Local

Cond-Estocstico Cond Estocstico


Phoneme Phoneme
k-NN CNN
CNN SNN
100 SNN 100
IB2
IB2 90
90 IB3
P orcentaje de clasificacin

IB3

C o eficien te d e red u cci n


80 DEL
80 DEL
Drop1
Drop1 70
70 Drop2
Drop2 60
Drop3
Drop3
60 50 Drop4
Drop4
50 40 Drop5
Drop5
ENN
ENN 30
40 RENN
RENN 20
All-k-NN All-k-NN
30 10
Elgrow Elgrow
20 Explore 0 Explore
1 ELH 1 ELH

Iris Conde-Estocstico Iris Cond Estocstico


k-NN CNN
100 CNN 100 SNN
SNN
90 IB2
90 IB2
IB3
IB3 80
Porcentaje de clasificacin

DEL
C oeficiente de R educcin

80
DEL 70 Drop1
Drop1
70 Drop2
60
Drop2
Drop3
60 Drop3 50
Drop4
Drop4
40 Drop5
50 Drop5
30 ENN
ENN
40 REN
RENN
20
All-k-NN All-k-NN
30
10 Elgrow
Elgrow

20 Explore 0 Explore

1 ELH 1 ELH

Cond-Estocstico Led-Creator Cond-Estocstico


Led-Creator
k-NN CNN
CNN SNN
90 100
SNN IB2
IB2 90 IB3
80
Porcentaje de clasificacin

IB3
C oeficien te d e red u ccin

80 DEL
DEL
70 Drop1
Drop1 70
Drop2
60 Drop2
60 Drop3
Drop3
Drop4
50 Drop4 50
Drop5
Drop5
40 ENN
40 ENN
RENN 30 RENN

All-k-NN All-k-NN
30
20
Elgrow Elgrow

20 Explore 10 Explore
1 ELH 1 ELH

Figura 23. Comparacin entre diferentes tcnicas para reducir la talla del conjunto de
entrenamiento.

Pese a las tablas mostradas y las figuras presentadas, hemos tambin hecho un
grfico de rango entre todos estos algoritmos, como un elemento ms para comparar
ests tcnicas de reduccin de la talla del conjunto de entrenamiento.

145
Captulo 8

Tabla de Rango Porcentaje de Clasificacin Tabla de Rango Coeficiente de Reduccin

18 18
Cond Estocstico Cond Estocstico
k-NN k-NN
16 16
CNN CNN
SNN SNN
14 14
IB2 IB2
IB3 IB3
12 12
DEL DEL

Algoritmos
Algoritmos

Drop1 Drop1
10 10
Drop2 Drop2
Drop3 Drop3
8 8
Drop4 Drop4
Drop5 Drop5
6 6
ENN ENN
RENN RENN
4 4
All-k-NN All-k-NN
Elgrow Elgrow
2 2
Explore Explore
ELH ELH
0 0
1 1

Figura 24. Comparacin entre diferentes tcnicas para reducir la talla del conjunto de
entrenamiento.

Como se puede apreciar, el algoritmo Dens(K2), el cual hemos comprado con todos
los algoritmos que aparecen en el artculo de [Wilson y Martinez, 2000], ocupo la
octava posicin entre los 18 algoritmos usados. Aunque no est en las primeras
posiciones, debemos sealar que aqu aparecen algoritmos netamente de edicin, como
el de Wilson, y otros de clasificacin, como la regla k-NN, por lo cual consideramos que
est algoritmo de condensado que utiliza una funcin de densidad para seleccionar
aquellos objetos de zonas que tienen un alta densidad de objetos tiene un valor tanto
terico como prctico en problemas donde se estime la funcin de densidad de clases.

4. Conclusiones

Con el objetivo de reducir la carga computacional de muchos clasificadores no


paramtricos, se desarrollan tcnicas para reducir y controlar la talla de estos conjuntos.
En este captulo, hemos presentado tres algoritmos de condensado que utilizan una
funcin de densidad para seleccionar las muestras que se encuentren en zonas
precisamente donde la densidad sea considerable.

En el primer algoritmo propuesto, denominado Dens(R), es necesario definir el radio


de la vecindad para poder seleccionar las muestras de esa regin. Como comentamos, la
seleccin del radio es un factor negativo de este algoritmo, por lo cual se debe de
trabajar en la bsqueda de un mtodo que de manera automtica encuentre el valor del
radio sin la necesidad de buscarlo de forma emprica.

Posteriormente, son explicados los algoritmos Dens(K) y Dens(K2), en los cuales se


define una funcin de densidad con el objetivo de suplir la deficiencia del algoritmo
anterior. Una serie de experimentos relacionados con los algoritmos Dens(R) y Dens(K)
son presentados en los primeros experimentos que se muestran en este captulo.
Posteriormente, apoyndonos en el artculo de [Wilson y Martinez, 2000], se hace una
extensa experimentacin con 18 algoritmos, con el objetivo de reducir la talla del

146
Tcnicas de Condensado Basadas en Densidad Local

conjunto de entrenamiento. En estos experimentos, el resultado se valida mediante una


tabla de rango, quedando Dens(K2) en el octavo lugar entre todos los algoritmos que en
el artculo se consideran.

Resumiendo, estas tcnicas de reduccin de la talla del conjunto de entrenamiento


empleando funciones de densidad, nos servirn en el Captulo 9 para controlar la talla
del conjunto de entrenamiento en un problema de aprendizaje continuo.

147
Captulo 9

Filtrado de la Muestra de Entrenamiento


en Aprendizaje Parcialmente
Supervisado

1. Introduccin

El termino "Inteligencia Artificial" (IA) fue acuado formalmente en 1956 durante la


conferencia de Darthmounth, hasta entonces, ya se haba estado trabajando en ello
durante cinco aos, en los cuales se haban propuesto muchas definiciones distintas que
en ningn caso haban logrado ser aceptadas totalmente por la comunidad investigadora.

Segn John McCarthy, la inteligencia es la "capacidad que tiene el ser humano de


adaptarse eficazmente al cambio de circunstancias mediante el uso de informacin sobre
esos cambios". El desarrollo de las computadoras a principios de los aos 50 permiti el
abordaje sin especulacin de estas facultades mentales mediante una autntica disciplina
terica-experimental. Es a partir de esto que se encontr que la IA constituye algo
mucho ms complejo de lo que se pudo llegar a imaginar en principio, ya que las ideas
modernas que constituyen esta disciplina se caracterizan por su gran riqueza, sutileza e
inters; en la actualidad, la IA abarca una enorme cantidad de subcampos que van desde
reas de propsito general hasta tareas muy especficas.

Una de las definiciones que se han dado para describir la IA la sita dentro de una
disciplina que tiene que ver con la ciencia de la computacin, que corresponde al
esfuerzo por parte de gran cantidad de cientficos que durante los ltimos treinta aos
han realizado con el fin de dotar a las computadoras de inteligencia. A partir de esta
definicin, encontramos que una tcnica de IA es aquella que se utiliza con el fin de
lograr que un determinado programa se comporte de forma inteligente, sin pretender
tener en cuenta la "forma de razonamiento" empleada para lograr ese comportamiento.

A partir de lo anteriormente descrito Farid Fleifel Tapia define la IA como. La rama


de la ciencia de la computacin que estudia la resolucin de problemas no algortmicos
mediante el uso de cualquier tcnica de computacin disponible, sin tener en cuenta la
forma de razonamiento subyacente en los mtodos que se apliquen para lograr esa
resolucin.

Sin embargo, es preciso sealar que existen dos enfoques dentro de la IA; el primero
de ellos esta concebido como el intento por desarrollar una tecnologa capaz de proveer
Captulo 9

al ordenador capacidades de razonamiento similares a los de la inteligencia humana.


Este primer enfoque se centra en la utilidad y no en el mtodo, los temas claves de este
enfoque son la representacin y gestin del conocimiento.

El segundo enfoque considera a la IA en su concepcin como investigacin relativa a


los mecanismos de la inteligencia humana que se emplean en la simulacin de
validacin de teoras. Esta se orienta a la creacin de un sistema artificial capaz de
realizar procesos cognitivos humanos haciendo importante no tanto la utilidad sino el
mtodo; los aspectos fundamentales de este enfoque se refieren al aprendizaje y la
adaptabilidad.

Precisamente, otra de las aportaciones de este trabajo se pudiera considerar que


pertenece a este segundo enfoque sealado anteriormente, debido a que presentaremos
la implementacin de un sistema de aprendizaje semi-supervisado o parcialmente
supervisado. Este sistema trata de aprender no nicamente a partir de los objetos
etiquetados en el conjunto de entrenamiento, sino tambin beneficindose de la
experiencia obtenida cuando clasifica nuevos objetos no etiquetados. Una meta bsica
de nuestro sistema es hacer el procedimiento de aprendizaje semi-supervisado tan
automtico como sea posible, incorporando nuevos ejemplos en el conjunto de
entrenamiento despus de haber sido etiquetados por el propio sistema. Sin embargo,
este procedimiento pudiera deteriorar la ejecucin del sistema por la inclusin de
objetos potencialmente mal clasificados en el conjunto de entrenamiento. Con el
objetivo de minimizar estos errores, emplearemos diferentes tcnicas de seleccin de
prototipos pero teniendo en cuenta la distribucin de probabilidades de los vecinos en
un entorno de la muestra a clasificar.

2. Algoritmo de Aprendizaje Continuo Utilizando Probabilidades de


Clase

En el Captulo 5, comentamos que los sistemas de clasificacin supervisados dependen


de una muestra de entrenamiento que sea lo suficientemente representativa del problema
que se pretende resolver. Este conjunto de entrenamiento debe ser preparado con
anterioridad por un experto humano, quien elige un conjunto de objetos representativos
y los atributos que logren distinguirlos. Este proceso es complicado y costoso, por lo
cual, en todos los casos no es siempre posible lograr este conjunto de entrenamiento. En
un esquema de clasificacin supervisado tradicional, si el entorno donde el clasificador
ha sido entrenado sufre algunas variaciones o si llegan a surgir nuevas clases no
consideradas en el TS, se requerir que el clasificador sea nuevamente entrenado; esto,
har necesario recurrir nuevamente al experto humano para que reconstruya el TS,
situacin que en muchos casos resulta sumamente problemtica por la dificultad y el
costo que ello implica. Lo que s resulta mucho ms fcil en la prctica es obtener
muestras no etiquetadas, por lo que se hace necesario disear mtodos de aprendizajes
que permitan utilizar tanto muestras etiquetadas como no etiquetadas.

Dentro del Aprendizaje Parcialmente Supervisado se encuentran los algoritmos de


Aprendizaje Continuos, cuya idea bsica es incorporar los nuevos objetos ya

150
Filtrado de la Muestra de Entrenamiento en Aprendizaje Parcialmente Supervisado

clasificados por el algoritmo al conjunto de entrenamiento con el fin de mejorar la


precisin del clasificador, as como tambin la adaptabilidad al entorno debido a la
incorporacin paulatina de muestras en el conjunto de entrenamiento.

Utilizando el clasificador NN, fueron presentadas en el Captulo 5, algunas lneas de


investigacin que se siguen sobre el tema de adaptacin del clasificador. En el trabajo
de [Dasarathy B.V, 1994] se propone un sistema con capacidad de adaptarse en
ambientes parcialmente supervisados, empleando la regla NN como clasificador central
y tcnicas para evitar el crecimiento indiscriminado del TS, o bien para evitar que el TS
se degrade. Utilizando tambin NN como clasificador central [Jures M, Barandela R,
2001] proponen una metodologa general de un algoritmo de Aprendizaje Continuo,
principalmente por las ventajas que ofrece su uso (sencillez y conocimiento del
porcentaje de error), donde de manera general utilizan varias tcnicas de seleccin de
prototipos, conformando un sistema con la capacidad de Aprendizaje Continuo. Pero ya
habamos apuntado que, en esta metodologa, no se tenan en cuenta a los vecinos que
rodean la muestra, ni tampoco las probabilidades de pertenencia a la clase de cada uno
de los vecinos.

Teniendo en cuenta los comentarios sobre el esquema propuesto por [Jures. M,


Barandela.R, 2001], con el objetivo de poder aprovechar la informacin que brindan los
objetos que se encuentran en una vecindad de la muestra a clasificar, proponemos una
metodologa similar a la propuesta anteriormente explicada en el Captulo 5, pero en la
misma hemos utilizado diferentes criterios de vecindad y diferentes reglas de
clasificacin para aprovechar la distribucin de los vecinos, as como las probabilidades
de pertenencia a la clase de cada uno de estos vecinos. En esta metodologa, sern
utilizadas las reglas de clasificacin estocsticas que presentamos en el Captulo 6 y los
esquemas estocsticos de edicin y condensado explicados en los Captulos 7 y 8 de la
presente memoria de Tesis Doctoral.

El esquema de Aprendizaje Continuo que proponemos utilizando la probabilidad de


pertenencia a las clases de los objetos, se puede resumir de la siguiente forma:

1. Cargar el Conjunto de Entrenamiento TS en memoria.


2. Editar de manera estocstica el TS para eliminar posibles outliers. Adems,
como resultado de la edicin, se produce una reduccin del conjunto de
entrenamiento, lo que disminuye la carga computacional del clasificador. Este
conjunto editado lo denominaremos Conocimiento Base (CB). De forma
opcional, el algoritmo de edicin puede modificar o no las probabilidades de
pertenencia de los objetos a las clases.
3. Clasificar los objetos de manera individual (o en lotes de muestras) utilizando
como conjunto de entrenamiento el CB, teniendo en cuenta la distribucin de las
probabilidades de clases. En este paso, asignaremos a los prototipos clasificados
las probabilidades de pertenencia a las clases calculadas por la regla de
clasificacin estocstica.
4. Editar de manera estocstica y usando opciones de rechazo el conjunto de
muestras clasificadas en el paso anterior para eliminar aquellos prototipos
errneamente etiquetados en la fase de clasificacin. En este paso, es opcional

151
Captulo 9

modificar o mantener las probabilidades de pertenencia a las clases de las


muestras clasificadas.
5. Aadir las muestras no eliminadas en el paso anterior al (CB). Este nuevo
conocimiento recibir el nombre de conocimiento actual (CA).
6. Someter el CA a un proceso de filtrado con la finalidad de detectar aquellos
patrones que hayan sido incorporados producto de una mala decisin en el paso
4. En esta etapa, se pueden eliminar o reasignar aquellos patrones que fueron
etiquetados en una clase la cual no le corresponda. Es opcional, en este punto,
que el algoritmo de edicin utilizado modifique o no las probabilidades de
pertenencia de los objetos a las clases.
7. Asignar CA=CB. Si existen muestras (o lotes) de muestras sin clasificar ir al
paso 3 sino terminar el proceso.

Mediante el esquema de la Figura 25 ilustramos la metodologa que proponemos de


manera general, la cual proporciona diferentes alternativas que pueden generar varias
variantes de un mismo algoritmo, en funcin del problema sobre el que se vaya a
aplicar. En este esquema, las muestras pasan por dos filtros para evitar que el
clasificador pierda precisin por causa de la incorporacin de muestras mal etiquetas
durante el proceso de clasificacin.

Figura25. Esquema de aprendizaje continuo utilizando probabilidades de clases.

La adaptacin del clasificador a las nuevas condiciones en este esquema est dada
por la posibilidad de adicionar nuevas muestras al conocimiento; lo que hace que no
todas las muestras sean clasificadas con un mismo conocimiento, sino que ste es
actualizado en cada iteracin del algoritmo. El hecho de poder modificar las
probabilidades de pertenencia de los objetos a las distintas clases del problema permite
al clasificador irse adaptando a las condiciones del medio en que tiene que
desempearse a medida que le permite corregir posibles errores que pudieran haberse
cometido a la hora de estimar dichas probabilidades.

152
Filtrado de la Muestra de Entrenamiento en Aprendizaje Parcialmente Supervisado

En la Figura 26, hemos representado las diferentes reglas de clasificacin empleadas,


as como tambin los algoritmos de edicin utilizados con el objetivo de filtrar las
muestras que sern incorporadas en cada iteracin del algoritmo al conocimiento base.

Figura 26. Algoritmos de clasificacin y edicin utilizados en la metodologa propuesta.

En el esquema propuesto, no utilizamos el algoritmo Wilson-prob-umb para editar el


conjunto de entrenamiento inicial debido a que normalmente, en el comienzo del
proceso, el nmero de prototipos es reducido y, al fijar un umbral demasiado alto, muy
pocas muestras lograran superar este umbral. Esto provocara que el conocimiento base
fuera muy reducido, lo que afectara sustancialmente a la efectividad del clasificador.

En el algoritmo anteriormente descrito, se sugiere que los nuevos prototipos sean


presentados poco a poco en forma de lotes. En una aplicacin real, no siempre se
dispone de lotes de objetos, sino que los mismos van llegando poco a poco. Una posible
solucin a este problema pudiera consistir en almacenar las muestras clasificadas hasta
tener la cantidad necesaria para formar un lote y, entonces, aplicar el esquema anterior.
Es recomendable que los lotes de objetos no sean demasiado pequeos, pues se
incorporaran muy pocos elementos al conocimiento base y la edicin de forma
continuada del conocimiento sera similar a un esquema de edicin iterativo que, como
puede verse en el Captulo 7 presentan en determinados casos una precisin
significativamente inferior.

Utilizar el algoritmo Wilson-prob-umb-var para realizar la edicin de los prototipos


tiene el inconveniente de que, si bien determinar un valor umbral para las muestras es
una tarea complicada, establecer uno diferente para cada una de las clases y que se
ajusten a las condiciones reales del problema es una tarea mucho ms compleja an.
Adems, dado que el conocimiento base se va actualizando en cada iteracin, es muy
probable que los valores establecidos al comienzo del esquema no se ajusten a las
condiciones reales de las muestras en el conocimiento en un determinado momento del

153
Captulo 9

proceso. Tengamos presente que la idea de este mtodo es poder exigir un umbral
menos riguroso para las clases menos representadas en el espacio. Pudiera pensarse en
establecer un conjunto de umbrales diferentes cada vez que es necesario editar, pero
esto es sencillamente inaceptable debido a que estimar los umbrales es una tarea
demasiado costosa y rompera con la automaticidad del proceso, lo cual es uno de los
objetivos del presente trabajo. Por ello, la solucin aqu propuesta es estimar en cada
paso el umbral para la clase i mediante la expresin:

i = nmero de prototipos de la clase i / nmero total de prototipos i = 1, , M

De esta forma, en cada momento se le exige a cada clase un umbral en


correspondencia al nmero de muestras presentes en el espacio para esa clase.

3. Tcnicas de Condensado Utilizando Funciones de Densidad


Aplicadas al Aprendizaje Continuo

Los esquemas de aprendizaje continuo que hemos presentado en este trabajo tienen el
inconveniente que el conocimiento actual crece rpidamente debido a la incorporacin
constante de objetos que van siendo clasificados por los diferentes clasificadores, por lo
cual es necesario introducir algn mecanismo de condensado que reduzca la talla del
conocimiento actual sin que esto afecte a la fase de clasificacin. Los algoritmos de
condensado que empleamos para dar respuesta a este objetivo utilizan un criterio de
densidad de modo tal que los objetos seleccionados en el conjunto condensado
pertenezcan a zonas de alta densidad y, por tanto, deben ser buenos representantes de las
clases a las cuales ellos pertenecen.

Por tanto, en el esquema visto anteriormente, se aade un nuevo paso, el cual


consiste en aplicar un algoritmo de condensado. Este valindose de una funcin de
densidad local, selecciona aquellos objetos que pertenecen a zonas de alta densidad,
quedando ahora modificada la propuesta anterior de la siguiente forma:

1. Cargar el Conjunto de Entrenamiento TS en memoria. Predefinir la talla del


conjunto de entrenamiento, teniendo en cuenta el problema que se pretende
resolver.
2. Editar de manera estocstica el TS para eliminar posibles outlier. Adems, como
resultado de la edicin, hay una reduccin del TS, lo que disminuye la carga
computacional del clasificador. Este conjunto editado lo denominaremos
Conocimiento Base (CB). De forma opcional, el algoritmo de edicin puede
modificar o no las probabilidades de pertenencia de los objetos a las clases.
3. Clasificar los objetos de manera individual (o en lotes de muestras) utilizando
como conjunto de entrenamiento el CB teniendo en cuenta la distribucin de
probabilidad de clases. En este paso asignaremos a los prototipos clasificados las
probabilidades de pertenencia a las clases calculadas por la regla de clasificacin
estocstica empleada.
4. Editar de manera estocstica y usando opciones de rechazo el conjunto de
muestras clasificadas en el paso anterior para eliminar aquellos prototipos

154
Filtrado de la Muestra de Entrenamiento en Aprendizaje Parcialmente Supervisado

errneamente etiquetados en la fase de clasificacin. En este paso es opcional


modificar o mantener las probabilidades de pertenencia a las clases de las
muestras clasificadas.
5. Aadir las muestras no eliminadas en el paso anterior al conocimiento base CB.
Este nuevo conocimiento recibir el nombre de conocimiento actual (CA).
6. Someter el CA a un proceso de filtrado con la finalidad de detectar aquellos
patrones que hayan sido incorporados producto de una mala decisin en el paso
4. En esta etapa, se pueden eliminar o reasignar aquellos patrones que fueron
etiquetados en una clase la cual no le corresponda. Es opcional en este punto
que el algoritmo de edicin utilizado modifique o no las probabilidades de
pertenencia de los objetos a las clases.
7. Si el CA excede de la talla previamente establecida, aplicar un algoritmo de
condensado por densidades de objetos.
8. Asignar CA=CB. Si existen muestras (o lotes de muestras) sin clasificar, ir al
paso 3 sino terminar el proceso.

A continuacin, a modo de esquema expondremos la idea de esta metodologa, en la


cual se considera la posibilidad de utilizar un algoritmo de condensado por densidades.

Figura 27. Esquema de aprendizaje continuo utilizando condensado por densidades.

En este esquema, es importante sealar que el algoritmo de condensado se emplea


para controlar la talla del conjunto de entrenamiento debido a que, en el esquema
anterior, como se van incorporando continuamente muestras al conjunto de
entrenamiento, ste crece considerablemente y con ello tambin la carga computacional
del algoritmo. Para disminuir la talla del conjunto de entrenamiento, hemos empleado el
algoritmo de condensado Dens(K2), explicado en el Captulo 8. Debemos de comentar
que, en el proceso descrito anteriormente, no es necesario que en cada iteracin del
mismo se tenga que condensar el conjunto de entrenamiento. As, en nuestra propuesta,
hemos considerado que el conjunto de entrenamiento mantenga una talla adecuada y, al

155
Captulo 9

excederse este valor, es cuando pasamos a la fase de condensado, logrando de esta


manera que el conjunto de entrenamiento siempre tendr una talla adecuada.

4. Resultados Experimentales de los Algoritmos de Aprendizaje


Continuo

En nuestros experimentos, utilizamos diferentes bases de datos tomadas del Machine


Learning Database Repository (http://www.ics.uci.edu/mlearn). Para simular el
proceso de aprendizaje continuo, cada una de estas bases de datos fue dividida de forma
aleatoria en lotes de objetos, de forma tal que cada uno de ellos mantuviera la
distribucin de probabilidades a priori de cada base de datos. Uno de estos lotes de la
particin fue tomado como conjunto de entrenamiento y otro como conjunto de prueba
para medir la efectividad del clasificador, el resto se utilizo para simular el flujo de
muestras no etiquetadas que son presentadas al clasificador. En la Tabla 26 se presenta
la divisin realizada para cada una de las bases de datos utilizadas.

Base de Conjunto de Conjunto de Lotes de muestras sin


Datos Entrenamiento Prueba etiquetar
Nmero de Nmero de Nmero Nmero de
Muestras Muestras de Lotes Muestras por
Lotes
Heart 30 30 7 30
Cancer 68 71 8 68
Diabetes 71 76 9 71
Phoneme 135 139 28 135
Satimage 161 194 28 161
Australian 69 69 8 69
German 71 79 12 71
Tabla 26. Divisin de las bases de datos utilizadas para realizar los experimentos.

Para probar la eficiencia de los algoritmos que describiremos a continuacin se


utiliz la regla NN, tomando como conjunto de entrenamiento el CB en cada iteracin
del algoritmo. Las grficas que presentaremos muestran el porcentaje de clasificacin
correcta en cada una de las iteraciones para cada una de las bases de datos utilizadas.

El conjunto de entrenamiento en el algoritmo lo denotamos por tra, el conjunto de


prueba es denotado por tst y los diferentes lotes de muestras para clasificar son
denotados por tra-i, con i = 1, , nmero de lotes. Todos los experimentos se realizaron
siguiendo el esquema:

1- Dividir de forma aleatoria la base de datos en diferentes lotes y seleccionar de


forma aleatoria uno de esos lotes como conjunto de entrenamiento (tra) y otro
como conjunto de prueba (tst) el resto sern los lotes de objetos denotados por
tra-i que se clasificarn e incorporarn paulatinamente en el proceso de
aprendizaje continuo.
2- Cargar el conjunto tra en memoria.
3- Editar el conjunto tra, obteniendo el CB.

156
Filtrado de la Muestra de Entrenamiento en Aprendizaje Parcialmente Supervisado

4- Mediante el clasificador NN, calcular el porcentaje de aciertos utilizando el CB


como conjunto de entrenamiento y el tst como conjunto de prueba (Iteracin 0).
5- Para i = 1 hasta nmero de lotes
5.1. Asignar a tmp el resultado de clasificar el conjunto tra-i utilizando el CB
5.2. Editar el conjunto tmp
5.3. Adicionar los elementos de tmp al CB
5.4. Editar el CB
5.5. Mediante NN, calcular el porcentaje de aciertos utilizando el CB como
conjunto de entrenamiento y el tst como conjunto de prueba

Se realiz una amplia gama de experimentos probando diferentes combinaciones con


los algoritmos que mencionamos a continuacin.

Algoritmos Algoritmo de Edicin Regla de Clasificacin


Algoritmo I Wilsoncn k-NN
Algoritmo II Wilsoncn k-NCN
Algoritmo III Wilson-prob k-NN-prob-umb
Algoritmo IV Wilsoncn-prob k-NCN-prob-umb
Tabla 27. Diferentes algoritmos de aprendizaje continuo.

Cancer Heart

68
P o r c e n ta je d e c la sific a c i n

100
P o r cen t a j e d e c la sif ica c i n

66
98 64
Algoritmo I Algoritmo I
62
96 Algoritmo II 60 Algoritmo II
94 Algoritmo III 58 Algoritmo III
56
Algoritmo IV Algoritmo IV
92 54
52
90 50
1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8
Iteraciones Iteraciones

Figura 28. Resultados de los algoritmos con las bases Cancer y Heart.

En las grficas de la Figura 28 hemos representado el comportamiento de los


diferentes algoritmos en las bases de datos Cancer y Heart, mostrando en las mismas los
porcentajes de clasificacin, as como el nmero de iteraciones del algoritmo sobre cada
una de las bases de datos. En la base Heart, podemos observar que los cuatro algoritmos
anteriormente descritos presentan un comportamiento muy similar, convergiendo todos
a valores muy similares. En la base Cancer, los mejores resultados se obtienen con los
Algoritmo IV y II, debido a que sus porcentajes en toda la fase de aprendizaje tienen un
comportamiento creciente y, adems, si observamos el porcentaje en la ultima fase del
proceso, podemos observar que es superior al porcentaje del conocimiento inicial. Por
otra parte, los algoritmos I y III no proporcionan unos resultados suficientemente
buenos en el proceso de aprendizaje.

157
Captulo 9

Diabetes German

P o r c e n ta je d e c la sific a c i n
P o r c e n ta je d e c la sific a c i n

74 74
72 72
Algoritmo I Algoritmo I
70 Algoritmo II Algoritmo II
70
68 Algoritmo III Algoritmo III
Algoritmo IV 68 Algoritmo IV
66
64 66
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 11 12 13
Iteraciones Iteraciones

Phoneme Satimage

P o r c e n ta je d e c la sific a c c i n
P o r c e n ta je d e c la s ific a c i n

88 82
80
86
Algoritmo I 78 Algoritmo I
84 Algoritmo II 76 Algoritmo II
74
82 Algoritmo III 72 Algoritmo III
Algoritmo IV 70 Algoritmo IV
80
68
78 66
1 3 5 7 9 11 13 15 17 19 21 23 25 27 1 3 5 7 9 11 13 15 17 19 21 23 25 27
Iteraciones Iteraciones

Australian
P orcen taje d e clasificacin

70
68
Algoritmo I
66 Algoritmo II
64 Algoritmo III
Algoritmo IV
62
60
1 2 3 4 5 6 7 8 9
Iteraciones

Figura 29. Resultados de los algoritmos con las bases Diabetes, German, Phoneme, Satimage y
Australian.

La Figura 29 muestra el comportamiento de los diferentes algoritmos para los


problemas Diabetes, German, Phoneme, Satimage y Australian. En la base de datos
Diabetes, todos los algoritmos tienen un comportamiento similar, destacndose el
algoritmo IV que al finalizar el proceso alcanza el mejor porcentaje de clasificacin. En
German, los mejores resultados corresponden a los algoritmos II y IV. En Phoneme, los
algoritmos II, III y IV obtienen resultados muy similares, los porcentajes de
clasificacin tienden a estabilizarse en valores muy cercanos y siempre superiores al

158
Filtrado de la Muestra de Entrenamiento en Aprendizaje Parcialmente Supervisado

porcentaje del conocimiento inicial. El algoritmo I, aunque su porcentaje de


clasificacin es inferior a los obtenidos por los dems, su comportamiento es parecido y
logra tener una estabilizacin del porcentaje despus de la iteracin 17. Para la base de
datos Satimage se puede observar un comportamiento similar al anterior, donde los
porcentajes de clasificacin se estabilizan despus de la iteracin 21 del algoritmo. En la
base de datos Australian, los cuatro algoritmos obtienen buenos resultados, es decir, los
porcentajes de clasificacin obtenidos por los mismos tienen un comportamiento
creciente y, siempre al final del proceso de aprendizaje continuo, el porcentaje de
clasificacin supera al porcentaje del conocimiento con el cual se inicia el proceso.

A modo de conclusin, podemos decir que las diferentes tcnicas de edicin


empleadas proporcionan buenos resultados, debido a que, en este algoritmo, partimos de
muy pocos objetos en el conjunto de entrenamiento y, en cada iteracin, se va nutriendo
de objetos que han sido clasificados por el propio sistema, comprobando adems la
certeza de que esta clasificacin haya sido la ms adecuada.

4.1 Resultados Experimentales Incorporando Tcnicas de Condensado


Basado en Densidades Locales

Hasta ahora, todos los esquemas de aprendizaje continuo que hemos presentado van
incorporando muestras al conjunto de entrenamiento clasificadas por los diferentes
clasificadores pero, como sabemos, el incremento de las muestras pudiera afectar en
cierta medida a la carga computacional del proceso, con el fin de dar una posible
solucin a este inconveniente, en los grficos que a continuacin ilustraremos, hemos
tenido en cuenta el control de los elementos del conocimiento actual, es decir,
controlamos el tamao del conjunto de entrenamiento valindonos del algoritmo
Dens(K) explicado en el captulo anterior, el cual utiliza una funcin de densidad como
una medida para ubicar aquellos objetos que se encuentran en zonas de alta densidad.

En este esquema, slo hemos llevado a cabo los experimentos con una propuesta de
algoritmo de aprendizaje continuo, donde hemos seleccionado como algoritmo de
edicin de las muestras de entrenamiento el algoritmo Wilson-prob, como regla de
clasificacin k-NN-prob y como algoritmo de condensado Dens(K).

En los resultados que presentamos a continuacin, hemos aadido un nuevo


elemento el cual hemos denominamos Curva de Aprendizaje. Como explicamos
anteriormente, cada una de las bases de datos, en los experimentos, se divide en varios
lotes de objetos, uno de ellos se selecciona como conjunto de entrenamiento y otro
como conjunto de prueba. La curva de aprendizaje se obtiene de la siguiente manera.

1- Dividir de forma aleatoria la base de datos en diferentes lotes y seleccionar de


forma aleatoria uno de esos lotes como conjunto de entrenamiento (tra) y otro
como conjunto de pruebas (tst). Al resto de los lotes los llamaremos tra-i (los
objetos en cada uno de estos lotes tienen su etiqueta de clase).
2- Cargar el conjunto tra en memoria.
3- Editar el conjunto tra (tra-editado) y hacer CB = tra-editado.

159
Captulo 9

4- Mediante NN, calcular el porcentaje de aciertos utilizando el CB como conjunto


de entrenamiento y el tst como conjunto de prueba.
5- Para i = 1 hasta nmero de lotes
5.1- Editar los elementos del lote tra-i.
5.2- Adicionar los elementos del lote tra-i-editado al CB.
5.3- Mediante NN, calcular el porcentaje de aciertos utilizando el CB como
conjunto de entrenamiento y como conjunto de prueba a tst.

Como se puede observar, comenzamos igual que en los esquemas de aprendizaje


continuo antes explicados, editando el CB y despus vamos aadiendo los bloques
editados con sus respectivas etiquetas de clase, es decir, con la etiqueta de clase que
cada objeto tiene asignado en la base de datos y calculando el porcentaje de
clasificacin empleando los elementos del conjunto tst como conjunto de prueba.

Para obtener los resultados que ahora presentamos, repetimos los experimentos 10
veces, o sea, repetimos tanto el algoritmo de aprendizaje continuo como la curva de
aprendizaje 10 veces en cada base de datos y, calculamos el promedio de los porcentajes
de cada una de las etapas antes sealadas. Las bases de datos se dividieron en lotes de
acuerdo a la cantidad de objetos de cada una, por lo que para realizar los experimentos
disponemos de una cantidad de conjuntos tra en funcin de la cantidad de objetos de
cada base de datos. En cada uno de los grficos, los nmeros que se indican en el eje
horizontal corresponden a los conjuntos tra, tra1, tra2, etc; en los grficos, hemos
utilizado la notacin iteraciones, la cual corresponde al nmero de particiones en cada
base de datos, ya que el algoritmo se repite en cada conjunto tra-i. En el eje vertical, se
observa el porcentaje de clasificacin correcta despes de haber realizado el proceso en
la etapa correspondiente.

Para las bases de datos de la Figura 30, se observa una tendencia al crecimiento de la
curva del proceso de aprendizaje continuo propuesto, lo que significa que a pesar de
haber partido de un conjunto de entrenamiento pequeo, en las etapas siguientes hay un
crecimiento del porcentaje de clasificacin correcta, es decir, que los objetos que no
estaban etiquetados y que han sido etiquetados segn este proceso han elevado la
calidad del conjunto de entrenamiento inicial adems, el condensado no ha deteriorado
la calidad del mismo. Puede observarse tambin que casi siempre la curva de
aprendizaje continuo obtenida con nuestro algoritmo est por encima de la curva de
aprendizaje slo en Liver la segunda etapa tiene un valor mayor en el porcentaje para la
curva de aprendizaje, es decir, que los conjuntos de entrenamiento obtenidos como
resultado del proceso de aprendizaje continuo tienen una calidad superior a los
conjuntos de entrenamiento obtenidos segn el esquema de la curva de aprendizaje.

160
Filtrado de la Muestra de Entrenamiento en Aprendizaje Parcialmente Supervisado

Australian Cancer

70 100

Po rcenta je de cla sifica ci n


Po rcenta je de cla sifica ci n

68
Aprendizaje 98 Aprendizaje
66
Continuo Continuo
64 Curva de Curva de
Aprendizaje 96 Aprendizaje
62

60 94
1 2 3 4 5 6 1 2 3 4 5 6

Iteraciones Iteraciones

Diabetes Heart

P o r c e n ta je d e c la s ific a c i n
70
P o r c e nta je de c la sific a c i n

74
72 68
70 Aprendizaje Aprendizaje
66
68 Continuo Continuo
66 Curva de 64 Curva de
Aprendizaje Aprendizaje
64
62
62
60 60
1 2 3 4 5 6 7 1 2 3 4 5

Iteraciones Iteraciones

Liver

66
Po rcenta je de c la sifica ci n

64
Aprendizaje
62
Continuo
60 Curva de
Aprendizaje
58

56
1 2 3 4 5
Iteraciones

Figura 30. Resultado del aprendizaje continuo utilizando algoritmo de condensado Dens(K).

Adems, en el caso de las bases de datos pequeas, efectuamos el condensado en dos


etapas: primero en la tercera iteracin y luego al final del proceso, es decir, en el ltimo
lote, con el objetivo de probar la efectividad del algoritmo de condensado en el proceso
de aprendizaje continuo.

161
Captulo 9

Phoneme Satimage

93 92
P o rcentaje d e clasificaci n

P orcentaje de clasificaci n
91
90
89
87 Aprendizaje 88 Aprendizaje
85 Continuo Continuo
86
83 Curva de Curva de
81 Aprendizaje 84 Aprendizaje
79
82
77
75 80
1 3 5 7 9 11 13 15 17 19 1 3 5 7 9 11 13 15 17 19

Iteraciones Iteraciones

Texture

100
Porcentaje de clasificacin

98
96
Aprendizaje
94 Continuo
92 Curva de
90 Aprendizaje
88
86
1 3 5 7 9 11 13 15
Iteraciones

Figura 31. Resultado del aprendizaje continuo utilizando algoritmo de condensado Dens(K).

En el caso de la base de datos Phoneme (Figura 31), la tendencia de la curva es


tambin a incrementar el valor del porcentaje de clasificacin correcta, pero muy
discretamente y, en muchos casos, permanece casi constante a lo largo del proceso. Para
esta base de datos, la curva de aprendizaje continuo est por debajo de la curva de
aprendizaje.

Las bases de datos Satimage y Texture tienen un comportamiento diferente al resto:


por tramos, la tendencia es al crecimiento, es decir, inicialmente hay una mejora en
cuanto a los porcentajes de clasificacin correcta, despus, experimenta un pequeo
descenso y, finalmente comienza de nuevo a crecer, repitindose varias veces este
mismo comportamiento. Tambin es este caso, la curva de aprendizaje continuo est por
debajo de la curva de aprendizaje.

Para las bases de datos Phoneme, Satimage y Texture, por tener mayor cantidad de
objetos, dividimos en una cantidad mayor de lotes segn se puede ver en los nmeros
del eje horizontal de los grficos correspondientes y el condensado se efectu cada
cinco iteraciones del algoritmo.

A modo de resumen, de esta serie de experimentos que hemos mostrado en esta


seccin, podemos decir que el esquema de aprendizaje continuo, en el cual hemos
considerado como regla de clasificacin k-NN-prob, como mtodo de filtrado de las
muestras el algoritmo Wilson-prob y como mtodo de control de la talla del conjunto de

162
Filtrado de la Muestra de Entrenamiento en Aprendizaje Parcialmente Supervisado

entrenamiento el condensado Dens(K), presenta buenos resultados de manera general.


En las bases de datos Satimage, Texture y Phoneme, el proceso de aprendizaje resulta
muy lento, aunque siempre el porcentaje inicial con el cual comienza el proceso es
superado a medida que se incorporan nuevas muestras al conjunto de entrenamiento.

4.2 Comparacin de Algoritmos Referente al Control de la Talla del


Conjunto de Entrenamiento

En el Captulo 8, expusimos otro algoritmo de condensado, Dens(K2), cuyo porcentaje


de reduccin es superior al que presenta Dens(K), por lo cual tambin realizamos
experimentos utilizando Dens(K2). Este grupo de experimentos estar formado por los
cuatro algoritmos que a continuacin describimos.

1. Algoritmo Ap-Dens(K): clasificaremos las muestras con k-NN-prob, como


algoritmo de filtrado Wilson-prob y como algoritmo de condensado Dens(K).
2. Algoritmo Ap-Dens(K2): clasificaremos las muestras con k-NN-prob, como
algoritmo de filtrado Wilson-prob y como algoritmo de condensado Dens(K2).
3. Algoritmo Ap-Edicin: clasificaremos las muestras con k-NN-prob, como
algoritmo de filtrado Wilson-prob y, en cada iteracin, incluimos las muestras
editadas al conjunto de entrenamiento.
4. El algoritmo mediante el cual calculamos la curva de aprendizaje comentada
en el epgrafe anterior.

En el caso de la base de datos Liver (Figura 32) como ya mencionamos, hubo un


cambio al emplear el condensado Dens(K2) pues, en los dos ltimos niveles del
aprendizaje, hubo un descenso del porcentaje, quedando igual que el de la curva de
aprendizaje y por debajo del aprendizaje sin condensar (Ap-Edicin).

Liver
P orcentaje de clasificacin

66

64 Ap-Dens(K)

62
Ap-Dens(K2)
60

58 Ap-Edicin

56
Curva de
1 2 3 4 5
Aprendizaje
Iteraciones

Figura 32. Resultado de comparar Ap-Dens(K), Ap-Dens(K2) y Ap-Edicin.

Se puede apreciar en las grficas de la Figura 33 que, en los resultados obtenidos


para las bases Australian, Cancer, Diabetes y Heart, ambos procesos de aprendizaje
continuo son muy similares, con muy pocas diferencias en cuanto al porcentaje de

163
Captulo 9

clasificacin correcta, siempre crece la curva de aprendizaje continuo y se mantiene por


encima de la curva de aprendizaje. Adems, al incluir la curva de aprendizaje sin
condensar, es decir, el algoritmo Ap-Edicin, se puede ver que esta curva casi siempre
coincide o queda por debajo de la curva de aprendizaje donde hemos empleado un
algoritmo de condensando, lo cual garantiza que la reduccin que se obtiene de los
datos producto del condensado no perjudica el proceso de aprendizaje continuo, ya que
el porcentaje de clasificacin se mantiene constante o es superior.

En la Figura 34 se muestra la base de datos Phoneme, donde el resultado que se


obtuvo fue muy similar, incluso para el aprendizaje sin condensar. En esta base de
datos, los procesos Ap-Dens(K), Ap-Dens(K2) son muy similares, las curvas
correspondientes a cada esquema quedan por debajo de la curva de aprendizaje, aunque
el porcentaje final de los procesos de aprendizaje continuo es superior al valor inicial.

Por ltimo, analizando la Figura 35, en la cual tenemos los resultados para Satimage
y Texture, observamos que los algoritmos de aprendizaje continuo tienen un
comportamiento similar, siendo muy escasas las diferencia entre ellos. En cualquier
caso para Texture, el esquema Ap-Edicin es el que logra tener los mejores resultados
de forma generalizada.

Australian Cancer

70 100
P o r c e n ta je d e c la sific a c i n
P o r c e n ta je d e c la s ific a c i n

Ap-Dens(K) Ap-Dens(K)
68 99

Ap-Dens(K2) 98 Ap-Dens(K2)
66
97
64 Ap-Edicin Ap-Edicin
96
Curva de
62 Curva de 95
Aprendizaje
Aprendizaje
60 94
1 2 3 4 5 6 1 2 3 4 5 6

Iteraciones Iteraciones

Diabetes Heart
P o r c e n ta je d e c la sific a c i n

74
P o r ce n ta je d e c la sifica ci n

74
72 72
Ap-Dens(K) Ap-Dens(K)
70 70
68 68
Ap-Dens(K2) Ap-Dens(K2)
66 66
64 Ap-Edicin 64 Ap-Edicin
62 62
60 Curva de 60 Curva de
1 2 3 4 5 6 7 Aprendizaje 1 2 3 4 5 Aprendizaje
Iteraciones Iteraciones

Figura 33. Resultado de comparar Ap-Dens(K), Ap-Dens(K2) y Ap-Edicin.

164
Filtrado de la Muestra de Entrenamiento en Aprendizaje Parcialmente Supervisado

Phoneme
93

P orcentaje de clasificacin
91
89 Ap-Dens(K)
87
85 Ap-Dens(K2)
83
81 Ap-Edicin
79
77 Curva de
75 Aprendizaje
1 3 5 7 9 11 13 15 17 19

Iteraciones

Figura 34. Resultado de comparar Ap-Dens(K), Ap-Dens(K2) y Ap-Edicin.

Satimage Texture
P orcen taje d e clasificacin

P o rcen ta je d e cla sifica ci n


92 100

90 98
Ap-Dens(K) Ap-Dens(K)
96
88
94
86 Ap-Dens(K2) Ap-Dens(K2)
92
84
Ap-Edicin 90 Ap-Edicin
82 88
80 Curva de 86 Curva de
1 3 5 7 9 11 13 15 17 19 Aprendizaje 1 3 5 7 9 11 13 15 Aprendizaje
Iteraciones Iteraciones

Figura 35. Resultado de comparar Ap-Dens(K), Ap-Dens(K2) y Ap-Edicin.

A modo de resumen, hemos querido saber cmo influye controlar la talla del
conjunto de entrenamiento, es decir, luego de incorporar al conocimiento todas las
muestras que han sido clasificadas y posteriormente filtradas, es lgico que este
conocimiento aumente a mediada que el proceso se va ejecutando varias veces. Para
tener un control de la talla del conocimiento, hemos aplicado un algoritmo de
condensado con el objetivo de reducir el coste computacional asociado a la regla de
clasificacin. Con los experimentos, comprobamos que disminuir la talla del conjunto
de entrenamiento usando una funcin de densidad nos permite quedarnos en el conjunto
de entrenamiento con muestras que representan de manera adecuada la distribucin de
las clases representadas en el conjunto de entrenamiento.

4.3 Control de la Talla del Conjunto de Entrenamiento en Cada


Iteracin Utilizando Dens(K2)-Variante 2

En esta seccin, mostramos otros experimentos empleando el algoritmo de condensado


Dens(K2) en el aprendizaje continuo y modificando algunos de los pasos con el objetivo
de que el conocimiento base inicial no se alterara. Bajo la suposicin de que tenemos un

165
Captulo 9

conocimiento inicial bastante bueno, el objetivo ser enriquecerlo si es posible con


algunos objetos ms.

El algoritmo siguiente resume los pasos en el nuevo algoritmo de aprendizaje


continuo.

1- Dividir de forma aleatoria la base de datos en diferentes lotes y seleccionar de


forma aleatoria uno de esos lotes como conjunto de entrenamiento (tra), y otro
como conjunto de prueba (tst). A el resto de los lotes los llamaremos tra-i (los
objetos en cada uno de estos lotes tienen su etiqueta de clase).
2- Cargar el conjunto tra en memoria.
3- Editar el conjunto tra, (tra-editado) y hacer CB = tra-editado.
4- Mediante NN, calcular el porcentaje de aciertos utilizando el CB como conjunto
de entrenamiento y el tst como conjunto de prueba.
5- Para i =1 hasta nmero de lotes
5.1- Clasificar el lote tra-i, editarlo y condensarlo.
5.2- Unir el conjunto condensado al CB.
5.3- Mediante NN, calcular el porcentaje de aciertos utilizando el CB como
conjunto de entrenamiento y el tst como conjunto de prueba.

Segn expresa el algoritmo, ahora para cada conjunto tra-i, realizamos tres
operaciones simultaneamente: clasificar, editar y condensar. El resultado de este ltimo
paso es incorporado al conocimiento base, de modo que el CB va creciendo muy
discretamente. Los grficos que mostramos a continuacin son los resultados de los
experimentos realizados empleando este algoritmo de aprendizaje.

Australian Heart

70 70
P o r c e n ta je d e c la s ific a c i n

P o r c e n ta je d e c la sific a c i n

68 68
Aprendizaje Aprendizaje
66 66
Continuo Continuo
64 Curva de 64 Curva de
Aprendizaje Aprendizaje
62 62

60 60
1 2 3 4 5 6 1 2 3 4 5
Iteraciones Iteraciones

Figura 36. Resultado del aprendizaje continuo (variante 2) utilizando condensado Dens(K2).

La Figura 36 muestra el comportamiento creciente del porcentaje de clasificacin


correcta en el proceso de aprendizaje continuo para las bases de datos Australian y
Heart. En este nuevo algoritmo e igual que en el algoritmo anterior, la curva de
aprendizaje continuo est por encima de la curva de aprendizaje.

Las bases de datos Cancer y Diabetes Figura 37, muestran el mismo


comportamiento: los porcentajes de los diferentes conjuntos de entrenamiento obtenidos

166
Filtrado de la Muestra de Entrenamiento en Aprendizaje Parcialmente Supervisado

con el proceso de aprendizaje se mantienen por encima del porcentaje inicial. Para la
base de datos Liver se observa un comportamiento irregular durante el proceso de
aprendizaje, aunque termina con un porcentaje muy cercano al inicial, en los pasos
intermedios hay un descenso del porcentaje de clasificacin.

La base de datos Phoneme (Figura 38) tiene un buen comportamiento en el proceso


de aprendizaje pues, como se puede observar, la curva va creciendo a medida que se
agregan puntos al conjunto de entrenamiento debido al proceso de aprendizaje: aunque a
pequeos niveles, pero se aprecia una mejora de los porcentajes de clasificacin
correcta. Las bases de datos Satimage y Texture (Figuras 38) con este nuevo algoritmo
tienen mejores resultados. Como se puede ver, las grficas son crecientes, a diferencia
de los dos procesos anteriores en los que para estas bases de datos no haba una
tendencia clara hacia el crecimiento sino a intervalos y con descensos en la etapa de
condensado. Ahora, al efectuar el condensado inmediatamente despus de la edicin,
slo se agregan algunas muestras al conjunto de aprendizaje y no se modifica el
conocimiento inicial, obtenindose mejores resultados con esta propuesta.

Cancer Diabetes
P o r c e n ta je d e c la s ific a c i n

100 74
P o r c e n ta je d e c la s ific a c i n

72

98 Aprendizaje 70
Aprendizaje
Continuo 68 Continuo
Curva de 66 Curva de
96
Aprendizaje 64 Aprendizaje
62
94 60
1 2 3 4 5 6 1 2 3 4 5 6 7
Iteraciones Iteraciones

Liver

66
P orcen taje d e clasificacin

64

62 Aprendizaje
Continuo
60
Curva de
58 Aprendizaje
56

54
1 2 3 4 5
Iteraciones

Figura 37. Resultado del aprendizaje continuo (variante 2) utilizando condensado Dens(K2).

167
Captulo 9

P o r ce n ta je d e c la sific a c i n Phoneme Satimage

93 92

P o r c e n ta je d e c la s ific a c i n
91
90
89
87 Aprendizaje 88 Aprendizaje
85 Continuo Continuo
86
83 Curva de Curva de
81 Aprendizaje 84 Aprendizaje
79
77 82
75 80
1 3 5 7 9 11 13 15 17 19 1 3 5 7 9 11 13 15 17 19
Iteraciones Iteraciones

Texture
P orcentaje de clasificacin

100
98
96
Aprendizaje
94 Continuo
92 Curva de
90 Aprendizaje
88
86
1 3 5 7 9 11 13 15

Iteraciones

Figura38. Resultado del aprendizaje continuo (variante 2) utilizando condensado Dens(K2).

A modo de resumen de estos experimentos, podemos decir que con esta propuesta
perseguimos dos objetivos: primero, no modificamos constantemente el conocimiento
inicial debido a que las muestras de ese conocimiento permanecern a lo largo del
proceso en el conjunto de entrenamiento y segundo, aadimos al conocimiento slo
aquellas muestras que han pasado por los dos filtros (edicin y condensado). Esto nos
permitir en cada paso adicionar al conocimiento muy pocas muestras, manteniendo de
este modo la distribucin inicial del proceso. Con este esquema, hemos tenido un mejor
resultado en las bases de datos de mayor tamao que en los procesos anteriores.

4.4 Comparacin entre Ap-Dens(K2)-V1 y Ap-Dens(K2)-V2

En este epigrafe, para que se vean bien las diferencias entre los dos algoritmos de
aprendizaje continuo empleando el algoritmo Dens(K2) mostramos una serie de
experimentos con los algoritmos siguientes:

1. Ap-Dens(K2)-V1: clasificamos utilizando la regla k-NN-prob, editamos con


Wilson-prob, incluimos estas muestras al conocimiento inicial y, despus de
varias iteraciones, aplicamos el algoritmo de condensado Dens(K2).

168
Filtrado de la Muestra de Entrenamiento en Aprendizaje Parcialmente Supervisado

2. Ap-Dens(K2)-V2: clasificamos utilizando la regla k-NN-prob, editamos con


Wilson-prob, condensamos las muestras editadas con el algoritmo Dens(K2) y,
posteriormente son aadidas al conocimiento con el cual sern clasificadas las
muestras en el siguiente paso.

Para la base de datos Australian (Figura 39), se obtienen resultados similares, en el


sentido de que la curva de aprendizaje continuo con ambos algoritmos es creciente.
Aunque con el segundo algoritmo los porcentajes son menores, ambos mtodos sirven
para mejorar la calidad del conjunto de entrenamiento inicial. Con la base de datos
Cancer, hubo un cambio en el comportamiento con la segunda variante: no siempre fue
creciendo la curva. De todas formas, en todas las etapas, el conjunto de entrenamiento
tiene mayor calidad que el conjunto de entrenamiento inicial.

Australian Cancer

70 100

P o r ce nta je de c la sific a c i n
Po rcenta je de cla sifica ci n

68 Ap-Dens(K2)-V1 Ap-Dens(K2)-V1
98
66
Ap-Dens(K2)-V2 Ap-Dens(K2)-V2
64
96
Curva de Curva de
62 Aprendizaje Aprendizaje

60 94
1 2 3 4 5 6 1 2 3 4 5 6

Iteraciones Iteraciones

Figura 39. Resultados de comparar los algoritmos Ap-Dens(K2)-V1 y Ap-Dens(K2)-V2.

Diabetes Heart

74 70
P o r c e n ta je d e c la sific a c i n

C l a s i fi c a c i n c o r r e c ta (% )

72
Ap-Dens(K2)-V1 68 Ap-Dens(K2)-V1
70
68 66
Ap-Dens(K2)-V2 Ap-Dens(K2)-V2
66 64
64 Curva de Curva de
Aprendizaje 62 Aprendizaje
62
60 60
1 2 3 4 5 6 7 1 2 3 4 5

Iteraciones Iteraciones

Figura 40. Resultados de comparar los algoritmos Ap-Dens(K2)-V1 y Ap-Dens(K2)-V2.

Para la base de datos Diabetes (Figura 40), an cuando los conjuntos resultantes son
mejores que el conjunto de entrenamiento inicial, el comportamiento, en general, es
creciente con la variante segunda, pero a niveles inferiores que para la primera variante.
Para la base de datos Heart, tambin la curva de aprendizaje continuo crece con ambos
mtodos de aprendizaje, pero los porcentajes de clasificacin correcta de la variante
primera son superiores que los de la segunda variante.

169
Captulo 9

La segunda variante de algoritmo de aprendizaje continuo no es buena para la base


de datos Liver (Figura 41) pues, inicialmente, experimenta un decrecimiento de la
curva, luego crece y, aunque al final el porcentaje es cercano al inicial, no es
conveniente emplear este mtodo con esta base de datos pues el conjunto de
entrenamiento inicial no mejora con el aprendizaje continuo. Se ve claramente que es
mejor emplear la primera variante de aprendizaje continuo para esta base de datos.

Liver Phoneme
P o r c e n ta je d e c la sific a c i n

66 93

P o rc e n ta j e d e c la s i fic a c i n
91
64
Ap-Dens(K2)-V1 89 Ap-Dens(K2)-V1
62 87

60
Ap-Dens(K2)-V2 85 Ap-Dens(K2)-V2
83
58 Curva de 81
Curva de
Aprendizaje 79
56 Aprendizaje
77
54 75
1 2 3 4 5 1 3 5 7 9 11 13 15 17 19

Iteraciones Iteraciones

Figura 41. Resultados de comparar los algoritmos Ap-Dens(K2)-V1 y Ap-Dens(K2)-V2.

En la Figura 41, se puede apreciar el comportamiento para la base de datos Phoneme.


Con ambas variantes, el crecimiento es pequeo pero se produce una mejora en el
conjunto de entrenamiento partiendo slo de un conjunto pequeo de muestras. Por otra
parte podemos observar que la variante segunda tiene mejores prestaciones.

Satimage Texture
P o r c e n t a j e d e c la s if ic a c i n

92
P o r c e n ta je d e c la sific a c i n

100
90 98
Ap-Dens(K2)-V1 Ap-Dens(K2)-V1
96
88

86 Ap-Dens(K2)-V2 94 Ap-Dens(K2)-V2
92
84
Curva de 90 Curva de
82 Aprendizaje 88 Aprendizaje
80 86
1 3 5 7 9 11 13 15 17 19 1 3 5 7 9 11 13 15

Iteraciones Iteraciones

Figura 42. Resultados de comparar los algoritmos Ap-Dens(K2)-V1 y Ap-Dens(K2)-V2.

La Figura 42 muestra que, para las bases de datos Satimage y Texture, es mejor
emplear la segunda variante, pues no se produce un deterioro de la calidad del conjunto
de aprendizaje. Como se ve bien en los grficos, para el primer mtodo (cuando se
modifica el conjunto inicial), en los primeros pasos hay un crecimiento del porcentaje
de clasificacin correcta pero, posteriormente desciende y, aunque siempre trata de
recuperarse nuevamente por tramos, la tendencia es a decrecer. Sin embargo, al probar

170
Filtrado de la Muestra de Entrenamiento en Aprendizaje Parcialmente Supervisado

la segunda variante, se ve que la tendencia es a crecer, por lo que este mtodo en esta
base de datos proporciona mejores resultados.

Resumiendo estos ltimos experimentos, podemos decir que, de manera general, el


segundo procedimiento logra obtener mejores resultados sobre las bases de datos con
mayor nmero de muestras, aunque ambos algoritmos logran aumentar el porcentaje de
clasificacin a lo largo de todo el proceso partiendo de muy poca informacin y
valindose de la probabilidad de pertenencia a las clases de los objetos en el proceso de
clasificacin y filtrado de las muestras, as como tambin de esquemas de condensado
donde hemos tenido en cuenta una funcin de densidad para seleccionar aquellos
prototipos que se encuentren en zonas de alta densidad.

5. Conclusiones

En este captulo, hemos tratado una serie de algoritmos de aprendizaje continuo en un


ambiente parcialmente supervisado, en los cuales hemos usado un nmero reducido de
objetos etiquetados y, un nmero mayor de objetos sin etiqueta para, con la informacin
suministrada por estos objetos, adaptar al clasificador al nuevo entorno sobre el que va a
trabajar. Este sistema incluye un conjunto de herramientas para filtrar el nuevo
conocimiento adquirido a lo largo de todo el proceso, debido a que se corre el riego de
incorporar patrones mal etiquetados en el conjunto de entrenamiento y,
consecuentemente, degradar la eficiencia del mismo.

En la evaluacin emprica de los sistemas de aprendizaje, hemos usado diferentes


reglas de clasificacin y diferentes algoritmos de edicin. En los primeros
experimentos, slo hemos tenido en cuenta algoritmos de edicin y tambin hemos
considerado las probabilidades de pertenencia a las clases de los vecinos ms cercanos a
la muestra. Estos algoritmos tienen el inconveniente de que, con la incorporacin
paulatina de muestras al conjunto de entrenamiento, la carga computacional asociada a
los clasificadores ser cada vez mayor y, por lo tanto se ver afectado el tiempo de
ejecucin del proceso. Como una va para solucionar este inconveniente, hemos
realizado una gama de experimentos que involucran algoritmos de condensado para
controlar la talla del conjunto de entrenamiento; estos algoritmos de condensado utilizan
una funcin de densidad que les permite buscar aquellos patrones que se encuentren en
zonas con alta densidad.

Utilizando tcnicas de condensado, hemos considerado dos propuestas. La primera


de ellas controla los objetos del conjunto de entrenamiento, es decir, permite tener una
cantidad aproximada de objetos en el conjunto de entrenamiento. La segunda alternativa
edita y condensa simultneamente los objetos que se van clasificando y slo incorpora
al conocimiento aquellos objetos que han pasado satisfactoriamente estos dos filtros de
manera que el conocimiento va creciendo pero muy lentamente en el tiempo. Podemos
decir que el efecto de controlar la talla del conjunto de entrenamiento no produjo, en
ningn momento, una reduccin de los porcentajes de clasificacin a lo largo del
proceso de aprendizaje continuo, tambin incluimos en los experimentos algunas

171
Captulo 9

grficas donde comparamos procesos con edicin solamente y procesos donde


involucramos tanto tcnicas de edicin como de condensado.

Como conclusiones del captulo, podemos decir que se ha desarrollado un algoritmo


de Aprendizaje Continuo que utiliza un nmero reducido de objetos clasificados y va
adaptando el conocimiento con la incorporacin de objetos etiquetados por el propio
sistema.

172
Parte III

Conclusiones y

Lneas Futura
Captulo 10

Conclusiones Finales

1. Principales Aportaciones

El objetivo fundamental de esta Tesis Doctoral se ha centrado, por una parte, en el


estudio y anlisis de un conjunto de tcnicas clsicas en el campo de la clasificacin y el
aprendizaje supervisado dentro del Reconocimiento Estadstico de Formas. Por otra
parte, este trabajo se ha dirigido tambin hacia un paradigma relativamente nuevo que
se conoce como aprendizaje semi-supervisado (o parcialmente supervisado). A lo largo
de los primeros captulos de esta memoria, se ha llevado a cabo una importante
recopilacin bibliogrfica y revisin terica sobre todos los aspectos bsicos que
acabamos de mencionar.

La primera aportacin de este trabajo se centra en definir una regla de clasificacin


estocstica que, siguiendo el mismo esquema que la regla de los k vecinos ms
cercanos, tiene en cuenta, no slo la cercana de los vecinos a la muestra sino tambin la
probabilidad de pertenencia a la clase de cada uno de los vecinos que intervienen en el
proceso de clasificacin de la muestra. Adems, se ha propuesto una regla de
clasificacin con opcin de rechazo, validndose la misma con las diferentes propuestas
sealadas en el trabajo.

En segundo lugar, valindonos de la regla de clasificacin estocstica anteriormente


mencionada, se han diseado e implementado diferentes algoritmos de edicin que han
sido validados con respecto a otros algoritmos ampliamente estudiados en la literatura y
descritos en este trabajo, siendo su principal aportacin la reduccin de la talla del
conjunto de entrenamiento sin afectar a el porcentaje de clasificacin.

En tercer lugar, siguiendo esta misma estrategia estocstica, tambin se han diseado
algoritmos de condensado que se apoyan en una medida de densidad local, logrando con
los mismos buenos resultados tanto en la reduccin de la talla del conjunto de
entrenamiento como en porcentajes de clasificacin, comparndolos con otros
algoritmos que aparecen en la literatura.

La ultima aportacin de esta Tesis Doctoral, constituye una propuesta de algoritmo


para realizar Aprendizaje Continuo. En ella se integran de forma homognea todas las
tcnicas estocsticas anteriormente expuestas, es decir, se ha diseado un algoritmo de
aprendizaje semi-supervisado que, partiendo de muy pocas muestras etiquetadas, es
capaz de ir adaptando el conocimiento a medida que incorpora objetos clasificados por
el mismo algoritmo despus de pasar estos objetos por determinados filtros para
Captulo 10

descartar aquellos objetos que su probabilidad de pertenencia a la clase sea muy baja, o
no supere un umbral previamente definido. Tambin en este algoritmo, valindonos de
esquemas estocsticos de condensado, controlamos el tamao de las muestras con el
objetivo de que el costo del algoritmo se mantenga en un margen previamente
establecido.

Finalmente, cabe destacar el hecho de que todas las aproximaciones propuestas en


los diferentes captulos han sido evaluadas sobre bases de datos sintticas y reales,
comparando sus resultados con los obtenidos a partir de los principales procedimientos
clsicos. Por medio de este anlisis experimental, hemos tenido la posibilidad de
comprobar que, en la mayora de los casos, los esquemas introducidos en este trabajo
presentan un mejor comportamiento que aquellos algoritmos de clasificacin y
aprendizaje que aqu hemos denominado como tradicionales.

A continuacin, haremos un rpido recorrido por los captulos que han significado
algn tipo de aportacin en los campos previamente mencionados, comentando en cada
caso los principales resultados obtenidos a partir del correspondiente anlisis emprico.

Aportaciones a los Mtodos de Clasificacin no Paramtricos

En el Captulo 6, se estudiaron diferentes clasificadores no paramtricos, teniendo en


cuenta algunas de sus caractersticas ms significativas. Se define una nueva regla de
clasificacin que emplea un enfoque difuso y estocstico, mezclado con la regla de
clasificacin de los k vecinos ms cercanos. La idea de este enfoque es usar las etiquetas
de los vecinos ms cercanos de la muestra a clasificar, pero unas etiquetas difusas, es
decir, de acuerdo a un grado de pertenencia a dicha clase, cada vecino aportar al
proceso de etiquetar el nuevo objeto, por lo que podemos considerar una suma o
superposicin de las probabilidadades de pertenencia de los vecinos a la clase en
cuestin.

El objetivo de esta regla de clasificacin es obtener la probabilidad de pertenencia a


la clase i (i = 1, , M) del objeto a clasificar x, como la suma de las probabilidades de
pertenencia a la clase i de cada uno de los vecinos, ponderada por el inverso de la
distancia, donde cada una de las pi ( x j ) podemos considerarlas como las probabilidades a
posteriori p( wi / x j ) . Es decir, si tenemos las probabilidades a posteriori de los vecinos,
podemos intentar calcular o estimar las probabilidades a posteriori del objeto x. La
estrategia que nosotros proponemos tambin evita el paso de determinar las funciones
de densidad de las clases, ya que se obtienen funciones que se pueden considerar como
las probabilidades a posteriori directamente.

Tambin se ha considerado una opcin de rechazo estocstica, la cual consiste en


introducir un umbral 0<<1 en la regla de clasificacin, con el objetivo de eliminar
aquellas muestras cuya probabilidad de pertenecer a la clase asignada no es
significativa. Con este mtodo, estamos descartando la clasificacin de muestras del
conjunto de entrenamiento que estn en la frontera de decisin, donde las
probabilidades condicionales de clase se solapan y se confunden.

176
Conclusiones Finales

Aportaciones a los Algoritmos de Seleccin de Prototipos

Respecto a las diferentes aproximaciones propuestas a lo largo de los Captulos 7 y


8, cabe destacar los algoritmos de edicin estocsticos presentados, los cuales suponen
una importante alternativa a los mtodos clsicos de Seleccin de Prototipos para la
regla NN. A partir de la regla de clasificacin estocstica propuesta en el Captulo 6, se
han presentado diversos esquemas de edicin cuyo objetivo se centra en reducir la talla
del conjunto de entrenamiento y obtener porcentajes de clasificacin superiores o
similares a las tcnicas de edicin clsicas.

En lo referente a los algoritmos de condensado presentados en este trabajo, hemos


seguido la idea propuesta por Hart. Nuestra principal aportacin ha sido emplear un
criterio de densidad de modo tal que los objetos seleccionados pertenezcan a zonas de
alta densidad y, por tanto, deben ser buenos representantes de las clases a las cuales
ellos pertenecen. La idea principal de estos algoritmos es definir una funcin de
densidad local para determinar los objetos pertenecientes a la zona de mayor densidad y,
despus de etiquetar todos los objetos, seleccionar de cada grupo obtenido los puntos de
mayor densidad.

Aportaciones a los Algoritmos Semi-Supervisados

En el Captulo 9 de esta Tesis, se ha introducido una propuesta de algoritmo de


aprendizaje continuo. En ella, presentamos la implementacin de un sistema de
aprendizaje semi-supervisado o parcialmente supervisado, que trata de aprender no
nicamente a partir de los objetos etiquetados en el conjunto de entrenamiento, sino
tambin beneficindose de la experiencia obtenida cuando clasifica nuevos objetos no
etiquetados. Una meta bsica de nuestro sistema se ha centrado en hacer el
procedimiento de aprendizaje semi-supervisado tan automtico como sea posible,
incorporando nuevos ejemplos en el conjunto de entrenamiento despus de haber sido
etiquetados por el propio sistema. Sin embargo, este procedimiento pudiera deteriorar la
calidad del sistema por la inclusin de objetos potencialmente mal clasificados en el
conjunto de entrenamiento. Por ello, con el objetivo de minimizar estos errores, hemos
empleado diferentes tcnicas de seleccin de prototipos que tienen en cuenta la
distribucin de probabilidades de los vecinos en un entorno de la muestra a clasificar.

De los diferentes resultados obtenidos a partir del trabajo de Tesis Doctoral, han
podido surgir varias publicaciones, tanto en forma de artculos en revistas nacionales e
internacionales como comunicaciones en congresos. A continuacin, enumeramos las
que se han originado hasta este momento.

Fernando D. Vzquez Mesa, F.Pla, J.S.Snchez Una propuesta basada en la


estimacin de las probabilidades para la edicin utilizando el clasificador k-NN
Mtodos Informticos Avanzados Publicacions dela Univertat Jaume I, ISBN:
978-8021-610-4, Deposito legal: V-3091, 2007
Fernando D. Vzquez Mesa, J. Salvador Snchez Garreta, Filiberto Pla Ban.
On the use of labelled and unlabelled data to improve nearest neighbor

177
Captulo 10

classification. Revista Iberoamericana de Inteligencia Artificial, Vol 10, No 31,


pp 53 62, 2006.
Fernando D. Vzquez Mesa, J. Salvador Snchez Garreta, Filiberto Pla Ban.
Nearest neighbour learning by means of labelled and unlabelled data. Pattern
Recognition: Progress, Directions and Applications. Edited by Filiberto Pla,
Petia Radeva and Jordi Vitri. Computer Vision Center Universidad Autnoma
de Barcelona, pp 362 - 373. ISBN: I84-933652-6-2, 2006.
Fernando D. Vzquez Mesa, J. Salvador Snchez Garreta, Filiberto Pla Ban.
A stochastic approach to Wilson's editing algorithm. Pattern Recognition and
Image Analysis. Lecture Notes on Computer Sciences. Marques, N. Prez de la
Blanca and P. Pina (Eds.). Vol 3523, pp 35 42. ISSN: 0302-9743. ISBN: 3-
540-26154-0, 2005.
Fernando D. Vzquez Mesa, J. Salvador Snchez Garreta, Filiberto Pla Ban.
A Learning System to Increase the Knowledge in Partially Supervised
Environments. XI Conferencia de la Asociacin Espaola para la Inteligencia
Artificial. CAEPIA 2005. Vol I, pp 69 - 77. ISBN: 84-96474-13-5, 2005.
Fernando D. Vzquez Mesa, Salvador Snchez Garreta, Filiberto Pla Ban.
Algoritmos de Edicin y Condensado como Herramienta en los Algoritmos de
Aprendizaje Continuo. Memorias del Primer Taller Cientfico de Computacin.
Departamento de Computacin. Universidad de Oriente. Seccin: Procesamiento
de Imgenes y Reconocimiento de Patrones. Trabajo # 2, ISBN: 959-207-097-0.
Editorial: Publicaciones de la Universidad de Oriente. Santiago de Cuba, 2004.

2. Posibles Extensiones

Fundamentalmente, el trabajo desarrollado en esta Tesis Doctoral permite establecer


nuevas perspectivas en cuanto a los mtodos de clasificacin, seleccin de prototipos y
aprendizaje parcialmente supervisado desde el punto de vista estocstico.

Una posible extensin de este trabajo es considerar datos mezclados, es decir, que los
rasgos mediante los cuales son descritos los objetos sean tanto cuantitativos como
cualitativos. En otras palabras, que el espacio de representacin de los objetos no tenga
estructura mtrica y donde pueda haber ausencia de informacin en algunas de las
caractersticas a considerar en los objetos. En este tipo de espacio, tendra mucho inters
desarrollar reglas de clasificacin y esquemas de seleccin de prototipos estocsticos.

En cuanto a trabajos futuros dedicados a los esquemas de aprendizaje semi-


supervisado, en particular, algoritmos de aprendizaje continuo, podemos sugerir varias
lneas de investigacin futuras.

Desarrollar esquemas similares a los propuestos en esta tesis, considerando datos


mezclados como los mencionados anteriormente.
En la metodologa que proponemos, una fase de gran importancia la tiene el
algoritmo de clasificacin que se emplee. Esto nos hace pensar que la utilizacin
de tcnicas que involucren la utilizacin de mltiples clasificadores sera un
aspecto que pudiera mejorar considerablemente la fase de clasificacin.

178
Conclusiones Finales

La presencia del desbalance entre clases es tambin un aspecto de inters


importante a tener en cuenta, por lo que sugerimos incluir tambin este aspecto
en esta metodologa, de manera que no se pierda la informacin que pudieran
aportar algunas clases minoritarias dentro del esquema.
Introducir en el esquema propuesto algoritmos no supervisados y tcnicas de
seleccin de prototipos no supervisadas que permitan, en algn momento del
proceso, la posibilidad de definir nuevas clases en el conjunto de entrenamiento,
as como eliminar clases que ya no aporten informacin.

En general, consideramos que existen muchas lneas de investigacin que pudieran


incluirse en el esquema de aprendizaje continuo, que an no estan desarrolladas en el
actual estado del arte, de forma que el proceso se acerque lo ms posible al aprendizaje
humano y a la capacidad de adaptarse a entornos cambiantes en el tiempo.

179
Anexo A

Descripcin de las Bases de Datos


En esta seccin, describiremos las bases de datos sobre las que se llevar a cabo la
totalidad de los experimentos presentados en los captulos del 6 al 9, y que nos
permitirn evaluar el comportamiento asociados a los distintos mtodos de clasificacin,
seleccin de prototipo y clasificacin semisupervisada.

La eleccin de estas bases de datos se ha realizado en funcin de parmetros muy


variados, tales como las diferentes tallas de los conjuntos, la dimensin del vector de
caractersticas, el nmero de posibles clases y el grado de solapamiento entre las
regiones de clases distintas. Se han escogidos varias bases de datos pertenecientes al
repositorio de UCI, UCI Repository of Machine Learning Database and Domain
Theories [Merz, 1996]. A continuacin se pasa a describir brevemente cada uno de los
corpus utilizados.

A.1. Australian

Australian Credit Approval perteneciente al Statlong Project. Es una base de datos de


clientes de un banco. El objetivo de esta base de datos es conocidos unos datos del
cliente es inferir si se le debe condecer o no un crdito. Para ello se conocen datos del
cliente de todo tipo como pueden ser: nmero de hijos, coste de la vivienda actual,
salario anual etc. Es importante destacar que en la misma aparecen tantas caractersticas
continuas como discretas. Esta base de datos posee 690 prototipos, 14 caractersticas
por prototipos y dos clases.

A.2. Balance

Esta base de datos esta compuesta por 625 prototipos, cada uno de los cuales esta
descrito mediante 4 caractersticas y divididos en 3 clases. Esta base de datos simula
una balanza en la cual adems de poder variar los pesos de izquierda a derecha tambin
puede variar la distancia de cada uno de los brazos de la balanza al centro de la misma.
Debido a esto es que tiene 4 caractersticas. Cada clase viene definida por la posibilidad
de que la balanza este equilibrada, hacia la derecha o hacia la izquierda.
Anexo A

A.3. Cancer

Esta base de datos como su nombre lo indica ha sido obtenida de pacientes que
presentan tumoraciones en el Hospital Universitario de Wisconsin. Se compone de un
total de 683 pacientes (prototipos) con diversas tumoraciones, clasificando los mismos
en dos clases, pacientes con tumores benignos o pacientes con tumores malignos. Para
representar cada paciente se utilizaron se utilizaron 9 caractersticas, las cuales son las
siguientes: Clump Thickness, Uniformity of Cell Size, Uniformity of Cell Shape,
Marginal Adhesion, Single Epithelial Cell Size, Bare Nuclei, Bland Chromatin, Normal
Nucleoli y Mitoses.

A.4. Diabetes

Esta base de datos pretende predecir la diabetes. Para ello de cada individuo se
conocen 8 caractersticas, entre las que podemos mencionar: edad, presin arterial,
ndice de masa corporal, etc. La misma posee 768 individuos descritos mediante los 8
rasgos antes mencionados, agrupados los mismos en dos clases.

A.5. German

De forma similar a la base de datos Australia los prototipos de esta base son datos de
todo tipo de cliente de un banco. La tarea consiste en inferir si se les ha de conceder un
crdito o no. Se compone la misma de 1000 prototipos con 20 caractersticas (7
numricas, 13 categricas) aunque los autores tambin disponen de una versin
totalmente numrica (variables continuas) de 24 caractersticas, esta ltima es la que ha
sido utilizada en los experimentos. Los prototipos se distribuyen en dos clases.

A.6. Glass

Esta base de datos simula un problema de clasificacin de 2 clases para diferenciar


entre cristales de ventanas y cristales que no se utilizan en la confeccin de ventanas.
Para confeccionar la misma se obtuvieron muestras de 214 cristales de los cuales 163
son utilizados para la confeccin de ventanas (edificios y autos) y 51 de las muestras
corresponden a cristales con otros fines, entre los que podemos mencionar (mesas,
lmparas, bisutera etc). Se utilizaron 10 caractersticas para representar las muestras,
estas caractersticas van desde el ndice de refraccin hasta la composicin qumica de
cada cristal seleccionado para la confeccin de esta base.

182
Anexo A

A.7. Heart

Similar a la base Cancer aqu se muestran 270 pacientes (prototipos) que padecen o
no una determinada cardiopata. Cada prototipo es representado mediante 13
caractersticas tanto continuas como discretas. Las muestras se distribuyen en dos clases
dependiendo o no si padecen una enfermedad del corazn.

A.8. Ionosphere

Estos datos corresponden a los resultados de radar recopilados por antenas de alta
frecuencia que apuntan a la ionosfera. La tarea consiste en clasificar las seales de
retorno en dos clases: optima si la seal muestra evidencia de algn tipo de estructura
en la ionosfera y mala si no lo hace. Para eso, se disponen de 34 caractersticas que
representan el tiempo y nmero de 17 pulsos.

A.9. Liver

Estos datos corresponden a un problema de clasificacin de desordenes en el hgado


en 2 clases. Las muestras se representan mediante 6 caractersticas, las 5 primeras
provenientes de un anlisis de sangre, mientras que la ltima representa la cantidad de
alcohol que consume en promedio el paciente en un da. Para la confeccin de esta base
fueron tomadas muestras de 345 pacientes.

A.10. Phoneme

La presente base de datos est formada por vocales tomadas a partir de 1.809 slabas
aisladas (por ejemplo, /ar/,/gen/, /list/,/bult/, ), de manera que el objetivo central de
este problema ser distinguir entre las vocales nasales y las vocales orales, por lo cual la
base de datos constar de dos clase. Cada vocal se encuentra caracterizada por cinco
atributos correspondiente a la amplitud de los cinco primeros armnicos normalizada
por la energa total. Se tomaron observaciones para cada slaba en tres instantes
distintos, correspondiente el momento de mxima energa total y, a 8 mseg antes y
despus de alcanzar dicho valor mximo. A partir de las 5.427 representaciones
obtenidas mediante este procedimiento, se eliminaron las 23 muestras para las que las
amplitudes de los cincos primeros armnicos eran nula, resultando un conjunto final con
5.404 muestras disponibles.

183
Anexo A

A.11. Satimage

Esta base de datos fue generada a partir de las imgenes captadas mediante el
scanner multi-espectral de un satlite Landsat, con el objetivo de analizar el
comportamiento de diferentes mtodos de clasificacin basados en redes neuronales y
clasificadores estadsticos sobre datos procedentes de diversas reas industriales.

Una imagen de dicho scanner consta consta de cuatro imgenes digitales


pertenecientes a una misma escena, pero en distintas bandas espectrales (dos
correspondientes a la regin visible y, las otras dos prximas a la regin de infrarrojos).
Por otra parte, cabe indicar que cada una de estas imgenes tiene una resolucin de
2.340x3.380 pixeles. El vector de caractersticas corresponde a una regin cuadrada de
3x3 pixeles. El conjunto contiene un total de 6.435 muestras con 36 atributos cada una
(4 bandas espectrales por cada uno de los 9 pixeles en aquella regin cuadrada),
pertenecientes a seis posibles clases.

A.11. Texture

La base de datos texture contiene un total de 5.500 muestras, pertenecientes a las


once texturas seleccionadas del lbum fotogrfico de [Brodatz, 1996]. El vector de
caractersticas asociado a cada una de las muestras est formado por 40 caractersticas
obtenidas a partir de la estimacin de los momentos de cuatro rdenes en cuatro
orientaciones diferentes, 0, 45, 90 y 135 grados. Es una base de datos equilibrada, es
decir, todas las clases tienen la misma probabilidad a priori.

A.12. Vehicle

Esta base de datos trata sobre un problema de clasificacin de coches a partir de 18


caractersticas continuas que definen la silueta de los mismos. En total esta base consta
de 846 prototipos. Los mismos se distribuyen en 4 clases diferentes.

A.13. Vowel

Esta base esta formada por 528 datos. Los datos constan de 10 caractersticas
continuas y se dividen en 11 clases y se divide en 11 clases. El problema est
equilibrado siendo la probabilidad a priori de cada clase la misma.

184
Anexo A

A.14. Wine

Esta base es un problema de clasificacin de vinos con un total de 178 prototipos


representados mediante 13 caractersticas continuas y clasificados en 3 clases. Los vinos
provienen de la misma regin de Italia pero de tres cultivos diferentes, los mismos
fueron analizados qumicamente para extraer las 13 caractersticas ya comentadas.

185
Referencias Bibliogrficas

[Aha, 1991] Aha, D.W., Kibler, D. and Albert, M.K., Instated-Based


Learning Algorithms. Machine Learning, 6, pp 37 - 66 (1991).

[Aha, 1992] Aha, D.W., Tolerating noisy irrelevant and novel attributes in
instance-based learning algorithms, International Journal of
Man-Machine Studies, 36, pp 267 - 287 (1992).

[Balcan, 2005] Balcan, M., Blum, A. and Yang, K., Co-training and
expansion: Towards bridging theory and practice. In L.K.
Saul, Y. Weiss and L. Bottou (Eds), Advances in neural
information processing systems 17. Cambridge, MA: MIT
Press.

[Baluja, 1998] Baluja, S., Probabilistic modelling for face orientation


discrimination: Learning from labeled and unlabeled data.
Neural Information Processing Systems, (1998).

[Barandela, 2000] Barandela, R. and Gasca, E., Decontamination of training


samples for supervised pattern recognition methods,
Advances in Pattern Recognition, Lecture Notes in Computer
Science, vol 1876, F. Ferri et al. (eds.) Springer, Berlin, pp
621 - 630, (2000).

[Barandela, 2001] Barandela, R. and Jurez, M., Ongoing Learning for


Supervised Pattern Recognition. 14th Brazilian Symposium
Computer Graphics and Image Processing, pp 51 - 58,
Fronianpolis Brazil (2001).

[Barandela, 2001] Barandela, R., Cortes, N. and Palacios, A., The nearest
neighbor rule and the reduction of the training simples size,
Proceeding of the 9th Spanish Symposium on Pattern
Recognition and Image Analysis, vol I, pp 103 - 108, (2001).

[Barandela, 2005] Barandela, R., Ferri, F.J. and Sanchez, J.S., Decision
boundary preserving prototype selection for nearest neighbour
classification, International Jornal of Pattern Recognition and
Artificial Intelligence, vol 19, Nmero 6, pp 787 - 806,
(2005).

[Belkin, 2004] Belkin, M. and Niyogi, P., Semi-supervised learning on


Riemannian manifolds. Machine Learning 56, pp 209 - 239,
(2004).
Referencias Bibliogrficas

[Bennett, 1999] Bennett, K. and Demiriz, A., Semi-supervised support vector


machines Advances in Neural Information Processing, II, pp
368 - 374, (1999).

[Bensaid, 1996] Bensaid, A.M., Hall, L.O., Bezdek, J.C. and Clarke, L.P.,
Partially supervised clustering for image segmentation, Patter
Recognition 29, pp 859 - 871, (1996).

[Blum, 1998] Blum, A. and Mitchell, T., Combining labeled and unlabeled
data with co-training. COLT: Proceeding of the Workshop on
Computational Learning Theory.

[Blum, 2001] Blum, A. and Chawla, S., Learning from labelled and
unlabeled data using graph mincuts, In Proc. 18th. Int. Conf on
Machine Learning, pp 19 - 26, (2001).

[Breukelen, 1997] Breukelen, Van M., Duin, R.P.W. and D.M.J., Tax,
Combining classifier for the recognition of handwritten digits,
In Proc. Of the 1st International Workshop on Statistical
Techniques in Pattern Recognition, pp 13 - 18, (1997).

[Brighton, 2002] Bri ghton, H. and Mellish, C., Advances in Instance-


Based Learning Algorithms. Data Mining and Knowledge
Discovery 6, pp 153 - 172, (2002).

[Castelli, 1995] Castelli, V. and Cover, T.M., On the exponential value of


labelled samples. Pattern Recognition Letters 16, pp 105 -
111, (1995).

[Cervern, 2001] Cervern, V. and Ferri, F.J., Another move toward the
minimum consistent subset: A tabu search approach to the
condensed nearest neighbour rule, IEEE Trans. Syst. Man
Cybern. Part B 31(3), pp 408 - 413, (2201).

[Chapelle, 2005] Chapelle, O. and Zien, A., Semi-supervised classification by


low density separation. Proceeding of the Tenth International
Workshop on Artificial Intelligence and Statistics (AISTAT)
(2005).

[Chapelle, 2006] Chapelle, O., Chi, M. and Zien, A., A continuation method for
semi-supervised SVMs. ICML.06, 23rd International
Conference on Machine Learning. Pittsburgh, USA.

[Chaudhuri, 1996] Chaudhuri, B.B., A new definition of neighbourhood of a


point in multidimensional space, Pattern Recognition Letters
17, pp 11 - 17, (1996).

188
Referencias Bibliogrficas

[Chen, 1996] Chen, C.H and Jzwik, A., A sample set condensation
algorithm for the class sensitive artificial neural network,
Pattern Recognition Letters, N17, pp 819 - 823, (1996).

[Collobert, 2006] Collobert, R., Weston, J. and Bottou, L., Trading convexity
for scalability. ICML06, 23rd International Conference on
Machine Learning. Pittsburgh, USA.

[Corduneanu, 2003] Corduneanu, A. and Jaakkola, T., On information


regularization. Nineteenth Conference on Uncertainty in
Artificial Intelligence (UA103), (2003).

[Corduneanu, 2005] Corduneanu, A. and Jaakkola, T., Distributed information


regularization on grapas. In Advances in neural information
processing systems 17, Cambridge, MA: MIT Press (2005).

[Cover, 1997] Cover, T.M and Hart, P.E., Nearest neighbour pattern
classification, IEEE Trans. On Information Theory IT - 13,
pp 21 - 27, (1967).

[Cozman, 2003] Cozman, F., Cohen, I. and Cirelo, M., Semi-supervised


learning of mixture models. ICML-03, 20th International
Conference on Machine Learning.

[Dasarathy, 1991] Dasarathy, B.V., Nearest Neighbour (NN) Norms: NN


Pattern Classification Techniques, Los Alamos, CA: IEEE,
Computer Society Press (1991).

[Dasarathy, 1994] Dasarathy, B.V., Minimal consistent set (MCS)


identification for optimal nearest neighbour decision
systems design, IEEE Trans. Syst. Man Cybern, 24 (3)
(1994).

[Dasarathy, 1995] Dasarathy, B.V., Adaptive decision systems with extended


learning for deployment in partially exposed environments.
Optical Engineering 34, pp 1269 - 1280, (1995).

[Demirez, 2000] Demirez, A. and Bennett, K., Optimization approaches to


semisupervised learning. In M. Ferris, O. Mangasarian and
J.Pang (Eds.), Applications abd algorithms of
complementarity. Boston: Kluwer Academic Publishers.

[Demsar, 2006] Demsar, J., Statistical coparisons of Classifiers over


Multiple Data Set. Journal of Machine Learning Research
7.pp 1 - 30, (2006).

189
Referencias Bibliogrficas

[Dempster, 1977] Dempster, A., Laird, N. and Rubin, D., Maximum likelihood
from incomplete data via the EM algorithm. Journal of the
Royal Statistical Society, Series B, (1997).

[Devijver, 1980] Devijver, P.A. and Kittler, J., On the edited nearest
neighbour rule, In Proc. Of the 5th International Conference
on Pattern Recognition pp 72 - 80, (1980).

[Devijver, 1982] Devijver, P.A and Kittler, J., Pattern Recognition, A


Statistical Approach. Prentice-Hall, Englewood Cliffs,
(1982).

[Duda, 1973] Duda, R.O. and Hart, P.E., Pattern Classification, and Scene
Analysis. John Wiley & Sons, New York, (1973).

[Ferri, 1992a] Ferri, F.J. and Vidal, E., Small sample size effects in the use
of editing techniques, In Proc. Of the 11th. International
Conference on Pattern Recognition, pp 607 - 610, (1992).

[Ferri, 1992b] Ferri, F.J. and Vidal, E., Comparison of several editing and
condensing techniques for colour image segmentation and
object location, In Pattern Recognition and Image Analysis,
Series in Machine Perception and Artificial Intelligence,
World Scientific (1992).

[Ferri, 1999] Ferri, F.J., Albert, J.V.and Vidal, E., Considerations about
sample size sensitive of a family of edited nearest-
neighbour rules, IEEE Trans. on Sytems. Man, and
Cybernetics Part B. Cybernetics 29, pp 667 - 672, (1999).

[Fonseca, 2006] Fonseca, A. y Vzquez, F., Algoritmos de Aprendizaje


Continuo. Trabajo de Diploma en opcin al grado de
Licenciado en Ciencia de la Computacin. Universidad de
Oriente, (2006).

[Franke, 1992] Franke, J. and Mandler E., A comparison of two approaches


for combining the votes of cooperating classifiers, In Proc.
Of the 11th. International Conference on Pattern
Recognition, pp 611 - 614, (1992).

[Fukunaga, 1984] Fukunaga, K. and Flick, T.E., An optimal global nearest


neighbour metric, IEEE Trans. on Pattern Analysis and
Machine Intelligence PAMI - 6 pp 314 - 318, (1984).

[Fukunaga, 1990] Fukunaga, K., Introduction to Statistical Pattern


Recognition. Academic Press, San Diego, CA (1990).

190
Referencias Bibliogrficas

[Fuyama, 1982] Fuyama, S., Syntactic Pattern Recognition and Application,


New Jersey Prentice-Hall, Inc (1982).

[Fujino, 2005] Fujino, A., Ueda, N. and Saito, K., A hybrid


generative/discriminative approach to semi-supervised
classifier design. AAAI-05. The Twentieth National
Conference on Artificial Intelligence.

[Fung, 1999] Fung, G. and Mangasarian, O., Semi-supervised support


vector machine for unlabeled data classification (Technical
Report 99-05). Data Mining Institute, University of
Wisconsin Madison.

[Gabriel, 1969] Gabriel, K.R. and Sokal, R.R., A new statistical approach to
geographic variation analysis, Systematic Zoology 18, pp
259 - 278, (1969).

[Gates, 1972] Gates, G.W., The reduced nearest neighbour rule, IEEE
Trans. on Information Theory IT-18, pp 431 - 433, (1972).

[Goldman, 2000] Goldman, S. and Zhou, Y., Enhancing supervised learning


with unlabeled data. Proc. 17th International Conf. on
Machine Learning, pp 327 - 334, (2000).

[Hart, 1968] Hart, P.E., The condensed nearest neighbor rule, IEEE Trans.
on Information Theory IT-14, pp 515 - 516, (1968).

[Hellman, 1970] Hellman, M., The nearest neighbour classification rules with
a reject option, IEEE Trans. on Systems, Man and
Cybernetics SMC-6, pp 179 - 185, (1970).

[Ho, 1994] Ho, T.K., Hull J.J. and Srihari., Decision combination in
multiple classifier system, IEEE Trans. on Pattern Analysis
and Machine Intelligence PAMI-16, pp 66 - 75, (1994).

[Holub, 2005] Holub, A., Welling, M. and Perona, P., Exploting unlabelled
data for hybrid object classification. Workshop in Inter
Class Transfer. NIPS 2005.

[Jones, 2005] Jones, R., Learning to extract entities from labelled and
unlabeled text. (Technical Report CMU-LTI-05-191).
Carnegic Mellon University. Doctoral Dissertation.

[Kaariainen, 2005] Kaariainen, M., Generalization error bounds using unlabeled


data COLT (2005).

[Leskes, 2005] Leskes, B., The value of agreement, a new boosting


algorithm. COLT (2005).

191
Referencias Bibliogrficas

[Kittler, 1986] Kittler, J., Feature selection and extraction, In Handbook of


Pattern Recognition and Image Processing. T.Y.Young and
K.S. Fu (ed.), Academic Press, San Diego, CA pp 59 - 83,
(1986).

[Kittler, 1996] Kittler, J., Hatef, M. and Duin, R.P.W., Combining


classifiers, In Proc. of the 13th. International Conference on
Pattern Recognition, pp 897 - 901, (1996).

[Kohonen, 1990a] Kohonen, T., The self-organizing map, Proc. Of the IEEE
78, pg 1464 - 1480, (1990).

[Kohonen, 1990b] Kohonen, T., Improved version of learning vector


quantization, In Proc. of the International Joint Conference
on Neural Networks 1, pp 545 - 550, (1990).

[Koplowitz, 1981] Koplowitz, J. and Brown, T.A., On the Relation of


Performance to Editing in Nearest Neighbour Rules. Pattern
Recognition, 13, pp 251 - 255, (1981).

[Kuncheva, 1995] Kuncheva, L.I., Editing for the k-nearest neighbors rule by a
genetic algorithm, Pattern Recognition Letters 16, pp 809 -
814 (1995).

[Kuncheva, 1997] Kuncheva, L.I., Fitness functions in editing k-NN reference


sets by genetic algorithms, Pattern Recognition 30,
pp 1041 - 1049, (1997).

[Kuncheva, 1999] Kuncheva, L.I. and Jain L.C., Nearest neighbour classifier:
simultaneous editing and feature selection, Patt.
Recognition. Letter 20, pp 1149 - 1156, (1999).

[Laaksonen, 1996] Laaksonen, J. and Oja, E., Classification with learning k-


nearest neighbors, In Proc. of the International Conference
on Neural Networks 2, pp 1480 - 1483, (1996).

[Luk, 1986] Luk, A. and MacLeod, E.S., An alternative nearest


neighbour classification scheme, Pattern Recognitions
Letters 4, pp 375 - 381, (1986).

[Maeireizo, 2004] Maeireizo, B., Litman, D. and Hwa, R., O-training for
predicting emotions with spoken dialogue data. The
Companion Proceeding of the 42nd Annual Meeting of the
Association for Computational Linguistics (ACL) (2004).

[Marn, 1991] Marn, R. and Mira, J., On knowledge-based fuzzy


classifier: A medical case study, Fuzzy Sets and Systems 44,
pp 421 - 430, (1991).

192
Referencias Bibliogrficas

[Merz, 1996] Merz. C.J. and Murphy, P.M., UCI Repository of Machine
Learning Databases, University of California Irvine, (1996).

[Mitchell, 1999] Mitchell, T., The role of unlabeled data in supervised


learning. Proceeding of the Sixth International Colloquium
on Cognitive Science. San Sebastian. Spain.

[Mollineda, 2002] Mollineda. R.A., Ferri, F.J. and Vidal, E., An efficient
prototype merging strategy for the condensed 1-NN rule
through class-conditional hierarchical clustering, Pattern
Recognition 35, pp 2771 - 2782, (2002).

[Nigam, 2000] Nigam, K. and Ghani, R., Analyzing the effective and
applicability of co-training. Ninth International Conference
on Information and knowledge management, pp 86 - 93,
(2000).

[OCallaghan, 1975] OCallaghan, J.F., An alternative definition for


neighbourhood of a point, IEEE Trans. on Computers C-24,
pp 1121 - 1125, (1975).

[Olvera, 2005] Olvera, J.A. and Martinez, F.T., Edition schemes based on
BSE, Lectura Note in Computer Science, Progress in Pattern
Recognition Image Analysis and Applications, 10th
Iberoamerican Congress on Pattern Recognition, CIARP, pp
360 - 368, (2005).

[Penrod, 1977] Penrod, C.S. and Wagner, T.J., Another look at the edited
nearest neighbour rule, IEEE Trans. on Systems, Man and
Cybernetics SMC-7, pp 92 - 94, (1997).

[Ratsaby, 1995] Ratsaby, J. and Venkatesh, S., Learning from a mixture of


labeled and unlabeled examples with parametric side
information. Proceedings of the Eighth Annual Conference
on Computational Learning Theory, pp 412 - 417, (1995).

[Riloff, 2003] Riloff, E., Wiebe, J. and Wilson, T., Learning subjective
nouns using extraction pattern bootstrapping. Proceeding of
the Seventh Conference on Natural Language Learning
(CONLL) (2003).

[Ritter, 1975] Ritter, G.L., Woodruff, H.B., Lowry, S.R. and Isenhur, T.L.,
An algorithm for selective nearest neighbour decision rule,
IEEE Trans. Inform. Th. 21(6), pp 665 - 669, (1975).

[Rosenberg, 2005] Rosenberg, C., Hebert, M. and Schneiderman, H., Semi-


supervised self-training of object detection models. Seventh

193
Referencias Bibliogrficas

IEEE Workshop on Applications of Computer Vision,


(2005).

[Snchez, 1997a] Snchez, J.S., Pla, F. and Ferri, F.J., On the use of
neighbourhood-based non-parametric classifier, Pattern
Recognition Letters, (1997).

[Snchez, 1997b] Snchez, J.S., Pla, F. and Ferri, F. J., Using the nearest
centroid neighbourhood concept for editing purposes, In
Proc.VII Symposium National de Reconocimiento de
Formas y Anlisis de Imgen 1, pp 175 - 180, (1997).

[Snchez, 1997c] Snchez, J. S., Pla, F. and Ferri, F. J., Prototype selection for
the nearest neighbour rule through proximity graphs, Pattern
Recognition Letters 18, pp 507 - 513, (1997).

[Snchez, 1997d] Snchez, J.S., Pla, F. and Ferri, F. J., On the equivalency
between decisiontree classifiers and the nearest neighbour
rule, In Proc.7a. Conferencia de la Asociacin Espaola para
la Inteligencia Artificial, pp197 - 206, (1997).

[Snchez, 2002] Snchez, J.S., Barandela, R. and Ferri, F .J., Experiments


with a new family of edited nearest neighbour rules.
Revista, Butylleti de la Associacin Catalana d' Inteligencia
Artificial Nmero 48, pp 267 - 274, (2002).

[Snchez, 2003] Snchez, J. S., Barandela, R., Marqus, A. I., Alejo, R. and
Badenas, J., Analysis of new techniques to obtain quality
training sets, Pattern Recognition Letters, Vol. 24, Nmero
7, pp 1015 - 1022, (2003).

[Short, 1981] Short, R.D. and Fukunaga, K., The optimal distance
measure for nearest neighbour classification, IEEE Trans.
on Information Theory IT-27, pp 622 - 627, (1981).

[Shulcloper, 2002] Shulcloper, J.R., Formacin Integral de Especialistas en


Reconocimiento de Patrones, Research on Computing
Science, Reconocimiento de Patrones Avances y
Perspectivas, VII Congreso Iberoamericano de
Reconocimiento de Patrones, CIARP, pp 245 - 256, (2002).

[Sindhwani, 2006] Sindhwani, V. and Niyogi, P., Large scale semi supervised
linear SVMs, SIGIR (2006).

[Stanfill, 1986] Stanfill, C. and Waltz, D., Toward memory-based


reasoning. Communications of the ACM, 29, pp 1213 -
1228, (1986).

194
Referencias Bibliogrficas

[Szummer, 2002] Szummer, M. and Jaakkola, T., Information regularization


with partially labelled data. Advance in Neural Information
Processing Systems, 15 (2002).

[Tomek, 1976] Tomek, I., Two modification of CNN, IEEE Trans. Syst.
Man Cybern. 7(2), pg 769 - 772, (1976).

[Tomek, 1976a] Tomek, I., An experiment with the edit nearest neighbour
rule, IEEE Tans. on Systems, Man and Cybernetics SMC-6,
pp 448 - 452, (1976).

[Tomek, 1976b] Tomek, I., A generalization of the k-NN rule, IEEE Tans.
On Systems Man and Cybernetics SMC-6, pp 121 - 126,
(1976).

[Tomek, 1976c] Tomek, I., Two modifications of CNN, IEEE Tans. On


Systems, Man and Cybernetics SMC-6, pp 769 - 772,
(1976).

[Toriwaki, 1988] Toriwaki, J.I and Yokoi, S., Voronoi and related neighbors
on digitized two dimensional spaces with application to
texture analysis, In Computational Morphology. G.T.
Toussaint (ed), Elsevier Science, North-Holland,
Amsterdam, pp 207 - 228, (1988).

[Tou, 1974] Tou, J.T. and Gnzlez, R.C., Patter Recognition Principles.
Addinson Wesley, Reading, Massachusetts (1974).

[Toussanit, 1994] Toussaint, G.T., A counterexample to Tomek's consistency


theorem for a condensed nearest neighbour decision rule,
Pattern Recognition Letterns 15, pp 797 - 801, (1994).

[Vapnik, 1998] Vapnik, V., Statistical learning theory. Springer.

[Watanabe, 1985] Watanabe, S., Pattern Recognition: Human and Mechanical-


Wiley. New York (1985).

[Wilfong, 1992] Wilfong, G., Nearest neighbour problems, Int. J. Comput.


Geom. Appl. 2(4), pp 383 - 416, (1992).

[Wilson, 1972] Wilson, D. L., Asymptotic properties of nearest neighbour


rules using edited data, IEEE Trans. on Systems, Man and
Cybernetics SMC-2, pp 408 - 421, (1972).

[Wilson, 1997a] Wilson, D.R. and T.R. Martinez, Improved Heterogeneous


Distance Function. Journal of Artificial Inteligence
Research (JAIR), 6 - 1, pp 1 - 34, (1997).

195
Referencias Bibliogrficas

[Wilson, 2000] Wilson, D.R. and T.R. Martinez, Reduction techniques for
instance based learning algorithms, Mach Learn 38, pp 257 -
286, (2000).

[Xiaojin, 2006] Xiaojin, Zhu., Semi-Supervised Learning Literature Survey,


Computer Science TR 1530, University of Wisconsin-
Madison, Last modified on December 9, (2006).

[Xu, 2005] Xu, L. and Schurmans, D., Unsupervised and semi-


supervised multi-class support vector machines. AAAI-05,
The Twentieth National Conference on Artificial
Intelligence.

[Yau, 1991] Yau, H.C. and Manry M.T., Iterative improvement of a


nearest neighbour classifier, Neural Networks 4, pp 517 -
524, (1991).

[Yarowsky, 1995] Yarowsky, D., Unsupervised work sense disambiguation


rivaling supervised methods. Proceeding of the 33rd Annual
Meeting of the Association for Computational Linguistics,
pp 189 - 196, (1995).

[Zhou, 2004] Zhou, Y. and Goldman, S., Democratic Co-learning.


Proceeding of the 16th IEEE International Conference on
Tools with Artificial Intelligence (ICTAI) (2004).

[Zhou, 2005b] Zhou, Z. and Li, M., Tri-training exploiting unlabeled data
using three classifiers. IEEE Transactions on Knowledge
and data Engineering, 17, pp 1529 - 1541, (2005).

196

You might also like