Professional Documents
Culture Documents
Departamento de Informática
Programa de Magíster en Tecnologías de la Información
Resumen: La presente tesina tiene por objetivo desarrollar mediante minería de datos, un
modelo predictivo que permita diagnosticar el deterioro neuropsicológico de individuos en
situación de exposición prolongada a pesticidas organofosforados en la IV Región de
Coquimbo. Para la implementación de esta tesina se utilizó la metodología CRISP-DM y las
técnicas de clasificación supervisadas de árboles de decisión, redes neuronales artificiales y
métodos bayesianos a través de la herramienta de análisis de datos WEKA. Los resultados
obtenidos muestran que el desarrollo del modelo predictivo con el algoritmo Naive Bayes
presenta una mayor precisión del diagnóstico con un 84% en contraste con los resultados de los
algoritmos C4.5 y Perceptrón Multicapa.
Palabras Clave: Minería de datos, modelo predictivo, árboles de decisión, redes neuronales,
Naive Bayes.
1 Introducción
Las intoxicaciones agudas a pesticidas son fácilmente diagnosticables ya que se manifiestan con signos y
síntomas claros en los individuos, mientras que las intoxicaciones por exposición prolongada a pesticidas
suelen pasar inadvertidas y sus consecuencias sólo se manifiestan en el largo plazo con enfermedades
neurodegenerativas, oncológicas, teratogénicas (hijos con malformaciones congénitas) y neuropsicológicas
[1].
Uno de los grupos de pesticidas más utilizados en la agricultura orientada en la producción de uva y cítricos
son los organofosforados, los cuales corresponden a químicos sintéticos creados en laboratorio para controlar
diversas plagas de insectos. Su uso se ha expandido como consecuencia de la prohibición de los pesticidas
organoclorados en la agricultura.
Los pesticidas organofosforados son altamente tóxicos pero químicamente poco estables, por lo que su vida
en el organismo no sobrepasa una semana. Por esta razón son ampliamente utilizados en la agricultura, lo que
ha generado un control efectivo de las plagas peligrosas. Sin embargo, el desconocimiento en su aplicación
1
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información
por parte de la población y el escaso control que se realiza de su utilización, han provocado una serie de
problemas en la salud humana y contaminación ambiental por residuos que se han mantenido en el tiempo [2].
Es por ello, que existen algunos estudios que han demostrado asociación entre la exposición prolongada a
bajas dosis de pesticidas organofosforados y el deterioro de funciones neuropsicológicas, en personas que
están expuestas ocupacional o ambientalmente a la aplicación de estos químicos sintéticos. Las funciones
neuropsicológicas afectadas son: la velocidad de atención y búsqueda visual (problemas en la formación de
conceptos), motricidad fina (dificultades en la memoria de corto plazo), cognitivas visuales, velocidad
visomotora, baja flexibilidad conceptual y déficit atencional [3]. Por lo tanto el diagnóstico temprano de este
tipo de exposición es de especial relevancia para evitar las consecuencias antes descritas.
El principal problema para concretar el desarrollo de este biomarcador, es la ausencia de un modelo predictivo
que permita diagnosticar con mayor precisión el deterioro neuropsicológico a individuos en situación de
exposición prolongada a pesticidas organofosforados, en base a la actividad del mismo biomarcador en
desarrollo.
Inicialmente la propuesta de solución para generar este modelo fue un método estadístico inferencial
denominado regresión logística, el cual predice el resultado de una variable categórica en función de variables
independientes o predictoras [5]. El modelo estaba compuesto por una variable dependiente que describe una
respuesta en forma dicotómica (0=No Deterioro Neuropsicológico y 1=Deterioro Neuropsicológico) y otras
variables independientes del tipo explicativas o predictivas (edad, sexo, localidad, consumo de alcohol,
consumo de drogas, nivel educacional, enzimas de exposición aguda ChE2, AChE3 y la ACPH) que fueron
definidas por los especialistas de proyecto, a través de los resultados de algunos análisis de correlación de
Pearson y Spearman.
El modelo de regresión logística obtuvo un bajo porcentaje de clasificación esperado sólo con un 60% de
precisión (ver tabla 1). Por otro lado, no se evidenció una relación entre el biomarcador ACPH y el deterioro
neuropsicológico asociado, debido a que la variable del biomarcador no aparece dentro de las variables más
significativas según los resultados obtenidos por el modelo.
Asimismo, como se presenta en la tabla 2 (ver columna con parámetro Sig4), se puede apreciar que el grado de
similitud o correlación entre las variables seleccionadas como el consumo de alcohol, consumo de drogas,
género y la enzima AChE, no fueron significativas para el modelo. No obstante, las variables edad, localidad y
la enzima ChE lograron ser significativas para el modelo (ver columna con parámetro Sig en tabla 3). Por lo
tanto, el objetivo inicial del proyecto no llegó a concretarse en su totalidad debido a los bajos resultados
expuestos por la técnica seleccionada para el modelo.
1
Sustancia utilizada como indicador de un estado biológico.
2La butirilcolinesterasa o pseudocolinesterasa (ChE) es una enzima humana de la familia de colinesterasas.
3
La acetilcolinesterasa o Colinesterasa (AChE) es una enzima humana de la familia de colinesterasas que se encuentra en los tejidos
nerviosos y los glóbulos rojos.
4
El parámetro sig o más conocido como “el valor estadístico de p”, indica el valor de asociación significativa entre una variable
independiente y dependiente. El valor representa una seguridad de asociación del 95% con p < 0,05 según definición científica.
2
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información
La solución que propone esta tesina es la obtención de un modelo predictivo que permita diagnosticar el
deterioro neuropsicológico asociado a la exposición prolongada a pesticidas organofosforados. Las pruebas
(y/o experimentos) se realizarán con poblaciones ocupacional (y/o) ambientalmente expuestas a pesticidas,
junto a una población sin contacto a pesticidas (control externo) en tiempo de prefumigación. Los resultados
del proyecto se transferirán al Departamento de Ciencias Biomédicas, el cual implementará el análisis y en el
Laboratorio de Salud Ocupacional podrá transferir la metodología a los demás interesados (hospitales,
mutualidades, etc.). Los usuarios finales serán los hospitales, clínicas, mutualidades y laboratorios que
aplicarán el examen; los beneficiarios finales serán los trabajadores agrícolas expuestos a pesticidas en sus
lugares de trabajo.
Se requiere desarrollar un modelo predictivo, mediante una técnica de minería de datos, que permita
diagnosticar el deterioro neuropsicológico a individuos en situación de exposición prolongada a pesticidas
organofosforados de la IV Región de Coquimbo, en base a los niveles de la actividad del biomarcador
acilpéptido hidrolasa (ACPH) y otras variables que contribuyan fácilmente al modelo.
5 La intersección (a menudo denominada variable Constant) es el valor medio esperado de Y cuando todo X = 0.
3
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información
• Revisar el estado del arte de las tareas y métodos de minería de datos que son utilizados en el área de
diagnósticos médicos y epidemiológicos.
• Determinar las variables o atributos más representativos para generar la dimensionalidad del modelo,
mediante el análisis, depuración y exploración de los datos biológicos y neuropsicológicos a través de
algoritmos de filtro y estrategia de evaluación ranking.
• Evaluar y seleccionar las técnicas de clasificación para implementar el modelo, mediante el estudio de las
alternativas existentes en el campo de las ciencias biomédicas.
• Construir el modelo predictivo que permita clasificar a los individuos con deterioro neuropsicológico en
base a los niveles del biomarcador ACPH.
• Validar el modelo seleccionado con los datos de individuos expuestos a pesticidas con deterioro
neuropsicológico del periodo 2011-2013.
1.5 Hipótesis
La hipótesis a considerar es la siguiente: “Es posible construir un modelo predictivo con un nivel de precisión
superior al 60% para diagnosticar deterioro neuropsicológico a individuos en situación de exposición
prolongada a pesticidas organofosforados de la IV Región de Coquimbo”.
El porcentaje de nivel de precisión corresponde al 60% obtenido por el modelo de regresión logística (ver
tabla 1). La validación de la hipótesis será contrastada con los resultados obtenidos de la presente
investigación con los entregados por el Departamento de Ciencias Biomédicas a través de su método
estadístico de regresión logística.
1.6 Metodología
Para la ejecución de este proyecto se utilizará la metodología Cross Industry Standard Process for Data
Mining (CRISP-DM) y se aplicarán diversas técnicas de minería de datos, tales como árboles de decisión,
redes neuronales artificiales y métodos bayesianos, enfocándose en datos que comprenden el periodo 2011-
2013 de la población de individuos sin contacto a pesticidas (control externo), expuestos ocupacional y
ambientalmente a pesticidas organofosforados en la IV Región de Coquimbo.
• En el segundo capítulo se describe el marco teórico para poner en contexto los conceptos y las
definiciones tratadas a lo largo de todo el desarrollo de la tesina, citando fuentes bibliográficas
adicionales que motiven a la indagación de determinado concepto.
• En el tercer capítulo se presenta el desarrollo de la solución de esta tesina, ejecutando las actividades del
modelo de gestión de proyectos y las técnicas de minería de datos seleccionadas. Además, se muestran
los beneficios y resultados obtenidos del contexto del caso de estudio.
• En el cuarto capítulo, se entregan las conclusiones correspondientes al trabajo de investigación y las
recomendaciones en base a las lecciones aprendidas, dejando abierta la posibilidad de introducir mejoras
al producto final en base a desarrollos futuros.
4
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información
2 Marco Teórico
La minería de datos ha atraído una gran atención en la sociedad y en la industria de la información, debido a
la disponibilidad de grandes cantidades de datos para ser convertidos en información y conocimiento útil. En
sí, la minería de datos se refiere a la extracción o minería de conocimiento de grandes cantidades de
información [5].
Muchas personas se refieren a la minería de datos como un sinónimo de otro término muy utilizado, el
descubrimiento de conocimiento a partir de los datos (KDD). No obstante, otros ven a la minería de datos
como el paso esencial dentro del mismo proceso de descubrimiento de conocimiento a partir de los datos [5].
Sin duda resulta interesante el utilizar técnicas de minerías de datos, debido a la posibilidad de aplicar
diferentes tareas y técnicas para determinar el modelo que mejor se ajuste al objetivo de un estudio en
particular [6].
Es útil distinguir entre dos principales tipos de minería de datos, la orientada a la verificación (el sistema
verifica la hipótesis del usuario) y la orientada al descubrimiento (el sistema encuentra nuevas reglas y
patrones de forma autónoma para el usuario). La figura 1 integra estos dos tipos de minería de datos en la
taxonomía de técnicas [7].
Los métodos de verificación incluyen las técnicas estadísticas tradicionales (descriptiva e inferencial), las que
si bien no corresponden estrictamente a la definición de minería de datos, permiten obtener conclusiones a
partir de grandes muestras de datos. En la práctica, las herramientas estadísticas siguen siendo la opción por
defecto en la investigación basada en datos; típicamente se recurre a ellas en la fase inicial de los proyectos de
minería de datos [7].
La estadística descriptiva permite obtener una visión resumida del comportamiento de las observaciones, a
través de parámetros estadísticos como la media, desviación estándar y herramientas de visualización como
gráficos e histogramas [7].
5
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información
La minería de datos orientada al descubrimiento considera dos tipos de modelos: descriptivos y predictivos.
Los modelos descriptivos, también conocidos como no supervisados, se utilizan para identificar estructura
intrínseca, relaciones o afinidad en los datos sin haberse asignado etiquetas o clases a los datos previamente.
• Asociación: esta técnica busca relaciones no explícitas entre los atributos analizados (atributos discretos).
La formulación más usada es “si la variable X toma el valor A entonces la variable Z toma el valor D”.
Generalmente, esta técnica es usada en el análisis de la canasta de compras que tienen por objetivo
determinar relaciones entre productos comprados por los clientes [6].
• Árboles de decisión y aprendizaje de reglas: se trata de un modelo de clasificación con forma de árbol,
similar a un clustering jerarquizado, pero con la diferencia de que sí está orientado a clasificar en torno a
un parámetro particular, en relación con el dominio del problema. En cada rama del árbol la muestra es
segmentada en base a un parámetro de forma tal de minimizar la variabilidad de los segmentos
resultantes respecto de la variable objetivo [6]. Los algoritmos de árboles de decisión se diferencian,
entre otras cosas, por el método estadístico que utilizan al conformar cada rama. CART y CHAID son dos
de las técnicas más populares en la conformación de árboles de decisión, basándose el primero en
métricas de entropía como el coeficiente de Gini para seleccionar cada segmentación, mientras el
segundo utiliza validación por Chi-Cuadrado [6]. Una de las grandes ventajas de los árboles de decisión
es que generan modelos predictivos suficientemente simples y transparentes, permitiendo la
interpretación por parte del investigador y facilitando su integración a aplicaciones del negocio. Estas
características han potenciado el uso de los árboles de decisión en proyectos de minería de datos, puesto
que incluso si no se alcanzase una gran capacidad predictiva, todavía será posible obtener mayor
comprensión del fenómeno estudiado, a partir de la estructura de árbol con que se conforme el modelo
[6].
6
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información
• Redes Neuronales Artificiales: una red neuronal artificial emula una topología biológica de nodos
distribuida por capas, que a partir de grandes muestras de datos con múltiples parámetros aprende a
predecir el comportamiento de las observaciones respecto a un fenómeno particular. Ofrece una amplia
libertad de combinaciones en cuanto a diseño de la red, lo que con suficiente cuidado en la limpieza y
preparación de muestras y evitando el sobreajuste del modelo a una muestra particular, ha permitido
alcanzar notables resultados predictivos en los más diversos campos. Su nombre responde a la topología
de nodos que configuran la red, donde cada nodo juega un rol similar a una neurona programada para
traspasar un estímulo ante cierta configuración de parámetros. A diferencia de los árboles de decisión, las
redes neuronales artificiales generan modelos complejos de analizar y suelen ser tratadas como caja
negra, dificultando obtener información complementaria a la propia predicción; esto limita su utilidad a
aquellos campos donde se enfrenta un problema altamente predecible a partir de los datos disponibles,
especialmente si la cantidad de parámetros involucrados hace que obtener dicha predicción resulte muy
costoso [6].
• Métodos Bayesianos: los métodos bayesianos son relevantes al aprendizaje automático y la minería de
datos; son prácticos para realizar inferencias a partir de los datos e inducir modelos probabilísticos que
después serán usados para razonar (formular hipótesis) sobre nuevos valores observados. El clasificador
Naive Bayes es uno de los métodos bayesianos más empleados en la minería de datos y se basa en el
teorema de Bayes, asumiendo independencia entre las variables independientes o predictores. Es un
modelo fácil de construir y sin ningún hiperparámetro a estimar. A pesar de su simplicidad, en muchas
ocasiones muestra un rendimiento sorprendentemente bueno y es ampliamente usado ya que en algunos
problemas mejora los resultados de clasificación obtenidos con métodos más sofisticados [8]. Otro
método bayesiano empleado son las redes bayesianas, las cuales representan el conocimiento cualitativo
del modelo mediante un grafo dirigido acíclico. Este conocimiento se articula en la definición de
relaciones de independencia/dependencia entre las variables que componen el modelo. El hecho de una
representación gráfica para la especificación del modelo hace de las redes bayesianas una herramienta
realmente muy atractiva en su uso como representación del conocimiento, aspecto muy importante de la
minería de datos [8].
• Máquinas de soporte vectorial: en las máquinas de soporte vectorial (Support Vector Machine / SVM),
el proceso de clasificación se realiza mediante el hiperplano que maximiza el margen entre dos clases en
los datos de entrenamiento. El margen se define como la distancia perpendicular mínima entre dos puntos
de cada clase al hiperplano separador; este hiperplano se ajusta durante el proceso de aprendizaje con los
datos de entrenamiento o predictores. De entre estos predictores, se seleccionan los vectores que definen
el hiperplano, los cuales son llamados vectores de soporte. El hiperplano óptimo corresponde a aquel que
minimiza el error de entrenamiento y, al mismo tiempo, tiene el máximo margen de separación entre las
dos clases. Para generalizar los casos donde los límites de decisión no son linealmente separables, SVM
proyecta los datos de entrenamiento en otro espacio de dimensionalidad más alta; si la dimensionalidad
del nuevo espacio es suficientemente alta, los datos siempre serán linealmente separables. Para evitar
tener que realizar una proyección explícita en un espacio dimensional mayor se utiliza una función
kernel, la cual transforma implícitamente los datos a este espacio dimensional mayor para hacer posible
la separación lineal de las clases; puede ser de tipo polinomial, de base radial Gaussiana o perceptrón
sigmoideo, entre otros [9].
• Métodos de Vecindad: al igual que el clustering se basan en la distancia espacial de las observaciones,
pero a diferencia de éste, sí se enfoca en clasificar las observaciones en relación con un atributo particular
que responda al dominio del problema. Pueden ser utilizados además para predecir el comportamiento de
nuevas observaciones, en torno al atributo investigado. Un algoritmo clásico es KNN (K-Nearest
Neighbor), el que en su forma básica corresponde a asimilar cada observación con su vecino más
próximo, o a los K más cercanos que por votación definen la predicción. Una de las ventajas de los
métodos de vecindad es que junto con la predicción se obtienen indicadores de confianza de la misma,
7
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información
como lo es la distancia con el o los vecinos con los que se asimiló la clasificación, y la variabilidad de
clases entre los mismos vecinos cuando han sido más de uno [6].
Los esfuerzos en el área de la minería de datos se han centrado en su gran mayoría en la investigación de
técnicas para la explotación de información y extracción de patrones (tales como árboles de decisión, análisis
de conglomerados y reglas de asociación). Sin embargo, se ha profundizado en menor medida el hecho de
cómo ejecutar este proceso hasta obtener el nuevo conocimiento, es decir, en las metodologías. Las
metodologías permiten llevar a cabo el proceso de minería de datos en forma sistemática y no trivial. Ayudan
a las organizaciones a entender el proceso de descubrimiento de conocimiento y proveen una guía para la
planificación y ejecución de los proyectos [10].
KDD es un proceso de extracción no trivial de información potencialmente útil a partir de un gran volumen de
datos, en el cual la información está implícita y no se conoce previamente. El proceso KDD se divide en cinco
fases y son [11]:
• Selección del objetivo: tiene como finalidad estudiar el problema y decidir cuál es la meta del proyecto.
Una vez definido el problema, se identifican las fuentes de datos internas o externas y se selecciona el
subconjunto de datos necesarios para la aplicación de un algoritmo de minería de datos.
• Preprocesamiento de datos: consiste en estudiar los datos seleccionados para entender el significado de
los atributos y para detectar errores de integración, por ejemplo, datos repetidos con distinto nombre o
datos que significan lo mismo en diferente formato.
• Transformación de datos: una vez que se tienen los datos preprocesados, se procede a la transformación
final de los mismos, esto con el fin de que se ajusten al formato de entrada del algoritmo seleccionado.
• Minería de datos: aquí se aplican los diferentes algoritmos de análisis a los datos ya transformados. La
finalidad en esta etapa es encontrar patrones útiles e interesantes en los datos.
• Interpretación y Evaluación de los resultados: aquí, el usuario debe valorar los resultados conseguidos
y, de ser necesario, aplicar una y otra vez los algoritmos de minería de datos hasta encontrar información
útil y valiosa. Esto último hace que el proceso KDD sea un proceso iterativo y de búsqueda continua, en
donde el conocimiento y la intuición del usuario juegan un papel fundamental en el proceso.
CRISP–DM estructura el ciclo de vida de un proyecto de minería de datos en seis fases, que interactúan entre
ellas de forma iterativa durante el desarrollo del proyecto, de acuerdo a lo indicado en figura 2 [12]:
• Comprensión del negocio: incluye la comprensión de los objetivos y requerimientos del proyecto desde
una perspectiva empresarial, con el fin de convertirlos en objetivos técnicos y en una planificación.
8
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información
• Comprensión de los datos: comprende la recolección inicial de datos, en orden a fijar un primer
contacto con el problema, identificando la calidad de los datos y construyendo las relaciones más
evidentes que permitan establecer las primeras hipótesis.
• Preparación de los datos: incluye las tareas generales de selección de datos a los que se va a aplicar la
técnica de modelado (variables y muestras), limpieza de los datos, generación de variables adicionales,
integración de diferentes orígenes de datos y cambios de formato. Esta fase se encuentra muy relacionada
con la fase de modelado, puesto que en función de la técnica de modelado que vaya a ser utilizada los
datos necesitan ser procesados en diferentes formas. Por lo tanto, las fases de preparación y modelado
interactúan de forma sistemática.
• Modelado: se seleccionan las técnicas de modelado más apropiadas para el proyecto de minería de datos
específico. Antes de proceder al modelado de los datos, se debe establecer un diseño del método de
evaluación de los modelos, que permita constituir el grado de bondad de los mismos. Una vez realizadas
estas tareas, se procede a la generación y evaluación del modelo.
• Evaluación: no desde el punto de vista de los datos, sino del cumplimiento de los criterios de éxito del
problema. Se debe revisar el proceso seguido, teniendo en cuenta los resultados generados, para poder
repetir algún paso en el que, a la vista del desarrollo posterior del proceso, se hayan podido cometer
errores. Si el modelo generado es válido en función de los criterios de éxito establecidos en la primera
fase, se procede a la explotación del modelo.
Se presenta a continuación el estado del arte en la descripción y explicación de las tareas y técnicas de minería
de datos asociadas en el área de los diagnósticos médicos y epidemiológicos.
En [13], el autor ha estudiado la aplicabilidad de los árboles de decisión para encontrar un grupo de pacientes
con alta susceptibilidad de padecer cáncer de mama del tipo 1 (BRCA1) según la asociación con el consumo
de alcohol y tabaco. La muestra de datos estaba compuesta por 94 pacientes con la enfermedad ya adquirida
9
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información
(casos) y otras 164 personas en proceso de control (posibles casos). Los resultados muestran que la técnica de
árbol de decisión presenta un diagnóstico del 93,62% de precisión en el conjunto de datos de referencia.
En [15], se aplicaron los algoritmos C4.5, Naive Bayes y Perceptrón Multicapa sobre un conjunto de datos
formado por 16 atributos y 151.886 registros para investigar su eficacia en la predicción de la supervivencia
en pacientes con cáncer de mama. Los resultados muestran que la aplicación del algoritmo C4.5 ha logrado
una precisión mayor al 97,4% sobre las otras técnicas de clasificación.
En [16], los autores presentan un estudio de diferentes técnicas de minería de datos para la predicción de
enfermedades al corazón. El análisis fue realizado utilizando los algoritmos Naive Bayes, C4.5 y Perceptrón
Multicapa sobre un conjunto de datos formado por 15 atributos y 3000 registros. Los resultados mostraron
que Perceptrón Multicapa obtuvo una precisión perfecta, es decir 100% en relación a C4.5 con un 99,62% y
Naive bayes con un 90,74%. Por otra parte, en combinación con un algoritmo genético y mediante el uso de
sólo 6 atributos de la muestra original, el árbol de decisión ha demostrado una eficiencia mayor de 99,2% de
la clasificación frente a los otros dos algoritmos.
En [18], se aplicaron algoritmos de árboles de decisión (C4.5) y Random Forest a un conjunto de datos de
detección de enfermedades del corazón. El algoritmo Random Forest fue el mejor al momento de realizar la
clasificación, obteniendo una precisión del 63,33%, en comparación con los resultados del algoritmo C4.5 que
logró sólo un 50,67%.
En [19], los autores aplicaron técnicas de minería de datos como Naive Bayes y Árbol de decisión para
diagnosticar la enfermedad de diabetes mellitus. Los experimentos fueron realizados mediante validación
cruzada con diez carpetas utilizando la herramienta de análisis de datos WEKA. Los resultados entregados
evidenciaron que el algoritmo Naive Bayes presentó una mayor precisión del diagnóstico con un 76%, en
comparación con el 73% de precisión obtenido por el algoritmo C4.5 de Árbol de decisión.
En [20], los autores han comparado la eficacia de algunos algoritmos de clasificación como C4.5, Regresión
Logística, Id3 y Random Forest, entre otros, para el diagnóstico precoz de la enfermedad de Parkinson. Los
resultados obtenidos muestran que Random Forest y C4.5 presentan los porcentajes de mejor precisión con un
10
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información
100% para el primero y un 90% para C4.5. Además, presentan los mejores resultados de evaluación a través
de las métricas de matriz de confusión y la tasa de error de clasificación.
En [21], los autores estudian el caso de diagnóstico y evaluación del riesgo de cáncer en los genes utilizando
el clasificador Naive Bayes, el cual clasifica con una precisión del 95% en sus clases respectivas. Tiene una
tasa de error sólo del 5%.
3 Desarrollo
De acuerdo a la revisión de las metodologías estudiadas y en base al análisis de las características presentadas
por cada una de ellas, se utilizó la metodología CRISP-DM para efectos del desarrollo de este trabajo.
Algunas de las características por las cuales se decidió el uso de esta metodología son:
• Es actualmente la guía de referencia más utilizada en el desarrollo de proyectos de minería de datos [22],
[23].
• A diferencia de KDD y SEMMA, especifica con mayor detalle las tareas que componen cada fase, lo que
facilita la planificación y ejecución del proyecto de minería de datos.
• Permite comenzar con el análisis del negocio y del problema organizacional, lo cual posibilita el
documentar de manera adecuada la problemática definida.
Con CRISP-DM se definen las siguientes fases para el desarrollo de este proyecto: comprensión del problema,
comprensión de los datos, preparación de los datos, modelado, evaluación del modelo e implantación. Sobre
esta estructura se presenta a continuación el desarrollo del trabajo realizado.
De acuerdo a lo expuesto en el punto 1.1 de este trabajo, el proyecto FONDEF D09I1057 del Departamento
de Ciencias Biomédicas perteneciente a la Facultad de Medicina de la Universidad Católica del Norte, se
encuentra trabajando en el desarrollo de un biomarcador bioquímico de alta sensibilidad capaz de pesquisar y
reflejar el estado de deterioro neuropsicológico en el que se encuentran los individuos en situación a
exposición prolongada a pesticidas organofosforados de la IV Región de Coquimbo. El principal problema
para concretar el desarrollo de este biomarcador, es la ausencia de un modelo predictivo que permita
diagnosticar con mayor precisión el deterioro neuropsicológico en individuos expuestos a pesticidas
organofosforados en base a la actividad del biomarcador en desarrollo. Por este motivo, se propone el
desarrollo mediante técnicas de minerías de datos de un modelo predictivo que permita diagnosticar el
deterioro neuropsicológico asociado a una exposición prolongada a organofosforados.
Los datos a utilizar provienen originalmente de una planilla Excel con un total de 277 observaciones, las
cuales fueron obtenidas de la ejecución de dos procedimientos médicos aplicados a los individuos de
poblaciones ocupacional (y/o) ambientalmente expuestas a pesticidas organofosforados junto a una población
control externo (sin contacto a pesticidas) en tiempo de prefumigación. Los datos obtenidos por estos
procedimientos corresponden a las campañas 2011-2013 del proyecto y son los siguientes:
11
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información
Si bien la planilla Excel posee una gran cantidad de variables asociadas a los procedimientos médicos antes
mencionados, para efectos de los objetivos fijados en este trabajo sólo se hace uso de un conjunto de estas
variables de acuerdo a los siguientes criterios definidos por los especialistas del proyecto:
• Inicialmente se consideran las mismas variables que fueron utilizadas para la construcción del modelo de
regresión logística según los resultados de los métodos estadísticos de correlación (ver tabla 4).
• No se consideran las variables del tipo “puntaje de pruebas neuropsicológicas” ya que son parte de otro
proceso de búsqueda de conocimiento.
• La variable “Años de exposición a pesticidas” no fue considerada en el modelo, ya que según los estudios
estadísticos del proyecto no mostraba una correlación significativa con la “clase deterioro”.
• La variable “Consumo de droga” no fue considerada para el modelo, ya que no ha sido estudiada por los
especialistas y podría ser considerada un factor de confusión.
Las variables y observaciones seleccionadas fueron almacenadas en un archivo con extensión .CSV para ser
utilizadas posteriormente por la herramienta de análisis de datos. Debido a que estos registros ya incorporan
una variable definida como clase (ver variable “Deterioro” en tabla 4) no será necesario crear alguna variable
exclusiva para este caso.
En la tabla 4 se presentan las primeras 10 variables seleccionadas con sus valores actuales para el desarrollo
del modelo predictivo.
12
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información
Con las primeras variables y observaciones ya seleccionadas se procedió a realizar una limpieza de los datos
para solucionar los siguientes tipos de problemas [8]: valores nulos y blancos, atípicos (outlier) e valores
inconsistentes. Si bien en la mayor parte de los datos no se observaron cifras relevantes de valores con
problemas de inconsistencia, tampoco se evidenciaron problemas de valores nulos. Sólo se encontraron
algunos datos con valores outlier y valores en blancos, los cuales fueron eliminados por petición de los
especialistas (ver tabla 5).
Con estos datos ya corregidos, se procedió a realizar un proceso de transformación de variables numéricas
(enteras y continuas) a otras de tipo nominal en la muestra. El objetivo de aplicar este tipo de transformación
es ajustar de mejor forma los datos al modelo, normalizar su distribución y mejorar el proceso de clasificación
[8]. Una de las técnicas más utilizadas para este proceso de transformación es la discretización (también
conocida como binning), la cual convierte un valor numérico en un valor nominal ordenado [8].
El parámetro técnico utilizado para crear el tamaño de los intervalos de la discretización fue el enfoque no
supervisado, el cual usa la distribución de valores de un atributo continuo como única fuente de información.
Esto quiere decir que no ocupa información adicional como la de la clase. La técnica de división utilizada
para este enfoque fue el método equal-width que crea los intervalos de la misma amplitud de los datos en el
conjunto de la muestra [8].
Las variables elegidas para la discretización fueron seleccionadas por los especialistas del proyecto, para
identificar una serie de valores en zonas ordenadas y encontrar su asociación con el deterioro
neuropsicológico según los rangos de actividad enzimática.
El número de particiones definidas para crear los intervalos de amplitud en las variables seleccionadas fueron
las siguientes: cinco particiones para la variable “Edad”, tres particiones para la variable “Nivel_educacional”
y cinco particiones para las variables “Enzima_acph”, “Enzima_che” y “Enzima_ache”.
Por otra parte, las variables numéricas como el “Género”, “Consumo_tabaco”, “Consumo_alcohol”,
“Localidad” y la misma clase “Deterioro” fueron convertidas en variables nominales simples (categóricas)
para estandarizar la muestra.
13
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información
Por último, y según la definición de algunos autores, para discretizar y convertir valores numéricos a
nominales se deben considerar los siguientes criterios.
• Los algoritmos de clasificación supervisados, como es el caso del árbol de decisión C4.5, se basan en la
inducción de reglas por lo cual es necesario contar con atributos categóricos nominales [8].
• El algoritmo de clasificación Naive Bayes no es capaz de procesar algunas variables numéricas
directamente por lo tanto deben ser discretizadas [24].
• Cuando la tarea final es clasificación, los métodos de discretización son más sencillos ya que se basan en
las medidas de separabilidad y entropía [8].
Para complementar el análisis y preparación de los datos, se procederá a realizar un reconocimiento y análisis
exploratorio de algunas de las variables más representativas que tienen relación con la clase deterioro
neuropsicológico. A continuación se evidencian los siguientes resultados.
La tabla 7 muestra que la variable clase “Deterioro” presenta una cantidad mayor del 65,5% de las
observaciones de la clase “Sí” contra un porcentaje menor del 34,5% de observaciones de la clase “No”. Esto
quiere decir, que se evidencia una concentración mayor del 66% de los individuos con deterioro
14
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información
neuropsicológico frente a un 34% de los individuos sin deterioro neuropsicológico de la muestra (ver figura
3).
15
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información
La tabla 12 muestra que la variable edad se encuentra bien distribuida según la aplicación del proceso de
discretización mediante intervalos del mismo tamaño. Respecto a su relación con la clase “Deterioro” se
puede apreciar en la figura 8 existe una mayor tendencia al deterioro neuropsicológico con un 20% de los
individuos entre el rango 43-50 años. El menor daño se aprecia entre el rango de 18-24 años con un 6% de los
individuos.
En la tabla 13 los datos de la variable “enzima_acph” se encuentran distribuidos según la aplicación del
proceso de discretización por intervalos de misma amplitud de sus datos. Respecto a su relación con la clase
“Deterioro” se puede apreciar en la figura 9 que existe una mayor tendencia al deterioro neuropsicológico con
un 43% de los individuos entre el rango 2.24167-3.306379 de la actividad enzimática.
16
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información
La cantidad final de observaciones seleccionadas fueron de 267 con una dimensionalidad de 10 variables a
criterio de los especialistas del proyecto (ver tabla 4). Por lo tanto, y con la muestra ya definida, se procederá
a realizar una evaluación de dichas variables a través de una estrategia denominada Ranker, con el objetivo de
averiguar la relevancia de éstas respecto de la información relacionada con la clase. Si una variable no agrega
valor al análisis ya sea por no estar relacionada con otra o por no tener la calidad suficiente para representar
los algoritmos, será eliminada de la muestra. Los evaluadores de variables utilizados son [25]:
Para cada uno de los evaluadores descritos anteriormente, y conforme a lo disponible en la herramienta de
análisis de datos, se trabajó con el modo de selección de variables denominado validación cruzada con 10 y 5
carpetas (cross-validaton folds). Paralelamente, se utilizó el algoritmo randomize para distribuir de forma
aleatoria todas las instancias antes de la utilización de los algoritmos de selección de atributos y de
clasificación.
Si se analizan las 3 primeras posiciones de los rankings (ver tablas 14, 15, 16 y 17) se observa que
ChiSquared, InfoGain, GainRatio y ReliefF presentan los mismos resultados de relevancia en el
ordenamientos de las variables “Localidad”, “Nivel_educacional” y “Edad”. Sin embargo, las variaciones de
relevancia se presentan en todas las evaluaciones para las variables “Género”, “Consumo_tabaco”,
“Consumo_alcohol”, “Enzima_acph”, “Enzima_che” y “Enzima_ache”. Por lo tanto y según los valores
entregados por los indicadores average merit y average Rank, se procedió a descartar las variables
“Consumo_alcohol” y “Enzima_ache” por presentar el menor peso o estar más cercanas a cero del conjunto
de variables de la muestra final. Cabe mencionar que de las 10 variables que fueron seleccionadas
inicialmente por los especialistas, sólo quedaron 8 para la fase de modelado. Éstas son: “Localidad”,
“Nivel_educacional”, “Edad”, “Enzima_che”, “Género”, “Consumo_tabaco”, “Enzima_acph” y la clase
“Deterioro”.
17
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información
Tabla 14. Resultados del ranking de atributos con 10 y 5 carpetas para Chisquared
ChiSquared
Atributo Average rank Average merit
10-Carpetas 10-Carpetas 5-Carpetas 10-Carpetas 5-Carpetas
Localidad 1 +- 0 1 +- 0 83.337 74.35
Nivel_Educacional 2 +- 0 2 +- 0 24.713 22.211
Edad 3 +- 0 3 +- 0 17.685 15.963
Enzima_che 4.6 +- 0.8 4.4 +- 0.49 5.492 5.364
Género 5.2 +- 1.33 5.2 +- 1.47 5.555 4.953
Consumo_tabaco 6.3 +- 1.1 6.4 +- 1.02 3.681 3.398
Enzima_acph 6.9 +- 0.54 7 +- 0.63 3.474 3.316
Enzima_ache 7 +- 1.26 7 +- 0.89 2.966 3.375
Consumo_alcohol 9 +- 0 9 +- 0 0.674 0.675
Tabla 15. Resultados del ranking de atributos con 10 y 5 carpetas para GainRatio
GainRatio
Atributo Average rank Average merit
10-Carpetas 5-Carpetas 10-Carpetas 5-Carpetas
Localidad 1 +- 0 1 +- 0 0.172 0.173
Nivel_Educacional 2 +- 0 2 +- 0 0.061 0.061
Edad 3.2 +- 0.4 3.2 +- 0.4 0.024 0.024
Género 4.5 +- 1.36 4.8 +- 1.47 0.017 0.017
Consumo_tabaco 5.6 +- 1.28 5.2 +- 1.47 0.012 0.013
Enzima_che 5.7 +- 1.1 5.6 +- 0.49 0.011 0.012
Enzima_acph 6.2 +- 0.6 6.4 +- 0.8 0.011 0.011
Enzima_ache 7.9 +- 0.54 7.8 +- 0.4 0.006 0.008
Consumo_alcohol 8.9 +- 0.3 9 +- 0 0.002 0.002
Tabla 16. Resultados del ranking de atributos con 10 y 5 carpetas para InfoGain
InfoGain
Atributo Average rank Average merit
10-Carpetas 5-Carpetas 10-Carpetas 5-Carpetas
Localidad 1 +- 0 1 +- 0 0.266 0.268
Nivel_Educacional 2 +- 0 2 +- 0 0.089 0.09
Edad 3 +- 0 3 +- 0 0.054 0.054
Enzima_che 4.7 +- 0.9 4.4 +- 0.49 0.02 0.022
Enzima_acph 5.2 +- 0.4 5.6 +- 0.8 0.016 0.017
Género 5.6 +- 1.56 6 +- 1.7 0.017 0.017
Consumo_tabaco 7.1 +- 0.54 7 +- 0.63 0.011 0.012
Enzima_ache 7.4 +- 0.8 7 +- 0.89 0.009 0.012
Consumo_alcohol 9 +- 0 9 +- 0 0.002 0.002
18
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información
Tabla 17. Resultados del ranking de atributos con 10 y 5 carpetas para Relief
ReliefF
Atributo Average rank Average merit
10-Carpetas 5-Carpetas 10-Carpetas 5-Carpetas
Localidad 1 +- 0 1 +- 0 0.298 0.301
Nivel_Educacional 2 +- 0 2 +- 0 0.106 0.098
Edad 3 +- 0 3 +- 0 0.065 0.061
Género 5 +- 1 5.6 +- 1.02 0.024 0.02
Consumo_alcohol 5.2 +- 1.08 5.8 +- 1.94 0.023 0.021
Enzima_acph 5.6 +- 0.8 6 +- 1.41 0.02 0.022
Consumo_tabaco 7.3 +- 1.42 7 +- 1.41 0.008 0.01
Enzima_che 7.5 +- 1.28 7.2 +- 1.72 0.008 0.011
Enzima_ache 8.4 +- 1.02 7.4 +- 1.62 -0.003 0.005
3.5 Modelado
En [13], [16], [19], [20] y [21] se reportan los mejores resultados a través de las técnicas de árboles de
decisión con un 99,62%, métodos bayesianos en un 95% y redes neuronales con un 100% en situaciones
médicas asociadas a otros dominios. Por estas razones, en la presente investigación se han utilizado las
técnicas antes mencionadas para el análisis de los datos.
Sobre la herramienta de implementación del modelo predictivo se utilizó el software WEKA 3.6 [26], el cual
permite trabajar con técnicas supervisadas de árboles de decisión como C4.5, métodos bayesianos como
Naive Bayes y redes neuronales como Perceptrón Multicapa. Las técnicas fueron aplicadas sobre la muestra
de los datos y guiadas a través de una planificación de experimentos (entrenamientos y pruebas con
algoritmos) los cuales obtuvieron los resultados que permitieron comparar el modelo que presentó mejor
respuesta frente a la estimación de la variable clase “Deterioro”. A continuación se detallan las técnicas
seleccionadas:
• C4.5: es un algoritmo de inducción que genera una estructura de reglas o árbol a partir de subconjuntos
de casos extraídos del conjunto total de datos de entrenamiento (método clásico de divide y vencerás).
C4.5 es un algoritmo que genera una estructura de reglas y evalúa su bondad usando criterios que miden
la precisión en la clasificación de los casos. Emplea dos criterios principales para dirigir el proceso: valor
de la información entregada por una rama del árbol (regla) con una rutina que se llama info y mejora
global que proporciona una rama del árbol usando una rutina que se llama gain (beneficio). Con estos dos
criterios se puede calcular una especie de valor de costo/beneficio en cada ciclo del proceso, que le sirve
para decidir si crear, como por ejemplo, dos nuevas reglas, o si es mejor agrupar los casos de una sola
[24].
• Naive Bayes: el clasificador Naive Bayes, se basa en el teorema de Bayes asumiendo independencia entre
las variables independientes o predictoras. Es un modelo fácil de construir y sin ningún hiperparámetro a
estimar. A pesar de su simplicidad, en muchas ocasiones muestra un rendimiento sorprendentemente
bueno y es ampliamente usado, ya que en algunos casos mejora los resultados de clasificación obtenidos
con métodos más sofisticados. El teorema de Bayes provee un método para calcular la probabilidad a
posteriori de la clase a la que pertenece el objeto a clasificar. El clasificador Naive Bayes asume que el
efecto del valor de un predictor en una clase es independiente de los valores de otro predictor. Esta
asunción se llama independencia condicional de la clase [27].
19
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información
• Perceptrón Multicapa: es el modelo de red neuronal artificial que está constituido por un conjunto de
neuronas que se comunican entre sí a través de un conjunto de conexiones ponderadas denominadas
pesos. La salida del sistema depende tanto de las entradas como de los pesos que se almacenan en cada
conexión. Cada neurona realiza un cálculo sencillo para generar su salida. La función que se aplica se
denomina función de activación, y generalmente es no lineal [8].
La evaluación de los resultados obtenidos por los modelos se basó principalmente en dos parámetros
generales:
1. Precisión global de la clase (Summary): representa el porcentaje global de aciertos y errores cometidos
en la evaluación. Para este ítem se utilizaron las siguientes medidas de evaluación:
• Instancias Correctamente Clasificadas (Correctly Classified Instances): comúnmente sirve para
medir el desempeño del modelo en el conjunto de pruebas, además, permite identificar el porcentaje
de instancias correctamente clasificadas de acuerdo a la clase en análisis.
• Coeficiente Kappa (Kappa Statistic): corresponde a la proporción de concordancias observadas
sobre el total de observaciones, habiendo excluido las concordancias atribuibles al azar. El índice de
Kappa toma valores entre -1 y +1; mientras más cercano a +1, mayor es el grado de concordancia
inter-observador.
• Error Absoluto Medio (Mean Absolute Error): diferencia entre el valor de la medida y el valor
tomado como exacto. Puede ser positivo o negativo, según si la medida es superior al valor real o
inferior (la diferencia puede ser positiva o negativa).
• Error Relativo Absoluto (Relative Absolute Error): cuociente (división) entre el error absoluto y el
valor exacto. Al igual que el error absoluto puede ser positivo o negativo (según lo sea el error
absoluto) porque puede ser por exceso o por defecto; no tiene unidades.
2. Precisión detallada por clase (Detailed Accuracy By Class): permite conocer la exactitud del modelo a
través de diversas características para cada uno de los valores que puede tomar el atributo de clase, en
base a:
• TP Rate (true positive rate): o más conocido como sensibilidad, es la proporción de ejemplos que
fueron clasificados como de una clase, de entre todos los ejemplos que de verdad tienen dicha clase,
es decir qué cantidad de la clase ha sido capturada.
• FP Rate (false positive rate): o más conocida como especificidad, es la proporción de ejemplos que
fueron clasificados como de una clase, de entre todos los ejemplos que de verdad pertenecen a otra
clase, es decir qué cantidad de la clase no ha sido capturada.
• Precision: mide la probabilidad que si el modelo clasifica a un término en una categoría, dado que el
término realmente pertenezca a dicha categoría.
• Cobertura (Recall): mide la proporción de términos correctamente reconocidos respecto al total de
términos reales.
3. Matriz de confusión (Confusion Matrix): permite visualizar mediante una tabla de contingencia la
distribución de errores cometidos por un clasificador.
Cabe señalar que los parámetros mencionados anteriormente sólo pretenden entregar medidas objetivas que
sirvan para evaluar la confiabilidad de los modelos predictivos analizados.
3.5.3 Experimentos
En este proyecto se utilizó un total de 8 variables del tipo categórico y 267 observaciones para realizar los
entrenamientos y pruebas del modelo, los cuales corresponden a los individuos de poblaciones ocupacional
20
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información
(y/o) ambientalmente expuestas a pesticidas organofosforados, junto a una población sin contacto a pesticidas
(control externo) en tiempo de prefumigación.
En base a la experiencia práctica de [28], [29] y [30], las tareas de clasificación fueron realizadas con
validación cruzada múltiple (cross-validation) de 10 carpetas sobre las 267 observaciones antes mencionadas,
a fin de evitar resultados de modelos sobre-ajustados en el esquema de aprendizaje. La validación cruzada
consiste en: dado un número n se divide los datos en n partes y, por cada parte, se construye el clasificador
con las n−1 partes y se prueba con la restante; así por cada una de las n particiones [8]. Con estos
entrenamientos y pruebas se espera tener una buena solución que sirva de respuesta para la validación de la
hipótesis en cuestión. A continuación se presentan los resultados relativos a la precisión global y precisión
detallada del experimento realizado.
Como se muestra en la tabla 18, el algoritmo Naive Bayes presenta la mejor capacidad de precisión global o
confianza con un 84% de las observaciones correctamente clasificadas, seguido del algoritmo C4.5 con un
82%. El algoritmo Perceptrón Multicapa presenta el peor desempeño de precisión global con un 75% de las
observaciones correctamente clasificadas. Por otra parte, los resultados del indicador estadístico Coeficiente
de Kappa muestran que el algoritmo Naive Bayes presenta la puntuación más alta con un valor de 63%, lo
cual indica que se acerca a un acuerdo total entre los grupos de clasificación. Respecto a la tasa de error
absoluto medio, los algoritmos Naive Bayes y Perceptrón Multicapa presentaron el valor más bajo con un
puntaje de 26%, lo cual indica que tienen una menor imprecisión o incertidumbre respecto al algoritmo C4.5.
Sin embargo, es el algoritmo Perceptrón Multicapa quien presenta el valor más alto de error relativo absoluto
con un 46% (error que realmente se está cometiendo) frente al algoritmo Naive Bayes que presenta el error
relativo absoluto más bajo con un valor de 37%, seguido de C4.5 con un error de 38% de clasificación.
Respecto a la matriz de confusión (ver tabla 20) se puede evidenciar que el algoritmo con mejor resultado es
Naive Bayes, ya que presenta la mejor medida de clasificación con un total del 59% de los individuos que
21
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información
realmente tienen deterioro neuropsicológico y un total del 25% de los individuos que efectivamente no tienen
deterioro neuropsicológico. Por su parte C4.5 indica que el 59% de los individuos con deterioro
neuropsicológico realmente lo tienen y el 24% de los individuos efectivamente no lo tienen. Por último, el
Perceptrón Multicapa obtuvo el resultado más bajo ya que clasificó correctamente con un 55% de los
individuos que realmente sí tienen deterioro neuropsicológico y un 20% de los individuos que efectivamente
no tienen.
Tabla 20. Matriz de confusión de los algoritmos con validación cruzada de 10 carpetas
Algoritmo Clase No Sí
C4.5 No 24% 11%
Sí 7% 59%
Naive Bayes No 25% 10%
Sí 7% 59%
Perceptrón Multicapa No 20% 15%
Sí 10% 55%
Con la finalidad de obtener resultados más precisos de clasificación, se procedió a sensibilizar algunos de los
parámetros de configuración de los algoritmos C4.5 y Perceptrón Multicapa quienes obtuvieron menor
rendimiento y precisión. Para el caso de Naive Bayes no fue posible sensibilizar sus parámetros de
configuración debido a que la muestra de datos ya estaba normalizada con atributos categóricos. Estos
parámetros son el useKernelEstimator y useSupervisedDiscretizacion [19].
Un análisis de sensibilidad estima la tasa de cambio de la salida de un modelo, causada por los cambios
realizados en la entrada del mismo. Su finalidad es determinar qué parámetros de entrada son más importantes
o sensibles para obtener valores de salida más precisos [31].
• learningRate: define cuán rápido es entrenada la red neuronal para su aprendizaje. La mayor
velocidad de aprendizaje es configurada con un valor de 0.01 y una menor velocidad con 0.2.
• momentum: es un impulso o multiplicador de la tasa de aprendizaje que apoya a conseguir más
rápido una red neuronal. El momentum es aplicado siempre y cuando la tasa de error disminuya
durante el proceso de entrenamiento.
• normalizeAtribute: es una opción que mejora el rendimiento de la red neuronal. Su configuración no
depende si la clase es numérica. Normaliza atributos nominales con valores entre -1 y 1.
• seed: semilla utilizada para inicializar los números aleatorios. Se utiliza para establecer los pesos
iniciales de las conexiones entre los nodos y barajar los datos de entrenamiento.
22
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información
A modo de ejemplo, en las tablas 21 y 22 se presentan las configuraciones y los resultados ajustados de la
precisión global y sensibilidad (recall) de los algoritmos C4.5 y Perceptron Multicapa usando validación
cruzada con 10 carpetas. Los ajustes realizados a los algoritmos C4.5 y Perceptron Multicapa no fueron
suficientes para mejorar el nivel de precisión global y sensibilidad, y alcanzar una mejor calidad predictiva de
sus modelos. Por lo tanto, para el proceso de evaluación se mantendrán los mismos resultados obtenidos
durante la etapa de experimentación con los valores configurados por defecto.
Tabla 21. Sensibilización del algoritmo C4.5 usando validación cruzada (10 carpetas)
Configuraciones
Variables Default 1 2 3
binarySplits False False False True
confidenceFactor 0.25 0.15 0.10 0.25
minNumObj 2 2 2 3
numFolds 3 2 2 3
reducedErrorPruning False True True False
seed 1 1 1 1
subtreeRaising True True True True
unpruned False False False False
useLaplace False True True False
Correctly Classified 82% 82% 83% 82%
Recall (Sensibilidad) 90% 90% 90% 90%
Tabla 22. Sensibilización del algoritmo Perceptron Multicapa usando validación cruzada (10 carpetas)
Configuraciones
Variables Default 1 2 3
learningRate 0.3 0.2 0.3 0.01
momentum 0.2 0.2 0.1 0.1
normalizeAtribute True True True True
seed 0 0 0 1
trainingTime 500 500 500 600
Correctly Classified 75% 77% 77% 82%
Recall (Sensibilidad) 90% 84% 84% 88%
Las figuras 10, 11, 12 y 13 presentan gráficamente los resultados obtenidos por los algoritmos C4.5, Naive
Bayes y Perceptrón Multicapa, respecto a las métricas de observaciones correctamente clasificadas (precisión
global), Coeficiente de Kappa, sensibilidad (Recall) y error absoluto medio sobre la muestra de 8 variables y
267 observaciones. Por lo tanto, se puede concluir que el modelo predictivo con mejor resultado es Naive
Bayes con una precisión global del 83%, Coeficiente Kappa del 63%, error absoluto medio del 26% y una
sensibilidad del 90%. Lo sigue C4.5 con un 82% de precisión, Coeficiente Kappa del 60%, error absoluto
23
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información
medio del 27% y una sensibilidad del 90%. El algoritmo con peor resultado fue el Perceptrón Multicapa con
una precisión global del 75%, Coeficiente Kappa del 46%, error absoluto medio del 26% y una sensibilidad
del 90%.
3.7 Implantación
La planificación y control de despliegue del modelo desarrollado fue informado a los investigadores del
Departamento de Ciencias Biomédicas a través de los siguientes pasos [34]:
Según lo conversado con los investigadores del proyecto de Ciencias Biomédicas, se puede resumir que los
patrones de conocimiento obtenidos por la clasificación de Naive Bayes, C4.5 y Perceptrón Multicapa,
servirán de conocimiento base para la extensión del proyecto FONDEF y los futuros resultados enzimáticos
del diagnóstico de deterioro neuropsicológico. Además, para el futuro proyecto se planteó la necesidad de
24
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información
utilizar técnicas de análisis descriptivos de tipo clustering y reglas de asociación, para obtener resultados más
idóneos dentro de la investigación y predicción del deterioro neuropsicológico.
Finalmente, el resultado de esta tesina se traduce como el primer paso para establecer un sistema de análisis
de datos (descubrimiento de información) basado en el área de la minería de datos e inteligencia artificial
computacional (aprendizaje de máquinas) para los futuros proyectos de investigación del Departamento de
Ciencias Biomédicas.
4 Conclusiones
En esta tesina se ha podido comprobar la hipótesis “Es posible construir un modelo predictivo con un nivel de
precisión superior al 60% para diagnosticar deterioro neuropsicológico a individuos en situación de
exposición prolongada a pesticidas organofosforados de la IV región de Coquimbo”. Las métricas
seleccionadas que ayudaron a validar los resultados, es decir, la precisión global y la precisión detallada
(exactitud) de la clasificación, evidenciaron que el modelo predictivo Naive Bayes arrojó los mejores
resultados con un 84% de nivel de confianza y una sensibilidad del 90% para el diagnóstico.
Otro de los algoritmos que presentó un buen resultado fue C4.5, el cual logró construir un modelo predictivo
con un nivel de confianza del 82% y una sensibilidad del 90%, similar a los resultados entregados por el
modelo del algoritmo Naive Bayes. Lamentablemente, queda el cuestionamiento acerca si el algoritmo C4.5
pudo haber logrado un mejor resultado frente a Naive Bayes, con una cantidad mayor de observaciones en la
muestra y una mayor cantidad de pruebas de sensibilización.
Respecto al experimento realizado con el algoritmo Naive Bayes, éste ha demostrado tener bastantes ventajas
frente a los otros algoritmos estudiados, respecto a que construye un modelo basado en probabilidades, es
eficaz y es muy fácil de sensibilizar los parámetros de optimización del modelado (ej. discretización de
variables numéricas durante el proceso de clasificación). Lamentablemente, el algoritmo no pudo ser
sensibilizado debido a que los atributos numéricos de la muestra fueron procesados con una discretización
manual, durante la fase de transformación de los datos con la herramienta WEKA.
Por otra parte y como trabajos futuros, se propone incorporar al modelo predictivo la variable “Años de
exposición a pesticidas” y la variable de confusión “Consumo de Alcohol” con el objetivo de lograr mejoras
de precisión global y detallada en el proceso de clasificación. Asimismo, sería interesante poder analizar estas
variables con los algoritmos de selección de atributos y ver su relación con la clase deterioro. Por último, se
propone profundizar el estudio de los efectos que produce la discretización ya que existe una amplia rama de
enfoques y métodos que pueden mejorar el proceso de clasificación
25
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información
Por otro lado, se deja abierta la posibilidad de investigar acerca de la aplicación de métodos
multiclasificadores como Bagging y Adaboots, ya que a diferencia de las otras técnicas de clasificación
tradicionales, éstas están logrando un amplio auge en el ámbito científico ya que resuelven los problemas de
sobreaprendizaje (overfitting) y tienen en cuenta todas las hipótesis válidas en mayor o menor grado con los
datos. Por último, se recomienda profundizar en las técnicas de minería de datos que están encaminadas a
tratar el problema de desbalanceo de los datos como SMOTE; desbalanceo de los datos consiste en la
predominancia de ciertos valores en los datos y la escasez o ausencia de otros datos los cuales dificultan o
impiden la extracción de información.
Finalmente, este proyecto de tesina representa el punto de partida para la aplicación de técnicas de minería de
datos en los proyectos de investigación y asistencia técnica del Departamento de Ciencias Biomédicas.
Además; los resultados del proyecto se transferirán al Laboratorio de Salud Ocupacional de la Universidad
Católica del Norte y a su vez podrá entregar la metodología a otros interesados del país. Los usuarios finales
serán los hospitales, clínicas, mutualidades y laboratorios que aplicarán el diagnóstico para detección de
deterioro neuropsicológico en personas en situación de exposición a organofosforados. Los beneficiarios
finales serán los trabajadores agrícolas expuestos a pesticidas en sus lugares de trabajo.
5 Referencias Bibliográficas
[1] Corral Zavala, S. A. (2010). “Efectos en el desarrollo cognitivo en personas expuestas a pesticidas en la
región de Coquimbo”. (Tesis Magister). Facultad de Educación. Universidad Diego Portales.
[2] Muñoz M.T., Iglesias V.P, Lucero B.A. (2011). “Exposición a organofosforados y desempeño cognitivo
en escolares rurales chilenos: un estudio exploratorio”. Rev. Fac. Nac. Salud Pública; 29(3): 256-263.
[3] Muñoz M.T. (2010). “Uso de plaguicidas y discapacidad intelectual en estudiantes de escuelas
municipales”, provincia de Talca, Chile. Rev. Fac. Nac. Salud Pública; 28(1): 29-3.
[4] Pancetti, F. (2010). “Desarrollo de un biomarcador eritrocítico de alta sensibilidad para el diagnóstico de
exposición prologada a pesticidas (Proyecto FONDEF D09I1057)”. Coquimbo: Universidad Católica del
Norte, Departamento de Ciencias Biomédicas.
[5] Hernández, J., Ramírez, M., Ferri, C. (2004). “Introducción a la minería de datos”. Pearson Educación
S.A. Madrid.
[6] Palma, C., Palma, W., Pérez, R. (2009). “Data Mining. El arte de anticipar”. RIL Editores. Chile.
[7] Rokach, L. (2008). “Data Mining with Decision Trees: Theory and Applications”. Mundo Científico.
[8] Han, J., Kamber, M. (2011) “Data Mining: Concepts and Techniques”, Third Edition. Morgan Kaufmann
Publisher Inc., San Francisco.
[9] Cristianini, N., Shawe-Taylor, J. (2000). “An introduction to support vector machines and other kernel-
based learning methods”. Cambridge University Press.
[10] Moine, J.M. Gordillo, S., Haedo, AS (2011). “Análisis comparativo de metodologías para la gestión de
proyectos de minería de datos”: XVIII Congreso Argentino de Ciencias de la Computación (pp. 931-938).
Buenos Aires: Universidad de Buenos Aires.
[11] Maimon, O., Rokach, L. (2004). “Data Mining and Knowledge Discovery Handbook”. Springer Science
& Business Media.
[12] Gallard, J. (2009). “Metodología para la Definición de Requisitos en Proyectos de Data Mining (ER-
DM)”. (Tesis Magister). Facultad de Informática. Universidad Politécnica de Madrid.
[13] Kharya, S. (2012). “Using data mining techniques for diagnosis and prognosis of cancer disease”. arXiv
preprint arXiv:1205.1923.
[14] Sudha, S. (2013). “Disease prediction in data mining technique–a survey.IJCAIT”, 2(1): 17-21.
[15] Bellaachia, A., & Guven, E. (2006). “Predicting breast cancer survivability using data mining
techniques”. Age, 58(13): 10-110.
[16] Bhatla, N., Jyoti, K. (2012). “An analysis of heart disease prediction using different data mining
Techniques”. In International Journal of Engineering Research and Technology (Vol. 1, No. 8 October).
ESRSA Publications.
26
Universidad Técnica Federico Santa María
Departamento de Informática
Programa de Magíster en Tecnologías de la Información
[17] Maroco, J., Silva, D., Rodrigues, A., Guerreiro, M., Santana, I., Mendonça, A. (2011). “Data mining
methods in the prediction of Dementia: A real-data comparison of the accuracy, sensitivity and specificity of
linear discriminant analysis, logistic regression, neural networks, support vector machines, classification trees
and random forests”. BMC research notes.
[18] Rajkumar, M., Reena, G. S. (2010). “Diagnosis of Heart Disease using Datamining Algorithm”. Global
journal of computer science and technology, 10(10).
[19] Diwani, S.A, Anael S. (2014). "Diabetes Forecasting Using Supervised Learning Techniques”.
International Journal, Vol. 3, Issue 5, No.11
[20] Ramani, R. G., Sivagami, G. (2011). “Parkinson disease classification using data mining algorithms”.
International journal of computer applications, 32(9): 17-22.
[21] Sivaraman, A., Lakshmi, M., Rajesh, S. A. (2013). “Diagnosis and Risk Assessment of Cancer On Genes
Dataset Using Data Mining Techniques”. International Journal Of Engineering And Computer Science,
Volume 2, Issue 8, August: 2430-2433.
[22] KDnuggets™ - Data Mining Community Top resources.
http://www.kdnuggets.com/polls/2007/data_mining_methodology.htm
[23] KDnuggets™ - Data Mining Community Poll current. http://vote.sparklit.com/poll.spark/203792
[24] Nettleton, D. (2005). “Técnicas para el análisis de datos”. Ediciones Díaz de Santos.
[25] Ramos, R.M., Palmero, M.R. M.R., Ávalos, R.G., Lorenzo, M. M. G. (2007). “Aplicación de métodos de
selección de atributos para determinar factores relevantes en la evaluación nutricional de los niños”. Gaceta
Médica Espirituana, 9(1), 1.
[26] Weka University of Waikato http://www.cs.waikato.ac.nz/ml/weka/
[27] Tufféry, S. (2011). “Data mining and statistics for decision making”. John Wiley & Sons.
[28] Wahbeh, A. H., Al-Radaideh, Q. A., Al-Kabi, M. N., & Al-Shawakfa, E. M. (2011). “A comparison
study between data mining tools over some classification methods. International Journal of Advanced
Computer Science and Applications”, Special Issue, 18-26.
[29] Kohavi, R. (1995). “A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model
Selection”. Computer Science Department - Stanford University.
[30] Hall, M., Holmes, G. (2000). “Benchmarking Attribute Selection Techniques for Data Mining”.
Department of Computer Science, University of Waikato.
[31] Yao, J. (2003) “Sensitivity Analysis for Data Mining”. Department of Computer Science – University of
Regina, Canada.
[32] Weka Classifier Trees http://weka.sourceforge.net/doc.dev/weka/classifiers/trees/J48.html.
[33] Weka Classifier Multilayer Perceptron
http://weka.sourceforge.net/doc.dev/weka/classifiers/functions/MultilayerPerceptron.html.
[34] IBM Bussiness Analytics (2012). Manual CRISP-DM de IBM SPSS Modeler (versión 15.0., Texto rev.).
27