You are on page 1of 11

Tcnicas de minera de datos

1. Resumen
2. Introduccin
3. La Minera de Datos y el Descubrimiento de Conocimiento en Bases de Datos.
. !erramientas "ara la minera de Datos. #$L #er%er 2&&'
'. Metodolo(as de desarrollo "ara "royectos de Minera de Datos. CRI#)*DM
+. Resultados del Caso de ,studio
-. ,%aluacin
.. Des"lie(ue
/. Conclusiones
1&. Recomendaciones
11. Re0erencias
1btencin de "atrones y re(las en el "roceso acadmico de la 2ni%ersidad de las Ciencias
in0orm3ticas utili4ando tcnicas de minera de datos
R,#2M,5
A partir de la aplicacin de un grupo de tcnicas de Minera de Datos como el clustering, los rboles de
decisin y algoritmos de aprendizaje inductivo, se pretende clasificar a los estudiantes de acuerdo a su
rendimiento acadmico, para posteriormente encontrar patrones ocultos y reglas que los caractericen
basado en las relaciones que se establecen entre el centro de procedencia de los estudiantes, nivel de
escolaridad de los padres y provincia de origen con sus resultados acadmicos en el primer curso en la
universidad! "stos resultados pueden mejorar el proceso de formacin acadmica y elevar la calidad de la
educacin en la #niversidad de las $iencias %nformticas &#$%'!
(alabras claves) $alidad del proceso docente, Descubrimiento de $onocimientos en *ases de Datos,
Minera de Datos!
ABSTRACT
This investigation intends to classify the students of the University of Informatics Sciences according to their
academic behaviour using a set of Data Mining techniques like clustering, decision trees and inductive
learning algorithms. The main goal of this work is to find hidden atterns and rules that define this behaviour,
based on the relationshi established between the scholarshi level of the student!s arents, and their
academic origins with their grades in the first year of their career. These results can hel to imrove the
quality of the academic rocess in the U"I.
#ey words$ %uality of the academic rocess, #nowledge Discovery in Databases, Data Mining
I5TR1D2CCI65
+a #niversidad de las $iencias %nformticas &#$%' cuenta desde el curso escolar ,--./,--0 con una
matrcula de alrededor de 1- --- estudiantes procedentes de todas las provincias y municipios del pas,
con los ms diversos orgenes sociales y acadmicos sin que, 2asta el momento, se 2ayan realizado
estudios que eval3en la influencia de estos factores en su formacin posterior! (or lo que estos factores no
son tomados en cuenta a la 2ora de realizar el proceso de captacin de los estudiantes de nuevo ingreso a
la universidad, ni de brindarles a los ya matriculados el seguimiento necesario, lo que puede conducirlos en
condiciones e4tremas a causar baja del centro! Mientras que en otros casos se dejan de identificar a los
alumnos con mayor potencial, que pudieran formar parte de proyectos o grupos de investigacin, o
simplemente armar al claustro de profesores con la informacin conveniente para que puedan brindarle
atencin diferenciada a sus estudiantes en aras de fomentar el pleno desarrollo de sus capacidades y
dndole as cumplimiento al objetivo primordial de la #niversidad, que es el de formar profesionales de la
informtica cada vez mejor preparados!
5oda la informacin personal y docente de los estudiantes, desde 2ace cinco a6os se encuentra digitalizada
y se mantiene en 2istricos que no brindan mayor utilidad que la de los reportes tradicionales!
"s por esto que en la #niversidad se 2ace necesario contar con mtodos eficientes y automticos para
e4plorar las grandes *ases de Datos, procesando de forma rpida y fiable la informacin para encontrar
patrones de conocimiento apropiados para resolver un problema!
"s por esto que el objetivo fundamental de este trabajo est orientado a determinar el vnculo que e4iste
entre el origen y procedencia social de los estudiantes de la #$% con sus resultados acadmicos mediante
la aplicacin de tcnicas de agrupacin y reglas de asociacin de Minera de Datos!

1. La Minera de Datos y el Descubrimiento de Conocimiento en Bases de Datos.
+a Minera de Datos &DM' por las siglas en ingls Data Mining es el proceso de e4traer conocimiento 3til y
comprensible, previamente desconocido, desde grandes cantidades de datos almacenados en distintos
formatos 718! +as 2erramientas de Data Mining predicen futuras tendencias y comportamientos, permitiendo
en los negocios la toma de decisiones!
"4isten trminos que se utilizan frecuentemente como sinnimos de la minera de datos! #no de ellos se
conoce como 9anlisis &inteligente' de datos9 7,8, que suele 2acer un mayor 2incapi en las tcnicas de
anlisis estadstico! :tro trmino muy utilizado, y el mas relacionado con la minera de datos, es la
e4traccin o 9descubrirniento de conocimiento en bases de datos9 &;no<ledge Discovery in Databases o
;DD, seg3n sus siglas en ingls'! 7=8
Aunque algunos autores usan los trminos Minera de Datos y ;DD indistintamente, como sinnimos,
e4isten claras diferencias entre los dos! As la mayora de los autores coinciden en referirse al ;DD como
un proceso que consta de un conjunto de fases, una de las cuales es la minera de datos! 7,8 De acuerdo
con esto, el proceso de minera de datos consiste 3nicamente en la aplicacin de un algoritmo para e4traer
patrones de datos y se llamar ;DD al proceso completo que incluye pre/procesamiento, minera y post/
procesamiento de los datos!
"l ;DD seg3n 7>8 es la e4traccin automatizada de conocimiento o patrones interesantes, no triviales,
implcitos, previamente desconocidos, potencialmente 3tiles y predictivos de la informacin de grandes
*ases de Datos!
+a figura 1 muestra las fases del proceso de ;DD, una de las cuales es la Minera de Datos
7i(ura 1) ?ases del proceso ;DD
+as investigaciones en temas de ;DD incluyen anlisis estadstico, tcnicas de representacin del
conocimiento y visualizacin de datos, entre otras! Algunas de las tareas ms frecuentes en procesos de
;DD son la clasificacin y clustering, el reconocimiento de patrones, las predicciones y la deteccin de
dependencias o relaciones entre los datos!
1.1 )royectos en Minera de Datos
+os pasos a seguir para la realizacin de un proyecto de minera de datos son siempre los mismos,
independientemente de la tcnica especfica de e4traccin de conocimiento usada!
7i(ura 28 ?ases dentro de un proceso de Minera de Datos
"l proceso de minera de datos pasa por las siguientes fases)
1! $omprensin del negocio y del problema que se quiere resolver!
,! ?iltrado de datos)
"l formato de los datos contenidos en la fuente de datos nunca es el correcto, y la mayora de las
veces no es posible ni siquiera utilizar alg3n algoritmo de minera sobre los datos iniciales sin que
requieran alguna transformacin! "n este paso se filtran los datos con el objetivo de eliminar valores
incorrectos, no vlidos o desconocidos seg3n las necesidades y el algoritmo a utilizar! Adems se
obtienen muestras de los datos en busca de mayor velocidad y eficiencia de los algoritmos, o se
reducen el n3mero de valores posibles para los atributos de anlisis!
=! @eleccin de variables)
Despus de realizar la limpieza de los datos, en la mayora de los casos se tiene una gran cantidad de
variables o atributos! +a seleccin de caractersticas reduce el tama6o de los datos, sin apenas
sacrificar la calidad del modelo de conocimiento obtenido del proceso de minera seleccionando las
variables ms influyentes en el problema!
+os mtodos para la seleccin de los atributos que ms influencia tienen en el problema son
bsicamente dos)
Aquellos basados en la eleccin de los mejores atributos del problema!
Aquellos que buscan variables independientes mediante tests de sensibilidad, algoritmos de
distancia o 2eursticos!
>! "4traccin de $onocimiento
+a e4traccin del conocimiento es la esencia de la Minera de Datos donde mediante una tcnica, se
obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los
valores de las variables del problema o relaciones de asociacin entre dic2as variables! +os modelos que
se generan son e4presados de diversas formas)
reglas
rboles
redes neuronales
5ambin pueden usarse varias tcnicas a la vez para generar distintos modelos, aunque generalmente
cada tcnica obliga a un pre/procesado diferente de los datos!
A! %nterpretacin y "valuacin
#na vez obtenido el modelo, se procede a su validacin donde se comprueba que las conclusiones que
arroja son vlidas y suficientemente satisfactorias! "n el caso de 2aber obtenido varios modelos mediante
el uso de distintas tcnicas, se deben comparar los modelos para buscar el que se ajuste mejor al
problema! @i ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos
anteriores para generar nuevos modelos!
2. !erramientas "ara la minera de Datos. #$L #er%er 2&&'.
Microsoft @B+ @erver ,--A incorpora la 2erramienta @B+ Analysis @erver estableciendo nuevas facilidades
para realizar Minera de Datos, entre las que se cuentan)
"l procesamiento de los modelos de una misma estructura de minera ocurre en paralelo, en una
sola lectura de los datos!
(roporciona ms de 1, visores de resultados para los algoritmos que ayudarn a comprender
mejor los patrones encontrados en el proceso de minera!
(roporciona grficos de elevacin, de beneficios y una matriz de clasificacin que permite
establecer una comparacin de lo real con lo previsto para contrastar y comparar la calidad de los
modelos!
(osee un lenguaje para la creacin de consultas de minera &DMC' similar al @B+ que facilita la
tarea de creacin de aplicaciones de minera de datos!
(osee una interfaz grfica para generar las consultas DMC!
$uenta con los algoritmos de minera ms avanzados) Daive *ayes, $lustering, $l3steres de
@ecuencia, Erboles de Decisin, Fedes Deuronales, @eries 5emporales, Feglas de Asociacin,
Fegresin +ogstica, y Fegresin +ineal y minera de te4tos!
Marco de desarrollo para agregar nuevos algoritmos y tambin para construir visores propios para
los modelos generados! 7A8 7.8 708 7G8 7H8 71-8!
3. Metodolo(as de desarrollo "ara "royectos de Minera de Datos. CRI#)*DM.
+a metodologa $F%@(/DM 7118 consiste en un conjunto de tareas descritas en cuatro niveles de
abstraccin) fase, tarea genrica, tarea especializada, e instancia de proceso, organizados de forma
jerrquica en tareas que van desde el nivel ms general 2asta los casos ms especficos!
7ase) @e le denomina fase al asunto o paso dentro del proceso!$F%@(/DM consta de . fases) comprensin
del negocio, comprensin de los datos, preparacin de los datos, modelacin, evaluacin y e4plotacin!
Tarea (enrica) $ada fase esta formada por tareas genricas, o sea, la tarea genrica es la descripcin de
las actividades que se realizan dentro de cada fase! (or ejemplo, la tarea +impiar los datos es una tarea
genrica!
Tarea es"eciali4ada) +a tarea especializada describe cmo se pueden llevar a cabo las tareas genricas
en situaciones especficas! (or ejemplo, la tarea +impiar los datos tiene tareas especializadas, como
limpiar valores numricos, y limpiar valores categricos!
Instancias de "roceso) +as instancias de proceso son las acciones y resultados de las actividades
realizadas dentro de cada fase del proyecto!
+as fases del proyecto de Minera de acuerdo a lo establecido por la metodologa $F%@(/DM interact3an
entre ellas de forma iterativa durante el desarrollo del proyecto! +a secuencia de las fases no siempre es
ordenada, o en ocasiones si se determina al realizar la evaluacin que los objetivos del negocio no se
cumplieron se debe regresar y buscar las causas del problema para redefinirlo!
. Resultados del Caso de ,studio.
"l caso de estudio seleccionado para realizar el proyecto de ;DD se refiere a la prediccin de las notas de
las asignaturas del primer a6o de los estudiantes de la #$% basado en las relaciones que se establecen
entre el nivel de escolaridad de los padres, tipo de centro de procedencia, provincia y resultados
acadmicos!
+os datos seleccionados para realizar el proyecto de Minera de Datos corresponden a la informacin
personal y calificaciones en las asignaturas del primer curso escolar de los estudiantes de la #$% que
actualmente cursan el segundo, tercero, cuarto y quinto a6o! @e utiliza la informacin del primer curso
escolar ya que los estudiantes de primer a6o reciben mayor influencia de las variables a analizar como
entradas para las predicciones!
@e utiliza una muestra aleatoria representativa del H-I de los datos para realizar el proyecto de ;DD!
"l proyecto fue desarrollado por siguiendo los lineamientos de la metodologa $F%@(/DM!
1* Com"rensin del ne(ocio.
+a #$% dispone de un @istema Automatizado para la gestin acadmica de los estudiantes &A;AD"M:@'!
"n el mismo se almacena informacin personal y resultados acadmicos de los estudiantes en las
diferentes asignaturas! "l sistema brinda la utilidad de los reportes tradicionales que permiten obtener
informacin de los estudiantes que 2an matriculado en la universidad!
A;AD"M:@ es un sistema informtico en el cual todos los involucrados &directivos, personal de secretara,
profesores y estudiantes' tienen un papel activo en el proceso de gestin acadmica! A partir de la
informacin que brinda este sistema y con los test evaluativos que se realizan a los estudiantes antes de
matricular en la universidad, en la #$% especficamente en el $entro de %nvestigaciones por la $alidad de
la "ducacin &$%$"', se est desarrollando el proyecto J(erfeccionamiento del proceso de seleccin para
nuevos ingresos al curso regular de la #niversidad de $iencias %nformticasK!
Despus de realizar entrevistas a usuarios, personal de la Direccin de %nformatizacin de la #$% y de la
Direccin del $entro de %nvestigacin por la $alidad de la "ducacin &$%$"' en la #niversidad de las
$iencias %nformticas se defini el siguiente caso de estudio a realizar en el proyecto de ;DD)
(redecir las notas de las asignaturas del primer a6o de los estudiantes de la #$% basado en las relaciones
que se establecen entre el nivel de escolaridad de los padres, tipo de centro de procedencia, provincia y
resultados acadmicos!
2* Com"rensin de los datos.
+os datos utilizados pertenecen al perodo del ,--1 2asta el ,--., especficamente a la informacin
personal y acadmica de los estudiantes que eran matrcula de la #$% en esta etapa tomando de estos la
informacin 2istrica en su primer a6o en la universidad! +a *ase de Datos se encontraba en un servidor
@B+ @erver ,---, por lo que fue necesario importarla para un servidor @B+ @erver ,--A, en orden de
poder utilizar las facilidades que brinda esta 2erramienta para la Minera de Datos!
(ara decidir que datos utilizar se realiz un estudio conjunto entre especialistas y desarrolladores donde se
analiz el contenido y la complejidad de la *ase de Datos, de las tablas implicadas y sus relaciones as
como el tipo de datos de los atributos, sus posibles valores, significado en el negocio y relevancia dentro
del mismo adems se comprobaron los atributos de entradas libres y si e4istan llaves repetidas!
@lo se tomaron en cuenta los resultados acadmicos del primer curso escolar pues sobre estas e4iste
mayor influencia de las variables centro de procedencia, provincia y nivel de escolaridad de los padres!
Debido a los lmites de la investigacin no se seleccionaron todas las asignaturas de primer a6o, sino
aquellas que se consideraron ms relevantes, Matemtica Discreta, %ntroduccin a la (rogramacin,
(rogramacin %, Matemtica % y Algebra +ineal!
+os atributos ms importantes para el proyecto de Minera fueron analizados en el dise6ador de vistas de
origen de datos de *usiness %ntelligence Development @tudio y el editor de consultas del Management
@tudio! $on estas 2erramientas se estudiaron los atributos, sus valores y el comportamiento de los mismos!
@e realiz una b3squeda de los posibles valores de los atributos, a partir de la fuente de datos con las
2erramientas de Microsoft :ffice Leb $omponents, con el objetivo de encontrar valores incorrectos que
pudieran traer problemas en las predicciones, adems para analizar cuales atributos podran requerir
discretizacin!
3* )re"aracin de los datos.
5oda la informacin necesaria para realizar la investigacin se encuentra en la *ase de Datos A;AD"M:@
por lo que no fue necesario integrar varios orgenes de datos! +os atributos seleccionados para realizar el
proyecto de Minera correspondiente a los datos personales de los estudiantes se encontraban en varias
vistas dentro de la *ase de Datos!
$on el objetivo de asociar en una sola tabla los datos personales de los estudiantes en el %ntegration
@ervices utilizando el componente #nion Alll se obtuvo la tabla Datos &ist'ricos a partir de las > vistas Moja
de matriculaN1-GNe, Moja de matriculaN11-Ne, Moja de matriculaN11,Ne y Moja de matriculaN11>Ne donde
se encuentra la informacin de los estudiantes matriculados en la #niversidad en el perodo comprendido
entre los a6os ,--1 al ,--. como se observa en la figura =!
7i(ura 38 #nin de los datos personales de los estudiantes!
A partir de la tabla que contiene las asignaturas pivoteadas y de la tabla donde se encuentran los datos
personales de los estudiantes se obtiene una nueva vista &(otas Datos) donde se asocia la informacin
perteneciente a los mismos objetos!
Feferente a los casos sobre los que se trabaja, los mismos fueron seleccionados de la tabla que contiene
toda la informacin personal y acadmica de los estudiantes &(otas*Datos', utilizando el componente
(ercentage @ampling del @B+ @erver %ntegration @ervices &@@%@', en el proyecto se seleccion el H-I de
los datos!
* Modelacin
(ara la realizacin de este paso se utilizaron las tcnicas de Minera de Datos del @B+ @erver ,--A,
utilizando la 2erramienta @B+ @erver *usiness %ntelligence Development @tudio, especficamente @B+
@erver Analysis @ervices &@@A@'!
A continuacin se muestran las tcnicas y visores a utilizar por cada objetivo de la Minera!

1b9eti%o de Minera Tcnica
1! Fealizar una segmentacin adecuada de
los estudiantes, tomando como columnas de
entrada la provincia, nivel de escolaridad de
los padres, centro de procedencia y las notas
de las asignaturas del primer a6o de la
carrera!
,! Analizar los cl3steres obtenidos de acuerdo
a las notas que predominan en cada grupo
como paso analtico para el pr4imo objetivo!
Algoritmo de clustering de Microsoft

Oisor de cl3steres de Microsoft

Diagrama del cl3ster

(erfiles del cl3ster

$aractersticas del cl3ster

Distincin del cl3ster


!

=! :btener reglas que permitan descubrir la
influencia que tiene la provincia, nivel de
escolaridad de los padres y centro de
procedencia de los estudiantes en sus
resultados acadmicos y permitan predecir la
nota final en cada asignatura analizada!
Algoritmo de Erboles de Decisin de Microsoft

Oisor de rboles de decisin de


Microsoft!

Fed de dependencia

Prfico de elevacin

Matriz de $lasificacin
Tabla 1) 5cnicas y visores a aplicar por objetivos de la minera!
Dise:o de "ruebas.
"l dise6o de las pruebas sobre los datos se realiz utilizando la 2erramienta @B+ @erver %ntegration
@ervices, empleando la tcnica de validacin cruzada!
@B+ @erver %ntegration @ervices tiene componentes que permiten obtener muestras aleatorias
representativas seg3n un porciento de los datos o seg3n determinada cantidad de filas, estos componentes
son el (ercentage @ampling y Fo< @ampling y proporcionan, adems otros componentes para unir varias
muestras desde diversos orgenes o fuentes de datos, realizar consultas @B+ y guardar los resultados
obtenidos en diversos destinos!
#tilizando estos componentes se realizaron los dise6os de casos de prueba seg3n la tcnica de Oalidacin
$ruzada la cual consiste en dividir los datos en 1- grupos o muestras y realizar 1- corridas o iteraciones
donde en cada una se combinan H muestras para obtener una muestra de e4perimento y se deja una como
muestra de prueba! De esta forma todas las muestras son utilizadas como e4perimento y como prueba! Al
final se selecciona el e4perimento sobre el cual se realicen mejores predicciones, o sea donde el error sea
menor!
"n la siguiente figura se muestra el flujo de control del paquete de pruebas del %ntegration @ervices,
utilizando validacin cruzada!
7i(ura ') ?lujo de $ontrol del paquete de pruebas utilizando validacin cruzada
;aloracin del modelo <rboles )rediccin 5ota en el ,="erimento >3
A partir de los resultados obtenidos por los modelos que se e4plican en la fase de "valuacin la prediccin
logr resolver con 4ito los siguientes por cientos de los casos de entrada seg3n las asignaturas y notas)
"n la asignatura Algebra +ineal se resuelven con 4ito el ,.I de los casos donde la nota es A
con probabilidad de -!0. el >-I donde la nota es > con probabilidad entre -!0> y -!H. el ,GI
para la nota de = con probabilidad mayor que -!0A y el >I para la nota , con probabilidad de
-!A-!
"n la asignatura %ntroduccin a la (rogramacin se resuelven con 4ito el =AI de los casos
donde la nota es A con probabilidad de -!0G el ,,I donde la nota es > con probabilidad de
-!.- el =0I para la nota de = con probabilidad mayor que -!0, y el 1=I para la nota , con
probabilidad entre -!A, y -!G,!
"n la asignatura Matemtica Discreta se resuelven con 4ito el ,1I de los casos donde la
nota es A con probabilidad mayor que -!0, el =GI donde la nota es > con probabilidad entre
-!.A y -!0= el =0I para la nota de = con probabilidad entre -!GA y -!HA y el >I para la nota ,
con probabilidad de -!=1!
"n la asignatura Matemtica % se resuelven con 4ito el 1GI de los casos donde la nota es A
con probabilidad de -!.0 el =1I donde la nota es > con probabilidad de -!A= el >.I para la
nota de = con probabilidad entre -!GA y -!H= y el 1>I para la nota , con probabilidad de -!.A!
"n la asignatura (rogramacin % se resuelven con 4ito el ,1I de los casos donde la nota es A
con probabilidad entre -!.G y -!H= el ,>I donde la nota es > con probabilidad entre -!0, y
-!G0 el A-I para la nota de = con probabilidad de -!G0 y el HI para la nota , con probabilidad
mayor que -!>=!
+a prediccin es altamente efectiva, las probabilidades son altas en la mayora de los casos!
'* ,%aluacin
"n esta fase se eval3a el modelo escogido, no desde el punto de vista general, sino del cumplimiento de
los objetivos del negocio! @e debe revisar el proceso teniendo en cuenta los resultados obtenidos, para
repetir alguna fase en caso que se 2ayan cometido errores! @i el modelo generado es vlido en funcin de
los criterios de 4ito establecidos en la primera fase y de la precisin del mismo, se procede al despliegue
de ste en caso de requerirse!
@e mostrarn a continuacin algunas de las reglas obtenidas, a partir de los modelos de rboles de
decisin generados para cada asignatura por nota!
?l(ebra Lineal
Dota Feglas (rob
A 5$NDe (rocedencia QR SD"(:F5"S
5$NDe (rocedencia T SD"(:F5"S
-!0.
-!A,
> (rovincia T (inar del Fo
(rovincia QR (inar del Fo
(rovincia QR (inar del Fo y D" del (adre QR 5cnico medio
(rovincia QR (inar del Fo y D" del (adre T 5cnico medio
-!H.
-!00
-!0>
-!GH
= D"NDel (adre T S(reuniversitarioS
D"NDel (adre QR S(reuniversitarioS
D"NDel (adre QR S(reuniversitarioS y D"NDe +a Madre QR S@ecundariaS
D"NDel (adre QR S(reuniversitarioS y D"NDe +a Madre T S@ecundariaS
-!H=
-!0A
-!0=
-!0H
, Do tiene influencia ninguno de los factores analizados sobre la nota -!A-
Tabla 2) Feglas obtenidas para la asignatura Algebra +ineal
)ro(ramacin I
Dota Feglas (rob
A 5$NDe (rocedencia T SD"(:F5"S
5$NDe (rocedencia QR SD"(:F5"S
5$NDe (rocedencia QR SD"(:F5"S y D"NDel (adre QR SDinguno
5erminadoS y (rovincia T SMolgunS
5$NDe (rocedencia QR SD"(:F5"S y D"NDel (adre QR SDinguno
5erminadoS y (rovincia QR SMolgunS
-!H=
-!.G
-!.H
-!.G
> 5 $NDe (rocedencia T S%(#"$S
5 $NDe (rocedencia QR S%(#"$S
5 $NDe (rocedencia QR UD"(:F5"S
5 $NDe (rocedencia T UD"(:F5"S
-!G0
-!0,
-!0,
-!>G
= Do tiene influencia ninguno de los factores analizados sobre la nota -!G>
, 5 $NDe (rocedencia T %(#"$
5 $NDe (rocedencia QR %(#"$
-!A=
Tabla 3) Feglas obtenidas para la asignatura (rogramacin %
Introduccin a la )ro(ramacin
Dota Feglas (rob
A Do tiene influencia ninguno de los factores analizados sobre la nota -!0G
> Do tiene influencia ninguno de los factores analizados sobre la nota -!.-
= (rovincia T S$iego de AvilaS
(rovincia QR S$iego de AvilaS
-!0,
-!0G
, 5$NDe (rocedencia QR %(#"$
5$NDe (rocedencia T %(#"$ y D"NDe la madre QR #niversitario
5$NDe (rocedencia T %(#"$ and D"NDe la madre T #niversitario
-!A,
-!G,
-!A,
Tabla ) Feglas obtenidas para la asignatura %ntroduccin a la programacin!
Al analizar los resultados obtenidos se comprob que las variables que ms influyen sobre los resultados
acadmicos de los estudiantes en su primer curso en la #niversidad es el tipo de centro de procedencia y
la provincia de origen
Resumen de e%aluacin de los resultados
A continuacin se muestra una tabla con el por ciento estimado de cumplimiento del objetivo del negocio
basado en los criterios de 4ito!
Criterios de =ito del ne(ocio Cum"limiento estimado
:btener un modelo de conocimiento y comprobar que las
conclusiones obtenidas son vlidas o 3tiles
1--I
Desarrollar el caso de estudio utilizando las 2erramientas de
@B+ @erver ,--A para minera de datos
1--I
Fealizar un proyecto de ;DD guiado por la metodologa
$F%@(/DM y la documentacin de cada una da las fases
1--I
%nterpretar los resultados de la relacin que e4iste entre la
procedencia social o acadmica de los estudiantes y sus
resultados acadmicos actuales
1--I
Tabla ') "stimado de cumplimiento de los criterios de 4ito del negocio!
@e estima que fue cumplido el objetivo del negocio correspondiente al descubrimiento de patrones ocultos
en los datos que permitan predecir los resultados acadmicos de los estudiantes de la #$%, basado en las
relaciones que se establecen entre $entro de (rocedencia V (rovincia V Divel de escolaridad de los padres,
con las Dotas de las asignaturas recibidas en el primer a6o de la carrera!
+* Des"lie(ue
+os modelos y reglas obtenidas podrn ser utilizados por el $entro de %nvestigaciones por la $alidad de la
"ducacin &$%$"', por la Direccin de ?ormacin Acadmica y en otras investigaciones sobre los
resultados acadmicos de los estudiantes de la #$%! $on las relaciones y patrones encontrados se podrn
trazar estrategias que permitan elevar la formacin docente de los nuevos ingresos a la #niversidad, de
acuerdo a las caractersticas propias de los estudiantes!
C15CL2#I15,#
$on la realizacin del presente trabajo se desarroll un proyecto de minera de datos guiado por la
metodologa $F%@(/DM, para determinar la relacin que e4istente entre la procedencia del origen social y
los resultados acadmicos en los estudiantes de la #$%! @e construyeron, entrenaron y evaluaron los
modelos de $lustering o agrupamiento y de Erboles de Decisin para obtener las reglas y patrones ocultos
en los datos! @e obtuvieron modelos de prediccin precisos que logran reglas con alto valor de certeza y
que permiten caracterizar los datos analizados y dise6os de prueba eficientes para proceder con
posteriores anlisis!
R,C1M,5D?CI15,#
#tilizar los resultados del proyecto en aplicaciones que permitan mejorar el proceso de
formacin acadmica de los estudiantes!
$ontinuar la investigacin a partir de los resultados obtenidos, siguiendo las orientaciones de la
fase de "valuacin, guiado por la metodologa $F%@(/DM!
?omentar el desarrollo de proyectos de Descubrimiento de $onocimiento en *ases de Datos en
la #niversidad de las $iencias %nformticas
R,7,R,5CI?#
718 %an M! Litten and "ibe ?ranW! Data Mining) (ractical Mac2ine +earning 5ools and 5ec2niques <it2 Xava
%mplementations! Morgan ;aufmann, ,---!
7,8 *ert2old, M! Mand, D!X! &eds!' Intelligent Data +nalysis. +n Introduction, @pringer, ,nd"dition, ,--=!
7=8 :rallo Mernndez, X!)Buintana Famrez, Ma! X!!)Famrez ?erri, $!)%ntroduccin a la Minera de Datos!
(rentice Mall, ,-->
7>8 ?ayyad, #! M!, (iatetsWy/@2apiro, P!, @mit2, (!, #t2urusamy F!) Advances in ;no<ledge Discovery and
Data/Mining, AAA% (ress Y 52e M%5 (ress, 1HH.!
7A8 $rivat, *!) @B+ @erver Data Mining (rogrammability! ! #F+)
2ttp)YYmsdn!microsoft!comYsqlYbiYdminingYdefault!asp4ZpullTYlibraryYen/usYdnsqlH-Y2tmlYsqldmprgrm!asp!
?ec2a de
Acceso) Dic 1,, ,--.!
7.8 %yer, Faman and $rivat, *ogdan @B+ @erver Data Mining) (lug/%n Algorit2ms! ! ?ec2a de Acceso) Dic
1=, ,--. #F+) 2ttp)YYmsdn!microsoft!comYsqlYbiYdminingYdefault!asp4ZpullTYlibraryYen/
usYdnsqlH-Y2tmlYssdmpia!asp!
708 Mac+ennan, X!) #neart2 t2e De< Data Mining ?eatures of Analysis @ervices ,--A! development lead for
t2e Data Mining engine in t2e @B+ @erver ,--A! M@DD Magazine, @eptember ,-->! #F+)
2ttp)YYmsdn!microsoft!comYmsdnmagYissuesY->Y-HYAnalysis@ervices,--AY! ?ec2a de Acceso) Dic 1=, ,--.!
7G8 Detz, A! @B+ @erver ,---) Data Mining Melps $ustomers MaWe *etter *usiness Decisions! %ntervie<ed
Detz, Amir Microsoft @B+ @erver Development Manager! #F+)
2ttp)YY<<<!microsoft!comYpresspassYfeaturesY,---Y->/,>sql!msp4! ?ec2a de Acceso) Dic 1A, ,--.!
7H8 5ang, +! and *radley, (!!!AM: +ets [ou Dig Deeper into [our Data from [our :<n Applications, M@DD
Magazine, Xune ,--A! #F+)
2ttp)YYmsdn!microsoft!comYsqlYbiYdminingYdefault!asp4ZpullTYmsdnmagYissuesY-AY-.Yam oYtoc!asp! ?ec2a de
Acceso) Dic 1A, ,--.!
71-8! 5ang, \!, Mac+ennan X!) Data Mining <it2 @B+ @erver, %@*D/1-) -/>01/>.,.1/.!
7118 $2apman, (!) $linton, X!) ;erber, F!) ;2abaza, 5!) Feinartz, 5!) @2earer, $!) Lirt2, F!) $F%@(/DM 1!-
@tep/by/step data mining guide, 1HHH!

You might also like