You are on page 1of 22

DATA MINING

SISTEMA DE TOMA DE DECISIONES

NJFNDJFNJD
SAMANIEGO
RICHARD
J

INDIC DE CONTENIDOS
INTRODUCCIN

1. PROBLEMA

2. CONCEPTUALIZACION

2.1 QUE ES MINERIA DE DATOS?

2.2 APLICACIONES DE MINERIA DE DATOS

2.3 TECNICAS DE MINERIA DE DATOS

2.4 MTODOS ESPECFICOS DE RBOLES DE DECISIN

2.5 ETAPAS PRINCIPALES DEL PROCESO DE DATA MINING


2.6 EXTENSIONES DEL DATA MINING

10
11

3 APLICACIN PRCTICA

13

4 CONCLUCIONES

18

6 BIBLIOGRAFIA

19

INDICE DE FIGURAS
Figura 1. Relacion entre dato, informacion y .6
conocimiento (molina 1998)
Figura2. Ventana inicial de Weka 13
Figura3. Interfaz explorer . 13
Figura4. Interfaz explorer con archivo Jugartenis.arff13
Figura 5. Visualizacin de caractersticas atributo.14
Figura6. Visualizacion de seleccin de algoritmo j4814
Figura 7. Visualizacin de pantalla al generar el rbol ADTree ..15
Figura 8. Visualizacin de pantalla Confusion Matrix....15
Figura 9. Visualizacin de pantalla Cluster. 16
Figura 10. Ventana al generar el modelo Clster...16
Figura 11. Ventana al seleccionar el modelo Associate...17
Figura 12. Ventana al generar el modelo Clster...17

INTRODUCCIN
Desde dcadas atrs el hombre se ha preocupado en producir bienes con mnimos
recursos, incluso exista pueblos que realizaban la planificacin, organizacin es decir
aplicaban la administracin a sus recursos y tambin empezaban a realizar transacciones
para bienes o servicios mediante monedas con sus propias insignias y descripciones. Es
aqu donde el hombre convierte la administracin en una ciencia. Se puede apreciar que
en dcadas atrs el hombre ha puesto en prctica habilidades, tcnicas con el uso de
herramientas para llevar a cabo una solucin. Desde ese entonces hasta la actualidad, el
mundo est experimentando cambios fundamentales, continuos avances en tecnologa de
informacin y comunicaciones por ende tiene un fuerte impacto en la forma de trabajar de
las personas.
Y desenrollado la prctica de la estadstica es la primera ciencia que histricamente
extrae informacin de los datos bsicamente mediante metodologas procedentes de las
matemticas. Cuando se empez a usar los ordenadores como apoyo para esta tarea
surgi el concepto de Machine learning traducido como aprendizaje automtico.
Posteriormente con el incremento de tamao y la estructuracin de los datos es cuando
se empieza a hablar de minera de datos. La idea de data mining no es nueva. Ya desde
los aos sesenta los estadsticos manejaban trminos como data shing, data mining o
data archaeology con la idea de encontrar correlaciones y a principios de los aos
ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro,
entre otros, empezaron a consolidar los trminos de data mining, nales de los aos
ochenta
En muchas reas del saber, el conocimiento se ha venido obteniendo por el clsico
mtodo hipottico-deductivo, l cual es fundamental el paso inductivo inicial: a partir de un
conjunto de observaciones y de unos conocimientos previos, la intuicin del investigador
le conduce a formular la hiptesis. Esta "intuicin" resulta inoperante cuando no se trata
de observaciones aisladas y casuales, sino de millones de datos almacenados en soporte
informtico. En el fondo de todas las investigaciones sobre induccin en bases de datos
subyace la idea de automatizar ese paso inductivo
Con la llegada de la era de la computacin, el mundo moderno ha experimentado un
crecimiento en la cantidad de informacin disponible sin precedentes en la historia.
3

Cada da generamos una gran cantidad de informacin, algunas


veces conscientes de que lo hacemos y otras veces inconscientes de ello porque
lo

desconocemos.

Nos

damos

cuenta

de que generamos

informacin

cuando

registramos nuestra entrada en el trabajo, cuando entramos en un servidor para


ver

nuestro

correo, cuando

pagamos

con

una

tarjeta

de

crdito

cuando

reservamos un billete de avin. Otras veces no nos damos cuenta de que


generamos

informacin,

como

cuando

conducimos

por

una

va donde

estn

contabilizando el nmero de automviles que pasan por minuto, cuando se sigue


nuestra navegacin por Internet o cuando nos sacan una fotografa del rostro al
haber

pasado

cerca de una oficina gubernamental, para identificar oportunidades y

retener a sus clientes a partir del buen uso de la informacin en las empresas.
Ya que dcadas anteriores slo existan un par de empresas dedicadas a esta tecnologa;
actualmente existen ms de 200 empresas en el mundo que ofrecen alrededor de 300
soluciones.

2. PROBLEMA
Teniendo en cuenta el gran avance en los sistemas de minera de datos desde el ltimo
siglo, las entidades educativas y empresariales han buscado maneras de explotar al
mximo la informacin existente en sus sistemas de informacin, esto basndose en
tcnicas y software especializados que permiten interpretacin fcil y real de los
resultados.
El xito de una organizacin en un entorno globalizado depende en gran medida del
conocimiento de sus miembros y de sus habilidades para hacer negocios. Sin embargo,
las organizaciones no solo necesitan de conocimiento, sino tambin necesitan tener la
capacidad de actualizar dinmicamente el conocimiento y ponerlo en prctica.
En esencia, deben ser capaces de resolver problemas, aprender de experiencias propias
y tambin de experiencias de otros, transfiriendo el conocimiento y la informacin de
forma rpida y eficiente a toda la organizacin.
En nuestros das, la gran mayora de las organizaciones tienen la capacidad de generar
grandes volmenes de datos, esto de una forma rpida y creciente como resultado de sus
operaciones diarias, no obstante, pocas son las organizaciones que producen informacin
de verdadero valor.
Es as como para dar apoyo en la toma de decisiones a niveles administrativos o
gerenciales, se crean metodologas especializadas y tcnicas de extraccin adecuada de
la informacin, haciendo que el usuario final pueda ver los resultados en un solo clic o con
pocos pasos, por tanto y teniendo en cuenta lo anterior.
Lo que se pretende con esta tecnologa es descubrir conocimiento oculto a partir de
grandes volmenes de datos. Desde la dcada pasada, debido a los grandes avances
computacionales, se ha ido incorporando a las organizaciones para constituirse en un
apoyo esencial al momento de tomar decisiones. Organizaciones tales como empresas,
clubes profesionales deportivos, universidades y gobiernos, entre otros, hacen uso de
esta tecnologa como ayuda en la toma de sus decisiones. Algunos de estos ejemplos
sern citados en el presente trabajo.
El data mining surge como una tecnologa que intenta ayudar a comprender el contenido
de una base de datos. De forma general, los datos son la materia prima bruta. En el
momento que el usuario les atribuye algn significado especial pasan a convertirse en
5

informacin. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la


interpretacin del confronto entre la informacin y ese modelo represente un valor
agregado, entonces nos referimos al conocimiento.
En la figura 1 se ilustra la jerarqua que existe en una base de datos entre dato,
informacin y conocimiento (Molina, 1998). Se observa igualmente el volumen que
presenta en cada nivel y el valor que los responsables de las decisiones le dan en esa
jerarqua. El rea interna dentro del tringulo representa los objetivos que se han
propuesto. La separacin del tringulo representa la estrecha unin entre dato e
informacin, no as entre la informacin y el conocimiento. El data mining trabaja en el
nivel

superior

buscando

patrones,

comportamientos,

agrupaciones,

secuencias,

tendencias o asociaciones que puedan generar algn modelo que nos permita
comprender mejor el dominio para ayudar en una posible toma de decisin.

FIGURA 1.RELACION ENTRE DATO, INFORMACION Y CONOCIMIENTO (MOLINA


1998)

2. CONCEPTUALIZACION
6

2.1 Qu es mineria de datos?


Es un mecanismo de explotacin, consistente en la bsqueda de informacin valiosa en
grandes volmenes de datos. Est muy ligada a las bodegas de datos que proporcionan
la informacin histrica con la cual los algoritmos de minera de datos tienen la
informacin

necesaria

para

la

toma

de

decisiones.

"La minera de datos es un proceso no trivial de identificacin vlida, novedosa,


potencialmente til y entendible de patrones comprensibles que se encuentran ocultos en
los

datos"

(Fayyad

otros,

1996).

Se denomina minera de datos (data mining) al anlisis de archivos y bitcoras de


transacciones, trabaja a nivel del conocimiento con el fin de descubrir patrones,
relaciones, reglas, asociaciones o incluso excepciones tiles para la toma de decisiones.
Por ejemplo, qu productos se comercializan mejor en la temporada navidea, en qu
regiones es productivo sembrar caf, qu reas de una zona urbana incrementarn su
demanda de escuelas primarias.
Por eso la minera de datos revela patrones o asociaciones que usualmente nos eran
desconocidas, se la ha llamado tambin Descubrimiento de Conocimiento, este tiene sus
inicios

en

el

Aprendizaje

Automtico

la

Estadstica.

Un proceso de apoyo a la toma de decisiones de negocio debe incluir 2 componentes: el


de verificacin, y el de descubrimiento.
El

anlisis de

verificacin

nos permite

obtener

conclusiones

basadas

en el

comportamiento pasado.
La minera de datos con enfoque en el descubrimiento, puede ayudar a descubrir nuevas
oportunidades de negocio.
El anlisis de verificacin nos ayuda a confirmar o rechazar los "descubrimientos"
obtenidos con el nuevo enfoque. La minera es un tema para grandes bases de datos,
ayuda a descubrir a estas bases informacin rpida. Es una herramienta relacionada
directamente al negocio.
Se empieza a hablar de minera de datos cuando en el mercado se pone atencin en el
producto y el cliente. Esta herramienta existe hace varios aos, el problema es que
trabaja con grandes bases de datos.
7

2.2 APLICACIONES DE MINERIA DE DATOS:


En la actualidad, existe una gran cantidad de aplicaciones, en reas tales como:

Astronoma: clasificacin de cuerpos celestes.


Aspectos climatolgicos: prediccin de tormentas, etc.
medicina: caracterizacin y prediccin de enfermedades, probabilidad de

respuesta satisfactoria a tratamiento mdico.


Industria y manufactura: diagnstico de fallas.
mercadotecnia: identificar clientes susceptibles de responder a ofertas de
productos y servicios por correo, fidelidad de clientes, seleccin de sitios de

tiendas, afinidad de productos, etc.


inversin en casas de bolsa y banca: anlisis de clientes, aprobacin de

prstamos, determinacin de montos de crdito, etc.


deteccin de fraudes y comportamientos inusuales: telefnicos, seguros, en

tarjetas de crdito, de evasin fiscal, electricidad, etc.


anlisis de canastas de mercado para mejorar la organizacin de tiendas,

segmentacin de mercado (clustering)


determinacin de niveles de audiencia de programas televisivos

2.3 TECNICAS DE MINERIA DE DATOS


Tcnicas de Visualizacin: estas son buenas para ubicar patrones en un conjunto de
datos y puede ser usado al comienzo de un proceso de data mining para tomar un feeling
de la calidad del conjunto de datos.
rbol de Decisin: son estructuras en forma de rbol que representan conjuntos de
decisiones. Estas decisiones generan reglas para la clasificacin de un conjunto de datos.
Para poder predecir el comportamiento de un cliente es necesario poder contar con una
clasificacin previa esto implica una prediccin de que un cliente pertenece a cierto grupo
de clientes. La complejidad es de n (Log n).

2.4

Mtodos

especficos

de

rboles

de

decisin

incluyen:

Reglas de Asociacin: establece asociaciones en base a los perfiles de los clientes


sobre los cuales se est realizando el data mining. Las reglas de Asociacin estn
siempre definidas sobre atributos binarios. No es muy complicado generar reglas en
grandes bases de datos. El problema es que tal algoritmo eventualmente puede dar
informacin que no es relevante. Data Mining envuelve modelos para determinar patterns
a partir de los datos observados. Los modelos juegan un rol de conocimiento inferido.
Diciendo cuando el conocimiento representa conocimiento til o no, esto es parte del
proceso de extraccin de conocimiento en bases de datos (Knowledge Discovery in
Databases-KDD).
Algoritmos Genticos: son tcnicas de optimizacin que usan procesos tales como
combinaciones genticas, mutaciones y seleccin natural en un diseo basado en los
conceptos de evolucin.
Redes Bayesianas: buscan determinar relaciones causales que expliquen un fenmeno
en base a los datos contenidos en una base de datos. Se han usado principalmente para
realizar prediccin.
Procesamiento Analtico en Lnea (OLAP): estas herramientas ofrecen un mayor poder
para revisar, graficar y visualizar informacin multidimensional, en caractersticas
temporales, espaciales o propias. Se valen de lenguajes menos restringidos y
estructurados como lo es SQL. Requieren todava de una alta participacin de un usuario
humano, pues son interactivas y requieren la gua del experto.
Redes neuronales artificiales: son modelos predecibles, no lineales que aprenden a
travs del entrenamiento y semejan la estructura de una red neuronal biolgica.
Mtodo del vecino ms cercano: una tcnica que clasifica cada registro en un conjunto
de datos basado en una combinacin de las clases de k registro/s ms similar/es a l en
un conjunto de datos histricos. Algunas veces se llama la tcnica del vecino k-ms
cercano.
Regla de induccin: la extraccin de reglas if-then de datos basados en significado
estadstico.

La tcnica usada para realizar estas hazaas en Data Mining se llama Modelado: es
simplemente el acto de construir un modelo en una situacin donde usted conoce la
respuesta y luego la aplica en otra situacin de la cual desconoce la respuesta.
La minera de datos, es un proceso que invierte la dinmica del mtodo cientfico, dado
que se generan hiptesis a partir de los datos colectados.
La Minera de Datos es una herramienta explorativa y no explicativa. Es decir, explora los
datos para sugerir hiptesis. Es incorrecto aceptar dichas hiptesis como explicaciones o
relaciones causa-efecto. Es necesario coleccionar nuevos datos y validar las hiptesis
generadas ante los nuevos datos, y despus descartar aquellas que no son confirmadas
por los nuevos datos.

2.5 Etapas principales del proceso de data mining


1. Determinacin de los objetivos: delimitar los objetivos que el cliente desea bajo la
orientacin del especialista en data mining.
2. Pre procesamiento de los datos: se refiere a la seleccin, la limpieza, el
enriquecimiento, la reduccin y la transformacin de las bases de datos. Esta etapa
consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de
data mining.
3. Determinacin del modelo: se comienza realizando un anlisis estadstico de los datos,
y despus se lleva a cabo una visualizacin grfica de los mismos para tener una primera
aproximacin. Segn los objetivos planteados y la tarea que debe llevarse a cabo, pueden
utilizarse algoritmos desarrollados en diferentes reas de la Inteligencia Artificial.
4. Anlisis de los resultados: verifica si los resultados obtenidos son coherentes y los
coteja con los obtenidos por el anlisis estadstico y de visualizacin grfica. El cliente
determina si son novedosos y si le aportan un nuevo conocimiento que le permita
considerar sus decisiones.
Respecto a los modelos inteligentes, se ha comprobado que en ellos se utilizan
principalmente rboles y reglas de decisin, reglas de asociacin, redes neuronales,
redes Bayesianas, conjuntos aproximados (rough sets), algoritmos de agrupacin
(clustering), mquinas de soporte vectorial, algoritmos genticos y lgica difusa.

10

2.6 Extensiones del data mining


Web mining: consiste en aplicar las tcnicas de minera de datos a documentos y
servicios del Web (Kosala y otros, 2000). Todos los que visitan un sitio en Internet dejan
huellas digitales (direcciones de IP, navegador, etc.) que los servidores automticamente
almacenan en una bitcora de accesos (Log). Las herramientas de Web mining analizan y
procesan estos logs para producir informacin significativa. Debido a que los contenidos
de Internet consisten en varios tipos de datos, como texto, imagen, vdeo, metadatos o
hiperligas, investigaciones recientes usan el trmino multimedia data mining (minera de
datos multimedia) como una instancia del Web mining (Zaiane y otros, 1998) para tratar
ese tipo de datos. Los accesos totales por dominio, horarios de accesos ms frecuentes y
visitas por da, entre otros datos, son registrados por herramientas estadsticas que
complementan todo el proceso de anlisis del Web mining.
Text mining: dado que el ochenta por ciento de la informacin de una compaa est
almacenada en forma de documentos, las tcnicas como la categorizacin de texto, el
procesamiento de lenguaje natural, la extraccin y recuperacin de la informacin o el
aprendizaje automtico, entre otras, apoyan al text mining (minera de texto). En
ocasiones se confunde el text mining con la recuperacin de la informacin (Information
Retrieval o IR) (Hearst, 1999). Esta ltima consiste en la recuperacin automtica de
documentos relevantes mediante indexaciones de textos, clasificacin, categorizacin,
etc. Generalmente se utilizan palabras clave para encontrar una pgina relevante. En
cambio, el text mining se refiere a examinar una coleccin de documentos y descubrir
informacin no contenida en ningn documento individual de la coleccin; en otras
palabras, trata de obtener informacin sin haber partido de algo (Nasukawa y otros, 2001).
Por qu usar data mining?
Si bien el data mining se presenta como una tecnologa emergente, posee ciertas
ventajas, como ser:

Resulta un buen punto de encuentro entre los investigadores y las personas de


negocios.

11

Ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades


de negocios.

Trabajar con esta tecnologa implica cuidar un sin nmero de detalles debido a que el
producto final involucra "toma de decisiones".
Contribuye a la toma de decisiones tcticas y estratgicas proporcionando un sentido
automatizado para identificar informacin clave desde volmenes de datos generados por
procesos tradicionales y de e-Business.
Proporciona poderes de decisin a los usuarios del negocio que mejor entienden el
problema y el entorno y es capaz de medir la acciones y los resultados de la mejor forma.
Genera Modelos descriptivos: en un contexto de objetivos definidos en los negocios
permite a empresas, sin tener en cuenta la industria o el tamao, explorar
automticamente, visualizar y comprender los datos e identificar patrones, relaciones y
dependencias que impactan en los resultados finales de la cuenta de resultados (tales
como el aumento de los ingresos, incremento de los beneficios, contencin de costes y
gestin de riesgos).
Genera Modelos predictivos: permite que relaciones no descubiertas e identificadas a
travs del proceso del Data Mining sean expresadas como reglas de negocio o modelos
predictivos. Estos outputs pueden comunicarse en formatos tradicionales (presentaciones,
informes, informacin electrnica compartida, embebidos en aplicaciones, etc.) para guiar
la estrategia y planificacin de la empresa

3. APLICACIN:
Se realizar una aplicacin con los datos acerca de los das que se ha podido jugar al
tenis,

dependiendo

de

diversos

aspectos

climticos.
12

El objetivo de este ejemplo es determinar cul es la relacin entre las condiciones de


tiempo y las decisiones de jugar o no tenis; es decir; predecir si hoy podremos jugar al
tenis.
PASOS DEL DESARROLLO APLICATIVO:
1) Seleccionar

el

archivo

con

la

extensin

arff

Figura2. Ventana inicial de


Weka

2) Nos

muestra

los

atributos

de

nuestros

datos.

Figura3. Interfaz explorer

En la parte izquierda se visualiza la cantidad de cada atributo.

Figura4. Interfaz explorer con archivo Jugartenis.arf

13

3) Seleccionar choosee-filtro y seleccionar supervisados y seleccionar el


algoritmo de discretizar y aplicar a todos los atributos

Figura 5. Visualizacin de caractersticas atributo

4)

Seleccionar
Clasificar

seleccionar
el

algoritmo

rbol y

utilizar J48

Figura 6. Visualizacin de seleccin de algoritmo


j48

14

5) Seleccionar use trining, porque nos permite utilizar todos los registros
cargados.

Figura 7. Visualizacin de pantalla al generar el


rbol ADTree
Anlisis del rbol.
Si el clima es soleado entonces no juegan 3 de
11 personas
Si el clima es nublad entonces juegan 10
personas.

6)
Interpretar

la matriz

de

confusin

15

Anlisis de la matriz de confusin:


Para a son las personas que juegan y para b las
personas que no juegan.
Entonces de 14 registros analizados de si jugar hubo
6 errores y de 8 que se analizaron de no jugar hubo
Figura 9. Visualizacin de pantalla Cluster

7) Seleccionar la opcin Cluster, seleccionar el algoritmo SimplekMeans

8) Interpretacin
Figura 8. Visualizacin de pantalla Confusion
Matrix

16

Interpretacin
En la primera iteracin analizados con todos los registros, nos dice que lo que
ms predomin fue el clima lluvioso con temperatura baja y humedad alta y
Figura 11. Ventana al aire
seleccionar
el personas
modelo tendieron a jugar.
fuerte las
Associate
EN el clster 0, lo que ms predomin fue el clima lluvioso con baja
temperatura y humedad normal y hubo un aire fuerte y las personas no
jugaron
En el clster 1, el clima que predomino es nublado con temperatura baja,
humedad alta, aire dbil y las personas si tendieron a jugar.

9) Seleccionar associate: Patrones indentificados

Figura 10. Ventana al generar el modelo Clster

17

4. CONCLUCIONES
El desarrollo de la tecnologa de Minera de Datos est en un momento crtico. Existe una
serie de elementos que la hacen operable, sin embargo, existen algunos factores que
pueden crear un descrdito a la Minera de Datos, como ser:

Que los productos a comercializar son, en la actualidad, significativamente


costosos, y los consumidores pueden hallar una relacin costo/beneficio
improductiva

Figura 12. Ventana al generar el modelo Clster

Que se requiera de mucha experiencia para utilizar herramientas de la tecnologa,


o que sea muy fcil hallar patrones equvocos, triviales o no interesantes,

Que no sea posible resolver los aspectos tcnicos de hallar patrones en tiempo o
en espacio,

Adems, hoy en da, las corporaciones comercializan con millones de perfiles


personales, sin que aquellos a que se refieren los datos intercambiados, estn en
posibilidad de intervenir, entonces, se llega a pensar que presenta un peligro o
riesgo para la privacidad de los clientes.

18

BILIOGRAFIA

[1]
KNIME
IEDE.
Manual
Bsico
Knime;
http://www.slideshare.net/itapia/manual-bsico-knime
[2]
Construyendo
el
modelo.
Minera
de
Datos;
2005;
http://www.gravitar.biz/index.php/bi/construyendo-el-modelo-mineria-de-datos/
[3] Minera de Reglas de Asociacin sobre datos Mezclados, Ansel Yoan
Rodrguez Gonzlez, Jos Francisco Martnez Trinidad, Jess Ariel, Carrasco
Ochoa, Jos Ruiz Shulcloper, Reporte Tcnico No. CCC-09-001,31 de Marzo
de 2009. http://ccc.inaoep.mx/portalfiles/file/CCC-09-001.pdf
[4] Minera de Datos con Weka;
http://www.locualo.net/programacion/mineria-datos-weka-ficherosarff/00000019.aspx
[5] Espaa.
rboles y reglasde decisin. Disponible:

http://supervisadaextraccionrecuperacioninformacion.iespana.es/a
rboles.html[citado
en
23
de
Febrero
de
2008]
[6] S. Vallejos, Trabajo de adscripcin minera de datos,
Corrientes
Argentina,
2006,
pp.
11

14.
[7] Cursos, investigacin y recursos en inteligencia artificial.
19

Introduccin a tcnicas de Minera de Datos. Disponible:


http://www.wiphala.net/courses/KDD_DM/20070/class/02_dt_for_c
lassification/class_61_decision_trees.ppt[citado en 23 de Febrero
de 2008]

20

21

You might also like