You are on page 1of 32

CONADI 2008

¿Qué es la Minería de Datos?

Dr. Nicandro Cruz Ramírez


ncruz@uv.mx
Facultad de Física e Inteligencia Artificial
Universidad Veracruzana
Octubre, 2008
Descubriendo regularidades en los
datos

[9, 6, 8, 4, 2, 3, 1, 7, 5, 0]
Descubriendo regularidades en los
datos (Cont.)

[1, 2, 3, 4, 5, 6, 7, 8, 9, 0]
Descubriendo regularidades en los
datos (Cont.)

Mil doscientos treinta


y cuatro millones
quinientos sesenta y siete mil
ochocientos noventa
Descubriendo regularidades en los
datos (Cont.)

1, 234, 567, 890


Descubriendo regularidades en los
datos (Cont.)

1x8+1=9
12 x 8 + 2 = 98
123 x 8 + 3 = 987
1234 x 8 + 4 = 9876
12345 x 8 + 5 = 98765
123456 x 8 + 6 = 987654
1234567 x 8 + 7 = 9876543
Descubriendo regularidades en los
datos (Cont.)
Descubriendo regularidades en los
datos (Cont.)

a) 01010101010101010101…01   (longitud 10,000 bits)

b) 011011001101111000101…11   (longitud 10,000 bits)
Descubriendo regularidades en
los datos (Cont.)

a) For i = 1 to i = 2,500
print 0101

b) Print 011011001101111000101…11
Descubriendo regularidades en los
datos (Cont.)
Age Income Student Credit_rating Class: buys_computer
<=30 high no fair no
<=30 high no excellent no
31…40 high no fair yes
>40 medium no fair yes
>40 low yes fair yes
>40 low yes excellent no
31…40 low yes excellent yes
<=30 medium no fair no
<=30 low yes fair yes
>40 medium yes fair yes
<=30 medium yes excellent yes
31…40 medium no excellent yes
31…40 high yes fair yes
>40 medium no excellent no
Descubriendo regularidades en los
datos (Cont.)
c mc sc bt h

0 0 0 0 1

0 0 0 0 0

0 0 0 0 0

0 0 0 0 1

0 0 0 0 0

1 1 1 1 1

1 0 1 0 0

0 0 0 0 1

1 0 1 0 0

0 0 0 0 1

… … … … …
¿Qué es la Minería de Datos?

Una metáfora: ¿qué buscamos en


una mina? ¿con qué herramientas?
Una base de datos
Age Income Student Credit_rating Class: buys_computer
<=30 high no fair no
<=30 high no excellent no
31…40 high no fair yes
>40 medium no fair yes
>40 low yes fair yes
>40 low yes excellent no
31…40 low yes excellent yes
<=30 medium no fair no
<=30 low yes fair yes
>40 medium yes fair yes
<=30 medium yes excellent yes
31…40 medium no excellent yes
31…40 high yes fair yes
>40 medium no excellent no
Árboles de decisión

age?

<=30 31…40 >40

student? yes credit_rating?

no yes excellent fair

no yes no yes
Otra base de datos
c mc sc bt h

0 0 0 0 1

0 0 0 0 0

0 0 0 0 0

0 0 0 0 1

0 0 0 0 0

1 1 1 1 1

1 0 1 0 0

0 0 0 0 1

1 0 1 0 0

0 0 0 0 1

… … … … …
Modelos Gráficos

mc

sc bt

c
h
¿Qué es la Minería de Datos?

 El proceso no trivial de identificar patrones


válidos, nuevos, potencialmente útiles y
entendibles en los datos
Otro nombre para la Minería de Datos:
Descubrimiento de conocimiento en
bases de datos (KDD)

Interpretación
/ evaluación
Minería de
datos

Transformación

Preprocesamiento Conocimiento
Selección

Patrones
Datos
Transformados
Datos
Datos Datos Preprocesados
Seleccionados
¿Qué es la Minería de Datos?

extracción del conocimiento contenido
implícitamente en bases de datos 
Un ejemplo

X1, X2, ..., X5
 3,    5, ...,     8
 2,    4, ...,     0
 0,    1, ...,     7
Un ejemplo (Cont.)

P(X1)

X1 fumar

X1, X2, ..., X5
 3,    5, ...,     8 vs.
 2,    4, ...,     0
 0,    1, ...,     7 X2 cáncer
P(X2|X1)
¿Para qué puede ser útil la Minería de
Datos?

1 exabyte (1 millón de terabytes) se
genera anualmente en todo el mundo
(Communications ACM, Agosto 2001
Vol. 44, No. 8 p. 39)
¿Para qué puede ser útil la Minería de
Datos? (Cont.)

 Las BD se usan para:


 Guardar datos
 Confirmar hipótesis previas
 ¿Probar hipótesis alternativas?
¿Para qué puede ser útil la Minería de
Datos? (Cont.)

Conocimiento

Patrones

 Control
 Diagnóstico
 Predicción
 Toma de decisiones
Control: monitoreo de variables

Variables Temperatura
Proceso
(sensores) controlada
Diagnóstico

¿Por qué la
Variables temperatura
Proceso
(sensores) no tiene
determinado valor?
Predicción

Fenómenos Meteorológicos: ¿lloverá mañana?


Clasificación y Toma de Decisiones

X1, X2, ..., X5
 3,    5, ...,     8
 2,    4, ...,     0
 0,    1, ...,     7

¿Qué tan seguro es que el cliente X pague a tiempo?


¿Qué políticas debo seguir?
Clasificación y Toma de Decisiones
(Cont.)

Perfiles de clientes: Web Mining


¿Qué productos debo ofrecer?
Herramientas para la Minería de Datos

 Métodos estadísticos
 Reglas de asociación (si-entonces)
 Árboles de decisión
 Modelos Gráficos
 Redes Neuronales
 Algoritmos Genéticos
 Lógica Difusa
Tipos de datos complejos

 Bases de datos geográficas


 Multimedia
 Series de tiempo
 Imágenes
 Texto
 Web
 Bioinformática
Conclusiones

 Complejidad e Incertidumbre
 Gran cantidad de datos y variables
 Herramientas de soporte
 Validación con el experto
 Análisis cuantitativo y cualitativo

You might also like