You are on page 1of 34

Índice de contenidos

Unidad 4 Adquisición del conocimiento

4.1 Introducción a la minería de datos


4.2 Técnicas para el pre-procesamiento de datos: limpiado, reducción y normalización.
4.3 Técnicas para identificación de conceptos, reglas y relaciones.
4.4 Herramienta para análisis del conocimiento, selección de datos, extracción de reglas.
Empresa, Organismo, Institución, Dependencia


Datos Información Conocimiento
Procesos Minería de datos

Conocimiento
Datos Información
K D D
Descubrimiento del conocimiento en base de datos

Es un proceso en el cual se identifican patrones útiles en los datos para obtener


posteriormente conocimiento útil, valido y relevante.

El conocimiento resultante debe ser presentado de manera clara y comprensible ya


que de esta manera de puede decir que el trabajo de generar cocimiento fue un
éxito.
escubrimiento del conocimiento en BD

Interpretación/evaluación
Minería de
datos
Transformación
Proceso
Selección
Conocimiento

Patrones
Datos
transformados
Datos
Data procesados
Warehouse
Se apoyan de
herramientas
como
Bases de datos

Trabajan con hardware y


Grandes software
cantidades de informático
datos
INFORMACION

Conjunto de
Métodos
matemáticos Procesos conocimiento

Conjunto de técnicas que se utilizan para la obtención de información implícita de las grandes bases de datos.. En
otras palabras es una tecnología poderosa y de gran potencial que permite a las organizaciones la recolección de
información desconocida para sus propias bases (almacén de datos).
escubrimiento del conocimiento en BD
• Se seleccionan de los datos fuentes aquellos que son los
adecuados a nuestro problema
SELECCIÓN

• Consiste en la preparación previa de los datos con los


PRE PROCESAMIENTO que se va a trabajar , para eliminar errores, anomalías,
inconsistencias, ruidos, etc.
• Consiste en elegir los mejores atributos del problema y,
• Buscar variables independientes mediante diversas pruebas de
SELECCIÓN DE VARIABLES sensibilidad, por lo tanto esta selección de variables permite
generar patrones que son los usados para crear modelos que son
útiles para la extracción del conocimiento
• A partir de los patrones generados por el uso de las variables
EXTRACCION DEL independientes se crea un modelo, el cual va a representar el
CONOCIMIENTO comportamiento de los valores del problema.

• El modelo representativo del problema se utiliza para poder sacar


INTERPRETACION conclusiones validas, para que de esta forma se pueda obtener el
conocimiento, lo cual es lo medular en la minería de datos
1. Limpieza de datos…………………(Crear rutinas para “llenar valores nulos, duplicados, erróneos e inconsistentes”)
2. Integración de los datos……….(Consiste principalmente en modificaciones sintácticas llevadas a cabo sobre los
datos, sin que supongan un cambio en el significado de los mismos.)
3. Transformación de los datos..(Conversión de datos a formas mas apropiadas para trabajar la minería de datos)
4. Reducción de los datos…..…..(Consiste en decidir qué datos deben ser utilizados para el análisis)
 Redes neuronales

 Árboles de decisión

 Modelos estadísticos

 Agrupamiento o Clustering

 Algoritmos supervisados (o predictivos)

 Algoritmos no supervisados (o del descubrimiento del conocimiento)


Redes Neuronales

Son un paradigma de aprendizaje y procesamiento automático inspirado en la


forma en que funciona el cerebro. Se trata de un sistema de interconexión de
neuronas en una red que colabora para producir un estímulo de salida.
Arboles de decisión
Es un modelo de predicción utilizado en la inteligencia artificial, dada una base de
datos se construyen estos diagramas de construcciones lógicas, muy similares a
los sistemas de predicción basados en reglas, que sirven para representar y
categorizar una serie de condiciones que suceden de forma sucesiva para la
resolución de un problema.
VENTAJAS DESVENTAJAS

 Facilita la interpretación  Puede convertirse en una maraña


 Explica el comportamiento  Probabilístico
 Reduce las variables  Subjetivo
 Gestiona
Arboles de decisión
Arboles de decisión
Arboles de decisión
Arboles de decisión
Por ejemplo:

En un escenario para predecir qué clientes van a adquirir probablemente una


bicicleta,
 Si 9 de 10 clientes jóvenes compran una bicicleta, pero solo
 lo hacen 2 de 10 clientes de edad mayor,

El algoritmo infiere que la edad es un buen elemento de predicción en la


compra de bicicletas.
El árbol de decisión realiza predicciones basándose en la tendencia hacia un
resultado concreto.
Arboles de decisión
Métodos estocásticos

Es una expresión simbólica en forma de igualdad o ecuación


que se emplea en todos los diseños experimentales y en la
regresión para indicar los diferentes factores que modifican la
variable de respuesta.
Agrupamiento o Clustering
Proceso de dividir un conjunto de datos en grupos mutuamente
excluyentes de tal manera que cada miembro de un grupo esté lo “más
cercano” posible a otro, y grupos diferentes estén lo “más lejos” posible
uno del otro, donde la distancia está medida con respecto a todas las
variables disponibles.
Agrupamiento o Clustering

El objetivo de éste metodo es obtener grupos o conjuntos entre los


elementos, de tal manera que los elementos asignados al mismo sean
similares.
Lo importante del agrupamiento respecto a la clasificación es que son
precisamente los grupos y la pertenencia a los grupos lo que se quiere
determinar y a priori, no se sabe ni como son los grupos ni cuantos hay.
El agrupamiento se conoce muy frecuentemente también como:
segmentación y aglomeración.
Ejemplos:
● Algoritmo K-medias
K-medias
También conocido como k-means o Iterative Distance-based Clustering. Necesita
que se le proporcione a priori el numero de grupos k. El algoritmo es el siguiente:
1. Agrupamiento:
2. Seleccionar al azar k ejemplos como centros iniciales de cada grupo;
3. repetir
 asignar cada ejemplo al grupo con menor distancia a su centro;
 recalcular los nuevos centros de cada grupo;
4. hasta (los grupos sean estables)
5. Los centros de cada grupo, también denominados centroides pueden
corresponderse con ejemplos o no, en ese caso se les denomina prototipos.
6. Los grupos se consideran estables cuando los ejemplos no cambian de grupo
respecto la iteración anterior.
7. Se pueden obtener agrupaciones jerarquizadas tomando k = 2 y aplicando el
mismo algoritmo de manera recursiva sobre los ejemplos de cada grupo.
Algoritmo K-medias Método de agrupación
de casos que se basa en
las distancias existentes
entre ellos en un
conjunto de variables.
Algoritmo K-medias
Algoritmo K-medias
Según el objetivo del análisis de los datos, los algoritmos utilizados se
clasifican en supervisados y no supervisados (Weiss y Indurkhya, 1998):

 Algoritmos supervisados (o predictivos) ○ Predicen un dato (o un conjunto de


ellos) desconocido a priori, a partir de otros conocidos.

 Algoritmos no supervisados (o del descubrimiento del conocimiento) ○ Se


descubren patrones y tendencias en los datos.
Data Warehouse es una base de datos corporativa que se caracteriza por integrar,
procesar y depurar información de una o más fuentes distintas.
Es un conjunto discreto de elementos objetivos acerca de distintos eventos, que
pueden derivar de hechos, información, estadísticas o similares, tanto históricos
como derivados del cálculo o de la experimentación.

Los datos en sí mismos, carecen de sentido, ya que solo describen lo que sucede
de manera parcial y no proporcionan juicio o interpretación, ni favorecen la toma de
decisiones.
Son el conjunto de datos dotados de relevancia y de propósito. Consiste en
conocimiento comunicado o recibido concerniente a hechos o circunstancias
particulares, es cualquier conocimiento adquirido mediante comunicación,
aprendizaje o instrucción. La información se construyen a través de datos a los que
en cierto sentido, se le ha aplicado un control de calidad previo, se los ha
contextual izado.

Los datos se convierten en información cuando se les añade un sentido mediante la


contextualización de los mismos, es decir, conocer para qué propósito han sido
recolectados
 Fusión de valores , información y experiencia

 Aprensión de hechos, verdades o principios como resultado


del estudio, investigación o de la erudición en general.
Links consultados:

1. http://msdn.microsoft.com/
2. file:///C:/Users/optimus/Pictures/Mineria_Datos_Vallejos.pdf

Libros:

1. Base de datos de enrique José Reinosa, ed. alfaomega

You might also like