Professional Documents
Culture Documents
Introduccin
Generalmente es necesario realizar alguna transformacin a los
datos para obtener materia prima adecuada. El xito de un proceso de minera de datos depende de tener datos ntegros, completos y consistentes. Eliminar informacin incorrecta o inconsistente.
Integracin y limpieza
La integracin generalmente se realiza durante el proceso de
recopilacin o carga de datos. La limpieza de datos puede detectar y solucionar problemas de datos no resueltos durante la integracin. Evita problemas como datos faltantes, valores duplicados y datos incorrectos.
Integracin
Se puede dar de dos maneras:
Unificar dos o ms objetos. Separar un objeto en dos o ms.
Ejemplos:
Separar personas por nmero de cdula nacional, extranjera y
Reconocimiento
Consiste en realizar un resumen de las caractersticas y observar
el modelo para verificar errores. Algunos aspectos pueden salir a simple vista
Cinco valores para el sexo.
otras herramientas:
Histogramas
Grficas de dispersin
Valores faltantes
Causas:
Faltan valores relevantes porque no se pudieron obtener.
Tratamiento
Ignorarlos.
Valores errneos
Algunas veces no es un proceso trivial, clasificar y agrupar
Transformacin
Es cualquier proceso que modifique la forma de los datos.
Crear nuevos atributos derivados Cambiar el tipo de un atributo Cambiar total o parcial una tabla.
Discretizacin
Conversin de un valor numrico en un valor nominal
ordenado.
Ejemplo: convertir un nota de 0 a 100 en aprobado y
reprobado.
Se realiza cuando el error en la medida puede ser grande o
Numerizacin
Conversin de un valor nominal en un valor numrico.
Ejemplo: el nivel de estudio de una persona (sin estudio,
Normalizacin de rango
Transformar todos los datos respetando un mismo rango. Se define un mnimo y un mximo y todos los valores deben
respetarlo. Ejemplo:
Normalizar las distancias recorridas entre ciudades.
Sistema ETL
Proceso de extraccin, transformacin y carga. Permiten extraer datos de algn origen, transformarlo si es
necesario y cargarlo en un destino. Cada organizacin debe crear su propio sistema ETL. Existen herramientas que facilitan la creacin de procesos ETL.
Tareas ETL
Lectura de datos transaccionales mediante consultas SQL. Incorporacin de datos externos como hojas de clculo,
archivos de texto y XML. Integracin de los datos de diversas fuentes Limpieza y transformacin de los datos. Crear metadatos que describan el proceso ETL
Tareas ETL
Identificacin de cambios en el origen para actualizar el
destino. Planificar la carga y mantenimiento, respetar restricciones de integridad, no saturar las BD Crear ndices y llaves primarias sobre datos relevantes o nicos. Realizar pruebas de calidad en los datos almacenados.
Diagrama ETL
Herramientas ETL
Microsoft Integratios Services XMLoader
Scriptella ETL