You are on page 1of 16

Limpieza y Transformacin de los Datos

Carlos Lobo Valerio Alexander Jimnez Palacios

Introduccin
Generalmente es necesario realizar alguna transformacin a los

datos para obtener materia prima adecuada. El xito de un proceso de minera de datos depende de tener datos ntegros, completos y consistentes. Eliminar informacin incorrecta o inconsistente.

Integracin y limpieza
La integracin generalmente se realiza durante el proceso de

recopilacin o carga de datos. La limpieza de datos puede detectar y solucionar problemas de datos no resueltos durante la integracin. Evita problemas como datos faltantes, valores duplicados y datos incorrectos.

Integracin
Se puede dar de dos maneras:
Unificar dos o ms objetos. Separar un objeto en dos o ms.

Ejemplos:
Separar personas por nmero de cdula nacional, extranjera y

pasaporte. Unificar formatos: sexo, estado civil, fechas.

Reconocimiento
Consiste en realizar un resumen de las caractersticas y observar

el modelo para verificar errores. Algunos aspectos pueden salir a simple vista
Cinco valores para el sexo.

Otros aspectos son ms difciles de encontrar, para ellos se usan

otras herramientas:
Histogramas
Grficas de dispersin

Valores faltantes
Causas:
Faltan valores relevantes porque no se pudieron obtener.

No existen los valores.


Datos incompletos (varios orgenes).

Tratamiento
Ignorarlos.

Eliminar toda la columna.


Remplazar el valor. Segmentar

Valores errneos
Algunas veces no es un proceso trivial, clasificar y agrupar

pueden ayudar. Tratamiento:


Ignorar. Eliminar. Filtrar. Remplazar. Discretizar.

Transformacin
Es cualquier proceso que modifique la forma de los datos.
Crear nuevos atributos derivados Cambiar el tipo de un atributo Cambiar total o parcial una tabla.

Discretizacin
Conversin de un valor numrico en un valor nominal

ordenado.
Ejemplo: convertir un nota de 0 a 100 en aprobado y

reprobado.
Se realiza cuando el error en la medida puede ser grande o

existen ciertos umbrales significativos.

Numerizacin
Conversin de un valor nominal en un valor numrico.
Ejemplo: el nivel de estudio de una persona (sin estudio,

primaria, secundaria, universidad) se puede convertir en 0, 1, 2, 4.

Normalizacin de rango
Transformar todos los datos respetando un mismo rango. Se define un mnimo y un mximo y todos los valores deben

respetarlo. Ejemplo:
Normalizar las distancias recorridas entre ciudades.

Sistema ETL
Proceso de extraccin, transformacin y carga. Permiten extraer datos de algn origen, transformarlo si es

necesario y cargarlo en un destino. Cada organizacin debe crear su propio sistema ETL. Existen herramientas que facilitan la creacin de procesos ETL.

Tareas ETL
Lectura de datos transaccionales mediante consultas SQL. Incorporacin de datos externos como hojas de clculo,

archivos de texto y XML. Integracin de los datos de diversas fuentes Limpieza y transformacin de los datos. Crear metadatos que describan el proceso ETL

Tareas ETL
Identificacin de cambios en el origen para actualizar el

destino. Planificar la carga y mantenimiento, respetar restricciones de integridad, no saturar las BD Crear ndices y llaves primarias sobre datos relevantes o nicos. Realizar pruebas de calidad en los datos almacenados.

Diagrama ETL

Herramientas ETL
Microsoft Integratios Services XMLoader

Pentaho Data Integration


Benetl

MySQL Migration Toolkit


Oracle Warehouse Builder

Scriptella ETL

You might also like