You are on page 1of 4

En la era de la informacin y el desarrollo del Big Data, aparecen nuevos conceptos como el de datawarehouse que permiten

manejar y trabajar con conjuntos masivos de datos.

Antes de desarrollar un caso prctico de datawarehousing vamos a introducir algunas ideas iniciales necesarias, para
entender de qu estamos hablando.

Qu es un DataWarehouse?

Traducido como almacn de datos, se trata de una base de datos corporativos que se caracteriza por integrar y depurar la
informacin para luego procesarla, permitiendo el anlisis de la informacin desde distintos puntos de vista. La creacin de
un DataWarehouse representa en la mayora de las ocasiones el primer paso, desde el punto de vista tcnico, para implantar
una solucin completa y fiable de Business Intelligence.

Un poco de historia

El concepto de DataWarehouse nacin en la dcada de los 80, en la empresa IBM. Los investigadores que la desarrollaron
buscaban establecer un sistema que permitiera un manejo fluido y permanente de datos que fuera al mismo tiempo
organizado de acuerdo a necesidades especficas. Estos datos podan ser muy variados y abarcar diferentes reas de la
empresa. De este modo, no solo se ahorrara tiempo y energa, sino tambin los altos costos monetarios de los sistemas que
se utilizaban previamente.

Caractersticas de un Datawarehouse

La ventaja principal de estos sistemas se basa en la estructura de la informacin, que supone el almacenamiento de los datos
de forma homognea y fiable, en una estructura basada en la consulta y el tratamiento jerarquizado de la misma, y en un
entorno diferenciado de los sistemas operacionales. Segn Bill Inmon, quien acu el trmino, el Datawarehouse se
caracteriza por ser:

Integrado: Los datos almacenados tienen que ser integrados en una estructura consistente, lo que conlleva a la eliminacin
de las inconsistencias existentes entre sistemas de operaciones.

Temtico: Para facilitar el acceso a los datos y el entendimiento de ellos se suelen organizar por temas.

Histrico: Permite almacenar datos en momentos concretos, para realizar anlisis de tendencias en esos momentos o
periodos de tiempo y poder realizar comparaciones entre esos valores tomados.

No voltil: Esto implica que la informacin almacenada en el Datawarehouse es para ser leda pero no modificada. Por lo que
la informacin es permanente.

Otra caracterstica importante del datawarehouse es que contiene metadatos, es decir, datos sobre los datos. Los metadatos
permiten saber la procedencia de la informacin, su periodicidad de refresco, su fiabilidad, forma de clculo, etc.

Los metadatos sern los que permitan simplificar y automatizar la obtencin de la informacin desde los sistemas
operacionales a los sistemas informacionales.

Qu nos aporta la implementacin de un Datawarehouse?

Proporciona una herramienta para la toma de decisiones en cualquier rea funcional, basndose en informacin integrada y
global del negocio

Facilita la aplicacin de tcnicas estadsticas de anlisis y modelizacin para encontrar relaciones ocultas entre los datos del
almacn

Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras en diversos escenarios

Simplifica dentro de la empresa la implantacin de sistemas de gestin integral de la relacin con el cliente
Supone una optimizacin tecnolgica y econmica en entornos de centro de informacin, estadstica o de generacin de
informes.

Supuesto prctico de Datawarehouse

Introducidos los conceptos anteriores, vamos a exponer a continuacin un ejemplo que iremos elaborando a partir de las
diferentes fases de construccin de un datawarehouse.

La compaa de alquiler de vehculos Rent4you desea disear un datawarehouse como sistema de soporte de ayuda a la
toma de decisiones estratgicas. La compaa tiene varias sucursales, en las cuales ofertan alquileres de una amplia variedad
de vehculos como, coches, motos, caravanas, furgonetas, etc.

El datawarehouse pretende centralizar la informacin de todas las sucursales con el objetivo de definir nuevas estrategias de
negocio. Se quiere analizar tanto las ventas (alquileres realizados en cada sucursal) as como los gastos para poder estudiar
cules son los puntos de venta que ms beneficios aportan, los perfiles de los clientes por tipo de vehculo para ajustar los
seguros, la eficiencia de los empleados por sucursal, etc.

El datawarehouse se va a alimentar de grandes bases de datos operacionales como son la de ventas, gastos, clientes y
administracin de RRHH.

Fases de Construccin

En la etapa de construccin vamos a modelar las tablas relacionales en una gran estructura desnormalizada compuesta por
tabla de hechos, y tablas ms pequeas que definirn las n-dimensiones llamadas tablas de dimensiones.

El modelo dimensional divide el mundo de los datos en dos grandes tipos: las medidas y las dimensiones de estas medidas.
Las medidas, siempre son numricas, se almacenan en las tablas de hechos y las dimensiones son textuales y se almacenan
en las tablas de dimensiones.

La tabla de hechos es por tanto, la tabla primaria del modelo dimensional, y contiene los valores del negocio que se desea
analizar. Entendidos estos conceptos pasamos a detallar a continuacin los pasos a seguir en la construccin del
datawarehouse.

1. Anlisis y diseo del modelo en estrella


2. Programa de carga de las tablas de dimensiones y de hechos

En esta etapa se debe llevar a cabo el proceso ETL (Extraccin, transformacin y carga) que permita leer las tablas de los
sistemas transaccionales para que puedan ser cargadas en las tablas de dimensiones. En este proceso se deben considerar
todas las restricciones y lgica exclusiva y necesaria para almacenar los datos. Por ejemplo, puede ocurrir que dos empleados
de sucursales diferentes tengan el mismo cdigo de empleado, por lo que ser necesario el uso de tablas de equivalencias o
conversin durante el proceso ETL para evitar inconsistencia y duplicidad de los datos.

Lo primero a tener en cuenta para el proceso ETL es la periocidad, la cual debe establecerse en base a las necesidades del
negocio, es decir, con qu frecuencia es necesario tener los datos actualizados para el anlisis. Tambin debe contemplarse
la disponibilidad de los recursos, tanto de las fuentes de datos (de las que se nutre el datawarehouse) como la del propio
datawarehouse, ya que el rendimiento ser afectado durante el proceso ETL.

En nuestro caso de estudio, se podra establecer la poltica de actualizacin de los datos de manera mensual, extrayendo las
transacciones del mes vencido en la madrugada del primer da del mes siguiente. Esta periocidad es suficiente para los
analistas, y se establece en un perodo de tiempo en el que hay disponibilidad de recursos para el procesamiento y no se
interrumpe el uso normal de las fuentes de datos.
Esquema del proceso ETL

3. Desarrollo de cubo OLAP

Los cubos OLAP son las herramientas que se basan en la capacidad de analizar y explorar los datos, nos proporcionan un
anlisis interactivo por las diferentes dimensiones de los datos (por ejemplo, tiempo, producto, cliente, criterios geogrficos,
etc.) y por los diferentes niveles de detalle. En el siguiente enlace se explica cmo crear un cubo OLAP a partir de Excel 2010.

En conclusin, en el desarrollo de un datawarehouse o almacn de datos se debe tener muy clara la informacin que se
pretende analizar y qu objetivos se persiguen, ya que es la base del proceso ETL que nos permite nutrir de informacin las
tablas de hechos y dimensiones definidas para nuestro almacn de datos.

You might also like