You are on page 1of 85

Almacenes de datos

Juan Carlos Trujillo Mondjar

IWAD: Ingeniera del Web y Almacenes de Datos

Dpto. Lenguajes y Sistemas Informticos


Universidad de Alicante

Almacenes de Datos

Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Diseo de almacenes de datos: UML
Conclusiones

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

1
Almacenes de Datos

Indice
Introduccin
Sistemas de apoyo a la decisin
El almacn de datos (AD)
Diferencia sistemas transaccionales y de AD
Arquitectura de almacenes de datos

Diseo de almacenes de datos: visin prctica


Integracin de fuentes: Procesos ETL
Diseo de almacenes de datos: UML
Conclusiones
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos

Indice
Introduccin
Sistemas de apoyo a la decisin
El almacn de datos (AD)
Diferencia sistemas transaccionales y de AD
Arquitectura de almacenes de datos

Diseo de almacenes de datos: visin prctica


Integracin de fuentes: Procesos ETL
Diseo de almacenes de datos: UML
Conclusiones
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

2
Almacenes de Datos
Introduccin
Sistemas de apoyo a la decisin

Empresas en la actualidad
Sistemas orientados a los procesos diarios de la
empresa
Sistemas de Procesamiento Transaccional en Lnea (On-Line
Transactional Processing, OLTP)
Compras de productos, ventas, pedidos, gestin de clientes, ..
Optimizados para la edicin e insercin de datos
Aproximadamente el 90% de SGBD son relacionales
SGBD eficientes, robustos, etc.
Datos histricos almacenamientos externos
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Introduccin
Sistemas de apoyo a la decisin

Entornos econmicos altamente competitivos


Empresas necesitan adoptar decisiones estratgicas
Qu tipo de cliente me ha estado comprando el BMW 320i
durante los ltimos 10 aos ?
Ha variado un cliente sus gustos de compra de vehculos?
Ha estado comprando el mismo vehiculo de soltero que de
casado?
Qu descuento deberiamos ofrecer para incrementar
significativamente las ventas ?

Sistemas de apoyo a la decisin


UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

3
Almacenes de Datos
Introduccin
Sistemas de apoyo a la decisin

Son vlidos los sistemas OLTP para tales


entornos ?
Algunos problemas
Gran volumen de datos histricos no disponibles en sistemas
diarios OLTP

Normalmente en distintas fuentes de datos


Proveedores, Clientes, componentes, productos
defectuosos, etc.

Los directivos/analistas no saben manejar tales sistemas


UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos

Indice
Introduccin
Sistemas de apoyo a la decisin
El almacn de datos (AD)
Diferencia sistemas transaccionales y de AD
Arquitectura de almacenes de datos

Diseo de almacenes de datos: visin prctica


Integracin de fuentes: Procesos ETL
Diseo de almacenes de datos: UML
Conclusiones
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

4
Almacenes de Datos

Indice
Introduccin
Sistemas de apoyo a la decisin
El almacn de datos (AD)
Diferencia sistemas transaccionales y de AD
Arquitectura de almacenes de datos

Diseo de almacenes de datos: visin prctica


Integracin de fuentes: Procesos ETL
Diseo de almacenes de datos: UML
Conclusiones
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Introduccin
El almacn de datos

El Almacn de datos (Data Warehouse, DW)

Repositorio de datos histricos para ser utilizados por los


Sistemas de Apoyo a la Decisin

Son sistemas eminntemente de consulta enfocados a extraer


conocimiento de los datos histricos almacenados

El anlisis de los datos On-Line Analytical Processing (OLAP)


Utilizan el modelado multidimensional (cubos, hipercubos, etc)

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

5
Almacenes de Datos
Introduccin
El almacn de datos

Definicin segn W. Inmon (1992)

Una coleccin de datos orientados por tema,


variables en el tiempo y no voltiles que se
emplea como apoyo a la toma de decisiones
estratgicas

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Introduccin
El almacn de datos

Orientados por tema

El diseo enfocado a responder eficientementa a


consultas estratgicas
Actividades de inters: compra, ventas, alquileres,
Contexto de anlisis: clientes, vendedores, productos, etc

El modelado Multidimensional (primera aproximacin)


Hechos actividades de inters
Dimensiones contexto de anlisis

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

6
Almacenes de Datos
Introduccin
El almacn de datos

Integrados
Datos integrados de distintas fuentes de datos
operacionales
Variables en el tiempo
Datos relativos a un periodo de tiempo y se
incrementan peridicamente
No voltiles
Los datos almacenados normalmente no se modifican ni
actualizan nunca (casi nunca), slo se insertan nuevos
datos
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos

Indice
Introduccin
Sistemas de apoyo a la decisin
El almacn de datos (AD)
Diferencia sistemas transaccionales y de AD
Arquitectura de almacenes de datos

Diseo de almacenes de datos: visin prctica


Integracin de fuentes: Procesos ETL
Diseo de almacenes de datos: UML
Conclusiones
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

7
Almacenes de Datos

Indice
Introduccin
Sistemas de apoyo a la decisin
El almacn de datos (AD)
Diferencia sistemas transaccionales y de AD
Arquitectura de almacenes de datos

Diseo de almacenes de datos: visin prctica


Integracin de fuentes: Procesos ETL
Diseo de almacenes de datos: UML
Conclusiones
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Introduccin
Diferencia sistemas transaccionales y de AD

OLTP AD/OLAP
Usuario Profesional de TI Analista de Informacin
Funcin Operaciones diarias Apoyo a la decisin
Diseo de BD Orientada a la aplicacin Orientado al tema/negocio
(Basado en EE-R) (Multidimensional, ej. estrella)
Datos Actuales, Aislados Histricos, Consolidados
Vistas Detallados, Planos, Relac. Agregados, Multidimensional
Destino/utilizacin Estructuradas, repetitivas Ad-Hoc
Unidades de trabajo Transacciones simples Consultas complejas
Acceso Lectura/escritura Lectura mayoritariamente
# Registros accedidos Decenas Millones
# Usuarios Miles Centenares
Tamao de la BD 100 MB-GB 100 GB-TB
Medidas de rendimiento Cantidad de transacciones Cantidad de consultas,
Respuesta
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

8
Almacenes de Datos

Indice
Introduccin
Sistemas de apoyo a la decisin
El almacn de datos (AD)
Diferencia sistemas transaccionales y de AD
Arquitectura de almacenes de datos

Diseo de almacenes de datos: visin prctica


Integracin de fuentes: Procesos ETL
Diseo de almacenes de datos: UML
Conclusiones
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos

Indice
Introduccin
Sistemas de apoyo a la decisin
El almacn de datos (AD)
Diferencia sistemas transaccionales y de AD
Arquitectura de almacenes de datos

Diseo de almacenes de datos: visin prctica


Integracin de fuentes: Procesos ETL
Diseo de almacenes de datos: UML
Conclusiones
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

9
Almacenes de Datos
Introduccin
Arquitectura de almacn de datos

Monitorizacin & Administracin


Anlisis
Repositorio Servidores
de metadatos OLAP

Almacn de Datos Consultas/Informes


Fuentes externas Extraer
Transformar Servir
BD operacionales
Cargar
Minera de datos
Refrescar

Fuentes de datos

Data Marts Herramientas


UJI. Castelln, 2005 de consulta
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Introduccin
Arquitectura de almacn de datos. Procesos ETL

Procesos para poblar de datos el almacn


(ETL)

Extraccin (Extraction)
Limpieza (Cleaning) y Transformacin
(Transformation)
Carga (Loading) y Refresco

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

10
Almacenes de Datos
Introduccin
Arquitectura de almacn de datos

Monitorizacin & Administracin


Anlisis
Repositorio Servidores
de metadatos OLAP

Almacn de Datos Consultas/Informes


Fuentes externas Extraer
Transformar Servir
BD operacionales
Cargar
Minera de datos
Refrescar

Fuentes de datos

Data Marts Herramientas


UJI. Castelln, 2005 de consulta
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Introduccin
Arquitectura de almacn de datos. Servidores OLAP

Servidores de consulta ROLAP

Utilizan tecnologa Relacional (Relational OLAP)


Utilizan extendiones del SQL estndar para soportar el
acceso multidimensional a los datos
Mtodos de implementacin adecuados para
representar los datos multidimensionales en tecnologa
relacional
Ventaja: Basado en un estndar

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

11
Almacenes de Datos
Introduccin
Arquitectura de almacn de datos. Servidores OLAP

Servidores de consulta MOLAP


Utilizan tecnologa Multidimensional (Multidimensional
OLAP)
Los datos estn almacenados directamente en matrices
Operaciones de consulta estn implementadas
directamente sobre estas matrices
No estn basados en SQL estndar
Ventaja: Suelen ser ms rapidos que los ROLAP
Inconveniente: no basados en un estndar

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Introduccin
Arquitectura de almacn de datos

Monitorizacin & Administracin


OLAP
Repositorio Servidores
de metadatos OLAP

Almacn de Datos Consultas/Informes


Fuentes externas Extraer
Transformar Servir
BD operacionales
Cargar
Minera de datos
Refrescar

Fuentes de datos

Data Marts Herramientas


UJI. Castelln, 2005 de consulta
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

12
Almacenes de Datos

Indice
Introduccin
Sistemas de apoyo a la decisin
El almacn de datos (AD)
Diferencia sistemas transaccionales y de AD
Arquitectura de almacenes de datos

Diseo de almacenes de datos: visin prctica


Integracin de fuentes: Procesos ETL
Diseo de almacenes de datos: UML
Conclusiones
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos

Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Diseo de almacenes de datos: UML
Conclusiones

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

13
Almacenes de Datos

Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Bases de datos transaccionales vs. almacenes de datos
Modelado Multidimensional (MD)
Esquema estrella y variantes (en SGBDR)
Dimensin tiempo
Algunos datos del mercado

Integracin de fuentes: Procesos ETL


Diseo de almacenes de datos: UML
Conclusiones
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos

Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Bases de datos transaccionales vs. almacenes de datos
Modelado Multidimensional (MD)
Esquema estrella y variantes (en SGBDR)
Dimensin tiempo
Algunos datos del mercado

Integracin de fuentes: Procesos ETL


Diseo de almacenes de datos: UML
Conclusiones
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

14
Almacenes de Datos
Diseo de AD: visin prctica
Bases de datos transaccionales vs. Almacenes de datos

Monitorizacin & Administracin


OLAP
Repositorio Servidores
de metadatos OLAP

Almacn de Datos Consultas/Informes


Fuentes externas Extraer
Transformar Servir
BD operacionales
Cargar
Minera de datos
Refrescar

Fuentes de datos

Data Marts Herramientas


UJI. Castelln, 2005 de consulta
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Diseo de AD: visin prctica
Bases de datos transaccionales vs. Almacenes de datos

Bases de datos transaccionales (relacionales)


Normalizacin
Optimizadas para edicin e insercin de datos

Diseo conceptual Modelo EER


Diseo lgico Modelo Lgico Relacional
Diseo fsico Modelo fsico (Indices, particionamiento,)

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

15
Almacenes de Datos
Diseo de AD: visin prctica
Bases de datos transaccionales vs. Almacenes de datos

Almacenes de datos
Des - normalizacin
Optimizadas para consultas complejas
Reduce nmero de objetos y de relaciones entre stos
Fcil interpretacin por el analista de la informacin

Diseo conceptual Modelado MD (intuitivo)


Diseo lgico Esquema estrella (si SGBDR)
Diseo fsico Modelo fsico (Indices, particionamiento,)

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos

Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Bases de datos transaccionales vs. almacenes de datos
Modelado Multidimensional (MD)
Esquema estrella y variantes (en SGBDR)
Dimensin tiempo
Algunos datos del mercado

Integracin de fuentes: Procesos ETL


Diseo de almacenes de datos: UML
Conclusiones
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

16
Almacenes de Datos

Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Bases de datos transaccionales vs. almacenes de datos
Modelado Multidimensional (MD)
Esquema estrella y variantes (en SGBDR)
Dimensin tiempo
Algunos datos del mercado

Integracin de fuentes: Procesos ETL


Diseo de almacenes de datos: UML
Conclusiones
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Diseo de AD: visin prctica
Modelado Multidimensional (MD)

Atributos de dimensin Ventas productos

Madrid
Provincia Barcelona Hechos
Alicante
Almacn
Medidas
Bebida 9 (celdas)
...

Tipo

Producto
Comida 8 Cantidad

Enero ... Mayo Mes

Dimensiones
Tiempo

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

17
Almacenes de Datos
Diseo de AD: visin prctica
Modelado Multidimensional (MD)

Tablas multidimensionales

Producto.Grupo = Supermercado
Ventas Comida Bebida
Cong Fresco Refresco Alcohol
Albatera 100 200 300 400
Almacn. Alicante
comunidad = Elche 500 600 700 800
Comunidad Burjasot 900 1000 1100 1200
Valenciana Valencia
Cullera 1300 1400 1500 1600

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Diseo de AD: visin prctica
Modelado Multidimensional (MD). Dimensiones

Normalmente se representan mediante Grafos


Acclicos dirigidos (G.A.D.)
Jerarqua de
Zona_Ventas camino alternativo
Jerarqua grupo
Mltiple
familia
Almacn comunidad
tipo ciudad provincia
poblacin
marca direccin
nombre telfono
Producto
Jerarquas de clasificacin
Dimensin Atributos de dimension

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

18
Almacenes de Datos
Diseo de AD: visin prctica
Modelado Multidimensional (MD). Hechos

Atributos de hecho o medidas


Atmicos
Ej. Cantidad vendida, precio, etc.

Derivados
Utilizan una frmula para calcularlos
Ej. Precio_total = precio * cantidad_vendida

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Diseo de AD: visin prctica
Modelado Multidimensional (MD). Hechos

Aditividad
Conjunto de operadores de agregacin (SUM, AVG, etc.
) que se pueden aplicar para agregar los valores de
medidas a lo largo de las jerarquas de clasificacin
(Kimball, 1996)
Es aditiva SUM sobre todas las dimensiones
Semi-aditiva SUM slo sobre algunas dimensiones
No aditiva SUM sobre ninguna dimensin

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

19
Almacenes de Datos
Diseo de AD: visin prctica
Modelado Multidimensional (MD). Consultas

Definicin de requerimientos iniciales de usuario


Estn basados en jerarquas definidas en Dimensiones

Cantidad vendida de productos comestibles agrupados por su familia y


tipo, de almacenes de la comunidad valenciana y, agrupados por la
provincia y ciudad donde se vendieron

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Diseo de AD: visin prctica
Modelado Multidimensional (MD). Operaciones OLAP

Operaciones de consulta (OLAP)


Roll-up
Agregar valores de medidas a lo largo de jerarquas de
clasificacin

Producto.Grupo = alimentacin Grupo


Ventas
Ventas Comida Bebida Familia
Comida Bebida
Cong. Fresca Refresco Alcohol Tipo
Almacn. Alicante Albatera 100 200 300 400
Alicante 1400 2200
comunidad = Elche 500 600 700 800
Comunidad Burjasot 900 1000 1100 1200
4600 5400
Valenciana Valencia
Valencia
Cullera 1300 1400 1500 1600
UJI. Castelln, 2005 Provincia Ciudad
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

20
Almacenes de Datos
Diseo de AD: visin prctica
Modelado Multidimensional (MD). Operaciones OLAP

Operaciones de consulta (OLAP)


Drill-down
Desagregar valores de medidas a lo largo de jerarquas de
clasificacin

Producto.Grupo = alimentacin
Ventas
Ventas Comida
Food Bebida
Drink
Comida Bebida
Cong. Fresca
Frozen Fresh Refresco
Refresh Alcohol
Almacn. Alicante Albatera 100 200 300 400
Alicante 1400 2200
Comunidad= Elche 500 600 700 800
Comunidad Burjasot 900 1000 1100 1200
4600 5400
Valenciana Valencia
Valencia
Cullera 1300 1400 1500 1600
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Diseo de AD: visin prctica
Modelado Multidimensional (MD). Operaciones OLAP

Operaciones de consulta (OLAP)


Drill-accross
Consultar medidas de varios hechos en el mismo
cubo
Ej. Que en la tabla MD analizaramos el ratio de ventas
respecto de compras.
1000 / 400

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

21
Almacenes de Datos
Diseo de AD: visin prctica
Modelado Multidimensional (MD). Operaciones OLAP

Operaciones de consulta (OLAP)


Slice-dice
Definir restricciones sobre niveles de jerarquas
Ej. Analizar datos donde el ao sea 1999

Producto.Grupo = Alimentacin
Ventas
Ventas Comida Comida Bebida
Congelada
Cong. Fresca
Fresca Refresco Alcohol
Almacn. Alicante Albatera 100 200 300 400
Albatera 500 100 600 700 200 800
Comunidad = Elche
Alicante
Comunidad Burjasot 900 1000 1100 1200
Valenciana Valencia Cullera
Elche
1300 500 1400 1500 600 1600
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Diseo de AD: visin prctica
Modelado Multidimensional (MD). Operaciones OLAP

Operaciones de consulta (OLAP)


Pivoting
Reorientar la vista multidimensional de los datos,
es decir, cambiar la distribucin de filas/columnas
Algunos autores consideran tambin el intercambio de
medidas y hechos como pivoting (kimball, 1996) (Inmon,
1996)

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

22
Almacenes de Datos

Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Bases de datos transaccionales vs. almacenes de datos
Modelado Multidimensional (MD)
Esquema estrella y variantes (en SGBDR)
Dimensin tiempo
Algunos datos del mercado

Integracin de fuentes: Procesos ETL


Diseo de almacenes de datos: UML
Conclusiones
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos

Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Bases de datos transaccionales vs. almacenes de datos
Modelado Multidimensional (MD)
Esquema estrella y variantes (en SGBDR)
Dimensin tiempo
Algunos datos del mercado

Integracin de fuentes: Procesos ETL


Diseo de almacenes de datos: UML
Conclusiones
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

23
Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR)
Almacn
Tablas de almacn_cod
Producto
producto_cod
dimensin almacn _nombre
producto_nombre almacn _direc
producto_color ciudad
.
marca_cod Ventas_productos provincia
marca_director ..
producto_cod Zona_ventas
familia_cod
familia_des almacn_cod .
tipo_cod cliente_cod comunidad
. tiempo_cod
Grupo_cod cantidad_vendida
. precio
...
total_precio Tiempo
... tiempo_cod
Cliente
da
cliente_cod vacaciones
cliente_nombre mes
ciudad Tabla de .
. ao
comunidad hechos
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR)

Tablas de dimensiones
Describen el contexto para analizar los hechos
Datos textuales (Alfanumricos)
Datos desnormalizados redundancia

Cada fila contiene su clave primaria y los atributos


descriptores de todos los niveles de jerarqua
Tablas ms pequeas que las tablas de hechos

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

24
Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR)

Tabla de dimensin producto


Producto
producto_cod
producto_nombre
producto_color
marca_cod
marca_director
familia_cod
Producto_cod Producto nombre .... Family_Desc familia_des
tipo_cod
1 Puleva Milk L. Productos lcteos .
Grupo_cod
2 Puleva Milk 1L . Productos lcteos .
3 Yogourt Pascual Productos lcteos
4 Mr. Proper Productos limpieza
5 . Ajax . Productos
. limpieza.
. . . . .

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR)

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

25
Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR)

Tablas de hechos
Actividades bsicas de empresa
Cada fila se compone de:
Clave primaria (compuesta por claves ajenas de las
dimensiones)
Medidas Datos numricos

Generalmente relacin m-n con dimensiones y, m-1


en particular con cada dimensin

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR)

Tabla de hecho ventas

CliKey ProductoKey AlmacnKey Tiempo_key Sale Amount


1 1 1 1 100
1 2 1 2 120
1 3 1 3 200
. . . .

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

26
Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR)

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR)

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

27
Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR)

Esquema estrella
Ventajas
Fcil de entender por los usuarios
Reduce nmero de uniones fsicas
Respuestas rpidas para la mayora de las consultas

Metadatos sencillos
Soportado por la inmensa mayora de aplicaciones

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR)

Esquema estrella
Inconvenientes
El aumento del tamao de la tabla de hechos con datos
agregados puede empeorar el rendimiento general
Por ello se recomienda tablas de hechos agregados al margen
Las dimensiones tienen un tamao enorme
Alrededor de 50 atributos (Kimball)
Es poco robusto o susceptible a cambios

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

28
Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR). Constelaciones de hechos

Almacn
Producto Ventas_productos
almacn_cod
producto_cod producto_cod almacn _nombre
producto_nombre almacn_cod almacn _direc
producto_color cliente_cod ciudad
marca_cod tiempo_cod .
marca_director cantidad_vendida provincia
familia_cod ..
precio Zona_ventas
familia_des ... .
tipo_cod total_precio comunidad
.
Grupo_cod
. Ventas_productos
producto_cod
Cliente Tiempo
comunidad_cod
cliente_cod time_cod
cliente_cod
cliente_nombre da
ciudad tiempo_cod
. cantidad_vendida vacaciones
comunidad precio mes
... .
total_precio ao
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR). Constelaciones de hechos

Esquema constelaciones de hechos


Principal Ventaja
Rapidez de respuesta a consultas de datos
agregados

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

29
Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR). Constelaciones de hechos

Esquema constelaciones de hechos


Inconvenientes
Un gran nmero de tablas de agregados
Cada tabla de agregados se usa para calcular su nivel
Navegar por jerarquas requiere escanear distintas tablas
Aumenta el tamao de los metadatos
Dificulta su gestin y mantenimiento ya que para cada carga
nueva de datos se han de recalcular todos las tablas de
hechos
Puede haber requerimientos que necesiten varias tablas
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR). Copos de nieve (snowflake)

Se normalizan los niveles de jerarqua de dimensiones


Tabla dimensin valores del mnimo nivel de jerarqua

Almacn Ciudad Comunidad Pas


Cod_almacn Cod_ciudad Cod_comunidad Cod_pas
nombre descrip_ciudad descrip_comunidad descrip_pas
superficie habitantes_ciudad habitantes_ciudad habitamtes_
direccin cod_comunidad cod_pas pas
telfono ... ... ...
cod_ciudad
...

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

30
Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR). Copos de nieve (snowflake)

Esquema copos de nieve


Ventajas
Fcil para definir jerarquas
Podra salvar espacio en disco, pero no demasiado
Mejora considerablemente el rendimiento cuando un gran
nmero de requerimientos solicita datos agregados o de
niveles superiores de jerarquas
Los requerimientos escanean un reducido nmero de filas

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR). Copos de nieve (snowflake)

Esquema copos de nieve


Inconvenientes
Aumenta el nmero de tablas aumenta el nmero de
uniones (join)
Algunos requerimientos pueden demorarse en exceso
Aumenta la complejidad de diseo y mantenimiento
Requiere una clave primaria ms por cada nivel de jerarqua
normalizado
No soportado por todas las herramientas del mercado

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

31
Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR). Copos de nieve (snowflake)

Recomendaciones
Normalmente no se recomienda
Realmente cuando el espacio en disco es un problema

Normalmente se recomienda normalizar una o dos de


las dimensiones ms grandes
Existen un gran nmero de filas

Suele aplicarse cuando muchos atributos caracterizan


a los niveles ms altos de las jerarquas

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR). Copos de nieve (snowflake)

Recomendaciones
Utilizar slo cuando las ventajas son muy explcitas:
Ahorro en disco significativo
Muchos atributos en los niveles ms altos de jerarquas

Estadsticamente, el espacio en disco ahorrado


utilizando snowflake schemas es del 1% del espacio
total en disco

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

32
Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR). Hbrido

Utilizar copos de nieve con constelaciones de hechos


(agregados)

Almacn Ciudad Comunidad Pas


Cod_almacn Cod_ciudad Cod_comunidad Cod_pas
nombre descrip_ciudad descrip_comunidad descrip_pas
superficie habitantes_ciudad habitantes_ciudad habitamtes_pas
direccin cod_comunidad cod_pas ...
telfono ... ...
cod_ciudad
...

Ventas_comunidad Ventas_pas
Ventas_Productos Ventas_ciudad
Cod_producto Cod_producto
Cod_producto Cod_producto
Cod_comunidad Cod_pas
Cod_almacn Cod_ciudad
Cod_dia Cod_dia
Cod_dia Cod_dia
cantidad_vendida cantidad_vendida
cantidad_vendida cantidad_vendida
coste coste
coste coste
precio precio
precio precio
precio_total precio_total
precio_total precio_total
total_beneficio total_beneficio
total_beneficio total_beneficio
nmero_clientes nmero_clientes
nmero_clientes nmero_clientes
... ...
... ...

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR). Copos de nieve (snowflake)

Ms particularidades
Relaciones muchos a muchos hechos-dimensin
Hechos que no son hechos (Factless fact tables)
Dimensiones degeneradas
Hechos degenerados
Dimensiones que cambian lentamente
Hechos y dimensiones comunes
Etc.
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

33
Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR). Copos de nieve (snowflake)

Diseo guiado por requerimientos de


usuarios (user requirement driven)
Anlisis requerimientos Modelado MD

Diseo guiado por datos


A partir de fuentes de datos

Aproximacin hbrida

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR). Un apunte metodolgico

Si partimos de fuentes
de datos operacionales Producto
producto_cod
... Descripcin
Nombre Comunidad
Comunidad
(1,n)
....
comunidad_cod
(1,1)
Ttulo Est nombre
... Cod
Provincia
Compras
Estudios
Producto
(1,n)
... producto_cod
(0,n) (1,n) Nombre cliente_cod Provincia
Est cantidad_vendida
tiene compra provincia_cod
precio
(0,n) (1,n) (1,1)
total_precio nombre
...
Cliente Vive Ciudad
(1,1) (1,n)

D.N.I. ... Nombre ...


Cliente Ciudad
cliente_dni ciudad_cod
estudios nombre
UJI. Castelln, 2005
Ciudad_cod
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

34
Almacenes de Datos

Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Bases de datos transaccionales vs. almacenes de datos
Modelado Multidimensional (MD)
Esquema estrella y variantes (en SGBDR)
Dimensin tiempo
Algunos datos del mercado

Integracin de fuentes: Procesos ETL


Diseo de almacenes de datos: UML
Conclusiones
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos

Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Bases de datos transaccionales vs. almacenes de datos
Modelado Multidimensional (MD)
Esquema estrella y variantes (en SGBDR)
Dimensin tiempo
Algunos datos del mercado

Integracin de fuentes: Procesos ETL


Diseo de almacenes de datos: UML
Conclusiones
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

35
Almacenes de Datos
Diseo de AD: visin prctica
La dimensin Tiempo

Tabla de dimensin tiempo


Da laborable Clave de la Tabla tiempo
Perodo fiscal Una columna simple: generl.
generl. auto generada

Principal evento
Mes
Vacaciones

Permite un anlisis Tiempo

ms flexible
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Diseo de AD: visin prctica
La dimensin Tiempo Normalizada

Tabla de hechos Tabla de hechos Tabla de hechos


Da_id Da_id Da_id

Dim_Tiempo Dim_Tiempo
Dim_Tiempo
Da_id Da_id
Da_id
Mes_id Mes_id
Cuatrimestre_id Cuatrimestre_id
Mes_id
Semestre_id Semestre_id
Ao_id Ao_id
Mes_fiscal_id
Cuatrimestre_id
Cuat_fiscal_id
Semester_fiscal_id
Ao_fiscal_id
Semestre_id

UJI. Castelln, 2005


Juan C. Trujillo Ao_id
Jtrujillo@dlsi.ua.es

36
Almacenes de Datos

Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Bases de datos transaccionales vs. almacenes de datos
Modelado Multidimensional (MD)
Esquema estrella y variantes (en SGBDR)
Dimensin tiempo
Algunos datos del mercado

Integracin de fuentes: Procesos ETL


Diseo de almacenes de datos: UML
Conclusiones
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos

Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Bases de datos transaccionales vs. almacenes de datos
Modelado Multidimensional (MD)
Esquema estrella y variantes (en SGBDR)
Dimensin tiempo
Algunos datos del mercado

Integracin de fuentes: Procesos ETL


Diseo de almacenes de datos: UML
Conclusiones
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

37
Almacenes de Datos
Diseo de AD: visin prctica
Algunos datos del mercado

Ratio de
crecimiento:
bajo
Mercado grande
dificil crecer
Cierto grado de
saturacin
Media de costes
drsticamente
disminuida
Fuente: The
OLAP Report
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Diseo de AD: visin prctica
Algunos datos del mercado

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

38
Almacenes de Datos
Diseo de AD: visin prctica
Algunos datos del mercado. Oracle

Almacn de datos
Arquitectura del Oracle 9i/10g
Oracle Warehouse Builder (OWB)
Acceso a datos
Discoverer para managers
Express para analistas
Soporta tecnologa Web

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Diseo de AD: visin prctica
Algunos datos del mercado. Oracle Discoverer

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

39
Almacenes de Datos
Diseo de AD: visin prctica
Algunos datos del mercado. Oracle Discoverer

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Diseo de AD: visin prctica
Algunos datos del mercado. Oracle Discoverer

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

40
Almacenes de Datos
Diseo de AD: visin prctica
Algunos datos del mercado. SQL Server

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Diseo de AD: visin prctica
Algunos datos del mercado. SQL Server

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

41
Almacenes de Datos
Diseo de AD: visin prctica
Algunos datos del mercado. Cognos Transformer

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Diseo de AD: visin prctica
Algunos datos del mercado. Cognos Transformer

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

42
Almacenes de Datos
Diseo de AD: visin prctica
Algunos datos del mercado. Cognos Power Play

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos

Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Bases de datos transaccionales vs. almacenes de datos
Modelado Multidimensional (MD)
Esquema estrella y variantes (en SGBDR)
Dimensin tiempo
Algunos datos del mercado

Integracin de fuentes: Procesos ETL


Diseo de almacenes de datos: UML
Conclusiones
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

43
Almacenes de Datos

Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Diseo de almacenes de datos: UML
Conclusiones

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos

Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Introduccin
Extraccin
Transformacin
Carga

Diseo de almacenes de datos: UML


Conclusiones
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

44
Almacenes de Datos

Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Introduccin
Extraccin
Transformacin
Carga

Diseo de almacenes de datos: UML


Conclusiones
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos

Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Introduccin
Extraccin
Transformacin
Carga

Diseo de almacenes de datos: UML


Conclusiones
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

45
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Introduccin

Algunas tareas comunes de procesos ETL:

Datos de distintas fuentes se tienen que unir


(join)
Datos se tienen que agregar
Datos se han de convertir a un formato
comn
Generar claves auto generadas
Verificar la calidad de los datos
Etc.
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Integracin de fuentes: Procesos ETL
Introduccin

Definir una estrategia de calidad de datos para la


empresa segn poltica de toma de decisiones
Definir el nivel de calidad ptimo de los datos
Considerar el modificar reglas de las fuentes de datos
operacionales
Bsico documentar las fuentes
Disear los procesos de limpieza (y sus tareas) de forma
muy cuidadosa
Los procesos de limpieza iniciales puedes variar de los
procesos de refresco posteriores

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

46
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Introduccin

Cuidado datos incorrectos o engaosos producirn


decisiones estratgicas errneas
El mercado de herramientas de ETL en 2001: sobre $667
millones in USA
Esfuerzo en ETL: 30% del presupuesto total de los
proyectos de DW
Actualmente el diseo y mantenimiento de procesos ETL
es todava un asunto pendiente
Aunque varias herramientas en mercado, no disponemos
de modelo o metodologa estndar para su diseo desde
primeros pasos de un proyecto de DW

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Integracin de fuentes: Procesos ETL
Introduccin

Rutinas convencionales COBOL, 4GL

Herramientas especializadas

Proceso de conversin personalizada

Expertos de negocio

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

47
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Introduccin

Seis pasos detallados:

1. Seleccionar las fuentes para extraer datos


2. Transformar las fuentes
3. Unir las fuentes
4. Seleccionar las estructuras destino a cargar
datos (hechos, dimensiones, etc.)
5. Mapear los atributos de las fuentes en los
destinos
6. Cargar los datos
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Integracin de fuentes: Procesos ETL
Introduccin

El paso de transformacin tambin puede


incluir limpieza de datos (detectar y borrar
errores e inconsistencias)

La creacin manual y mantenimiento de los


procesos ETL aumenta el coste de los DW

CUIDADO: Documentacin con gran cantidad


de pginas con cdigo de programas ETL

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

48
Almacenes de Datos

Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Introduccin
Extraccin
Transformacin
Carga

Diseo de almacenes de datos: UML


Conclusiones
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos

Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Introduccin
Extraccin
Transformacin
Carga

Diseo de almacenes de datos: UML


Conclusiones
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

49
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Extraccin
Browser:
http://

Produccin
Cu
sto
Hollywood mer + X
s:

Archivos Browser: Browser: C us

f
http:// tom

a recoro
http:// ers + X
:

as
Hollywood
X
+ Hollywood

Internas

Externas

12345.00 100% ABC CO


12780.00 110% GMBH LTD
2345787.00 230% GBUK INC
87877.98 200% FFR ASSOC
5678.00 -10% MCD CO

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Integracin de fuentes: Procesos ETL
Extraccin
Browser:
http://Cu
s tom
Hollywood
ers+ X
:

IMS SAP
DB2 X +
Browser:
http://
Hollywood
C
Browser:usto
http://
Hollywood
mer +
s:
X
Sistemas mdicos
VSAM
as
f
a recoro

Prediccin
SQL financiera
Oracle Oracle Financial
Sybase
Rdb

Distintas plataformas de S.O.


Plataformas Hardware

Sistemas de ficheros

Sistemas de bases de datos


UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

50
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Extraccin

B.D. Repositorio
Almacn
Operacionales

Datos histricos ya almacenados


tiles para anlisis de largos periodos de tiempo
tiles para primera carga
Generalmente requerirn transformaciones
Datos estructurados y no estructurados
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Integracin de fuentes: Procesos ETL
Extraccin

Informacin desde fuera de la organizacin

Compaas
especializadas
B.D. Informacin
Compradas Competidores

Prediccin
Web
Financiera
Cinco Das
I.N.E. Expansin
Repositorios
D.W.

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

51
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Extraccin

Programas - C, COBOL, PL/SQL


Gateways acceso a b.d. transparentes

Herramientas

Coste inicial muy alto


Automatizacin
Limpieza de datos

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos

Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Introduccin
Extraccin
Transformacin
Carga

Diseo de almacenes de datos: UML


Conclusiones
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

52
Almacenes de Datos

Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Introduccin
Extraccin
Transformacin
Carga

Diseo de almacenes de datos: UML


Conclusiones
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Integracin de fuentes: Procesos ETL
Transformacin. Algunas transformaciones comunes

Anomalas existen en fuentes operacionales


Limpiar
Valores incoherentes
Universidad de Alicante
Univ. Alicante
U. de Alicante
Anomalas de instancias y codificado
Valores nulos para algunos campos
Violacin de reglas de integridad ?? (ETL)

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

53
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Transformacin. Algunas transformaciones comunes

Wrapper: transformar fuentes de datos nativos en


fuentes de datos basadas en registros

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Integracin de fuentes: Procesos ETL
Transformacin. Algunas transformaciones comunes

Codificacin mltiple
m,f

1,0 m, f

masculino, femenino

Detectar datos errneos


mclno, femenino If field not in (m,1,masculino)
then m, f
1 , NULL else if field is NULL
then

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

54
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Transformacin. Algunas transformaciones comunes

Varios formatos vlidos y estndares


Herramientas o filtros para pre-procesar

cm
cm
milimetros

DD/MM/YY Conversor
DD-Mon-YY A B
MM/DD/YY

1,000 GBP
USD 600
FF 9,990
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Integracin de fuentes: Procesos ETL
Transformacin. Algunas transformaciones comunes

NULL y valores que faltan Filter


Ignorar
Esperar
Marcar las filas
Extraer bajo condiciones establecidas

A
If NULL then
campo = A

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

55
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Transformacin. Algunas transformaciones comunes

Valores duplicados
Join

SELECT
FROM table_a, table_b
WHERE table_a.key (+) = table_b.key
UNION
SELECT
FROM table_a, table_b
ACME Inc
WHERE table_a.key = table_b.key (+)
ACME Inc
ACME Inc
ACME Inc

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Integracin de fuentes: Procesos ETL
Transformacin. Algunas transformaciones comunes

Atributos compatibles
Browser:C us
Cliente
f
a recoro

http:// tom
ers+ X
as

:
Hollywood

potencial

Browser:
http://
Hollywood
X +

Cliente
Cliente

Browser:
http://
Cu
sto
Hollywood mer + X
s:

Contacto

12345.00
12780.00
2345787.00
100%
110% GMBH LTD
230% GBUK INC
ABC CO
Nombre
87877.98 200% FFR ASSOC
5678.00 -10% MCD CO

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

56
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Transformacin. Algunas transformaciones comunes

Significado correcto de cada elemento

Detalle de todos
clientes
Nombre
Todos detalles
cliente
Excepto nombre

Evitar mala-
mala-interpretacin
Browser:
http://
Cu
sto
Solucin compleja
mer
s: +
X

Hollywood
Siempre documentar
f
a recoro

as

significado en METADATA
Detalle_clientes
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Integracin de fuentes: Procesos ETL
Transformacin. Algunas transformaciones comunes

No hay clave nica

Valores que faltan

Nombres personales y comerciales mezclados

Diferentes direcciones para el mismo miembro

Diferentes nombres y ortografa para el mismo miembro

Muchos nombres en la misma linea

Un nombre en dos lneas


UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

57
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Transformacin. Algunas transformaciones comunes. Fusin

Transacciones operacionales no son un mapeo 1-


to-1 con los datos del DW.

Datos del DW son fusionados/unidos para


proporcionar informacin para el anlisis

Ejemplo:
Compra de un producto
Devolucin mismo producto

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Integracin de fuentes: Procesos ETL
Transformacin. Algunas transformaciones comunes

Permitir anlisis del tiempo


Aadir datos de tiempo en los datos de
hechos y dimensiones
Aadir triggers
Aplicaciones de cdigo
Comparar tablas

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

58
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Transformacin. Claves autogeneradas.
Surrogate
#1 Sale 1/2/98 12:00:01 Ham Pizza $10.00 123
#2 Sale 1/2/98 12:00:02 Cheese Pizza $15.00

#3 Sale 1/2/98 12:00:02 Anchovy Pizza $12.00

#4 Return 1/2/98 12:00:03 Anchovy Pizza - $12.00

#5 Sale 1/2/98 12:00:04 Sausage Pizza $11.00

Valores de datos o claves artificiales

#dw1 Sale 1/2/98 12:00:01 Ham Pizza $10.00

#dw2 Sale 1/2/98 12:00:02 Cheese Pizza $15.00

#dw3 Sale 1/2/98 12:00:04 Sausage Pizza $11.00

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Integracin de fuentes: Procesos ETL
Transformacin. Datos agregados/sumados.

Durante extraccin o tratamiento (staging)


Despus de cargar los datos en el DW

Aggregate
+

Browser: C us
f
a recoro

http:// tom
ers + X
as

:
Hollywood

Base de datos Area Repositorio


operacionales Staging
Staging Data Warehouse
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

59
Almacenes de Datos

Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Introduccin
Extraccin
Transformacin
Carga

Diseo de almacenes de datos: UML


Conclusiones
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos

Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Introduccin
Extraccin
Transformacin
Carga

Diseo de almacenes de datos: UML


Conclusiones
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

60
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Carga. Objetivos.

Identificar el transporte de datos para la


primera vez y refrescos siguientes
Describir consideraciones estratgicas e
implementar el refresco de datos
Identificar mtodos empleados para capturar
cambios en los datos y, aplicarlos en el DW
Describir tcnicas de transporte
Identificar las tareas que se llevan a cabo
despus de que los datos se cargan

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Integracin de fuentes: Procesos ETL
Carga. Planteamiento general.

Carga (loading) lleva los datos al DW.


Carga puede necesitar mucho tiempo:
Considerar la ventana de carga
Planificar intentar automatizar todos los
procesos
Carga inicial mueve grandes volumen.
Cargas posteriores mueven volumen de datos
ms pequeos (en teora).
El negocio determina el ciclo de las cargas.

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

61
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Carga. Primera carga.

Primera carga del DW con datos histricos


Requiere grandes volmenes de datos
Puede emplear distintas tareas ETL
Requiere grandes cantidades de procesamiento
despus de la primera carga.

Bases de datos
operacionales
T1 T2 T3

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Integracin de fuentes: Procesos ETL
Carga. Refresco.

Realizados de acuerdo al ciclo del negocio.


Es una tarea ms simple
Menos datos para la carga
ETL menos complejos
Menos rutinas de procesamiento despus de la
carga

Bases de datos
operacionales

UJI. Castelln, 2005 T1 T2 T3


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

62
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Carga. Estrategia de refresco.

Considerar la ventana de carga


Identificar los volmenes de datos
Identificar ciclos
Conocer la infraestructura tcnica
Planificar un rea de trastienda (staging)
Determinar cmo detectar cambios

Bases de datos
operacionales

UJI. Castelln, 2005 T1 T2 T3


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Integracin de fuentes: Procesos ETL
Carga. Utilizar requerimientos.

Usuarios definen tambin el ciclo de refresco


Documentar todas las tareas y procesos
Consultar usuarios expertos

Bases de datos
operacionales
T1 T2 T3

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

63
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Carga. Procesos de transporte.

Especificar
Tcnicas y herramientas
Mtodos de transferencia de ficheros
La ventana de carga
Ventana de tiempo para otras tareas
Volmenes de primera carga y refresco
Frecuencia del ciclo de refresco
Ancho de banda de conectividad

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Integracin de fuentes: Procesos ETL
Carga. Ventana de carga.

Planificar y construir procesos de acuerdo a una


estrategia.
Considerar volmenes de datos
Identificar infraestructura tcnica
Asegurar la actualidad de los datos
Considerar en primer lugar los requerimientos de
acceso de usuarios
Muchos requerimientos puede significar una
ventana de carga pequea
Periodo de acceso de usuario

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es
0 3 am 6 9 12 pm 3 6 9 12

64
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Carga. Granularidad.

Importante disearla
Requerimientos de espacio
Almacenamiento
Copias
Recuperacin Nivel de granularidad bajo
Particionamiento Caro, alto nivel de
Carga procesamiento, ms disco, detalle,
Nivel de granularidad alto
Ms barato, menos
procesamiento, menos disco, poco
detalle

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Integracin de fuentes: Procesos ETL
Ejemplo con SQL Server.

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

65
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Ejemplo con SQL Server.

1.- Tarea de ejecucin SQL

2.- Conexin M. OLE DB


Provider para SQL Server

3.- Tablas destino


normalizadas

4.- Conexin M. OLE DB


Provider para SQL Server
para cada tabla
normalizada
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Integracin de fuentes: Procesos ETL
Ejemplo con SQL Server.

Ejemplo de transformacin

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

66
Almacenes de Datos

Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Diseo de almacenes de datos: UML
Mtodo global
Diseo del almacn de datos y procesos ETL con UML
Herramientas CASE

Conclusiones

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos

Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Diseo de almacenes de datos: UML
Mtodo global
Diseo del almacn de datos y procesos ETL con UML
Herramientas CASE

Conclusiones

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

67
Almacenes de Datos
Diseo de AD: UML
Mtodo global

Objetivo: Un mtodo completo de diseo de AD

Principios de nuestra aproximacin:


Abordar el diseo conceptual de los A.D.
Notacin estndar UML
Completo Incluye las principales fases de diseo
Potente pero fcil de entender
Diferentes niveles de detalle para diferentes usuarios (tcnicos
y usuarios finales) Empleo de paquetes
Mtodo flexible Punto de inicio, pero no un esquema
estricto
Aplicable Soportado por herramientas CASE
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Diseo de AD: UML
Mtodo global

UML es un lenguaje de modelado visual de


propsito general
Mecanismos de extensin permiten adaptarlo a
dominios especficos
Mecanismos:
Stereotypes Nuevos elementos de
construccin Profile
Tagged values Nuevas propiedades
Constraints Nuevas semnticas

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

68
Almacenes de Datos
Diseo de AD: UML
Mtodo global

Icono Adorno Etiqueta Ninguno

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Diseo de AD: UML
Mtodo global

Data Warehouse
MonitorizacinConceptual Schema
& Administracin
(DWCS) Analyze
OLAP
*** ***
*** Repositorio *** Servidores
*** *** *** ***
de***metadatos OLAP
***
*** ***
Business
ETL Exportation Model
Model

Process Process
Almacn de Datos Consultas/Informes
(BM)
***
Fuentes externas Extraer ***
*** ***
Transformar Servir
BD operacionales
Cargar
Minera de datos
Refrescar
Operational Data Data Warehouse
Schema
Fuentes de datos Storage Schema
(ODS) (DWSS)
Diagramas
Data Marts Herramientas
UJI. Castelln, 2005 (vistas sobre el modelo) de consulta
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

69
Almacenes de Datos
Diseo de AD: UML
Mtodo global

Proponemos Data Warehouse Engineering


Process (DWEP), basado en UP pero adaptado a
la construccin de almacenes de datos

Seis flujos:
Requisitos
Anlisis
Diseo
Implementacin
Test
Revisin posterior

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Diseo de AD: UML
Mtodo global

Etapas:
Origen
Integracin
Almacn de datos
Adaptacin
Cliente
Niveles:
Conceptual
Lgico
Fsico
Diagramas: las 5 etapas y los 3 niveles originan 15
diagramas (no se tienen que definir todos los
diagramas en todos los proyectos)
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

70
Almacenes de Datos
Diseo de AD: UML
Mtodo global

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos

Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Diseo de almacenes de datos: UML
Metodologa global
Diseo del almacn de datos y procesos ETL con UML
Herramientas CASE

Conclusiones

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

71
Almacenes de Datos

Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Diseo de almacenes de datos: UML
Metodologa global
Diseo del almacn de datos y procesos ETL con UML
Herramientas CASE

Conclusiones

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Diseo de AD: UML
Diseo de almacenes de datos con UML (ER02, UML02,...)

Diagrama general (nivel 0)


<<ODS>>, <<DWCS>>, <<DWSS>>, <<BM>>, <<ETL>>, <<Exportation>>

<<BM>> <<BM>>
Manager Accounting

<<DWCS>>
<<ODS>> Data warehouse
Sales data
<<DWSS>>
Informix
Metacube

<<ODS>> <<ETL>> <<Exportation>>


Production data Transformations Mappings

<<DWSS>>
Cognos
<<ODS>> PowerPlay
Syndicated
UJI. Castelln, 2005data
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

72
Almacenes de Datos
Diseo de AD: UML
Diseo de almacenes de datos con UML (ER02, UML02,...)

<<ODS>> 0..n 0..n 1 1..n 1 1..n 1


Sales data
1
Salesmen Cities 1 Counties St ates
1 1
<<ODS>>
Production data 0..n 0..n
0.. n 0..n
1 0..n 0..n 1 1
<<ODS>> Groups Discount policies Invoices Customers Agents
Syndicated 0..n 1 0..n
data
0..n 0..n 1

1 0..n 1 0..n
Families Products Lines Categories
0..n 0.. n

1
1
UJI. Castelln, 2005
Juan C. Trujillo
Packages Storage conditions
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Diseo de AD: UML
Diseo de almacenes de datos con UML (ER02, UML02,...)

Definicin del modelo (nivel 1)


<<StarPackage>>

Produc tion s chema Sales schema Salesmen schema

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

73
Almacenes de Datos
Diseo de AD: UML
Diseo de almacenes de datos con UML (ER02, UML02,...)

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Diseo de AD: UML
Diseo de almacenes de datos con UML (ER02, UML02,...)

Definicin del esquema estrella (nivel 2)


<<FactPackage>>, <<DimensionPackage>>

Produc tion s chema Sales schema Salesmen schema

Stores dimension Times dimension

Sales fact

UJI. Castelln, 2005 Products dimension Customers dimension


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

74
Almacenes de Datos
Diseo de AD: UML
Diseo de almacenes de datos con UML (ER02, UML02,...)

Definicin de hechos/dimensiones (nivel 3)


<<Fact>>, <<Dimension>>, <<Base>> Customers dim
1

Produc tion s chema Sales schema Salesmen schema

Customers
+child
0.. n 0..n
+parent +child
1

Stores dimension Times dimension

ZIPs
Sales fact +child 0..n

+pare nt 1
Products dimension Customers dimension
+parent
+c hil d
1
0..n +paren t
Cities
1
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es States

Almacenes de Datos
Diseo de AD: UML
Diseo de almacenes de datos con UML (ER02, UML02,...)

<<DWCS>> <<BM>>
Data warehouse Accounting

Produc tion s chema Sales schema Salesmen schema Sales schema

(from Dat a warehouse)

Importacin
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

75
Almacenes de Datos
Diseo de AD: UML
Procesos ETL (ER03, ER04,...)

Un conjunto reducido pero potente para reflejar


las principales operaciones de procesos ETL:
Aggregation
Conversion
Filter
Incorrect
Join
Loader
Log
Merge
Surrogate, and
Wrapper
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Diseo de AD: UML
Procesos ETL. Ejemplo.

LeftJoin(Storage = IdStorage)
Name = Products.Name
StName = [Storage conditions].Name
StDescription = [Storage conditions].Description
Storage conditions
(from Sales da ta)
- IdStorage
- Name
- Description
Products dim
1 (from Products dimension)

0..n

A B
Product s
NewClass 2 ProdEuro ProdLoader ProdDescription
(from Sales da ta)
(from Products dimension)
- IdProduct
- IdProduct
- Name
- Name
- Price
- Price
- Family
- Family Price = DollarToEuro(Price)
- StName
- St orage
- St Descript ion
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

76
Almacenes de Datos
Diseo de AD: UML
Procesos ETL. Ejemplo.

ProductsLoader Products
IdProducts : Integer IdProducts : Integer
Name : String Name : String
Price : Currency Price : Currency
Discount : Integer Discount : Integer

+ 123
Sales SummedSales SurrogatedSales SalesLoader Sales
IdTicket : Integer Product : Integer Product : Integer Product : Integer Product : Integer
IdProducts : Integer TotalQty : Integer Time : Integer Time : Integer Time : Integer
Name : String Total : Currency TotalQty : Integer TotalQty : Integer TotalQty : Integer
Description : String Date : Date Total : Currency Total : Currency Total : Currency
Price : Currency Date : Date
Quantity : Integer
Discount : Integer
Date : Date
Time = SurrogateKey(Date)

TotalQty = SUM(Quantity)
Total = SUM(Quantity * Price)
GroupBy(IdProducts, Date) TimeLoader Time
UJI. Castelln, 2005 Product = IdProducts
Time : Integer Time : Integer
Juan C. Trujillo Date : Date Date : Date
Jtrujillo@dlsi.ua.es

Almacenes de Datos

Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Diseo de almacenes de datos: UML
Metodologa global
Diseo del almacn de datos y procesos ETL con UML
Herramientas CASE

Conclusiones

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

77
Almacenes de Datos

Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Diseo de almacenes de datos: UML
Metodologa global
Diseo del almacn de datos con UML
Herramientas CASE

Conclusiones

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Diseo de AD: UML
Herramientas CASE

Herramientas
CASE

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

78
Almacenes de Datos
Diseo de AD: UML
Herramientas CASE

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Diseo de AD: UML
Herramientas CASE

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

79
Almacenes de Datos
Diseo de AD: UML
Herramientas CASE

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Diseo de AD: UML
Herramientas CASE

Add-in para
Rational Rose

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

80
Almacenes de Datos
Diseo de AD: UML
Herramientas CASE

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos
Diseo de AD: UML
Herramientas CASE

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

81
Almacenes de Datos
Diseo de AD: UML
Herramientas CASE

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos

Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Diseo de almacenes de datos: UML
Metodologa global
Diseo del almacn de datos con UML
Herramientas CASE

Conclusiones

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

82
Almacenes de Datos

Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Diseo de almacenes de datos: UML
Conclusiones

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos

Conclusiones
Presentado los almacenes de datos como el
principal ncleo de los SAD actuales
Breve descripcin de una arquitectura de AD
Diferencias principales entre sistemas
transaccionales y de almacenes de datos
Diferentes tcnicas y modelos para el diseo de
los almacenes de datos

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

83
Almacenes de Datos

Conclusiones
Nuestra propuesta: mtodo de diseo global para
AD
Principales ventajas:
Misma notacin estndar (UML) para todos los modelos
Perfil para modelado MD
Definicin formal Object Constraint Language (OCL)
Integracin de diferentes fases de diseo en marco
nico
Se adapta a ADs grandes y complejos
Diagrama de paquetes
Herramienta CASE y Rational Rose Add-in
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es

Almacenes de Datos

Trabajos actuales/futuros
Metodologa
Unified Process Model Driven Architecture (MDA)

Mtricas para modelos de AD (con grupo ALARCOS de Ciudad


Real)

Integrar seguridad en el modelado MD

Integrar Data Mining y modelado MD

Web warehouses Cmo ?


Definicin de consultas OLAP basadas en documentos XML
Web services para AD y OLAP

UJI. Castelln, 2005


Juan C. Trujillo
Jtrujillo@dlsi.ua.es

84
Almacenes de datos
Juan Carlos Trujillo Mondjar

IWAD: Ingeniera del Web y Almacenes de Datos

Dpto. Lenguajes y Sistemas Informticos


(Language and Information Systems)
Universidad de Alicante

85

You might also like