Professional Documents
Culture Documents
Almacenes de Datos
Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Diseo de almacenes de datos: UML
Conclusiones
1
Almacenes de Datos
Indice
Introduccin
Sistemas de apoyo a la decisin
El almacn de datos (AD)
Diferencia sistemas transaccionales y de AD
Arquitectura de almacenes de datos
Almacenes de Datos
Indice
Introduccin
Sistemas de apoyo a la decisin
El almacn de datos (AD)
Diferencia sistemas transaccionales y de AD
Arquitectura de almacenes de datos
2
Almacenes de Datos
Introduccin
Sistemas de apoyo a la decisin
Empresas en la actualidad
Sistemas orientados a los procesos diarios de la
empresa
Sistemas de Procesamiento Transaccional en Lnea (On-Line
Transactional Processing, OLTP)
Compras de productos, ventas, pedidos, gestin de clientes, ..
Optimizados para la edicin e insercin de datos
Aproximadamente el 90% de SGBD son relacionales
SGBD eficientes, robustos, etc.
Datos histricos almacenamientos externos
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es
Almacenes de Datos
Introduccin
Sistemas de apoyo a la decisin
3
Almacenes de Datos
Introduccin
Sistemas de apoyo a la decisin
Almacenes de Datos
Indice
Introduccin
Sistemas de apoyo a la decisin
El almacn de datos (AD)
Diferencia sistemas transaccionales y de AD
Arquitectura de almacenes de datos
4
Almacenes de Datos
Indice
Introduccin
Sistemas de apoyo a la decisin
El almacn de datos (AD)
Diferencia sistemas transaccionales y de AD
Arquitectura de almacenes de datos
Almacenes de Datos
Introduccin
El almacn de datos
5
Almacenes de Datos
Introduccin
El almacn de datos
Almacenes de Datos
Introduccin
El almacn de datos
6
Almacenes de Datos
Introduccin
El almacn de datos
Integrados
Datos integrados de distintas fuentes de datos
operacionales
Variables en el tiempo
Datos relativos a un periodo de tiempo y se
incrementan peridicamente
No voltiles
Los datos almacenados normalmente no se modifican ni
actualizan nunca (casi nunca), slo se insertan nuevos
datos
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es
Almacenes de Datos
Indice
Introduccin
Sistemas de apoyo a la decisin
El almacn de datos (AD)
Diferencia sistemas transaccionales y de AD
Arquitectura de almacenes de datos
7
Almacenes de Datos
Indice
Introduccin
Sistemas de apoyo a la decisin
El almacn de datos (AD)
Diferencia sistemas transaccionales y de AD
Arquitectura de almacenes de datos
Almacenes de Datos
Introduccin
Diferencia sistemas transaccionales y de AD
OLTP AD/OLAP
Usuario Profesional de TI Analista de Informacin
Funcin Operaciones diarias Apoyo a la decisin
Diseo de BD Orientada a la aplicacin Orientado al tema/negocio
(Basado en EE-R) (Multidimensional, ej. estrella)
Datos Actuales, Aislados Histricos, Consolidados
Vistas Detallados, Planos, Relac. Agregados, Multidimensional
Destino/utilizacin Estructuradas, repetitivas Ad-Hoc
Unidades de trabajo Transacciones simples Consultas complejas
Acceso Lectura/escritura Lectura mayoritariamente
# Registros accedidos Decenas Millones
# Usuarios Miles Centenares
Tamao de la BD 100 MB-GB 100 GB-TB
Medidas de rendimiento Cantidad de transacciones Cantidad de consultas,
Respuesta
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es
8
Almacenes de Datos
Indice
Introduccin
Sistemas de apoyo a la decisin
El almacn de datos (AD)
Diferencia sistemas transaccionales y de AD
Arquitectura de almacenes de datos
Almacenes de Datos
Indice
Introduccin
Sistemas de apoyo a la decisin
El almacn de datos (AD)
Diferencia sistemas transaccionales y de AD
Arquitectura de almacenes de datos
9
Almacenes de Datos
Introduccin
Arquitectura de almacn de datos
Fuentes de datos
Almacenes de Datos
Introduccin
Arquitectura de almacn de datos. Procesos ETL
Extraccin (Extraction)
Limpieza (Cleaning) y Transformacin
(Transformation)
Carga (Loading) y Refresco
10
Almacenes de Datos
Introduccin
Arquitectura de almacn de datos
Fuentes de datos
Almacenes de Datos
Introduccin
Arquitectura de almacn de datos. Servidores OLAP
11
Almacenes de Datos
Introduccin
Arquitectura de almacn de datos. Servidores OLAP
Almacenes de Datos
Introduccin
Arquitectura de almacn de datos
Fuentes de datos
12
Almacenes de Datos
Indice
Introduccin
Sistemas de apoyo a la decisin
El almacn de datos (AD)
Diferencia sistemas transaccionales y de AD
Arquitectura de almacenes de datos
Almacenes de Datos
Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Diseo de almacenes de datos: UML
Conclusiones
13
Almacenes de Datos
Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Bases de datos transaccionales vs. almacenes de datos
Modelado Multidimensional (MD)
Esquema estrella y variantes (en SGBDR)
Dimensin tiempo
Algunos datos del mercado
Almacenes de Datos
Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Bases de datos transaccionales vs. almacenes de datos
Modelado Multidimensional (MD)
Esquema estrella y variantes (en SGBDR)
Dimensin tiempo
Algunos datos del mercado
14
Almacenes de Datos
Diseo de AD: visin prctica
Bases de datos transaccionales vs. Almacenes de datos
Fuentes de datos
Almacenes de Datos
Diseo de AD: visin prctica
Bases de datos transaccionales vs. Almacenes de datos
15
Almacenes de Datos
Diseo de AD: visin prctica
Bases de datos transaccionales vs. Almacenes de datos
Almacenes de datos
Des - normalizacin
Optimizadas para consultas complejas
Reduce nmero de objetos y de relaciones entre stos
Fcil interpretacin por el analista de la informacin
Almacenes de Datos
Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Bases de datos transaccionales vs. almacenes de datos
Modelado Multidimensional (MD)
Esquema estrella y variantes (en SGBDR)
Dimensin tiempo
Algunos datos del mercado
16
Almacenes de Datos
Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Bases de datos transaccionales vs. almacenes de datos
Modelado Multidimensional (MD)
Esquema estrella y variantes (en SGBDR)
Dimensin tiempo
Algunos datos del mercado
Almacenes de Datos
Diseo de AD: visin prctica
Modelado Multidimensional (MD)
Madrid
Provincia Barcelona Hechos
Alicante
Almacn
Medidas
Bebida 9 (celdas)
...
Tipo
Producto
Comida 8 Cantidad
Dimensiones
Tiempo
17
Almacenes de Datos
Diseo de AD: visin prctica
Modelado Multidimensional (MD)
Tablas multidimensionales
Producto.Grupo = Supermercado
Ventas Comida Bebida
Cong Fresco Refresco Alcohol
Albatera 100 200 300 400
Almacn. Alicante
comunidad = Elche 500 600 700 800
Comunidad Burjasot 900 1000 1100 1200
Valenciana Valencia
Cullera 1300 1400 1500 1600
Almacenes de Datos
Diseo de AD: visin prctica
Modelado Multidimensional (MD). Dimensiones
18
Almacenes de Datos
Diseo de AD: visin prctica
Modelado Multidimensional (MD). Hechos
Derivados
Utilizan una frmula para calcularlos
Ej. Precio_total = precio * cantidad_vendida
Almacenes de Datos
Diseo de AD: visin prctica
Modelado Multidimensional (MD). Hechos
Aditividad
Conjunto de operadores de agregacin (SUM, AVG, etc.
) que se pueden aplicar para agregar los valores de
medidas a lo largo de las jerarquas de clasificacin
(Kimball, 1996)
Es aditiva SUM sobre todas las dimensiones
Semi-aditiva SUM slo sobre algunas dimensiones
No aditiva SUM sobre ninguna dimensin
19
Almacenes de Datos
Diseo de AD: visin prctica
Modelado Multidimensional (MD). Consultas
Almacenes de Datos
Diseo de AD: visin prctica
Modelado Multidimensional (MD). Operaciones OLAP
20
Almacenes de Datos
Diseo de AD: visin prctica
Modelado Multidimensional (MD). Operaciones OLAP
Producto.Grupo = alimentacin
Ventas
Ventas Comida
Food Bebida
Drink
Comida Bebida
Cong. Fresca
Frozen Fresh Refresco
Refresh Alcohol
Almacn. Alicante Albatera 100 200 300 400
Alicante 1400 2200
Comunidad= Elche 500 600 700 800
Comunidad Burjasot 900 1000 1100 1200
4600 5400
Valenciana Valencia
Valencia
Cullera 1300 1400 1500 1600
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es
Almacenes de Datos
Diseo de AD: visin prctica
Modelado Multidimensional (MD). Operaciones OLAP
21
Almacenes de Datos
Diseo de AD: visin prctica
Modelado Multidimensional (MD). Operaciones OLAP
Producto.Grupo = Alimentacin
Ventas
Ventas Comida Comida Bebida
Congelada
Cong. Fresca
Fresca Refresco Alcohol
Almacn. Alicante Albatera 100 200 300 400
Albatera 500 100 600 700 200 800
Comunidad = Elche
Alicante
Comunidad Burjasot 900 1000 1100 1200
Valenciana Valencia Cullera
Elche
1300 500 1400 1500 600 1600
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es
Almacenes de Datos
Diseo de AD: visin prctica
Modelado Multidimensional (MD). Operaciones OLAP
22
Almacenes de Datos
Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Bases de datos transaccionales vs. almacenes de datos
Modelado Multidimensional (MD)
Esquema estrella y variantes (en SGBDR)
Dimensin tiempo
Algunos datos del mercado
Almacenes de Datos
Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Bases de datos transaccionales vs. almacenes de datos
Modelado Multidimensional (MD)
Esquema estrella y variantes (en SGBDR)
Dimensin tiempo
Algunos datos del mercado
23
Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR)
Almacn
Tablas de almacn_cod
Producto
producto_cod
dimensin almacn _nombre
producto_nombre almacn _direc
producto_color ciudad
.
marca_cod Ventas_productos provincia
marca_director ..
producto_cod Zona_ventas
familia_cod
familia_des almacn_cod .
tipo_cod cliente_cod comunidad
. tiempo_cod
Grupo_cod cantidad_vendida
. precio
...
total_precio Tiempo
... tiempo_cod
Cliente
da
cliente_cod vacaciones
cliente_nombre mes
ciudad Tabla de .
. ao
comunidad hechos
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es
Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR)
Tablas de dimensiones
Describen el contexto para analizar los hechos
Datos textuales (Alfanumricos)
Datos desnormalizados redundancia
24
Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR)
Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR)
25
Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR)
Tablas de hechos
Actividades bsicas de empresa
Cada fila se compone de:
Clave primaria (compuesta por claves ajenas de las
dimensiones)
Medidas Datos numricos
Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR)
26
Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR)
Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR)
27
Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR)
Esquema estrella
Ventajas
Fcil de entender por los usuarios
Reduce nmero de uniones fsicas
Respuestas rpidas para la mayora de las consultas
Metadatos sencillos
Soportado por la inmensa mayora de aplicaciones
Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR)
Esquema estrella
Inconvenientes
El aumento del tamao de la tabla de hechos con datos
agregados puede empeorar el rendimiento general
Por ello se recomienda tablas de hechos agregados al margen
Las dimensiones tienen un tamao enorme
Alrededor de 50 atributos (Kimball)
Es poco robusto o susceptible a cambios
28
Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR). Constelaciones de hechos
Almacn
Producto Ventas_productos
almacn_cod
producto_cod producto_cod almacn _nombre
producto_nombre almacn_cod almacn _direc
producto_color cliente_cod ciudad
marca_cod tiempo_cod .
marca_director cantidad_vendida provincia
familia_cod ..
precio Zona_ventas
familia_des ... .
tipo_cod total_precio comunidad
.
Grupo_cod
. Ventas_productos
producto_cod
Cliente Tiempo
comunidad_cod
cliente_cod time_cod
cliente_cod
cliente_nombre da
ciudad tiempo_cod
. cantidad_vendida vacaciones
comunidad precio mes
... .
total_precio ao
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es
Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR). Constelaciones de hechos
29
Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR). Constelaciones de hechos
Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR). Copos de nieve (snowflake)
30
Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR). Copos de nieve (snowflake)
Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR). Copos de nieve (snowflake)
31
Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR). Copos de nieve (snowflake)
Recomendaciones
Normalmente no se recomienda
Realmente cuando el espacio en disco es un problema
Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR). Copos de nieve (snowflake)
Recomendaciones
Utilizar slo cuando las ventajas son muy explcitas:
Ahorro en disco significativo
Muchos atributos en los niveles ms altos de jerarquas
32
Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR). Hbrido
Ventas_comunidad Ventas_pas
Ventas_Productos Ventas_ciudad
Cod_producto Cod_producto
Cod_producto Cod_producto
Cod_comunidad Cod_pas
Cod_almacn Cod_ciudad
Cod_dia Cod_dia
Cod_dia Cod_dia
cantidad_vendida cantidad_vendida
cantidad_vendida cantidad_vendida
coste coste
coste coste
precio precio
precio precio
precio_total precio_total
precio_total precio_total
total_beneficio total_beneficio
total_beneficio total_beneficio
nmero_clientes nmero_clientes
nmero_clientes nmero_clientes
... ...
... ...
Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR). Copos de nieve (snowflake)
Ms particularidades
Relaciones muchos a muchos hechos-dimensin
Hechos que no son hechos (Factless fact tables)
Dimensiones degeneradas
Hechos degenerados
Dimensiones que cambian lentamente
Hechos y dimensiones comunes
Etc.
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es
33
Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR). Copos de nieve (snowflake)
Aproximacin hbrida
Almacenes de Datos
Diseo de AD: visin prctica
Esquema estrella y variantes (SGBDR). Un apunte metodolgico
Si partimos de fuentes
de datos operacionales Producto
producto_cod
... Descripcin
Nombre Comunidad
Comunidad
(1,n)
....
comunidad_cod
(1,1)
Ttulo Est nombre
... Cod
Provincia
Compras
Estudios
Producto
(1,n)
... producto_cod
(0,n) (1,n) Nombre cliente_cod Provincia
Est cantidad_vendida
tiene compra provincia_cod
precio
(0,n) (1,n) (1,1)
total_precio nombre
...
Cliente Vive Ciudad
(1,1) (1,n)
34
Almacenes de Datos
Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Bases de datos transaccionales vs. almacenes de datos
Modelado Multidimensional (MD)
Esquema estrella y variantes (en SGBDR)
Dimensin tiempo
Algunos datos del mercado
Almacenes de Datos
Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Bases de datos transaccionales vs. almacenes de datos
Modelado Multidimensional (MD)
Esquema estrella y variantes (en SGBDR)
Dimensin tiempo
Algunos datos del mercado
35
Almacenes de Datos
Diseo de AD: visin prctica
La dimensin Tiempo
Principal evento
Mes
Vacaciones
ms flexible
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es
Almacenes de Datos
Diseo de AD: visin prctica
La dimensin Tiempo Normalizada
Dim_Tiempo Dim_Tiempo
Dim_Tiempo
Da_id Da_id
Da_id
Mes_id Mes_id
Cuatrimestre_id Cuatrimestre_id
Mes_id
Semestre_id Semestre_id
Ao_id Ao_id
Mes_fiscal_id
Cuatrimestre_id
Cuat_fiscal_id
Semester_fiscal_id
Ao_fiscal_id
Semestre_id
36
Almacenes de Datos
Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Bases de datos transaccionales vs. almacenes de datos
Modelado Multidimensional (MD)
Esquema estrella y variantes (en SGBDR)
Dimensin tiempo
Algunos datos del mercado
Almacenes de Datos
Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Bases de datos transaccionales vs. almacenes de datos
Modelado Multidimensional (MD)
Esquema estrella y variantes (en SGBDR)
Dimensin tiempo
Algunos datos del mercado
37
Almacenes de Datos
Diseo de AD: visin prctica
Algunos datos del mercado
Ratio de
crecimiento:
bajo
Mercado grande
dificil crecer
Cierto grado de
saturacin
Media de costes
drsticamente
disminuida
Fuente: The
OLAP Report
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es
Almacenes de Datos
Diseo de AD: visin prctica
Algunos datos del mercado
38
Almacenes de Datos
Diseo de AD: visin prctica
Algunos datos del mercado. Oracle
Almacn de datos
Arquitectura del Oracle 9i/10g
Oracle Warehouse Builder (OWB)
Acceso a datos
Discoverer para managers
Express para analistas
Soporta tecnologa Web
Almacenes de Datos
Diseo de AD: visin prctica
Algunos datos del mercado. Oracle Discoverer
39
Almacenes de Datos
Diseo de AD: visin prctica
Algunos datos del mercado. Oracle Discoverer
Almacenes de Datos
Diseo de AD: visin prctica
Algunos datos del mercado. Oracle Discoverer
40
Almacenes de Datos
Diseo de AD: visin prctica
Algunos datos del mercado. SQL Server
Almacenes de Datos
Diseo de AD: visin prctica
Algunos datos del mercado. SQL Server
41
Almacenes de Datos
Diseo de AD: visin prctica
Algunos datos del mercado. Cognos Transformer
Almacenes de Datos
Diseo de AD: visin prctica
Algunos datos del mercado. Cognos Transformer
42
Almacenes de Datos
Diseo de AD: visin prctica
Algunos datos del mercado. Cognos Power Play
Almacenes de Datos
Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Bases de datos transaccionales vs. almacenes de datos
Modelado Multidimensional (MD)
Esquema estrella y variantes (en SGBDR)
Dimensin tiempo
Algunos datos del mercado
43
Almacenes de Datos
Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Diseo de almacenes de datos: UML
Conclusiones
Almacenes de Datos
Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Introduccin
Extraccin
Transformacin
Carga
44
Almacenes de Datos
Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Introduccin
Extraccin
Transformacin
Carga
Almacenes de Datos
Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Introduccin
Extraccin
Transformacin
Carga
45
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Introduccin
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Introduccin
46
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Introduccin
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Introduccin
Herramientas especializadas
Expertos de negocio
47
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Introduccin
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Introduccin
48
Almacenes de Datos
Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Introduccin
Extraccin
Transformacin
Carga
Almacenes de Datos
Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Introduccin
Extraccin
Transformacin
Carga
49
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Extraccin
Browser:
http://
Produccin
Cu
sto
Hollywood mer + X
s:
f
http:// tom
a recoro
http:// ers + X
:
as
Hollywood
X
+ Hollywood
Internas
Externas
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Extraccin
Browser:
http://Cu
s tom
Hollywood
ers+ X
:
IMS SAP
DB2 X +
Browser:
http://
Hollywood
C
Browser:usto
http://
Hollywood
mer +
s:
X
Sistemas mdicos
VSAM
as
f
a recoro
Prediccin
SQL financiera
Oracle Oracle Financial
Sybase
Rdb
Plataformas Hardware
Sistemas de ficheros
50
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Extraccin
B.D. Repositorio
Almacn
Operacionales
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Extraccin
Compaas
especializadas
B.D. Informacin
Compradas Competidores
Prediccin
Web
Financiera
Cinco Das
I.N.E. Expansin
Repositorios
D.W.
51
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Extraccin
Herramientas
Almacenes de Datos
Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Introduccin
Extraccin
Transformacin
Carga
52
Almacenes de Datos
Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Introduccin
Extraccin
Transformacin
Carga
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Transformacin. Algunas transformaciones comunes
53
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Transformacin. Algunas transformaciones comunes
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Transformacin. Algunas transformaciones comunes
Codificacin mltiple
m,f
1,0 m, f
masculino, femenino
54
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Transformacin. Algunas transformaciones comunes
cm
cm
milimetros
DD/MM/YY Conversor
DD-Mon-YY A B
MM/DD/YY
1,000 GBP
USD 600
FF 9,990
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Transformacin. Algunas transformaciones comunes
A
If NULL then
campo = A
55
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Transformacin. Algunas transformaciones comunes
Valores duplicados
Join
SELECT
FROM table_a, table_b
WHERE table_a.key (+) = table_b.key
UNION
SELECT
FROM table_a, table_b
ACME Inc
WHERE table_a.key = table_b.key (+)
ACME Inc
ACME Inc
ACME Inc
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Transformacin. Algunas transformaciones comunes
Atributos compatibles
Browser:C us
Cliente
f
a recoro
http:// tom
ers+ X
as
:
Hollywood
potencial
Browser:
http://
Hollywood
X +
Cliente
Cliente
Browser:
http://
Cu
sto
Hollywood mer + X
s:
Contacto
12345.00
12780.00
2345787.00
100%
110% GMBH LTD
230% GBUK INC
ABC CO
Nombre
87877.98 200% FFR ASSOC
5678.00 -10% MCD CO
56
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Transformacin. Algunas transformaciones comunes
Detalle de todos
clientes
Nombre
Todos detalles
cliente
Excepto nombre
Evitar mala-
mala-interpretacin
Browser:
http://
Cu
sto
Solucin compleja
mer
s: +
X
Hollywood
Siempre documentar
f
a recoro
as
significado en METADATA
Detalle_clientes
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Transformacin. Algunas transformaciones comunes
57
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Transformacin. Algunas transformaciones comunes. Fusin
Ejemplo:
Compra de un producto
Devolucin mismo producto
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Transformacin. Algunas transformaciones comunes
58
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Transformacin. Claves autogeneradas.
Surrogate
#1 Sale 1/2/98 12:00:01 Ham Pizza $10.00 123
#2 Sale 1/2/98 12:00:02 Cheese Pizza $15.00
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Transformacin. Datos agregados/sumados.
Aggregate
+
Browser: C us
f
a recoro
http:// tom
ers + X
as
:
Hollywood
59
Almacenes de Datos
Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Introduccin
Extraccin
Transformacin
Carga
Almacenes de Datos
Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Introduccin
Extraccin
Transformacin
Carga
60
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Carga. Objetivos.
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Carga. Planteamiento general.
61
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Carga. Primera carga.
Bases de datos
operacionales
T1 T2 T3
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Carga. Refresco.
Bases de datos
operacionales
62
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Carga. Estrategia de refresco.
Bases de datos
operacionales
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Carga. Utilizar requerimientos.
Bases de datos
operacionales
T1 T2 T3
63
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Carga. Procesos de transporte.
Especificar
Tcnicas y herramientas
Mtodos de transferencia de ficheros
La ventana de carga
Ventana de tiempo para otras tareas
Volmenes de primera carga y refresco
Frecuencia del ciclo de refresco
Ancho de banda de conectividad
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Carga. Ventana de carga.
64
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Carga. Granularidad.
Importante disearla
Requerimientos de espacio
Almacenamiento
Copias
Recuperacin Nivel de granularidad bajo
Particionamiento Caro, alto nivel de
Carga procesamiento, ms disco, detalle,
Nivel de granularidad alto
Ms barato, menos
procesamiento, menos disco, poco
detalle
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Ejemplo con SQL Server.
65
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Ejemplo con SQL Server.
Almacenes de Datos
Integracin de fuentes: Procesos ETL
Ejemplo con SQL Server.
Ejemplo de transformacin
66
Almacenes de Datos
Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Diseo de almacenes de datos: UML
Mtodo global
Diseo del almacn de datos y procesos ETL con UML
Herramientas CASE
Conclusiones
Almacenes de Datos
Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Diseo de almacenes de datos: UML
Mtodo global
Diseo del almacn de datos y procesos ETL con UML
Herramientas CASE
Conclusiones
67
Almacenes de Datos
Diseo de AD: UML
Mtodo global
Almacenes de Datos
Diseo de AD: UML
Mtodo global
68
Almacenes de Datos
Diseo de AD: UML
Mtodo global
Almacenes de Datos
Diseo de AD: UML
Mtodo global
Data Warehouse
MonitorizacinConceptual Schema
& Administracin
(DWCS) Analyze
OLAP
*** ***
*** Repositorio *** Servidores
*** *** *** ***
de***metadatos OLAP
***
*** ***
Business
ETL Exportation Model
Model
Process Process
Almacn de Datos Consultas/Informes
(BM)
***
Fuentes externas Extraer ***
*** ***
Transformar Servir
BD operacionales
Cargar
Minera de datos
Refrescar
Operational Data Data Warehouse
Schema
Fuentes de datos Storage Schema
(ODS) (DWSS)
Diagramas
Data Marts Herramientas
UJI. Castelln, 2005 (vistas sobre el modelo) de consulta
Juan C. Trujillo
Jtrujillo@dlsi.ua.es
69
Almacenes de Datos
Diseo de AD: UML
Mtodo global
Seis flujos:
Requisitos
Anlisis
Diseo
Implementacin
Test
Revisin posterior
Almacenes de Datos
Diseo de AD: UML
Mtodo global
Etapas:
Origen
Integracin
Almacn de datos
Adaptacin
Cliente
Niveles:
Conceptual
Lgico
Fsico
Diagramas: las 5 etapas y los 3 niveles originan 15
diagramas (no se tienen que definir todos los
diagramas en todos los proyectos)
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es
70
Almacenes de Datos
Diseo de AD: UML
Mtodo global
Almacenes de Datos
Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Diseo de almacenes de datos: UML
Metodologa global
Diseo del almacn de datos y procesos ETL con UML
Herramientas CASE
Conclusiones
71
Almacenes de Datos
Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Diseo de almacenes de datos: UML
Metodologa global
Diseo del almacn de datos y procesos ETL con UML
Herramientas CASE
Conclusiones
Almacenes de Datos
Diseo de AD: UML
Diseo de almacenes de datos con UML (ER02, UML02,...)
<<BM>> <<BM>>
Manager Accounting
<<DWCS>>
<<ODS>> Data warehouse
Sales data
<<DWSS>>
Informix
Metacube
<<DWSS>>
Cognos
<<ODS>> PowerPlay
Syndicated
UJI. Castelln, 2005data
Juan C. Trujillo
Jtrujillo@dlsi.ua.es
72
Almacenes de Datos
Diseo de AD: UML
Diseo de almacenes de datos con UML (ER02, UML02,...)
1 0..n 1 0..n
Families Products Lines Categories
0..n 0.. n
1
1
UJI. Castelln, 2005
Juan C. Trujillo
Packages Storage conditions
Jtrujillo@dlsi.ua.es
Almacenes de Datos
Diseo de AD: UML
Diseo de almacenes de datos con UML (ER02, UML02,...)
73
Almacenes de Datos
Diseo de AD: UML
Diseo de almacenes de datos con UML (ER02, UML02,...)
Almacenes de Datos
Diseo de AD: UML
Diseo de almacenes de datos con UML (ER02, UML02,...)
Sales fact
74
Almacenes de Datos
Diseo de AD: UML
Diseo de almacenes de datos con UML (ER02, UML02,...)
Customers
+child
0.. n 0..n
+parent +child
1
ZIPs
Sales fact +child 0..n
+pare nt 1
Products dimension Customers dimension
+parent
+c hil d
1
0..n +paren t
Cities
1
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es States
Almacenes de Datos
Diseo de AD: UML
Diseo de almacenes de datos con UML (ER02, UML02,...)
<<DWCS>> <<BM>>
Data warehouse Accounting
Importacin
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es
75
Almacenes de Datos
Diseo de AD: UML
Procesos ETL (ER03, ER04,...)
Almacenes de Datos
Diseo de AD: UML
Procesos ETL. Ejemplo.
LeftJoin(Storage = IdStorage)
Name = Products.Name
StName = [Storage conditions].Name
StDescription = [Storage conditions].Description
Storage conditions
(from Sales da ta)
- IdStorage
- Name
- Description
Products dim
1 (from Products dimension)
0..n
A B
Product s
NewClass 2 ProdEuro ProdLoader ProdDescription
(from Sales da ta)
(from Products dimension)
- IdProduct
- IdProduct
- Name
- Name
- Price
- Price
- Family
- Family Price = DollarToEuro(Price)
- StName
- St orage
- St Descript ion
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es
76
Almacenes de Datos
Diseo de AD: UML
Procesos ETL. Ejemplo.
ProductsLoader Products
IdProducts : Integer IdProducts : Integer
Name : String Name : String
Price : Currency Price : Currency
Discount : Integer Discount : Integer
+ 123
Sales SummedSales SurrogatedSales SalesLoader Sales
IdTicket : Integer Product : Integer Product : Integer Product : Integer Product : Integer
IdProducts : Integer TotalQty : Integer Time : Integer Time : Integer Time : Integer
Name : String Total : Currency TotalQty : Integer TotalQty : Integer TotalQty : Integer
Description : String Date : Date Total : Currency Total : Currency Total : Currency
Price : Currency Date : Date
Quantity : Integer
Discount : Integer
Date : Date
Time = SurrogateKey(Date)
TotalQty = SUM(Quantity)
Total = SUM(Quantity * Price)
GroupBy(IdProducts, Date) TimeLoader Time
UJI. Castelln, 2005 Product = IdProducts
Time : Integer Time : Integer
Juan C. Trujillo Date : Date Date : Date
Jtrujillo@dlsi.ua.es
Almacenes de Datos
Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Diseo de almacenes de datos: UML
Metodologa global
Diseo del almacn de datos y procesos ETL con UML
Herramientas CASE
Conclusiones
77
Almacenes de Datos
Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Diseo de almacenes de datos: UML
Metodologa global
Diseo del almacn de datos con UML
Herramientas CASE
Conclusiones
Almacenes de Datos
Diseo de AD: UML
Herramientas CASE
Herramientas
CASE
78
Almacenes de Datos
Diseo de AD: UML
Herramientas CASE
Almacenes de Datos
Diseo de AD: UML
Herramientas CASE
79
Almacenes de Datos
Diseo de AD: UML
Herramientas CASE
Almacenes de Datos
Diseo de AD: UML
Herramientas CASE
Add-in para
Rational Rose
80
Almacenes de Datos
Diseo de AD: UML
Herramientas CASE
Almacenes de Datos
Diseo de AD: UML
Herramientas CASE
81
Almacenes de Datos
Diseo de AD: UML
Herramientas CASE
Almacenes de Datos
Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Diseo de almacenes de datos: UML
Metodologa global
Diseo del almacn de datos con UML
Herramientas CASE
Conclusiones
82
Almacenes de Datos
Indice
Introduccin
Diseo de almacenes de datos: visin prctica
Integracin de fuentes: Procesos ETL
Diseo de almacenes de datos: UML
Conclusiones
Almacenes de Datos
Conclusiones
Presentado los almacenes de datos como el
principal ncleo de los SAD actuales
Breve descripcin de una arquitectura de AD
Diferencias principales entre sistemas
transaccionales y de almacenes de datos
Diferentes tcnicas y modelos para el diseo de
los almacenes de datos
83
Almacenes de Datos
Conclusiones
Nuestra propuesta: mtodo de diseo global para
AD
Principales ventajas:
Misma notacin estndar (UML) para todos los modelos
Perfil para modelado MD
Definicin formal Object Constraint Language (OCL)
Integracin de diferentes fases de diseo en marco
nico
Se adapta a ADs grandes y complejos
Diagrama de paquetes
Herramienta CASE y Rational Rose Add-in
UJI. Castelln, 2005
Juan C. Trujillo
Jtrujillo@dlsi.ua.es
Almacenes de Datos
Trabajos actuales/futuros
Metodologa
Unified Process Model Driven Architecture (MDA)
84
Almacenes de datos
Juan Carlos Trujillo Mondjar
85