Professional Documents
Culture Documents
1/84
TPICOS
O Modelo Dimensional Etapas para Construo Tcnicas Bsicas Tcnicas Avanadas A Arquitetura BUS
2/84
Modelagem Dimensional
Planejamento do Projeto
Modelagem Dimensional
Projeto Fsico
Implantao e Manuteno
Administrao do Projeto
INE 5643 - Data Warehouse Copyright 2003 Jos Leomar Todesco
3/84
Sistemas Operacionais
Sistemas Informacionais
4/84
5/84
Exemplo de MER
6/84
Problemas na MER
parecem iguais;
Inmeras tabelas, relacionamentos, uma teia de
7/84
Problemas na MER
Cenrio tpico:
Hardware e software carssimos executando menos de 50 consultas por dia; Depto de informtica em perodo integral escrevendo cdigos SQL; Consultas simples que exigem uma ou duas pginas de SQL; Usurios infelizes atacando o depto de informtica; CIO pressionado pela alta gerncia devido s constantes reclamaes.
INE 5643 - Data Warehouse Copyright 2003 Jos Leomar Todesco
8/84
Problemas na MER
Concluso: Modelos ER so um desastre para consultas porque no podem ser entendidos pelo usurio nem navegados de forma til pelo SGBD. No podem ser utilizados para um DW (Kimball).
9/84
Modelagem Dimensional
10/84
Modelagem Dimensional
Tcnica de projeto lgico que busca apresentar os
dados em uma estrutura padronizada mais intuitiva e permite alto desempenho de acesso;
Evita-se a utilizao da tcnica de normalizao; Especfica para suportar processamento analtico -
OLAP;
Cada modelo dimensional composto de uma tabela
com mltiplas chaves, chamada de tabela de fatos e um conjunto de outras tabelas chamadas dimenses.
INE 5643 - Data Warehouse Copyright 2003 Jos Leomar Todesco
11/84
Modelagem Dimensional
As tabelas de fatos armazenam grande quantidade
descritivos do negcio;
Cada dimenso tem uma chave primria que
12/84
Modelagem Dimensional
13/84
Todo tipo de negcio pode ser representado por um tipo de cubo de dados, onde as clulas do cubo contm valores e as arestas do cubo definem as dimenses do dado;
14/84
Modelagem Dimensional
4 e 15 dimenses;
Modelos com mais de 20 dimenses do a
impresso de que h dimenses sobrando, isto , que poderiam ser combinadas a outras dimenses e eliminadas.
INE 5643 - Data Warehouse Copyright 2003 Jos Leomar Todesco
15/84
Fato
Representa a essncia dos dados em um processo ou negcio; Medio numrica do negcio obtida da interseco de todas as dimenses; Continuamente valorado; Aditivo; Exemplos: Vendas em Reais;
INE 5643 - Data Warehouse Copyright 2003 Jos Leomar Todesco
Unidades Vendidas.
16/84
Dimenso
Armazena dados descritivos do negcio; Usado como fonte de restrio (filtro de seleo); Usado como cabealho de um relatrio; Geralmente constante; Exemplos: Produto; Marca; Loja.
INE 5643 - Data Warehouse Copyright 2003 Jos Leomar Todesco
17/84
18/84
19/84
Dimenso PRODUTO chave_produto SKU descrio marca categoria tipo_embalagem tamanho sabor
Distrito
Atherton Atherton Gelmont
Marca
Clean fast More power Clean fast
20/84
Dimenso Produto chave_produto SKU descrio marketing_marca marketing_categoria finanas_marca finanas_categoria tipo_embalagem tamanho sabor
Pode ser interessante escolher atributos para atender a rea de Marketing e ao mesmo tempo a rea Financeira da empresa. Geralmente estas duas reas trabalham com hierarquias diferentes de produto.
INE 5643 - Data Warehouse Copyright 2003 Jos Leomar Todesco
21/84
22/84
23/84
24/84
25/84
Exemplo: O Supermercado
Rede de supermercados composta de 500 lojas localizadas em vrios estados. Cada loja composta de vrios deptos que movimentam mais de 60 mil produtos diferentes. As principais preocupaes da administrao ficam por conta da compra, venda e lucro. O lucro resulta de cobrar o mximo possvel, reduzir custos e atrair clientes. As promoes constituem uma grande arma para o aumento das vendas.
INE 5643 - Data Warehouse Copyright 2003 Jos Leomar Todesco
26/84
1 Passo: qual(is) processo(s) do negcio devemos modelar. Opo: movimento dirio de item. Permite acompanhar quais produtos esto sendo vendidos em que lojas, a que preo e em que dias.
27/84
2 Passo: decidir sobre o gro do processo do negcio. Opes: 1 - A nvel de cupom fiscal; 2 - Pela identidade do cliente; 3 - Movimento mensal ou semanal dos itens; 4 - Movimento dirio dos itens por loja.
28/84
Granularidade
o nvel de detalhe de um banco de dados dimensional; Quanto maior o nvel de detalhe, menor a granularidade; Reflete diretamente no tamanho do banco de dados; Um dos pontos mais importantes no projeto de um DW.
INE 5643 - Data Warehouse Copyright 2003 Jos Leomar Todesco
29/84
Granularidade
Granularidade Alta:
Granularidade Baixa:
30/84
Na escolha do gro da tabela de fatos algumas dimenses primrias surgem naturalmente; Verificar quais dimenses podem ser relacionadas ao gro sem gerar valores duplicados; Verificar se a todas as dimenses atendem ao detalhe quantificado na tabela de fatos.
INE 5643 - Data Warehouse Copyright 2003 Jos Leomar Todesco
31/84
FATO VENDAS
DIMENSO LOJA
INE 5643 - Data Warehouse Copyright 2003 Jos Leomar Todesco
32/84
Total de vendas Unidades Vendidas Total do Custo Total de Clientes Outros ...
33/84
DIMENSO TEMPO
DIMENSO PRODUTO
DIMENSO LOJA
34/84
Aditivos: faz sentido adicion-los continuamente e sobre todas as dimenses (Ex: vendas em US$ e vendas em unidades); Semi Aditivos: so adicionados em um dado perodo de tempo (Ex: nveis de estoque, contas de balano e saldo bancrio). Estes fatos so instantneos de tempo; No Aditivos : no podem ser adicionados, apenas contados ou adicionados a somente uma dimenso por vez (Ex: temperatura e condio do tempo).
INE 5643 - Data Warehouse Copyright 2003 Jos Leomar Todesco
35/84
Normalizao
Tabelas de Fatos:
So compactas nas chaves e nos dados; No h meios para normalizar ainda mais os extremamente complexos relacionamentos muitos-para-muitos; A tabela de fatos uma estrutura dimensional de natureza altamente normalizada;
INE 5643 - Data Warehouse Copyright 2003 Jos Leomar Todesco
36/84
Normalizao
Tabelas de Dimenso:
Normalizar uma das tabelas de dimenso em um banco de dados dimensional para ganhar espao em disco uma perda de tempo; O espao livre em disco obtido por meio da normalizao de tabelas de dimenso representa normalmente menos de 1% do espao total necessrio para a estrutura como um todo; As tabelas de dimenso normalizadas destroem a capacidade de pesquisar.
INE 5643 - Data Warehouse Copyright 2003 Jos Leomar Todesco
37/84
Geralmente definida como a primeira dimenso na ordem do banco de dados; Muitos desenvolvedores questionam a necessidade de criar uma tabela de dimenso especfica para tempo.
38/84
Dimenso Tempo
DIMENSO TEMPO CHAVE_TEMPO DIA_SEMANA MS TRIMESTRE ANO FERIADO PERODO_FISCAL TEMPORADA EVENTO FINAL_SEMANA FIM_DO_MES ... FATO VENDAS
CHAVE_TEMPO CHAVE_PRODUTO CHAVE_LOJA TOTAL_VENDA TOTAL_UNIDADES TOTAL_CUSTO
DIMENSO PRODUTO
DIMENSO LOJA
39/84
Existncia de atributos nicos (cdigo do produto) e de atributos repetitivos (categoria, depto, etc); Existncia de uma ou mais hierarquias e de atributos no-integrantes das hierarquias: Departamento Categoria Subcategoria Marca Tipo Embalagem Tamanho embalagem Unidades Largura
40/84
Dimenso Produto
DIMENSO PRODUTO FATO VENDAS
CHAVE_TEMPO CHAVE_PRODUTO CHAVE_LOJA TOTAL_VENDA TOTAL_UNIDADES TOTAL_CUSTO
DIMENSO TEMPO
CHAVE_TEMPO DIA_SEMANA MS TRIMESTRE ANO FERIADO PERODO_FISCAL TEMPORADA EVENTO FINAL_SEMANA FIM_DO_MES ...
CHAVE_PRODUTO DESCRIO NUMERO_ID DEPARTAMENTO CATEGORIA SUBCATEGORIA MARCA TAMANHO_EMB TIPO_EMB PESO ...
DIMENSO LOJA
INE 5643 - Data Warehouse Copyright 2003 Jos Leomar Todesco
41/84
Trata-se de uma dimenso geogrfica, podendo ser considerada como um ponto no espao. Por esse motivo a hierarquia dessa dimenso pode ascender para qualquer elemento geogrfico; Por se representar uma localizao geogrfica, automaticamente encontram-se hierarquias mltiplas para navegao.
INE 5643 - Data Warehouse Copyright 2003 Jos Leomar Todesco
42/84
Dimenso Loja
DIMENSO TEMPO
CHAVE_TEMPO DIA_SEMANA MS TRIMESTRE ANO FERIADO PERODO_FISCAL TEMPORADA EVENTO FINAL_SEMANA FIM_DO_MES ...
FATO VENDAS
CHAVE_TEMPO CHAVE_PRODUTO CHAVE_LOJA TOTAL_VENDA TOTAL_UNIDADES TOTAL_CUSTO
DIMENSO LOJA CHAVE_LOJA NOME_LOJA NUMERO_LOJA ENDERECO CIDADE ESTADO CEP REGIAO GERENTE MT2_MERCEARIA MT2_ACOUGUE...
DIMENSO PRODUTO
CHAVE_PRODUTO DESCRIO NUMERO_ID DEPARTAMENTO CATEGORIA SUBCATEGORIA MARCA TAMANHO_EMB TIPO_EMB PESO
...
INE 5643 - Data Warehouse Copyright 2003 Jos Leomar Todesco
43/84
Dimenso Loja
Chave Nome Loja Cidade Loja 10 20 Beira Mar Coqueiros Florianpolis Florianpolis
Dimenso Tempo
Fato Vendas
Chave Tempo 100 100 100 100 Chave Produto 1 1 2
INE 5643 - Data Warehouse Copyright 2003 Jos Leomar Todesco
Dimensionamento do BD
Dimenso Tempo: 2 anos x 365 dias = 730 dias. Dimenso Produto: 30.000 produtos sendo 3.000 vendidos todos os dias. Dimenso Loja: 300 lojas
Nmero de registros de fatos bsicos = 730 x 3.000 x 300 = 657 milhes de registros Nmero de campos = 3 chaves + 4 fatos = 7 Tamanho bsico da tabela de fatos = 657 milhes x 7 campos x 4 bytes = 18 GB
INE 5643 - Data Warehouse Copyright 2003 Jos Leomar Todesco
45/84
TCNICAS BSICAS
46/84
DIMENSO PRODUTO COD_PRODUTO DESCRIO NUMERO_ID DEPARTAMENTO CATEGORIA SUBCATEGORIA MARCA TAMANHO_EMB TIPO_EMB PESO ...
47/84
DIMENSO PRODUTO COD_PRODUTO DESCRIO NUMERO_ID DEPARTAMENTO CATEGORIA SUBCATEGORIA MARCA TAMANHO_EMB TIPO_EMB PESO ...
48/84
DIMENSO PRODUTO CHAVE_PRODUTO COD_PRODUTO DESCRIO NUMERO_ID DEPARTAMENTO CATEGORIA SUBCATEGORIA MARCA TAMANHO_EMB TIPO_EMB PESO ...
49/84
DIMENSO PRODUTO COD_PRODUTO DESCRIO NUMERO_ID DEPARTAMENTO CATEGORIA_VELHA CATEGORIA_NOVA SUBCATEGORIA MARCA TAMANHO_EMB TIPO_EMB PESO ...
50/84
Dimenses Grandes
DW que armazena muitos detalhes, muito granular, pode requerer dimenses extremamente grandes - nestes casos ter o cuidado de manter estas dimenses grandes sob controle; - no penalizar a consulta na tabela de fatos utilizando uma grande e cara dimenso; - escolher tecnologias de indexao que suportem rpidas pesquisas (browsing).
INE 5643 - Data Warehouse Copyright 2003 Jos Leomar Todesco
51/84
Dimenses Grandes
DIMENSO CLIENTE CHAVE_CLIENTE PRIMEIRO_NOME SOBRENOME ENDERECO CIDADE ESTADO CEP . CHAVE_DEMOGRAFIA
52/84
Dimenses Descaracterizadas
Nmeros de controle de documentos,como nmeros de pedidos, nmeros de fatura e outros so representados como dimenses descaracterizadas (chaves de dimenso sem uma tabela de dimenso correspondente) em tabelas de fatos em que o gro da tabela o documento propriamente dito ou uma linha de item do documento.
INE 5643 - Data Warehouse Copyright 2003 Jos Leomar Todesco
53/84
Dimenses Descaracterizadas FATO VENDAS CHAVE_TEMPO CHAVE_PRODUTO CHAVE_LOJA NRO_PEDIDO TOTAL_VENDA TOTAL_UNIDADES TOTAL_CUSTO TOTAL_CLIENTES DIMENSO TEMPO
DIMENSO PRODUTO
DIMENSO LOJA
54/84
55/84
Desdobra-se as tabelas de dimenses removendo alguns campos para tabelas separadas conectando as mesmas com a tabela original atravs de chaves artificiais;
56/84
Os usurios se sentem intimidados por tanto detalhes; Existem, no entanto, algumas situaes em que pode ser necessria a criao de uma minidimenso com aparncia de Snowflacking (Ex: atributos demogrficos em dimenses grandes).
INE 5643 - Data Warehouse Copyright 2003 Jos Leomar Todesco
57/84
TCNICAS AVANADAS
58/84
59/84
60/84
61/84
62/84
A estrutura hierrquica de um modelo pode ser resolvida com um ponteiro recursivo em cada registro da dimenso cliente;
Embora seja um modo compacto e efetivo para representar uma hierarquia, este tipo de estrutura de recursividade no pode ser usado efetivamente com o SQL padro.
63/84
64/84
Dimenso Recursiva A funo Group by no pode ser usada para seguir a estrutura recursiva da rvore de baixo para cima para resumir o fato aditivo, como o faturamento da organizao. Isto probe conectar uma tabela de dimenso recursiva para qualquer tabela de fato.
65/84
66/84
Capaz de adicionar resumos inteiros de uma organizao, usando SQL padro GROUP BY atravs da lgica;
Capaz de sumarizar fatos das filiais de uma empresa, restringindo o campo nvel a 1, usando SQL padro; Capaz de achar o nvel superior como tambm o topo a partir de qualquer cliente na hierarquia da organizao, usando o SQL padro atravs da lgica.
67/84
Manter o gro original da dimenso cliente, de forma que a chave da dimenso cliente quando desejado possa ser unida diretamente tabela de fatos, podendo-se evitar a criao de qualquer bridge table (tabela ponte) para navegar a hierarquia.
INE 5643 - Data Warehouse Copyright 2003 Jos Leomar Todesco
68/84
Dimenso Auditoria
Dimenso interessante para somar a uma tabela de fato pois a dimenso de auditoria registra os processos de cada registro da tabela de fato. A dimenso de auditoria construda durante o processo de extrao dos dados; So compactados em um nico registro de auditoria, as fases principais do processo que descrevem o ocorrido durante o processamento.
INE 5643 - Data Warehouse Copyright 2003 Jos Leomar Todesco
69/84
Dimenso Auditoria
70/84
A ARQUITETURA BUS
71/84
Como planejar a construo do DW? De forma monoltica; De forma separada por assuntos;
O mais adequado um sistema passo a passo para criar o DW completo; Uma alternativa criar o DW com a arquitetura BUS (barramento).
INE 5643 - Data Warehouse Copyright 2003 Jos Leomar Todesco
72/84
A Crise no Planejamento
Um DW completo exige conhecimento de todos os dados legados;
A impossibilidade de construir rapidamente um DW completo deu oportunidade ao Data Mart (DM) onde uma rea especfica do negcio enfocada.
INE 5643 - Data Warehouse Copyright 2003 Jos Leomar Todesco
73/84
A Crise no Planejamento
74/84
Fazer um planejamento global do DW criando uma arquitetura de fundo que define o escopo e implementao;
Os padres especificados para o DW sero seguidos por todos que iro implementar os DM.
INE 5643 - Data Warehouse Copyright 2003 Jos Leomar Todesco
75/84
Dimenses em Conformidade
Significa que uma dimenso aps definida pelos projetistas do DW sempre ser igual para qualquer tabelas de fatos em todos os DM;
76/84
Dimenses em Conformidade
Uma nica tabela dimensional poder ser usada para mltiplas tabelas de fatos em um mesmo banco de dados;
Interface com usurios e contedo dos dados sero consistentes sempre que a dimenso for usada;
77/84
A maioria das dimenses conformadas sero definidas no maior nvel de granularidade possvel (atmica); Para a dimenso Clientes dever ser o cliente individual; Deve-se definir uma chave que no seja a chave original do sistema legado. feito em paralelo com a definio das dimenses; Definimos tabelas de fatos conformados quando usamos a mesma terminologia entre diferentes DM e quando criamos relatrios nicos, navegando diversos DM.
INE 5643 - Data Warehouse Copyright 2003 Jos Leomar Todesco
78/84
Importncia da Granularidade
As dimenses conformadas so usualmente de Granularidade atmica pois cada linha da tabela corresponde a uma simples descrio de cliente, produto, dia, etc.;
79/84
Importncia da Granularidade
Uma tabela de fatos granular pode ser facilmente estendida, pela adio de novos fatos, novos atributos na dimenso ou adio de nova dimenso completa;
80/84
A recomendao comear com um DM para cada fonte de informao. Assim, para um sistema de vendas, teramos um DM de vendas;
Um DM eficiente de uma nica fonte vai fornecer informaes interessantes e em quantidade suficiente ao usurio para deix-lo feliz e quieto enquanto a equipe pode evoluir a aplicao.
INE 5643 - Data Warehouse Copyright 2003 Jos Leomar Todesco
81/84
Quando se tem diferentes linhas de negcios onde no esto relacionados clientes de um negcio com produtos do outro negcio;
Diferentes subsidirias, uma com servios, outra industrial e mais uma financeira;
82/84
83/84
Referncias Bibliogrficas
Inmon, William H. Como Construir o Data Warehouse, 1997. Kimball, R.; Reeves, L.; Ross, M. & Thornthwaite, W. The Data Warehouse Lifecycle Toolkit: expert methods for designing, developing, and deploying data warehouses, 1998. Kimball, Ralph.Data Warehouse Tollkit, 1998. Pereira, Walter. Data Warehouse - Trabalho Individual II, http://www.inf.pucrs.br/~wpereira,1999. Poe, Vidette; Klauer, Patricia & Brobst, Stephen, Building a Data Warehouse for Decision Support, 1998.
INE 5643 - Data Warehouse Copyright 2003 Jos Leomar Todesco
84/84