Professional Documents
Culture Documents
http://www.uniriotec.br/~tanaka/SAIN tanaka@uniriotec.br
Asterio K. Tanaka
Material baseado em originais de Maria Luiza Campos (http://dataware.nce.ufrj.br/) Complementado com referncias atuais de Ralph Kimball (http://www.kimballgroup.com/)
Asterio K. Tanaka
Tabelas de Fatos
Fatos aditivos, semi-aditivos, no-aditivos
Tabelas de Dimenses
Hierarquias, Normalizao/Desnormalizao Esquema Snow Flake
Asterio K. Tanaka
Viso multidimensional
Facilita o entendimento e visualizao de problemas tpicos de suporte deciso Mais intuitiva para o processamento analtico Utilizada pelas ferramentas OLAP A viso lgica multidimensional, embora a estrutura fsica possa ter a mesma viso tabular do modelo relacional.
Asterio K. Tanaka
Estrutura Relacional
Volume de vendas (do revendedor GLEASON)
MODEL MINI VAN MINI VAN MINI VAN SPORTS COUPE SPORTS COUPE SPORTS COUPE SEDAN SEDAN SEDAN COLOR BLUE RED WHITE BLUE RED WHITE BLUE RED WHITE SALES VOLUME 6 5 4 3 5 5 4 3 2
Asterio K. Tanaka
M O D E L
6 3 4
Blue
5 5 3
Red
4 5 2
White
Coupe
Sedan
Asterio K. Tanaka
COLOR
BLUE BLUE BLUE RED RED RED WHITE WHITE WHITE BLUE BLUE BLUE RED RED RED WHITE WHITE WHITE BLUE BLUE BLUE RED RED RED WHITE WHITE WHITE
DEALERSHIP
CLYDE GLEASON CARR CLYDE GLEASON CARR CLYDE GLEASON CARR CLYDE GLEASON CARR CLYDE GLEASON CARR CLYDE GLEASON CARR CLYDE GLEASON CARR CLYDE GLEASON CARR CLYDE GLEASON CARR
VOLUME
6 6 2 3 5 5 2 4 3 2 3 2 7 5 2 4 5 1 6 4 2 1 3 4 2 2 3
Asterio K. Tanaka
Viso multidimensional
Volume de Vendas
M O D E L
Mini Van Coupe Sedan Blue Red White Carr Gleason Clyde
DEALERSHIP
COLOR
O cubo , de fato, apenas uma metfora visual. uma representao intuitiva do fato porque todas as dimenses coexistem para todo ponto no cubo e so independentes umas das outras.
Asterio K. Tanaka
DEALERSHIP
COLOR
COLOR
COLOR
JANUARY
FEBRUARY
MARCH
Asterio K. Tanaka
Brasil SUL RS
45
NO AC
56
SE
23
SC
62
AM 150
23 13
92 87
73 21 34
23 14
234
.. 46
18
..
Agregados
Vendas
Produto XPTO ... XPTA XPTN
o bril aio... ar A M M Ms
ES SP RJ
Categoria
Regio
Trimestre
Estado
Asterio K. Tanaka
Problemas
Calcular os agregados no momento da recuperao ou armazen-los? A r m a zen a m en to X T em po de R es pos ta
Asterio K. Tanaka
Nmero de Agregaes
60000 50000 40000 30000 20000 10000 0 2 16 3 64 4 256 5 1024 6 4096 7 8 16384
65536
Nmero de Dimenses
(4 nveis em cada dimenso)
Asterio K. Tanaka
Agregados
As hierarquias permitem que o usurio possa ter acesso a dados com maior ou menor detalhe Os valores apresentados quando o analista consulta dados em nveis hierrquicos mais altos so valores agregados
Asterio K. Tanaka
Hierarquias e Agregados
Produto Marca Categoria Produto Tempo Ano Trimestre Ms Geografia Consultas Pas Regio Estado
Asterio K. Tanaka
Ferramentas OLAP
OLAP: On Line Analytical Processing
Conjunto de tcnicas para tratar informaes contidas em DW. Viso Multidimensional dos Dados
Asterio K. Tanaka
Transparncia
OLAP deve atender a todas as solicitaes do analista, no importando de onde os dados viro. Todas as implicaes devem ser transparentes para os usurios finais.
Acessibilidade
As ferramentas OLAP devem permitir conexo com todas as bases de dados legadas. A distribuio de informaes deve ser mapeada para permitir o acesso a qualquer base.
Asterio K. Tanaka
Dimensionalidade genrica
Deve ser capaz de tratar informaes em qualquer quantidade de dimenses
Suporte a multiusurios
Nas grandes organizaes, comum vrios analistas trabalharem com a mesma massa de dados.
Asterio K. Tanaka
Asterio K. Tanaka
Operaes OLAP
Ferramentas OLAP fornecem suporte para funes de anlise de dados, tpicas de aplicaes avanadas de planilhas eletrnicas. Operaes dimensionais de ferramentas OLAP:
Slice and Dice (Ponto, Plano, Cubo) Rotation (Rotao ou Pivotamento) Drilling Drill Down Drill Across e Drill Through Drill Up (Roll Up) Ranking (Classificao por uma coluna)
Asterio K. Tanaka
Operadores Dimensionais
Plano Slicing
Duas dimenses variando com outras fixas.
Cubo Dicing
Todas as dimenses variando
Rotao Pivotamento
Mudana dos eixos das dimenses, para fins de visualizao Vide tabelas dinmicas no MS Excel
Asterio K. Tanaka
Operadores Drilling
Drill-down
Drill-up ou Roll-up
Asterio K. Tanaka
Operadores Drilling
Drill Across
Drill Through
Asterio K. Tanaka
Modelagem Multidimensional
Proposto por Ralph Kimball para projeto de DW
Dimensional Modeling Manifesto, 1997 O prprio Kimball atribui a origem a um projeto conduzido por uma empresa (General Mills) e uma universidade (Dartmouth) nos anos 1960s.
Dominante no projeto de DW
Para Kimball, em todo o DW Para Inmon, nos data marts
Caractersticas:
Distingue melhor as dimenses dos fatos medidos Simplifica a visualizao dimensional (essencial em consultas OLAP) Na verdade uma mistura de modelagem conceitual com modelagem lgica, pois j bastante voltada para a abordagem relacional (a literatura fala sempre em tabelas)
Asterio K. Tanaka
Esquema Estrela
Uma tabela de fatos cercada de tabelas de dimenses
F a to
Asterio K. Tanaka
Exemplo Consultas
Vendas por categoria de produto sobre os ltimos seis meses Vendas por marca entre 1990 e 1995
Dimenso Loja
Medidas Numricas
Dimenso Produto
pk_tempo
pk_produto
pk_loja
preco_venda unidades_venda
preco_custo
Tabelas de Dimenso
Dimenso Tempo
Tabela de Fatos
...
Asterio K. Tanaka
Asterio K. Tanaka
Resultados
NomeLoja DataCompleta Descricao Total ================================================ East Loja Oct 1, 1994 Athletic Drink 57 East Loja Oct 1, 1994 Beef Stew 128 East Loja Oct 1, 1994 Buffalo Jerky 202 East Loja Oct 1, 1994 Chicken Dinner 161 East Loja Oct 1, 1994 Clear Refresher 73 East Loja Oct 1, 1994 Dried Grits 102 East Loja Oct 1, 1994 Dry Tissues 16 East Loja Oct 1, 1994 Extra Nougat 442 East Loja Oct 1, 1994 Fizzy Classic 46 East Loja Oct 1, 1994 Fizzy Light 65 East Loja Oct 1, 1994 Lasagna 162 East Loja Oct 1, 1994 Lots of Nuts 248 East Loja Oct 1, 1994 Onion Slices 120
Asterio K. Tanaka
What
Why
Who
Asterio K. Tanaka
Esquema estrela com tabela de fatos Estoque e dimenses Produto, Loja e Data
Asterio K. Tanaka
Esquema estrela com tabela de fatos Itens e dimenses Produto, Promoo, Atendente, Loja e Data
Asterio K. Tanaka
Esquema estrela (constelao) com tabelas de fatos Itens e Estoque. As dimenses Produto, Loja e Data so compartilhadas e conformadas
Asterio K. Tanaka
Modelagem Dimensional
Esquema Estrela simtrico
Comparado a esquemas ER tpicos
Tabela de Fatos
Expressa relacionamento M:N entre dimenses Tabela dominante Usualmente com grande volume de dados; ocupam 90% do espao em um DW tpico Tendem a ter muitas linhas e poucas colunas
Tabelas de Dimenses
Tabelas que qualificam os fatos, com muitos campos descritivos ( comum ter dimenses com dezenas de colunas) Dimenses apresentam-se em consultas qualificadas como por dimenso (vendas por semana por marca por loja) e so as bases para agregaes e agrupamentos. Uma juno liga cada tabela de dimenso tabela de fatos Volume bem menor que as tabelas de fatos O poder de um DW diretamente proporcional qualidade e profundidade dos atributos das dimenses.
Asterio K. Tanaka
Multidimensional
Vrios diagramas dimensionais (1 para cada processo de negcio) Usurios reconhecem o seu negcio Poucas junes Dados atmicos e agregados Planos de consultas genricos (simetria do modelo)
Usurios acham difcil entender e navegar pelo modelo Muitas junes para responder a consultas Dados atmicos Planos de consultas extremamente distintos e especficos para as consultas previstas
Asterio K. Tanaka
Tabela de Fatos
Ex: Tabelas Itens e Estoque Tabela de fatos normalizada em 3a forma normal Chave primria composta por um subconjunto das chaves das dimenses (subconjunto que garanta unicidade s vezes todas as chaves)
Vide por exemplo a tabela Itens, se houvesse uma dimenso CupomFiscal (bastariam as chaves de CupomFiscal e de Produto como chave primria)
Por ser o DW histrico, a tabela de fatos tem muitas linhas (milhes, bilhes) e poucas colunas (chaves das dimenses e medidas dos fatos). Medidas do fatos so usualmente numricas, mas podem ser no numricas ou sem medida (tabelas sem fato) Fatos so tipicamente aditivos, mas podem ser
Semi-aditivos ou mesmo No aditivos
Asterio K. Tanaka
Fatos Aditivos
Ex: Quantidade, Valor na Tabela Itens So nmericos e podem ser somados em relao s dimenses existentes
Ex: quantidade e valor podem ser somados ao longo de qualquer dimenso (Produto, Promoo, Atendente, Loja e Data)
Sempre que, em uma modelagem, um dado numrico for apresentado, ento este ser um bom indcio de um atributo em fatos. Em geral, fatos aditivos representam medidas de atividade do negcio, ligadas ao seus indicadores de desempenho (KPI Key performance indicators).
Asterio K. Tanaka
Fatos Semi-Aditivos
Ex: Quantidade na Tabela Estoque
Tambm so numricos, mas no podem ser somados em relao a todas as dimenses existentes (a semntica no permite)
Ex: quantidade em estoque s pode ser somada ao longo da dimenso Produto. Nas dimenses Loja e Data, a soma no faria muito sentido (especialmente nesta ltima, nenhum sentido)
Fatos semi-aditivos tpicos: Nveis de Estoque, Saldos, Fechamento dirio/mensal de conta, etc...
Asterio K. Tanaka
Fatos No-Aditivos
Algumas observaes no numricas podem eventualmente ser fatos.
Ex: DW de registro de acidentes de trnsito Atributos: carro1, carro2, motorista1, motorista2, descrio do acidente, descrio do tempo e descrio da pista.
Informaes textuais so fatos que s permitem contagem e estatsticas associadas a contagens. Alternativamente, poderiam ser modeladas como dimenses ligadas a uma tabela de fatos sem fatos, isto , s para contagem.
Ex: DW de registro de inscries em turmas por disciplina, por semestre, por curso, por aluno, por professor.
Asterio K. Tanaka
Tabelas de Dimenses
Objetivo:
Contm descries textuais do negcio (fato) Atributos de dimenses servem como cabealho das linhas e colunas das anlises e filtro nas consultas e relatrios Chaves simples (em geral, artificiais: surrogate keys) Nmeros inteiros de 4 bytes: 232 > + 2 bilhes Muitas colunas (dezenas); poucas linhas (centenas ou milhares) se comparadas com tabelas de fatos Usualmente no dependente do tempo Tempo outra dimenso (quase sempre presente) Desnormalizada (em geral, na 2a forma normal) Hierarquias implcitas ( custa da 3a forma normal)
Asterio K. Tanaka
Caractersticas:
Informalmente:
Uma relao est em 2FN se todo atributo no-primo (isto , que no seja membro de chave) for totalmente dependente de qualquer chave.
Informalmente:
Uma relao est em 3FN se estiver em 2FN e nenhum atributo no-primo (isto , que no seja membro de uma chave) for transitivamente dependente da chave.
Num esquema estrela, as tabelas de dimenses no so normalizadas em 3FN; esto apenas em Asterio K. Tanaka 2FN.
Hierarquias de Dimenses
Uma dimenso pode ter mltiplas hierarquias alm de outros atributos descritivos Exemplos: Para a dimenso Loja
Geografia fsica: CEP, cidade, estado, regio, pas Geografia de vendas: territrio, regio, zona Geografia de distribuio: rea primria, regio
Asterio K. Tanaka
Tabelas de Dimenso
Segundo KIMBALL, as tabelas de dimenso no devem ser normalizadas pois:
1) no h atualizao freqente nas bases; 2) o espao em disco economizado relativamente pequeno; 3) esse ganho de espao no justifica a perda de performance na realizao de consultas por conta das junes necessrias em caso de normalizao.
Asterio K. Tanaka
Asterio K. Tanaka
L oja
Cida de
E s ta do
Cidade Estado
Pk_loja Cidade
P a s
Pas Regio
Estado Pas
M edida s
Asterio K. Tanaka
Definindo um barramento padro para o ambiente de DW, data marts separados podem ser implementados por grupos diferentes em tempos diferentes. Todos os processos da cadeia de valores da organizao criaro uma famlia de modelos dimensionais que compartilham um conjunto completo de dimenses comuns e conformadas.
Asterio K. Tanaka
BUSINESS PROCESSES Store Sales Store Inventory Store Deliveries Warehouse Inventory Warehouse Deliveries Purchase Orders
X X X X X X
X X X X X X X X X X X X X X X X X X
As linhas da matriz correspondem a data marts e as colunas a dimenses conformadas. A matriz a ferramenta usada para criar, documentar, gerenciar e comunicar a arquitetura de barramento. Segundo Kimball, o artefato de anlise mais importante do desenvolvimento de um DW. uma ferramenta hbrida, que serve para design tcnico, para gerncia de projeto e como forma de comunicao organizacional.
Asterio K. Tanaka
Um processo uma atividade de negcio natural da organizao que tipicamente suportada por um sistema fonte de colees de dados. Exemplos: vendas, compras de matria prima, pedidos, expedies, faturamento, inventrio, contas a pagar/receber. Significa especificar exatamente o que uma linha da tabela fato representa. Exemplos: uma linha de um cupom fiscal, um carto de embarque individual, um nvel dirio de estoque de cada produto, um saldo mensal de cada conta bancria.
Implica em responder pergunta: Como o pessoal do negcio descreve os dados que resultam do processo de negcio? Exemplos: data, produto, cliente, tipo de transao, status de pedido. Implica em responder pergunta: O que ns estamos medindo? Os fatos candidatos devem ser coerentes com o gro declarado no passo 2. Exemplos: quantidade, valor.
Asterio K. Tanaka
Asterio K. Tanaka
Asterio K. Tanaka
Exemplo de Modelagem
1. Selecionar o processo de negcio
Vendas no caixa da loja Venda individual de cada produto por loja (isto , uma linha de cada cupom fiscal de venda) Dimenses principais Data, Produto, Loja Outras dimenses descritivas relevantes possveis (compatveis com o gro escolhido) Promoo, Atendente Quantidade e Valor de cada venda
Asterio K. Tanaka
2. Declarar o gro
3. Escolher as dimenses
4. Identificar os fatos
Asterio K. Tanaka
Asterio K. Tanaka
Projeto Conceitual
Esquema Conceitual
Projeto Lgico
Esquema Lgico
Mapeamento do esquema conceitual para o modelo de dados do SGBD escolhido, atravs de diagrama de estruturas de dados (DED)
Projeto Fsico
Esquema Fsico
Mapeamento do esquema lgico para os tipos de dados e restries de integridade do SGBD escolhido; criao de vises e ndices.
Asterio K. Tanaka
Asterio K. Tanaka
Asterio K. Tanaka
SGBDs relacionais
Maior aceitao (fora do mercado de BD relacional) Exige mapeamento (como qualquer projeto de BD relacional)
Asterio K. Tanaka
Escolha do SGBD
Asterio K. Tanaka
Asterio K. Tanaka