You are on page 1of 66

SISTEMAS DE APOIO INTELIGNCIA DE NEGCIOS

http://www.uniriotec.br/~tanaka/SAIN tanaka@uniriotec.br

Asterio K. Tanaka

Material baseado em originais de Maria Luiza Campos (http://dataware.nce.ufrj.br/) Complementado com referncias atuais de Ralph Kimball (http://www.kimballgroup.com/)
Asterio K. Tanaka

OLAP e Modelagem Dimensional Conceitos Bsicos

Viso multidimensional de dados Agregados e hierarquias de dimenses Ferramentas OLAP


As doze regras de Codd Operaes dimensionais para OLAP Tipos de ferramentas: MOLAP, ROLAP, HOLAP

Conceitos de modelagem dimensional


Esquema estrela: Fatos e Dimenses

Tabelas de Fatos
Fatos aditivos, semi-aditivos, no-aditivos

Tabelas de Dimenses
Hierarquias, Normalizao/Desnormalizao Esquema Snow Flake

Modelagem dimensional e projeto de DW


Data Warehouse Bus Architecture & Matrix Mitos, Passos, Dicas, Armadilhas Processo de projeto
Asterio K. Tanaka

Modelagem de DW para OLAP


Requisitos diferentes das aplicaes do ambiente transacional: flexibilidade quanto s anlises a suportar medidas a analisar precisam ser vistas sob diferentes perspectivas (dimenses) Enfoque diferente da modelagem no ambiente operacional Abordagem utilizada: MODELAGEM DIMENSIONAL

Asterio K. Tanaka

Viso multidimensional

Facilita o entendimento e visualizao de problemas tpicos de suporte deciso Mais intuitiva para o processamento analtico Utilizada pelas ferramentas OLAP A viso lgica multidimensional, embora a estrutura fsica possa ter a mesma viso tabular do modelo relacional.

Asterio K. Tanaka

Estrutura Relacional
Volume de vendas (do revendedor GLEASON)
MODEL MINI VAN MINI VAN MINI VAN SPORTS COUPE SPORTS COUPE SPORTS COUPE SEDAN SEDAN SEDAN COLOR BLUE RED WHITE BLUE RED WHITE BLUE RED WHITE SALES VOLUME 6 5 4 3 5 5 4 3 2

Asterio K. Tanaka

Viso matricial ou multidimensional


Volume de Vendas (do revendedor Gleason)
Mini Van

M O D E L

6 3 4
Blue

5 5 3
Red

4 5 2
White

Coupe

Sedan

COLOR Um array multidimensional tem um nmero fixo de dimenses e

os valores so armazenados nas clulas Cada dimenso consiste de um nmero de elementos

Asterio K. Tanaka

Acrescentando mais uma coluna...


MODEL
MINI VAN MINI VAN MINI VAN MINI VAN MINI VAN MINI VAN MINI VAN MINI VAN MINI VAN SPORTS COUPE SPORTS COUPE SPORTS COUPE SPORTS COUPE SPORTS COUPE SPORTS COUPE SPORTS COUPE SPORTS COUPE SPORTS COUPE SEDAN SEDAN SEDAN SEDAN SEDAN SEDAN SEDAN SEDAN SEDAN

COLOR
BLUE BLUE BLUE RED RED RED WHITE WHITE WHITE BLUE BLUE BLUE RED RED RED WHITE WHITE WHITE BLUE BLUE BLUE RED RED RED WHITE WHITE WHITE

DEALERSHIP
CLYDE GLEASON CARR CLYDE GLEASON CARR CLYDE GLEASON CARR CLYDE GLEASON CARR CLYDE GLEASON CARR CLYDE GLEASON CARR CLYDE GLEASON CARR CLYDE GLEASON CARR CLYDE GLEASON CARR

VOLUME
6 6 2 3 5 5 2 4 3 2 3 2 7 5 2 4 5 1 6 4 2 1 3 4 2 2 3

Volume de Vendas de todos os revendedores

Asterio K. Tanaka

Viso multidimensional
Volume de Vendas

M O D E L

Mini Van Coupe Sedan Blue Red White Carr Gleason Clyde

DEALERSHIP

COLOR

O cubo , de fato, apenas uma metfora visual. uma representao intuitiva do fato porque todas as dimenses coexistem para todo ponto no cubo e so independentes umas das outras.
Asterio K. Tanaka

Adicionando Dimenses - Hipercubos


Volume de Vendas
M O D E L
Mini Van Coupe Sedan Blue Red White Carr Gleason Clyde Mini Van Coupe Sedan Blue Red White Carr Gleason Clyde Mini Van Coupe Sedan Blue Red White Carr Gleason Clyde

DEALERSHIP

COLOR

COLOR

COLOR

JANUARY

FEBRUARY

MARCH

Asterio K. Tanaka

Nveis nas dimenses ou Hierarquias


Total de vendas Produto Alfa1
Dimenso: rea NE PE Dimenso: 7 tempo 14 abril 21 1996 29 maio 15 30
34

Brasil SUL RS
45

NO AC
56

SE
23

SC
62

AM 150

23 13

92 87

73 21 34

23 14

234

.. 46
18

..

Hierarquias so a base das agregaes


Asterio K. Tanaka

Agregados
Vendas
Produto XPTO ... XPTA XPTN
o bril aio... ar A M M Ms
ES SP RJ

Categoria

Regio

Trimestre

Estado

Asterio K. Tanaka

Problemas
Calcular os agregados no momento da recuperao ou armazen-los? A r m a zen a m en to X T em po de R es pos ta

BD3 BD4 BD2 BD1


BD1 BD2 BD3 BD4

Asterio K. Tanaka

A Sndrome da Exploso no Volume de Dados


70000

Nmero de Agregaes

60000 50000 40000 30000 20000 10000 0 2 16 3 64 4 256 5 1024 6 4096 7 8 16384

65536

Nmero de Dimenses
(4 nveis em cada dimenso)
Asterio K. Tanaka

Agregados

As hierarquias permitem que o usurio possa ter acesso a dados com maior ou menor detalhe Os valores apresentados quando o analista consulta dados em nveis hierrquicos mais altos so valores agregados

Asterio K. Tanaka

Hierarquias e Agregados
Produto Marca Categoria Produto Tempo Ano Trimestre Ms Geografia Consultas Pas Regio Estado
Asterio K. Tanaka

Vendas por Produto, Marca, Trimestre Ano e eRegio Regio

Ferramentas OLAP
OLAP: On Line Analytical Processing
Conjunto de tcnicas para tratar informaes contidas em DW. Viso Multidimensional dos Dados

Termo proposto por E.F. Codd, em 1993


Providing OLAP to User-Analysts: An IT Mandate.

Doze Regras de Codd para ferramentas OLAP:


Viso conceitual multidimensional Transparncia Acessibilidade Desempenho de Informaes consistentes Arquitetura Cliente Servidor Dimensionalidade genrica Manipulao de dados dinmicos Suporte a multiusurios Operaes ilimitadas em dimenses cruzadas Manipulao intuitiva de dados Flexibilidade nas consultas Nveis de dimenso e agregao ilimitados

Asterio K. Tanaka

Doze Regras de Codd para ferramentas OLAP


Viso conceitual multidimensional
Os dados so modelados em diversas dimenses podendo haver cruzamento de todos os tipos de informaes

Transparncia
OLAP deve atender a todas as solicitaes do analista, no importando de onde os dados viro. Todas as implicaes devem ser transparentes para os usurios finais.

Acessibilidade
As ferramentas OLAP devem permitir conexo com todas as bases de dados legadas. A distribuio de informaes deve ser mapeada para permitir o acesso a qualquer base.

Desempenho de Informaes consistentes


As ferramentas OLAP devem possuir conhecimento sobre todas as informaes armazenadas que possa disponibilizar, sem complexidade para o usurio final, qualquer tipo de consulta.

Asterio K. Tanaka

Doze Regras de Codd para ferramentas OLAP


Arquitetura Cliente Servidor
OLAP deve ser construda em arquitetura C/S para que possa atender a qualquer usurio em qualquer ambiente operacional

Dimensionalidade genrica
Deve ser capaz de tratar informaes em qualquer quantidade de dimenses

Manipulao de dados dinmicos


Devido ao grande volume de informaes armazenadas nas diversas dimenses de um modelo multidimensional, comum a esparsidade dos dados, e ento essas clulas nulas devem ser tratadas para evitar custos com memria.

Suporte a multiusurios
Nas grandes organizaes, comum vrios analistas trabalharem com a mesma massa de dados.

Asterio K. Tanaka

Doze Regras de Codd para ferramentas OLAP


Operaes ilimitadas em dimenses cruzadas
As ferramentas OLAP devem ser capazes de navegar nas diversas dimenses existentes.

Manipulao intuitiva de dados


O usurios devem ser capazes de manipular os dados livremente, sem necessitar de qualquer tipo de ajuda.

Flexibilidade nas consultas


O usurio deve ter a flexibilidade para efetuar qualquer tipo de consulta.

Nveis de dimenso e agregao ilimitados


Devido s vrias dimenses existentes, deve haver vrios nveis de agregao dos dados.

Asterio K. Tanaka

Operaes OLAP
Ferramentas OLAP fornecem suporte para funes de anlise de dados, tpicas de aplicaes avanadas de planilhas eletrnicas. Operaes dimensionais de ferramentas OLAP:
Slice and Dice (Ponto, Plano, Cubo) Rotation (Rotao ou Pivotamento) Drilling Drill Down Drill Across e Drill Through Drill Up (Roll Up) Ranking (Classificao por uma coluna)

Asterio K. Tanaka

Operadores Dimensionais

Ponto - Valor pontual


Interseo de valores (Fato) com relao aos eixos (Dimenses)

Plano Slicing
Duas dimenses variando com outras fixas.

Cubo Dicing
Todas as dimenses variando

Rotao Pivotamento
Mudana dos eixos das dimenses, para fins de visualizao Vide tabelas dinmicas no MS Excel

Asterio K. Tanaka

Operadores Drilling
Drill-down

Drill-up ou Roll-up

Asterio K. Tanaka

Operadores Drilling

Drill Across

Drill Through

Asterio K. Tanaka

Tipos de ferramentas OLAP


OLAP Multidimensional (MOLAP)
Utilizam estrutura de dados multidimensional e permitem a navegao pelos nveis de detalhamento em tempo real. O BD e o SGBD so multidimensionais Estrutura de dados um array com um nmero fixo de dimenses. O (hiper)cubo uma metfora visual, onde as dimenses coexistem para todo ponto e so independentes entre si.

OLAP RELACIONAL (ROLAP)


Decorrncia do uso consagrado de SGBDs relacionais nos BDs operacionais (transacionais), com as vantagens da tecnologia aberta e padronizada (SQL). Utiliza os metadados no apoio descrio do modelo de dados e na construo de consultas. Atravs de uma camada semntica acima do esquema relacional, os dados so apresentados ao usurio com viso multidimensional.

OLAP HBRIDO (HOLAP)


Tendncia dos modernos SGBDs relacionais de adicionar uma arquitetura multidimensional para prover facilidades a ambientes de suporte a deciso. Proporciona o desempenho e flexibilidade de um BD multidimensional e mantm a gerenciabilidade, escalabilidade, confiabilidade e acessibilidade conquistadas pelos BDs relacionais.
Asterio K. Tanaka

Modelagem Multidimensional
Proposto por Ralph Kimball para projeto de DW
Dimensional Modeling Manifesto, 1997 O prprio Kimball atribui a origem a um projeto conduzido por uma empresa (General Mills) e uma universidade (Dartmouth) nos anos 1960s.

Dominante no projeto de DW
Para Kimball, em todo o DW Para Inmon, nos data marts

Caractersticas:
Distingue melhor as dimenses dos fatos medidos Simplifica a visualizao dimensional (essencial em consultas OLAP) Na verdade uma mistura de modelagem conceitual com modelagem lgica, pois j bastante voltada para a abordagem relacional (a literatura fala sempre em tabelas)
Asterio K. Tanaka

Esquema Estrela
Uma tabela de fatos cercada de tabelas de dimenses

F a to

Asterio K. Tanaka

Esquema Estrela - Exemplo


D im en s o P r oduto

D im en s o T em po pk_tempo data mes quadrimestre ano Flag_feriado

F a to V en da s pk_tempo pk_produto pk_loja preco_venda unidades_venda preco_custo

pk_produto descricao categoria marca

D im en s o L oja pk_loja nome_loja endereo cidade estado


Asterio K. Tanaka

Exemplo Consultas
Vendas por categoria de produto sobre os ltimos seis meses Vendas por marca entre 1990 e 1995
Dimenso Loja

Colunas da chave composta ligando a tabela de fatos s tabelas de dimenso

Medidas Numricas

Dimenso Produto

pk_tempo

pk_produto

pk_loja

preco_venda unidades_venda

preco_custo

Tabelas de Dimenso

Dimenso Tempo

Tabela de Fatos

...
Asterio K. Tanaka

Consulta SQL sobre um esquema estrela


select Qtd Vendida [Loja].[NomeLoja], [Tempo].[DataCompleta], de cada Produto [Produto].[Descricao], Sum( [Vendas].[Unidades_Venda]) as Total por Loja e from por Data [Vendas], [Tempo], [Produto], [Loja] where [Vendas].[CodTempo] = [Tempo].[CodTempo] and [Vendas].[CodProduto] = [Produto].[CodProduto] and [Vendas].[CodLoja] = [Loja].[CodLoja] group by [Loja].[NomeLoja], [Tempo].[DataCompleta], [Produto].[Descricao] order by [Tempo].[DataCompleta], [Loja].[NomeLoja], [Produto].[Descricao]

Asterio K. Tanaka

Resultados
NomeLoja DataCompleta Descricao Total ================================================ East Loja Oct 1, 1994 Athletic Drink 57 East Loja Oct 1, 1994 Beef Stew 128 East Loja Oct 1, 1994 Buffalo Jerky 202 East Loja Oct 1, 1994 Chicken Dinner 161 East Loja Oct 1, 1994 Clear Refresher 73 East Loja Oct 1, 1994 Dried Grits 102 East Loja Oct 1, 1994 Dry Tissues 16 East Loja Oct 1, 1994 Extra Nougat 442 East Loja Oct 1, 1994 Fizzy Classic 46 East Loja Oct 1, 1994 Fizzy Light 65 East Loja Oct 1, 1994 Lasagna 162 East Loja Oct 1, 1994 Lots of Nuts 248 East Loja Oct 1, 1994 Onion Slices 120
Asterio K. Tanaka

Esquema Estrela de DW 5 W e 3 H (vide BPM)


When Where

What

How many How much

Why

Who

How Tipos de dimenso mais comuns

Asterio K. Tanaka

Esquema estrela com tabela de fatos Estoque e dimenses Produto, Loja e Data

Asterio K. Tanaka

Esquema estrela com tabela de fatos Itens e dimenses Produto, Promoo, Atendente, Loja e Data
Asterio K. Tanaka

Esquema estrela (constelao) com tabelas de fatos Itens e Estoque. As dimenses Produto, Loja e Data so compartilhadas e conformadas
Asterio K. Tanaka

Modelagem Dimensional
Esquema Estrela simtrico
Comparado a esquemas ER tpicos

Tabela de Fatos
Expressa relacionamento M:N entre dimenses Tabela dominante Usualmente com grande volume de dados; ocupam 90% do espao em um DW tpico Tendem a ter muitas linhas e poucas colunas

Tabelas de Dimenses
Tabelas que qualificam os fatos, com muitos campos descritivos ( comum ter dimenses com dezenas de colunas) Dimenses apresentam-se em consultas qualificadas como por dimenso (vendas por semana por marca por loja) e so as bases para agregaes e agrupamentos. Uma juno liga cada tabela de dimenso tabela de fatos Volume bem menor que as tabelas de fatos O poder de um DW diretamente proporcional qualidade e profundidade dos atributos das dimenses.
Asterio K. Tanaka

(Mais uma) Comparao entre Modelagem ER e Multidimensional


ER
1 diagrama (vrios processos de negcio)

Multidimensional
Vrios diagramas dimensionais (1 para cada processo de negcio) Usurios reconhecem o seu negcio Poucas junes Dados atmicos e agregados Planos de consultas genricos (simetria do modelo)

Usurios acham difcil entender e navegar pelo modelo Muitas junes para responder a consultas Dados atmicos Planos de consultas extremamente distintos e especficos para as consultas previstas

Asterio K. Tanaka

Tabela de Fatos
Ex: Tabelas Itens e Estoque Tabela de fatos normalizada em 3a forma normal Chave primria composta por um subconjunto das chaves das dimenses (subconjunto que garanta unicidade s vezes todas as chaves)
Vide por exemplo a tabela Itens, se houvesse uma dimenso CupomFiscal (bastariam as chaves de CupomFiscal e de Produto como chave primria)

Por ser o DW histrico, a tabela de fatos tem muitas linhas (milhes, bilhes) e poucas colunas (chaves das dimenses e medidas dos fatos). Medidas do fatos so usualmente numricas, mas podem ser no numricas ou sem medida (tabelas sem fato) Fatos so tipicamente aditivos, mas podem ser
Semi-aditivos ou mesmo No aditivos
Asterio K. Tanaka

Fatos Aditivos
Ex: Quantidade, Valor na Tabela Itens So nmericos e podem ser somados em relao s dimenses existentes
Ex: quantidade e valor podem ser somados ao longo de qualquer dimenso (Produto, Promoo, Atendente, Loja e Data)

Sempre que, em uma modelagem, um dado numrico for apresentado, ento este ser um bom indcio de um atributo em fatos. Em geral, fatos aditivos representam medidas de atividade do negcio, ligadas ao seus indicadores de desempenho (KPI Key performance indicators).
Asterio K. Tanaka

Fatos Semi-Aditivos
Ex: Quantidade na Tabela Estoque
Tambm so numricos, mas no podem ser somados em relao a todas as dimenses existentes (a semntica no permite)
Ex: quantidade em estoque s pode ser somada ao longo da dimenso Produto. Nas dimenses Loja e Data, a soma no faria muito sentido (especialmente nesta ltima, nenhum sentido)

Em geral, fatos semi-aditivos representam leituras medidas de intensidade do negcio.


So snapshots destas leituras que entram no DW. O valor atual j leva em considerao valores passados.

Fatos semi-aditivos tpicos: Nveis de Estoque, Saldos, Fechamento dirio/mensal de conta, etc...

Asterio K. Tanaka

Fatos No-Aditivos
Algumas observaes no numricas podem eventualmente ser fatos.
Ex: DW de registro de acidentes de trnsito Atributos: carro1, carro2, motorista1, motorista2, descrio do acidente, descrio do tempo e descrio da pista.

Informaes textuais so fatos que s permitem contagem e estatsticas associadas a contagens. Alternativamente, poderiam ser modeladas como dimenses ligadas a uma tabela de fatos sem fatos, isto , s para contagem.
Ex: DW de registro de inscries em turmas por disciplina, por semestre, por curso, por aluno, por professor.

Asterio K. Tanaka

Tabelas de Dimenses

Objetivo:

Contm descries textuais do negcio (fato) Atributos de dimenses servem como cabealho das linhas e colunas das anlises e filtro nas consultas e relatrios Chaves simples (em geral, artificiais: surrogate keys) Nmeros inteiros de 4 bytes: 232 > + 2 bilhes Muitas colunas (dezenas); poucas linhas (centenas ou milhares) se comparadas com tabelas de fatos Usualmente no dependente do tempo Tempo outra dimenso (quase sempre presente) Desnormalizada (em geral, na 2a forma normal) Hierarquias implcitas ( custa da 3a forma normal)
Asterio K. Tanaka

Caractersticas:

Dvida: Segunda forma normal

Informalmente:
Uma relao est em 2FN se todo atributo no-primo (isto , que no seja membro de chave) for totalmente dependente de qualquer chave.

Tabela Estoque_1 no est em 2FN


Loja_Codigo {Nome_Loja, Dados_Loja} Produto_Codigo {Nome_Produto, Dados_Produto}

Tabela Estoque_2 est em 2FN. Na verdade, est tambm em 3FN

Em geral, as tabelas de fatos so normalizadas em 3FN


Asterio K. Tanaka

Dvida: Terceira forma normal

Informalmente:
Uma relao est em 3FN se estiver em 2FN e nenhum atributo no-primo (isto , que no seja membro de uma chave) for transitivamente dependente da chave.

Tabela Produto_1 no est em 3FN


Codigo Marca_Codigo Marca_Codigo Dados_Marca

Tabela Produto_2 est em 3FN.

Num esquema estrela, as tabelas de dimenses no so normalizadas em 3FN; esto apenas em Asterio K. Tanaka 2FN.

Hierarquias de Dimenses
Uma dimenso pode ter mltiplas hierarquias alm de outros atributos descritivos Exemplos: Para a dimenso Loja
Geografia fsica: CEP, cidade, estado, regio, pas Geografia de vendas: territrio, regio, zona Geografia de distribuio: rea primria, regio

Para a dimenso Produto


Hierarquia de Marcas Hierarquia de Categorias Hierarquia de Tipo de Armazenamento

Asterio K. Tanaka

Tabelas de Dimenso
Segundo KIMBALL, as tabelas de dimenso no devem ser normalizadas pois:
1) no h atualizao freqente nas bases; 2) o espao em disco economizado relativamente pequeno; 3) esse ganho de espao no justifica a perda de performance na realizao de consultas por conta das junes necessrias em caso de normalizao.

Asterio K. Tanaka

Variaes do Esquema Estrela Esquema floco de neve


O esquema floco de neve uma variao do esquema estrela no qual todas as tabelas dimenso so normalizadas na terceira forma normal (3FN) Reduzem a redundncia mas aumentam a complexidade do esquema e consequentemente a compreenso por parte dos usurios Dificultam as implementaes de ferramentas de visualizao dos dados

Asterio K. Tanaka

Esquema Floco de Neve


Dimenses normalizadas

Fatos como no Esquema estrela


Asterio K. Tanaka

Esquema Flocos de Neve Exemplo


Ano Ano M s Ms Ano T em po pk_tempo data ms T a bela de F a tos D e V en da s pk_tempo pk_produto pk_loja P r oduto pk_produto descProd Categoria

L oja
Cida de

E s ta do

Cidade Estado

Pk_loja Cidade

Unidades_vendidas Preco_venda Preco_custo

P a s
Pas Regio

Estado Pas

M edida s
Asterio K. Tanaka

Mitos sobre Modelagem Dimensional


1. Modelos dimensionais e Data Marts so para dados sumarizados somente 2. Modelos dimensionais e Data Marts so solues departamentais, no empresariais 3. Modelos dimensionais e Data Marts no so escalveis 4. Modelos dimensionais e Data Marts so apropriados somente quando h um padro de uso previsvel 5. Modelos dimensionais e Data Marts no podem ser integrados e levam a solues isoladas
Ralph Kimball; Margy Ross. The Data Warehouse Toolkit. John Wiley, 2002 Cap. 1 Margy Ross & Ralph Kimball Fables and Facts: Do you know the difference between dimensional modeling truth and fiction? Oct 2004 http://www.intelligententerprise.com/showArticle.jhtml?articleID=49400912
Asterio K. Tanaka

Data Warehouse Bus Architecture

Definindo um barramento padro para o ambiente de DW, data marts separados podem ser implementados por grupos diferentes em tempos diferentes. Todos os processos da cadeia de valores da organizao criaro uma famlia de modelos dimensionais que compartilham um conjunto completo de dimenses comuns e conformadas.
Asterio K. Tanaka

Data Warehouse Bus Matrix


COMMON DIMENSIONS
Da te Pro duc St o t re Pro mo W a tion re h Ven ouse do Co r nt r a Sh i c t p pe r

BUSINESS PROCESSES Store Sales Store Inventory Store Deliveries Warehouse Inventory Warehouse Deliveries Purchase Orders

X X X X X X

X X X X X X X X X X X X X X X X X X

As linhas da matriz correspondem a data marts e as colunas a dimenses conformadas. A matriz a ferramenta usada para criar, documentar, gerenciar e comunicar a arquitetura de barramento. Segundo Kimball, o artefato de anlise mais importante do desenvolvimento de um DW. uma ferramenta hbrida, que serve para design tcnico, para gerncia de projeto e como forma de comunicao organizacional.
Asterio K. Tanaka

Quatro Passos da Modelagem Dimensional


1. Selecionar o processo de negcio a modelar

Um processo uma atividade de negcio natural da organizao que tipicamente suportada por um sistema fonte de colees de dados. Exemplos: vendas, compras de matria prima, pedidos, expedies, faturamento, inventrio, contas a pagar/receber. Significa especificar exatamente o que uma linha da tabela fato representa. Exemplos: uma linha de um cupom fiscal, um carto de embarque individual, um nvel dirio de estoque de cada produto, um saldo mensal de cada conta bancria.

2. Declarar o gro do processo de negcio


3. Escolher as dimenses que se aplicam a cada linha da tabela de fatos


Implica em responder pergunta: Como o pessoal do negcio descreve os dados que resultam do processo de negcio? Exemplos: data, produto, cliente, tipo de transao, status de pedido. Implica em responder pergunta: O que ns estamos medindo? Os fatos candidatos devem ser coerentes com o gro declarado no passo 2. Exemplos: quantidade, valor.
Asterio K. Tanaka

4. Identificar os fatos que iro popular cada linha da tabela de fatos


Quatro Passos da Modelagem Dimensional


Requisitos do negcio

1. Processo de negcio 2. Gro 3. Dimenses 4. Fatos


Realidade dos dados

Asterio K. Tanaka

Dicas importantes na Modelagem Dimensional


Resista tentao de simplesmente examinar as fontes de dados somente: no h substituto para o input dos usurios do negcio.
Caso exista, use um modelo de dados convencional E-R como ponto de partida para o trabalho de modelagem dimensional. Observe os relacionamentos 1:N existentes. Eles podem sugerir dimenses. Observe as entidades fortes. Elas tambm podem sugerir dimenses. Observe as entidades que expressam documentos como Nota Fiscal, Pedido, Ordem de Compra, etc. Elas podem sugerir fatos. Observe os relacionamentos M:N. Na sua interseo, pode haver valores numricos. Isto sugere fatos. Observe os atributos que estaro nas tabelas de dimenses. Analise a relao de hierarquias entre esses atributos de dimenso. Atente para os relacionamentos M:N entre eles. Isto pode definir granularidade.
Asterio K. Tanaka

Dicas importantes na Modelagem Dimensional


As tabelas FATOS, tipicamente, armazenam dados, valores atmicos ou agregados obtidos a partir destes. As medidas das tabelas FATOS so normalmente aditivas em certas dimenses (ou em todas). As tabelas FATOS possuem chaves que as conectam s diferentes DIMENSES que as circundam. Essa conexo se d num nvel de granularidade compatvel entre elas (FATO e DIMENSO). As tabelas DIMENSO armazenam os valores de filtro, acesso e textos que caracterizam os dados trabalhados. As tabelas FATOS so normalmente normalizadas (3a forma normal). As tabelas DIMENSES so normalmente desnormalizadas (2a forma normal - Esquema Estrela). A granularidade combinada da tabela FATO com a de suas tabelas DIMENSES determina o nmero de linhas das tabelas do projeto.
Asterio K. Tanaka

Modelo Entidades Relacionamentos

Asterio K. Tanaka

Exemplo de Modelagem
1. Selecionar o processo de negcio

Vendas no caixa da loja Venda individual de cada produto por loja (isto , uma linha de cada cupom fiscal de venda) Dimenses principais Data, Produto, Loja Outras dimenses descritivas relevantes possveis (compatveis com o gro escolhido) Promoo, Atendente Quantidade e Valor de cada venda
Asterio K. Tanaka

2. Declarar o gro

3. Escolher as dimenses

4. Identificar os fatos

Exemplo: esquema resultante

Asterio K. Tanaka

Dez Armadilhas a evitar no projeto de DW


(a maioria vlida para qualquer projeto de sistema) 1. Negligenciar o reconhecimento de que o sucesso do DW est amarrado aceitao do usurio. 2. Presumir que o negcio, seus requisitos e anlises, assim como os dados subjacentes e a tecnologia, so estticos. 3. Carregar somente dados sumarizados nas estruturas dimensionais da rea de apresentao. 4. Popular modelos dimensionais de forma isolada, sem levar em conta a arquitetura que os amarra juntos usando dimenses compartilhadas e conformadas 5. Tornar os dados supostamente consultveis na rea de apresentao desnecessariamente complexos.

Asterio K. Tanaka

Dez Armadilhas a evitar no projeto de DW


(a maioria vlida para qualquer projeto de sistema) 6. Prestar mais ateno no desempenho operacional e na facilidade de desenvolvimento do back-room do que no desempenho de consultas e facilidade de uso do front-room. 7. Alocar energia para construir uma estrutura de dados normalizada, mesmo estourando o oramento, do que para construir um rea de apresentao vivel baseada no modelo dimensional. 8. Atacar um projeto galtico plurianual ao invs de perseguir esforos de desenvolvimento mais gerenciveis, porm ainda desafiadores e iterativos. 9. Falhar em identificar e adotar uma gerncia influente, acessvel e razoavelmente visionria como patrocinador do negcio. 10.Tornar-se enamorado da tecnologia e dos dados ao invs de focar nos requisitos e objetivos do negcio.
Asterio K. Tanaka

Projeto de Data Warehouse = Projeto de Bancos de Dados


Requisitos de Dados
Modelagem dos requisitos de dados atravs de diagramas de Entidades e Relacionamentos (DER) ou de Classes e Objetos (DCO)

Projeto Conceitual
Esquema Conceitual

Projeto Lgico
Esquema Lgico

Mapeamento do esquema conceitual para o modelo de dados do SGBD escolhido, atravs de diagrama de estruturas de dados (DED)

Projeto Fsico
Esquema Fsico

Mapeamento do esquema lgico para os tipos de dados e restries de integridade do SGBD escolhido; criao de vises e ndices.

Asterio K. Tanaka

Esquema Estrela - Conceitual

Asterio K. Tanaka

Esquema Estrela - Lgico

Asterio K. Tanaka

Implementao do Modelo Dimensional SGBDs multidimensionais


Implementam fisicamente o modelo dimensional Problemas de desempenho, segurana e confiabilidade Problema de esparsidade: clulas onde no h dados (nulos)

SGBDs relacionais
Maior aceitao (fora do mercado de BD relacional) Exige mapeamento (como qualquer projeto de BD relacional)
Asterio K. Tanaka

Escolha do SGBD

Asterio K. Tanaka

Esquema Estrela - Fsico (Dimensional)

Asterio K. Tanaka

You might also like