Professional Documents
Culture Documents
As Metas
Aprender arquitetura do ETL Decompor o problema em partes manejveis Aplicar tcnicas que podem ser usadas novamente Investigao dos detalhes sem perder perspectiva! Desenvolver julgamento para evitar retrabalho ou deixar de fora capacidades importantes
Planejamento
Preparar desenvolvimento ETL: desenvolvendo as perspectivas essenciais do projeto Subsistemas 1-3: profiling, change data capture, and extraction Subsistemas 22-24: agendamento de job, tratamento de exceo, backup, recovery e restart Tratando os dados: subsistemas 4-7, 28 Conformidade, resolvendo os desafios da integrao: subsistema 8 Subsistemas 25-27, 29-30 controle de verso, migrao de sistema e teste Arquitetura de ETL em tempo real
O desafio do ETL
Custo eficaz Confivel Extensvel Compatvel Observvel Seguro Sistema manejvel para trazer os dados para o data warehouse e deix-lo pronto para consulta do usurio final.
Todos entendem E, T, L
E:
T:
L:
prepare to start
Conhecer os dados
judge data
Isolar as alteraes
isolate changes
Carregar no DW
get into DW
T: Tratar e conformar
cleaning machinery
Controle de limpeza
cleaning control
Integrao
integration
keys
Chaves
admin
Administrador
hierarchies
Hierarquias
bridges
Tabelas pontes
control
Proteger
source
Responder
Origem
respond
Velocidade
speed guard
Conformidade Guardar
comply
Gerenciar
manage
Necessidades do negcio
Comece identificando os assuntos das reas de deciso Conduzir as reunies com usurios Identificar os indicadores de performance esperado (KPIs) Expandir as aplicaes analticas (AAs):
Consultas e relatrios Isolar e enfatizar a importncia de encontrar as chaves Identificar as causas e conseqncias Acompanhar as decises tomadas atualmente
Indicadores de performance
Operao de manufatura
Variao dos custos padres vs. localizao Tempo do ciclo de venda vs. equipe de venda Tempo de resoluo das questes vs. treinamento dos empregados Quantidade de passos para completar uma compra
Operaes de venda
Call Center
Web Site
Recursos humanos
Anlise de comportamento
Antecipar-se para as necessidades do usurio Ligar a pesquisa instantnea do cliente com visita, aspecto demogrfico, histrico de compras. Ex: site da Amazon. Acompanhar as promoes personalizadas e as ligaes de siga-me Durao das visita e quanto tempo o cliente demorou para retornar Sucesso de vendas associadas Tempo de latncia: quanto tempo demorou para vender o produto aps a sua primeira exposio Uso de inventrio online, mostra resposta de produto esgotado/ fora de estoque Reao a apresentao da mercadoria
18
Compliance
Identificar normas legais e financeiras especficas e de cumprimento imediato Determinar os requisitos especficos para o cumprimento destas normas Para ser seguro: Prove que o resultado final derivado do sistema origem Prove que os dados originais no foram modificados Documentar as transformaes usadas
Segurana
Dados do perfil de armazenamento de dados por nveis de sensibilidade Chegar a um acordo com os usurios finais e executivos
Incluso de dados sensveis Uso de perfis para acesso aos dados Responsabilidade para administrar os perfis e permitir acesso telas de usurios finais
Configurar redes e comunicaes Monitorar os usurios internos e as aes do administrador Proteger a mdia fsica incluindo backup
Conduzir os direitos no perfil do usurio Determinar as pastas visveis ao usurio conforme a sua classe ou grupo
Posio no mercado
Current Marketplace ETL Tool Suite Offerings
Microsoft SQL Server 2005 Integration Services (219,000 hits) Oracle Warehouse Builder (102,000 hits) Informatica PowerCenter (93,600 hits) Cognos DecisionStream (27,200 hits) SAP BusinessObjects Data Integrator (12,400 hits) Ab Initio Software (near impossible to evaluate) (9,380 hits) ETI (Evolutionary Technologies International) (7,810 hits) Ascential DataStage (acquired by IBM, now Websphere Information Integration) (7,430 hits) Data Flow Server (acquired by Group 1, Pitney Bowes Co.) (2,890 hits) DataMirror Transformation Server (2,460 hits) Hummingbird ETL (2,130 hits) IBM DB2 Data Warehouse Manager (1,710 hits) SAS Enterprise ETL Server (1,110 hits) Pentaho Talend
1: Data Profiling
Objetivos Conhecer a preciso de dados, contedo e relevncia da fonte Ateno com os dados que devem ser fixados antes da extrao Fornecer uma lista, mais completa possvel, com as transformaes que devem ocorrer aps a extrao dos dados Gerar essas transformaes diretamente das ferramentas de data profiling Incorporar essas transformaes no fluxo de ETL
Executar CDC no sistema origem ou no sistema de ETL Confie em um tipo de entrada mas vincule o total da origem com as consultas de auditoria Substituir os campos de data nulos por datas 01-01-0001 Para comparar uma tabela preciso a foto completa do perodo anterior
3: Extract
Objetivos
Copiar os dados da origem para o data warehouse usando biblioteca de maior rendimento possvel Puxar, empurrar, ou stream de dados dirigidos pelo agendamento de job e alertas Verificar se o formato do campo compatvel com data warehouse e quando necessrio converter para formatos suportados pelo data warehouse Carregar o modelo dimensional, esquemas normalizados e flat files Fase de extrao dos dados temporrios
capacita
obriga para
descreve
SOA Architecture
Promessas tradicionais Unido fracamente Padres abertos (UDDI, WSDL, SOAP, XML) Sobering Lessons SOA fora a organizao a confrontar
Integrao e qualidade dos dados Muda o gerenciamento, medidas de qualidade, conformidade, segurana, privacidade, auditoria
40
42
3: ETL Targets
Flat Files Formato universal independente do DBMS, bom para arquivo a longo prazo Manipulao eficiente diretamente da linha de comando Notvel leitura, atualizao e acesso aleatrio no bom Agregaes usando quebra de linha bem eficiente
23: Backup
Objetivos
Copiar os dados do data staging e da partio em tempo real para local mais seguro: Arquivo histrico, Restart incremental
Falha de memria Espao de tempo, espao de dados, espao de ndice Falha no data quality Atualizao do sistema sem aviso prvio
til para restart, backout, updating Salvar as chaves para serem substitudas no processo de atualizao
Montar descrio temporal seriada de dados deficiente e as medidas tomadas Unir os dados tratados com os atuais para gerar relatrios diretos de qualidade
Dimenso de auditoria
PowerCenter Session
Decision Task
6: Audit Dimension
Objetivos
Capturar os metadatas completos para criao e contexto de qualidade de cada registro da tabela fato Anexar esses metadados para cada tabela fato como uma dimenso Use contexto de dimenso para os relatrios de auditoria instrumentado
7: Deduplicating
Objetivos
Membros dimensionados de-duplicados dentro e atravs de tabelas de dimenso Implementar procedimento de sobrevivncia para integrar os dados de fontes mltiplas
Se a origem possui referncia duplicada ento se pode implementar dimenso multivalor com a tabela ponte
8: Conforming
Objetivos
Habilitar o drill across em ambientes com mais de uma tabela fato Aplicar domnios comuns de dados para campos designados nas tabelas dimenses conformadas Aplicar as regras de negcio comuns para os campos designados nas tabelas fatos conformados
Uma dimenso que um subconjunto perfeito de linhas e colunas considerado conformed dimension O contedo das colunas comuns devem ser equivalentes (mesmo domnio)
Turns 21 14 23
8: Conforming
Questes de arquitetura preciso definir bem o que ser entregue pelo gerente da dimenso
Apenas um subconjunto de dimenses ou dimenses completas Mapeamento das SK nas tabelas de destino Dimenses snowflake encolhidas para suportar agregados
Precisa de detalhamento lgico para atualizar dimension version numbers Precisa de ferramenta instrumentada que realize drill across para usar dimension version numbers Os membros duplicados da dimenso precisam de ponteiros para todas as chaves naturais (NK) dos registros na origem
Conjunto de fotos armazenadas com o objetivo de salvar e restaurar o contexto completo do ETL. Numerar as verses
Mensurar performance da infraestrutura incluindo CPU, memria, disco, banco de dados e utilizao do servidor
Processador, banco de dados, memria, disputa do disco Rotina de uso de tabelas, ndices, agregados
Lower level discrete row counts per partition (flow always runs in parallel)
Lineage: comeando com um elemento de dados especficos em uma tabela intermediria ou um relatrio de um usurio final, identificar a origem dos dados, as tabelas intermedirias que contm aqueles dados e a origem deles, e todas as transformaes que o elemento de dados e a origem foram submetidas Dependncia: comeando com um elemento de dados especficos em uma tabela de origem ou uma tabela intermediria, identificar todas as tabelas intermedirias e relatrio de usurio final que contm esse elemento de dado ou derivado dele e todas as transformaes aplicadas no elemento de dado e suas derivaes
Oracle table
BO table
This is selected
Extenso fsica separada de tabela fato existente, contendo apenas as atividades novas desde a ltima carga das tabelas estticas Na memria, sem ndices, sem agregaes
86
800 MB/dia
Ferramenta de BI pesquisa periodicamente a base de dados com consultas idnticas se estiver usando tabelas estticas e hot tables, juntando-as. No h necessidade de consulta separada se a hot partition for uma partio real.