Professional Documents
Culture Documents
OS METADADOS NO AMBIENTE DE
DATA WAREHOUSE
Gilberto de Come1
RESUMO
O desenvolvimento da tecnologia da informao tem permitido s
empresas manipularem um grande volume de dados e atingirem um alto
ndice de globalizao, com o uso de redes que viabilizam operaes a
nvel mundial. Em vez de vantagem, esse dados tornam-se um problema
quando esto espalhados e exigem um grande esforo na tentativa de
integr-los para que possam gerar informaes consolidadas que sirvam
de base para a tomada de deciso. Nos ltimos anos a tecnologia de
Data Warehouse vem oferecendo s organizaes, uma maneira flexvel
e eficiente de obter as informaes necessrias nos processos decisrios, e se caracteriza como uma funo de apoio para suporte deciso.
Porm, antes do Data Warehouse ser acessado eficientemente, necessrio saber, pelo menos, quais os dados que esto disponveis e onde
eles esto localizados, caso contrrio ser como tentar encontrar um
telefone sem o auxlio de uma lista telefnica. De forma simples podemos dizer que o significado dos dados est nos METADADOS. Os
metadados permitiro ao usurio transformar os dados "crus" em informaes que gerem conhecimento e tragam vantagem competitiva.
Outubro de 1999
"nada enlouquece mais um gerente que ter duas pessoas apresentando um mesmo resultado de
negcios com nmeros diferentes"
Estas situaes so bastantes comuns e podem direcionar as necessidades bsicas para um Data
Warehouse. Pode-se analisar estes problemas como oportunidades declarando-as como requerimentos.
Normalmente os sistemas de informao das empresas esto literalmente "distribudos", o que dificulta o
entendimento da corporao como um todo. A maioria dos sistemas so instalados com uma viso local e
seu principal propsito resolver um problema singular e isolado, tal como finanas, vendas, engenharia,
manufatura, etc. Embora no necessariamente incorreta, esta abordagem comea a apresentar problema
quando uma viso cruzada necessria para o entendimento da dinmica da situao. A integrao desses
dados dispersos um dos desafios do Data Warehouse (Figura 1).
A simples integrao ainda no suficiente, pois aps a coleta, os dados devem ser analisados para determinar sua significncia. Falhas na implementao de sistemas e mtodos para anlise desses dados colocaro a empresa em "desvantagem" competitiva no mercado. Quanto mais os dados se tornam disponveis,
mais complexo se torna o processo de localizar e extrair informaes realmente importantes.
Singh [SING97] nos relata um breve fato que serve para ilustrar a necessidade de informaes confiveis no ambiente organizacional: "ao final de uma palestra, o executivo encontra um grande guru da administrao e pergunta: 'Oh guru, como eu posso garantir o sucesso para minha empresa?' O guru responde:
'Informao'. Ento o executivo faz outra pergunta: 'Oh guru, e o qu eu mais devo temer?' O guru responde: 'Dados'".
Podemos notar que os dados merecem uma ateno especial; mas o que seriam esses dados? Isoladamente os dados no significam muita coisa, pois o que interessa realmente a informao. Dessa forma
necessrio fazer uma distino entre dados e informao. Conforme Tronchin [TRON98] dados so os
componentes bsicos a partir dos quais a informao criada. Informao so dados inseridos em um contexto. Contexto a situao que est sendo analisada. A partir da informao vem o conhecimento, que
permite tomar decises adequadas, trazendo vantagem competitiva.
A figura 2 mostra o esquema bsico de um ambiente de Data Warehouse, onde temos os sistemas
legados que so acessados normalmente pelos usurios da empresa e que tambm servem de fonte de dados
para o Data Warehouse. Neste ambiente as informaes podem ser acessadas de forma simples (transao)
pelos sistemas legados ou de forma analtica pelo Data Warehouse.
O Data Warehouse no simplesmente um produto, mas uma estratgia que reconhece a necessidade de
consolidar os dados armazenados em sistemas de informaes dedicados a ajudar profissionais de negcios
a tomarem decises mais rpidas e efetivas. Esta estratgia tem como objetivo principal melhorar a
performance da empresa. Quando o Data Warehouse implementado corretamente ele pode fornecer aos
seus usurios a informao que eles precisam para entender seus negcios e tomar decises buscando vantagem competitiva [SING97].
Bill Inmon [INMO97], um dos pais do Data Warehouse, prope uma definio um pouco mais tcnica,
mas que no deixa de ser interessante para uma fundamentao do tema: " um conjunto de dados orientado por assuntos, integrado, variante no tempo, e no voltil, que tem por objetivo dar suporte aos processos de tomada de deciso."
Desenvolvendo um pouco mais os termos apresentados nesta definio ns temos: Orientado por assuntos: contm informaes sobre temas especficos importantes para o negcio da empresa. Integrado:
contm dados em estado uniforme, ou seja, existe uma consistncia entre nomes, unidades das variveis,
etc. Variante no tempo: contm dados no-atualizveis que se referem a algum momento especfico. Novoltil: permite apenas a carga inicial dos dados e consultas a estes dados.
De qualquer forma, para obter as informaes, os usurios precisam entender que dados esto no Data
Warehouse e onde esses dados esto localizados, e a forma de se obter isso atravs dos "Metadados".
O que so Metadados?
De forma simples e direta, Singh [SING97] diz que os metadados so o principal componente do Data
Warehouse. A definio mais comum que se encontra na literatura sobre metadados que eles representam
"dados sobre dados". De uma forma um pouco mais completa podemos dizer que o metadado a "descrio
do dado, do ambiente onde ele reside, como ele manipulado e para onde distribudo". Uma outra forma,
mais concisa e direta, definir metadado como "documentao" [TRON98].
Metadado uma abstrao do dado. o dado de alto nvel que descreve o dado de baixo nvel. Metadado o instrumento que transforma dado "cru" em conhecimento. Pode ser til pensar em metadado como
4
uma "pina" com que se pode tratar o dado cru. Por exemplo, o metadado, na forma de definio de
campo, que informa que uma dada cadeia de bits um endereo de cliente, parte de uma imagem fotogrfica ou parte do cdigo de um programa de computador.
Como normalmente as aplicaes de mbito operacional da empresa so desenvolvidas em tempos diferentes por pessoas diferentes, no raro o surgimento de dados inconsistentes ou redundantes. Alm disso,
as organizaes costumam apresentar um outro problema comum: elas tm mltiplas fontes de dados. Cada
uma dessas fontes tem seu prprio conjunto de regras pr-definidas, convenes para nomes, e formatos de
arquivos, etc. Neste caso, praticamente impossvel para o usurio, e mesmo para o administrador, saber
que fonte de dados usar, em diferentes circunstncias.
Compreende a ampla variedade de solues e produtos voltados para o gerenciamento, organizao e explorao
da base de dados corporativa, assim como sistemas de apoio deciso.
Tipo de Data Warehouse departamental destinado a atender segmentos especficos de usurios.
5
partamento est usando suas prprias cifras, coletadas de acordo com seus prprios procedimentos e interpretadas pelas suas prprias aplicaes.
No difcil chegar a concluso que os metadados so importantes em um Data Warehouse. Mas existem algumas perguntas bsicas que tambm devem ser respondidas pelos metadados:
a consistncia dessas informaes, para que os usurios possam encontrar rapidamente uma definio para
a informao que precisam. As definies devem ser objetivas e devem evitar referncias a outros
metadados, a fim de facilitar seu entendimento.
Regras de transformao Estas regras so consideradas as regras de negcio de uma forma codificada.
Cada regra deve estar ligada a um elemento de metadado. Se uma regra utilizada em mais de uma aplicao, deve-se garantir que o resultado seja o mesmo em todas essas aplicaes.
Atualizao dos dados Normalmente, o histrico das atualizaes mantido pelo prprio banco de dados,
mas ter um elemento de metadado que possa, por exemplo, identificar a ltima atualizao de um dado pode
ser muito til para usurios que querem determinar o estado de atualidade desse dado ou examinar a consistncia de uma dimenso tempo em um Data Warehouse.
Requisitos de teste Metadados o local certo para manter os critrios de julgamento de um dado ou validao de uma tabela por uma rotina de teste. Deve-se manter um padro para esses procedimentos de teste.
Indicadores de qualidade Pode haver a necessidade de indicadores para indicar a qualidade de um elemento de dado. A fonte do dado, a quantidade de processamento aplicado ele e muitos outros fatores podem afetar a qualidade do dado. O uso do dado tambm pode ser considerado para a criao de indicadores
de qualidade.
Processos automticos (triggers6) comum a existncia de procedimentos automticos que procuram
manter a consistncia do banco de dados durante as atualizaes. Esses triggers devem estar liberados para
a consulta de usurios e desenvolvedores, a fim de evitar a criao de uma situao que possa "disparar"
um processo fora do seu contexto normal de utilizao.
Gesto das informaes A gesto (stewardship7) est associada com propriedade e responsabilidade sobre os dados. Deve-se ter definida e acessvel a informao de quem responsvel pelos dados e pela entrada de metadados em um Data Warehouse.
Acesso e segurana Quanto maior o acesso s informaes em um Data Warehouse, maior deve ser o
cuidado com a segurana dessas informaes. Os metadados devem conter informaes suficientes para
identificao de quem pode ler, atualizar, excluir ou inserir informaes no banco de dados. Tambm deve
haver informaes sobre quem controla esses direitos de acesso.
Consulta, pesquisa.
9
Em Busca de um Padro
Segundo LeBaron [LEBA97] os padres so normalmente ignorados em um projeto de Data Warehouse
porque :
"Aqueles padres podem ter servido para os velhos mainframes, mas no mundo cliente/servidor,
ns temos que ser flexveis e ento nos livrarmos das algemas daqueles velhos padres restritivos"
"Padres so vlidos para OLTP9, mas ns, certamente no precisamos deles para o Data
Warehouse".
Os padres minimizam os esforos que cada gerente de projeto deve exercer para criar seu prprio material de trabalho. Com padres, aumentam-se muito as chances de um projeto ter qualidade e sucesso. Aumenta tambm a confiana da gerncia na habilidade do gerente de projeto em entregar um produto com alta
qualidade em um ambiente controlado.
A padronizao no tem sua validade apenas no ambiente interno das empresas. Hurwitz [HURW97]
coloca que existe uma certa confuso no mercado pelo fato que cada vendedor suporta sua prpria verso
de ferramenta. Se existe, muito pequena a interoperabilidade entre as vrias ferramentas que podem ser
usadas para construir, popular, gerenciar e acessar um grande Data Warehouse. Como os metadados so
relativamente novos, as organizaes de tecnologia da informaes ainda no tm orientaes claras. Sem a
definio de um padro as empresas, muitas vezes, ficam muito dependentes dos fornecedores.
Em julho de 1995, seis vendedores de Data Warehouse Arbor Software, Business Objects, Cognos,
Evolutionary Technology International, Platinum Technology e Texas Instruments Software anunciaram
uma nova iniciativa para definir especificaes para acesso e troca de metadados entre diferentes tipos e
classes de ferramentas para gerenciamento de dados. Esse grupo de empresas recebeu o nome de "Metadata
Council".
Durante vrios encontros o conselho desenvolveu sua misso, esboou uma estrutura preliminar de metadados e formulou o conceito conhecido como "Metadata Coalition" que representa um grupo aberto a
vendedores e usurios finais que gostariam de participar na definio dos padres de metadados. O conselho
original agora atua como o comit dirigente para a Metadata Coalition, coordenando a definio dos padres e evoluo dos processos.
Em julho de 1996, o conselho anunciou o Metadata Interchange Specification (MDIS) para abordar assuntos referentes a troca, compartilhamento e gerenciamento de metadados. O MDIS consiste de componentes que representam um conjunto mnimo comum de elementos de metadados e os pontos mnimos de
integrao que devem ser incorporados em ferramentas de banco de dados para compatibilidade. O MDIS
tambm fornece padres para componentes opcionais que so relevantes apenas para uma classe particular
de ferramentas.
O desenvolvimento de uma definio e terminologia comuns envolve dois diferentes modelos de informao. O Metamodelo de Aplicao que descreve tabelas e objetos que contm os metadados para uma aplicao em particular, e o Metamodelo de Metadados que representa o conjuntos de objetos descritos pelo
MDIS. Para que o MDIS tenha sucesso necessrio que esses dois metamodelos sejam independentes.
Como os metadados so armazenados em diferentes meios e formatos, tais como tabelas relacionais, arquivos ASCII e repositrios customizados, a metodologia de acesso do MDIS deve ser bastante flexvel.
Isso requer uma estrutura (framework) que traduza um requisio de acesso de uma determinada ferramenta
para a sintaxe e formato do MDIS.
On-Line Transaction Processing processamento de transaes on-line que caracteriza o ambiente operacional.
11
CONCLUSES
Pelo que foi exposto, verificamos que o Data Warehouse a base para um sistema de suporte deciso,
tem grande importncia para as empresas que necessitam de informao para alcanar uma vantagem
competitiva no mercado, e que os metadados desempenham um papel fundamental nesse ambiente. A manuteno e a gerncia dos metadados no uma tarefa opcional e pode ser considerada to ou mais importante quanto a dos prprios dados.
Os metadados devem ser gerados em todos os passos de um processo de Data Warehousing, visando garantir as informaes necessrias a todos os usurios envolvidos, sejam eles administradores, usurios tcnicos ou usurios de negcios. So portanto um recurso chave durante todas as fases do ciclo de vida de um
Data Warehouse, desde a construo, passando pelo acesso dos usurios at a manuteno e atualizao
dos dados armazenados.
Quanto mais as aplicaes se integram (Intranet, Sistema Operacional, Data Warehouse, etc.) mais visvel se torna a necessidade dos metadados, em outras palavras, os metadados se tornaro mais crticos
quanto mais globalizada for a arquitetura dos dados.
Hurwitz [HURW97] acredita que no perodo de 1999 a 2002 haver um interesse muito grande em
capturar e reutilizar metadados em vrios sistemas e no apenas para o Data Warehouse. Como resultado
disso, um recurso de metadados nico (provavelmente um recurso virtual e distribudo) que suporte DSS,
OLTP, sistemas internos e sistemas externos se tornar uma necessidade crucial para o projeto, desenvolvimento e gerenciamento de sistemas em larga escala.
BIBLIOGRAFIA
CAMPOS, Maria Luiza, ROCHA FILHO, Arnaldo V. Data Warehouse disponvel em
http://tartaruga.nce.ufrj.br/dw/tutorial/inicio.htm
WHAT IS METADATA Data Warehousing Tool Bulletin, January 1996 disponvel em
http://www.computerwire.com/bulletinsuk/212e_1a6.htm
GARDNER, Stephen R., The Quest to Standardize Metadata BYTE Magazine, November1997
disponvel em http://www.byte.com/art/9711/sec4/art3.htm
HURWITZ, Judit, Preparing for the Warehouse DBMS Magazine, April 1996 disponvel em
http://www.dbmsmag.com/9604d04.html
HURWITZ, Judit, The Evolution of Metadata DBMS Magazine, July 1997 disponvel em
http://www.dbmsmag.com/9707d04.html
INMON, Willian H., Como construir o Data Warehouse - 2a ed. Rio de Janeiro: Campus, 1997
KIMBALL, Ralph, The Data Warehouse Toolkit: practical techniques for building Dimensional Data
Warehouse John Wiley & Sons, Inc. 1996.
LEBARON, Mike, ADELMAN, Sid, Meta Data Standards DM Reviews Magazine, December 1997
disponvel em
http://www.dmreview.com/issues/1997/dec/articles/dec97_36.htm
MARCO, David, Managing Meta Data DM Review Magazine, March 1998 disponvel em
http://www.dmreview.com/issues/1998/mar/articles/mar98_58.htm
SATAYA P. Sachdeva, Meta Data Architeture for Data Warehouse
DM Review Magazine, April 1998 disponvel em
http://www.dmreview.com/issues/1998/apr/articles/apr98_66.htm
SINGH Harry, Data Warehousing: Concepts, Technologies, Implementations, and Management Upper
Saddle River, NJ: Prentice Hall, 1997
12
TANLER, Richard & FROME, Jim, The expanding role of enterprise meta data DM Review
Magazine, October 1997 disponvel em
http://www.data-warehouse.com/resource/articles/oct97_74.htm
TRONCHIN, Valsoir, Anlise, Modelagem e Implementao de Data Warehouses So Paulo:
Fenasoft/98 em 20/07/98
WANG, Charles B., Techno Vision II So Paulo: Makron Books, 1998
13